版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(1)监督学习(2)无监督学习(3)半监督学习(4)强化学习(1)特征(2)标签(3)在监督学习中的作用(1)数据收集:获取相关数据集(2)数据预处理:清洗数据,处理缺失值和异常值(3)特征工程:选择和构造有意义的特征(4)模型选择:选择合适的算法(5)模型训练:使用训练数据学习模式(6)模型评估:测试模型性能(7)模型部署:将训练好的模型投入使用(1)需要注意的问题数据偏差:代表性不足(2)重要性数据质量直接影响模型性能垃圾数据导致垃圾结果5.模型训练和评估的目的是什么?常用的评估指标有哪些?(1)训练目的学习数据中的模式和关系(2)评估目的检验模型的泛化能力(3)常用评估指标回归问题;均方误差、平均绝对误差6.什么是棋型调优?列举几种常用的调优方法。优化模型参数以提高性能(2)常用方法交叉验证网格搜索随机搜索(1)优势丰富的库生态系统强大的社区支持(2)常用库Scikit-leam;传统机器学习8.机器学习当前面临的主要挑战有哪些?请简要说明数据隐私和模型可解释性的重要性。(1)主要挑战数据隐私和安全模型可解释性(2)数据隐私重要性(3)模型可解释性重要性(1)定义基于多层神经网络的机器学习方法(2)与传统机器学习的区别自动特征提取vs手动特征工程处理更复杂的问题需要更多数据和计算资源在图像、语音、自然语言处理等领域表现突出第二章1.简述马氏距离与欧氏距离的区别,以及马氏距离的优势。(1)欧氏距离·普通几何距离,直接计算点之间的直线距离·假设各维度独立且同等重要(2)马氏距离·考虑数据协方差结构的距离度量·考虑了特征之间的相关性(3)马氏距离的优势·不受量纲影响,自动处理不同尺度特征·考虑特征相关性,更符合实际数据分布·对异常值不敏感计算过程:余弦相似度=10/(V14×√14)=10/14≈0.7143.假设有两个集合A={1,0,1,0},B={0,1,1,0},计算它们的Jaccard系数和Dice系数。Jaccard系数:·交集:A∩B={第3位都为1)→|A∩B|=1·并集:AUB={第1,2,3位至少一个为1)→|AUB|=3Dice系数:4.简述肯德尔距离的定义,它主要用于衡量什么对象之间的相似程度?·衡量两个排序列表中逆序对的数量·基于元素对的一致性进行度量(2)主要应用:·衡量排名列表之间的相似性·比较不同推荐系统的排序结果·评估搜索结果的排序质量5.在计算文本相似度时,Tanimoto系数和Jaccard系数有哪些相同点和不同点?(1)相同点:·都用于衡量集合相似性·都基于交集与并集的关系(2)不同点:·对于二元向量,两者计算结果相同6.说明肯德尔相关系数中元素对的一致性和不一致性是如何判断的,并解释其在分析变量相关性中的作用。(1)一致性与不一致性判断:·一致性:两个元素在两组排序中相对顺序相同·不一致性:两个元素在两组排序中相对顺序相反·衡量两个变量排序的一致性·用于非参数统计检验·对异常值不敏感,适用性广7.已知股票A在5个交易日的收盘价分别为[12,13,15,14,16],股票B的收盘价为|12-11|+|13-14|+|15-16|+|14-13曼哈顿距离=5fromsklear.metrics.pairwiseimportmanhattan_distances,euclidean_distances,cosinedf=pd.read_csv('stock_prices.csv',i#提取股票数据(排除日期列)stock_data=df.iloc[:,1:].T#转置,使每行代表一只股票#计算三种相似度/距离#获取两只股票的价格向量vec1=stock_data.iloc[i].values.reshapvec2=stock_data.iloc[j].values.reshap#计算距离和相似度manhattan_dist=manhattan_distances(vec1,veceuclidean_dist=euclidean_distances(vec1,vec2)[0][0]cosine_sim=cosine_similarity(vec'Manhattan_Distance':maEuclidean_Distance':euclid)#创建结果DataFrame并保存result_df=pd.DataFrame(resresult_df.to_esv'stock_similarity_results.csv',index(1)含义:(2)典型场景:(1)精确率(2)召回率4.给定一个分类模型的结果:真正例(TP)=50,假正例(FP)=10,假反例(FN)=5,真反例(1)给定数据:(2)计算过程:·总样本数=50+10+5+100=165·正确预测数=TP+TN=50+100=150·准确率=150/165≈0.909=90.9%(1)推荐指标:·F1分数(精确率和召回率的调和平均数)(2)原因:·F1分数同时考虑了精确率和召回率,能更好反映模型真实性能(1)工作流程:·URL管理:维护待爬取URL队列(2)关键技术:·HTML解析(BeautifulSoup、Ixml)·请求处理(处理Cookie、Sessio·反爬虫应对(设置延迟、使用代理)(1)给定数据:(2)计算过程:(1)明确需求(2)资源评估(3)法律合规(4)技术准备(1)学术数据集·UCI机器学习仓库(2)政府开放数据(3)行业数据集(1)检测方法(2)原理(1)定义·每次用K-1个子集作为训练集,剩余1个作为测试集(2)提高评估准确性的原因(1)均值计算总和;3+5+7+9+11=35均值:35÷5=7(2)标准差计算(1)URL管理(2)网页下载·处理各种响应状态码(200、404、500等)(3)内容解析(4)数据存储(5)反爬虫应对1.阐述使用k-NN算法填充缺失值的思路及实现步骤。(1)思路:(2)实现步骤:1、选择距离度量方法(如欧氏距离)2、确定k值(通常通过交叉验证选择)·用这k个邻居的该特征均值(连续变量)或众数(分类变量)填充缺失值4、重复直到所有缺失值被填充(1)标准化(Z-score标准化)·结果:均值为0,标准差为1(2)归一化(Min-Max标准化)(3)主要区别:判断:不正确数据?(1)缺失值填补方法:·分类变量:众数、模型预测填充(2)异常值处理方法:·删除:明显错误且数量少的异常值·替换:用截断值、均值、中位数替换·转换:对数转换、分箱处理(3)选择依据:·数据量大小5.请简述主成分分析(PCA)是如何帮助降低数据的维度的,并举例说明其应用场景。(1)降维原理:·寻找数据方差最大的方向作为主成分·将原始特征投影到新的坐标系·选择前k个主要成分,保留大部分方差(2)应用场景:·图像压缩:减少像素维度·数据可视化:高维数据降为2D/3D·特征提取:去除噪声和冗余特征6.在运动会上,小红在女子组跳远比赛中跳了4.2m,小明在男子跳远比赛中跳了4.8m。由于分组不同,无法直接比较成绩。女子组成绩G1=[3.5,3.8,3.2,4.0,3.6,4.3,3.9,3.7,4.1,3.4],男子组成绩G2=[4.2,4.4,4.1,4.5,4.6,4.8,4.3,4.7,4.9,4.0]。请用z-score标准化方法来评估哪组成绩更有竞争力。(1)女子组G1计算;均值:3.75标准差:0.32小红成绩z-score:(4.2-3.75)/0.32=1.41(2)男子组G2计算;均值:4.45标准差:0.29小明成绩Z-score:(4.8-4,45)/0.29=1.21(3)结论:小红的Z-score(1.41)高于小明(1.21),说明在各自组内,小红的相对表现更好,女子组成绩更有竞争力。7.某公司希望分析其销售业绩的变化与广告投入和季节变化之间的关系,公司收集了过去100天的销售数据见表5-17和表5-18,记录了每一天的广告投入情况以及是否处于旺季。请使用卡方检验哪个因素对销售业绩有更显著的影响。低广告28.3516.65季节因素的卡方检验:旺季增长下降期望值:增长下降旺季22.7512.25结论;·广告投入的卡方值(12.08)>季节因素的卡方值(10.16)·两个因素都对销售业绩有显著影响·广告投入的影响比季节因素更显著1.机器学习算法通常可以分为哪些类别?请简要说明各类别的特点。(1)监督学习·特点:使用标注数据训练,预测已知目标·子类:分类、回归(2)无监督学习·特点:无标注数据,发现数据内在结构·子类:聚类、降维、关联规则(3)半监督学习(4)强化学习2.监督学习与无监督学习的主要区别是什么?请举例说明。(1)监督学习·例子:垃圾邮件分类(输入:邮件内容,输出:是否垃圾邮件)(2)无监督学习·例子:客户细分(输入:客户行为数据,输出:客户分组)3.什么是聚类?聚类算法的主要目标是什么?(1)定义:将相似的数据点自动分组的过程(2)主要目标:(1)线性关系:自变量与因变量存在线性关系(2)独立性:观测值相互独立(3)同方差性:误差项方差恒定(4)正态性:误差项服从正态分布(5)无多重共线性:自变量间相关性不强5.什么是岭回归?它是如何解决普通线性回归问题中的多重共线性问题的?(1)定义:在线性回归损失函数中加入L2正则项(2)解决多重共线性:公式:损失函数=MSE+a×2(系数2)6.朴素贝叶斯算法的基本假设是什么?这种假设是否合理?(1)基本假设:特征之间条件独立(2)合理性分析:7.k近邻算法(KNN)的工作原理是什么?它有哪些优缺点?如何选择K值?K值的大小(1)工作原理:(2)优点:(3)缺点:importmatplotlib.pyplotasp#生成二维数据集X,y_true=make_blobs(n_samples=100,centers=3,n_features=2,random_state=42,cluster_stdkmeans=KMeans(n_clusters=3,random_stay_kmeans=kmeans.fit_predi#绘制聚类结果plt.figure(figsize=(10,plt.scatter(X[:,0],X[:,1],c=y_kmeans,s=50,cmap=viri#绘制聚类中心centers=kmeans.clusteplt.scatter(centers[:,0],centers[:,1],c='red,s=200,alpha=0.8,marplt.title('K-Means聚类结果)plt.xlabel(特征1)plt.show(一个DecisionTreeClassifier并绘制决策树结构。fromsklearn.datasetsimpofromsklearn.treeimpofromsklearn.model_selectionimporttraimportmatplotlib.pyplotasp#加载鸢尾花数据集X,y=iris.data,iris.t#划分训练测试集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_#训练决策树dtree=DecisionTreeClassifier(max_depth=3,ra#绘制决策树plt.figure(figsize=(15,1plot_tree(dtree,feature_names=iris.feature_nclass_names=iris.target_namesplt.show()#评估模型accuracy=dtree.score(X_#创建环境env=gym.make('FrozenLake-vI',is_sl#初始化Q表Q=np.zeros([env.observation_space.n,env.acti#超参数#选择动作(e-贪婪策略)ifrandom.uniform(0,1)<0.1:action=env.action_space.sample()#探索action=np.argmax(Q[state])#利用#执行动作next_state,reward,done,info=env,step(aQ[state,action]=(1-learning_rate)*Qs#测试训练好的智能体state,reward,done,info=eprint(f"步骤{steps):第七章(1)数字类型·int:整数计算、计数·float:科学计算、测量值(2)序列类型·str:文本处理、日志记录·list:数据集合、临时存储·tuple:不可变数据、配置参数(3)映射类型(4)集合类型(5)布尔类型·bool:条件判断、状态标记(2)对象(3)关系(1)生成器概念(2)与迭代器区别(1)NumPy数值计算、数组操作(2)Pandas数据清洗、数据分析(3)Scikit-learn特征缩放、编码转换5.简述pandas中Series和defintroduce(self):print(f"大家好,我叫{self.nam#创建学生对象#调用方法defguess_number_game();target=random.randint(ifguess<target:print("猜小了,再试试!")elifguess>target:print("猜大了,再试试!")print(f"恭喜你!猜对了!用了{attempts}次尝试。")breakprint("请输入有效的数字!")#运行游戏matrix=np.random.randprint("随机矩阵:")#计算统计量mean_value=np.mean(mmin_value=np.min(matrix)fromsklearn.linear_modelimportLin#房屋面积和价格数据X=np.array([50,60,70,80,90,100,110,120,130,140]).reshape(-y=np.array([100,120,140,160,180,200,220,240,260,28#创建并训练模型model=LinearRegress#预测150平方米房屋价格predicted_price=model.predict(area_importmatplotlib.pyplotasp#组合成二维数组kmeans=KMeans(n_clusters=3,random_stalabels=kmeans.fit_pr#绘制聚类结果plt.figure(figsize=(10,cluster_points=data[labels==i]plt.scatter(cluster_points[:,0],cluster_points[:,1].c=colors[i],label=f类别(i+1},s=100)#绘制聚类中心centers=kmeans.clusteplt.scatter(centers[:,0],centers[:,1],markerplt.title('K-means聚类结果)plt.xlabel(X坐标)plt.ylabel('Y坐标)plt.grid(True,alpha=0plt.show)print("聚类中心坐标:")fori,centerinenumera(1)数据准备阶段(2)模型构建阶段(3)评估优化阶段(1)相似点(2)区别·KNN:基于实例的学习,惰性学习·K-means:无监督聚类,发现数据分组(1)分类问题评估(2)回归问题评估(3)聚类评估importmatplotlib.pyp#生成数据#真实参数true_w=np.array([2,-#生成特征和标签X=np.random.randn(n_samples,n_featepsilon=0.1*np.random.randny=X@true_w+true_b+ep#训练线性回归模型model=LinearRegress#预测和评估y_pred=model.predicmse=mean_squared_error(y,y_#可视化结果(选择第一个特征进行可视化)plt.figure(figsize=(10,plt.scatter(X[:,0],y,alpha=0plt.scatter(X[:.0].y_pred,alpha=0.5,laplt.xlabel(特征1)plt.ylabel(目标值)plt.show(fromsklearn.datasetsimpofromsklearn.metricsimportaccuracy_score,#加载数据X,y=iris.data,iris.t#选择两类进行分类(简化问题)#划分训练测试集X_train,X_test,y_train,y_test=train_test_split(X_binary,y_binary,test_size=0.3,#训练逻辑回归模型model=LogisticRegresmodel.fit(X_train,y_ty_pred=model.predict(X_y_prob=model.predict_proba(X_test)#评估模型accuracy=accuracy_score(y_mse=mean_squared_error(y_test,y_cm=confusion_matrix(y_tprint(classification_report(y_test,y_pr#可视化混淆矩阵plt.figure(figsize=(8,sns.heatmap(cm,annot=True,fmt=plt.title('混淆矩阵')plt.ylabel(真实标签)plt.xlabel(预测标签)plt.show(表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。wine数据集是来自icsucidatasets的公开数据集。请对wine葡萄酒数据集进行全特征KNN。给出模型评估、散点图与混淆矩阵。importmatplotlib.pyplotaspfromsklearn.datasetsimpofromsklearn.model_selectionifromsklearn.neighborsimportKNeighbofromsklearn.metricsimportaccuracy_scorefromsklearn.preprocessingimportSt#加载葡萄酒数据集X,y=wine.data,wine.t#数据标准化X_scaled=scaler.fit_transfo#划分训练测试集X_train,X_test,y_train,y_test=train_test_split(X_scaled,y,test_size=0.3,random#训练KNN模型knn=KNeighborsClassifier(n_neighbknn.fit(X_train,y_tr#预测和评估y_pred=knn.predict(X_taccuracy=accuracy_score(y_cm=confusion_matrix(y_tprint(classification_report(y_test,y_pr#可视化混淆矩阵plt.figure(figsize=(8.sns.heatmap(cm,annot=True,fmtxticklabels=wine,targetyticklabels=wine.target_plt.title('葡萄酒分类混淆矩阵-KNN')plt.ylabel(真实类别)plt.xlabel(预测类别)plt.show(pca=PCA(n_componentsX_pca=pca.fit_transform(X_scplt.figure(figsize=(10,plt.scatter(X_pca[y==i,0],X_pca[y==ic=colors[i],label=wine.target_names[plt.xlabel(第一主成分)plt.ylabel(第二主成分)plt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 凉山州公安局2026年公开考试招聘警务辅助人员(30人)笔试备考题库及答案解析
- 2026中国电科8所校园招聘笔试备考试题及答案解析
- 2026广东江门市人民医院人才招聘计划笔试模拟试题及答案解析
- 初中历史教学中的情境创设与问题引导策略教学研究课题报告
- 2026年物联网智慧城市创新报告及未来五至十年城市科技报告
- 2026年教育主题书店合作出版合同
- 2026年排烟系统安装合同
- 2026年厨具销售合同
- 2026年医疗健康社区服务协议
- 2026年医疗团队建设与管理协议
- 医疗器械胰岛素泵市场可行性分析报告
- 2025年《处方管理办法》培训考核试题(附答案)
- 租金催缴管理办法
- 种植业合作社账务处理
- JJF 2266-2025血液融浆机校准规范
- 公司两权分离管理制度
- 紫砂陶制品行业深度研究分析报告(2024-2030版)
- 餐饮公司监控管理制度
- 种鸡免疫工作总结
- 河南省商丘市柘城县2024-2025学年八年级上学期期末数学试题(含答案)
- 教育机构财务管理制度及报销流程指南
评论
0/150
提交评论