第5章 习题答案_第1页
第5章 习题答案_第2页
第5章 习题答案_第3页
第5章 习题答案_第4页
第5章 习题答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE47PAGE第5章机器学习基础与应用习题与实验一、选择题1.以下关于机器学习与人工智能关系的描述中,正确的一项是()。A.人工智能是机器学习的子领域,两者是包含与被包含的关系。B.强化学习和深度学习是独立于机器学习的全新技术领域,与机器学习无关。C.机器学习是人工智能的一个分支,强化学习和深度学习均属于机器学习的子领域。D.人工智能和机器学习是同一概念的不同表述,二者无本质区别。2.监督学习和无监督学习的主要区别是()。A.监督学习需要大量计算资源,无监督学习不需要B.监督学习使用标签数据,无监督学习不使用标签数据C.监督学习只能处理数值数据,无监督学习可以处理文本数据D.监督学习用于分类任务,无监督学习用于回归任务3.以下任务属于无监督学习的是()。A.预测房价B.手写数字识别C.垃圾邮件分类D.客户分群4.下列算法属于无监督学习的是()。A.k均值B.kNNC.SVMD.决策树5.过拟合(Overfitting)的主要表现是()。A.模型在训练集和测试集上表现均差B.模型在训练集上表现好,但在测试集上表现差C.模型在训练集上表现差,但在测试集上表现好D.模型对噪声数据完全不敏感6.在二分类问题中,若正负样本比例严重失衡(如1:99),更合适的评价指标是()。A.准确率(Accuracy)B.均方误差(MSE)C.F1分数(F1-Score)D.余弦相似度(CosineSimilarity)7.强化学习的核心机制是()。A.通过标签数据直接优化模型B.智能体通过环境反馈(奖励/惩罚)学习策略C.从无标签数据中发现隐藏结构D.仅依赖历史数据进行预测8.在强化学习中,可以通过如下操作得到一个最优的策略()。A.在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望B.在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,马上获得最大反馈值C.在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在到达终止状态时,该终止状态可获得最大期望D.在每一步中,当位于当前状态时,总是随机采取一个动作二、问答题1.什么叫机器学习?简述其关键进展。答:机器学习是指研究“学习算法”的一门学科,它用计算机模拟和实现人类的学习行为。其核心思想是系统无需依赖硬编码指令,而是通过大量数据自主演化来获得解决问题的能力。具体而言,将训练数据输入给学习算法,算法据此生成计算模型,再用测试数据输入模型以输出结果。机器学习的理想状态是得到一个理想计算模型f(x)f(x),但实际中通常用函数g(x)g(x)去逼近,并通过准确率等指标对模型效果进行评价。机器学习的关键进展(2)经典方法阶段:早期主要基于统计学和优化理论,代表性方法包括决策树、k-近邻算法(kNN)、支持向量机(SVM)、线性回归、逻辑回归、k均值聚类等。这些方法结构相对简单,但依赖人工设计的特征,限制了其在复杂任务中的应用。(2)神经网络复兴:进入21世纪,多层感知机和反向传播算法的普及使得模型能够自动学习特征,减少了对人工干预的需求。随着互联网数据量剧增,这些模型的优势愈发明显。(3)深度学习提出(2006年):杰弗里·辛顿等科学家提出深度学习概念,通过构建深层神经网络模拟人脑多层次处理,极大提高了模型的表示能力和学习效率。深度学习在图像识别(如卷积神经网络CNN、ResNet、VGG、YOLO)、语音识别等领域取得重大突破。(4)自然语言处理飞跃:传统规则基方法被统计建模(如隐马尔可夫模型HMM、条件随机场CRF)取代,近年来预训练模型(如BERT、GPT系列)的出现使得机器理解和生成语言的能力达到新高度。(5)强化学习突破:模拟通过试错来学习的行为,Q学习、深度Q网络(DQN)在游戏中表现惊人,AlphaGo的胜利将其推向公众视野。2.简述机器学习的基本流程。答:收集数据;输入数据;数据预处理:数据清洗、数据变换、数据归约;模型训练和测试;模型评估。3.机器学习有哪些类型?各有哪些主要的学习算法?答:机器学习可以分为监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)、半监督学习(semi-supervisedlearning)和强化学习(reinforcementlearning)4类。监督学习使用已标注好的训练数据将已有知识应用于新数据,以预测未来事件。监督学习的主要任务包括分类(classification)和回归(regressive)。分类学习算法主要有决策树、k近邻、支持向量机等。无监督学习不需要人工标注的训练数据,它是基于统计的学习方法,通过对未知结果的数据进行分析来发现数据隐藏特征。无监督学习中最常见的任务是聚类,它根据事物之间的相似性,将相似的事物归为一簇(cluster)。例如k均值聚类算法(k-means算法)。半监督学习是监督学习和无监督学习相结合的一种学习方法,它自动地利用好大量无分类标签的训练数据以辅助少量有标签的训练数据进行学习。强化学习强调智能主体在奖励或惩罚的环境刺激下如何做出能取得最大化预期利益的行动,也就是说,让智能主体在环境中自我学习。4.“分类”与“聚类”的区别是什么?答:分类是在已知答案的指导下进行预测,聚类是在没有答案的情况下自行寻找数据的内在结构。(1)学习方式不同:分类是有监督学习,依赖有标签的训练数据集进行模型训练;聚类是无监督学习,不需要事先定义类别或标签。(2)类别定义不同:分类的类别是已知的、预定义的;聚类的类别是未知的,是在过程中根据数据相似度自动生成的。(3)核心目标不同:分类的目标是学习一个模型,将新数据划分到预定义的类别中;聚类的目标是将数据根据相似性组织成若干个自然簇。(4)应用场景不同:分类适用于类别确定的场合(如垃圾邮件检测);聚类适用于探索性数据分析(如市场细分)。(5)结果解释不同:分类结果容易解释,可给出概率或置信度;聚类结果可能需要进一步分析和解释,可能存在意外分组。5.有一个疾病检测模型,实际类别和预测类别如表5-6所示,计算相关机器学习评价指标。表5-6疾病检测实际类别和预测类别实际类别预测类别阳性(感染)阴性(健康)总计阳性(感染)30(TP)5(FN)35阴性(健康)10(FP)55(TN)65总计4060100答:符号解释:TP(TruePositive):实际为阳性,预测为阳性(正确预测感染)。FP(FalsePositive):实际为阴性,预测为阳性(误诊为感染)。FN(FalseNegative):实际为阳性,预测为阴性(漏诊感染)。TN(TrueNegative):实际为阴性,预测为阴性(正确排除感染)。评价指标计算:(1)准确率(Accuracy)Accuracy=(NTP+NTN)/(NTP+NTN+NFP+NFN)=(30+55)/100=0.85(85%)意义:模型整体预测正确的比例。(2)精确率(Precision)Precision=NTP/(NTP+NFP)=30/(30+10)=0.75(75%)意义:预测为阳性的样本中,实际为阳性的比例(控制误诊率)。(3)召回率(Recall)Recall=NTP/(NTP+N)=30/(30+5)≈0.857(85.7%)意义:实际为阳性的样本中,被正确预测的比例(控制漏诊率)。(4)F1分数(F1-Score)公式:F1=2·Precision·Recall/(Precision+Recall)=2(0.75·0.857)/(0.75+0.857)≈0.792(79.2%)意义:精确率和召回率的调和平均,平衡两者的重要性。三、实验题1.使用Scikit-learn库,通过make_moons函数生成一个具有2000个样本的数据集,按照75%和25%的比例划分训练集和测试集,使用决策树模型进行二分类,最后计算准确率。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportmake_moonsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifiernp.random.seed(42)raw_data=make_moons(n_samples=2000,noise=0.25,random_state=42)data=raw_data[0]target=raw_data[1]print(data.shape,target.shape)x_train,x_test,y_train,y_test=train_test_split(data,target)classifer=DecisionTreeClassifier()classifer.fit(x_train,y_train)#DecisionTreeClassifier()print(classifer.score(x_test,y_test))2.个人收入与其受教育年限的关系分析。2021年10月公布了当年的诺贝尔经济学奖,获奖的三位学者研究发现,个人收入与其受教育年限紧密相关。现有一组关于受教育时间和个人年收入的数据如表5-7所示,请先进行线性回归拟合,然后绘图展示,其中样本数据用蓝色散点表示,拟合直线用红色实线表示。表5-7个人收入与其受教育年限的关系受教育时间/年收入/万元受教育时间/年收入/万元94.52215.6126.72519.5158.02721.41910.6importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLinearRegressionX=np.array([9,12,15,19,22,25,27]).reshape(-1,1)#-1表示该维大小是自动计算的y=np.array([4.5,6.7,8.0,10.6,15.6,19.5,21.4])model=LinearRegression()#创建线性回归模型model.fit(X,y)#拟合模型slope=model.coef_[0]#获取拟合直线的斜率intercept=ercept_#获取截距print(slope,intercept)X_plot=np.linspace(min(X),max(X),100).reshape(-1,1)#创建用于绘图的X值范围y_plot=model.predict(X_plot)#使用模型预测Y值plt.scatter(X,y,color='b',label='DataPoints')#绘制蓝色散点图plt.plot(X_plot,y_plot,color='r',label='RegressionLine')#绘制红色拟合直线plt.legend()#添加图例plt.xlabel('YearsofEducation')#添加轴标签plt.ylabel('AnnualIncome')plt.show()#显示图形3.利用k均值算法对鸢尾花数据集进行聚类分析,定义k=3,忽略数据集的分类标签,取前2列特征值,要求输出聚类结果图形。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.clusterimportKMeans#加载鸢尾花数据集,仅取前两列特征iris=load_iris()X=iris.data[:,:2]#取萼片长度和萼片宽度#应用K-means聚类(k=3)kmeans=KMeans(n_clusters=3,random_state=42,n_init=10)kmeans.fit(X)labels=kmeans.labels_centers=kmeans.cluster_centers_#可视化聚类结果(二维特征直接可视化)plt.figure(figsize=(10,6))#绘制数据点(按聚类标签着色)foriinrange(3):cluster_data=X[labels==i]plt.scatter(cluster_data[:,0],cluster_data[:,1],label=f'Cluster{i}',s=50,alpha=0.8)#绘制聚类中心plt.scatter(centers[:,0],centers[:,1],

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论