机器学习方法及应用（第二版）课后习题及答案-第2-3-5章

上传人：y*** IP属地：山东上传时间：2026-05-31 格式：DOCX 页数：12 大小：353.09KB 积分：25 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章课后习题答案1．试解释决策树学习算法。举例计算表2-2中信息熵和信息增益。答：决策树学习是一种基于树结构的归纳学习方法，通过从根结点开始，选择最优属性对样本进行划分，递归构建决策树，用于分类或回归任务。其关键在于选择划分属性，常用准则有信息增益（ID3）、增益率（C4.5）和基尼指数（CART）。以表2-2西瓜数据集为例：根结点信息熵：Ent(D)=0.998属性“色泽”的信息增益：Gain(D,属性“纹理”的信息增益最大，为0.381，因此被选为根结点的划分属性。2．编程实现ID3算法，并根据表2-2中所给训练数据，利用ID3算法生成决策树。答：Python实现可使用sklearn.tree.DecisionTreeClassifier模块生成决策树算法：fromsklearn.treeimportDecisionTreeClassifierfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_scoreimportpandasaspd#假设已将表2-2数据读入DataFrame，特征列名列表feature_cols，目标列'好瓜'#将目标列映射为数值：'是'->1,'否'->0df['好瓜']=df['好瓜'].map({'是':1,'否':0})#对离散特征进行独热编码X=pd.get_dummies(df[feature_cols])y=df['好瓜']X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)model=DecisionTreeClassifier(criterion='entropy')#ID3使用信息增益model.fit(X_train,y_train)y_pred=model.predict(X_test)print("准确率:",accuracy_score(y_test,y_pred))基于表2-2的西瓜数据集，ID3算法生成的决策树根结点为“纹理”，后续依次选择“根蒂”“色泽”等属性进行划分，最终得到一棵完整决策树（详见如图2-9）。3．试析决策树与随机森林的区别与联系。答：联系：随机森林是以决策树为基学习器的集成学习算法；两者均可用于分类与回归任务。区别：单棵决策树容易过拟合，随机森林通过多棵树集成（投票/平均）降低过拟合；随机森林引入样本随机抽样（Bootstrap）和特征随机选择，增强泛化能力；决策树模型简单、可解释性强，随机森林通常精度更高但可解释性较弱。4．利用python实现随机森林算法。答：Python实现可使用sklearn.ensemble.RandomForestClassifier模块生成随机森林算法：fromsklearn.ensembleimportRandomForestClassifierfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_scoreX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)model=RandomForestClassifier(n_estimators=100,random_state=42)model.fit(X_train,y_train)y_pred=model.predict(X_test)print("准确率:",accuracy_score(y_test,y_pred))5．当预测样本分布不均匀、维度大且特征缺失的情况下，应该采用哪种算法。答：推荐使用随机森林。原因如下：随机森林对高维数据具有较好的鲁棒性，能通过特征随机选择降低维度影响；对缺失值有一定容忍能力，可借助袋外数据（OOB）进行估计；在样本分布不均匀时，通过Bootstrap抽样和集成投票机制，能有效缓解类别不平衡问题；具有抗过拟合能力，泛化性能较好。

第三章课后习题答案神经元j接收10、-20、4和-2，神经元j的突触权值分别为0.8、0.2、-1.0和-0.9。这里假设神经元的阈值为0。计算下列两种情况下神经元j的输出：激活函数为线性函数φv激活函数为阈值函数φ答：根据描述神经元k的公式可知：u（1）：y（2）:

y考虑如图3-32所示的单神经元感知器网络，该网络的判定边界为Wp+b=0。证明：该判定边界如果是一个向量空间就必须满足如下10个条件。（1）要求两个向量空间之和仍然是一个向量空间。令p1和p2分别是判定边界上的两个向量，满足：Wp1=0，Wp2=0将上述两个等式相加，有：W（p1+p2）=0由此可以看出这两个向量之和也在判定边界上。（2）交换性p1+p2=p2+p1满足；（3）结合性(p1+p2)+p3=p1+(p2+p3)满足；（4）由于W0=0，所以零向量在判定边界上。（5）如果p在判定边界上，那么-p也必须在判定边界上。如果p在判定边界上，那么Wp=0在该式两边同时乘以-1，可得：W(-p)=0（6）如果对判定边界上的任意p，ap也在判定边界上，其中a是标量；（7）对判定边界上的任意p,1p=p(1是标量)；（8）对任意二个标量a和b,以及判定边界上的任意p,a(bp)

(ab)p；（9）(a

+b)p

ap+bp；前提同（8）（10）对任意标量a,以及判定边界上的任意p,q,a(p+q)

ap+aq所以该感知机的判定边界是一个向量空间。3．单层感知器只适用于一组线性可分的模式。如果两个模式是线性可分的，它们一定是线性无关的吗？答：不是。这是两个没有任何关联的概念。比如，考虑如图8-21的两输入感知机。假设现在希望区分如下两个向量：如果将权值和偏置值分别设定为w11=1,w12=1和b=-2，那么其判定边界如图8-22所示。显然，这两个向量是线性可分的，但是，由于p2=3p1，他们之间并不是线性无关的。图8-21两输入感知机图8-22判定边界4.基于反向传播的概念，求一个能更新图3-33中所示的递归网络的权值w1和w2的算法。答：第一步是定义性能指数。如同多层网络，我们使用均方误差使用最速下降法进行权值更新：这些导数可计算如下：因此，需要计算的关键项是要计算这些项，首先需要写出网络方程两边对网络权值求导数得：（注意我们必须考虑到a（k）本身是w和w的函数的事实）最速下降法中更新权值时使用这两个递归方程来计算导数。方程用初始化，这是由于初始条件不是权值的函数。要说明此过程，先假定a(0)=0。第一次网络更新为第一个导数为：第一次权值的更新为这个算法属于动态反向传播类型，其中梯度是用不同的方程计算的。5.一个全连接的前向网络具有10个源结点，两个隐层，其中一个隐层有4个神经元，另一个隐层有3个神经元，1个输出神经元，构造这个网络的结构图。答：6.增大权值是否能够使BP学习变慢。答：训练时学习新样本有遗忘旧样本的趋势。增大权值不一定能够使BP学习变慢。7.（思考题）字符分类。任务是对数字0至9分类，有十类且每个目标向量应该是这十个向量中的一个。0用<0，0，0，0，0，0，0，0，0>表示，1用<1，0，0，0，0，0，0，0，0>表示，第1分量为1，其余为0。2至9的表示类推。要学习的数字显示在图3-24中，每个数字由9×7的网格表示，灰色像素代表0，黑色像素代表1。图3-34训练数据答：选择BP网络结构为63-6-9。9*7个输入结点，对应BP网络的映射。9个输出结点对应10种分类。测试结果表明：除了8以为，所有被测的数字都能够被正确地识别。对于数字8，神经网路地第6个结点的输出值为0.53，第8个结点的输出值为0.41，表明第8个样本是模糊的，可能是数字6，也可能是数字8，但也不完全确信是两者之一。

第五章课后习题答案1.考虑用于线性可分模式的超平面，它的式为：其中w表示权值向量，b为阀值，x为输入向量，如果对输入模式集满足附加的条件则称（w,b）为超平面的规范对。证明规范对的要求导致两类分离边界的距离为2||答：线性可分模式的超平面可用线性方程表示如下w样本空间中任意点x到超平面的距离为r对于样本集(x1,yw每个支持向量到超平面的距离为d由于满足故d那么，两类分离边界的距离为2d22.在不可分类模式的背景下判断下列陈述：错分意味着模式的不可分性，但相反则未必为真。答：该陈述有误，模式错分并不代表着不可分，部分是由模型学习效果差所致，而不可分一定会产生错分结果。3．在数据空间中最优超平面的位置是由被选为支持向量的数据点决定。如果数据有噪声，第一反应也许是质疑分离边界对噪声的健壮性，但最优超平面的详细研究发现分离边界对噪声实际上是健壮的，讨论这种健壮性的理论基础。答：SVM本身对噪声具有一定的鲁棒性，但是当噪声率低于一定水平的噪声对SVM没有太大影响，而随着噪声率的不断增加，分类器的识别率会降低。所以是有条件的。4.用于求解XOR问题的多项式学习机使用的内积核定义为Kx,x答：最小值为2，值数p越大，映射的维度越高，计算量就会越大。当p过大时，由于学习复杂性也会过高，易出现“过拟合现象。5.（思考题）内积核是在训练W个样本集上定义的，它产生NN矩阵：其中。由于它的所有元素的值为正，矩阵K是正的。利用相似变换其中为对角的特征矩阵，而Q为相应特征向量构成的矩阵。利用K的特征值和特征向量个构造内积核的展开式，你可以从这个表达式得出什么结论。答：参考点：若一个核函数可隐式地计算被映射到

N维空间的两个向量的内积，那么该核函数就可以表示成N个核函数的一个线性组合。6.思考题。两层感知器的内积核定义为探讨对常数和的那些值不满足Mercer定理的条件。答：参考点：Mercer定理指任何半正定的函数都可以作为核函数。所谓半正定的函数f(xi,xj)，是指拥有训练数据集合（x1,x2,...xn)，我们定义一个矩阵的元素aij

=f(xi,xj)，这个矩阵式n*n的，如果这个矩阵是半正定的，那么f(xi,xj)就称为半正定的函数。这个mercer定理不是核函数必要条件，只是一个充分条件，即还有不满足mercer定理的函数也可以是核函数。7.（思考题）在这一章中我们利用支持向量机进行二分类，讨论支持向量机如何解决M类模式识别的问题(M>2)。答：可以通过多个SVM的组合来解决多分类问题。8.（思考题）关于下列任务比较支持向量机和利用反向传播算法训练的多层感知器的优点和局限：模式识别非线性回归答：支持向量机的优点：（1）有严格的数学理论支持，可解释性强；（2）能找出对任务至关重要的关键样本（即：支持向量）；（3）采用核技巧之后，可以处理非线性分类/回归任务；（4）最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”；（5）SVM是一个凸优化问题，求得的解一定是全局最优而不是局部最优。支持向量机的局限：（1）当特征维度远远大于样本量时，效果会比较差；（2）当样本量很大时，使用非线性核函数会导致计算效率低下；（3）支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。多层感知器的优点：（1）能够自适应、自主学习。这是BP算法的根本以及其优势所在，BP算法根据预设的参数更新规则，不断地调整神经网络中的

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习方法及应用（第二版）课后习题及答案-第2-3-5章

文档简介

温馨提示

最新文档

评论

机器学习方法及应用（第二版）课后习题及答案-第2-3-5章

文档简介

温馨提示

最新文档

评论

相关文档