机器学习系统与优化 习题答案_第1页
机器学习系统与优化 习题答案_第2页
机器学习系统与优化 习题答案_第3页
机器学习系统与优化 习题答案_第4页
机器学习系统与优化 习题答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

习题答案习题11.证对任意的x(1),x(n)∈S及每个数λ∈[0,1],存在y1,2.牛顿法是一种高效的迭代优化算法,具有二阶收敛速度,适用于光滑函数,能快速逼近最优解。然而,它需要计算和存储Hessian矩阵及其逆矩阵,计算成本高,且对初始点敏感,可能因Hessian矩阵不正定而失效。因此,它更适用于中小规模、凸优化问题,而在高维或非凸情况下常需改进(如拟牛顿法)来提升稳定性。3.(1)√;(2)×;(3)×。4.解(1)∇2f(x)=2−2−22为半正定矩阵,故f∂f因此Hesse矩阵∇为半正定矩阵,因此f(5.x∗6.(外点罚函数法)(1)构造罚函数F(2)求偏导∂(3)联立两个偏导式,求驻点,并得到x1和x2的表达式得到x1+2将x1和xx∗(4)令Mkx∗7.x8.

用解析法求解:(求偏导并令其等于零)∂G由(1)式可得,x1=1+2x当rk→0时,9.导数:f迭代公式:x代x0x故零点为:x10.x∗习题2最优策略的子策略也是该子过程的最优策略。逆推法:从终点条件出发,按时间或阶段向前回推,适合已知终点、当前决策依赖未来的情况,如最优控制、决策树分析。顺推法:从起点条件出发,按时间或阶段向后推进,适合已知起点、当前决策依赖历史的情况,如背包问题、路径计数。BAA6.设rn为长度为n的钢条能获得的最大收益,Pi为长度为r7.最大利润:f1月份期前存货s售出量x购进量y150050002001000310001000100041000100008.设第种货物装载的件数为xi(i当k=1时,f1s2=4s2/3;f此时有x3x最大价值为13。9.状态转移方程:Sk+1=指标函数:fkS下面按照逆序解法求解。

第三阶段:S3=100,200,300,400,500万,S3=x3;第二阶段:S2=200,300,400,500万。S按照与计算相反的顺序可推知有一个最优解:X110.最短路线为A-D-F-G-I,最短距离为20。习题31.不确定性决策是指决策问题中存在多个自然状态(未来可能发生的情况),但各自然状态的发生概率未知时的决策。常见准则包括:乐观准则(大中取大):从每个方案的最大收益中选择最大值对应的方案,偏向冒险;悲观准则(小中取大):从每个方案的最小收益中选择最大值对应的方案,偏向保守;折中准则(赫维茨准则):引入乐观系数α(0≤α≤1),计算各方案的折中收益(α×最大收益+(1-α)×最小收益),选择折中收益最大的方案;等概率准则(拉普拉斯准则):假设各自然状态发生概率相等,计算方案的期望收益并选择最大者;最小最大后悔值准则:先计算各状态下的后悔值(该状态最优收益与方案实际收益的差值),再选择各方案最大后悔值中的最小值对应的方案。2.多属性决策是指在具有多个相互关联或冲突的决策属性(指标)的情况下,从有限个备选方案中选择最优方案或对方案进行排序的决策过程。其核心特点包括:存在多个决策属性,且属性间可能存在冲突(如成本与质量、风险与收益);备选方案数量有限且明确;需通过一定的数学方法或逻辑规则整合各属性信息,最终得到决策结果。3.层次分析法(AHP)的基本步骤:建立层次结构:将决策问题分解为目标层(决策总目标)、准则层(各决策属性)、方案层(备选方案);构建判断矩阵:针对上一层某元素,对下一层相关元素进行两两比较,用1-9标度法(1表示同等重要,9表示极端重要)量化重要性,形成判断矩阵;一致性检验:计算判断矩阵的一致性指标(CI)和一致性比例(CR),若CR≤0.1,则矩阵满足一致性,否则需调整;计算权重:通过特征值法(如最大特征根对应的特征向量)计算各元素的相对权重;综合排序:将方案层对准则层的权重与准则层对目标层的权重加权求和,得到方案总排序,确定最优方案。适用场景:适用于决策问题层次分明、属性间可通过主观判断比较重要性的场景,如项目评估、资源分配、评选评优等。4.核心区别:加权求和法:通过给各属性赋予权重,将方案的标准化属性值加权求和得到综合得分,得分最高者为最优,本质是“线性整合”各属性信息;TOPSIS法:通过计算方案与“理想解”和“负理想解”的距离,用“相对贴近度”排序,本质是“距离比较”。适用情况:加权求和法:适用于属性间可完全补偿(某属性的劣势可通过其他属性的优势弥补)、且权重容易确定的场景;TOPSIS法:适用于属性间补偿性较弱、希望方案同时接近理想解且远离负理想解的场景,对数据分布和权重敏感性较低。5.乐观准则(大中取大):各方案最大利润分别为10000(X)、16000(Y)、20000(Z),选Z;悲观准则(小中取大):各方案最小利润分别为2000(X)、-1000(Y)、-5000(Z),选X;折中准则:X:10000×0.6+2000×0.4=6800;Y:16000×0.6+(-1000)×0.4=9200;Z:20000×0.6+(-5000)×0.4=10000;选Z。6.6.结论:(1)该公司应求助于咨询服务;(2)如咨询意见可投资开发,可投资于开发事业,如咨询意见不宜投资开发,应将多余资金存入银行。7.列归一化将每一列的元素除以该列之和。原始矩阵地铁公交出租车地铁130.25公交0.33310.2出租车451列和地铁列和:1+0.333+4=5.333公交列和:3+1+5=9出租车列和:0.25+0.2+1=1.45列归一化后的矩阵地铁公交出租车地铁0.1870.3330.172公交0.0630.1110.138出租车0.7500.5560.690行平均求权重w把每一行的3个数取平均:w(地铁w(公交)=(0.063+0.111+0.138)/3≈0.104w(出租车权重向量w=(0.231,0.104,0.665一致性检验(a)计算Aw用原始矩阵乘以w:Aw=

1×0.231+3×0.104+0.25×0.665=0.231+0.312+0.166=0.709

0.333×0.231+1×0.104+0.2×0.665=0.077+0.104+0.133=0.314

4×0.231+5×0.104+1×0.665=0.924+0.520+0.665=2.109(b)求λ将Aw的每个分量除以对应wi后取平均:

0.709/0.231≈3.07

0.314/0.104≈3.02

2.109/0.665≈3.17

λmax=(3.07+3.02+3.17)/3≈3.09

(c)计算Cl、CR

对于n=3,随机一致性指标RI=0.58CR=CI/RI=0.045/0.58≈0.078<0.10一致性可接受。最终排序按权重从高到低:出租车:0.665地铁:0.231公交:0.104结论:在“舒适度”单一准则下,出租车是最被偏好的交通工具。8.属性值标准化(消除量纲影响)效益型属性(性能C2、续航C3)标准化公式:z成本型属性(价格C1、重量C4)标准化公式:z计算过程:C1(价格):max=8000,min=5000A1:(8000-6000)/(8000-5000)=2000/3000≈0.67A2:(8000-7000)/3000≈0.33A3:(8000-5000)/3000=1.00A4:(8000-8000)/3000=0.00C2(性能):max=9,min=6A1:(8-6)/(9-6)=2/3≈0.67A2:(9-6)/3=1.00A3:(7-6)/3≈0.33A4:(6-6)/3=0.00C3(续航):max=7,min=4A1:(6-4)/(7-4)=2/3≈0.67A2:(5-4)/3≈0.33A3:(7-4)/3=1.00A4:(4-4)/3=0.00C4(重量):max=2.0,min=1.2A1:(2.0-1.5)/(2.0-1.2)=0.5/0.8=0.625A2:(2.0-2.0)/0.8=0.00A3:(2.0-1.8)/0.8=0.25A4:(2.0-1.2)/0.8=1.00标准化矩阵如下:方案C1(价格)C2(性能)C3(续航)C4(重量)A10.670.670.670.625A20.331.000.330.00A31.000.331.000.25A40.000.000.001.00计算各方案的加权得分

加权得分公式:SAAA

A4得分:

结果排序与最优方案得分:A1(0.661)>A3(0.649)>A2(0.465)>A4(0.20)最优方案为A1。9.构建原始决策矩阵X标准化决策矩阵(向量归一化)

消除量纲,公式:rij=xiji=14  xij2

计算各属性的分母(根号下的平方和):

C3(续航):6C4(重量):1.5标准化矩阵R:方案C1(价格)C2(性能)C3(续航)C4(重量)A16000/4171.33≈1.448/15.17~0.5276/11.22≈0.5351.5/3.31≈0.453A27000/4171.33≈1.689/15.17≈0.5935/11.22≈0.4452.0/3.31≈0.604A35000/4171.33≈1.207/15.17≈0.4617/11.22≈0.6241.8/3.31~0.544A48000/4171.33≈1.926/15.17≈0.3954/11.22≈0.3561.2/3.31≈0.362构建加权标准化矩阵V公式:vij=方案C1(0.3)C2(0.3)C3(0.2)C4(0.2)A11.44×0.3≈0.4320.527×0.3≈0.1580.535×0.2≈0.1070.453×0.2≈0.091A21.68×0.3≈0.5040.593×0.3≈0.1780.445×0.2≈0.0890.604×0.2≈0.121A31.20×0.3≈0.3600.461×0.3≈0.1380.624×0.2≈0.1250.544×0.2≈0.109A41.92×0.3≈0.5760.395×0.3≈0.1180.356×0.2≈0.0710.362×0.2≈0.072确定正理想解V+和负理想解V−

效益型属性(C2、C3):V+取最大值,V−取最小值;

成本型属性(C1、C4):属性类型V+V−C1成本型0.360(A3)0.576(A4)C2效益型0.178(A2)0.118(A4)C3效益型0.125(A3)0.071(A4)C4成本型0.072(A4)0.121(A2)计算各方案到V+和V−的欧氏距离

A1:

A2

A3:

计算相对贴近度C公式:Ci=di−di++di−(越接近1越优)结果排序与最优方案贴近度:A3(0.803)>A1(0.664)>A2(0.378)>A4(0.175)最优方案为A3。10.步骤1:构造属性矩阵MM步骤2:属性值规范化处理R标*者为理想点。步骤3:负理想方案与理想方案分别为:A步骤4:各个方案离理想方案和负理想方案的距离:S得S得步骤5:相对接近度:C同理C步骤6:排序依据Ci的数值可得方案排序:习题4答案:错误。决策树既可以用于分类任务,也可以用于回归任务。答案:错误。FNN中数据单向流动,从输入层进入,经过隐藏层处理后传递到输出层。答案:B。ID3算法基于信息增益选择最优特征,信息增益越大表示该特征对分类的帮助越大。答案:B。随机森林采用Bootstrap抽样(有放回抽样)为每棵树生成不同的训练子集。答案:•决策树优点:模型直观易解释,无需复杂数据预处理,计算速度快。•决策树缺点:容易过拟合,对数据变化敏感,稳定性差。•随机森林优点:通过集成降低方差,抗过拟合能力强,可处理高维数据。•随机森林缺点:模型复杂度高,训练时间长,解释性较差。答案:架构上,全连接神经网络是“平面网络”,主要由输入层、激活函数、全连接层组成;CNN是“立体网络”,由输入层、卷积层(可能有多个)、激活函数(可能有多个)、池化层(可能有多个)、全连接层组成。功能上,全连接神经网络无法对输入量进行特征提取;CNN可以实现特征自动提取功能。答案:输入门控制新输入数据进入细胞状态的程度,决定更新哪些信息并创建新候选值;遗忘门决定上一个时间步的细胞状态中哪些信息应被遗忘;输出门控制当前时间步的输出,根据需求有选择性地输出细胞状态中的信息。通过这三个门控机制,LSTM能更好地捕捉和学习长期依赖关系。答案:•Transformer通过自注意力机制直接建模任意位置间的关系,不受序列长度限制;•RNN需要逐步传递隐藏状态,长距离依赖容易因梯度消失而丢失;•Transformer支持并行计算,而RNN必须顺序处理;•多头注意力能同时关注不同位置的不同特征答案:(1)计算根节点信息熵数据集中有10个样本,其中5个适合外出,5个不适合外出。根据信息熵公式H(D)=−(2)计算“天气”特征的信息增益天气为“晴”的样本有3个,均适合外出。其信息熵H天气为“阴”的样本有3个,1个适合外出,2个不适合外出。其信息熵H天气为“雨”的样本有4个,均不适合外出。其信息熵H根据信息增益公式Gain(D,A)=H(D)−Gain(D,(3)计算“温度”特征的信息增益温度为“高”的样本有3个,2个适合外出,1个不适合外出。其信息熵H温度为“中”的样本有3个,1个适合外出,2个不适合外出。其信息熵H温度为“低”的样本有4个,2个适合外出,2个不适合外出。其信息熵HGain(D,比较“天气”和“温度”特征的信息增益,0.7246>0.0492,所以在构建决策树时,优先选择“天气”作为根节点,然后按照ID3算法的递归步骤继续构建决策树。代码如下:1.importtensorflowastf2.fromtensorflow.keras.datasetsimportmnist3.fromtensorflow.keras.modelsimportSequential4.fromtensorflow.keras.layersimportConv2D,MaxPooling2D,Flatten,Dense5.fromtensorflow.keras.utilsimportto_categorical6.

7.#加载MNIST数据集8.(train_images,train_labels),(test_images,test_labels)=mnist.load_data()9.

10.#数据预处理11.train_images=train_images.reshape((60000,28,28,1)).astype('float32')/25512.test_images=test_images.reshape((10000,28,28,1)).astype('float32')/25513.

14.train_labels=to_categorical(train_labels)15.test_labels=to_categorical(test_labels)16.

17.#构建CNN模型18.model=Sequential([19.Conv2D(32,(3,3),activation='relu',input_shape=(28,28,1)),20.MaxPooling2D((2,2)),21.Conv2D(64,(3,3),activation='relu'),22.MaxPooling2D((2,2)),23.Flatten(),24.Dense(64,activation='relu'),25.Dense(10,activation='softmax')26.])27.

28.#编译模型29.pile(optimizer='adam',30.loss='categorical_crossentropy',31.metrics=['accuracy'])32.

33.#训练模型34.model.fit(train_images,train_labels,epochs=5,batch_size=64)35.

36.#评估模型37.test_loss,test_acc=model.evaluate(test_images,test_labels)38.print(f"Testaccuracy:{test_acc}")习题51.分布式机器学习是一种通过多台计算机协同工作来训练大规模机器学习模型的技术。其核心思想是将大规模数据集和复杂的计算任务分解为多个子任务,分别分配到集群中的不同计算节点上进行处理,最后通过协调机制将各节点的计算结果汇总,完成全局模型的训练。2.(1)样本均匀分配时,每个Worker的样本数=总样本数÷Worker数量=10000÷4=2500个。(2)单个Worker在1个Epoch内处理的样本数=本地样本数×局部训练轮数=2500×5=12500个。3.在线数据生成和离线数据生成。在线数据生成假设每个工作节点访问的数据是按照真实分布即时生成的。这种假设对理解计算并行算法的理论性质有帮助。离线数据生成则假设数据按照真实分布事先生成了一个离线数据集,之后每个工作节点再从该数据集中按照均匀分布重复采样以获取训练所需的数据。在实际应用中,训练数据通常是事先离线生成的,因此离线数据生成更符合现实场景。计算并行模式通过共享内存的方式,避免了数据划分和通信开销,能够高效利用多线程资源,适合处理数据和模型规模较小的场景。4.数据并行:每个Worker持有完整模型,训练不同数据子集,通过同步参数保持一致(如梯度平均),适用于数据量大、模型较小的场景(如CNN图像分类)。模型并行:将模型拆分到不同Worker(如按层拆分),每个Worker计算部分模型输出,适用于模型过大(单设备存不下)的场景(如超大规模语言模型)。5.算法模型聚合的逻辑模型平均(MA)wADMMw同步随机梯度下降法(SSGD)w6.在MA算法中,各工作节点基于本地数据对本地模型进行多轮独立迭代更新,直到本地模型收敛或达到预设的迭代轮数阈值。随后,各节点将本地模型参数发送至中心节点进行聚合,计算全局模型的均值,并以此均值作为新的全局模型继续训练。这一过程减少了通信开销,提高了训练效率。7.(1)优化目标:ADMM适用于凸/非凸问题,对目标函数光滑性要求低;SGD更依赖目标函数可微性。(2)适用场景:ADMM适合带复杂约束(如正则化、隐私约束)的任务;SGD适合大规模数据、需快速迭代的场景(如深度学习)。8.ADMM核心思想:通过引入辅助变量和拉格朗日乘子,将全局优化问题分解为可并行求解的局部子问题,各节点独立求解局部子问题后,通过协调变量和乘子更新实现全局一致性。适合分布式场景的原因:无需集中所有数据,各节点仅需交换少量协调变量(而非原始数据),且局部子问题可并行计算,适配数据分散存储、节点算力异构的特点。9.全局问题等价于minw1,w2,w10.(1)同步更新优点:参数一致性高,模型收敛稳定;缺点:受慢节点拖累,训练效率低。(2)异步更新可能导致“参数陈旧性”(Worker基于过时参数计算梯度),影响收敛;适用于节点性能差异大、对实时性要求高的场景。习题61.横向联邦学习:各参与方拥有相似的特征空间,但样本空间不同,适用于数据特征维度一致但用户群体不同的场景。纵向联邦学习:各参与方样本空间重合,但特征空间不同,常用于不同机构对同一群体拥有不同特征数据的情况。联邦迁移学习:适用于数据差异大但仍需协同的场景和参与方在样本空间和特征空间都不重合的情况。2.与传统机器学习相比:传统机器学习需要将所有数据集中到一个服务器上训练模型,而联邦学习无需集中数据,各方仅共享模型参数,保护数据隐私;与分布式机器学习相比:分布式学习通常是在同一个组织内部的集群环境下,数据划分后并行训练;联邦学习强调跨组织、跨设备,且具备隐私保护和通信效率限制等额外约束。3.强化学习是一种使智能体通过与环境交互学习策略的机器学习方法。智能体根据当前状态选择动作,从环境中获得奖励,通过试错过程优化行为策略以最大化长期回报。4.联邦学习通过多种方式保护数据隐私和安全:本地化处理:数据保留在本地训练,不上传原始数据。加密技术:如同态加密、安全多方计算,保障传输与聚合安全。差分隐私:在模型更新中添加噪声,防止反推个人信息。安全多方计算:多方协作聚合模型参数,无需共享原始数据。模型聚合:服务器只接收本地模型更新,统一更新全局模型。数据最小化:仅使用必要数据,降低隐私风险。这样既能利用分布式数据训练模型,又能有效保护隐私。5.联邦学习中设计激励机制是为了促进各参与方积极贡献数据和计算资源,保障系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论