机器学习系统与优化 习题答案_第1页
机器学习系统与优化 习题答案_第2页
机器学习系统与优化 习题答案_第3页
机器学习系统与优化 习题答案_第4页
机器学习系统与优化 习题答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

习题答案

习题1

1.证对任意的工⑴,无⑺es及每个数Ae[0,1],存在ypy2?0,使/)=4%,”)=

Ay2,因此有入工⑴+(1-储。2)=A,力+(1-A)y2],而Ayx+(1-A)y230,故

久m⑴+(1—久)以2)£S,即S是凸集.

2.牛顿法是一种高效的迭代优化算法,具有二阶收敛速度,适用于光滑函数,能快速逼近

最优解。然而,它需要计算和存储Hessian矩阵及其逆矩阵,计算成本高,且对初始点敏感,

可能因Hessian矩阵不正定而失效。因此,它更适用于中小规模、凸优化问题,而在高维或

非凸情况下常需改进(如拟牛顿法)来提升稳定性。

3.(I)V;(2)X;⑶X。

4.解(1)v2/«=[;-?]为半正定矩阵,故/(//2)是凸函数.

(2)无)=|-41为不定矩阵,故/(%,不)不是凸函数.

1—4ZJ

(3)

=2(丁-#2)+4&+㊀必+⑵,?!=-2(%i-x2)+4叼+e*i+*2

uX-yC/%2

d2f.,d2fd2f,d2f,

—7=2+eX1+X2,----------=----------=2+eXl+X2.—=2+eX1+X2

dx^dxxdx2dx2dxidx;

因此Hesse矩阵

—U忧算£4(2+日句[:;]

为半正定矩阵,因此/(X)是凸函数.

5.£=[:卜

6.(外点罚函数法)

(1)构造的函数

F(x,Mj=+Mk(X1+x2-I)2

(2)求偏导

3F

----=x1+2Mk(X[+x2-1)=0

dxr

dF1

x+2M(X]+x-1)=0

5x7-32k2

(3)联立两个偏导式,求驻点,并得到X]和x2的表达式X2=3X1,

得到

Xi+2Mk(4x「l)=0

=(l+8Mk)x】=2Mk;X2=3X]=6N%

l+8Mk

2Mk

l+8Mk

将X]和X2的表达式改写为

(4)令Mk-8,得到结果

x*=L

T。

7.x

3

8.令G(x,=^(%i+Q+x2+rk(U?+擀)⑴

用解析法求解:(求偏导尹令其等于零)

加(%)1,、?

黄一32-=0(2)

%-1

dG(x)r

黄…尚k=。⑶

由(1)式可得,%!=Jl+2yfr\;由(2)式可得,x2=y/rk,故:

而=3/2)=(J1+2后阮)

当入T0时,x=(1,0),x就是原问题的最优解<

9-导数:

(⑶=3x2-8x+4

迭代公式:

_/Un)

Xn+1~Xn~rM

代x0=1:

1-4+4-10

Xi=1——---——=1--=1

3—8+4—1

0

上=1---T=1

—1

故零点为:

X=1

131T

10.X*=,44](外点法或乘子法)。

习题2

1.最优策略的子策略也是该子过程的最优策略。

2.逆推法:从终点条件出发,按时间或阶段向前回推,适合已知终点、当前决策依赖未

来的情况,如最优控制、决策树分析。顺推法:从起点条件出发,按时间或阶段向后

推进,适合已知起点、当前决策依赖历史的情况,如背包问题、路径计数。

3.B

4.A

5.A

6.设G为长度为n的纲条能获得的最大收益,P]为长度为i的钢条的价格。则该问题

的状态转移方程为:

(0,n=0

(max{P,+rn.i|i=1,n>0

7.最大利润:A(500)=I6OOO0最优策略见下表。

月份期前存货(sQ伴出量(4)购进量(y。

15005000

2001000

3100010001000

4100010000

8.设第种货物装载的件数为xi(i=1,2,3),则问题可表示为:

maxz=4%i+5x24-6x3

,3x+4X+5XC10

S.'U>01且为2整数3(i=1,2,3)

当k=1时,/i(s2)=4[S2/3];当k=2时,心(S3)=max{5x2+

0<X2<S3/4,X2为整数

A(53-4&)}:当k=3时,

/3(10)xmax2{6x3+/2(10-5%3)}

=max5(10),6+=(5),12+=(0)}

=13

此时有x3*=0,逆推可得全部策略为:

X=

1*2,x2*=1,%3*=°

最大价值为13。

9.状态转移方程:Sk+1=Sk-xk,并且Si=4。

指标函数:加。。=max&[rk(s〃,4)+元+i(Sk+J],A(S4)=0

卜面按照逆序解法求解。

第三阶段:S3=100,200,300,400,500万,S3=x3;第二阶段:S?=200,300,400,500万。

53=S22;第1阶段:Si=600万,S2=S1-x1.

按照与计算相反的顺序可推知有一个最优解:X;=300^=200,%^=100,最大利润为

25万。

10.最短路线为A-D-F-G-I,最短距离为20o

习题3

1.不确定性决策是指决策问题中存在多个自然状态(未来可能发生的情况),但各自然状态

的发生概率未知时的决策,

常见胜则包括:

乐观准则(大中取大):从每个方案的最大收益中选择最大值对应的方案,偏向冒险;

悲观准则(小中取大):从每个方案的最小收益中选择最大值对应的方案,偏向保守;

折中准则(赫维茨准则):引入乐观系数a(OWaWl),计算各方案的折中收益(aX最

大收益+(l-a)X最小收益),选择折中收益最大的方案;

等概率准则(拉普拉斯准则):假设各自然状态发生概率相等,计算方案的期望收益并选择

最大者;

最小最大后悔值准则:先L算各状态下的后悔值(该状态最优收益与方案实际收益的差值),

再选择各方案最大后悔值中的最小值对应的方案。

2.多属性决策是指在具有多个相互关联或冲突的决策属性(指标)的情况下,从有限个备选

方案中选择最优方案或对方案进行排序的决策过程。

其核心特点包括:

存在多个决策属性,且属性间可能存在冲突(如成本与质量、风险与收益);

备选方案数量有限且明确;

需通过一定的数学方法或逻辑规则整合各属性信息,最终得到决策结果。

3.层次分析法(AHP)的基本步骤:

建立层次结构:将决策问题分解为目标层(决策总目标)、准则层(各决策属性)、方案层(备

选方案);

构建判断矩阵:针对上一层某元素,对下一层相关元素进行两两比较,用1-9标度法(】表

示同等重要,9表示极端重要)量化重要性,形成判断矩阵;

一致性检验:计算判断矩阵的一致性指标(CI)和一致性比例(CR),若CRWO.1,则矩阵

满足一致性,否则需调整;

计算权重:通过特征值法(如最大特征根对应的特征向量:)计算各元索的相对权重;

综合排序:将方案层对准则层的权重与准则层对目标层的权重加权求和,得到方案总排序,

确定最优方案。

适用场景:适用于决策问题层次分明、属性间可通过主观判断比较重要性的场景,如项目评

估、资源分配、评选评优等。

4.核心区别:

加权求和法:通过给各属性赋予权重,将方案的标准化属性值加权求和得到综合得分,得分

最高者为最优,本质是“线性整合”各属性信息;

TOPSIS法:通过计算方案与“理想解”和“负理想解”的距离,用“相对贴近度”排

序,本质是“距离比较二

适用情况:

加权求和法:适用于属性间可完全补偿(某属性的劣势可通过其他属性的优势弥补)、且权

重容易确定的场景:

TOPSIS法:适用于属性间补偿性较弱、希望方案同时接近理想解且远离负理想解的场景,

对数据分布和权重敏感性较低。

5.乐观准则(大中取大):各方案最大利润分别为10000(X).16000(Y)、20000⑵,选

Z;

悲观准则(小中取大):各方案最小利润分别为2000(X)、-1000(Y)、-5000(Z),选X:

折中准则:

X:10000X0.6+2000X0.4=6800;

Y:16000X0.6+(-1000)X0.4=9200;

Z:20000X0.6+(-5000)X0.4=10000;

选Z。

6.

^^-△6000

用于开发2①700-

不求助咨询3珞I—P(£,)-0.05

△-60000

T存入银行

△3000

.成功?(£忆)=0.974-

42M-........'””---------A6000

开发

败/014)=086.60000

可开发

P(7;)=0.7714-1

「存入银行

△3000

求助咨泡

△・2弟/电?竺为so。。

-600

开发

*[幻=。」3幺60000

不宜开发

。亿)・02

存入银行

△3000

结论:

(1)该公司应求助于咨询服务;

(2)如咨询意见可投资开发,可投资于开发事业,如咨询意见不宜投资开发,应将多

余资金存入银行。

7.列归一化

将每一列的元素除以该列之和。

原始矩阵

地铁公交出租车

地铁130.25

公交0.33310.2

出租车451

列和

•地铁列和:1+0.333+4=5.333

•公交列和:3+1+5=9

•出租车列和:0.25+0.2+1=1.45

列归一化后的矩阵

地铁公交出租车

地铁0.1870.3330.172

公交0.0630.1110.138

出租车0.7500.5560.690

行平均求权重W

把每一行的3个数取平均:

•w(地铁)=(0.1B7+0.333+0.172)/3«0.231

•w(公交)=(0.063+0.111+0.138)/3«0.104

•w(出租车)=(0.750+0.556+0.690)/3«0.665

权重向量w=(0.231,0.104,0.665/(已归一化,和为1)

一致性检验

(a)计算Aw

用原始矩阵乘以w:

Aw=

1X0.231+3X0.104+0.25X0.665=0.231+0.312+0.166=0.709

0.333X0.231+1X0.104+0.2X0.665=0.077+0.104+0.133=0.314

4X0.231+5X0.104+1X0.665=0.924+0.520+0.665=2.109

⑹求^max

将Aw的每个分量除以对应”后取平均:

0.709/0.231«3.07

0.314/0.104«3.02

2.109/0.665=3.17

Xmax=(3.07+3.02+3.17)/3«3.09

(c)计算Cl、CR

Cl=Umax-n)/(n-1)=(3.09-3)/2=0.045

•对于n=3,随机一致性指标RI=0.58

•CR=CI/RI=0.045/0.58弋0.078<0.10

一致性可接受。

最终排序

按权重从高到低:

出租车:0.665

地铁:0.231

公交:0.104

结论:在“舒适度”单一准则下,出租车是最被偏好的交通工具。

8.属性值标准化(消除量纲影响)

Xij-minxij

7

效益型属性(性能C2、续航C3)标准化公式:ZiJ=.

mXXirXli

成本型属性(价格C1、重量C4)标准化公式:Zij=f

计算过程:

oCl(价格):max二8000,min=5000

Al:(8000-6000)/(8000-5000)=2000/3000〜0.67

A2:(8000-7000)/3000心0.33

A3:(8000-5000)/3000=1.00

A4:(8000-8000)/3000=0.00

oC2(性能):max=9,min=6

Al:(8-6)/(9-6)=2/3=0.67

A2:(9-6)/3=1.00

A3:(7-6)/3a0.33

A4:(6-6)/3=0.00

oC3(续航):max=7,min=4

Al;(64)/(74)=2/3~0.67

A2:(5-4)/3%0.33

A3:(7-4)/3=1.00

A4:(4-4)/3=0.00

oC4(重量):max=2.0,min=l.2

Al:(2.0-1.5)/(2.0-1.2)=0.5/0.8=0.625

A2:(2.0-2.0)/0.8=0.00

A3:(2.0-1.8)/0.8=0.25

A4:(2.0-1.2)/0.8=1.00

标准化矩阵如下:

)C】(价C2(性C3(续C4(重

案格)能)航)量)

A

0.670.670.670.625

1

A

0.331.000.330.00

2

A

1.000.331.000.25

3

A

0.000.000.001.00

1

计算各方案的加权得分

加权得分公式:Si=(Z[/xw/)

Al得分:0.67X0.3+0.67X0.3+0.67X0.2+0.625X0.2

=0.201+0.201+0.134+0.125«0.661

A2得分:0.33x0.34-1.00x0.3+0.33x0.2+0.00x0.2

=0.099+0.30+0.066+0«0.465

A3得分:1.00x0.3+0.33x0.3+1.00x0.2+0.25x0.2

=0.30+0.099+0.20+0.05、0.649

A4得分:0.00x0.3+0.00x0.3+0.00x0.2+1.00x0.2

=0+04-0+0.20«0.20

结果排序与最优方案

得分:Al(0.661)>A3(0.649)>A2(0.465)>A4(0.20)

最优方案为Alo

9.构建原始决策矩阵X

标准化决策矩阵(向晟归一化)

消除量纲,公式:丐=^^

计算各属性的分母(根号下的平方和):

标准化决策矩阵(向量归一化)

消除量纲,公式:rt.y=-=^==

计算各属性的分母(根号卜•的平方和):

C1(价格):V(60002+70002+50002+80002)=J174O0万a4171.33

C2(性能):yj(82+92+724-62)=x/230«15.17

C3(续航):7(62+52+72+42)=7126«11.22

C4(重量):V(l-52+2.02+1.82+1.22)=VTM3«3.31

标准化矩阵R:

Cl(价格)C2(性能)C3(续航)C4(重量)

6000/4171.338/15.17-6/11.22«1.5/3.31«

Al

X1.440.5270.5350.453

7000/4171.339/15.175/11.22«2.0/3.31*

A2

®1.68«0.5930.4450.604

5000/4171.337/15.17«7/11.22«1.8/3.31-

A3

X1.200.4610.6240.544

8000/4171.336/15.17x4/11.22工1.2/3.31X

A4

«1.920.3950.3560.362

构建加权标准化矩阵V

公式:Vij=Tijx叼(权重w=[0.3,0.3,0.2,0.2])

C1(0.3)C2(0.3)C3(0.2)C4(0.2)

1.44x0.30.527x0.30.535x0.20.453x0.2

A1

*0.432X0.15840.107«0.091

1.68X0.30.593x0.30.445x0.20.604X0.2

A2

«0.504«0.178«0.089«0.121

1.20x0.30.461x0.30.624x0.20.544x0.2

A3

=0.360X0.138*0.125X0.109

1.92X0.30.395X0.30.356X0.20.362X0.2

A4

»0.576«0.118«0.071«0.072

确定正理想解(v+)和负理想解(V-)

效益型属性(C2、C3):V+取最大值,V一取最小值;

成本型属性(Cl、C4):V+取最小值,卜一取最大值<

属性类型V+(最优)v-(最差)

C1成本型0.360(A3)0.576(A4)

C2效益型0.178(A2)0.118(A4)

C3效曲型0.125(A3)0.071(A4)

C4成本型0.072(A4)0.121(A2)

计算各方案到V+和V一的欧氏距离

距离公式:寸=旧石1=回(%-夕『

Al:d;=7(0.432-0.360)24-(0.158-0.178)2+(0.107-0.125)2+(0.091-0.072)2«0.079

d:=7(0432-0.576)2+(0.158-0.118)24-(0.107-0.071)2+(0.091-0.121)2«0.156

A2=7(0.504-0.360)2+(0.178-0.178)2+(0.089-0.125)2+(0.121-0.072)2工0.156

A3:d]=7(0.360-0.360)2+(0.138-0.178)2+(0.125-0.125)2+(0.109-0.072)2«0.055

%=7(0.360-0.576)2+(0.138-0.118)2+(0.125-0.071)24-(0.109-0.121)2«0.224

A4:d;=7(0.576-0.360)2+(0.118-0.178)2+(0.071-0.125)2+(0.072-0.072)2«0.231

d1=7(0.576-0.576)2+(0.118-0.118)2+(0.071-0.071)2+(0.072-0.121)2*0.049

计算相对贴近度G

公式:1=缶(越接近1越优)

ai+4

Al:0.156/(0.079+0,156)=0.156/0.235右0.664

A2:0.095/(0.156+0.095)«0.095/0.251«0.378

A3:0.224/(0.055+0.224)«0.224/0.279«0.803

A4:0.049/(0.231+0.049)«0.049/0.280«0.175

结果排序与最优方案

贴近度:A3(0.803)>A1(0.664)>A2(0.378)>A4(0.175)

最优方案为A3o

10.

步骤1:构造属性矩阵M

2.01500200005.559'

2.52700180006.535

M=

1.82000210004.577

221800200005.055.

步骤2:属性值规范化处理

0.46710.36620.50560.50690.48110.6708

0.58390.65910.45500.59900.28870.3727

AD一—

0.42040.48820.53080.41470.67360.5217

.0.51390.43940.50560.46030.48110.3727.

■^11W2r12…V^rln-

由2修「22…叫’公

由=R-W=••••得出:

y♦••・•♦・

皿2rm2…吗%.

0.09340.03660.05060.05070.09620.2012*'

0.116B*0.0659,0.04550.05990.05770.1118

1V/一-

0.08410.04880.0531*0.0415*0.1347-0.1565

.0.10280.04390.05060.04610.09620.1118.

标*者为理想点。

步骤3:负理想方案与理想方案分别为:

A~=(0.0841,0.0366,0.0455,0.0599,0.0577,0.1118)

Ax=(0.1168,0.0659,0.0531,0.0415,0.1347,0.2012)

步骤4:各个方案离理想方案和负理想方案的距离:

6

;=1

W(%一斤『

S「=

;=1

52

=0.0546之=0.1197

=0.0580齿=0.1C09

=0.0984-U=0.0439

=0.0920=0.0458

步骤5:相对接近度:

Cl=S[/(Sf+S:)=0.6433

同理c2=0.2684,C3=0,6135,C4=0.3123

步骤6:排序

依据G的数值可得方案排序:&A&A4A力2

习题4

1.答案:错误。决策树既可以用于分类任务,也可以用于回归任务。

2.答案:错误。FNN中数据单向流动,从输入层进入,经过隐藏层处理后传递到输出层。

3.答案:B。ID3算法基于信息增益选择最优特征,信息增益越大表示该特征对分类的帮助

越大。

4.答案:B.,随机森林采用Bootstrap抽样(有放回抽样)为每棵树生成不同的训练子集。

5.答案:

•决策树优点:模型直观易解释,无需复杂数据预处理,计算速度快。

•决策树缺点:容易过拟合,对数据变化敏感,稳定性差。

•随机森林优点:通过集成降低方差,抗过拟合能力强,可处理高维数据.

•随机森林缺点:模型复杂度高,训练时间长,解释性较差。

6.答案:架构匕全连接神经网络是“平面网络”,主要由输入层、激活函数、全连接层组

成;CNN是“立体网络”,由输入层、卷积层(可能有多个)、激活函数(可能有多个)、池

化层(可能有多个)、全连接层组成。功能上,全连接神经网络无法对输入量进行特征提取;

CNN可以实现特征自动提取功能。

7.答案:输入门控制新输入数据进入细胞状态的程度,决定更新哪些信息并创建新候选值;

遗忘门决定上一个时间步的细胞状态中哪些信息应被遗忘;输出门控制当前时间步的输出,

根据需求有选择性地输出细胞状态中的信息。通过这三个门控机制,LSTM能更好地捕捉和

学习长期依赖关系。

8.答案:

•Transformer通过自注意力机制直接建模任意位置间的关系,不受序列长度限制;

•RNN需要逐步传递隐藏状态,长距离依赖容易因梯度消失而丢失;

,Transformer支持并行计算,而RNN必须顺序处理;

•多头注意力能同时关注不同位置的不同特征

9.答案:

(1)计算根节点信息燃

数据集中有10个样本,其中5个适合外出,5个不适合外出。根据信息燧公式

K5555

心)=-%log2Pk=一岛log2+-log2.=1

k=l

(2)计算“天气”特征的信息增益

天气为“晴''的样本有3个,均适合外出。其信息端

“暗=一(|嗔2|+。)=0

天气为“阴”的样本有3个,1个适合外出,2个不适合外出。其信息烙

/I122\

"阴=一(]l°g2可+Q10g25卜6918

天气为“雨”的样本有4个,均不适合外出。其信息端

"雨=-(0+^log2^=0

根据信息增益公式Ga加(D,4)="(0)-£)=1号

/334\

Gain(D,天气)=1--xO+—x0.918+—x0=0.7246

\101010)

(3)计算“温度”特征的信息增益

温度为“高”的样本有3个,2个适合外出,1个不适合外出。其信息熠

/2211\

"高=-(zlog2-+-log2-l«0.918

\oooo/

温度为“中”的样本有3个,1个适合外出,2个不适合外出。其信息嫡

/I122\

"中=-(^Iog2o+olog2o)«0-918

温度为"低''的样本有4个,2个适合外出,2个不适合外出。其信息嫡

/2222\

"低=-(*2疝+产2/=1

/334\

Gain。,温度)=1-(—x0.918+—x0.918+—x1J=0.0492

比较“天气”和“温度”特征的信息增益,0.7246>0.0492,所以在构建决策树时,优先选择“天

气''作为根节点,然后按照ID3算法的递归步骤继续构建决策树。

10.代码如下:

Testaccuracy:0.9886999726295471

1.importtensorflowastf

2.fromtensorflow.keras.datasetsimportmnist

3.fromtensorflow.keras.modelsimportSequential

4.fromtensorflow.keras.layersimportConv2D,MaxPooling2D,Flatten,Dense

5.fromtensorflow.keras.utilsimportto_categorical

6.

7.#加载MNIST数据集

8.(train_images,train_labels),(test_images,test_labels)=mnist.load_data()

9.

10.#数据预处理

11.train_images=train_images.reshape((60000,28,28;1)).astype('float32')/255

12.test_images=test_images.reshape((10000,28,28,1)).astype('float32*)/255

13.

14.train_labels=to_categorical(train_labels)

15.test_labels=to_categorical(test_labels)

16.

17.#构建CNN模型

18.model=Sequential([

19.Conv2D(32,(3,3),activation='relu",input_shape=(28,28,1)),

20.MaxPooling2D((2,2)),

21.Conv2D(64,(3,3),activation='relu'),

22.MaxPooling2D((2,2)),

23.Flatten。,

24.Dense(64,activation='relu'),

25.Dense(10,activation="softmax')

26.])

27.

28.#编译模型

29.pile(optimizer='adam',

30.loss='caiegorical_crossentropy',

31.metrics=/accuracy'])

32.

33.#训练模型

34.model.fit(train_images,train_labels,epochs=5,batch_size=64)

35.

36.#评估模型

37.test_loss,test_acc=model.evaluate(test_images,test_labels)

38.print(f"Testaccuracy:{test_acc}")

习题5

1.分布式机器学习是一种通过多台计算机协同工作来训练大规模机器学习模型的技术。其核

心思想是将大规模数据集和复杂的计算任务分解为多个子任务,分别分配到集群中的不同计

算节点上进行处理,最后通过协调机制将各节点的计算结果汇总,完成全局模型的训练。

2.(1)样本均匀分配时,每个Worker的样本数=总样本数+Worker数量=100004-

4=2500个。

(2)单个Worker在1个Epoch内处理的样本数=本地样本数X局部训练轮数=

2500X5=12500个。

3.在线数据生成和离线数据生成。

在线数据生成假设每个工作节点访问的数据是按照真实分布即时生成的。这种假设对理解计

算并行算法的理论性质有帮助。

离线数据生成则假设数据按照真实分布事先生成了一个离线数据集,之后每个工作节点再从

该数据集中按照均匀分布重复采样以获取训练所需的数据。

在实际应用中,训练数据通常是事先离线生成的,因此离线数据生成更符合现实场景。计算

并行模式通过共享内存的方式,避免了数据划分和通信开销,能够高.效利用多线程资源,适

合处理数据和模型规模较小的场景。

4.数据并行:每个Worker持有完整模型,训练不同数据子集,通过同步参数保持一致(如

梯度平均),适用于数据量大、模型较小的场景(如CNN图像分类)。

模型并行:将模型拆分到不同Worker(如按层拆分),每个Worker计算部分模型输出,适

用于模型过大(单设备存不下)的场景(如超大规模语言模型)。

5.

算法模型聚合的逻辑

]K

模型平均(MA)Wt+i二口2的心

*k=l

必+i=arg吧『(乃(加)+(年厂(tv"-zj+提||w"-z"|j

ADMMK

…历"+】+鸿

k=l

K

同步随机梯度下降法

Wc+1=必YW/

(SSGD)

k=l

6.在MA算法中,各工作节点基于本地数据对本地模型进行多轮独立迭代更新,直到本地模

型收敛或达到预设的迭代轮数阈值。随后,各节点将本地旗型参数发送至中心节点进行聚合,

计算全局模型的均值,并以此均值作为新的全局模型继续训练。这一过程减少了通信开销,

提高了训练效率。

7.(1)优化目标:ADMM适用于凸/非凸问题,对目标函数光滑性要求低;SGD更依赖目

标函数可微性。

(2)适用场景:ADMM适合带复杂约束(如正则化、隐私约束)的任务;SGD适合大规模数

据、需快速迭代的场景(如深度学习)。

8.ADMM核心思想:通过引入辅助变量和拉格朗日乘子,将全局优化问题分解为可并行求解

的局部子问题,各节点独立求解局部子问题后,通过协调变量和乘子更新实现全局一致性。

适合分布式场景的原因:无需集中所有数据,各节点仅需交换少量协调变量(而非原始数据),

且局部子问题可并行计算,适配数据分散存储、节点算力异构的特点。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论