小象学院深度学习-第2课传统神经网络_第1页
小象学院深度学习-第2课传统神经网络_第2页
小象学院深度学习-第2课传统神经网络_第3页
小象学院深度学习-第2课传统神经网络_第4页
小象学院深度学习-第2课传统神经网络_第5页
免费预览已结束,剩余54页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本课件包括:演示文稿,示例,代码,题库,和声音等,小象学院拥有完全知识的权利;只限于善意学习者在本课程使用,不得在课程范围外向任何第散播。任何其他人或机构不得盗版、创意, 保留一切通过法律、仿造其中的者的权利。课程咨询:大数据分析挖掘:ChinaHadoop法律互联网新技术教育领航者传统神经网络主讲人:纽约城市大学博士主要研究深度学习,计算机视觉,人脸计算多篇重要研究文章作者,重要会议期刊审稿人微博ID:weightlee03

(相关资料

)ID:wiibrew

(课程代码发布)互联网新技术教育领航者互联网新技术教育领航者3/59结构✔✔提纲1.

神经网络

:线性回归2.从线性到非线性3.神经网络的构建4.神经网络的“配件”4/59互联网新技术教育领航者期待目标1.了解从线性到非线性回归的转化2.

明白如何构建神经网络,了解不同激励函数的区别联系3.掌握“配件”对神经网络性能的影响(损失函数,学习率,动量,过拟合),会“调参”4.明白本节所有的[面试题]5/59互联网新技术教育领航者提纲1.

神经网络 :线性回归2.从线性到非线性3.神经网络的构建4.神经网络的“配件”6/59互联网新技术教育领航者线性回归关概念:线性关系来描述输入到输出的系应用场景:网络分析银行风险分析基金股价天气预报7/59互联网新技术教育领航者线性回归一个线性回归问题目标方程:y=ax1+bx2+cx3+d参数:m=[a,b,c,d]数据:[(x1,1,x2,1,x3,1),(x1,2,x2,2,x3,2),…(x1,n,x2,n,x3,n)][y1,y2…..yn]:ŷt=ax1,t+bx2,t+cx3,t+d目标:minimize(ŷt

-yt)8/59互联网新技术教育领航者线性回归优化方法:梯度下降模型参数当前m0

=[a0,b0,c0,d0]每一步Δm?参数:m=[a,b,c,d]山坡高度:Loss地面位置:参数山坡最低点:Loss

minimal最低点位置:目标参数怎么到达:下坡方向,梯度下降怎么找方向:高度对地面关系导数9/59互联网新技术教育领航者线性回归梯度下降:梯度计算Loss=ax1,t+bx2,t+cx3,t+d-yΔm=[x1,t,

x2,t,

x3,t,1]梯度下降:参数更新m:=m-ηΔmd(loss)/d(a)d(loss)/d(b)d(loss)/d(c)d(loss)/d(d)10/59互联网新技术教育领航者线性回归梯度下降法总结:随机初始化参数开启循环:t=0,1,2。。带入数据求出结果ŷt与真值比较得到loss=y-ŷt对各个变量求导得到Δm更新变量m如果loss足够小或t循环结束,停止11/59互联网新技术教育领航者线性回归输出+能否同时个目标?多yx1x2xn+w1w2wny1x1x2xn+wn+y2W’n12/59互联网新技术教育领航者线性回归输出+能否同时个目标?多多目标学习,通过合并多个任务loss,一般能够产生比单个模型更好的效果。yx1x2xn+w1w2wny1x1x2xn+wn+y2W’n13/59互联网新技术教育领航者线性回归局限线性回归能够清楚的描述分割线性分布的数据,对非线性分布的数据描述较弱14/59互联网新技术教育领航者提纲1.

神经网络

:线性回归2.从线性到非线性3.神经网络的构建4.神经网络的“配件”15/59互联网新技术教育领航者从线性到非线性非线性激励考量标准:1.正

输入的调整2.反向梯度损失y16/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数Sigmoid,函数效果,导数优点,缺点17/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数Sigmoid,函数效果,导数优点,缺点将输入数据

到[0,1]梯度下降非常明显,至少减少75%18/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数tahn,函数效果,导数优点,缺点1-119/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数tahn,函数效果,导数优点,缺点将输入数据到[-1,1]梯度损失明显1-120/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数ReLU(Rectified

linear

unit)函数效果,导数优点,缺点21/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数ReLU(Rectified

linear

unit)函数效果,导数优点,缺点正向截断负值,损失大量特征反向梯度没有损失22/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数ReLU(Rectified

linear

unit)函数效果,导数优点,缺点正向截断负值,损失大量特征为什么还用?反向梯度没有损失23/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数ReLU(Rectified

linear

unit)函数效果,导数优点,缺点正向截断负值,损失大量特征为什么还用?特征足够多反向梯度没有损失24/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数Leaky

ReLU(Rectifiedlinear

unit)函数效果,导数优点,缺点保留参数,少量梯度反向为什么不变成y=x?25/59互联网新技术教育领航者从线性到非线性常用的非线性激励函数Leaky

ReLU(Rectifiedlinear

unit)函数效果,导数优点,缺点保留参数,少量梯度反向为什么不变成y=x

?

线性了26/59互联网新技术教育领航者从线性到非线性神经元-神经网络[面试题]有线性回归网络吗?27/59互联网新技术教育领航者从线性到非线性神经元-神经网络[面试题]有线性回归网络吗?并没有。。28/59互联网新技术教育领航者提纲1.

神经网络

:线性回归2.从线性到非线性3.神经网络的构建4.神经网络的“配件”29/59互联网新技术教育领航者神经网络构建神经元的“并联”和“串联”从第一层神经网络到最终输出,每一个神经元的数值由前一层神经元数值,神经元参数W,b以及激励函数共同决定第n+1层第k个神经元的方程可由公式表示为:并联:宽度串联:深度在这里,m表示第n层神经网络的宽度,n为当前神经网络的深度30/59互联网新技术教育领航者神经网络构建神经网络优化链式法则(下一讲主要内容)计算梯度output->last

layerlayer->layerlayer->parameterLoss-->ΔynΔyn-->ΔxnΔyn-->Δwn怎么计算

Δwi

? Δyi,

Δxi+1,

….Δyn,31/59互联网新技术教育领航者神经网络构建神经网络求导-TensorFlow实现data

=

tf.placeholder(tf.float32)var

=

tf.Variable(...)loss

=some_function_of(var,

data)var_grad

=

tf.gradients(loss,

[var])sess

=tf.Session()var_grad_val

=

sess.run(var_grad,

feed_dict={data:

...})32/59互联网新技术教育领航者神经网络构建神经网络实例分析:MINIST

神经网络分类见:course_2_tf_nn.py结构变化影响“并联”宽度影响“串联”层数影响DropoutLearning

rate33/59互联网新技术教育领航者提纲1.

神经网络

:线性回归2.从线性到非线性3.神经网络的构建4.神经网络的“配件”34/59互联网新技术教育领航者神经网络的“配件”1.损失函数-Loss影响深度学习性能最重要因网络模型训练的直接指导。一。是外部世界对神经合适的损失函数能够确保深度学习模型收敛设计合适的损失函数是研究工作的主要内容之一35/59互联网新技术教育领航者神经网络的“配件”1.损失函数SoftmaxLoss影响?36/59互联网新技术教育领航者神经网络的“配件”1.损失函数SoftmaxLoss影响?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]37/59互联网新技术教育领航者神经网络的“配件”1.损失函数SoftmaxSoftmax的好处?Loss影响?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]38/59互联网新技术教育领航者神经网络的“配件”1.损失函数SoftmaxSoftmax的好处?分类问题的

结果更明显Loss影响?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]39/59互联网新技术教育领航者神经网络的“配件”1.损失函数Cross

entropyExplode?->W.

Li,

F.

Abtahi,

Z.

Zhu,

Action

Unit

Detection

with

Region

Adaptation,Multi-labeling

Learning

and

Optimal

Temporal

Fusing.

CVPR

2017.用途?40/59互联网新技术教育领航者神经网络的“配件”1.损失函数Cross

entropyExplode?->W.

Li,

F.

Abtahi,

Z.

Zhu,

Action

Unit

Detection

with

Region

Adaptation,Multi-labeling

Learning

and

Optimal

Temporal

Fusing.

CVPR

2017.用途?目标为[0,1]区间的回归问题,以及生成41/59互联网新技术教育领航者神经网络的“配件”1.损失函数自定义a.

看中某一个属性单独将某一些 值取出或赋予不同大小的参数b.合并多个loss多目标训练任务,设置合理的loss结合方式(各种运算)c.

神经网络融和不同神经网络loss结合,共同loss对网络进行训练指导42/59互联网新技术教育领航者神经网络的“配件”2.学习率Learning

rate数值大:收敛速度快数值小:精度高43/59互联网新技术教育领航者神经网络的“配件”2.学习率Learning

rate如何选用合适的学习率?Fixed;2.

Step;Adagrad(知道定义即可)RMSprop44/59互联网新技术教育领航者神经网络的“配件”3.动量正常Why?沿着已经得到的优化方向前进,不用重新找方向,只需微调How?v=045/59互联网新技术教育领航者神经网络的“配件”3.动量正常Why?沿着已经得到的优化方向前进,不用重新找方向,只需微调How?v=0[面试题]用动量和直接调大学习率有什么区别?

46/59互联网新技术教育领航者神经网络的“配件”3.动量正常Why?沿着已经得到的优化方向前进,不用重新找方向,只需微调How?[面试题]和直接调大学习率有什么区别?方向不同找的更准确47/59互联网新技术教育领航者神经网络的“配件”3.动量

Nesterov

动量理解:新的梯度更新是在动量投射的基础上48/59互联网新技术教育领航者神经网络的“配件”4.过拟合(Overfitting):w1w2w3w411111W’=[0.25,0.25,0.25.0.25]W’’=[1,0,0,0]哪个参数更好?49/59互联网新技术教育领航者神经网络的“配件”4.过拟合(Overfitting):w1w2w3w411111W’=[0.25,0.25,0.25.0.25]W’’=[1,0,0,0]哪个参数更好?如果

的参数能够参与决策,会对输入有更高的适应性,w’’

更好

50/59互联网新技术教育领航者神经网络的“配件”过拟合---应对:RegularizationBeforeLoss=ŷ-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After51/59互联网新技术教育领航者神经网络的“配件”w:=w-ηΔw-2ηλwRegularization

对参数w有什么影响?过拟合---应对:RegularizationBeforeLoss=ŷ-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After52/59互联网新技术教育领航者神经网络的“配件”w:=w-ηΔw-2ηλwRegularization

对参数w有什么影响?为了使Loss‘最小,w2

部分要求w的值尽量平衡(why),和Loss共同影响w变化过拟合---应对:RegularizationBeforeLoss=ŷ-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After53/59互联网新技术教育领航者神经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论