付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、深度前馈网络Deep Feedforward Network multilayer perceptron MLP AI学科的关系人工智能(AI)机器学习表示学习深度学习深度学习:让计算机从经验中学习,根据层次 化的概念体系来理解世界,每个概念通过与某些相对简单的概念之间的关系来定义。深度学习思想通过简单的概念构建复杂的概念1.学习数据的正确表示2.深度促使计算机学习一个多步骤的计算机程序。深度学习算法:特定的数据集、代价函数、优化过程和模型。代价函数优化过程模型最大似然的理解梯度下降算法隐藏层激活函数反向传播学习 XOR 函数使用线性模型搭配均方误差损失函数得到w0,b0.5。在任意一点都输出
2、0.5重新审视问题:寻找超平面使样本分开使用一个模型来学习一个不同的特征空间,在这个空间上线性模型能够表示这个解。 学习 XOR 函数多层感知机:将一组输入值映射到输出值的数学函数。有一层隐藏层并且隐藏层中包含两个单元。隐藏单元的向量h的值随后被用作第二层的输入。第二层就是这个网络的输出层。输出层仍然只是一个线性回归模型。学习 XOR 函数模型思考:隐藏层:隐节点代表两个超平面激活函数:对非线性样本的线性化转化 算法思考:线性模型和神经网络的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。用于非凸损失函数的随机梯度下降没有收敛性保证,并且对参数的初始值很敏感。对于前馈神
3、经网络,将所有的权重值初始化为小随机数是很重要的。偏置可以初始化为零或者小的正值。Sigmoid VS tanhtanh 函数实际上是一个放大的 sigmoid 函数。tanh(x)=2(2x)1把实值得输入压缩到-11的范围,因此它基本是0均值的,解决了上述Sigmoid缺点中的第二个。在 0 附近与单位函数类似,类似于训练一个线性模型。接收一个实值的信号,将它压缩到0-1的范围内。特别地,大的负数被映射成0,大的正数被映射成1。很好的表达“激活”的意思,未激活就是0,完全饱和的激活则是1。Sigmoids saturate and kill gradients. 当使用一个合适的代价函数来
4、抵消 sigmoid 的饱和性时,它 们作为输出单元可以与基于梯度的学习相兼容。 Sigmoid outputs are not zero-centered.softplussoftplus 函数被设计成正部函数(positive part function)的平滑版本。它的范围是 (0, )。x+=max0,xRelu-线性整流函数f(x)=max(0,x)随机梯度下降法(SGD)的收敛速度会比 sigmoid/tanh 快很多(linear,这使得只要整流线性单元处于激活状态,它的导数都能保持较大。它的梯度不仅大而且一致,不会饱和)相比于 sigmoid/tanh需要计算指数等,计算复杂度
5、高;ReLU 只需要一个阈值就可以得到激活值。脆弱 神经元”坏死”。初始化仿射变换的参数时,将所有元素设置成一个小的正值,例如 0.1。使得整流线性单元很可能初始时就对训练集中的大多数输入呈现激活状态, 注:在 x = 0 处不可微。在实践中,梯度下降对这些机器学习模型仍然表现得足够好。神经网络训练算法中不再期望训练能够实际到达梯度为 0 的点,而是仅仅显著地减小它的值,所以代价函数的最小值对应于梯度未定义的点是可以接受的。 Relu-线性整流函数不能通过基于梯度的方法学习那些使它们激活为零的样本。整流线性单元的各种扩展保证了它们能在各个位置都接收到梯度。 absolute value rec
6、tificationLeaky ReLUparametric ReLUMaxout NetworksReLU 和 Leaky ReLU 都是Maxout的一个变形将划分为每组具有 k 个值的组,而不是使用作用于每个元素的函数 g(z)传统的MLP算法在第i层到第i+1层,参数只有一组,然而现在我们在这一层同时训练n组参数,然后选择激活值最大的作为下一层神经元的激活值。maxout激活函数并不是一个固定的函数,不像Sigmod、Relu、Tanh等函数,是一个固定的函数方程 一个分段线性函数一个可学习的激活函数参数个数成k倍增加信息论补充知识主要使用信息论的一些关键思想来描述概率分布或者量化概率
7、分布之间的相似性。如果我们对于同一个随机变量 有两个单独的概率分布 P (x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler divergence)or相对熵(relative entropy)来衡量这两个分布的差异:当用概率分布Q来拟合真实分布P时,产生的信息损耗。交叉熵(cross-entropy):H(P,Q) = H(P) + DKL (P |Q)代价函数以我们的参数模型定义了一个分布 p(y|x; ) 并且我们简单地使用最大似然原理。这意味着我们使用训练数据和模型预测间的交叉熵作为代价函数。神经网络的代价函数基本是和其他的参数模型例如线性模型的代价函数相同
8、的,再结合一个正则项(权重衰减)。优点:它减轻了为每个模型设计 代价函数的负担。明确一个模型则自动地确定了一个代价函数。负的对数似然帮助我们在很多模型中抵消激活函数饱和问题。基于梯度的优化最小化或最大化的函数称为目标函数 。对其进行最小化时,我们也把它称为代价函数(cost function)、 损失函数(loss function)或误差函数(error function)。 导数:表明如何缩放输入的小变化才能在输出获得相应的变化:01J(0,1)输入和输出都为向量的函数的所有偏导数。包含所有这样的偏导数的矩阵被称为 Jacobian矩阵。当我们的函数具有多维输入时,二阶导数也有很多。我们可
9、以将这些导数合并 成一个矩阵,称为 Hessian矩阵。Hessian 等价于梯度的 Jacobian 矩阵。函数的原始值、函数斜率导致的预期改善、函数曲率导致的校正。梯度算法的要求初始值的设置线性模型和神经网络的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。用于非凸损失函数的随机梯度下降没有收敛性保证,并且对参数的初始值很敏感。无论何时模型给出了错误的答案时,总能有一个较大的梯度。权重值初始化为小随机数。反向传播向前传播:信息通过网络向前流动。在训练过程中,前向传播可以持续向前直到它产生一个标量代价函数 J()。反向传播(back propagation)算法:允许
10、来自代价函数的信息通过网络向后流动, 以便计算梯度。最常需要的梯度是代价函数关于参数的梯度。反向传播是一种计算链式法则的算法,使用高效的特定运算顺序。要算什么?单个样本代价函数整体代价函数(包含正则项-权重衰减)迭代更新如何计算偏导?反向传播算法用矩阵-向量表示法重写算法没有免费的午餐定理在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。换言之,在某种意义上,没有一个机器学习算法总是比其他的要好。必须在特定任务上设计性能良好的机器学习算法。正则化与过拟合万能近似定理一个前馈神经网络如果具有线性输出层和至少一层具有任何 一种 挤压 性质的激活函数(例如logistic sigmoid激活函数)的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另 一个有限维空间的 Borel 可测函数。 架构深度具有单隐层的前馈网络足以表示任何函数,但是网络层可能大得不可实现, 并且可能无法正确地学习和泛化。我们还可能出于统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙西南革命根据地纪念馆讲解员招聘1人笔试备考题库及答案解析
- 2026江苏省卫生健康委员会所属事业单位长期招聘101人(一)笔试备考题库及答案解析
- 2026富民村镇银行春季招募笔试备考试题及答案解析
- 2026四川乐山市犍为县第一批就业见习岗位及招募见习人员58人笔试备考题库及答案解析
- 4.6.3 神经系统支配下的运动(第一课时)教学设计-2025-2026学年人教版(2024)生物八年级上册
- 2026重庆医科大学附属第二医院第9批援巴巴多斯医疗队厨师(编外)岗位招聘1人笔试备考试题及答案解析
- 2026广西防城港市海洋与渔业执法支队招聘编外聘用人员3人笔试备考试题及答案解析
- 2026年上半年甘肃省水利厅所属事业单位招聘39人笔试备考题库及答案解析
- 2026年临川经开区公开引进高层次人才笔试备考试题及答案解析
- 2026春季海南海口市琼山区龙塘镇中心幼儿园外聘人员招聘2人笔试备考试题及答案解析
- DB37∕T 4985-2025 农村公路交通安全设施设置规范
- 探究中国气候特征及其对人类活动的影响-基于八年级地理学科的深度教学设计
- 职业教育人工智能应用发展报告(2024-2025)
- 2025华北水利水电工程集团有限公司应届高校毕业生招聘(公共基础知识)测试题附答案解析
- GB/T 43556.3-2025光纤光缆线路维护技术第3部分:基于光传感技术的光缆识别
- 地理中国的气候第三课时课件-2025-2026学年八年级地理上学期(湘教版2024)
- 家用药箱劳动课件
- 西安民宿管理制度规定
- 产业链韧性理论研究新进展与提升路径
- 2024年个人居间保密协议3篇
- (正式版)SHT 3551-2024 石油化工仪表工程施工及验收规范
评论
0/150
提交评论