翻译A-fast-learning-algorithm-for-deep-belief-nets

上传人：简*** IP属地：湖北上传时间：2020-03-27 格式：DOC 页数：15 大小：619.27KB 积分：9.6 举报 版权申诉

翻译A-fast-learning-algorithm-for-deep-belief-nets_第2页

翻译A-fast-learning-algorithm-for-deep-belief-nets_第3页

翻译A-fast-learning-algorithm-for-deep-belief-nets_第4页

翻译A-fast-learning-algorithm-for-deep-belief-nets_第5页

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于深度置信网络的快速学习算法基于深度置信网络的快速学习算法 A fast learning algorithm for deep belief nets 摘要摘要本文展示了如何运用互补先验来消除使得在多隐层密度连接型置信网络中推理困难的 explaining away 现象利用互补先验我们提出了一个快速贪婪算法用于学习深度有向置信网络每次学习一层为最顶上的两层提供无向关联记忆快速贪婪算法用来初始化一个更慢的的学习过程这个过程是用 wake sleep 算法的对比版本来微调权值在微调之后一个三层隐含层的网络生成了一个很好的手写数字图像和其它记号的联合分布生成模型这个生成模型能比判别式学习算法更好的分类数字这些存在数字的低维副本通过顶层关联记忆的自由能量地形的长峡谷建模利用有向关系去表现脑海中的关联记忆很容易找到这些峡谷 1 介绍介绍在一些含有多个隐层的密度连接有向置信网络中学习是困难的因为给定一个数据向量要推断隐含活动的条件分布是很难的变分方法简单地去近似真实的条件分布但是这些近似可能很差特别是在假设先验独立的最深的隐层而且很多学习仍需要所有的参数一起学习造成学习时间随参数增加而剧增图 1 这个网络用来建模数字图像的联合分布我们设计了一个模型模型的顶部两层来自于一个无向联想记忆见图 1 剩下的隐层来自于一个有向无环图这个有向无环图能将联想记忆转换为像像素点那样的观察变量的这种混合模型有很多优点 1 可以利用快速贪婪算法来快速的寻找一个很好的参数集合甚至是有数百万参数和很多隐层的深度网络 2 学习算法是无监督的但是可以通过学习一个生成标记和数据的模型从而使的模型同样适用于有标记的样本 3 提出微调算法来学习优秀的生成模型是一个优于用于手写数字 MNIST 数据库的判别式算法的算法 4 生成模型更易于解释深度隐层的分布情况 5 用于形成认知的推断又快又准 6 学习算法是本地的神经元强度的调整仅取决于前端神经元和后端神经元的状态 7 通信简单神经元仅需要去联系他们的随机二值状态第二部分介绍了互补先验的概念它可以消除使的有向模型推断困难的 explaining away 现象并展示了一个带补充先验的有向置信网络的例子第三部分展示了限制玻尔姿曼机与定权无限有向网的等价性第四部分介绍了一个快速贪婪算法可以每次建立多层有向网中的一层变分边界表明了随着每增加一个新的层整个生成模型都会得到改进贪婪算法与 boosting 有一些相似性在于它的重复利用弱分类器而不是重新权衡每个数据向量以保证下一步能学到新的东西被用来构建深度有向网的弱学习器本身就是一个无向图模型第五部分快速贪婪算法得到的权重如何用上下算法进行微调这是一个 wake sleep 算法的对比版本它没有模型平均问题这个问题会使得 wake sleep 算法得不到很好的认知权重第六部分展示了一个网络的模式识别效果这个网络有三个隐层和手写数字 MNIST 集的 170 万个权重不提供任何几何学时没有任何特殊的预处理这个网络的生成效果在 10000 张数字集上是 1 25 的错误率在这个特殊的应用中这个算法比最佳的后向传播网络优了 1 5 该算法也稍微优于支持向量机在相同任务中取得的 1 4 的错误率最后第七部分展示了当运行不被视觉输入所限制时网络的 mind 中在发生着什么这个网络有一个完整的生成模型所以可以轻易的看到它的 mind 我们可以简单地从高层表示中生成一个图像综上所述我们考虑了一个由随机二值变量组成的网络但是这些 ideas 可以生成其他模型其中变量的 log 概率是一个有向连接邻居的状态的加性函数 2 互补先验分布互补先验分布有向置信网络中的 explaining away 现象使得推断变得困难见图 2 在密度连接网络中隐含变量的后验分布是很棘手的除非少数特殊的例子如混合模型带高斯噪声的线性模型马尔可夫链 Monte Carlo 可以被用来从后验采样但他们特别耗时变分方法用一个更易处理的分布来近似真实的后验并可以被用来为训练数据的 log 概率划分一个更低的下界 lower bound 令人欣慰的是学习可以确保给出一个变分边界甚至是当隐含状态的推断是错误的时候但寻找一个一次性消除 explaining away 的方法会更好甚至是在隐含变量对可见变量有高度相关性的模型里但大部分认为这是不可能的图 2 当我们观察房价的跳跃时一个包含两个独立的罕见的原因的 logistic 置信网络变得高度非相关 10 的地震节点意味着在任何观察的情况下这种节点关的可能性比开的可能性多 E10 倍如果地震节点打开卡车节点关闭跳跃节点有一个总数为 0 的输入这说明开关的可能性是相等的一个 logistic 置信网络是由随机二值单元组成的当用这个网络去生成数据打开单元 i 的概率是一个由它的直接祖先 j 和与直接祖先的联系权重 wij 组成的 logistic 函数 1 exp 1 1 1 j ijji i sb sp 这里的 bi 指单元 i 的偏差如果一个 logistic 置信网络只有一个隐层隐含变量的先验分布是因子的因为当用模型来生成数据时它们的二值状态是被独立选择的后验分布中的非独立性来自于数据中的可能性 term 可能我们能通过另外的隐层建立补充先验来削减 explaining away 现象当可能性 term 随先验增加我们会得到一个因子的后验补充先验存在的并不明显但图 3 展示了一个简单的定权无限 logistic 置信网的例子这个网络中每一隐层都有一个补充先验利用固定的权重来构建补充先验可能看起来小事一桩正如我们所见然而它是一个很好的学习算法逐渐的由上一层的权重来求解每一层的权重 2 1 定权无限有向模型定权无限有向模型我们可以通过无限深度隐层的随机初始化后用图 3 中的无限有向网来生成数据然后执行自顶向下祖先 pass 这里的每层的每个变量的二值状态都是服从由自顶向下的来自于它上层的活跃父节点的输入决定的 Bernoulli 分布在这方面它就跟其它的有向无环置信网络一样然而不同于其它有向网络我们可以开始于可见单元的数据向量然后用权重转置矩阵去依次推断每一个隐层的因子分布来从所有隐层的真实的先验分布中取样在每一个隐层在对上一层进行因子后验的计算之前我们从每一个因子后验中取样附录 A 显示了这个流程给出了无偏的样本因为每一层的补充先验确保了后验分布是因子的图 3 定权无限置信网络向下的箭头代表生成模型向上的箭头不属于这个模型他们表示用来从网络的每个隐层的后验分布中推断样本的参数既然我们能够从真实的后验中采样我们就可以计算数据的 log 概率的导数首先对 H0 层的 j 单元到 V0 层的 i 单元的生成权重求导见图 3 在 00 ij logistic 置信网络中单个数据向量 V0 的极大似然学习准则是 2 log 000 00 0 iij ij vvh vp 这里的表示采样状态的平均 vi0 指如果可见向量是由采样的隐含状态中随机重构的单元 i 被打开的概率由第一层隐层 H0 的采样随机状态计算第二层隐层 V1 的后验分布跟重构数据是一样的过程所以 vi1 是一个概率为 vi0 的 Bernoulli 随机变量的样本学习准则被写成下式 3 log 100 00 0 iij ij vvh vp vi1 对 hj0 的依赖性毫无疑问是用 3 式来推导 2 式如下 log 100 00 0 iij ij vvh vp 001 jji hhv 211 iij vvh 4 所有的垂直对齐项相互抵消得到 5 式的 Boltzmann 机器学习准则 3 限制限制 Boltzmann 机和对比发散学习机和对比发散学习图 3 中的无限有向网络是与 RBM 等价的 RBM 有一个由互不相连无向的与可见状态层连接对称的隐含状态组成的单独层为了从 RBM 中生成数据我们可以从某一层的随机状态开始然后执行交替 Gibbs 采样给定目前其他层的单元的状态一层中的所有单元都被并行更新重复这个过程直到系统从均匀分布中采样要注意的是这个过程与从定权无限置信网中生成数据的过程是等价的为了在 RBM 中执行极大似然学习我们可以利用两个交互作用之间的区别对每一个可见单元 i 和隐含单元 j 之间的权重 Wij 当一个数据向量附属在一个可见单元上而且隐含状态是从它们的因子条件分布中采样的我们就要衡量交互关系然后用另外的 0 j 0 ih v Gibbs 采样我们运行马尔科夫链直到它达到它的平稳分布然后计算交互关系训练数据的 log 概率导数为 0 j 0 ih v 5 jiji ij hvhv vp 00 00 0 log 这个学习准则与定权无限 logistic 置信网的极大似然学习准则是一致的 Gibbs 采样的每一步都对应计算无限 logistic 置信网的每一层的精确的后验分布 6 KL KL 0 PPPP n 图 4 中描绘了一个使用交替 Gibbs 采样的马尔科夫链在一个完整的 Gibbs 采样过程中顶层的隐单元都被并行更新 4 转化表征的贪婪算法转化表征的贪婪算法学习复杂模型的一种有效办法就是组合一系列的简单模型并有序的学习它们为了防止序列中的模型与前面的模型学到不同的东西在每个模型都被学习后数据就被修改了图 5 混合网络顶部的两层有无向连接而且来自关联记忆图 5 展示了一个多层生成模型这个模型的顶部两层通过无向连接交互其他的都是有向连接顶部的无向连接与固定权重的无限多更高的层等效模型中没有层内连接为了简化分析每层都有相同数目的单元可以通过假设高层之间的参数被用来组成 Wo 的互补先验知识来计算参数 Wo 的敏感值这就等价于假设所有的权重矩阵都是相同的在这些假设下的学习 Wo 任务就简化成学习 RBM 虽然这仍然很困难一旦学习到了 Wo 数据通过映射后在第一层隐层创建更高级的数据 T 0 W 如果 RBM 是原始数据的最佳模型高层权重矩阵将得到很好的高层数据然而通常 RBM 都不能很好的得到原始数据的模型我们可以用下面的贪婪算法得到一个更好的生成模型 1 学习 Wo 时假设所有的权重矩阵都是固定的 2 固定 Wo 然后用来推断第一个隐层的变量的状态的因子近似后验 T 0 W 分布尽管随后高层权重的改变意味着这个推断方法不再正确 3 让所有的高层权重矩阵彼此相连但独立于 Wo 学习一个由原始数据经转化后生成的高层数据的 RBM 模型 T 0 W 如果这个贪婪算法改变了高层的权重矩阵它肯定会改进生成模型多层生成模型下的单数据向量 vo 的消极的 log 概率被来自近似分布 Q 的负熵的变分的自由能量所限制对于一个有向模型配置 vo ho 的能量表示为 7 log log 00000 hvphphvE 边界为 8 0 0 log log log log 0000 000000 allh allh vhQvhQ hvphpvhQvp 这里的 ho 是第一层隐层的单元的二值配置 pho 是基于现在的模型的 ho 的先验概率 Q 是基于第一层隐层的单元的二值配置的任意概率分布当且仅当 Q 是真实的后验分布时取等号当所有的权重矩阵捆绑在一起将应用于数据向量产生的 Ho 的因子分 T 0 W 布是真实的后验分布所以第二步中的贪婪算法 log p 是等于边界的第二步固定了 Q 和 p 后边界的导数也就是下式的导数 9 0 log 000 allh hpvhQ 所以将边界最大化更高层的权重等于最大化一个 ho 发生的概率为 Q 的数据集的 log 概率如果边界变的更小尽管下界在增长 log 下降也是可能的但 log 不会低于第二步中贪婪算法得出的值因为边界在这一点上是紧的而且一直在增加贪婪算法可以递归所以如果我们用完整的极大似然 Boltzmann 机学习算法去学习每一组固定权重然后再将组里底层从上一层的权重里解开我们就可以每次都学习到一层的权重并能保证数据的 log 概率不会低于完全生成模型实际上我们用对比发散学习来代替极大似然 Boltzmann 机学习算法是因为它更好更快为了确保通过贪婪地学习更多层而使的生成模型得到了改进可以简单的认为模型这个模型中每一层都一样大小这样高层的权重可以被初始化成在从低层权重解开之前学习到的值同样的贪婪算法可以用在不同大小的层数上 5 基于上下算法的回馈修正基于上下算法的回馈修正一次学习一层权重矩阵很高效但是并不是全局最优一旦学习了高层的权重低层的权重和简单推理过程将都不是最优的贪婪算法得到的次优结果对像 boosting 这样的监督方法是相对没有什么影响的标记很难得到而且每个标记可能仅提供少许参数的约束所以过拟合是一个欠拟合更典型的问题然而回溯到以前修改之前的模型也只会造成更多的麻烦非监督模型可以利用大量的无标记数据库而且每个样本都可能是高维的因此提供很多约束给生成模型欠拟合是一个可以被后面的 back fitting 阶段缓解的严峻问题 back fitting 阶段中之前被学习了的权重又被修正以更好的适应之前学习到的权重在贪婪的学习完每一层的原始数据的权重后我们解除用于从定义模型的生成模型中推理的认知权重但保留每一层的后验必须近似为因子分布的限制且这个因子分布中给定低层变量的值后每一层内的变量是条件独立的一个 wake sleep 算法的变体可以被用来允许高层权重影响低层权重 6 MNIST 的识别效果的识别效果 6 1 训练网络训练网络 MNIST 手写数字数据库有 60000 训练图像和 10000 训练图像在训练的初始化阶段第四部分介绍过的贪婪算法用来从底部开始单独训练每一层的权重每一层都用训练集训练 30 次在训练过程中 RBM 的可见层的单元都拥有 0 1 之间的实值在训练顶层的权重时标记被作为输入提供这些标记用一个 10 单元的 softmax 组的打开来表示当这些组里的活动被上层的活动重构时仅有一个单元被允许激活而且选择单元 i 的概率为 10 j j i i x x p exp exp 这里的 xi 指单元 i 接受的总输入奇怪的是学习准则不受一个 softmax 组中单元间的竞争的影响所以神经元不需要知道哪个单元在与哪个单元在竞争竞争会影响一个单元的打开但这是唯一会影响学习的概率在一层层的贪婪训练后这个网络被不同学习速度权重衰减地训练出来学习速率动力权重衰减是在多次的训练网络后得出的在验证集上表现最佳的网络有 1 39 的错误率然后将这个网络在 60000 张训练图片上训练直到网络在整个训练集上的错误率与在 44000 张图像的初始训练集上的最终错误率一样低这又得再进行 59 次迭代使的总学习时间达到了一周最终的网络有 1 25 的错误率网络的错误如图 7 所示图 6 展示的是网络计算正确但是第二佳的概率是最佳概率的 0 3 以内的例子图 6 网络测试正确但第二猜测的概率是第一猜测的概率的 0 3 以内的所有的 49 个案例图 7 网络中测试错误的 125 个案例每个案例都标注着网络的识别结果 6 2 测试网络测试网络一个测试网络的办法是用图像中的随机 up pass 来固定关联记忆的低层中 500 个单元的二值状态一个更好的方法是先固定关联记忆的低层的 500 个单元然后再依次打开每一个标记单元然后精确计算 510 个组件二值向量的自由能量尽管所有的计算都需要标记单元开关的独立性而且这种方法计算的精确条件平稳分布是基于标注而不是用之前使用的 Gibbs 采样来近似因为 up pass 中的随机决策这种方法的错误率比引用的方法的还要高 0 5 我们可以通过两种办法来消除这种噪声最简单的方法是利用激活的概率来代替随机二值状态来确定 up pass 第二种方法是重复随机 up pass20 次然后平均这 20 次的标注概率和标注 log 概率然后挑选出最佳这两种类型的平均给出了几乎相同的结果而且这些结果都与用确定性 up pass 非常近似图 8 每行显示了 10 个来自带标记的生成模型的样本顶层的关联记忆在样本见进行了 1000 次迭代间隔采样图 9 每行显示了 10 个来自带标记的生成模型的样本顶层的关联记忆是用来自每个图像都以 0 5 的概率打开的随机二值图像的 up pass 来初始化 7 深度剖析神经网络深度剖析神经网络为了从模型中生成样本我们在顶层关联记忆里又进行了一次 Gibbs 采样直到马尔科夫链收敛至平稳分布然后我们将来自这个分布的样本作为低层的输入用单个的生成连接的 down pass 生成图像如果在 Gibbs 采样过程中如果将带标记的单元归为一类我们可以看到服从模型的类条件分布的图像图 8 展示了在样本中执行 1000 次 Gibbs 迭代采样的每个类的一系列图像我们可以通过将随机二值图像作为输入来初始化顶部两层的状态图 9 显示了当程序带标记的自由运行时关联记忆的类条件状态会发散每迭代 down pass20 次来看看关联记忆的 mind 从而观察到内部状态 mind 这个词并不是隐喻我们认为内心状态是一个假想的外部的世界这里的高层内部表示将组成真实的认知图中所示的就是这个假想的世界 8 总结总结每次学习一层深度密度连接置信网络是可能最明显的方式就是在学习低层时假设上层不存在但这与用简单因子近似来代替难以得到的后验分布的做法不兼容为了让这些近似发挥作用我们需要真实的后验与因子尽可能的相近所以取而代之忽略上层的做法我们假设它们存在但带固定权重这些权重被补充先验约束从而使得真实的后验接近于因子这与能用对比发散高效学习的无向模型是等价的加上的罚项后这也可以被视作约束变量学习因为罚项近似值和真实值之间的差异已经被先验必须使变量近似精确的约束代替在每一层都被学习后它的权重便独立于上层的权重随着这些上层权重改变低层的先验知识不再是互补的了所以低层真实的后验分布不再是因子的了生成矩阵的转置也不再正确但我们可以利用可变约束去展示调整高层权重可以改进整个生成模型为了展示快速贪婪学习算法的效率我们用它来初始化一个更慢的微调算法的权重这个微调算法能学习到数字图片以及它们的标注的很好的生成模型忽略微调算法利用贪婪算法的速度去学习一个更大更深的网络或者一个更大的训练集图 1 中的网络有大概 0 002 立方毫米的参数上百个这样复杂的网络能适应一个高度分解的功能性核磁共振成像扫描的单个元素里说明更大的网络需要用人脑那么大的认知能力才能计算我们目前的生成模型有很多局限性它是为多进制可以被视作概率的图像而设计的认知过程中自顶向下的反馈受限于最顶两层的关联记忆这里没有一种系统的方法去解决认知不变性假设已经分割完成当判别式很复杂时系统没有学会有序的处理信息量最大的部分然而这说明了生成模型相对于判别式算法的很多优点 1 生成模型能学习底层特征

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

翻译A-fast-learning-algorithm-for-deep-belief-nets

文档简介

温馨提示

最新文档

评论

翻译A-fast-learning-algorithm-for-deep-belief-nets

文档简介

温馨提示

最新文档

评论

相关文档