基于深度置信网的络的快速学习方法_第1页
基于深度置信网的络的快速学习方法_第2页
基于深度置信网的络的快速学习方法_第3页
基于深度置信网的络的快速学习方法_第4页
基于深度置信网的络的快速学习方法_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Comment M1 马尔可夫链中的平衡 分布 Comment M2 唤醒睡眠算法是神经 网络的无监督学习算法 如乙状结肠 信念网 培训分为两个阶段 唤醒 和 睡眠 A A FastFast LearningLearning AlgorithmAlgorithm forfor DeepDeep BeliefBelief NetsNets 基于深度置信网的快速学习算法基于深度置信网的快速学习算法 杰弗里 e 辛顿 hinton cs toronto edu 西蒙 Osindero osindero cs toronto edu 计算机科学 多伦多大学 加拿大多伦多 m5 3 g4 Yee WhyeTeh tehyw comp nus edu sg 新加坡国立大学计算机科学系 新加坡 117543 我们介绍了如何使用 complementary priors 去减少解释在含有许多隐藏的层的紧密连 接置信网方面推理比较困难的影响 利用先验互补 倘若最高的两侧形成一个无向联想记 忆 我们同时可以得到这样一个含有一个层次的快速贪心算法 快速贪心算法被用来初始 化一个慢学习的过程 它通过使用唤醒睡眠算法的对比版本微调权重 微调后 含有三个 隐藏层的网络形成一个很好的关于手写数字图像和标签的联合分布的生成模型 相对于最 好的判别式算法而言 生成模型给出了更好的数字分类 使用顶层联想记忆的在自由能量 景观的长峡谷来对数字谎言的低维流形进行建模 便于我们探讨这些峡谷 通过使用直接 连接的方式展示已经形成的联想记忆 1 引言引言 学习紧密连接且含有多个隐藏层定向的信念网的过程是不易的 因为当给定一个数据 向量时 它是很难推断隐藏活动的条件分布 对于真实的条件分布 变分方法使用简单的 近似值 但近似值可能会很差 特别是在先验假设独立的最深的隐藏层 同时 变量的学 习还要求所有的参数在一起学习 这使得学习时间尺度随着参数的数量增加而变得越差 我们描述了一个模型 其中顶部的两个隐含层形成一个无向联想记忆 见图 1 其余 的隐藏层形成一个有向无环图 将联想记忆的表示转化为可观测变量 比如一个图像的像 素 这种混合模型具有一些比较吸引人的特征 图 1 这种网络用于数字图像和数字标签的联合分布的建模 在这篇文章中 每个训 练实例包含一个图像和一个明确的类标签 然而进展中的工作表明 相同的学习算法可以 被使用 如果 标签 是由多层通路的输入的光谱图从多个不同的发言者分离数字所替换 则这种网络学习产生包括图像和相同数字类的光谱图对 快速贪心学习算法 可以快速地找到一组比较好的参数 即使对于含有无数的参 数和许多隐藏的层的深度网络 学习算法是无监督的 但是可以通过学习一个模型被应用于标记数据 产生标签 和数据模型 微调算法是一个很好地生成模型 在对 MNIST 手写数字数据集处理方面优于判别 方法 生成模型在深度隐藏层方面更容易去解释分布式表征方法 推理过程要求形成一个快速而且准确的感知器 学习算法是局部的 突触强度的调整仅取决于突触前和突触后神经元的状态 沟通是简单的 神经元只需要与它们的随机的二进制状态进行沟通 第 2 节介绍了先验的 互补 的思想 取消 解释 的现象 使得在定向模型中推理 变得比较困难 我们给出了一个关于带有先验互补的定向置信网的例子 第 3 节介绍了受限玻尔兹曼机与带有权重的无限定向网络之间的等价性 第 4 节介绍了一种用于每次在单层构造多层定向网络的快速贪心学习算法 利用变分 约束 它显示了当每增加一个新的层时 整体生成模型提高了 在推进重复使用相同的 弱 的学习者方面 贪心算法有些相似之处 但是不是重置每个数据向量去确保下一步 学习到新的一些东西 它只是表示它 弱 的学习者是用来构造深度定向网 它本身是一 这可能是另一种感知器的最高级 个无向图模型 第 5 部分介绍了如何使用自上而下的算法微调快速贪心算法的方式产生权重 与唤醒 睡眠算法进行对比 它不会引起导致唤醒睡眠算法去学习差的识别权重这样的 平均模式 问题 第 6 节介绍了手写体数字在 MNIST 数据集中 含有三个隐含层和大约 1700000 个权重 的网络的模式识别的性能 如果没有利用几何的相关知识和特殊的数据预处理 在 10000 个数字的官方测试集中 该网络的泛化性能有 1 25 的错误率 当对于这项特殊的应用没 有人为的改造时 它比可以错误率达到 1 5 的 BP 网络要好得多 对于同一个任务而言 它也比 Decoste 和 Schoelkopf 2002 提出的支持向量机的错误率达到 1 4 要稍微好点 最后 第 7 节当没有运行被约束的可视化输入时 该网络将会发生怎么的变化 该网 络是一个完整的生成模型 所以便于我们可以从高层表示中简单地生成一个图像 而容易 地理解它的思想 本文 我们考虑了由随机二进制变量组成的网络 但是这种思想可以被推广应用到其 他的模型中 该模型中变量的变量的对数概率的是一个关于它直接连接的邻居状态的加性 函数 图 2 一个简单的逻辑信念网包含两个独立的 仅有的因素 我们观察房子震动的时这 两个因素是高度不相关的 地震节点偏置 10 意味着在没有任何观察的情况下 这个节点 较比往常有 E10倍可能发生地震 如果地震节点变动而卡车节点不变动 则下了一跳节点 总投入为 0 这意味着有一个机会存在 这是对于我们观察房子震动的可能性为 e 20的一个 更好的解释 它适用隐藏因素都不活跃得情况 但是用两个隐藏因素与解释我们观察的结 果是没有意义的 因为他们两个加在一起发生的可能性大小为 E10 E10 e 20 当地震节点变 化时 它 解释了 对于汽车节点变化的证据 2 先验互补先验互补 解释这一现象在 如图 2 所示 进行推理定向信念网时比较难 在紧密连通网络中 隐 藏变量的后验分布比较难理解 除了少数特殊情况下 如混合模型或带有高斯噪声的线性 模型 使用马尔可夫链蒙特卡罗方法 尼尔 1992 可以从后验样本中取样 但这样比较 浪费时间 变分方法 尼尔和 Hinton 1998 可以粗略的估计更容易处理的后验分布 也 可以用来改善对训练数据的对数概率约束 值得欣慰的是 学习是保证提高变分约束 甚 至隐藏状态的推理是错误的 但它会找到一种更好的方式去完全消除解释 即使在隐藏变 量与可见变量密切相关的模型中 它是普遍认为是不可能的 一个逻辑信念网络 尼尔 1992 是由随机的二进制单元组成的 当网络产生数据时 打开的单元 i 的概率是它的直接前驱 j 和定向连接的前驱的权重 wij的一个逻辑函数 其 bi 是单元 i 的偏置 当模型产生数据时 如果逻辑信念网仅含有一个隐含层 那么隐 藏变量的先验分布是成阶乘关系的 因为当模型用于生成数据时 它们的二进制状态是相 互独立的 创建非独立性的后验分布来自数据的似然函数 也许我们可以通过使用特殊的 隐藏层去创建一个 互补 的先验 在似然函数中它们完全不相关 来在第一隐藏层消除 解释 然后 当似然函数乘以先验时 我们会得到一个精确的阶乘的后验 先验互补的存 在不是显而易见的 而图 3 介绍了一个关于带有权重的逻辑信念网的简单例子 该网络中 每一个隐含层的先验都是互补的 附录 A 给出了在先验互补的条件下更一般的条件的处 理 使用绑定的权重去构造先验互补的方式可能仅仅只是一种方式 这方面在构造定向模 型和非定向模型时等同的 然而 正如我们所观察到的 它会产生一个新的非常有效的算 法 该算法的主要思想是通过较高层的权重然后逐层分解每层的权重 2 1 带有权重的无限定向模型带有权重的无限定向模型 我们可以从图 3 的无限定向网络中产生数据 通过它的无限深度隐藏层的随机结构开始 然后根据自上而下的算法执行自上而下的 祖先 过程 在这个过程中 每一层的每个变 量是从伯努利分布中选择出来的 伯努利分布是由以上各层的活跃父节点获取输入值自上 而下决定的 在这方面 它同其他定向无环信念网相似 然而 不同其他定向网络之处在 于 我们可以在所有的隐藏层上的真实的后验分布取样 通过可见单元上的数据向量开始 然后轮流在每一个隐藏层上利用转置权矩阵去推断阶层分布 在每一个隐藏层 我们在计 算每层上的阶层因子的后验之前从阶层后验取样 附录 A 介绍了一个无偏样本的程序 图 3 带有权重的无限逻辑信念网 向下的箭头代表生成模型 向上的箭头不是模型的一部分 他们表示当一个数据向量在 V0 上添加数据时 该网络中每一个隐藏层的后验分布中用于推断样本 因为之前每层的先验互补在推论后分布是阶乘的 因为我们可以从真实的后验分布取样 让我们计算数据的对数概率的导数 我们可以计 算从 H0 层的单元 j 到 V0 层的单元 i 的生成权重 Wij 的导数 在逻辑信念网络中 对于 单个的数据向量 V0 的最大似然估计规则为 其中表示平均采样状态 如果被采样的隐藏状态的可见向量被随机的重建 表 0 iv 示单元 i 被打开时的概率 从第一隐藏层 H0 的取样的二进制状态计算第二隐藏层 V1 的后 验分布 该过程和重建数据的过程是相同的 所以是概率的伯努利随机变量的样本 1 i v 0 iv 因此它的学习规则可以写为 从公式 2 2 推导 2 3 的过程中 在上的依赖是毫无疑问的 因为是在条件下 1 i v 0 j h 1 i v 0 j h 的期望 由于权重是可以被复制的 生成权重的全导数是所有两两对层权重的导数之和 除了第一个和最后一个取消 所有成对的产品遵循玻尔兹曼机的学习公式 3 1 计算规则 注 注 1 代过程的收敛的马尔可夫链的平稳分布 所以我们需要在一个层 它需要链时间代过程的收敛的马尔可夫链的平稳分布 所以我们需要在一个层 它需要链时间 比较深的开始达到平衡 比较深的开始达到平衡 2 这是相同的作为唤醒睡眠算法的推理过程 这是相同的作为唤醒睡眠算法的推理过程 Hinton 等人 等人 1995 但在这封信中没有 但在这封信中没有 描述的变分近似模型是因为推理过程给出了无偏样本 描述的变分近似模型是因为推理过程给出了无偏样本 3 受限玻尔兹曼机的对比散度学习受限玻尔兹曼机的对比散度学习 图 3 的无限的有向网络相当于一个受限玻尔兹曼机 RBM 可能不会容易明显的理解 RBM 的每个隐藏单元一个单层都互不相连并且与可见单元的每个层都有无向的堆成的连接 从 RBM 产生数据 我们可以从这些层中的一层的随机状态开始 然后利用吉布斯交替执行 采样 每一层的所有单元的更新都是并行的 并给出了其他层的单元的现行状态 所有的 单位在一层并行更新了单位的现状在另一层 重复执行直到系统抽样达到平衡分布 注意 这和从带有权重的无限信念网络中生成数据的过程是完全相同的 在一个 RBM 中执行在一 个以最大似然法的学习 我们可以利用差异的相关性 在可见层 i 和隐藏层 j 中的每个权重 Wij 当在可见层和隐藏层中的一个数据向量从它们的条件分布中取样 并且是阶乘的 我 们可以估测它的相关性 然后 利用交流吉布斯采样 如图 4 所我们运行的马尔可 0 i v 0 j h 夫链 直到达到它的平稳分布和测量出相关性 训练数据的对数概率的梯度 则 i v j h 为 图 4 这是一个马尔可夫链 使用吉布斯交替采样 在吉布斯采样的一个完整步骤中 顶层的隐单元都是并行更新的 通过利用公式 2 1 输入顶层可见单元的现行状态得到的值 然后可见单元都并行更新 给出目前的隐藏状态 和数据向量相同 马尔可夫链通过设置 可见单元的二进制状态的过程进行初始化 在隐藏单元第一次更新后 可见单元和隐藏单 元的活动相关性可以被测量 在马尔可夫链的末尾再一次执行 这两个相关性的差异提供 了更新连接的权重的学习方法 对于带有权重的无限逻辑信念网 这种学习规则等同于最大似然学习规则 吉布斯取样 的每一步都等同于计算逻辑信念网络的一层的精确的后验分布 最大化数据的对数概率等同于最小化数据和由模型定义的平衡分布的 KL 散度 0 PP KL 在对比散度学习的过程中 辛顿 2002 在第二个相关性之前我们运行 0 PP n 步骤的马尔可夫链 这相当于不考虑无限网的高层的导数 这些被忽略的导数之和是层 的后验分布的对数概率的导数 也是在层和由模型定义的平衡分布的 KL 散度 所 n V n VP 以两个 KL 散度的对比散度学习最小化差异为 忽略采样噪声 这种差异是积极的 因为吉布斯抽样用来从产生 而且吉布斯总是 0 P n P 降低有平衡分布的Kullback Leibler散度 我们还注意到 取决于当前模型的参数 并且 n P 随着参数的变化 的变化被对比散度学习忽略 这个问题不会随着而出现 因为训 n P 0 P 练数据不依赖于参数 极大似然和对比散度学习规则的关系的经验调查可以在Carreira Perpinanand Hinton 2005 被发现 对比散度学习在受限玻尔兹曼机中的应用是非常有效的 Mayraz Hinton 2001 使 用实值的单元和不同的取样方案的变化 Variations 在Teh Welling Osindero and Hinton 2003 中有描述 并且已经相当地成功的应用于地形图的生成模型 Welling Hinton Osindero 2003 自然图像去噪 Roth Black 2005 或生物细胞图像 Ning et al 2005 Marks movellan 2001 描述了一种使用对比散度去研究因子分析的方式 Welling Rosen Zvi and Hinton 2005 介绍了逻辑 二进制可见单元的网络和线性 高 斯隐单元可以用于快速文件检索 然而 它看起来似乎是以高的代价带来了效率 但是当 应用在具有明显路径时 对比散度学习不能适应于在每一层带有不同权重的深度多层网络 因为这些网络花费太多的时间才能达到含有一个数据向量的均衡条件 我们现在介绍在 RBMs和带有权重的无限定向网络之间的等价性 为不含有权重的多层网络提出一个有效的 学习算法 注释注释 每个全步骤都是由给定v更新h 然后在给定h更新v 4 基于转换表示的贪心学习算法基于转换表示的贪心学习算法 学习复杂模型的有效方式就是结合一组较简单的被顺序学习的模型 为了迫使顺序模型 学习的东西不同于之前模型的内容 在每一个模型被学习之后 数据需要做一些调整 为 了促进每一个顺序模型上的加权数据被训练 需要强调先前的模型时错误的 在主要分量 分析的一个版本中 模型化方向的方差被删除 因此迫使下一个建模方向依赖于正交的子 空间 Sanger 1989 在投影寻踪 弗里德曼和 Stuetzle 1981 通过在数据空间中非线 性扭曲把数据转换成一个方向 然后在那个方向删除所有的非高斯分布 这种思想支持我 们的贪心算法去允许每个序列模型接受数据的不同表示形式 该模型对输入的向量进行非 线性变换 输出向量将作为序列中下一个模型的输入 图 5 混合网络 前两层具有无向连接形成联想记忆 下面的层是有向 自上而下的生 成连接 它可应用于形成一个图像的联想记忆的状态 以下各层也有定向 自底向上的认 知连接 可用于在一层从二进制活动推断阶乘表示 在贪心初始学习过程中 认知连接与 生成连接是相关联的 图 5 显示了一个多层生成模型 其上的前两层通过无向连接交互 而其他所有的连接都 是有向的 顶部的无向连接相当于许多带有权重的无限高层 中间没有夹层连接 可以简 化分析的过程并且所有层都含有相同的单元数 通过假设较高层之间的参数用于构建先验 互补 对于参数学习价值是可取的 尽管不是最优的 这等同于所有的权矩阵是等同 0 W 的 在这种假设下学习的任务归结于学习一个 RBM 尽管这仍然很困难 但是通过最 0 W 小化对比散度学习可以快速获取较好的近似解 一旦被学习 在第一隐藏层数据可以通 0 W 过映射去创建较高级的 数据 0 T W 如果 RBM 是一个完美的原始数据模型 那么较高级别的 数据 已被较高级的权矩阵 建模 然而 一般来说 RBM 无法对源数据进行完美的建模 我们可以使用下面的贪婪算法 获得更好的生成模型 1 了解假设所有的权重矩阵是并列的 0 W 2 冻结和致力于使用去推断在第一隐藏层上的变量状态的阶乘近似后验分布 0 W 0 T W 即使后面在较高级的权重发生改变 意味着这种推理方法不再是正确的 3 保持较高的权重矩阵彼此并列 但是当学习通过使用转化源数据生成较高级 0 T W 数据 的一个 RBM 模型时 需要从释放 0 W 如果这种贪心算法改变更高层次的权矩阵 它保证提高生成模型 正如Neal andHinton 1998 所介绍的 在多层生成模型下 单个数据向量的负的对数概率受约束于自由能量 0 V 的变化 它是在近似分布情况下的期望能量 减去分布的熵 对于有向模型来 00 Q hv 说 这种配置 h0的能量是由下式给出 0 V 所以约束为 其中是第一隐层单元的二进制配置 P 是当前模式下的先验概率 即由 0 h 0 h 0 h 上的权重定义的 并且是第一隐藏层的二进制配置上的任何概率分布 当且 0 H 0 Qv 仅当是真实的后验分布 这种约束才是等价的 0 Qv 当所有的权重矩阵是捆绑在一起的 上的阶乘分布通过在一个数据向量上应用 0 H 产生的 是真实的后验分布 所以在贪心算法的第二步 对数 P 等价于约束 0 T W 0 v 步骤 2 冻结和 并与这些元素都是固定的 约束的导数等同于下式的 0 Qv 00 P vh 导数 所以最大化的更高层次的权重的约束 正是相当于最大化数据集的对数概率 发生 0 h 的概率为 如果约束变得更加紧密 对数 P 可能下降 尽管它的下界增 00 Q hv 0 v 加 但是在贪心算法的第二步对数 P 不会低于它自己的价值 因为在这个点上的约 0 v 束是紧密的而且总是增加的 贪心算法可以递归地应用 所以 如果我们用全最大似然的玻尔兹曼机学习算法去学 习每个权重集合 然后我们从以上的权重分解集合的最底层 我们可以一次保证学习一层 的权重 从来不会减少在模型下数据的对数概率的约束 实际上 我们用对比散度学习取 代最大似然玻尔兹曼机 因为它的效率较高而且快速 使用对比散度学习保证会无效 但 是如果我们有足够的耐心学习每一层 我们需要知道额外的其他层确保去改善未完善的模 型 为了保证生成的模型是由贪婪地学习更多的层所改善的 它是方便的考虑模型中的所 有层是相同大小的 以便较高层的权重在被从以下层分解之前可以初始化为所学的价值 然而 相同的贪心算法可以应用甚至对于层的大小不相同的情况下 5 自上而下算法的反向拟合自上而下算法的反向拟合 一次学习单层的权矩阵是有效的但不是最优的 一旦高层的权重被学习 对于较低层 的权重和简单的推理过程都不是最优的 对于无监督的方法比如 boosting 相对地可以产生 次优的 标签通常是稀缺的 每个标签可能只提供一些约束参数 所以过度拟合要比低度 拟合会带来更多的问题 因此重回去调整之前的模型可能弊大于利 然而 无监督方法可 以使用非常大的未标记的数据集 每个案例可能是高维的 从而在生成模型提供多点约束 因此低度拟合是一个严重问题 它可以通过后面的顺序拟合阶段的过程而减轻 我们之前 学习的权重会随着后来学习的权重进行调整更好的适合 在对于每层的权重 在贪心学习好的初始值之后 我们从定义模型的生成权重去分解 开用于推理的 识别 权重 但是必须保留有阶乘分布估计得每层的后验约束 其中层内 变量条件依赖于以下各层的变量的值 唤醒睡眠算法的变体由 Hinton 等人描述过 1995 后来被适用于较高层的权重去改变较低层的权重 在 向上 的过程中 认知权重在自底 向上的过程使用 随机地为每个隐藏层挑选状态 在等式 2 2 5 用最大似然学习规则调 整有向连接的生成权重 如前所述 拟合顶层的 RBM 到倒数第二层的后验分布 学习顶层 的无向连接的权重 向下 从顶层的联想记忆的状态开始 进而使用自顶向下的的生成连接随机的轮流 激活每个较低层 在向下的过程中 顶层无向连接和生成的有向连接都不会发生变化 只 有自底向上的权重被修改 如果在初始化向下的过程之前允许联想记忆设置它的均衡分布 这个过程相当于唤醒睡眠算法中的睡眠阶段 但是如果向上的过程初始化联想记忆 并且 仅允许运行几个交替吉布斯采样 在初始化向下的过程之前 这是唤醒睡眠算法的对比形 式 它减少了从联想记忆的均衡分布取样的要求 这种对比形式也调整了睡眠阶段的一些 问题 对于表示法 它确保识别权重被学习 类似于用于真实数据的情况 并且有助于消 除模式的平均问题 如果 给定一个特定的数据向量 现行识别权重总是在以上的水平选 择一个特定的模式 并且忽略了其他相当擅长生成数据的模式 在向下的学习过程中 它 不会改变这些识别权重用来回溯任何其他的模型 如果睡眠阶段被用于纯的寻祖过程 一 个纯的寻祖过程从使用延长吉布斯取样的过程开始 从顶层联想记忆获得均衡样本 通过 使用顶层联想记忆 我们也可以消除唤醒阶段的一些问题 独立的顶层单元貌似允许寻祖 过程 但是它们意味着变分近似法对于顶层的权重的效果不好 附录 B 说明了通过使用图 1 显示的网络的 MATALAB 式样介绍了自上而下算法的详细 过程 为了简单起见 关于所有参数的权重 能量 学习速率在这里不再赘述 同时 只 讨论单案例的训练数据 注释 注释 5 因为权重与它们上面的权重不再相关联 因为权重与它们上面的权重不再相关联 必须使用必须使用 i 层以上的变量的状态层以上的变量的状态 0 iv 计算 从这些变量生成计算 从这些变量生成 i 的权重 的权重 6 MNIST 数据库的特征数据库的特征 6 1 训练网络 训练网络 手写体数字 MNIST 数据库包含 60000 个训练图像和 10000 个测试图像 许多不同的模 式识别技术已经发表了这种公开可用的数据库 因此它是理想的评价新模式识别方法 对 于 MNIST 学习任务的基本版本 没有几何学的相关知识 并没有特殊的预处理或优化训练 集 所以一个未知但固定的随机排列的像素不会影响学习算法 对于这种 排列不变 版 本的任务 在官方测试集上 我们的网络的泛化性能错误是 1 25 图 1 介绍的网络是在 44000 个训练图像上被训练 把它分 440 个均衡的小批次 每一个都包含每个数字类的 10 例子 每个小批次之后更新权重 在训练的初始阶段 在第 4 节介绍的贪心算法是用来从底部开始分别训练各层权值的 每层迅速浏览 30 个训练集训练 称为 时代 在训练中 每一个 RBM 的 可见 层的 单元在 0 和 1 之间的有实数值的活动 当学习底层的权重时 这些都是标准化的像素强度 训练更高层次的权重时 RBM 中可见层的实数值活动是 RBM 中较低层的隐藏单元的激活 概率 当 RBM 被训练时 每个 RBM 中隐藏层使用随机的二进制值 贪心训练在 GHz Xeon 处理器使用 MATLAB 语言需要每层花费几个小时 它运行的时候 在测试集上的错误率为 2 49 下面详细的看网络是如何测试的 当训练顶层的权重时 在联想记忆中的 标签被设置为输入部分 标签表示通过对 10 个单位一个单位的 SOFTMAX 组被激活 当这组中的活动从以上活动被重建时 确切 的单元是活跃的 被选择出来的单元 i 的概率由下式给出 其中是单元 i 的总输入 特别的 学习规则不受 Softmax 组中两两单元竞争的影响 i x 所以不需要知道那两个单元的神经突触 竞争影响单元被激活时的概率 但是仅仅是这个 概率影响学习规则 注释 Preliminary experiments with 16 16 images of handwritten digits from the USPS database showed that a good way tomodel the joint distribution of digit images and their labels was to use an architecture of this type but for 16 16 images only three fifths as many units were used in each hidden layer 通过贪心算法层层训练 用不同的学习效率和权重衰减训练网络 对于 300 个 epochs 可使用 5 节中描述的自上而下的算法 学习率 动量和权重衰减 是通过几次训练网络 并且观察在一个含有 10000 张图像的分离的验证集上的 特性进行选择的 这些图像时完整的训练集的剩余部分 对于前 100 次的自上 而下算法 传递是基于执行前联想记忆中的吉布斯交替采样的前三次迭代 对 于之后的 100 次 进行 6 次迭代 对于最后的 100 次进行 10 次迭代 每一次对 吉布斯提出的采样迭代次数的提高 误差在验证集明显下降 在验证测试中表现最好的网络被测有 1 39 的错误率 该网络将通过 60000 训练图像 1进行训练 直到它在完整的训练集上的错误率越来越低 最终的错误 率一直存在 44000 图像的初始训练集中 再进行 59 次 让其学习大约一周的时 间 最终网络有 1 25 的错误率 2 网络的错误如图 6 所示 网络的 49 个案例 显示正确 次好的概率在 0 3 最好的概率如图 7 所示 1训练集的每个类的数目不等 所以图像被随机分配 600 个小批 2检查进一步学习不会明显改善错误率 网络就用一个非常小的学习率 和测试在运行错误每个时期的表 现 六周后 试验误差之间波动 1 12 1 31 和 1 18 的时代 训练误差的数最小的 图 6 错误网络中 125 个测试用例 每个案例标记网络的猜测 正确的类 安排在标准的扫描顺序 图 7 其中仅有 49 例网络猜对了 但有第二种猜测 它最好的概率在 0 3 正确的类安排在标准的扫描顺序 1 25 的错误率与通过有一个或两个隐藏层的前馈神经网络和被训练使用反 向传播算法优化的歧视算法 见表 1 相比是很好地 当网络的详细连接不是 手工制作的这个特定的任务 一个单独在 10 个随机在线学习输出单元的平方误 差的最佳报错率是 2 95 在具有一个隐层的 800 个单元采用小的初始权重的 网络中这些错误率可以降低到 1 53 这个权重是每个输出单元单独的交叉熵 误差函数 而且这种学习方式很温和 1 51 个几乎相同的结果实现了在一个第 一隐层有 500 个单元的和第二隐层有 300 个单元的网中采用 回归 算法输出 单元和一个不利平方量通过仔细选择使用验证集的正则化矩阵 相比之下 如 果 60000 个训练样本被使用最近的邻居报错率为 3 1 这是非常缓慢的 如 果 20 000 个训练样本被使用最近的邻居报错率为 4 4 这可以通过使用一个 L3 规范减少到 2 8 和 4 我们基本任务中生成错误率接近 1 25 模型的标准机器学习技术是一个给 出了 1 4 的错误率的支持向量机 德科斯特 Schoelkopf 2002 但是支持向 量机如何利用特定领域技巧 如体重共享和抽样 这是很难看到的 其中 LeCun bottou 哈夫纳 1998 使用从 1 5 到 0 95 提高判别神经网络的性能 权值共享和抽样不能用来减少生成的错误率模型是没有明显原因的 我们目前 正在调查这种方法 通过平均多元网络总是可以进一步改进 但这种技术可用 于所有的方法 错误率的大幅减少可以通过补充有转换版本的数据集训练数据实现 使用 一 两像素平移 德科斯特和 Schoelkopf 2002 通过该方法实现错误率达到 0 56 在卷积神经网络局部使用伸缩变形 Simard 斯坦克劳斯 和普拉特 2003 实验结果达到 0 4 比最好的手工编码识别算法达到了 0 63 belongie 马利克 和 puzicha 2002 是略好 我们尚未探索的使用扭 曲的数据学习生成模型 因为许多类型的失真需要调查 以及微调算法目前来 说太慢了 6 2 测试网络测试网络 测试网络的一个方法是通过从图像中随机确定的 500 个单位的二进制状态 相联存储器的低层 这些固定的状态 标签单位给定初始值 0 1 和吉布斯交替 采样的迭代是用于激活正确的标签装置 这种测试方法给出了错误率几乎是 1 高于上述的报错率 表 1 各种学习算法对 MNIST 数字识别错误率任务 MNIST 任务版任务版学习算法学习算法错误率错误率 排列不变我们的生成模型 784 500 500 2000 10 1 25 排列不变支持向量机 9 阶多项式1 4 排列不变前馈 784 500 300 10 交叉熵和权重衰减 1 51 排列不变前馈 784 800 10 交叉熵和提前终止 1 53 排列不变前馈 784 500 150 10 误差平方和在线更新 2 95 排列不变最近的邻居 所有 60000 例2 8 和 L3 规范 排列不变最近的邻居 所有 60000 例 和 L2 规范 3 1 排列不变最近的邻居 所有 20000 例 和 L3 规范 4 0 排列不变最近的邻居 所有 20000 例 和 L2 规范 4 4 练习阶段图像 变形的大量数据 前馈 弹性提早停止卷积神 经网络的交叉熵和数据 0 4 练习阶段扭曲图像 2 像素 转 换的额外数据 虚拟机 9 次多项式0 56 初始阶段图像形状上下文特征 手工编码 匹配 0 63 初始阶段图像 仿射变换的额外数据 在 lenet5 的前馈 卷积神经 网络 0 8 初始阶段图像在 lenet5 的前馈 卷积神经 网络 0 95 更好的方法是先把低层的联想记忆中的 500 个单位的二进制状态固定 然 后打开每一个标签单位并计算 510 组件的二进制向量准确自由能的结果 几乎 所有需要计算的是被打开的独立标签单位 Teh 和 Hinton 2001 这方法计算 精确条件的平衡分布标签而不是通过吉布斯采样逼近 以前的方法是这样做的 该方法错误率约 0 5 高于由随机决策引用的 我们可以将这两种方法移除噪 声 简单的是通过使用随机二进制状态的激活概率确定回馈 up pass 二是重 复随机过程 20 次 平均标签概率和标签记录概率 在 20 次之前选择最好的一 个 平均两类给了几乎相同的结果 而这些结果也非常相似用一个确定性的过 程 这是使用方法的报告结果 7 神经网络的展望神经网络的展望 为从模型生成样本 我们与在顶层的联想记忆的吉布斯抽样进行交流直到 马尔可夫链收敛为平衡分布 然后使用分布样本输入到下面的层 产生一个由 生成连接的单一反馈 down pass 图像 如果我们固定标签单位特别是在吉布 斯抽样的类 我们可以从模型中看到图像类的条件分布 图 8 显示了一个图像 序列的每个类 它是由样本间 1000 次迭代的吉布斯采样生成 图 8 每一行显示 10 样品从生成模型与特定标签卡 顶层的联想记忆是样 本之间运行 1000 次迭代吉布斯抽样的交替 我们也可以初始化两层顶部的状态通过提供一个随机的二进制图像作为输 入 图 9 显示了如何联想记忆类的条件状态发生转变时可以自由地运行 但同 时固定标签 这种内在的状态是 观察 进行了每 20 次迭代看看联想记忆在脑 海中 本文运用脑海这个词不是隐喻 我们认为 精神状态是一个假设的状态 一个高层次的内部表示构成真实的感知的外部世界 假设世界如图像显示 图 9 每一行显示由一个特定的固定标签模型生成的 10 个样本 顶层的联 想记忆是通过从随机的每个像素概率为 0 5 的二进制图像初始化得到的 第一 列示了一个从最初的高水平状态向下传递的结果 之后的几列由 20 次迭代的交 替吉布斯在联想记忆采样产生 8 结论结论 我们已经知道它可能是深度学习 密切的连接着置信网络的每一层 最明 显的方式就是当学习较低层时假设更高层次不存在 但利用阶乘近似代替难处 理的后验分布这不简单的 这些近似工作 我们需要真实的后验是尽可能接近 的阶乘 所以不要忽略了更高层次 我们假设他们存在且有个权重约束实现优 先互补 让真实的后验完全析因 这是相当于有一个可以有效地学习使用对比 发散的无向图模型 它也可以被看作是因为近似与真实的后验概率之间发散的 惩罚项约束变分学习 已被先前使变分近似精确约束条件取代 在学习过每一层后 从高层的权重指标解开权重 随着这些高层权重的变 化 低层的先验知识不再互补 所以在低层真实的后验分布不再是阶乘 生成 权重推论的转置使用是不正确的 然而 我们可以用变分约束 其表明改变更 高层次的权重提高了整体的生成模型 为了证明贪婪的学习算法的快速能力 我们用它初始化一个较慢的微调算 法学习数字图像的极好的生成模型和标签的权重 使用快速贪心算法是否为最 好的方式是不明确的 它最好是省略微调和使用贪婪算法的速度去学习更大的 系统 更深层次的网络或一个更大的训练集 图 1 中的网络有许多的参数为 0 002 立方毫米的小鼠皮层 贺拉斯 Barlow 个人通信 1999 而这种复杂性 为几百个网络适合在一个单像素的高分辨率 fMRI 扫描 这表明更大的网络可 能需要与人的形状识别能力竞争 我们目前的生成模型在许多方面受到限制 2003 李和芒福德 它是专为 图像的可以视为概率二进制数值 不是对自然图像 感知自上而下的反馈 它 的使用是在前两层有限的联想记忆 它没有知觉不变性处理系统 它假设已经 执行分割 当识别很困难时它间断加入最丰富的有益的部分对象学习 然而 证实了相比其他的一些生成模型的其主要优点 生成的模型不需要从标签的反馈就可以学习低级别的功能 比无拟合的 判别模型他们可以学习更多的参数 在判别学习 每个训练样本的参数约 束只能通过尽可能多的信息要求所指定的标签 对于一个生成模型 每个 训练样本的参数约束的比特数要求指精确输入 很容易看到网络已经从模型中生成 它可能解释为非线性 在深隐层的分布由它们生成图像表示 判别学习方法的分类性能优越受域控制 在域中不可能学习好的生成 模型 这系列域是由穆尔定律侵蚀 附录一 先验互补附录一 先验互补 A 1 一般互补 一般互补 考虑一个联合分布的观测值 X Y 和隐藏的变量 对于一 个给定的似然函数 P X Y 我们定义了相应的家庭是互补的先验分布 P Y 其联合分布 P x y P x Y P Y 导致的后验概率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论