自编码(Autoencoder).pptx

上传人：柠*** IP属地：江西上传时间：2020-03-21 格式：PPTX 页数：38 大小：1.88MB 积分：12 举报 版权申诉

免费预览已结束，剩余33页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

自编码 Autoencoder 大纲稀疏自编码 SparseAutoencoder 栈式自编码 StackedAutoencoder 去噪自编码 DenoisingAutoencoder 压缩自编码 ContrativeAutoencoder 自编码简介 Autoencoder 自编码简介 Autoencoder 输入值编码函数编码或内部表示解码函数输出也称重建值损失函数用于测量重建的好坏目标是最小化L的期望值自编码简介 Autoencoder 自动编码器就是一种尽可能复现输入信号的神经网络自动编码器必须捕捉可以代表输入数据的最重要的因素类似PCA 找到可以代表原信息的主要成分 Input 数据的输入 Encoder 编码器 Code 输入的一个表示 Decoder 解码器 Reconstruction input的重建 Error 重建数据和input的误差自编码简介 Autoencoder 几种自编码的共同点自编码的共同点是除了预防针对x简单地学习一个恒等函数外还包含在以下两方面取折中 1 学习到一个针对x的表示h x也能通过一个解码器从h中还原需要注意的是这并不需要对所有x都满足只满足对那些服从数据分布的x即可重建误差 2 减小模型代表性的能力使在尽可能多的输入方向上不敏感模型的表达能力泛化能力自编码简介 Autoencoder 如何在重建误差和表达能力之间取折中呢解决方法区分训练样本的哪些变量需要表示学到一个数据的表示映射 mapping 对流形的方向比较敏感对正交于流形的方向不敏感将在正交于流形的方向产生一个收缩的表示图中黑色的线为流形空间向右的绿色箭头与流形相切蓝色的箭头正交于流形自编码简介 Autoencoder 重建误差的概率解释目标函数损失函数的选取取决于输入数据的类型如果输入是实数值无界值损失函数使用平方差 squarederror 如果输入时位矢量交叉熵 cross entropy 更适合做损失函数什么是交叉熵 p和q分布的交叉熵是 p分布的信息熵和p和q的DL散度的和我们可以认为训练一个解码函数等同于对条件分布P x h 的估计同样的道理可以将编码函数理解为一个条件分布Q h x 而不仅仅是一个干巴巴的函数式子稀疏自动编码器 SparseAutoencoder 如果在AutoEncoder的基础上加上L1的Regularity限制 L1主要是约束每一层中的节点中大部分都要为0 只有少数不为0 这就是Sparse名字的来源我们就可以得到SparseAutoEncoder法如上图其实就是限制每次得到的表达code尽量稀疏因为稀疏的表达往往比其他的表达要有效人脑好像也是这样的某个输入只是刺激某些神经元其他的大部分的神经元是受到抑制的稀疏自动编码器 SparseAutoencoder 输入基础知识回顾输出激活函数 Sigmiod Sigmoid函数曲线导数稀疏自动编码器 SparseAutoencoder 简单神经网络三层单隐藏层 L层第i个单元的输入单元总的加权和表示为例如所以进一步简写稀疏自动编码器 SparseAutoencoder 反向传播算法 Backpropagationalgorithm 输入共m个训练集损失函数其中类似于加入正则化项权重衰减项 weightdecay 如下式稀疏自动编码器 SparseAutoencoder 反向传播算法 Backpropagationalgorithm 首先通过前向网络计算每个神经元的激活值 activations 包括输出值其次对于第L层的第i节点计算其误差项对于输出节点详细推导步骤表示输出层有推导见下一张PPT 稀疏自动编码器 SparseAutoencoder 反向传播算法 Backpropagationalgorithm 如何得来的呢推导过程对于有其中表示l 1层神经元个数详细推导步骤稀疏自动编码器 SparseAutoencoder 自编码设法学习到一个函数使得回到自编码即稀疏自动编码器 SparseAutoencoder 为隐藏单元j的平均激活值如左图一般强制约束 Why 看下文是一个稀疏参数一般取接近于0的值比如0 05 也就是说每个隐藏单元j的平均激活值接近于0 05 稀疏自动编码器 SparseAutoencoder 该式的另外一个作用是对偏离我们添加一个额外的惩罚项来最优化目标函数即其中 KL散度公式的程度进行惩罚左图中当时 KL散度值达到最小其值为0 当趋于0或1时 KL散度值趋于无穷大因此为了使以上惩罚项最小必须使得稀疏自动编码器 SparseAutoencoder 因此全局损失函数为哎妈这玩意终于出来了其中稀疏自动编码器 SparseAutoencoder 为什么能稀疏 1 减小编码后隐藏层神经元个数比如后一层比前一层神经元个数少如果激活函数不使用sigmoid函数而使用线性函数就是PCA模型 2 隐藏层的任何一个神经元不应该总是高度激活通过设置的值充分小一般接近于0 比如0 01等为使KL散度尽可能小则从而使得类似于右图中的神经元激活值较小处于抑制状态小稀疏自动编码器 SparseAutoencoder 部分代码初始化前向计算各神经元的线性组合值和激活值权值惩罚项稀疏项损失函数的总表达式栈式自编码 StackedAutoencoder 栈式自编码在预训练初始化深度神经网络的权重使用较多栈式自编码神经网络是一个由多层稀疏自编码器组成的神经网络其前一层自编码器的输出作为其后一层自编码器的输入采用逐层贪婪训练法进行训练获取栈式自编码神经网络参数按照从前向后的顺序执行每一层自编码器的编码步骤是最深层隐藏单元的激活值这个向量是对输入值的更高阶的表示其中作为softmax分类器的输入特征可以网络中学的特征用于分类问题通过将栈式自编码 StackedAutoencoder 具体实例训练一个包含两个隐含层的栈式自编码网络用来进行MNIST手写数字分类首先你需要用原始输入训练第一个自编码器它能够学习得到原始输入的一阶特征表示然后你再用这些一阶特征作为另一个稀疏自编码器的输入使用它们来学习二阶特征栈式自编码 StackedAutoencoder 接下来你可以把这些二阶特征作为softmax分类器的输入训练得到一个能将二阶特征映射到数字标签的模型最终你可以将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的栈式自编码网络这个网络能够如你所愿地对MNIST数字进行分类栈式自编码 StackedAutoencoder 栈式自编码神经网络具有强大的表达能力及深度神经网络的所有优点更进一步它通常能够获取到输入的层次型分组或者部分整体分解结构自编码器倾向于学习得到能更好地表示输入数据的特征举个例子如果网络的输入数据是图像网络的第一层会学习如何去识别边第二层一般会学习如何去组合边从而构成轮廓角等更高层会学习如何去组合更形象且有意义的特征例如如果输入数据集包含人脸图像更高层会学习如何识别或组合眼睛鼻子嘴等人脸器官本节小结去噪自编码 DenoisingAutoencoder 为输入值通过对x随机映射或添加噪声而获得训练指导思想最小化其中信息熵 KL散度去噪自编码 DenoisingAutoencoder 噪声的两个来源 1 来自于样本中选择的训练数据集x 2 对数据集x的随机破坏或添加噪声从而获得去噪自编码 DenoisingAutoencoder 流形学习观点重建干净的数据 DAE用于从破损的破损处理灰色的圈代表等概率的破损图中的红十字分布在低维流形附近 DAE训练最小化均方误差学习一个向量场绿色的箭头向量场用于估计一个梯度场去噪自编码 DenoisingAutoencoder 学习一个向量场用于估计梯度场这个属性在以下前提条件下已被证明 AlainandBengio 2012 2013 用于估计梯度场 DAE的一个重要属性是他们的训练准则使得自编码学习一个向量场 x是连续值损坏添加噪声和重建分布都服从高斯分布均方误差破损处理服从以下分布更准确地说是一个相容估计即去噪自编码 DenoisingAutoencoder 1 图中每个箭头长度正比于重建值减去自编码的输入矢量围绕一个一维弯曲流形附近数据橙色的圈集中在一个二维空间通过DAE学习一个向量场 2 方向根据隐含估计的概率分布指向更高的概率值 3 注意估计密度函数的顶峰数据流形上和低谷局部最小向量场为零值去噪自编码 DenoisingAutoencoder 将梯度场变成一个生成模型编码解码对的应用可以给我们生成一个大概的结构如果我们考虑蒙特卡罗马尔科夫链算法 MCMC 两方面需要注意 1 从低概率结构转移到高概率结构 2 加入随机性使得链可到处转移不至于在一些概率或模型的顶峰被困住陷入局部最优并且有机会遍历整个空间使得概率等于潜在模型的概率从概念上的理解我们在做编码解码操作时需要加入噪声但加入多少怎么加合适呢 Buthowmuchandhow 下页将作出解释去噪自编码 DenoisingAutoencoder 图中 C和P是条件随机的 f和g是确定性计算 a 在x中加入噪声产生 b 使用f函数对x进行编码 c 使用g函数进行解码 d 从重建的分布中进行采样获得一个新的状态xt 1 从估计分布中产生马尔科夫链的步骤答案在 Bengioetal 2013 Theorem1 理论表明自编码是相关的真值条件分布的一个相容估计然而以上马尔科夫链的平稳分布是X的数据生成分布的一个相容估计去噪自编码 DenoisingAutoencoder 图中数据黑圈分布在低维流形螺旋线的附近马尔科夫链的两个随机步骤 x 绿色的圆圈代表狗的真实图像值蓝色的圆圈代表添加噪声后狗的图像值代表各向同性等概率高斯噪声图中的绿色 1 通过将x变换成 2 在降噪后重建的分布中对下一个状态进行采样 x有很多种可能取决于图中蓝色的扁平形状就是的表示结果 x分布在附近的流形上说明去噪自编码 DenoisingAutoencoder 去噪自动编码器DA是在自动编码器的基础上训练数据加入噪声所以自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入因此这就迫使编码器去学习输入信号的更加鲁棒的表达这也是它的泛化能力比一般编码器强的原因本节小结压缩自编码 ContrativeAutoencoder 好的特征表示大致有2个衡量标准 1 可以很好的重构出输入数据 2 对输入数据一定程度下的扰动具有不变形普通的autoencoder sparseautoencoder和stackedautoencoder主要是符合第一个标准而denioseautoencoder和contractiveautoencoder则主要体现在第二个在一些分类任务中第二个标准显得更重要引言压缩自编码 ContrativeAutoencoder 普通自编码压缩自编码其中雅克比矩阵 WhenSigmoid 压缩自编码 ContrativeAutoencoder CAE与正则化自编码即weightdecay 的关系 1 当线性编码并且为恒等函数时有对于此时使权值W尽量小是收缩的唯一方法 2 当为sigmoid函数时通过使隐藏节点达到饱和状态也能达到收缩和编码的健壮性如何解释 Sigmoid函数曲线压缩自编码 ContrativeAutoencoder CAE与稀疏自编码的关系自编码时使用稀疏特性的目的在于使得编码层输出值大部分趋于0 Sigmoid函数曲线使用sigmoid激活函数时为使编码层输出值特征值趋于0 必须尽可能的离开函数曲线的饱和部分见图中的左下角可以看出值很小并且曲线基本是水平的因此下面式子必然较小所以稀疏自编码中很多趋近于0的特征输出值可以理解为一个高度压缩映射 contractivemapping 压缩自编码 ContrativeAu

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

自编码(Autoencoder).pptx

文档简介

温馨提示

最新文档

评论

自编码(Autoencoder).pptx

文档简介

温馨提示

最新文档

评论

相关文档