第6章 深度生成模型_第1页
第6章 深度生成模型_第2页
第6章 深度生成模型_第3页
第6章 深度生成模型_第4页
第6章 深度生成模型_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章深度生成模型徐俊刚深度学习深度生成模型概述1Hopfield神经网络2玻尔兹曼机与受限玻尔兹曼机3深度信念网络与深度玻尔兹曼机45目录Contents扩散模型6自编码器及其变种本章人物7中英文术语对照8深度生成模型概述13深度生成模型概述4

深度生成模型概述5Sigmoid信念网(SigmoidBeliefNetworks,SBN)就是一种生成式多层神经网络,并采用变分近似的方法进行训练。2006年,GefferyHinton等人基于Sigmoid信念网提出了称作深度信念网络(DeepBeliefNetworks,DBN)的深度生成模型,它与Sigmoid信念网结构不同的地方是最上面两层使用了受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)。受到这种训练方式的启发,出现了更多种类的深度生成模型,如深度玻尔兹曼机(DeepBoltzmannMachines,DBM)、深度自编码器(DeepAutoencoder,DAE)等。深度生成模型概述6将深度生成模型分为三类:一类是以受限玻尔兹曼机为基础的深度玻尔兹曼机与深度信念网络,一类是以自编码器为基础的深度自编码器,一类是近期出现的扩散模型(DiffusionModel)。Hopfield神经网络27Hopfield神经网络8Hopfield神经网络由JohnJosephHopfield于1982年提出,它是一种相互连接型神经网络,也可以看作是一种单层全连接反馈神经网络。根据激活函数的不同,Hopfield神经网络可分为离散型Hopfield神经网络(DiscreteHopfieldNeuralNetworks,DHNN)和连续型Hopfield神经网络(ContinuousHopfieldNeuralNetworks,CHNN)两种。前者一般采用δ激活函数,主要用于联想记忆,后者一般采用Sigmoid激活函数,主要用于优化计算。Hopfield神经网络9Hopfield神经网络中的每个神经元都将自己的状态传递给其他所有神经元,同时又接受其他所有神经元传递来的信息。以6个神经元的Hopfield神经网络为例,网络结构如图所示。Hopfield神经网络10Hopfield神经网络有若干个稳定状态,当网络从某一个初始状态开始运行,经过有限步的迭代之后总可以收敛到某一个稳定的状态。网络中的神经元都是二值阈值神经元,即根据神经元的输入有没有超过阈值,将神经元赋值为1或-1(也可以赋值为1或0)。网络中的任意两个神经元i和j之间都由无向边相连,权重定义为:

Hopfield神经网络11

Hopfield神经网络12

Hopfield神经网络13

Hopfield神经网络14训练得到权重矩阵后,网络的参数就确定下来,网络的运行流程为:对网络进行初始化,为每个神经元赋初始状态。从网络中随机或按照顺序选取一个神经元。更新该神经元的状态,其他神经元的状态保持不变。求当前状态下网络的能量,判断网络是否达到稳定状态,若达到稳定状态或满足给定条件(如限定迭代次数)则结束;否则转到2)继续运行。Hopfield神经网络15离散型Hopfield神经网络可以实现联想记忆,联想记忆是指当网络的输入是某种状态时,输出端也要给出相应的状态输出。但是Hopfield网络的记忆能力有限,当输入较多或者相似的时候,往往导致不能正确的判别输入,下一节要讲述的玻尔兹曼机可以解决这一问题。玻尔兹曼机与受限玻尔兹曼机316玻尔兹曼机17玻尔兹曼机(BoltzmannMachines,BM)通常是指一种随机的离散型Hopfield神经网络,是具有隐单元的全连接反馈神经网络。这种网络在神经元状态变化中引入了统计概率,网络的平衡状态服从玻尔兹曼分布,网络运行机制基于模拟退火算法。在Hopfield神经网络中,神经元的功能及其在网络中的地位是一样的,但在波尔兹曼机中,一部分神经元与外部相连,称为可见单元,完成网络的输入、输出功能,或者严格地说可以受到外部条件的约束;另一部分神经元则不与外部相连,称作隐藏单元,在训练中起辅助作用。玻尔兹曼机18

玻尔兹曼机19

玻尔兹曼机20

受限玻尔兹曼机21受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)是玻尔兹曼机的受限版本,由RuslanSalakhutdinov等人提出。玻尔兹曼机中的神经元之间具有双向连接,这种模型的特点是可以基于模型的抽样从未知的概率分布中学习样本的重要特征。然而,这种学习的过程是非常困难和耗时的,因此在求解实际问题时使用的并不多,RBM的提出就是通过在玻尔兹曼机网络拓扑结构上加上一些限制来缓解这一问题。受限玻尔兹曼机22

受限玻尔兹曼机23

受限玻尔兹曼机24

受限玻尔兹曼机25

受限玻尔兹曼机26

受限玻尔兹曼机27

受限玻尔兹曼机28RBM训练采用log似然梯度上升法,如前面计算对参数𝜽的梯度的公式所示,梯度计算中主要包括两项:第一项叫做正阶段项,是当可见变量被训练数据赋值时,对隐藏变量抽样的结果;第二项叫做负阶段项,计算这一项要求获得模型的联合样本。正阶段项是非常容易获得的,然而,负阶段项却是非常难以计算的,这是因为需要长时间运行吉布斯链才能使网络收敛到稳态。因此,为了训练的高效性,现存的RBM训练算法大多是对负阶段项进行估计。对比散度算法(Contrastdivergence,CD)是RBM训练常用的近似算法。受限玻尔兹曼机29深度信念网络与深度玻尔兹曼机430Sigmoid信念网31

Sigmoid信念网32

Sigmoid信念网33

深度信念网34

深度信念网35

深度信念网36

深度信念网37深度信念网38

深度信念网39DBN训练算法:完全无监督预训练DBN,贪婪逐层堆叠RBM深度玻尔兹曼机40深度玻尔兹曼机(DeepBoltzmannMachine,DBM)是由RuslanSalakhutdinov和GefferyHinton于2009年提出来的它和深度信念网络有很多相似之处,都含有受限玻尔兹曼机,但也有很大的差别,如图所示。深度玻尔兹曼机41

深度玻尔兹曼机42

深度玻尔兹曼机43

深度玻尔兹曼机44自编码器及其变种545自编码器46

自编码器47早期的自编器通常采用一个层数大于或等于三层的前馈神经网络来构建,一般称作前馈自编码器(FeedForwardAutoencoder,FFA)

自编码器48

自编码器49

降噪自编码器50

降噪自编码器51

降噪自编码器52稀疏自编码器53

稀疏自编码器54

稀疏自编码器55

深度自编码器56深度自编码器由两个对称的深度信念网络构成,编码器通常由4-5个隐藏层组成,解码器也是由4-5个隐藏层组成,这里的隐藏层一般指的是受限玻尔兹曼机,如图所示。

深度自编码器57深度自编码器的训练过程(以图像输入为例):预训练一个DBN:采用贪心逐层堆叠RBM的方式进行预训练,从而获得各层权重的初始值。使用预训练好的DBN来构造深度自编码器:其中编码器直接使用预训练好的DBN,权重也是预训练好的DBN的权重;解码器将预训练好DBN进行翻转,从而与编码器形成对称结构,解码器的权重是对预训练好的DBN权重进行转置而来。对构造的深度自编码器进行有监督微调:使用反向传播算法对深度自编码器进行微调,从而获得最终的权重值。深度自编码器58扩散模型659扩散模型60扩散模型的相关工作大都起源于OpenAI于2020年提出的降噪扩散概率模型(DenoisingDiffusionProbabilisticModels,DDPM)。DDPM包含前向过程(ForwardProcess)和逆向过程(ReverseProcess)前向过程:又称为扩散过程(DiffusionProcess),本质上是在输入图像数据的基础上逐步注入符合高斯分布的随机噪声,直至图像数据本身变为服从标准高斯分布的随机噪声。逆向过程:进行图像生成的推断过程,当给定一个服从标准高斯分布的噪声,逐步去除噪声从而还原图像。DDPM的前向过程与逆向过程如图所示。扩散模型61扩散模型62前向过程63

前向过程64

前向过程65

前向过程66

前向过程67

逆向过程68

逆向过程69

逆向过程70

逆向过程71

逆向过程72

逆向过程73

逆向过程74

逆向过程75

DDPM的训练76

DDPM的训练77

DDPM的训练78

DDPM的训练79

DDPM的训练80

DDPM的训练81

DDPM的训练82

DDPM的训练83

CLIP模型84ContrastiveLanguage-ImagePre-training,简称CLIP,是OpenAI提出的一种图文多模态模型。是Diffusion文生图模型的基石。基本用途:把图片和文字编码到同一空间,计算图像和文本的语义相似度。扩展用途:图文搜索,根据图像搜索对应文本或根据文本搜索对应图像。协助完成相关的多模态任务,如文生图任务。作为评测工具,例如文生图任务中,评价生成图像与文本之间的相似度。CLIP模型85CLIP模型86预训练:预训练由两个编码器组成,一个是文本编码器,一个是图像编码器。将大量匹配的图文对,分别送入文本和图像编码器得到各自的特征,之后计算文本特征和图像特征之间的余弦相似度,让匹配的图文对特征相似度越近越好,不匹配的图文对相似度越远越好。这样就可以完成CLIP的预训练。图像分类任务:给出一些图像类别名称,把类别名称填到“Aphotoofa{object}.”里面进行文本编码。然后将输入图像也做编码,编码完成后计算图像特征跟文本特征的余弦相似度,图像特征跟哪个文本特征距离最近,我们就把这张图分到了哪个类别里,并用文本显示出来。DALLE-187DALLE-1dVAE88BPE89BPE全称BytePairEncoder,字节对编码。可以理解为一种压缩算法,把出现频率最高的字符对用新的字符替换,反复迭代,这样可以减少语料库的大小。BPE90算法步骤(1)准备语料库,确定期望的subword

词表大小等参数,通常在每个单词末尾添加后缀</w>,统计每个单词出现的频率,例如,low的频率为5,那么我们将其改写为“low</w>”。(2)将语料库中所有单词拆分为单个字符,用所有单个字符建立最初的词典,并统计每个字符的频率,本阶段的subword

的粒度是字符。(3)挑出频次最高的符号对,如t和h组成的th,将新字符加入词表,然后将语料中的所有该字符对融合(merge),即所有t和h都变为th。注:新字符依然可以参与后续的merge,有点类似哈夫曼树,BPE实际上就是一种贪心算法。(4)重复遍历(2)和(3)操作,直到词表中subword的数量达到设定量或下一个最高频数为1。BPE911.获取语料库,以下面的一段话为例:“FloydHubisthefastestwaytobuild,trainanddeploydeeplearningmodels.Builddeeplearningmodelsinthecloud.Traindeeplearningmodels.”2.拆分,加后缀,统计词频:BPE92BPE933.建立词表,统计字符频率(同时排序):BPE944.以第一次迭代为例,将字符频率最高的d和e替换为de,后面依次迭代:BPE955.更新词表BPE966.继续迭代直到达到预设的subwords

词表大小或下一个最高频的字节对出现频率为1。如果将词表大小设置为10,最终的结果为:1.de2.rn3.rni4.rnin5.rning</w>6ode7.odel8.model9.lo10.leDALLE-297DALLE-2DALLE-298主体架构是一个两阶段的模型,这两个阶段分别叫Prior和Decoder。

Prior就是给定一个文本描述,用CLIP生成的图像特征作为Ground-truth,进行训练。然后Decoder就是当获得文本的图像特征之后,使用一般的扩展模型生成一个新的图像。文生图实例99seaside输出图像生成指令forest本章人物7100本章人物101DavidE.Rumelhart教授斯坦福大学教授,认知心理学家,主要从事认知神经科学和人工智能领域的研究。1991年当选为美国科学院院士,1996年获美国心理学会颁发的杰出科学贡献奖。2000年,为了纪念他的重要贡献,认知科学学会以他的名字设立了一个重要的国际奖项——DavidE.Rumelhart认知科学理论基础贡献奖。DavidE.Rumelhart教授在人工智能领域的主要贡献是与GeoffreyHinton教授、RonaldWilliams一起提出了反向传播算法。此外,DavidRumelhart教授还最早提出了自编码器的思想,实现了图像数据的压缩和重构。中英文术语对照8102中英文术语对照103Sigmoid信念网:SigmoidBel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论