第7章-生成对抗网络_第1页
第7章-生成对抗网络_第2页
第7章-生成对抗网络_第3页
第7章-生成对抗网络_第4页
第7章-生成对抗网络_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习

第7章生成对抗网络

一个极具挑战的机器学习问题1

生成对抗网络的基本原理2

生成对抗网络的设计3

GAN的应用4

基于DCGAN手写数字生成实例5

著名物理学家Richard指出,要想真正理解一样东西,必须能够把它创造出来。令机器理解现实世界,观测现实世界的样本,学习其内在统计规律,并基于此进行推理与创造而实现真正的人工智能,也不失为一个好的办法!

近年来,深度学习在很多领域的都取得了突破性进展,但大家似乎发现了这样的一个现实,即深度学习取得突破性进展的工作基本都是判别模型相关的。机器学习方法可以分为生成方法(generativeapproach)和判别方法(discriminativeapproach),所学到的模型分别称为生成式模型(generativemodel)和判别式模型(discriminativemodel)。生成方法通过观测数据学习样本与标签的联合概率分布P(X,Y),训练好的模型能够生成符合样本分布的新数据,它可以用于有监督学习,也可用于无监督学习。

1.生成对抗网络GANGAN包含一个生成模型和一个判别模型。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈”问题,训练时固定一方,更新另一个模型的参数,交替迭代,使得对方的错误最大化,最终,生成模型能估测出样本数据的分布。

2.变分自编码器在概率图形模型的框架中对这一问题进行形式化——在概率图形模型中,在数据的对数似然上最大化下限。

3.自回归模型PixelRNN这样的自回归模型则通过给定的之前的像素对每个单个像素的条件分布建模来训练网络。这类似于将图像的像素插入char-rnn中,但该RNN在图像的水平和垂直方向上同时运行,而不只是字符的1D序列。近两年来流行的生成式模型主要分为三种方法:

相对于判别式模型来说,生成式模型的研究进展较为缓慢,究其原因主要是(1)较高的计算复杂度。涉及最大似然估计、马尔可夫链方法、蒙特卡罗迭代、近似法等(2)生成式模型对真实世界进行建模需要大量先验知识,建模的好坏直接影响生成式模型的性能,而真实世界的数据往往非常复杂,拟合模型所需计算量往往非常庞大,甚至难以承受。(3)对概率分布的估计是有偏的,数据的建模采样效率也较低。

针对上述困难,2014年Goodfellow等人启发自博弈论中的二人零和博弈,开创性地提出了一种新型生成式模型——生成式对抗网络(GenerativeAdversarialNetworks,GAN)。尽管GAN从提出至今不过几年的时间,但关注和研究热度急速上升,并已从学术界延伸至工业界,Google、OpenAI、Facebook和Twitter等知名人工智能企业纷纷投入大量精力研究和拓展GAN的应用。目前,生成对抗网络已经从最初的图片生成,被拓展到计算机视觉的各个领域,如图像分割、视频预测、风格迁移等,若干研究工作也已成功将GAN应用在强化学习中。

一个极具挑战的机器学习问题1

生成对抗网络的基本原理2

生成对抗网络的设计3

GAN的应用4

基于DCGAN手写数字生成实例5两位博弈方的利益之和为零或一个常数,即一方有所得,另一方必有所失。GAN模型中的两位博弈方分别由生成式模型G和判别式模型D充当。生成模型捕捉样本数据的分布,判别模型是一个二分类器。左图是一个判别式模型,当输入训练数据x时,期待输出高概率(接近1);右图下半部分是生成模型,输入是一些服从某一简单分布(例如高斯分布)的随机噪声z,输出是与训练图像相同尺寸的生成图像。向判别模型D输入生成样本,对于D来说期望输出低概率(判断为生成样本),对于生成模型G来说要尽量欺骗D,使判别模型输出高概率(误判为真实样本),从而形成竞争与对抗。生成对抗网络GAN的优势(1)根据实际的结果,它们看上去可以比其它模型产生了更好的样本。生成对抗式网络框架能训练任何一种生成器网络。大部分其他的框架需要该生成器网络有一些特定的函数形式,比如输出层是高斯的。重要的是所有其他的框架需要生成器网络遍布非零质量(non-zeromass)。生成对抗式网络能学习可以仅在与数据接近的细流形(thinmanifold)上生成点。(2)不需要设计遵循任何种类的因式分解的模型,任何生成器网络和任何鉴别器都会有用。无需利用马尔科夫链反复采样,无需在学习过程中进行推断,回避了近似计算棘手的概率的难题。(3)与PixelRNN相比,生成一个样本的运行时间更小。GAN每次能产生一个样本,而PixelRNN需要一次产生一个像素来生成样本。与VAE相比,它没有变化的下限。如果鉴别器网络能完美适合,那么这个生成器网络会完美地恢复训练分布。换句话说,各种对抗式生成网络会渐进一致,而VAE有一定偏置。与深度玻尔兹曼机相比,既没有一个变化的下限,也没有棘手的分区函数。它的样本可以一次性生成,而不是通过反复应用马尔可夫链运算器。GAN目前存在的主要问题(1)解决不收敛(non-convergence)的问题目前面临的基本问题是:所有的理论都认为GAN应该在纳什均衡(Nashequilibrium)上有卓越的表现,但梯度下降只有在凸函数的情况下才能保证实现纳什均衡。当博弈双方都由神经网络表示时,在没有实际达到均衡的情况下,让它们永远保持对自己策略的调整是可能的。(2)难以训练,崩溃问题(collapseproblem)GAN模型被定义为极小极大问题,没有损失函数,在训练过程中很难区分是否正在取得进展。GAN的学习过程可能发生崩溃问题,生成器开始退化,总是生成同样的样本点,无法继续学习。当生成模型崩溃时,判别模型也会对相似的样本点指向相似的方向,训练无法继续。(3)无需预先建模,模型过于自由不可控与其他生成式模型相比,GAN这种竞争的方式不再要求一个假设的数据分布,即不需要formulatep(x),而是使用一种分布直接进行采样,从而真正达到理论上可以完全逼近真实数据,这也是GAN最大的优势。然而,这种不需要预先建模的方法缺点是太过自由了,对于较大的图片,较多的pixel的情形,基于简单GAN的方式就不太可控了。在GAN中,每次学习参数的更新过程,被设为D更新k回,G才更新1回,也是出于类似的考虑。

一个极具挑战的机器学习问题1

生成对抗网络的基本原理2

生成对抗网络的设计3

GAN的应用4

基于DCGAN手写数字生成实例53.1条件生成式对抗网络

在生成模型(D)和判别模型(G)的建模中均引入条件变量y,使用额外信息y对模型增加条件,可以指导数据生成过程。这些条件变量y可以基于多种信息,例如类别标签,用于图像修复的部分数据,来自不同模态的数据。如果条件变量y是类别标签,可以看作GAN是把纯无监督的GAN变成有监督的模型的一种改进。

GAN这种不需要预先建模的方法缺点是太过自由了,对于较大的图片,较多的pixel的情形,基于简单GAN的方式就不太可控了。条件生成对抗网络3.2拉普拉斯金字塔生成式对抗网络

给GAN加一些约束,还有另一个方法是不让GAN一次完成全部任务,而是一次生成一部分,分多次生成一张完整的图片,这是DeepMind的DRAW的思想。DRAW中指出,人类在完成一幅图画时,都不一定是一笔完成的,DRAW用了一种sequentialVAE的模型,让机器一点点“写”出一个个数字。而Facebook提出的LAPGAN则是采用了这样的思想,在GAN基础上做出了改进。图像金字塔

采用了图像金字塔,首先生成粗糙的图片,然后在粗糙图片的基础上,生成高分辨率的图片。

图像金字塔方式主要的操作便是下采样和上采样,而优势是每次只考虑样本和生成图像之间的残差的学习效果,某种程度上和ResidualNetwork的思想是一样的。针对残差的逼近和学习,相对更加容易。LAPGAN的学习过程

生成网络有所不同之处在于,将高层金字塔图像也作为输出,和噪音一起生成低层的图像,相当于一个CGAN。通过上述网络,就可以生成最后的高分辨率的图像,如下图。

LAPGAN生成网络从中可以看出LAPGAN优于GAN,边缘更加锐利;引入类标条件的LAPGAN优于普通LAPGAN,物体结构更加清晰;

LAPGAN主要是利用了拉普拉斯金字塔,和CGAN(条件生成-对抗网络)结合一起,用低分辨率的图片作为条件,生成高分辨率的图像。LAPGAN的优点:(1)与ResidualNetwork有异曲同工之妙,针对残差的逼近和学习相对容易。(2)逐级独立训练提高了网络简单记忆输入样本的难度,许多高性能的深度网络都面临着这样的问题。(3)减少了每一次GAN需要学习的内容,也就从而增大了GAN的学习能力。3.3深度卷积生成式对抗网络深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)中,生成式模型G(z)使用一个比较特殊的深度卷积网络来实现,如图所示。与原始的GAN不同,将池化层的卷积替代,在判别器上用跨越卷积(stridedconvolutions)替代,在生成器上用微步幅卷积(fractional-stridedconvolutions)替代;在生成器G和辨别器D上都使用BatchNormalization(批量归一化)。解决初始化差的问题;帮助梯度传播到每一层;防止生成器G把所有的样本都收敛到同一个点;直接将BN应用到所有层会导致样本震荡和模型不稳定,通过在生成器G输出层和辨别器D输入层不采用BN可以防止这种现象;移除全连接层,全局池化增加了模型的稳定性,但伤害了收敛速度;在生成器G的除了输出层外的所有层使用ReLU,输出层采用tanh;在辨别器D的所有层上使用LeakyReLU。生成式模型G(z)判别式模型D(x)微步幅卷积判别式模型D(x)则仍是一个传统的深度卷积网络

DCGAN的生成式模型G(z)中出现了上采样(upsampling)。卷积神经网络的下采样很好理解,加入polling层即可,然而这里的上采样要如何实现呢?这里,DCGAN通过微步幅卷积(fractionally-stridedconvolution)进行上采样。3.4WassersteinGAN

2014年IanGoodfellow提出以来,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起,很多论文都在尝试解决,但是效果不尽人意,而WassersteinGAN(WGAN)成功地做到了。WassersteinGAN原理,改进后相比原始GAN的算法实现流程却只改了四点:(1)判别器最后一层去掉sigmoid;(2)生成器和判别器的损失函数不取对数;(3)每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c;(4)不要用基于动量的优化算法(包括momentum和Adam),推荐RMSProp,SGD也行。

一个极具挑战的机器学习问题1

生成对抗网络的基本原理2

生成对抗网络的设计3

GAN的应用4

基于DCGAN手写数字生成实例54.1计算机视觉领域GAN应用最成功的领域是计算机视觉,包括图像和视频生成,如图像翻译、图像超分辨率、图像修复、图像上色、人脸图像编辑以及视频生成等。下图使用GAN生成人脸。使用GAN生成的人脸GAN应用于图像翻译,例如,根据轮廓图像生成照片、根据白天图像生成对应夜景等。将图像翻译拓展使多模态图像翻译,大大增加了生成图像的多样性,如图所示。除了从二维图像到二维图像的翻译外,PrGAN能够以一种完全无监督的训练方式将给定的一系列甚至是一张2D图像翻译为该物体的3D体素形状和深度信息。使用GAN进行图像翻译用于超分辨率的生成式对抗网络SRGAN,如图。该模型的目标函数由对抗损失函数和内容损失函数共同构成。其中,对抗损失函数通过训练判别器区分真实图片和由生成器进行超分辨重构的图片,从而能够学习自然图片的流形结构,通过峰值信噪比和结构相似性等指标对重建图像进行评估,SRGAN的效果比现有最先进的采用深度残差网络优化均方差更接近高分辨率原图。使用GAN进行超分辨率图像修复

cGAN应用到图像修复,以图像缺失部分的周边像素为条件训练生成式模型,生成完整的修复图像,利用对抗思想训练判别器对真实样本和修复样本进行判断。经对抗训练后,生成器所生成的修复图像与遮挡区块周边是连贯的,而且是符合语义的。视频生成4.2语言和语音领域根据文本生成图像4.3半监督领域

GAN强大的表征能力使之能够生成与真实数据分布相一致的数据,因此,可用于解决训练数据不足时的学习问题,有效缓解基于深度学习的解决方案对训练数据量的需求。此外,尽管GAN作为一种无监督学习方法被提出,但可广泛应用于半监督学习过程中无标签数据对模型的预训练。

Odena提出的Semi-GAN和AC-GAN也是GAN在多分类问题上的成功应用。文献指出,将经过训练的判别器作为一个通用特征提取器用于多分类问题,只需结合少量标签信息便可达到令人满意的分类效果,

GAN的判别器D实际上是一个二分类的分类器,区分样本是真实样本还是生成样本。Springenberg和Salimans等结合文献先对样本进行聚类,然后,通过计算有标签数据的预测类别分布和真实类别分布之间的交叉熵进行半监督学习,将朴素GAN的判别器从二元分类器扩展为多类别分类器,从而输出Sof

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论