【GAN的优化模型分析4900字】

上传人：E*** IP属地：湖北上传时间：2026-06-20 格式：DOCX 页数：8 大小：468.25KB 积分：10.8 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

GAN的优化模型分析1.1GAN的优缺点生成对抗网络作为一种生成式模型，有着如下优点：首先，相对其他生成模型（如玻尔兹曼机和GSNS）,只用到了反向传播，而不需要复杂的马尔可夫链[7]；其次，生成对抗网络相较于其他种类的生成网络而言，产出的样本质量更高；第三，生成对抗网络采用的是一种无监督的学习训练方式[8]，这种方式可以被广泛应用在无监督学习和半监督学习领域；第四，相对于变分自编码器，生成对抗网络没有引入任何决定性偏置,且没有变分下界，这使得如果可以训练好判别器，那么生成器可以完美学习到训练样本的分布，而自分编码器则有一定偏差；最后，在生成对抗网络应用到如图片风格迁移，超分辨率，图像不全，去噪等场景中时，不用特意设计损失函数，只要有一定基准就能直接进行对抗训练，避免了设计损失函数造成的困难。这些优势使得生成对抗网络在被提出之后就得到了机器学习界的高度评价，在许多方面都获得了远超其他生成模型的成效。但是GAN同样有着一些缺点：首先，生成对抗网络的最终目标是达成纳什均衡，但并没有发现能够很好的能达成纳什均衡的方法，Goodfellow等在尝试解释生成对抗网络训练不稳定的问题时发现，通常用于更新生成模型和判别模型参数的梯度下降法并不合适。其次，生成对抗网络不适合处理以文本类数据为代表的离散形式的数据，因为对于文本数据来说，通常的转化流程需要将一个词映射为一个高维向量，最终输出一个one-hot向量，这就导致对于生成器，生成模型或真实数据给出不同输入的情况下，可能会给出同样判别结果，并不能将梯度更新信息很好的传递回去，结果是判别器的判别并不真实，不能起到训练作用。另外，因为生成对抗网络的损失函数是JS散度，而JS散度并不适合衡量不相交分布间的距离。最后，生成对抗网络在训练时有时会出现梯度消失，模式崩溃的问题。模式崩溃问题一般出现在生成对抗网络训练不稳定的时候，具体表现为生成出来的结果很差，且加长训练时间，增加轮数后依旧无法改善。其原因在于生成对抗网络采用的对抗训练方式。在对抗过程中，生成模型的梯度更新来自判别器，因此生成模型能否实现提升取决于判别器的反馈效果，若某一次生成器并没有生成贴近真实的样本，但判别器给出了较好评价，此时就会使生成模型得到错误反馈，无法有效进行提升，最终导致生成结果特征不全。梯度消失指在神经网络中，当前面隐藏层的学习速率无法赶上后面隐藏层的学习速率，导致梯度间的差距消失了，从而网络结构变得简单，最终的结果会导致随着隐藏层数目的增加，分类准确率反而下降了。为了解决生成对抗模型的这些缺陷，提升训练效率和优化生成结果，有研究者提出了一些训练生成对抗模型的技巧，近年来随着生成对抗模型研究与应用的火热，许多基于生成对抗模型的优化版被提出，它们大大提升了生成对抗模型的完成度和应用领域。1.2条件生成对抗网络传统的生成对抗网络过于自由，难以控制训练方向，导致不稳定且训练效果差，如训练MNIST数据集时，生成的结果是随机的数字，无法控制生成具体的数字，为解决此问题，MirzaM等人于2014年提出条件生成对抗网络(ConditionalGenerativeAdversarialNets,CGAN)[9],条件生成网络的创新点在于增加了一个先验条件y，通过将先验条件添加到生成器与判别器中，从而干涉生成的导向。如图3-1所示，在条件生成对抗网络中，生成器，判别器都额外加入了一个条件y，这个条件y代表实验者期待生成结果所具有的属性，生成器在生成样本时，学习的范围会局限在具有y性质的数据范围内，而判别器不仅要判别图像是否真实，也要判别图像与条件y是否匹配。图3-1CGAN流程示意图[10]在初始的生成对抗网络中，优化目标为：(式3-1)在条件生成对抗模型中，通过加入条件y，优化目标变为：(式3-2)生成器G从外界获取一个随机噪声z,一个条件标签y,输出和标签符合的图像，判别器输入一个图像x和一个条件标签y，输出图像和数字符合的概率。如果训练完成后，只要知道所需的标签并将其加入模型，就可以得到对应标签的结果。1.3深度卷积生成式对抗网络生成式对抗网络具有训练不稳定的问题，需要对网络结构进行调整。2015年，A.Radord等人提出了深度卷积生成式对抗网络(DeepConvolutionalGenerativeAdversarialNets，DCGAN)，其特点是将当时在机器学习领域应用广泛的卷积神经网络首次应用在了生成对抗网络中，用以代替生成器和判别器中以前使用的多层感知机为了使生成对抗网络能够适应卷积神经网络架构，深度卷积生成式对抗网络提出了四点架构设计规则。首先，去除了一般卷积神经网络中包含的池化层，将去除掉的池化层全部用卷积层代替。这个改动加强了生成器与判别器应对复杂数据集的处理能力。其次，深度卷积生成式对抗网络将全连接层去除了。当神经网络的层数增加到一定程度后，其中会包含大量的参数，极大地拖慢运算速度。此外它也会使得网络变得容易过拟合。此结构提出了一种折中的方案，也就是将生成器的随机输入直接与卷积层特征输入进行连接，同样地对于判别器的输出层也是与卷积层的输出特征连接。第三，深度学习的神经网络层数很多，每一层都会使得输出数据的分布发生变化，网络的偏差会随着层数的增加而增长。为了有效使得数据服从某个固定的数据分布，对每一层的输入分别进行以此归一化处理。第四，在深度卷积生成式对抗网络中，生成器和判别器使用了不同的激活函数。生成器中使用ReLU函数，输出层使用Tanh激活函数。另外，判别器中对所有层均使用LeakyReLU。生成器架构为：输入z是100位的随机数据，服从范围在[-1,1]的均匀分布。经过一系列的空洞卷积之后，形成一张分辨率为64x64x3的图像的过程。判别网络由层数为10的CNN构成，它的功能是首先接收维度为64×64×3的图像，然后通过2维卷积层对其进行下采样后，将采样结果传递给全连接层进行分类。判别网络可以判定收到的结果并给出反馈，当输出结果为0时，代表接收到的图像来自生成模型，若为1则代表来自真实样本深度卷积生成式对抗网络的工作流程为：第一步，生成网络从潜在空间中获取随机噪声向量，然后通过上采样机制进行上采样，最后根据采样结果生成一张图像传递给下一层。第二步，判别网络接收图像，使用卷积层和池化层对其进行下采样，然后使用全连接分类层将图像分类为真的或假的。隐藏层是用LeakyReLU作为激活函数，为防止过拟合，会添加系数介于0.4至0.7间的随机失活进行处理。深度卷积生成式对抗网络首次成功地结合了两种十分具有潜力的模型：生成对抗网络与卷积神经网络，奠定了之后几乎所有生成对抗网络优化模型的基本网络架构。对于生成对抗网络的网络结构设计是一个巨大的进步1.4沃塞斯坦距离式生成网络深度卷积生成式对抗网络经过实验验证，找到了一个较好的模型架构，但并没有从根本上解决生成对抗网络在网络结构上存在的问题，即因为训练的复杂度，需要不断调整网络结构并小心调整生成器和判别器的训练程度。Arjovsky详细分析生成对抗网络存在的问题并给出了解决方案，在此基础上提出了沃塞斯坦距离式生成网络（WassersteinGenerativeAdversarialNets，WGAN）[10],以此解决原始生成对抗网络训练困难和梯度消失等问题。相对于传统的生成对抗网络，沃塞斯坦距离式生成网络做了三点改动：第一，把sigmod函数从判别器最后一层去掉；第二，不使用log来计算生成器和判别器的loss；第三，在每次判别器的参数的更新流程进行完毕后，将其绝对值截断到不超过一个固定常数c的值。原始生成对抗网络中生成网络的函数原本为其导致的结果是判别器效果越好，反而会造成更严重的梯度消失。在（近似）最优判别器下，最小化生成器的loss等价于最小化与之间的JS散度，而由于与几乎不可能有不可忽略的重叠，所以无论它们间的距离为多少，JS散度也只会保持log2，最终导致生成器的梯度（近似）为0，梯度消失。原本的优化方案是通过对真实样本和生成样本加入噪声，强行让它们产生不可忽略的重叠，从而使JS散度真正发挥作用。此时如果两个分布越靠近，JS散度也会越小而不是一个常数。这个方案解决了训练不稳定的问题，但是依旧没有能够提供一个衡量训练进程的数值指标。沃塞斯坦距离式生成网络引入了沃塞斯坦距离，以此来完成JS散度在原本模型中扮演的角色，同时完成了稳定训练和进程指标的问题。沃塞斯坦距离又叫Earth-Mover（EM）距离，其相比KL散度，JS散度的优越性在于，即使两个点集完全没有任何重叠的部分，沃塞斯坦距离依旧可以反映它们的远近。KL散度和JS散度是突变的，只会在最大值与最小值间取其一，但沃塞斯坦距离具有平滑的特点，可以取最大与最小值间的任意数，当我们想要优化参数时，传统生成模型选择的方法是梯度下降法，在这种情况下前两者根本提供不了梯度，但是沃塞斯坦距离却可以完成这个任务。类似地，当高维空间中存在两个分布不重叠或者重叠部分可忽略的情况时，KL和JS既反映不了远近，也提供不了梯度，但是Wasserstein却可以提供有意义的梯度。去掉sigmod函数的原因：由于原始生成对抗网络的判别器做的是真假二分类任务，所以最后一层是sigmoid，但是沃塞斯坦距离式生成对抗网络中的判别器做的是近似拟合沃塞斯坦距离，属于回归任务，所以把最后一层的sigmoid去除。沃塞斯坦式距离生成网络成功做到了以下几点：首先，它使生成对抗网络在训练中不再需要担心训练不稳定的问题，实验者也不需要再费尽心思平衡生成器和判别器的训练程度；其次，基本解决了模式消失问题，确保了生成样本的多样性；第三，在训练过程中引入了一个数值来指示训练进程，训练者可以通过观察数据变动来观测当前训练状况，生成器质量与此数值大小成反比；最后，以上的成就不需要专门设计网络架构，只需最简单的多层全连接网络就能做到。因为它同时完成了如此之多突破性的成就，因此一经发布，就受到了极大的关注与赞誉。1.5基于样式的生成对抗网络基于样式的生成对抗网络（StyleGAN）由TeroKarras等人[11]于2018年底发表，是一种较新的衍生模型。其特点是可以依照需求，生成符合要求的风格的样本。一直以来，生成对抗网络生成的图形都是以低清晰度为主，NVIDIA在2017年提出的ProGAN解决了生成高分辨率图像(如1024×1024)的问题，极大地提升了生成对抗网络的实用价值。ProGAN的关键创新之处在于渐进式训练——从训练分辨率非常低的图像(如4×4)的生成器和判别器开始，每次都增加一个更高的分辨率层。但是如同多数生成对抗网络一样，ProGAN控制生成图像的特定特征的能力非常有限。这些属性相互纠缠，即使略微调整输入，会同时影响生成图像的多个属性。为了将ProGAN改为条件生成模型，StyleGAN应运而生。其主要通过分别修改每一层级的输入，在不影响其他层级的情况下，来控制该层级所表示的视觉特征。这些特征可以是粗的特征（如姿势、脸型等），也可以是一些细节特征（如瞳色、发色等）。StyleGAN主要的贡献，是提出了基于样式的生成器，它的作用有：1.实现了无监督地分离高级属性（如人脸姿势）和随机变化（如雀斑，头发等）。2.实现了对生成图像中特定尺度的属性控制。1.生成器从一个可学习的常量输入开始，隐码在每个卷积层调整图像的“样式”，从而直接控制不同尺度下图像特征的强度。基于样式的生成器结构如图3-2(b)所示,共有18层，每个分辨率有2个卷积层。图3-2基于样式的生成器于传统生成器的对比[11]基于样式的生成器的特点有四点：第一，它采用了映射网络结构。映射网络由8个全连接层组成，它的输出w与输入层的大小相同（512×1）。映射网络的目标是将输入向量编码为中间向量，中间向量的不同元素控制不同的视觉特征。这是一个非常重要的过程，因为使用输入向量来控制视觉特征的能力是非常有限的，因为它必须遵循训练数据的概率密度。例如，如果黑头发的人的图像在数据集中更常见，那么更多的输入值将会被映射到该特征上。因此，该模型无法将部分输入（向量中的元素）映射到特征上，这一现象被称为特征纠缠。然而，通过使用另一个神经网络，该模型可以生成一个不必遵循训练数据分布的向量，并且可以减少特征之间的相关性。第二，它在卷积层中设计了样式模块（AdaIN）,它负责将映射网络创建的编码信息w传输到生成的图像中。该模块被添

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【GAN的优化模型分析4900字】

文档简介

温馨提示

最新文档

评论

【GAN的优化模型分析4900字】

文档简介

温馨提示

最新文档

评论

相关文档