图像到图像翻译的无监督双重学习DualGAN_第1页
图像到图像翻译的无监督双重学习DualGAN_第2页
图像到图像翻译的无监督双重学习DualGAN_第3页
图像到图像翻译的无监督双重学习DualGAN_第4页
图像到图像翻译的无监督双重学习DualGAN_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DualGAN:图像到图像翻译的无监督双重学习摘要:近年来,用于跨域图像翻译的条件生成对抗网络(GANs)取得了很大的进展。根据任务复杂度,需要数千到数百万个标记的图像来训练条件GAN。然而,人类的标签是昂贵的,甚至不切实际的,大量的数据可能并不总是可用的。受自然语言翻译的双重学习的启发,我们提出了一种新的双重GAN机制,使图像翻译人员能够从两个领域的两组未标记图像中进行训练。在我们的架构中,原始GAN学习将图像从域U转换到域V,而双GAN学习反转任务。由原始任务和双重任务构成的闭环允许对来自任一域的图像进行翻译和重建。因此,可以使用一个能解释图像重建误差的损失函数来训练翻译人员。在无标记数据

2、的多个图像翻译任务上的实验表明,与单个GAN相比,DualGAN具有相当大的性能增益。在某些任务中,DualGAN甚至可以获得与基于全标记数据训练的条件GAN相当或稍好的结果。一、介绍许多图像处理和计算机视觉任务,例如,图像分割、样式化和抽象,可以构成图像到图像的转换问题4,它将对象或场景的一种视觉表示转换为另一种视觉表示。传统上,这些任务由于其内在差异而被单独处理7、8、21、12、4、18。直到过去两年,通用和端到端的深度学习框架,特别是那些利用完全卷积网络(FCNs)11和条件生成对抗网络(cGANs)4的框架才得以开发,以便能够统一处理这些任务。到目前为止,这些通用的方法都是通过大量的

3、标记和匹配图像对来监督和训练的。然而,在实践中,获取这样的训练数据可能很耗时(例如,使用像素化或拼凑标记),甚至是不现实的。例如,虽然有大量的照片或草图可供使用,但描绘同一姿势下同一个人的照片草图图像对却很少。在其他图像转换设置中,例如,将日光场景转换为夜间场景,即使可以使用固定相机获得标记和匹配的图像对,场景中的移动对象通常会导致不同程度的内容差异。本文旨在开发一个通用的图像到图像转换的无监督学习框架,该框架仅依赖于未标记的图像数据,如两组照片和草图,来完成图像到草图的转换任务。显而易见的技术挑战是如何在没有任何数据来描述正确翻译的情况下对译者进行培训。我们的方法受到自然语言处理的双重学习的

4、启发23。双重学习通过最小化由于两个翻译人员的嵌套应用而导致的重建损失,同时训练两个“相反”的语言翻译人员(例如,英语到法语和法语到英语)。这两个翻译器代表一个原始对偶对,嵌套的应用程序形成一个闭环,允许应用强化学习。具体来说,在单语数据(英语或法语)上测量的重建损失将产生信息反馈,以训练双语翻译模型。本文首次提出了一种图像到图像翻译的双重学习框架,它不同于夏等人的NLP双重学习方法。23主要有两个方面。首先,NLP方法依赖于预先训练的(英语和法语)语言模型,以表明译者输出的是各自目标语言中的自然句子的自信程度。考虑到通用处理,并且意识到这种预先训练的模型对于许多图像翻译任务是很难获得的,我们

5、的工作开发了经过训练的GAN鉴别器3,那是与翻译人员进行反向培训以获取域分配规划设计。因此,我们称我们的学习架构为DualGAN。此外,我们使用FCNs作为译者,它自然地适应了图像的二维结构,而不是LSTM或门循环单元(GUT)等顺序到顺序的翻译模型。DualGAN以两组未标记的图像作为输入,每一组图像具有一个图像域的特征,同时从一个域学习到另一个域的两个可靠的图像翻译器,因此可以执行各种各样的图像到图像的翻译任务。通过与GAN(带有图像条件发生器和原始鉴别器)和条件GAN的比较,验证了端GAN的有效性。比较结果表明,在某些应用中,DualGAN的性能优于基于标记数据训练的有监督方法。2。相关

6、工作从古德费罗等人的开创性工作开始。32014年,针对各种各样的问题提出了一系列的GAN族方法。原始GAN可以通过引入一个对抗性的鉴别器来学习生成器来捕获真实数据的分布,该鉴别器进化为区分真实数据和伪造数据3。不久之后,各种条件GANs(cGAN)被提出用于对类标签13、属性14,24、文本15和图像7、8、21、12、4、18上的图像生成进行条件化。大多数图像条件模型都是为特定应用开发的,例如超分辨率7、纹理合成8、从普通地图到图像的样式转换21和视频预测12,而很少有其他模型是针对通用处理4,18。Isola等人提出的图像到图像转换的通用解。需要大量标记的图像对。Taigman等人提出的跨

7、域图像转换的无监督机制。18可以在没有成对图像的情况下训练图像条件生成器,但依赖于一个复杂的预训练函数,该函数将图像从任一域映射到中间表示,这需要其他格式的标记数据。双重学习最早是由夏等人提出的。23减少英法、法英翻译培训中对标注数据的要求。法语-英语翻译是英语-法语翻译的双重任务,他们可以并肩受训。双重学习的核心思想是建立一个包含两个主体的双重学习游戏,每个主体只能理解一种语言,并且能够评估译文是目标语言中的自然句子的可能性,以及重建的句子与原文的一致程度。这种机制在双方交替使用,只允许从单语数据中训练翻译人员。尽管缺乏平行的双语数据,两种类型反馈信号可以产生:评价译文属于目标语言的可能性的

8、隶属度得分,以及衡量重建句子与原文之间差异的重建误差。这两种信号都是在特定应用领域知识的帮助下进行评估的,即经过预先培训的英语和法语语言模型。在我们的工作中,我们的目标是一个通用的解决方案,图像到图像的转换,因此不利用任何领域特定的知识或预先训练的领域表示。相反,我们使用区域自适应GAN鉴别器来评估翻译样本的隶属度得分,而重建误差则被测量为每个图像区域内重建图像与原始图像之间绝对差的平均值。在CycleGAN中,由Zhu等人同时完成的一项工作。26对于未配对的图像到图像的转换提出了同样的想法,其中DualGAN中的原始-对偶关系被称为循环映射,它们的循环一致性损失与我们的重建损失基本相同。赛马

9、的优势已经被证明在一些配对训练数据几乎不存在的任务中,例如在物体变形和绘画风格和季节转换中。我们称之为耦合GAN或CoGAN的Liu和Tuzel10最近的工作也在没有成对训练数据的情况下一起训练两个GAN来解决图像翻译问题。与DualGAN或CycleGAN不同,CoGAN中的两个Gan没有链接以强制循环一致性。相反,CoGAN从两个域学习图像的联合分布。CoGAN通过在生成网络和判别网络中共享对应于高级语义的权重参数,可以强制两个gan以相同的方式解释这些图像语义。然而,如CycleGAN的比较研究26所示,CoGAN和类似方法(如2,9)中的权重分担假设不会导致有效的通用解决方案,因为其适

10、用性取决于任务,导致非自然的图像翻译结果。DualGAN和CycleGAN都致力于通用的图像到图像转换,而不需要联合表示来连接这两个图像域。此外,DualGAN同时训练原始GANs和对偶GANs,允许使用重建误差项来生成信息反馈信号。三。方法给定分别从域U和域V采样的两组无标记和无配对图像,dualGAN的首要任务是学习将图像U三U映射到图像V三V的生成器GA:UtV,而对偶任务是训练一个逆生成器GB:VtU。为此,我们使用了两个GAN,原始GAN和对偶GAN。原始GAN学习发生器gaa和鉴别器DA区分遗传算法假输出和域V的实成员的数据。类似地,双GAN学习生成器gba和鉴别器DB。总体架构和

11、数据流如图1所示。MembershipDomainU(skdiKh)HMnnructkinhrrar|rDscrlminatorrtembenihipwore图1:DualGAN用于图像到图像转换的网络结构和数据流程图。如图1所示,使用遗传算法将图像u三u转换为域V。平移GA(u,z)在V中的适配程度由DA评估,其中z是随机噪声,下面显示的z0也是。然后,使用GB将GA(u,z)转换回域u,该域输出GB(GA(u,z),z0)作为u的重构版本。同样,v三v转换为u作为GB(v,z0),然后重构为GA(GB(v,z0),z)。判别器DAis以v为正样本,GA(u,z)为负样本训练,dbu为正样本

12、,GB(v,zO)为负样本训练。生成器gaa和GB被优化以模拟“假”输出,从而使相应的鉴别器dad和DB盲,并将两个重建损失kGA(GB(v,zO),z)vk和kGB(GA(u,z),zO)uk最小化。3.1条。目标与传统的GAN一样,鉴别器的目标是将生成的假样本与真实样本区分开来。然而,这里我们使用Wasserstein-GAN(WGAN)1倡导的损耗格式,而不是原始GAN3中使用的sigmoid交叉熵损耗。结果表明,前者在发电机收敛性和样本质量方面,以及在提高优化稳定性方面都有较好的表现1。数据和数据库中使用的相应损耗函数定义为:件(弘V)=01(6(船司)-(必(1)电仏诃二刀机刃)-皿

13、3(2)其中U三u和v三v。对于目标相同的发电机GA和GBas,采用相同的损失函数。以前的作品条件图像合成发现用L1代替12距离是有益的,因为前者常常导致模糊6,23。因此,我们采用l1距离来测量恢复误差,并将其添加到GAN目标中,以强制转换的样本服从域分布:少何芒)=局冋-川地讣X川+(3)-DbGb(yf/)-Da(Ga(u,z),其中u三u,v三v,和Au,入变为两个常数参数。根据应用,入Uand入Vare通常设置为100.0,1000.0范围内的值。如果U包含自然图像而V不包含(例如航空照片地图),我们发现使用较小的AUthanAV更有效。3.2条。网络配置DualGAN采用相同的Ga

14、和GB网络结构。生成器配置有相同数量的下采样(池)和上采样层。此外,我们在镜像的下采样层和上采样层之间配置了跳过连接的生成器,如16,4所示,使其成为一个U形网络。这样的设计使得在输入和输出之间共享低级信息,这是有益的,因为许多图像转换问题隐式地假定输入和输出中的图像结构(例如,对象形状、纹理、杂波等)之间的对齐。如果没有跳过层,所有级别的信息都必须通过瓶颈,这通常会导致高频信息的大量丢失。此外,类似于4,我们没有显式地提供噪声向量z,z0。相反,它们只以退出的形式提供,并在培训和测试阶段应用于我们的发电机的几层。对于鉴别器,我们采用了文8中所述的马尔可夫帕奇根结构,该结构假定距离特定区域以外

15、的像素之间的独立性仅在修补程序级别而不是在完整图像上调整图像大小并对其建模。这样的配置在捕获局部高频特征(如纹理和样式)方面是有效的,但在建模全局分布时效果较差。它很好地满足了我们的需求,因为恢复损失鼓励保存全局和低频信息,并且鉴别器被指定来捕获本地高频信息。这种结构的有效性已经在各种翻译任务中得到了验证23。与23类似,我们在图像上卷积运行这个鉴别器,平均所有响应以提供最终输出。这种方案的另一个优点是它需要更少的参数,运行速度更快,并且对输入图像的大小没有限制。鉴别器工作时的块大小固定在70 x70,图像分辨率大多为256x256,与pix2pix4相同。Resultsofday-to-ni

16、ghttranslation.DualGANsuccessfullyemulatesthenightsceneswhilepreservingtexturesintheinputs,e.g.,seedifferencesoverthecloudregionsbetweenourresultsandthegroundtruth(GT).Incomparison,resultsofcGANandGANcontainmuchlessdetails.Photo-to-sketchtranslationforfacesResultsofDualGANaregenerallysharperthanthos

17、efromcGAN,eventhoughtheformerwastrainedusingunpaireddata,whereasthelattermakesuseofimagecorrespondence.ExperimentalresultsfortranslatingChinesepaintingstooilpaintings.ThebackgroundgridsshownintheGANresultsimplythattheoutputsofGANarenotasstableasthoseofDualGAN.3.3条。培训程序为了优化DualGAN网络,我们遵循WGAN1中提出的训练程序

18、;见Alg。一。我们先训练鉴别器一步一步,然后再训练发电机。我们采用小批量随机梯度下降,并应用RMSProp解算器,因为基于动量的方法,如Adam有时会导致不稳定1,RMSProp甚至在高度非平稳问题19,1上也有很好的表现。我们通常将每个生成器迭代的临界迭代次数ncriticto设置为2-4,并将批大小指定为1-4,而在实验的有效性上没有明显的差异。剪裁参数c通常在0.01,0.1中设置,随应用而变化。算法1DualGAN训练过程要求:图像集U、图像集V、具有生成器参数0A和鉴别器参数wA的GANA、具有生成器参数0B的GANB、带鉴别器参数wB、剪裁参数c、批量大小m和ncritic1:R

19、iindornlyijnitidizc龟,I.VB2:reptwit3:/11:i:iMo:sampleimagesC!TWfLtCV5:update心tnminimize;=,肚:lfi:叩血It旳tominimizc匸二惜(t/幻卫)7:也加(出扣一州厂,cf加(3卩.一听rS;etuifur9:sampleimagesli亀c比巒cVLQ:update召?v,Brtnminimize占刀量1叫辺製理)ll:untilconvergence传统的GANs训练需要在生成器和鉴别器之间仔细地平衡,因为随着鉴别器的改进,sigmoid交叉熵损失是局部饱和,可能导致梯度消失。与传统的GANs不同,

20、Wasserstein损失几乎在任何地方都是可微的,从而产生了更好的判别器。在每次迭代中,直到鉴别器被训练为ncriticsteps,生成器才被训练。这样的过程使得鉴别器能够提供更可靠的梯度信息1。图2:昼夜翻译结果。cGAN4是用标记数据训练的,而DualGAN和GAN是用无监督的方式训练的。DualGAN成功地模拟了夜景,同时保留了输入中的纹理,例如,我们的结果和地面真相(GT)之间的云区域差异。相比之下,cGAN和GAN的结果包含的细节要少得多。四。实验结果与评价为了评估DualGAN在通用图像到图像翻译中的能力,我们对多种任务进行了实验,包括照片草图转换、标签图像翻译和艺术风格化。为了

21、将DualGAN与GAN和cGAN进行比较4,使用了四个标记数据集:照片草图22,25、DayNIGHT5、标签正面20和从Google地图4直接捕获的天线图。这些数据集由两个域之间的对应图像组成;它们作为基本真值(GT),也可用于监督学习。然而,这些数据集都不能保证像素级的特征精确对齐。例如,草图照片数据集中的草图是由艺术家绘制的,与相应的照片不精确对齐,移动对象和云图案的变化经常出现在DayNIGHT数据集中,而LABELFACADES数据集中的标签并不总是准确。这在一定程度上突出了获得高质量匹配图像对的困难。II7iErl*円亶存和电Ql:4eMairi*9lt4*1Ui*|Inpui(

22、;TIhlMGAIVOANcGAN|图3:标签T外观翻译的结果。DualGAN忠实地保留了标签图像中的结构,尽管有些标签在细节上与相应的照片不太匹配。相比之下,GAN和cGAN的结果包含许多伪影。在labelphoto失调的区域上,cGAN通常会产生模糊的输出(例如,第二排的屋顶和第三排的入口)。DualGAN使我们能够利用大量来自网络的未标记图像源。实验中还测试了两个未标记和未配对的数据集。材质数据集包括由不同材质(如石头、金属、塑料、织物和木材)制成的对象的图像。这些图像是从Flickr中手动选择的,涵盖了各种照明条件、构图、颜色、纹理和材质子类型17。此数据集最初用于物料识别,但在此处应

23、用于物料转移。中国油画数据集包括两种不同风格的艺术画:油画和中国画。所有图片都是从搜索引擎中抓取的,它们包含不同质量、格式和大小的图片。我们重新格式化、裁剪和调整图像大小以进行训练和评估。在这两个数据集中,来自不同域的图像之间没有对应关系。5个。定性评价使用四个标记的数据集,我们首先在以下翻译任务中比较DualGAN与GAN和cGAN4:白天夜晚(图2)、标签口立面(图3和10)、面部照片n草图(图4和5)和地图n航空照片(图8和9)在所有这些任务中,cGAN使用标记(即配对)数据进行训练,其中运行4中提供的模型和代码,并为每个任务选择最佳损失函数:L1lossforfacadelabel和L

24、1+cGANlossforothertasks(参见4了解更多详细信息)。相比之下,DualGAN和GAN是以一种无监督的方式进行训练的,即我们分离图像对,然后重新组合数据。通过在等式(3)中设置入U二入V=0.0,使用我们的方法生成GAN的结果,注意该GAN与原始GAN模型3不同,因为它使用条件生成器。所有三个模型都在相同的训练数据集上训练,并在不与训练数据重叠的新数据上测试。所有的训练都是在一个GeForceGTXTitanXGPU上进行的。在测试时,所有的模型在这个GPU上运行的时间都小于1秒。与GAN相比,在几乎所有情况下,DualGAN产生的结果不那么模糊,包含的伪影更少,并且更好地

25、保留目标域的输入和捕获特征(例如,纹理、颜色和/或样式)中的内容结构。我们将这些改进归因于重构损失,它迫使输入通过双生成器从输出中重构,并增强对目标分布进行编码的反馈信号。在许多情况下,DualGAN在输出清晰度和对输入图像的忠实度方面也优于有监督的cGAN;参见图2、3、4、5和8。这是令人鼓舞的,因为cGAN中的监控确实利用了额外的图像和像素对应关系。另一方面,当在照片和基于语义的标签(如地图-空中和标签-正面)之间进行转换时,通常不可能仅基于目标分布推断像素颜色和标签之间的对应关系。因此,DualGAN可能会将像素映射到错误的标签(参见图9和图10)或将标签映射到错误的颜色/纹理(参见图

26、3和图8)。图6和图7显示了使用两个未标记的数据集获得的图像翻译结果,这些数据集包括机油n中文、塑料金属、金属石头、皮革织物以及木材n塑料。结果表明,当目标区域内没有相应的图像时,DualGAN可以产生具有视觉说服力的图像。同样,DualGAN的结果通常比GAN的结果包含更少的伪影。5.1条。定量评价为了定量评估DualGAN,我们通过AmazonMechanicalTurk(AMT)建立了两个用户研究。“材料感知”测试评估材料传输结果,我们混合所有材料传输任务的输出,让土库曼人根据他们认为图像中的对象是由哪种材料构成的来选择最佳匹配。对于总共176幅输出图像,每幅图像都由10名土库曼人进行评

27、估。如果至少有三个土耳其人选择了目标材料类型,则输出图像被认为是成功的。表1总结了使用不同方法得到的各种材料传输结果的成功速率,表明DualGAN在很大程度上优于GAN。图4:照片面部草图平移。DualGAN的结果通常比cGAN的结果更清晰,尽管前者使用未配对数据进行训练,而后者使用图像对应。cCTDiuilGANAu上叱图5:草图结果面的照片平移。由GAN和cGAN产生的结果比DualGAN显示出更多的伪影和模糊性。图6:将中国画翻译成油画的实验结果(没有GT)。GAN结果中的背景网格表明,GAN的输出不如DualGAN的输出稳定Kfraibmil3uE;AK|-wniT:AK|-kTtci

28、lirriiliHsiDuiKiAifrx|QI|JJLiDburiANlpU-Jii.ilai-rilI內llirnjC-AIiid!I&AN|MMn!rqi甲日胡心-兀逼旳nihGANl图7:各种材料转移任务的实验结果。从上到下,塑料T金属、金属T石头、皮革织物和塑料少木材。TuskDualGANGAN2/11(VI1plastic1/110/11metalsBonc2/11()/11stonemclaJ2/110/11leather-*fabric3/11彗IIfabricleather2/111/11pJaNticHinctal7/113/1JrrujLalT卩1昭lie1/110/1

29、1表1:基于AMF材料感知”测试的各种材料转移任务的成功率。在每一组传输结果中有11幅图像,DualGAN比GAN有明显的改进Taskj%vg.realnessscoreZIGANcGAN|GANGTsketchphotoL.W7.&9.D4556daynighlZ421.890耳3.05hbelrt詆坨itkisi.sy2.591.43mipiieriiil2.512.92l.RS111表2:各项任务产出的平均AMF真实性”得分。结果表明,DualGAN在所有任务中都优于GAN。它在素描、拍照、白天、夜间任务上也优于cGAN,但在标签、立面、地图、空中任务上仍然落后。在后两个任务中,训练数据

30、中额外的图像对应将有助于cGAN映射标签到正确的颜色/纹理。此外,我们还对素描照片、标签地图立面、地图航拍、白天夜间翻译进行AMT“真实度评分”。为了消除潜在的偏见,对于四个评估中的每一个,我们是随机的洗牌真实的照片和输出从这三种方法之前带他们去土耳其。每幅图片都会展示给20个土耳其人,他们被要求根据合成照片看起来真实的程度给图片打分。“真实性”得分从0分(完全缺失)、1分(差)、2分(可接受)、3分(好)到4分(令人信服)。然后计算不同蟑螂在不同任务上的平均得分,并显示在表中。2。AMT研究结果表明,DualGAN在所有任务上都优于GAN,在两个任务上也优于cGAN。这表明cGAN对图像对之间的不对中和不一致的容忍度很低,但是额外的像素级对应确实有助于cGAN将标签正确映射到颜色和纹理。最后,如表3和表4所示,我们计算了立面标签和空中地图任务的分割精度。比较结果表明,在没有图像对应信息的情况下,很难从训练数据中推断出正确的标记,因此DualGAN的性能优于cGAN。6。结论我们提出了一种新的无监督的通用图像到图像的双

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论