深度生成模型Course Project

上传人：逗*** IP属地：宁夏上传时间：2026-03-28 格式：PPTX 页数：15 大小：1.37MB 积分：50 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

深度生成模型Course

ProjectCVAE

Image

Caption目录CONTENTS01Introduction02RNN-CVAE03T-CVAE04Experiment01Introduction

Imagecaption顾名思义，即可让算法根据输入的一幅图自动生成对应的描述性文字，可以简单地理解为看图说话。这一领域是结合了人工智能两大方向：计算机视觉和自然语言处理。01IntroductionMotivation：目前已经有许多不同的模型在ImageCaption任务上取得了很好的结果ShowandTell:ANeuralImageCaptionGenerator2015Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention2016KnowingWhentoLook:AdaptiveAttentionviaAVisualSentinelforImageCaptioning2017SCA-CNN:SpatialandChannel-wiseAttentioninConvolutionalNetworksforImageCaptioning2017Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering2018但是大部分模型都只是基于判别模型，将CV领域的图像分类、对象检测和NLP领域的Seq2Seq模型结合在一起，生成一个尽可能符合GroundTruth的结果，而这种模型生成的结果往往多样性比较差。我们希望通过结合CVAE来提升结果的多样性。02ModelsRNN_attn

(Baseline)Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention,

et.al

201602ModelsRNN_CVAE_v0CNNILSTMCaptionVTZZ’kl

lossLSTMTrainTestCaptionAttentionnll

loss直接优化kl_loss

nll_loss在训练中使用anneal

function逐渐增大kl

loss权重仍存在kl

vanish问题attn

loss02ModelsRNN_CVAE_v1CNNILSTMCaptionVTZZ’kl

lossLSTMTrainTrain/TestCaptionAttentionnll

lossT’V’mse

lossattn

loss从Z重构T,

V使用两个optimizer分别优化lossscheduled

learningkl

vanish问题缓解02ModelResNetTransformerstduTransformerzLinearImageCaptionCaptionstduzCaptionImage1.采用Transformer希望获得更好的结果2.通过z对caption和image的重构来获得更好的多样性3.对std，u和model的其他部分分开来训练。zMSELossTransformer_CVAE03ResultKLVanish当VAE和强如RNN/PixelCNN这样的autoregressivemodels在一起训练时，会出现糟糕的“KL-vanishingproblem”，或者说是“posteriorcollapse。主要是因为当KL(q(z|x)||p(z))消失时，并且当隐变量z和x独立时，此时的ELBO=log(p(x))。但是如果z和x完全独立，这就意味着VAE的生成过程中，decoder完全不依赖z去生成x，从而退化成一个一般的languagemodel。这并不是我们想要的结果。03ResultKLVanishKLVanish的解决方法主要有:KLcostannealing：只需要在

项上乘以一个权重系数，训练刚开始的时候系数大小为0，给

q(z|x)

多一点时间学会把

的信息

encode

到

里，再随着训练

step

的增加逐渐系数增大到

1。选用较弱的Decoder，让Decoder要依赖Z才能生成结果。在我们的实验中，Transformer由于性能太强，仅凭自己就可以modelq(x)分布，会减少对z的依赖，因此表现出更差的多样性。AuxiliaryAutoencoder：RNN和VAE各自的损失函数在训练初期其实会互相干扰，导致posterior学不好。因此我们对z进行重构，并对VAE和AE两个部分分开来训练。Futuremore：

采用NormalizingFlow来代替CVAEModelBleu4多样性RNN_attn30.59—RNN_attn

finetune

CNN33.45—RNN_CVAE_v030.42差RNN_CVAE_v121.13好RNN_CVAE_v1

scheduled

learning30.51一般T_CVAE(6层Transformer)31.03差T_CVAE(3层Transformer)T_CVAE(1层Transformer)T_CVAE(修正z)29.9828.0330.39较差一般一般03Result03ResultRNN_attn:atrainthatissittingonthetracksRNN_CVAE_v1:atrainsittingonthetracksnearabuildingatrainonatrackwithabuildinginthebackgroundpeoplestandinginfrontofatrainonthetracksthetrainistravelingdownthetracksinthecityanoldfashionedtrainsittingonthetracks03ResultRNN_attn:akitchenwithasinkandastovetopovenRNN_CVAE_v1:akitchenwithasinkandastovetopovenakitchenfilledwithappliancesandcabinetsandawindowasmallkitchenwithwhitecabinetsandawhitesinkakitchenwithwoodencabinetsandawhitestoveanemptykitchenwithwhitecabinetsandasink03ResultRNN_attn:abunchofbananasareonatableRNN_CVAE_v1:thebananasareonthetableinthemarketabunchofbananasonthewooden

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度生成模型Course Project

文档简介

温馨提示

最新文档

评论

深度生成模型Course Project

文档简介

温馨提示

最新文档

评论

相关文档