版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度生成模型Course
ProjectCVAE
Image
Caption目录CONTENTS01Introduction02RNN-CVAE03T-CVAE04Experiment01Introduction
Imagecaption顾名思义,即可让算法根据输入的一幅图自动生成对应的描述性文字,可以简单地理解为看图说话。这一领域是结合了人工智能两大方向:计算机视觉和自然语言处理。01IntroductionMotivation:目前已经有许多不同的模型在ImageCaption任务上取得了很好的结果ShowandTell:ANeuralImageCaptionGenerator2015Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention2016KnowingWhentoLook:AdaptiveAttentionviaAVisualSentinelforImageCaptioning2017SCA-CNN:SpatialandChannel-wiseAttentioninConvolutionalNetworksforImageCaptioning2017Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering2018但是大部分模型都只是基于判别模型,将CV领域的图像分类、对象检测和NLP领域的Seq2Seq模型结合在一起,生成一个尽可能符合GroundTruth的结果,而这种模型生成的结果往往多样性比较差。我们希望通过结合CVAE来提升结果的多样性。02ModelsRNN_attn
(Baseline)Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention,
Xu
et.al
201602ModelsRNN_CVAE_v0CNNILSTMCaptionVTZZ’kl
lossLSTMTrainTestCaptionAttentionnll
loss直接优化kl_loss
+
nll_loss在训练中使用anneal
function逐渐增大kl
loss权重仍存在kl
vanish问题attn
loss02ModelsRNN_CVAE_v1CNNILSTMCaptionVTZZ’kl
lossLSTMTrainTrain/TestCaptionAttentionnll
lossT’V’mse
lossattn
loss从Z重构T,
V使用两个optimizer分别优化lossscheduled
learningkl
vanish问题缓解02ModelResNetTransformerstduTransformerzLinearImageCaptionCaptionstduzCaptionImage1.采用Transformer希望获得更好的结果2.通过z对caption和image的重构来获得更好的多样性3.对std,u和model的其他部分分开来训练。zMSELossTransformer_CVAE03ResultKLVanish当VAE和强如RNN/PixelCNN这样的autoregressivemodels在一起训练时,会出现糟糕的“KL-vanishingproblem”,或者说是“posteriorcollapse。主要是因为当KL(q(z|x)||p(z))消失时,并且当隐变量z和x独立时,此时的ELBO=log(p(x))。但是如果z和x完全独立,这就意味着VAE的生成过程中,decoder完全不依赖z去生成x,从而退化成一个一般的languagemodel。这并不是我们想要的结果。03ResultKLVanishKLVanish的解决方法主要有:KLcostannealing:只需要在
KL
项上乘以一个权重系数,训练刚开始的时候系数大小为0,给
q(z|x)
多一点时间学会把
x
的信息
encode
到
z
里,再随着训练
step
的增加逐渐系数增大到
1。选用较弱的Decoder,让Decoder要依赖Z才能生成结果。在我们的实验中,Transformer由于性能太强,仅凭自己就可以modelq(x)分布,会减少对z的依赖,因此表现出更差的多样性。AuxiliaryAutoencoder:RNN和VAE各自的损失函数在训练初期其实会互相干扰,导致posterior学不好。因此我们对z进行重构,并对VAE和AE两个部分分开来训练。Futuremore:
采用NormalizingFlow来代替CVAEModelBleu4多样性RNN_attn30.59—RNN_attn
+
finetune
CNN33.45—RNN_CVAE_v030.42差RNN_CVAE_v121.13好RNN_CVAE_v1
+
scheduled
learning30.51一般T_CVAE(6层Transformer)31.03差T_CVAE(3层Transformer)T_CVAE(1层Transformer)T_CVAE(修正z)29.9828.0330.39较差一般一般03Result03ResultRNN_attn:atrainthatissittingonthetracksRNN_CVAE_v1:atrainsittingonthetracksnearabuildingatrainonatrackwithabuildinginthebackgroundpeoplestandinginfrontofatrainonthetracksthetrainistravelingdownthetracksinthecityanoldfashionedtrainsittingonthetracks03ResultRNN_attn:akitchenwithasinkandastovetopovenRNN_CVAE_v1:akitchenwithasinkandastovetopovenakitchenfilledwithappliancesandcabinetsandawindowasmallkitchenwithwhitecabinetsandawhitesinkakitchenwithwoodencabinetsandawhitestoveanemptykitchenwithwhitecabinetsandasink03ResultRNN_attn:abunchofbananasareonatableRNN_CVAE_v1:thebananasareonthetableinthemarketabunchofbananasonthewooden
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抢救室内工作制度
- 报停停供工作制度
- 招标组工作制度
- 接待处工作制度
- 控违大队工作制度
- 援疆安全工作制度
- 支部七大工作制度
- 收费岗亭工作制度
- 政务协调工作制度
- 2026年中国电气装备集团招聘面试题库
- 206内蒙古环保投资集团有限公司社会招聘17人考试备考题库及答案解析
- 道法薪火相传的传统美德课件-2025-2026学年统编版道德与法治七年级下册
- 2026浙江省海洋风电发展有限公司校园招聘笔试备考题库及答案解析
- 学前教育普惠性家庭参与研究课题申报书
- 2026广东深圳市优才人力资源有限公司公开招聘聘员(派遣至龙城街道)18人备考题库附答案详解(典型题)
- 神经康复的现状与
- 2022年02月天津医科大学后勤处招考聘用派遣制人员方案模拟考卷
- 华三h3交换机基本配置
- 循环流化床锅炉检修导则
- 日本横河cs3000DCS操作手册
- 干煤棚网壳施工监理实施细则
评论
0/150
提交评论