【《图像段落描述模型算法的实验分析案例》4000字】_第1页
【《图像段落描述模型算法的实验分析案例》4000字】_第2页
【《图像段落描述模型算法的实验分析案例》4000字】_第3页
【《图像段落描述模型算法的实验分析案例》4000字】_第4页
【《图像段落描述模型算法的实验分析案例》4000字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图像段落描述模型算法的实验分析案例目录TOC\o"1-3"\h\u204图像段落描述模型算法的实验分析案例 [14]。其中,Sentence-Concat模型的实现原理是将生成的5个独立的单句描述拼接起来合成段落描述,其在段落语句的连续性方面(可以通过CIDEr指标看出来)有着肉眼可见的劣势;Image-Flat模型的实现原理是通过单层的循环神经网络解码器来生成段落描述;而Hierarchical-RNN模型通过多层次性的循环神经网络解码器来生成段落描述;Dual-CNN模型的原理则是基于卷积神经网络,首先利用基于卷积神经网络的目标检测器对图像进行编码,再是通过使用基于卷积神经网络的解码器对图像特征进行层次性的解码。表4-1所示为所提算法和基线方法的客观评价指标对比。此外,为了说明人类描述段落和机器生成段落的差异,该表的Human行展示了人类描述段落在这些评价指标上的得分。这些图像段落描述来自于VisualGenome(VG)数据集的图像段落描述数据集中所随机抽取的500个段落描述。表4-1不同模型与人为主观评测指标结果的对比模型BLEU-1*BLEU-4*METEORROUGE-LCIDErSentence-Concat31.14.012.1\6.8Image-Flat34.07.712.8\11.1Hierarchical-RNN41.98.716.0\13.5Dual-CNN41.68.615.6\17.4Transformer37.67.314.527.822.0Human42.99.719.2\28.6从表4-1可以看出,基于Transformer的图像段落描述模型的CIDEr指标显著优于其他模型,从客观角度来说,基于Transformer的图像段落描述模型生成的段落描述的句子连贯性非常强。生成的图像段落描述示例为了更直观地体现基于Transformer的图像段落描述模型的性能效果,该部分随机选取了几个测试示例,从主观方面评价基于Transformer模型生成的图像段落描述。以下表格中记录了本项目训练出的基于Transformer的图像段落描述模型所生成的段落描述与原数据集标注的段落描述。表4-2生成示例与人为标注的对比图像基于Transformer模型生成的图像段落描述原数据集标注的图像段落描述Twowomenarestandinginsideofakitchen.Oneofthewomeniswearingawhiteshirt.Theotherwomaniswearingabluetanktop.Theotherwomanisstandinginfrontofthewomen.Theotherwomanissittingnearatable.Thetableismadeofwood.Thereareitemsonthefloorintheroom.Therearepaintedonthefloor.Twowomenaresittingatarestauranttable.Oneofthewomenisholdingalargepizzainherhands.Aredtray,plasticcups,napkins,whiteplatesandcellphonescanbeseenonthetable.Oneofthewomeniswearingglassesonhereyes.Thewallsoftherestaurantappeartobepaintedyellow.Acokemachinecanbeseenbehindthewomen.Amanisplayingtennisonatenniscourt.Heiswearingawhiteshirtandblackshorts.Themanisholdingatennisracketinhishand.Thecourtisbluewithwhitelinesonit.Thecourtisblue.Therearepeopleinthestandswatchingthegame.Therearewhitelinesonthecourt.Thepeoplearewearingshirts.Amaninawhiteshirtisstandingonablueandgreencourt.Themanisswingingaredtennisracket.Thereisagreentennisballintheairabovehim.Thisphotoistakenoutsideonasunnyday.Awomancanbeseenwalkingonthesidewalks.Infrontofatallgreentreeisstandingnearthebuildings.Thetreesareinthebackgroundofthephoto.Theskyisblueandclear.Thetreesareonthesideoftheroad.Greentreesareonthesideofthephoto.Thisisanimageofastreetview.Thetrafficlightisred.Thesignabovethetrafficlightisbluewithwhitewriting.Therearepeoplewalkingonthesidewalk.Thereisabusonthestreet.Thereisabuildingnexttotheroad.Theskyisblueandclear.Therearetreesalongthesidewalk.通过观察表4-2我们不难发现,基于Transformer模型生成的图像段落描述的语句基本通畅,对于图像中的大部分目标都有符合图像的描述,不同句子间的语意连贯性也被保留了下来。不过美中不足的是,该模型生成的图像段落描述有些语义相似的句子有重复出现。小结本章节在4.1部分主要介绍了本论文在进行模型训练与测试时所使用的VisualGenome(VG)数据集。其中说明了实验中进行训练与测试的图像特征的数据维数(图像特征值为N*4096,图像特征框为N*4),该图像特征为使用Bottom-upandtop-down算法从VisualGenome数据集的图像中提取出来。本章节在4.2部分主要介绍了本论文用于评估模型的性能指标BLEU、METEOR、ROUGE-L、CIDEr。在该部分中说明了这些指标计算的基本原理,以及各个指标所侧重的评估方向:BLEU指标说明了生成的段落描述与参考文本之间的相似度;METOR指标在BLEU指标的基础外还考虑了生成的段落描述与参考文本的部分同义词;ROUGE-L指标考虑了生成的段落描述与参考文本的句子层次结构的相似性;CIDEr指标说明了生成的段落描述的不同句子之间的连贯性。本章节在4.3部分主要介绍了基于Transformer模型的图像段落描述的训练过程中各评估指标的变化状况与趋势,并对产生这种变化趋势的原因进行了一定的分析。本章节在4.4部分主要介绍了基于Transformer模型的图像段落描述与其他4种图像段落描述模型以及人类自标数据之间的差距,从客观方向对基于Transform

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论