CN115239944B 基于因果推理的图像标题自动生成方法 (中国矿业大学)_第1页
CN115239944B 基于因果推理的图像标题自动生成方法 (中国矿业大学)_第2页
CN115239944B 基于因果推理的图像标题自动生成方法 (中国矿业大学)_第3页
CN115239944B 基于因果推理的图像标题自动生成方法 (中国矿业大学)_第4页
CN115239944B 基于因果推理的图像标题自动生成方法 (中国矿业大学)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明公开了一种基于因果图的因果推理构建基于详细的因果图的因果推理方法图像字幕CIIC框架,包括非对齐特征Transformer编码器和干预式Transformer解码器,非对齐特Transformer解码器包括顺序连接的FASTERR_为在标准的Transformer解码器的前馈神经网络式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输2所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器UFT和干预式Transformer解码器ITD,其中非对齐特Transformer解码器包括顺序连接的码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅作和前馈传播操作,通过因果干预CI模块消除解码过程中的视觉和语言混淆,再进行的特征h2与视觉混淆因子D1和语言混淆因子D2的期干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征:通过干预理整合到FASTERR_CNN提取到的图像特征中来应对传统预训练模型提取到的视觉上的混通过编码器和解码器同时建立视觉和语言概念,减轻干预式目标检测器IOD和干预式2.根据权利要求1所述的基于因果推理和Transf将所要生成标题的图像分别通过FASTERR_CNN提取出图像特征,利用干预式目标检测具体来说,由于FASTERR_CNN目标检测器使用似然性估计3将其中的混淆因子近似为固定混淆因子字典z=[z,zz…,z1]zeR,n表示据集中的类征提取器方法为,先勾选特征图上的兴趣区域RoI,使用更快的区域卷积神经网络FASTERR_CNN提取特征图上的兴趣区域RoI,使用每个兴趣区域RoI的特征来分别预测边界框yB以及带有周围视觉混淆因子干扰的类概率输出标签yC,根据类别概率输出标签yC和混淆字典利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对象特交叉注意力进行集成,以促进CIIC模型的视觉表示;由于自底向上的特征和IOD特征不对齐,因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它设从图像中提取的自底向上特征和IOD特征分别为xpeR"和其中m≠n且为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性,构建标准Transformer解码器层中,将编码器中获得基于区域的非纠缠表示与文本作为解码器的输43.根据权利要求2所述的基于因果推理和Trans为当一个标题模型接受训练时,一些频繁出现的视觉上下文会严重影响参与的视觉特征,的视觉混淆因子词典D1和语言混淆因子词典D2,通过将图像视觉特征中每个条目设为每个图像分类数据集中的类别中对象的平均RoI特征构建视觉矩阵V,eR",其中c为训练数据集中的类数,dv表示每个RoI特征的维数,同时利用预定义词汇表中的de维词嵌入性投影ReR""P,eR""将视觉矩阵Vr和词嵌入We通过公式:D1=VrPv,D2=WePw分别转换词的概率P(W|do(V),do(h1))表示消除了语言上下文混淆和视觉混淆特征后预测的输出概4.根据权利要求2所述的基于因果推理和Transformer非对齐特征Transformer编码器包括FASTERR_CNN、干预式目标检干预式Transformer解码器为在标准Transformer解码器的前馈神经网络层模块之后5其中非对齐特征Transformer编码器的多头注意层、残差标准层和前馈神经网络层构馈神经网络层和因果干预CI模块构成的部Transformer解码器与Transformer编码器都包括多头的特征h2与视觉混淆因子D1和语言混淆因子D2的期望相结合,从而预测在每个时间步下一训练好的非对齐特征Transformer编码和干预式TranTransformer解码器以进行集成后的视觉特征为输入,在每个时间步同时结合输入的单词使用softmax操作来预测词汇表中单词的概率产生最终的预测单词,即训练时每个时间步5.根据权利要求4所述的基于因果推理和Trans首先采用单词级的交叉熵进行预训练,训练集包含图像和对对训练好的因果推理方法图像字幕CIIC框架进行测试:使用束搜索按6积语言模型已经探索出替代传统RNN的方法。因此,与卷积的操作本质不同,新的基于Transformer的字幕模型基于多头注意力的范式取得了相当的[0003]然而,大多数基于Transformer的图像描述模型可能仍然学习到隐藏的混淆因子常在训练中会导致产生偏差,在测试过程中会产生虚假的相关性并降低模型的泛化能力。[0007]所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器UFT和干预式Transformer解码器ITD,其中非对齐特Transformer解码器包括顺序连接的FASTERR_CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式7Transformer解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视[0008]其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同当前生成的句子部分,经过位置嵌入与掩码层与编码端最终输出进行交叉注意,进行AddNorm操作和前馈传播操作,通过因果干预CI模块消除解码过程中的视觉和语言混淆,觉和语言的特征h2与视觉混淆因子D1和语言混淆因子D2的期[0009]干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征:通过干预式对象感知器对感兴趣区域特征进行分离,然后与更快的区域卷积神经网络FASTER果推理整合到FASTERR_CNN提取到的图像特征中来应对传统预训练模型提取到的视觉上[0010]通过编码器和解码器同时建立视觉和语言概念,减轻干预式目标检测器IOD和干[0019]将其中的混淆因子近似为固定混淆因子字典z=[z,z,…3,]z,e",n表示据集中8IOD特征提取器方法为,先勾选特征图上的兴趣区域RoI,使用更快的区域卷积神经网络框yB以及带有周围视觉混淆因子干扰的类概率输出标签yC,根据类别概率输出标签yC和混[0020]利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对对齐,因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整[0021]设从图像中提取的自底向上特征和IOD特征分别为xreR"e和其中m≠n且d1≠d2,利用Transformer网络中所构造的两个线[0028]为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性,构建标准Transformer解码器层中,将编码器中获得基于区域的非纠缠表示与文本作为解码器的输9响参与的视觉特征,而因果效应D1→W是指视觉上下文直接影响生成描述中一些相关词语h1→V表示被语言上下文所影响的参与词特征通过多头交叉注意来引导参h2和h2→W表示解码器融合了视觉特征和语言特征,利用融合后的时,由于混淆因子D1和D2生成描述模型可能学习到视觉特征V和预测词W之间的一些虚假相(W|do(V),do(h1))代替传统的图像描述训练目标P(W|V,h1),从而消除D1建近似的视觉混淆因子词典D1和语言混淆因子词典D2,通过将图像视觉特征中每个条目设为每个图像分类数据集中的类别中对象的平均RoI特征构建视觉矩阵v,eRe,其中c为训练数据集中的类数,dv表示每个RoI特征的维数,同时利用预定义词汇表中的de维词嵌入性投影P,eR4"R,eR"将视觉矩阵Vr和词嵌入We通过公式:D1=VrPv,D2=WePw分别转换通过设置D1和D2以融合特征h2为条件,以增加干预式Transformer解码器的表示能力;do(h1))表示消除被语言上下文影响的参与词特征,P(W|do(V))表示消除了视觉混淆特征后预测生成单词的概率P(W|do(V),do(h1))表示消除了语言上下文混淆和视觉混淆特征后预[0036]进一步,非对齐特征Transformer编码器包括FASTERR_CNN、干预式目标检测器[0037]干预式Transformer解码器为在标准Transformer解码器的前馈神经网络层模块[0038]其中非对齐特征Transformer编码器的多头注意层、残差标准层和前馈神经网络融合的特征h2与视觉混淆因子D1和语言混淆因子D2的期望相结合,从而预测在每个时间步像经过FASTERR_CNN提取自底向上特征、干预式目标检测器IOD提取RoI候选区域中提取解混淆的对象特征,UFT编码器以自底向上的特征和IOD特征为输入进行对齐和融合操作,[0049]1)本方法采用从因果关系角度来看一个新的基于Transformer图像描述架构[0056]如图1所示,本发明的基于因果推理的图像标题自动生成方法,首先划分混淆因通过干预式对象感知器(IOD)对感兴趣区域特征进行分离,然后与FASTERR_CNN的自底向向上特性相结合,作为Transformer编码器的输入。在CIIC中,提出了一个因果干预模块[0066](干预式目标检测器输出的[0068]将其中的混淆因子近似为固定混淆因子字典n表示据集中入了一个多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它们,[0070]设和分别表示从图像中提取的自底向上特征和IOD特征,其的交叉注意力:[0076]其中LayerNorm表示层标准化,最后,将融合后的特征信息F送入FFN模块个基于Transformer的解码器结构,基于Transformer的解码器结构将因果干预模块整合响参与的视觉特征,而因果效应D1→W是指视觉上下文直接影响生成描述中一些相关词语h1→V表示被语言上下文所影响的参与词特征通过多头交叉注意来引导参h2和h2→W表示解码器融合了视觉特征和语言特征,利用融合后的为训练目标时,由于混淆因子D1和D2生成描述模型可能学习到视觉特征V和预测词W之间的1))代替传统的图像描述训练目标P(W|V,h1),从而消除D1对视觉特征V的因果效建近似的视觉混淆因子词典D1和语言混淆因子词典D2(将视觉特征和词嵌入通过线性投影得到,D1和D2经过加粗倾斜,与D1和D2不同),通过将图像视觉特征中每个条目设为每个类(图像分类数据集中的类别)中对象的平均RoI特征构建视觉矩阵V,eR",其中c为训练数[0087]Transformer解码器架构:Transformer解码器架构如图1所示,其中非对齐特征器IOD和标准的Transformer编码器(包括多头注意层、残差标准层和前馈神经网络层)组成,干预式Transformer解码器为在标准Transformer解码器的前馈神经网络层模块之后般的Transformer解码器与Transformer编码器类似都包括多头注意层、残差标准层和前典的T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论