CN115578726B 基于上下文推理的图像描述模型训练方法及图像描述方法 (中国科学院上海高等研究院)_第1页
CN115578726B 基于上下文推理的图像描述模型训练方法及图像描述方法 (中国科学院上海高等研究院)_第2页
CN115578726B 基于上下文推理的图像描述模型训练方法及图像描述方法 (中国科学院上海高等研究院)_第3页
CN115578726B 基于上下文推理的图像描述模型训练方法及图像描述方法 (中国科学院上海高等研究院)_第4页
CN115578726B 基于上下文推理的图像描述模型训练方法及图像描述方法 (中国科学院上海高等研究院)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于上下文推理的图像描述模型训练方法本发明提供基于上下文推理的图像描述模单词,分别执行结合语义对齐的上下文推理过所述训练数据和对应的所述语义标签信息重复2获取当前训练数据中的所述文本数据;对所述文本数据中基于各单词对应的所述语义推理信息和当前图像的语义标签信息基于所述交叉熵损失和所述语义对齐损失,获取当前文本数据的模更新所述训练数据和对应的所述语义标签信息,以基于更新后的基于当前单词的所述隐藏状态特征和所述视觉注意力特征,觉注意力特征序列;基于所述当前的隐藏状态特征序列和所述当前的视觉注意力特征序力特征和所述隐藏状态特征输入到门控线性单元以计算输出当前单词的语基于当前单词的所述语义推理特征,在预设的语义表中确定关联度最高的语义信息,获取上一单词对应的隐藏状态特征和获取当前基于当前单词的所述词嵌入特征和对应的所述图像区域特征基于当前单词的所述隐藏状态特征和对应的所述图像区域特征,采3将所述隐藏状态语义特征和所述视觉语义特征输入语义对齐函数中,以基于当前的视觉注意力特征序列的序列特征和当前单词的所述词嵌对所述当前的隐藏状态特征序列执行时间和语义增强,以获取增基于所述增强后的隐藏状态特征序列和所述隐藏状态特征查询向量,基于所述增强后的隐藏状态特征序列,采用自注意力机制获所述基于所述增强后的视觉注意力特征和所述视觉注意力特征查询向基于所述增强后的视觉注意力特征序列,采用自注意力机制获得交力特征序列,并基于所述交互增强的视觉注意力特征序列和所述视觉注意力特征查询向基于各所述隐藏状态特征在所述当前的隐藏状态特征序列中的基于各所述视觉注意力特征在所述当前的视觉注意力特征4h为新的区域特征的特征维度。基于当前单词的视觉注意力特征和所述上下文推理特征,获基于所述增强后的隐藏状态特征序列和所述增强后的视觉注意力特基于所述当前单词的隐藏状态查询向量,和当前单词的所述隐藏状基于所述多模态特征序列,和所述当前单词的多模态特征查询向采用门控线性单元,将所述当前单词的隐藏状态特征查询向量和所基于图像描述的样本数据构建各训练数据集;单组所述训练数据包括基于各所述训练数据集和与所述训练数据对应的语义标签信息,采用如权利要求1至对待描述的图像,利用所述训练后的图像描述模型进行上下文语义求1至10中任一项所述的基于上下文推理的图像描述模型训练方法或如权利要求11所述的计算机程序被处理器执行如权利要求1至10中任一项所述的基于上下文推理的图像描述模56征;解码器通常采用基于循环神经网络或者自注意力机制网络,如长短期记忆网络(Long7于所述增强后的隐藏状态特征序列,采用自注意力机制获得交互增强的隐藏状态特征序述视觉注意力特征查询向量,采用注意力机制获取当前单词的视觉语义特征的实现方式,8[0013]于本发明一实施例中,所述对所述当前隐藏状态特征序当前单词的所述上下文推理特征;基于当前单词的视觉注意力特征和所述上下文推理特9[0024]图1显示为本发明提供的所述基于上下文推理的图像描述模型训练方法于一实施[0025]图2显示为本发明中单个单词执行所述结合语义对齐的上下文推理过程于一实施[0028]图5显示为本发明提供的所述基于上下文推理的图像描述模型训练方法于另一实[0029]图6显示为本发明所述获取当前单词的所述上下文推理特征于一实施例中的流程[0032]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构[0040]请参阅图1,示出为本发明一实施例中所述基于上下文推理的图像描述模型训练所述视觉注意力特征记忆池用于存储单词的视觉v=2048。[0063]拼接所述当前单词的词嵌入特征和所述图像区域特征,获取当前单词的拼接特t-k+1为更新后的隐藏状态特征记忆池中的各隐藏特征;k是记H为所述第一门向量,用于动态地平衡所述词嵌入特征和所述注意力特征A为所述第二门向量,用于动态地平衡词嵌入特征和隐藏状态特征序列均值视觉注意力特征序列;[0120]对所述当前视觉注意力特征序列中各所述视觉注意力特征,均执行上述增强过所述增强后的隐藏状态特征进行序列内部特征的交互,获得交互增强的隐藏状态特征序强后的视觉注意力特征进行序列内部特征的交互,获得交互增强的视觉注意力特征序列,为[0135]具体地,将所述隐藏状态语义特征和所述视觉语义特征输入所述语义对齐函数[0138]需要注意的是,以上所述步骤S202C也可于步骤S202B之前执行,或与所述步骤义标签信息的概率,即约束语义推理信息和语义标签信息之间的分布概率相近,将从视觉特征序列中提取的语义信息,和从语言时间特征序列中提取的语义信息进行对[0164]请参阅图5,示出为本发明提供的所述基于上下文推理的图像描述模型训练方法表征与当前单词的词嵌入信息和当前图像特征信息相关联的[0169]S601,基于所述增强后的隐藏状态特征序列和所述增强后的视觉注意力特征序基于上下文推理的图像描述模型训练方法或如上所述图像描述方法[0204]上述的处理器可以是通用处理器,包括中央处理器(CentralProce简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecific[0207]这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理储设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指征序列中提取的语义信息进行对齐,进而将视觉语义与语言语义约束在同一个语义空间,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论