CN113902964B 基于关键词感知的多模态注意力视频问答方法与系统 (中山大学)_第1页
CN113902964B 基于关键词感知的多模态注意力视频问答方法与系统 (中山大学)_第2页
CN113902964B 基于关键词感知的多模态注意力视频问答方法与系统 (中山大学)_第3页
CN113902964B 基于关键词感知的多模态注意力视频问答方法与系统 (中山大学)_第4页
CN113902964B 基于关键词感知的多模态注意力视频问答方法与系统 (中山大学)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于关键词感知的多模态注意力视频问答本发明公开了一种基于关键词感知的多模态特征提取和预训练模型KeyBert关键词提取算态特征,输出经有效关联和融合后的多模态特词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征态间互相关联的信息,更有效地融合多模态特2利用卷积网络C3D提取所述视频帧的动作标签,利用对象检测算法Yolo提取所述视频将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用预训练模型将所述视频帧输入神经网络ResNet,直接提取所述视频帧对应图片相似地,对所述多模态特征中的关键词特征和问题文本特对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,3在训练时,使用交叉熵损失函数来衡量模型的输出与真实的关键字幕文本特征融合单元,用于将所述多模态特征中的关键词关键问题文本特征融合单元,用于将所述多模态特征中的关键词多模态特征融合单元,用于对所述多模态特征、48.一种计算机设备,包括存储器和处理器,所述存储器处理器执行时实现权利要求1至2中任一项所述的方56[0013]利用卷积网络C3D提取所述视频帧的动作标签,使用对象检测算法Yolo提取所述[0016]将所述视频帧输入神经网络ResNet,直接提取所述视频[0019]利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关7合自注意力机制捕获特征的时序性,并应用双向注意力机制强调模态间互相关联的信息,8[0047]图1是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程[0054]图1是是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流[0059]S1-1,利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标9签,并将所述动作标签和视觉标签合为一个视觉标签集合,本实施例中,视觉标签即例如题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;将所述视频帧输入[0084]关键字幕文本特征融合单元2,用于将所述已提取的关键词特征和字幕文本特征[0086]关键问题文本特征融合单元3,用于将所述已提取的关键词特征和问题文本特征意力机制应用于关联关键词集合和字幕文本,以及关联关键词集合与问题文本之间的信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论