CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）

上传人：1*** IP属地：山西上传时间：2026-04-02 格式：DOCX 页数：40 大小：1.88MB 积分：9.6 举报 版权申诉

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）_第2页

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）_第3页

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）_第4页

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）_第5页

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

WO2021184311A1,2021.09基于多关系图模型的多模态对话问答生成基于多关系图模型的多模态对话问答生成明为了解决现有的多模态对话系统仅考虑场景处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文2该片段的色彩特征和光流特征v",以及音频特征A";将色彩特征光流特征和音频特征拼接起来得到再加入位置信息S3、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示V,并作为后续基于GPT_2架构的多层TRAN向量Cfeature和对话历史词向量Hfeature拼接起来，再加入位置信息Tpos和模态信息Tmod得到文其中，位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序标识符[cap]统一标识视听场景标题，标识符[usr1]标识提问者，标识符[usr2]标识回答然后将句子级依存关系的图结构s"和/或基于完整对话共指关系的图结构sr分别输本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示i,并作为后续基于GPT_2架构的多层TRANSFORMER模型的和i拼接获得增强多模态输入，并将增强多模态输入基于GPT_2架构的多层2.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征在于，S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系3的图结构s"并得到对应的文本隐藏层序列的过首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用Stanfor3.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用Stanfor4.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征的图结构s"和基于完整对话共指关系的图结构sr并得到各自对应的文本隐藏层序列的首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用Stanfor本解析工具分别分析该句子的句法依存关系和该句子的共指关系，将每个词向量视作顶点，分别构建基于句子级依存关系的图结构和基于完整对话共指关系的图结构se:然6.根据权利要求5所述的一种基于多关系图模型的多模态对话问答生成方法，其特征Av为s"的邻接矩阵，i,j分别表示的第i,j个结""可以考虑结点自身表示，加入单位矩阵Iv得到A'=A'+I',相应地，得到对应的度矩阵47.根据权利要求6所述的一种基于多关系图模型的多模态对话问答生成方法，其特征8.根据权利要求7所述的一种基于多关系图模型的多模态对话问答生成方法，其特征9.根据权利要求8所述的一种基于多关系图模型的多模态对话问答生成方法，其特征话历史特征的回答预测任务RPT、音视频的标题预测任务CPT和音视频_文本匹配任务VTMTVTMT部分旨在判断给定的音视频特征V和给定的文本特征是否匹配，给定的文本特征56在开放域对话中应用预训练语言模型来选择候选回答，其中预训练语言模型的输出(如BERT中的[CLS]标志)被用作每个对话上下文和候选答案对的上下文表示。WNGT2019中，等人合并了全局编码器和本地解码器，实现了在任务导向型对话设置中共享外部知识。NAACL2019中，Reddy等人面向任务导向型对话设计了一个多级存储的框架。ACL2019中，Tian等人探索了如何在训练过程中提取有价值的信息，并以此搭建了一个记忆启动架构。于如何利用静态图像和文本之间多粒度互补信息弥合语言和视觉的差距，例如CVPR2017空智能性，引入一个新任务——视听场景感知对话(Audio_VisualScene_AwareDialog，7[0006]注意力机制是该领域的主流研究方法，它可以缩小视觉和语言模态表示间的差得每个输入特征由其它两个特征以序列化的方式共同提供。ACL2019中Gan等人提出的ReDAN模型和AAAI2020中Chen等人提出的DMRM模型通过基于双注意力机制的多步推理来回[0007]基于注意力机制实现的Transformer架构的预训练语言模型体系结构也在学习视Chen等人提出的GoG模型考虑到不同关系之间同样具有交互，因此建模了基于对话历史的[0009]本发明的目的是为了解决现有的多模态对话系统仅考虑场景序列化信息而导致获取该片段的色彩特征和光流特征以及音频特征A";[0012]将色彩特征光流特征和音频特征A"拼接起来得到再加入位置8并作为后续基于GPT_2架构的多层TRANSFORMER题词向量Cfeature和对话历史词向量Hfeature拼接起来，再加入位置信息Tpos和模态信息Tmod得[0024]然后将句子级依存关系的图结构s"和/或基于完整对话共指关系的图结构sr分[0025]S6、将句子级依存关系的图结构s"和/或基于完整对话共指关系的图结构sr对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示i,并作为后续基于GPT_2架构的多层TRANSFORMER模[0027]进一步地，S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系的图结构s"并得到对应的文本隐藏层序列的过程包括以下步[0028]首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用Stanford[0030]S5中将S4得到的文本序列表示T中的每个词向量视作顶点，构建基于完整对话共指关系的图结构并得到各自对应的文本隐藏层序列的过[0031]首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用Stanford9[0033]S5中将S4得到的文本序列表示T中的每个词向量视作顶点，构建基于句子级依存关系的图结构s"和基于完整对话共指关系的图结构sr并得到各自对应的文本隐藏层序[0034]首先使用GPT2Tokenizer获得每个单词对应的词向量表示，使用StanfordCoreNLP文本解析工具分别分析该句子的句法依存关系和该句子的共指关系，将每个词向量视作顶点，分别构建基于句子级依存关系的图结构s"和基于完整对话共指关系的图结Av为s"的邻接矩阵，i,j分别表示s"的第i,j头注意力机制的Transformer解对话历史特征的回答预测任务RPT、音视频的标题预测任务CPT和音视频_文本匹配任务[0049]RPT部分旨在基于音视频特征V、标题C、对话历史H＜n和当前问题Qn生成回答通过最小化负对数似然损失函数，使得模型输出的下一个词为源序列[0055]VTMT部分旨在判断给定的音视频特征V和给定的文本特征是否匹配，给定的文本[0060]本发明旨在改进当前预训练模型架构仅利用了视频或文本的序列化信息来获取每个视频片段或单词所对应的嵌入表示，导致多模态对话问答系统生成回答不理想的情[0068]本实施方式为一种基于多关系图模型的多模态对话问答生成方法，包括以下步段的音频特征A"。将色彩特征光流特征和音频特征拼接起来得到[0077]步骤三、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表H的词向量表示Cfeature和Hfeature。将标题词向量Cfeature和对话历史词向量Hfeature拼接起来，句子级依存关系的文本图s",图4给出了一个具体示例。对于当前文本“doesthewoman用StanfordCoreNLP文本解析工具分析该句子的句法依存关系(图中词向量之间的连线)，[0087]步骤六、将文本隐藏层序列GD和原文本序列表示T输入线性层得到文本的融合表示i,并作为后续GPT2模型的部分输入；表达式为：注意力机制的Transformer解码器模块堆叠而成。为了使模型同时具备融合多模态特征和结果投影到与步骤六的结果相同的向量空间，将两者拼接以获得完整的多模态输入表[0091]图3展示了GPT_2模型中每个Transformer解码器模块的具体架构。该模块主要由Attention可以检测各模态输入自身和彼此间的细粒度的长期依赖关系，包括视频对象的v和i拼接获得增强多模态输入表示作为步骤七构建的多模态对话问[0098]所述步骤五中将步骤四得到的文本序列表示T中的每个词向量视作顶点，依据StanfordCoreNLP文本解析工具构建基于完整对话共指关系的文本图图5给出了一个Tokenizer获得每个单词对应的词向量表示，使用StanfordCoreNLP文本解析工具分析该步骤五中表达式相同；[0099]步骤六将步骤四和步骤五得到的文本隐藏层序列GC和原文本序列表示T输入线性层得到文本的融合表示i,并作为后续GP[0105]所述步骤五中将步骤四得到的文本序列表示T中的每个词向量视作顶点，依据StanfordCoreNLP文本解析工具构建基于句子级依存关系的文本图s"和基于完整对话共[0106]步骤六将步骤四和步骤五得到的文本隐藏层序列GD以及GC和原文本序列表示T输入线性层得到文本的融合表示i,并作为后续GPT2模型的部分输入；表达式为：[0112]所述步骤八中为促进不同模态信息的融合，模型训练时包括基于音视频、标题和对话历史特征的回答预测任务(ResponsePredictionTask，[0113]RPT部分旨在基于音视频特征V、标题C、对话历史H＜n和当前问题Qn生成回答R,-:…",通过最小化负对数似然损失函数，使得模型输出的下一个词为源序列[0119]VTMT部分旨在判断给定的音视频特征V和给定的文本特征(包括标题C、对话历史[0125]数据集选取ICASSP2019中Hori等人发布的第七届对话系统技术挑战赛(The7th和CIDEr等，这些指标可以从不同角度计算预测回答和真实回答之间的语义相似度和语言[0138](1)ICASSP2019中Hori等人提出的朴素融合模型(NaiveFusion)为DSTC7组织者[0139](2)AAAI2019中Sanabria等人提出的分层注意力机制模型(Hierarchical[0140](3)ACL2019中Le等人提出的多模态Transformer网络(MultimodalTransformer[0141](4)TASLP2021中Li等人提出的通用多模态Transformer网络(Universal的多种句法和语义信息可以在一个框架内展现。相较于多层感知器(Multilayer[0146]数据集选取TASLP2021中Kim等人发布的第八届对话系统技术挑战赛(The8th

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）

文档简介

温馨提示

最新文档

评论

CN115712709B 基于多关系图模型的多模态对话问答生成方法 （哈尔滨工业大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115712709B 基于多关系图模型的多模态对话问答生成方法（哈尔滨工业大学）