CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-13 格式：DOCX 页数：30 大小：1.04MB 积分：10.2 举报 版权申诉

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）_第2页

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）_第3页

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）_第4页

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本公开公开了多模态数据联合学习模型训中包括至少一种单模态数据和至少一种成对据输入至解耦注意力变换Transformer网络模型，分别生成语义元素Token语义表示特征和跨模态语义表示特征，对解耦注意力Transformer网络模型进行训练，由此，使解耦注意力变换Transformer网络模型有效利用多种不同模态数2获取多模态数据；其中，所述多模态数据中包括至将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换Transformer网络模根据所述Token语义表示特征和所述跨模态语义表示特征，对所述解耦注意力其中，所述将所述单模态数据和所述Pair多模态数据输入至解耦注意力Transformer所述解耦注意力Transformer网络模型将模态内部和模态间的交互进行解耦，所述模据拆分成多个Token，经过多层所述模态内注意力机制进行学习后，生成所述文本数据的所述模态间注意力机制学习所述图像数据和所述文本数据之间的跨模态的信息交互，采用门控机制，根据所述图像数据和所述文本数据的不同模态之间根据所述图像数据的Token语义表示特征，基于图像重构自监督学习对所述解耦注意根据所述文本数据的Token语义表示特征，基于掩码自回归自监督学习对所述解耦注根据所述图像数据和所述文本数据的跨模态语义表示3语义表示单元，用于将所述单模态数据和所述Pair制和模态信息融合层的网络结构；所述解耦注意力Transformer网络模型将模态内部和模注意力机制进行学习后，生成所述图像数据的Token语义表示特征；文本数据语义表示单其中，所述模态间注意力机制学习跨模态的信息交互述文本数据的不同模态的多个Token，依次经过多层所述模态内注意力机制和多层所述模图文对训练子单元，用于根据所述图像数据和所述文本数据的跨模态语义表示特征，基于跨模态相关性对比学习对所述解耦注意力Transfo4所述存储器存储有可被所述至少一个处理器执行5数据；将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换Transformer网络示单元，用于将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换6[0009]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0017]图7是用来实现本公开实施例的多模态数据联合学习模型训练方法的电子设备的提出了各种多模态数据预训练模型，如ViLBERT（Vision-and-LanguageBidirectionalEncoderRepresentationfromTransformers，视觉-语言-来自转换器的双向编码表示）[0020]由此，本公开的发明人发现针对单模态数据或强关联的图文对数据的预训练模7[0028]S2：将单模态数据和Pair多模态数据输入至解耦注意力变换Transformer网络模[0030]本公开实施例中将单模态数据和Pair多模态数据输入至该解耦注意力[0032]其中，在获得Token语义表示特征和跨模态语义表示特征之后，对解耦注意力Transformer网络模型进行训练，以针对获取的包括单模态数据和Pair多模态数据的多模态数据进行统一建模，使得训练好的模型能够具备同时处理多模态数据的理解和生成任[0033]本公开实施例提供的多模态数据联合学习模型训练方数据和Pair多模态数据输入至解耦注意力变换Transformer网络模型，分别生成语义元素8模态的信息交互，模态信息融合层将不同模态的信息融合起来得到跨模态语义表示特征。[0041]本公开实施例中S20和S21的描述说明可以参见上述实施例中的S9性实施例中，通过将模态内信息表示特征X和模态间信息表示特征Y通过多层非线性转换，[0053]本公开实施例中，通过搜索引擎从互联网上抓取了上亿条不再将预测的Token与掩码的Token进行对比，对解耦注意力Transformer网络模型中的参数[0061]对于图像数据输入的Token和文本数据输入的Token共同输入至解耦注意力Transformer网络模型，在对取出的图像数据输入的Token和进行掩码的文本数据输入的[0063]在一些实施例中，基于跨模态相关性对比学习对解耦注意力Transformer网络模型进行训练，包括：采用相关性排序，基于跨模态相关性对比学习，对解耦注意力[0069]语义表示单元12用于将单模态数据和Pair多模态数据输入至解耦注意力变换[0070]模型训练单元13用于根据Token语义表示特征和跨模态语义表示特征，对解耦注型训练单元13用于根据Token语义表示特征和跨模态语义表示特征，对解耦注意力[0073]如图5所示，本公开实施例提供的一种多模态数据联合学习模型训练装置20，其[0076]图像数据语义表示单元22用于将图像数据拆分成多个Token，经过多层模态内注[0077]文本数据语义表示单元23用于将文本数据拆分成多个Token，经过多层模态内注的不同模态的多个Token，依次经过多层模态内注意力机制和多层模态间注意力机制进行重构自监督学习对解耦注意力Transf[0082]文本训练子单元26用于根据文本数据的Token语义表示特征，基于掩码自回归自[0085]可以理解的是，本实施例附图5中的一种多模态数据联合学习模型训练装置20与[0089]图7是用来实现本公开实施例的多模态数据联合学习模型训练方法的电子设备的因特网的计算机网络和/或各种电信网络与其他设备程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时，可以执行上文描述的多模态数据联机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器[0096]用于实施本公开的多模态联合学习模型训练方法的程序代码可以采用一个或多面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN113240056B 多模态数据联合学习模型训练方法及装置 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113240056B 多模态数据联合学习模型训练方法及装置（北京百度网讯科技有限公司）