版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本公开公开了多模态数据联合学习模型训中包括至少一种单模态数据和至少一种成对据输入至解耦注意力变换Transformer网络模型,分别生成语义元素Token语义表示特征和跨模态语义表示特征,对解耦注意力Transformer网络模型进行训练,由此,使解耦注意力变换Transformer网络模型有效利用多种不同模态数2获取多模态数据;其中,所述多模态数据中包括至将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换Transformer网络模根据所述Token语义表示特征和所述跨模态语义表示特征,对所述解耦注意力其中,所述将所述单模态数据和所述Pair多模态数据输入至解耦注意力Transformer所述解耦注意力Transformer网络模型将模态内部和模态间的交互进行解耦,所述模据拆分成多个Token,经过多层所述模态内注意力机制进行学习后,生成所述文本数据的所述模态间注意力机制学习所述图像数据和所述文本数据之间的跨模态的信息交互,采用门控机制,根据所述图像数据和所述文本数据的不同模态之间根据所述图像数据的Token语义表示特征,基于图像重构自监督学习对所述解耦注意根据所述文本数据的Token语义表示特征,基于掩码自回归自监督学习对所述解耦注根据所述图像数据和所述文本数据的跨模态语义表示3语义表示单元,用于将所述单模态数据和所述Pair制和模态信息融合层的网络结构;所述解耦注意力Transformer网络模型将模态内部和模注意力机制进行学习后,生成所述图像数据的Token语义表示特征;文本数据语义表示单其中,所述模态间注意力机制学习跨模态的信息交互述文本数据的不同模态的多个Token,依次经过多层所述模态内注意力机制和多层所述模图文对训练子单元,用于根据所述图像数据和所述文本数据的跨模态语义表示特征,基于跨模态相关性对比学习对所述解耦注意力Transfo4所述存储器存储有可被所述至少一个处理器执行5数据;将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换Transformer网络示单元,用于将所述单模态数据和所述Pair多模态数据输入至解耦注意力变换6[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0017]图7是用来实现本公开实施例的多模态数据联合学习模型训练方法的电子设备的提出了各种多模态数据预训练模型,如ViLBERT(Vision-and-LanguageBidirectionalEncoderRepresentationfromTransformers,视觉-语言-来自转换器的双向编码表示)[0020]由此,本公开的发明人发现针对单模态数据或强关联的图文对数据的预训练模7[0028]S2:将单模态数据和Pair多模态数据输入至解耦注意力变换Transformer网络模[0030]本公开实施例中将单模态数据和Pair多模态数据输入至该解耦注意力[0032]其中,在获得Token语义表示特征和跨模态语义表示特征之后,对解耦注意力Transformer网络模型进行训练,以针对获取的包括单模态数据和Pair多模态数据的多模态数据进行统一建模,使得训练好的模型能够具备同时处理多模态数据的理解和生成任[0033]本公开实施例提供的多模态数据联合学习模型训练方数据和Pair多模态数据输入至解耦注意力变换Transformer网络模型,分别生成语义元素8模态的信息交互,模态信息融合层将不同模态的信息融合起来得到跨模态语义表示特征。[0041]本公开实施例中S20和S21的描述说明可以参见上述实施例中的S9性实施例中,通过将模态内信息表示特征X和模态间信息表示特征Y通过多层非线性转换,[0053]本公开实施例中,通过搜索引擎从互联网上抓取了上亿条不再将预测的Token与掩码的Token进行对比,对解耦注意力Transformer网络模型中的参数[0061]对于图像数据输入的Token和文本数据输入的Token共同输入至解耦注意力Transformer网络模型,在对取出的图像数据输入的Token和进行掩码的文本数据输入的[0063]在一些实施例中,基于跨模态相关性对比学习对解耦注意力Transformer网络模型进行训练,包括:采用相关性排序,基于跨模态相关性对比学习,对解耦注意力[0069]语义表示单元12用于将单模态数据和Pair多模态数据输入至解耦注意力变换[0070]模型训练单元13用于根据Token语义表示特征和跨模态语义表示特征,对解耦注型训练单元13用于根据Token语义表示特征和跨模态语义表示特征,对解耦注意力[0073]如图5所示,本公开实施例提供的一种多模态数据联合学习模型训练装置20,其[0076]图像数据语义表示单元22用于将图像数据拆分成多个Token,经过多层模态内注[0077]文本数据语义表示单元23用于将文本数据拆分成多个Token,经过多层模态内注的不同模态的多个Token,依次经过多层模态内注意力机制和多层模态间注意力机制进行重构自监督学习对解耦注意力Transf[0082]文本训练子单元26用于根据文本数据的Token语义表示特征,基于掩码自回归自[0085]可以理解的是,本实施例附图5中的一种多模态数据联合学习模型训练装置20与[0089]图7是用来实现本公开实施例的多模态数据联合学习模型训练方法的电子设备的因特网的计算机网络和/或各种电信网络与其他设备程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的多模态数据联机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器[0096]用于实施本公开的多模态联合学习模型训练方法的程序代码可以采用一个或多面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国长江三峡集团限公司招聘467人易考易错模拟试题(共500题)试卷后附参考答案
- 2026中国铁路成都局集团招聘全日制普通高校毕业生559人易考易错模拟试题(共500题)试卷后附参考答案
- 2026中国铁路乌鲁木齐局集团限公司招聘1007人(二)易考易错模拟试题(共500题)试卷后附参考答案
- 2026中国邮政集团限公司云南省分公司第一期见习人员招考714人易考易错模拟试题(共500题)试卷后附参考答案
- 2026中国船舶重工集团公司第七二五研究所厦门材料研究院委托招聘司机易考易错模拟试题(共500题)试卷后附参考答案
- 2026中国移动江苏公司社会招聘6078人易考易错模拟试题(共500题)试卷后附参考答案
- 法拉第电磁感应定律课件2026-2027学年高二下学期物理人教版选择性必修第二册
- 2026年咨询工程师考前冲刺试卷及参考答案详解【A卷】
- 2026年设备监理师考前冲刺测试卷及参考答案详解(轻巧夺冠)
- 2026年计算机文化基础能力检测带答案详解(A卷)
- 2026年天津市高三高考二模英语模拟试卷试题(含答案详解)
- 2026中国卵巢上皮性癌维持治疗专家共识解读
- 2026年炊事专业考核真题(培优B卷)附答案详解
- 北京市西城区2026年高三一模英语试卷(含答案)
- 眼科中医诊室工作制度
- 安宁疗护科临终关怀安全质量目标及管理细则2026年
- 2026年中考苏教版生物复习知识点考点背诵提纲
- (正式版)DB50∕T 1915-2025 《电动重型货车大功率充电站建设技术规范》
- GA/T 2332-2025法庭科学纤维检验拉曼光谱法
- 高中教室学生桌椅更换方案
- 肝移植术后感染防控指南(2025版)
评论
0/150
提交评论