CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）

上传人：1*** IP属地：山西上传时间：2026-06-19 格式：DOCX 页数：33 大小：999.42KB 积分：9.6 举报 版权申诉

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）_第2页

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）_第3页

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）_第4页

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）_第5页

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于多层注意力机制的跨模态检索模型的本发明公开了一种基于多层注意力机制的各图像文本数据对基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信2在训练阶段，所述特征提取模块用于分别对预采集的图文数据本数据对包括图像模态的数据及其对应的文本模态所述多模态融合模块用于分别对各图像文本数据对，基于多层注所述公共表示模块用于将所述多模态融合模块输入的文本特征和图像特征分别映射量包括图像模态数据的语义表示矢量和文本模态数所述特征提取模块包括第一输入端和第二输入端，图像模态的数据经S2、基于各图像文本数据对的语义标签矢量和语义表S3、通过最小化所述跨模态检索模型的损失函数来对所述跨模态检索模型进行训练，所述多模态融合模块包括多个级联的MCA层以及位于最后一级MCA层之后所述MCA层用于基于协同注意力机制学习文本特征和图像特征之间的全局特征对应关元和第二全连接层；所述第一自注意力单元的输出端与所述第一全连接层的输入端相连；所述协同注意力单元用于基于协同注意力机制提取图像模态和文本模态之间的语义3一自注意力单元的输入端相连；第二全连接层的输出端与下一级MCA层的第二自注意力单对于最后一级的MCA层，其第一全连接层的输出端分别与协同注意力单元的输入端以全连接层的输出端与下一级MCA层的第二自注意力单元的输入对于最后一级的MCA层，其第一全连接层的输出端分别与其前各级的协同注意力单元基于采用权利要求1-3任意一项所述的跨模态检索模型的构建方法构建所得的跨模态过计算目标查询数据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目7.一种机器可读存储介质，其特征在于，实现权利要求1-3任意一项所述的跨模态检索模型的构建方法和/或权利要求4-6任意一项4基于多层注意力机制的跨模态检索模型的构建方法及应用[0006]跨模态检索的主要挑战就是保留不同模态之间的语义信息并且计算不同模态数终表示形式中尽可能的涵盖到每个模态数据本身的语义信息而不丢失重要的语义同样是5[0007](1)基于统计相关性分析的方法。基于统计相关性分析的方法为了消除不同模态[0008](2)基于跨模态哈希的方法。现有的跨模态哈希方法通过学习一个或多个哈希函[0009](3)基于深度学习的方法。基于深度学习的方法能够很好的保留不同语义的样本之间的区别，通过将标签空间和公共表示空间中样本的判别损失最小化来学习判别特征。但是之前的大多数方法都是将图片和文本单独嵌入到一个公共空间来比较它们的相似性，[0015]公共表示模块用于将多模态融合模块输入的文本特征和图像特征分别映射至公括图像模态数据的语义表示矢量和文本模态数据的6[0020]MCA层用于基于协同注意力机制学习文本特征和图像特征之间的全局特征对应关[0025]协同注意力单元用于基于协同注意力机制提取图像模态和文本模态之间的语义输出端与下一级MCA层的第二自注意力单元的[0027]对于最后一级的MCA层，其第一全连接层的输出端分别与协同注意力单元的输入层的第一自注意力单元的输入端相连；第二全连接层的输出端与下一级MCA层的第二自注[0029]对于最后一级的MCA层，其第一全连接层的输出端分别与其前各级的协同注意力[0031]基于采用上述跨模态检索模型的构建方法构建所得的跨模态检索模型将目标查据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目标检索数据与数据7[0034]目标查询数据或数据库中的数据根据其模态采用对应的通道映射到公共表示空使所述处理器实现如上所述的任一种跨模态检索模型的构建方法和/或如上所述的跨模态[0041]4、由于浅层模型的学习能力有限，不能更深层次的捕捉不同模态数据的语义关[0042]图1为本发明实施例1提供的基于多层注意力机制的跨模态检索模型的构建方法8[0047]图6为本发明实施例1提供的基于编码器解码器结构的多模态融合模块的结构示包括图像模态的数据及其对应的文本模态的数据。本实施例的图文数据集包括n个图片文入端输入到跨模态检索模型中，文本模态的数据经第二输入端输入到跨模态检索模型中；特征提取模块包括两个并行的子网络分别对图像模态的数据和文本模态的数据进行特征9结构构造了一个多层双向的encoder网络，能将原始文本直接转为具有语义特征的高层语中英文预训练模型，然后将预处理之后的文本输入到预训练模型中获得特定维度的矢量，最后将生成的多维特征矢量输出到跨模态检索模型中进行多模态融合模块包括多个级联的MCA层以及位于最后一级MCA层之后的降维单元；MCA层用层FF1的输入端相连；第二自注意力单元SA2的输出端与协同注意力单元GA的输入端相连；协同注意力单元GA的输出端与第二全连接层FF2的输入端相连；其中，第一自注意力单元SA1用于基于自注意力机制提取文本模态内部的潜在语义关系，以学习文本特征内细粒度意力机制提取图像模态内部的潜在语义关系，以学习图像特征内细粒度的上下文局部信过第二自注意力单元SA2，接着再输入到协同注意力单元GA中，最后输入到第二全连接层[0064]自注意力机制采用ScaledDot-ProductAttention计算模态内部信息的注意力机瓦,其中dk接的层(包括ReLU和Dropout层)对它们进行进一步转换。前馈层对学习到的注意力进行进[0069]需要说明的是，相比于浅层注意力模型本发明提出的模型需要对MCA进行多层堆[0070]具体地，如图5所示为基于堆叠结构的多模态融合模块的结构示意图(以L＝3为与降维单元的输入端相连。基于堆叠结构的多模态融合模块在每个MCA层中使用与该层对MCA层进行堆叠使模型具备更深层次的推理[0071]如图6所示为基于编码器解码器结构的多模态融合模块的结构示意图(以L＝3为意力单元的输入端相连；第二全连接层的输出端与下一级MCA层的第二自注意力单元的输[0072]两种结构下的多模态融合模块的最大区别在于是否采用最终的文本特征表示形行协同注意力学习能够实现更深层次的语义交[0073]需要说明的是，对一张图或者文本进行全局特征表示也种MCA层结构如图7中的(a)图所示，只是在图像模态中单独使用了一个协同注意力单元GA采用的MCA层结构将图像模态自身的注意力机制也考虑进来，以获取更加丰富的图像特征[0075]公共表示模块用于将多模态融合模块输入的文本特征和图像特征分别映射至公代表Frobenius范数；α和β分别为图像模态的数据和文本模态的数示空间中图文数据集的图像模态的数据的预测表示矩阵，ui为图文数据集中第i个图像模数据的预测表示矩阵，vi为图文数据集中第i个文本模态的数据的语义表示矢量；Lable=S"=sgn(u,,v,),[0090]图像模态和文本模态间的不变性损失L3为所有图像文本数据对的语义表示矢量[0092]本发明通过使标签空间和公共表示空间两者中的判别损失均最小化来监督模型[0095]基于采用实施例1所提供的跨模态检索模型的构建方法构建所得的跨模态检索模目标查询数据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目标检索[0099]S=εSimilarity(x,U')+γSimilarity(x,V')1所述的跨模态检索模型的构建方法和/或实施例2所述

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）

文档简介

温馨提示

最新文档

评论

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用 （华中科技大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用（华中科技大学）