CN115935194B 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 (西安电子科技大学)_第1页
CN115935194B 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 (西安电子科技大学)_第2页
CN115935194B 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 (西安电子科技大学)_第3页
CN115935194B 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 (西安电子科技大学)_第4页
CN115935194B 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 (西安电子科技大学)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于共识嵌入空间和相似度的视觉和文本本发明公开了一种视觉和文本跨模态匹配到实例区域的共识局部视觉特征和单词的共识全局视觉特征与共识全局文本特征的全局相似2确定所述输入对象的候选对象;当所述输入对象为文本时通过部署于所述检索平台的预训练匹配模型,确定所述输入对象其中,所述预训练匹配模型是采用样本图像和样本描述文本2.根据权利要求1所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,预训练特征提取模型,用于提取图像的全局视觉特征和每个实例区域的局部视觉特共识确定模块,用于确定描述文本中出现频率满足所述频率阈值的预设单词的词特包含预训练学习参数的匹配模块,用于根据图像中实例区识目标词特征和第二预训练学习参数,通过注意力机制得到实例区域的共识局部视觉特述文本的共识词特征和所述第三预训练学习参数,得到每个描述文本的共识全局文本特33.根据权利要求1或2所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方部署于所述检索平台的预训练匹配模型,确定所述输入对象与每个候选对象之间的相似对于输入图像和任一候选文本,通过所述预训练匹配模型确定所根据单词在候选文本中的出现频率,从所述多个候选文本的单根据预设单词的词特征、出现频率和共现次数,得到每个预设单词对应将所述输入图像的共识局部视觉特征与所述任一候选文本的共识词特征进行特征对根据所述注意力视觉特征与对应的共识词特征,得到多个局部输入图像的共识全局视觉特征与所述任一候选文本的共识全局文本特征,得到全局相似根据所述局部相似性和所述全局相似性,通过自注意力机制得到全述全局输出得到所述输入图像与所述任一候选文本之间的4.根据权利要求3所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,根据第一预训练学习参数,对所述预设单词的词特征和所述关系图进行图卷积处理,5.根据权利要求3所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,46.根据权利要求3所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,7.根据权利要求3所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,gg8.根据权利要求3所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,根据第六预训练学习参数,对所述相似图进行预设次的自注意9.根据权利要求1所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,在所述通过部署于所述检索平台的预训练匹配模型,确定所述5在当前次训练时,采用预处理模块确定每个样本图像的实采用所述预训练特征提取模型提取每个样本图像的全局视觉特征、采用所述共识确定模块从样本单词中选择多个出现频率满足所述频率阈值的单词作采用所述匹配模块,根据每个样本图像中实例区域的局部视觉特征、所述根据各个样本图像与各个样本文本之间的相似度,以及各个样基于更新后的学习参数进行下一次训练,直至在得到的损失值满足预设10.根据权利要求2或9所述的基于共识嵌入空间和相似度的视觉和文本跨模态匹配方6向上的注意力机制来进一步提高模型的性能,通过FasterR一CNN提取局部实例的视觉特庞大的视觉和文本特征提取网络(均为Transforme7[0007](2)使用简单的点积来表示两种模态的嵌入特征的相似性,没有有效的利用高效[0009]本发明提供一种基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法,包[0015]预训练匹配模型可以根据描述文本中出现频率满足频率阈值的预设单词的词特8可以使用可学习相似性表示及基于自注意力机制的相似度推理来充分表征图像中的实例[0017]图1为本发明实施例提供的基于共识嵌入空间和相似度的视觉和文本跨模态匹配[0020]图3为本发明实施例提供的预训练匹配模型确定一个图像与一个文本之间的相似[0025]图1是本发明实施例提供的基于共识嵌入空间和相似度的视觉和文本跨模态匹配9以根据相似度从所有候选对象中筛选出相似度满足预设相似度阈值或选出相似度最高的中的通过部署于检索平台的预训练匹配模型,确定输入对象与每个候选对象之间的相似度为L的候选文本划分为L个单词。例如,预处理模块rcnn模型)和分词器。之后,可以通过预训练特征提取模型提取该输入图像的全局视觉特[0038]示例性的,预训练特征提取模型可以是预训练的CLIP(ContrastiveLanguage_ImagePre_Training)模型,可以将实例区域和该输入图像分别输入该CLIP模型的视觉分词中选择多个出现频率满足频率阈值的单词作为预设单词,并确定每个预设单词的词特ij表示缩放处理后当节点j出现时节点i出现的概率。当Gij等于0时表示节点j与节点i第l层的图卷积处理的原理可以采用公式(3[0055]通过引入自注意力,可以得到更好的局部的视觉特征和[0056]S1035、以输入图像的全局视觉特征和该任一候选文本的全局文本特征分别为查以通过公式(5)计算得到输入图像的共识全局视觉特征;该任一候选文本的共识全局文本[0061]通过引入自注意力,可以得到更好的全局的视觉特征和[0062]S1036、将输入图像的共识局部视觉特征与该任一候选文本的共识词特征进行特据输入图像的共识全局视觉特征与该任一候选文本的共识全局文本特征,得到全局相似a;表示注意力视觉特征,tj表示对应的共识词特征,|.|2表示元素的平方gg全局输出得到输入图像与任一候选文本之间时使用的第六预训练学习参数与上次相同),s,"为sp对应的第n+1次的计算结果(第n+1的[0081]图3为预训练匹配模型确定一个图像与一个文本之间的相似度的过程示意图,如图3所示,预训练匹配模型首先确定出图像的各个实例区域,以及确定出文本中的各个单本中的共现次数;每个样本单词的出现频率为该样本单词在多个样本文本中的出现总次以通过最大化正样本对之间的相似度得分,最小化负样本对的相似度得分来更新模型参卷积网络和包含第一预训练学习参数至第七预训练学习参数的匹配模块共同组成的模型,[0101]在MSCOCO和Flickr30K数据集上评估了本发明的模型。这两个数据集的图像是普[0108]从表1可以看出,相较于直接使用CL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论