CN119295779B 一种文本到图像跨模态行人重识别方法及系统 (济南大学)_第1页
CN119295779B 一种文本到图像跨模态行人重识别方法及系统 (济南大学)_第2页
CN119295779B 一种文本到图像跨模态行人重识别方法及系统 (济南大学)_第3页
CN119295779B 一种文本到图像跨模态行人重识别方法及系统 (济南大学)_第4页
CN119295779B 一种文本到图像跨模态行人重识别方法及系统 (济南大学)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种文本到图像跨模态行人重识别方法及本发明提供了一种文本到图像跨模态行人2对于所述文本描述及图像库,分别利用预先训练的图像和文本特基于获得的文本特征和图像库中图像样本图像特征,通过相似度述文本到图像的全局匹配损失表示文本到图像的匹配概率与真实匹配概率的K单词的预测概率;m,"表示第w个token为3获得的图像注意力图和文本注意力图进行特征提取,获得图像局部特征和文本局部特征,特征提取单元,其用于对于所述文本描述及图像库,分行人重识别单元,其用于基于获得的文本特征和图像库中图像样本图像特征于,所述处理器执行所述程序时实现如权利要求1_7任一项所述的一种文本到图像跨模态处理器执行时实现如权利要求1_7任一项所述的一种文本到图像跨模态行人4[0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技[0003]文本到图像行人重识别(TIReID)是一种跨模态检索任务,旨在根据给定的文本[0006]本发明提供了一种文本到图像跨模态行人重识别方法及系统,以解决现有方法描述的多样性,图像和文本描述之间存在的冗余信息导致局部特征之间没有较好的关联[0007]根据本发明实施例的第一个方面,提供了一种文本到图像跨模态行人重识别方5交叉编码器包括一个多头交叉注意力层和若干标准T真实单词的预测概率;m,"表示第w个token为第[0021]根据本发明实施例的第二个方面,提供了一种文本到图像跨模态行人重识别系6通过提出的整体优化损失,有效解决了由不同文本描述导致的全局匹配关系不一致问题,7[0039]步骤2:对于所述文本描述及图像库,分别利用预先训练的图像和文本特征编码[0045](1)CLIP作为一种视觉语言的预训练模型,已经具备大量的关于图文匹配的先验[0046](2)CLIP的参数量相对一些其他的视觉语言模型比如ALBEF、BLIP来说是比较小8[0055]在一个或多个实施方式中,可通过BPE算法进行分词,随机掩码的概率可设置为[0060]其中,L2,表示图像到文本的全局匹配损失;表示文表示第i张图像与第j段文本特征之间的匹配9[0076]在一个或多个实施方式中,所述图像和文本的局部特征和所对应的选取方[0083]其中,m表示控制正负样本间隔的超参数;表示对于va最难的文本局部特[0085]其中,所述第i张图像的局部特征va所对应的最难负例文本局部特征选取方法包括:首先计算第i张图像局部特征vi与所有文本局部特征tlocal间的余弦相似度,ti之外的相似度[0088]其中,R,=sofimax(FC())和p=softmax(FC(i)表示对于真实身份的预测i和i表示正则化的图像和文本的全局特征。[0092]L=Ln真实单词的预测概率;m,"表示第w个token为第匹配图像的正确搜索率达到74.03平均精度达到66.[0111]本领域普通技术人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论