CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）

上传人：1*** IP属地：山西上传时间：2026-04-11 格式：DOCX 页数：32 大小：608.07KB 积分：10.2 举报 版权申诉

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）_第2页

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）_第3页

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）_第4页

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）_第5页

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

WO2024164616A1,2024.08一种基于深度学习的跨模态图像文本检索本发明公开了一种基于深度学习的跨模态特征空间中的语义表示来进行高效的跨模态检像特征提取结合FasterR_CNN与ResNet_101模2所述特征提取阶段，旨在从图像和文本中提取深层次的特征表示，以便所述相关性评分阶段，旨在评估和量化图像特征与文本特征之间的相似所述优化阶段，旨在通过相似度评分和排序损失对模型进行微调所述损失函数的定义与计算，基于TripletLoss原则，通过计算正所述优化阶段还包括快慢模型策略，快模型用于快速筛选出潜在的相关图像或文本，所述文本特征提取模块，旨在从输入文本中提取深层次的语义特征，以所述图像特征提取模块，旨在从输入图像中提取深层次的视觉特征，以3inputs＝tokenizer(text,returntensors＝pt,padding＝True,truncation＝True)其用于后续的模型输入，tokenizer表示用于文本处理的分词器对象，是BERT模型中的一部分，用于将自然语言文本转换为模型可理解的形式，text表示输入的文本列表，return_outputs＝model(inputids＝inputs[inputids],attentionmask＝inputs[attentionmask])其中，model表本的嵌入表示，inputids和attentionmask分别表示编码后的文本的输入ID和注意力掩码，示BERT模型最后一层的输出，包含了每个token的隐藏状态，其维度为(batch_size,s其中，images表示经过预处理的图像张量，detections包含4partsparts所述预分配注意力模块，通过计算图像区域特征与文本特征之间的分用于衡量图像和文本在特征空间中的接近程度，是相关性评分阶段的关键输出，image所述计算相关度评分模块，基于预分配的注意力评分，通过加权差异的所述提取文本与图像共享特征模块，根据相关度评分矩阵F_scores和文本特征张量5所述计算相关度模块，计算文本共享语义特征与图像区域特征之间的相似度i在相关性评分阶段构建相似度矩阵之后，通过compute_loss7.一种电子设备，包括存储器、处理器及任意一项所述的基于深度学习的跨模态图像文理器执行时实现如权利要求1_5中任一项所述的基于深度学习的跨模态图像文本检索方6[0002]随着人工智能和大数据技术的蓬勃发展，多模态数据已成为各行业的关键资能不足以验证跨模态细粒度语义理解的真实模7力(I2TAttention)和文本到图像的注意力(T2IAttention)来捕捉图像中与文本最相关时保障高精度。这一阶段的核心在于利用来自查询图像或文本的数据对模型参数进行微保两种模态的特征能够在一个统一的特征空间中进行比较实际应用中能够快速准确地返回最相关的检8[0014]inputs＝tokenizer(text,returntensors＝pt,padding＝True,truncation=[0017]outputs＝model(inputids＝inputs[inputids]，attentionmask＝inputs[0021]FasterR_CNN用于识别图像中的物体并提供边界框和置信度分数。计算公式如[0028]对于每个选定的边界框，裁剪出相应的图像部分，并使用ResNet101模型提取特9partsparts[0038]所述预分配注意力模块，通过计算图像区域特征与文本通过期望嵌入矩阵和协方差嵌入矩阵的高斯分布表示来保[0049]这里，relevancei表示第i个文本特征与所有图像区域的平均相关度评分，box_[0050]所述优化阶段，旨在通过精细调整模型参数来最小化图像和文本特征之间的差[0056]在所述相关性评分阶段构建相似度矩阵之后，通过compute_loss方法来计算损[0059]最后，我们对损失函数进行反向传播，以更新模型参数。这一步是通过调用明在文本到图像检索的R@1上分别提升了约200％和190在R@5上分别提升了约166％和98在R@10上分别提升了约98％和62％39在R@5上分别提升了约48％和41在R@10上分别提升了约48％和22％。本发明的先保两种模态的特征能够在一个统一的特征空间中进行比较实际应用中能够快速准确地返回最相关的检现了细粒度的跨模态对齐，使得模型能够更准确地识别和匹配图像和文本之间的相关性，[0073]inputs＝tokenizer(text,returntensors＝pt,padding＝True,truncation=[0076]outputs＝model(inputids＝inputs[inputids]，attentionmask＝inputs[0080]FasterR_CNN用于识别图像中的物体并提供边界框和置信度分数。计算公式如[0087]对于每个选定的边界框，裁剪出相应的图像部分，并使用ResNet101模型提取特partsparts[0096]所述预分配注意力模块，通过计算图像区域特征与文本通过期望嵌入矩阵和协方差嵌入矩阵的高斯分布表示来保[0107]这里，relevancei表示第i个文本特征与所有图像区域的平均相关度评分，box_[0108]所述优化阶段，旨在通过精细调整模型参数来最小化图像和文本特征之间的差[0110]在优化阶段，我们首先定义了一个损失函数类Loss，该类继承自PyTorch的[0114]在所述相关性评分阶段构建相似度矩阵之后，通过compute_loss方法来计算损[0117]最后，我们对损失函数进行反向传播，以更新模型参数。这一步是通

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）

文档简介

温馨提示

最新文档

评论

CN119311911B 一种基于深度学习的跨模态图像文本检索方法 （东南大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN119311911B 一种基于深度学习的跨模态图像文本检索方法（东南大学）