CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）

上传人：1*** IP属地：山西上传时间：2026-07-02 格式：DOCX 页数：18 大小：436.50KB 积分：9.6 举报 版权申诉

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）_第2页

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）_第3页

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）_第4页

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）_第5页

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种受阅读策略启发的跨模态视频检索方法涉及一种受阅读策略启发的跨模态视频检索方分支的得到特征分别与文本特征映射到两个不同的混合空间中，在混合空间中进行跨模态匹2(1)采用预先训练的卷积神经网络提取视频模态的初始特征，得到视频的初始特征序(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征，后感知并集(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间，通过混合空间计算视频模态与文本模态之间的相似度来进(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型，最后将视频和文本输入到训步骤(2)具体为：将视频帧特征序列输入到预览分支的双向GRU网络，双向GRU由一个前向(3-1)首先使用精读分支的全连接层对视觉特征序列进行降维，得到降维后的视觉特别映射为一个dk维的键key特征向量K和dv维的值value特征向量V，然后使用query和value)323和W4是可学习的映射矩阵参数；在获得了注意力特征向量之后，利用带有残差和层归一化最后对于多粒度片段特征，并行地对每个粒度执行上述的感知4[0002]随着YouTube和TikTok等视频流媒体平台的日益普及，视频数据出现了爆炸式增求从大量无标签的视频中检索与给定查询语语言的视频检索的重要组成部分。视频表征学习的一种典型方法是首先通过预先训练的CNN模型从视频帧中提取视觉特征，然后通过平均池化或最大池化操作将帧级特征聚合为[0007](1)采用预先训练的卷积神经网络提取视频模态的初始特征，得到视频的初始特征序列；[0009](3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征，后感知[0011](5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空5[0012](6)优化并训练通过步骤(1)至步骤(5)建立的检索模型，最后将视频和文本输入[0016](3-1)首先使用精读分支的全连接层对视觉特征序列进行降维，得到降维后的视k维的键key特征向量K和dv维的值value特征向量V，然后使用query和)6[0035]最后对于多粒度片段特征，并行地对每个粒度执行上述[0043]本发明的一种受阅读策略启发的跨模态视频检索方法采用一个预览分支和一个精读分支共同学习来表示视频，并建立检索模型，与采用基于重型Transformer的模型相7[0050](2)将步骤(1)中得到特征序列输入到预览分支进行编码来获得视频中的视觉概[0051]将步骤(1)中得到的视频帧特征序列输入到双向GRU(bi-GRU)网络中编码来提取m×1024维；然后沿着时间维度对特征向量序列H应用平均池化操[0055](3-1)首先使用全连接层对步骤(1)中得到的视觉特征序列映射到一个低维的特[0060]C=c"ERn*"nevk维的键key特征向量K和dv维的值value特征向量V，然后使用query和)8[0073]最后对于多粒度片段特征，并行地对每个粒度执行上述[0076](4)由于BERT模型在自然语言处理领域取得了巨大的进展，因此本发明使用预训别与文本多级编码特征向量s输入到两个不同的混合空间hybridspace中学习，即预览混[0078]在混合空间中，分别使用一个全连接层将视频文本对映射到一个概念空间conceptspace和一个潜在空间latentspace中，并使用余弦相似度来计算视频文本对的熵损失binarycross-entropyloss和一个三元排序损失marginalrankingloss来进行频文本对的距离，对此使用了一个三元排序损失marginalrankingloss对该空间学习进9[0091]将文本和视频分别映射到预览混合空间和精读混合空间下，都可

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）

文档简介

温馨提示

最新文档

评论

CN114003770B 一种受阅读策略启发的跨模态视频检索方法 （之江实验室）

文档简介

温馨提示

最新文档

评论

相关文档

CN114003770B 一种受阅读策略启发的跨模态视频检索方法（之江实验室）