版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利69号公司32224GO6V2一种基于人脑情景记忆通路启发的文本视本发明公开了一种基于人脑情景记忆通路码组件对目标文本数据或目标视频数据进行内组件对目标文本数据或目标视频数据进行情境标令牌输入至双曲图神经网络获得目标场景表似度对待检索文本或视频进行筛选获得目标检将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征;通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;将短语输入至第二内容编码组件获得文本语义单元表征:通过K均值算法将视觉全局表征分割为视觉语义单元表征;将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征;将视频训练数据以及文本训练数据与词矩阵掩码分别输入至情境编码组件获得文本令牌表征和视觉令牌表征将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵;将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征;根据各场景表征计算训练损失值;根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型;获得目标文本数据或目标视频数据并输入至文本视频检索模型获得目标索引;计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛选获得目标检索结果;21.一种基于人脑情景记忆通路启发的文本视频检索方法,其特征在于,包括:获得目标文本数据或目标视频数据并输入至文本视频检索模型,所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;利用内容编码组件对目标文本数据或目标视频数据进行内容表征提取获得多尺度目标文本表征或多尺度目标视觉表征;利用情境编码组件对目标文本数据或目标视频数据进行情境表征提取获得目标文本令牌或目标视觉令牌;将多尺度目标文本表征和目标文本令牌输入至双曲图神经网络获得目标文本场景表征;或者将多尺度目标视觉表征和目标视觉令牌输入至双曲图神经网络获得目标视觉场景表征;将目标文本场景表征或目标视觉场景表征作为目标索引;计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛选获得目标检索结果;所述文本视频检索模型的训练过程包括:获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文本事件表征、文本语义单元表征、视觉事件表征和视觉语义单元表征;将视频训练数据以及文本训练数据与单词矩阵掩码分别输入至情境编码组件获得文本令牌表征和视觉令牌表征;将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征、视觉令牌表征、文本场景表征和视觉场景表征计算训练损失值;根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型。2.根据权利要求1所述的文本视频检索方法,其特征在于,所述内容编码组件包括第一内容编码组件、第二内容编码组件和第三内容编码组件;所述获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征;通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;将短语输入至第二内容编码组件获得文本语义单元表征;通过K均值算法将视觉全局表征分割为视觉语义单元表征;将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征。3.根据权利要求2所述的文本视频检索方法,其特征在于,所述第一内容编码组件包括卷积神经网络、全局视觉编码器和全局文本编码器;将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉3通过卷积神经网络由视频训练数据中提取图像块序列;将图像块序列进行层归一化处理后输入至所述全局视觉编码器内的多头注意力层获得全局视觉提取特征,将全局视觉提取特征与图像块序列拼接后的全局视觉融合特征,将全局视觉融合特征进行层归一化处理后输入至所述全局视觉编码器内的多层感知机获得全局视觉感知特征;将全局视觉感知特征与全局视觉融合特征拼接获得视觉全局表征;将文本训练数据进行层归一化处理后输入至所述全局文本编码器内的多头注意力层获得全局本文提取特征,将全局本文提取特征与文本训练数据拼接后的全局文本融合特征,将全局文本融合特征进行层归一化处理后输入至所述全局文本编码器内的多层感知机获得全局文本感知特征;将全局文本感知特征与全局文本融合特征拼接获得文本全局表4.根据权利要求2所述的文本视频检索方法,其特征在于,所述第三内容编码组件包括事件视觉编码器和事件文本编码器;将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征,具体包括:将视觉语义单元表征进行层归一化处理后输入至所述事件视觉编码器内的多头注意力层获得视觉事件提取特征,对视觉事件提取特征进行层归一化处理后输入至所述事件视觉编码器内的多层感知机获得视觉事件感知特征;对视觉全局表征进行平均池化处理后,与视觉事件感知特征以及视觉事件提取特征拼接获得视觉事件表征;将文本语义单元表征进行层归一化处理后输入至所述事件文本编码器内的多头注意力层获得文本事件提取特征,对文本事件提取特征进行层归一化处理后输入至所述事件文本编码器内的多层感知机获得文本事件感知特征;对文本全局表征添加分类标记后,与文本事件感知特征以及文本事件提取特征拼接获得文本事件表征。5.根据权利要求1所述的文本视频检索方法,其特征在于,所述情境编码组件包括情境视觉编码器;将视频训练数据输入至情境编码组件获得视觉令牌,具体包括:将视频训练数据输入至情境视觉编码器,对视频训练数据进行层归一化处理后获得视觉标准数据,对视觉标准数据添加分类标签获得视觉初始令牌;将视觉初始令牌顺着视频帧序列的方向前后移动捕获细粒度的时序信息,并输入至情境视觉编码器内的多头注意力层获得视觉提取令牌,将视觉提取令牌与视觉初始令牌拼接获得视觉融合令牌;将视觉融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第一视觉感知令牌;将第一视觉感知令牌与视觉融合令牌拼接获得视觉细化令将视觉细化令牌输入至令牌选择层内的多层感知机,将视觉细化令牌压缩至设定比例获得第一视觉压缩令牌;对第一视觉压缩令牌添加分类标记后再次输入至令牌选择层内的多层感知机获得第二视觉压缩令牌;对第二视觉压缩令牌进行Softmax函数计算获得重要性评分,然后根据重要性评分选4择每个视频帧中前K个视觉细化令牌作为视觉关键令牌;将视觉关键令牌进行层归一化后,并输入至情境视觉编码器内的多头注意力层获得视觉关键细化令牌,将视觉关键细化令牌与视觉关键令牌拼接获得视觉关键融合令牌;将视觉关键融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第二视觉感知令牌,然后将第二视觉感知令牌与视觉关键融合令牌拼接获得视觉令牌。6.根据权利要求1所述的文本视频检索方法,其特征在于,所述情境编码组件包括第一神经网络架构和第二神经网络架构;将文本训练数据和单词矩阵掩码输入至情境编码组件获得文本令牌,具体包括:将文本训练数据输入至第一神经网络架构,对文本训练数据进行层归一化处理后输入至第一神经网络架构内的多头注意力层获得第一文本提取令牌,将第一文本提取令牌与文本训练数据拼接获得第一文本融合令牌;将第一文本融合令牌进行层归一化处理后输入至第一神经网络架构内的多层感知机获得第一文本感知令牌;将第一文本感知令牌与第一文本融合令牌拼接获得文本细化令牌;将文本细化令牌输入至第二神经网络架构,对文本细化令牌进行层归一化处理获得文本标准化令牌,将文本标准化令牌和单词矩阵掩码输入至第二神经网络架构内的多头注意力层获得第二文本提取令牌,将第二文本提取令牌与文本细化令牌拼接获得第二文本融合令牌;将第二文本融合令牌进行层归一化处理后输入至第二神经网络架构内的多层感知机获得第二文本感知令牌,将第二文本感知令牌与第二文本融合令牌拼接获得文本令牌。7.根据权利要求1所述的文本视频检索方法,其特征在于,将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,具体包括:将视觉事件表征和文本事件表征映射至双曲空间中第一级别粒度的节点特征;将视觉语义单元表征和文本语义单元表征映射至双曲空间中第二级别粒度的节点特征;将视觉令牌表征和文本令牌表征映射至双曲空间中第三级别粒度的节点特征;将相同级别粒度的节点相互连接,将第二级别粒度的各个节点特征与所有第一级别粒度的节点特征建立连接;根据语义从属关系在第二级别粒度的节点特征与第三级别粒度的节点特征之间建立连接;当第1个节点特征与第j个节点特征之间存在连接时,连接边Aij=1;否则,连接边Aij=0;根据各节点特征之间的连接关系建立邻接矩阵A。8.根据权利要求7所述的文本视频检索方法,其特征在于,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征,具体包括:对节点特征进行特征转变捕获双曲空间隐藏表征,计算公式为:5至双曲空间的表征映射函数;u!-1,H表示第l-1层的第i个节点特征的欧几里得空间隐藏数,CL-1表示双曲空间中第l-1层的曲率,x!-1,H为双曲空间中第l-1层的第i个节点其中,y:表示第L层的第i个节点特征的双曲空间聚合表征,AGG+()为节点信息之间的聚合权重,[;]表示张量拼接操作,W是可学习矩阵特征的双曲空间隐藏表征;d。(h;",h;")为双曲空间隐藏表征h;与双曲空间隐藏表征 其中,z.表示第L层的第i个节点的双曲空间表征;σ()为双曲图神经网络的激活函6根据文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征、视觉令牌表征、文本场景表征和视觉场景表征分别计算获得事件检索损失、单元表征检索损失、令牌检索损失以及场景检索损失;对各级别粒度的节点特征之间添加父子关系,计算双曲空间的层级结构损失,表达公式为:亲节点的双曲表征,表示视觉父亲节点的双曲表征,为双曲表征至双曲表征1之间的距离损失;为双曲表征1与双曲表征1之间的距离损失;E表示存在父子关系的节点特征集合,N(p)表示与第P个节点特征不存在父子关系的节点集合;为双曲表征1至双曲表征1之间的位置损失;为双曲表征1与双曲表征1之间的位子节点的序号;P为文本父亲节点或视觉父亲节点的序号;距离损失)、位置损失和位置损失计算训练损失值。7技术领域[0001]本发明属于网络模型分析技术领域,具体涉及多粒度信息融合的文本视频检索方背景技术[0002]随着互联网的快速发展,多模态数据(如文本、图像、视频等)的数量呈爆炸式增长。如何从海量的多模态数据中高效、准确地检索到用户所需的信息,成为了一个重要的研究方向。其中,文本视频检索任务尤为具有挑战性,因为它需要同时处理文本和视频这两种高度异构的数据模态。[0003]多模态数据检索是一种涉及多种媒体模态(如文本、图像、音频、视频等)的信息检索方法。当前的多模态检索技术主要通过深度学习模型将数据转换为向量表示以及模态融合提取共同特征,并通过相似度度量排序检索结果。然而,现有方法在跨模态对齐过程中往往只能处理粗粒度或细粒度的信息,无法实现多粒度的对齐,导致跨模态对齐不充分。同时,视频数据具有高维度和高冗余的特点,现有方法在处理视频数据时往往需要大量的计算资源,无法在保证检索精度的同时提高检索效率。发明内容[0004]本发明提供了一种基于人脑情景记忆通路启发的文本视频检索方法,通过多粒度信息融合全面捕捉文本和视频中的多层次语义特征,通过双曲图卷积操作融合多模态、多粒度的高阶信息,能够更好地捕捉文本和视频之间的复杂关系,显著提升了文本视频检索的精度与效率。[0005]为达到上述目的,本发明所采用的技术方案是:[0006]本发明第一方面提供了一种基于人脑情景记忆通路启发的文本视频检索方法,包[0007]获得目标文本数据或目标视频数据并输入至文本视频检索模型,所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;[0008]利用内容编码组件对目标文本数据或目标视频数据进行内容表征提取获得多尺度目标文本表征或多尺度目标视觉表征;[0009]利用情境编码组件对目标文本数据或目标视频数据进行情境表征提取获得目标文本令牌或目标视觉令牌;[0010]将多尺度目标文本表征和目标文本令牌输入至双曲图神经网络获得目标文本场景表征;或者将多尺度目标视觉表征和目标视觉令牌输入至双曲图神经网络获得目标视觉场景表征;将目标文本场景表征或目标视觉场景表征作为目标索引;[0011]计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛选获得目标检索结果。[0012]进一步的,所述文本视频检索模型的训练过程包括:8[0013]获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文本事件表征、文本语义单元表征、视觉事件表征和视觉语义单元表征;[0014]将视频训练数据以及文本训练数据与单词矩阵掩码分别输入至情境编码组件获得文本令牌表征和视觉令牌表征;[0015]将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征、视觉令牌表征、文本场景表征和视觉场景表征计算训练损失值;根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型。[0016]进一步的,获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩[0017]所述内容编码组件包括第一内容编码组件、第二内容编码组件和第三内容编码组[0018]将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征;[0019]通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;将短语输入至第二内容编码组件获得文本语义单元表征;[0020]通过K均值算法将视觉全局表征分割为视觉语义单元表征;[0021]将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征。[0022]进一步的,将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征,具体包括:[0023]所述第三内容编码组件包括事件视觉编码器和事件文本编码器;[0024]将视觉语义单元表征进行层归一化处理后输入至所述事件视觉编码器内的多头注意力层获得视觉事件提取特征,对视觉事件提取特征进行层归一化处理后输入至所述事件视觉编码器内的多层感知机获得视觉事件感知特征;[0025]对视觉全局表征进行平均池化处理后,与视觉事件感知特征以及视觉事件提取特征拼接获得视觉事件表征;[0026]将文本语义单元表征进行层归一化处理后输入至所述事件文本编码器内的多头注意力层获得文本事件提取特征,对文本事件提取特征进行层归一化处理后输入至所述事件文本编码器内的多层感知机获得文本事件感知特征;[0027]对文本全局表征添加分类标记后,与文本事件感知特征以及文本事件提取特征拼接获得文本事件表征。[0029]所述情境编码组件包括情境视觉编码器;将视频训练数据输入至情境视觉编码器,对视频训练数据进行层归一化处理后获得视觉标准数据,对视觉标准数据添加分类标签获得视觉初始令牌;9多头注意力层获得视觉提取令牌,将视觉提取令牌与视觉初始令牌拼接获得视觉融合令得视觉关键细化令牌,将视觉关键细化令牌与视觉关键令牌拼接获得视觉关键融合令牌;将视觉关键融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第[0033]进一步的,通过情境视觉编码器内的令牌选择层对视觉细化令牌进行重要性评[0035]对第一视觉压缩令牌添加分类标记后再次输入至令牌选择层内的多层感知机获[0036]对第二视觉压缩令牌进行Softmax函数计算获得重要性评分,然后根据重要性评[0037]进一步的,将文本训练数据和单词矩阵掩码输入至情境编码组件获得文本令牌,融合令牌;将第二文本融合令牌进行层归一化处理知机获得第二文本感知令牌,将第二文本感知令牌与第二文本融合令牌拼接获得文本令空间至双曲空间的表征映射函数;u!-1,H表示第l-习参数,CL-1表示双曲空间中第l-1[0058]对双曲空间表征进行池化操作获得文本场景达公式为:觉孩子节点的序号;P为文本父亲节点或视觉父亲节点的序号;[0064]根据事件检索损失、单元表征检索损失、令牌检索损失、场景检索损失、距离损失[0066]本发明中利用内容编码组件对目标文本数据或目标视频数据进行内容表征提取获得多尺度目标文本表征或多尺度目标视觉表征;利用情境编码组件对目标文本数据或目标视频数据进行情境表征提取获得目标文本令牌或目标视觉令牌;通过多粒度信息融合全面捕捉文本和视频中的多层次语义特征,显著提升了文本视频检索的精度。[0067]本发明中将多尺度目标文本表征和目标文本令牌输入至双曲图神经网络获得目标文本场景表征;或者将多尺度目标视觉表征和目标视觉令牌输入至双曲图神经网络获得目标视觉场景表征;将目标文本场景表征或目标视觉场景表征作为目标索引;通过双曲图卷积操作融合多模态、多粒度的高阶信息,能够更好地捕捉文本和视频之间的复杂关系,增强了模型的鲁棒性和泛化能力。附图说明[0068]图1是本发明实施例1提供的一种基于人脑情景记忆通路启发的文本视频检索方法的流程图;[0069]图2是本发明实施例2提供的第一内容编码组件的结构图;[0070]图3是本发明实施例2提供的第三内容编码组件的结构图[0071]图4是本发明实施例2提供的情境视觉编码器的结构图;[0072]图5是本发明实施例2提供的情境文本编码器的结构图;[0073]图6是本发明实施例2提供的双曲图卷积神经网络的结构图;[0074]图7是本发明实施例2提供的庞加莱圆盘的示意图。具体实施方式[0075]下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。[0076]类脑计算是人工智能领域的一个新兴研究方向,核心在于借鉴生物神经系统的信息处理模式或结构,进而构建相应的计算理论、芯片体系结构以及应用模型与算法。近年来认知科学对人脑情景记忆通路的研究有客观的进展,人脑情景记忆通路将外部感知信号分解为多种粒度的信息然后融合成复杂场景表征,与人工智能领域对文本视频传统的编码、对齐和检索方式有着一定的区别,为文本视频检索任务的模型设计提供了新的参考。[0077]在基于人脑情景记忆通路启发下,本发明通过多粒度信息融合全面捕捉文本和视频中的多层次语义特征,通过双曲图卷积操作融合多模态、多粒度的高阶信息,能够更好地捕捉文本和视频之间的复杂关系,显著提升了文本视频检索的精度与效率。[0079]如图1所示,本实施提供了一种基于人脑情景记忆通路启发的文本视频检索方法,[0080]获得目标文本数据或目标视频数据并输入至文本视频检索模型获得目标索引;计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛[0081]获得目标文本数据或目标视频数据并输入至文本视频检索模型,所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;[0082]利用内容编码组件对目标文本数据或目标视频数据进行内容表征提取获得多尺度目标文本表征或多尺度目标视觉表征;多尺度目标文本表征包括目标文本事件表征、目标文本全局表征和目标文本语义单元表征;多尺度目标视觉表征包括目标视觉事件表征、目标视觉全局表征和目标视觉语义单元表征。[0083]利用情境编码组件对目标文本数据或目标视频数据进行情境表征提取获得目标文本令牌或目标视觉令牌;[0084]将多尺度目标文本表征和目标文本令牌输入至双曲图神经网络获得目标文本场景表征;或者将多尺度目标视觉表征和目标视觉令牌输入至双曲图神经网络获得目标视觉场景表征;将目标文本场景表征或目标视觉场景表征作为目标索引;[0085]计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛选获得目标检索结果。所述目标检索结果包括相关视频和相关文本;即为根据目标文本数据进行检索获得相关视频;根据目标视频数据进行检索获得相关文本。[0086]所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;所述文本视频检索模型的训练过程包括:[0087]获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文[0088]所述内容编码组件包括第一内容编码组件、第二内容编码组件和第三内容编码组[0089]将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征;[0090]通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;将短语输入至第二内容编码组件获得文本语义单元表征;[0091]通过K均值算法将视觉全局表征分割为视觉语义单元表征;[0092]将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征。[0093]将视频训练数据以及文本训练数据与单词矩阵掩码分别输入至情境编码组件获得文本令牌表征和视觉令牌表征;[0094]将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征、视觉令牌表征、文本场景表征和视觉场景表征计算训练损失值;根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型。[0095]实施例2[0096]如图2至图5所示,本实施提供了一种基于人脑情景记忆通路启发的文本视频检索[0097]所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;所述文本视频检索模型的训练过程包括:[0098]获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征;所述内容编码组件包括第一内容编码组件、第二内容编码组件和第三内容编码组件;本实施例中第一内容编码组件、第二内容编码组件和第三内容编码组件为ContentCLIP(内容对比语言-图像预训练模型);[0099]将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和[0100]如图2所示,所述第一内容编码组件包括卷积神经网络、全局视觉和全局文本编码[0101]通过卷积神经网络由视频训练数据中提取图像块序列;将图像块序列进行层归一化处理后输入至所述全局视觉编码器内的多头注意力层获得全局视觉提取特征,将全局视觉提取特征与图像块序列拼接后的全局视觉融合特征,将全局视觉融合特征进行层归一化处理后输入至所述全局视觉编码器内的多层感知机获得全局视觉感知特征;将全局视觉感知特征与全局视觉融合特征拼接获得视觉全局表征;[0102]将文本训练数据进行层归一化处理后输入至所述全局文本编码器内的多头注意力层获得全局本文提取特征,将全局本文提取特征与文本训练数据拼接后的全局文本融合特征,将全局文本融合特征进行层归一化处理后输入至所述全局文本编码器内的多层感知机获得全局文本感知特征;将全局文本感知特征与全局文本融合特征拼接获得文本全局表[0103]通过K均值算法将视觉全局表征转化为视觉语义单元表征;通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;将短语输入至第二内容编码组件获得文本语义单元表征;所述第二内容编码组件包括单元文本编码器;所述单元文本编码器内配置有多层感知机和多头注意力层。[0104]将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征,具体包括:[0105]所述第三内容编码组件包括事件视觉编码器和事件文本编码器;[0106]将视觉语义单元表征进行层归一化处理后输入至所述事件视觉编码器内的多头注意力层获得视觉事件提取特征,对视觉事件提取特征进行层归一化处理后输入至所述事件视觉编码器内的多层感知机获得视觉事件感知特征;[0107]对视觉全局表征进行平均池化处理后,与视觉事件感知特征以及视觉事件提取特征拼接获得视觉事件表征;[0108]将文本语义单元表征进行层归一化处理后输入至所述事件文本编码器内的多头注意力层获得文本事件提取特征,对文本事件提取特征进行层归一化处理后输入至所述事件文本编码器内的多层感知机获得文本事件感知特征;[0109]对文本全局表征添加分类标记后,与文本事件感知特征以及文本事件提取特征拼接获得文本事件表征。[0110]所述情境编码组件包括情境视觉编码器和情境文本编码器;情境视觉编码器和情境文本编码器为ContextCLIP(上下文对比语言图像模型)。[0111]将视频训练数据输入至情境视觉编码器获得视觉令牌,具体包括:[0112]将视频训练数据输入至情境视觉编码器,对视频训练数据进行层归一化处理后获得视觉标准数据,对视觉标准数据添加分类标签获得视觉初始令牌;[0113]将视觉初始令牌顺着视频帧序列的方向前后移动,并输入至情境视觉编码器内的多头注意力层获得视觉提取令牌,将视觉提取令牌与视觉初始令牌拼接获得视觉融合令牌;将视觉融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第一视觉感知令牌;将第一视觉感知令牌与视觉融合令牌拼接获得视觉细化令牌;[0114]将视觉细化令牌输入至情境视觉编码器内的令牌选择层,通过令牌选择层内的多层感知机将视觉细化令牌压缩至设定比例获得第一视觉压缩令牌;对视觉压缩令牌添加分类标记后再次输入至令牌选择层内的多层感知机获得第二视觉压缩令牌;对第二视觉压缩令牌进行Softmax函数计算获得重要性评分,然后根据重要性评分选择每个视频帧中前K个视觉细化令牌(TopK)作为视觉关键令牌;[0115]将视觉关键令牌进行层归一化后,并输入至情境视觉编码器内的多头注意力层获得视觉关键细化令牌,将视觉关键细化令牌与视觉关键令牌拼接获得视觉关键融合令牌;将视觉关键融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第二视觉感知令牌,然后将第二视觉感知令牌与视觉关键融合令牌拼接获得视觉令牌。[0116]将文本训练数据和单词矩阵掩码输入至情境文本编码器获得文本令牌,具体包[0117]所述情境文本编码器包括第一神经网络架构和第二神经网络架构;第一神经网络架构和第二神经网络架构为Transformer神经网络架构;[0118]将文本训练数据输入至第一神经网络架构,对文本训练数据进行层归一化处理后输入至第一神经网络架构内的多头注意力层获得第一文本提取令牌,将第一文本提取令牌与文本训练数据拼接获得第一文本融合令牌;将第一文本融合令牌进行层归一化处理后输入至第一神经网络架构内的多层感知机获得第一文本感知令牌;将第一文本感知令牌与第一文本融合令牌拼接获得文本细化令牌;[0119]将文本细化令牌输入至第二神经网络架构,对文本细化令牌进行层归一化处理获得文本标准化令牌,将文本标准化令牌和单词矩阵掩码输入至第二神经网络架构内的多头注意力层获得第二文本提取令牌,将第二文本提取令牌与文本细化令牌拼接获得第二文本融合令牌;将第二文本融合令牌进行层归一化处理后输入至第二神经网络架构内的多层感知机获得第二文本感知令牌,将第二文本感知令牌与第二文本融合令牌拼接获得文本令[0120]将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,具体包括:[0121]如图7所示,本实施例中双曲空间利用庞加莱圆盘表示,空间以原点为中心,向外空间容量呈指数级增长。[0122]将视觉事件表征和文本事件表征映射至双曲空间中第一级别粒度的节点特征;将[0129]其中,h;表示第L层的第i个节点特征的双曲空间至双曲空间的表征映射函数;u!-1,H表示第l-1层的第i个节点特征的欧几里得空间习参数,CL-1表示双曲空间中第l-1信息聚合函数;Ni表示第i个节点特征的邻居节点特征之间的聚合权重,[;]表示张量拼接操作,W是可学习矩阵;表示第l层的第j个与双曲空间隐藏表[0137]其中,z;表示第L层的第i个节点的双曲空间表征;σ()为双曲图神经网络的激件表征至视觉事件表征的检索损失;为视觉事件表征至文本事件表征的检索损失;Sgis为文本事件表征和视觉事件表征的正样本相似度;,为由文本事件表征检索视觉单元至视觉语义单元的检索损失;为文本语义单元与视觉语义单元的正样本相似单元检索文本语义单元的负样本相似度。[0147]公式中,为文本令牌至视觉令牌的检索损失;为视觉令牌至文本令牌的检索损失;为文本令牌和视觉令牌的正样本相似度;为由文本令牌检索视觉至文本场景表征的检索损失;为视觉场景表征和文本场景表征的的正样本相似度;本父亲节点的双曲表征,表示视觉父亲节点的双曲表征,为双曲表征1至双曲表子关系的节点特征集合,N(p)表示与第P个节点特征不存在父子关系的节点集合;为双曲表征至双曲表征之间的位置损失;为双曲表征1与双曲表征:觉孩子节点的序号;P为文本父亲节点或视觉父亲节点的序号;[0154]根据事件检索损失、语义单元检索损失、令牌检索损失、场景检索损失、距离损失[0155]根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型。[0156]在推理阶段,本实施例采用了二阶段检索策略。首先,仅启动内容编码组件,将目标文本数据或目标视频数据输入至内容编码组件提取语义单元表征与事件表征;将语义单元表征与事件表征作为目标索引,在视频数据库中快速筛选出候选集;[0157]将候选集中待检索文本或视频送入再次文本视频检索模型,计算候选集中的待检索文本或视频与目标索引的相似度,根据相似度对候选集中待检索文本或视频进行筛选获得目标检索结果并重新排序;本实施例不仅保证了检索精度又保证了模型效率。[0158]本领域内的技术人员应明白,本申请的实施例可提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学工学(建筑材料)试题及答案
- 2025年中职生态环境数智化监测技术(数据处理基础)试题及答案
- 2025年大学心理健康(职业规划)试题及答案
- 2025年高职(农业水利工程)节水灌溉技术试题及答案
- 2025年大学轨道交通信号与控制(系统设计)期末试题
- 2025年大学大四(水利水电工程)水利水电综合试题及答案
- 2025年中职应用黑山语(日常黑语交流)试题及答案
- 2025年大学水利水电工程(水利工程监理)试题及答案
- 2025年高职摄影摄像技术(商业摄影)试题及答案
- 2025年中职服装工艺(工艺优化)试题及答案
- YS/T 254.5-2011铍精矿、绿柱石化学分析方法第5部分:氟量的测定离子选择电极法
- GB/T 39532-2020能源绩效测量和验证指南
- GB/T 30475.3-2017压缩空气过滤器试验方法第3部分:颗粒
- GB/T 22512.2-2008石油天然气工业旋转钻井设备第2部分:旋转台肩式螺纹连接的加工与测量
- GB/T 20659-2017石油天然气工业铝合金钻杆
- 内毒素和其去除
- 能源科学概论
- 成都市建筑消防设施及电气防火检测规范DB510100T
- 企业内部控制规范解读-有案例分析财政部会计司
- 精编自考汉语言文学《中国古代文学史一》历年试题与答案
- 《药品经营质量管理规范现场检查指导原则》第二版培训课件
评论
0/150
提交评论