CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）

上传人：a*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：65 大小：595.75KB 积分：10.8 举报 版权申诉

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）_第2页

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）_第3页

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）_第4页

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩60页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利科技中一路腾讯大厦35层所(普通合伙)44300专利代理师李汉亮介质获取用于检索目标内容的待检索内容当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到多个模态对应的模态特征↓分别对每一模态对应的模态特征进行特征提取，得到每一模态对应的模态内容特征将模态内容特征进行融合，得到视频内容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容2获取用于检索目标内容的待检索内容；当所述待检索内容为视频内容时，对所述视频内容进行多模态特征提取，得到每一模态的模态特征，所述模态特征为所述视频内容中每一模态对应的特征信息，所述视频内容分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，所述模态内容特征为每一模态内容的总体特征，用于指示每一模态下的内容特征；将所述模态内容特征进行融合，得到所述视频内容的视频特征，并根据所述视频特征，在预设内容集合中检索出所述视频内容对应的目标文本内容；采用训练后内容检索模型对所述视频内容进行多模态特征提取，得到所述视频内容中每一模态的初始模态特征；在所述视频内容中提取出视频帧，并采用所述训练后内容检索模型对所述视频帧进行多模态特征提取，得到每一视频帧的基础模态特征；在所述基础模态特征中筛选出每一模态对应的目标模态特征，并将所述目标模态特征和对应的初始模态特征进行融合，得到每一模态的视频内容对应的模态特征。2.根据权利要求1所述的内容检索方法，其特征在于，所述分别对每一模态的模态特征在所述训练后内容检索模型的视频特征提取网络中识别出每一模态对应的目标视频特征提取网络；采用所述目标视频特征提取网络对所述模态特征进行特征提取，得到每一模态的模态视频特征。3.根据权利要求1所述的内容检索方法，其特征在于，所述采用训练后内容检索模型对所述视频内容进行多模态特征提取，得到所述视频内容中每一模态的初始模特特征之前，还包括：获取内容样本集合，所述内容样本集合包括视频样本和文本样本，所述文本样本包括至少一个文本词；采用预设内容检索模型对所述视频样本进行多模态特征提取，得到每一模态的样本模态特征；分别对每一模态的样本模态特征进行特征提取，得到所述视频样本的样本模态内容特征，并将所述样本模态内容特征进行融合，得到所述视频样本的样本视频特征；对所述文本样本进行特征提取，得到样本文本特征和每一文本词对应的文本词特征，并根据所述样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对所述预设内容检索模型进行收敛，得到所述训练后内容检索模型。4.根据权利要求3所述的内容检索方法，其特征在于，所述根据所述样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对所述预设内容检索模型进行收敛，得到根据所述样本模态内容特征和文本词特征，确定所述内容样本集合的特征损失信息；基于所述样本视频特征和样本文本特征，确定所述内容样本集合的内容损失信息；3将所述特征损失信息和内容损失信息进行融合，并基于融合后损失信息，对预设内容检索模型进行收敛，得到训练后内容检索模型。5.根据权利要求4所述的内容检索方法，其特征在于，所述根据所述样本模态内容特征和文本词特征，确定所述内容样本集合的特征损失信息，包括：计算所述样本模态内容特征和文本词特征之间的特征相似度，得到第一特征相似度；根据所述第一特征相似度，确定所述视频样本和文本样本之间的样本相似度；基于所述样本相似度，计算所述视频样本与文本样本之间的特征距离，以得到所述内容样本集合的特征损失信息。6.根据权利要求5所述的内容检索方法，其特征在于，所述根据所述第一特征相似度，确定所述视频样本和文本样本之间的样本相似度，包括：根据所述第一特征相似度，将所述样本模态内容特征与文本词特征进行特征交互，得到交互后视频特征和交互后文本词特征；计算所述交互后视频特征与交互后文本词特征之间的特征相似度，得到第二特征相似将所述第二特征相似度进行融合，得到所述视频样本和文本样本之间的样本相似度。7.根据权利要求6所述的内容检索方法，其特征在于，所述根据所述第一特征相似度，将所述样本模态内容特征与文本词特征进行特征交互，得到交互后视频特征和交互后文本对所述第一特征相似度进行标准化处理，得到目标特征相似度；根据所述目标特征相似度，确定所述样本模态内容特征的关联权重，所述关联权重用于指示所述样本模态内容特征与文本词特征之间的关联关系；基于所述关联权重，对所述样本模态内容特征进行加权，并基于加权后样本模态内容特征对所述文本词特征进行更新，以得到所述交互后视频特征和交互后文本词特征。8.根据权利要求7所述的内容检索方法，其特征在于，所述基于加权后样本模态内容特征对所述文本词特征进行更新，以得到所述交互后视频特征和交互后文本词特征，包括：将所述加权后样本模态内容特征作为初始交互后视频特征，并基于所述初始交互后视频特征对所述文本词特征进行更新，得到初始交互后文本词特征；计算所述初始交互后视频特征与初始交互后文本词特征的特征相似度，得到第三特征相似度；根据所述第三特征相似度，对所述初始交互后视频特征和初始交互后文本词特征进行更新，得到所述交互后视频特征和交互后文本词特征。9.根据权利要求8所述的内容检索方法，其特征在于，所述根据所述第三特征相似度，对所述初始交互后视频特征和初始交互后文本词特征进行更新，得到所述交互后视频特征根据所述第三特征相似度，将所述初始交互后视频特征和初始交互后文本词特征进行特征交互，以得到目标交互后视频特征和目标交互后文本词特征；将所述目标交互后视频特征作为初始交互后视频特征，并将所述目标交互后文本词特征作为初始交互后文本词特征；返回执行所述计算所述初始交互后视频特征与初始交互后文本词特征的特征相似度4的步骤，直至所述初始交互后视频特征和初始交互后文本词特征的特征交互次数达到预设次数为止，得到所述交互后视频特征和交互后文本词特征。10.根据权利要求5所述的内容检索方法，其特征在于，所述基于所述样本相似度，计算所述视频样本与文本样本之间的特征距离，以得到所述内容样本集合的特征损失信息，包获取所述内容样本集合对应的预设特征边界值；根据所述样本相似度，在所述内容样本集合中筛选出视频样本与文本样本匹配的第一内容样本对、以及视频样本与文本样本不匹配的第二内容样本对；基于所述预设特征边界值，计算所述第一内容样本对与第二内容样本对之间的特征距离，得到所述内容样本集合的特征损失信息。11.根据权利要求10所述的内容检索方法，其特征在于，所述基于所述预设特征边界值，计算所述第一内容样本对于第二内容样本对之间的特征距离，得到所述内容样本集合在所述第二内容样本对中筛选出样本相似度最大的内容样本对，得到目标内容样本计算所述第一内容样本对的样本相似度与目标内容样本对的样本相似度之间的相似将所述预设特征边界值与第一相似度差值进行融合，以得到所述内容样本集合的特征损失信息。12.根据权利要求4所述的内容检索方法，其特征在于，所述基于所述样本视频特征和样本文本特征，确定所述内容样本集合的内容损失信息，包括：计算所述样本视频特征和文本特征之间的特征相似度，得到所述视频样本与文本样本之间的内容相似度；根据所述内容相似度，在所述内容样本集合中筛选出视频样本与文本样本匹配的第三内容样本对、以及视频样本与内容样本不匹配的第四内容样本对；获取所述内容样本集合对应的预设内容边界值，并根据所述预设内容边界值，计算所述第三内容样本对与第四内容样本对之间的内容差值，以得到所述内容样本集合的内容损失信息。13.根据权利要求12所述的内容检索方法，其特征在于，所述根据所述预设内容边界值，计算所述第三内容样本对于第四内容样本对之间的内容差值，以得到所述内容样本集计算所述第三内容样本对的内容相似度与第四内容样本对的内容相似度之间的相似将所述第二相似度差值与预设内容边界值进行融合，得到所述第三内容样本对与第四内容样本对之间的内容差值；对所述内容差值进行标准化处理，得到所述内容样本集合的内容损失信息。14.根据权利要求1所述的内容检索方法，其特征当所述待检索内容为文本内容时，对所述文本内容进行特征提取，得到所述文本内容的文本特征；5根据所述文本特征，在所述预设内容集合中检索出所述文本内容对应的目标视频内15.一种内容检索装置，其特征在于，包括：获取单元，用于获取用于检索目标内容的待检索内容；第一提取单元，用于当所述待检索内容为视频内容时，对所述视频内容进行多模态特征提取，得到每一模态的模态特征，所述模态特征为所述视频内容中每一模态对应的特征信息，所述视频内容中包含多个模态，所述多个模态包括描述动作、音频、场景、人脸和/或实体；第二提取单元，用于分别对每一模态的模态特征进行特征提文本检索单元，用于将所述模态内容特征进行融合，得到所述视频内容的视频特征，并根据所述视频特征，在预设内容集合中检索出所述视频内容对应的目标文本内容；其中，所述对所述视频内容进行多模态特征提取，得到每一模态的模态特征，包括：采用训练后内容检索模型对所述视频内容进行多模态特征提取，得到所述视频内容中每一模态的初始模态特征；在所述视频内容中提取出视频帧，并采用所述训练后内容检索模型对所述视频帧进行多模态特征提取，得到每一视频帧的基础模态特征；在所述基础模态特征中筛选出每一模态对应的目标模态特征，并将所述目标模态特征和对应的初始模态特征进行融合，得到每一模态的视频内容对应的模态特征。16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至14任一项所述的内容检索方法中的步骤。6一种内容检索方法、装置和计算机可读存储介质技术领域[0001]本发明涉及通信技术领域，具体涉及一种内容检索方法、装置和计算机可读存储背景技术[0002]近年来，互联网上产生了海量的内容，这些内容可以包括多种类型，比如，可以包括文本和视频等。为了更好的在海量内容中检索出需要的内容，通常可以通过一种类型的内容检索出与之匹配的另一种类型的内容，比如，可以通过用户提供的视频内容检索出与之匹配的文本内容。现有的内容检索往往是采用特征提取网络直接提取出视频特征和文本特征进行特征匹配来完成内容检索。[0003]在对现有技术的研究和实践过程中，本发明的发明人发现，由于视频包含多种模态和复杂的语义，采用单一的特征提取网络提取出的视频特征的准确性不足，使的无法与发明内容[0004]本发明实施例提供一种内容检索方法、装置和计算机可读存储介质，可以提高内容检索的准确率。[0006]获取用于检索目标内容的待检索内容；[0007]当所述待检索内容为视频内容时，对所述视频内容进行多模态特征提取，得到每一模态的模态特征；[0008]分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征；[0009]将所述模态内容特征进行融合，得到所述视频内容的视频特征，并根据所述视频特征，在预设内容集合中检索出所述视频内容对应的目标文本内容。[0011]获取单元，用于获取用于检索目标内容的待检索内容；[0012]第一提取单元，用于当所述待检索内容为视频内容时，对所述视频内容进行多模态特征提取，得到每一模态的模态特征；[0013]第二提取单元，用于分别对每一模态的模态特征进行特征提取，得到每一模态的模态视频特征；[0014]文本检索单元，用于将所述模态视频特征进行融合，得到所述视频内容的视频特征，并根据所述视频特征，在所述预设内容集合中检索出所述视频内容对应的目标文本内[0015]可选的，在一些实施例中，所述第一提取单元，具体可以用于采用训练后内容检索模型对所述视频内容进行多模态特征提取，得到所述视频内容中每一模态的初始模态特征；在所述视频内容中提取出视频帧，并采用所述训练后内容检索模型对所述视频帧进行7多模态特征提取，得到每一视频帧的基础模态特征；在所述基础模态特征中筛选出每一模态对应的目标模态特征，并将所述目标模态特征和对应的初始模态特征进行融合，得到每一模态的视频内容的模态特征。[0016]可选的，在一些实施例中，所述第二提取单元，具体可以用于在所述训练后内容检索模型的视频特征提取网络中识别出每一模态对应的目标视频特征提取网络；采用所述目标视频特征提取网络对所述模态特征进行特征提取，得到每一模态的模态视频特征。[0017]可选的，在一些实施例中，所述内容检索装置还可以包括训练单元，所述训练单元，具体可以用于获取内容样本集合，所述内容样本集合包括视频样本和文本样本，所述文本样本包括至少一个文本词；采用预设内容检索模型对所述视频样本进行多模态特征提取，得到每一模态的样本模态特征；分别对每一模态的样本模态特征进行特征提取，得到所述视频样本的样本模态内容特征，并将所述样本模态内容特征进行融合，得到所述视频样本的样本视频特征；对所述文本样本进行特征提取，得到样本文本特征和每一文本词对应的文本词特征，并根据所述样本模态视频特征、样本视频特征、样本文本特征和文本词特征，对所述预设内容检索模型进行收敛，得到所述训练后内容检索模型。[0018]可选的，在一些实施例中，所述训练单元，具体可以用于根据所述样本模态内容特征和文本词特征，确定所述内容样本集合的特征损失信息；基于所述样本视频特征和样本文本特征，确定所述内容样本集合的内容损失信息；将所述特征损失信息和内容损失信息进行融合，并基于融合后损失信息，对预设内容检索模型进行收敛，得到训练后内容检索模[0019]可选的，在一些实施例中，所述训练单元，具体可以用于计算所述样本模态内容特征和文本词特征之间的特征相似度，得到第一特征相似度；根据所述第一特征相似度，确定所述视频样本和文本样本之间的样本相似度；基于所述样本相似度，计算所述视频样本与文本样本之间的特征距离，以得到所述内容样本集合的特征损失信息。[0020]可选的，在一些实施例中，所述训练单元，具体可以用于根据所述第一特征相似度，将所述样本模态内容特征与文本词特征进行特征交互，得到交互后视频特征和交互后文本词特征；计算所述交互后视频特征与交互后文本词特征之间的特征相似度，得到第二特征相似度；将所述第二特征相似度进行融合，得到所述视频样本和文本样本之间的样本相似度。[0021]可选的，在一些实施例中，所述训练单元，具体可以用于对所述第一特征相似度进行标准化处理，得到目标特征相似度；根据所述目标特征相似度，确定所述样本模态内容特征的关联权重，所述关联权重用于指示所述样本模态内容特征与文本词特征之间的关联关系；基于所述关联权重，对所述样本模态内容特征进行加权，并基于加权后样本模态内容特征对所述文本词特征进行更新，以得到所述交互后视频特征和交互后文本词特征。[0022]可选的，在一些实施例中，所述训练单元，具体可以用于将所述加权后样本模态内容特征作为初始交互后视频特征，并基于所述初始交互后视频特征对所述文本词特征进行更新，得到初始交互后文本词特征；计算所述初始交互后视频特征与初始交互后文本词特征的特征相似度，得到第三特征相似度；根据所述第三特征相似度，对所述初始交互后视频特征和初始交互后文本词特征进行更新，得到所述交互后视频特征和交互后文本词特征。[0023]可选的，在一些实施例中，所述训练单元，具体可以用于根据所述第三特征相似8度，将所述初始交互后视频特征和初始交互后文本词特征进行特征交互，以得到目标交互后视频特征和目标交互后文本词特征；将所述目标交互后视频特征作为初始交互后视频特征，并将所述目标交互后文本词特征作为初始交互后文本词特征；返回执行所述计算所述初始交互后视频特征与初始交互后文本词特征的特征相似度的步骤，直至所述初始交互后视频特征和初始交互后文本词特征的特征交互次数达到预设次数为止，得到所述交互后视频特征和交互后文本词特征。[0024]可选的，在一些实施例中，所述训练单元，具体可以用于获取所述内容样本集合对应的预设特征边界值；根据所述样本相似度，在所述内容样本集合中筛选出视频样本与文本样本匹配的第一内容样本对、以及视频样本与文本样本不匹配的第二内容样本对；基于所述预设特征边界值，计算所述第一内容样本对与第二内容样本对之间的特征距离，得到所述内容样本集合的特征损失信息。[0025]可选的，在一些实施例中，所述训练单元，具体可以用于在所述第二内容样本对中筛选出样本相似度最大的内容样本对，得到目标内容样本对；计算所述第一内容样本对的样本相似度与目标内容样本对的样本相似度之间的相似度差值，得到第一相似度差值；将所述预设特征边界值与第一相似度差值进行融合，以得到所述内容样本集合的特征损失信[0026]可选的，在一些实施例中，所述训练单元，具体可以用于计算所述样本视频特征和文本特征之间的特征相似度，得到所述视频样本与文本样本之间的内容相似度；根据所述内容相似度，在所述内容样本集合中筛选出视频样本与文本样本匹配的第三内容样本对、以及视频样本与内容样本不匹配的第四内容样本对；获取所述内容样本集合对应的预设内容边界值，并根据所述预设内容边界值，计算所述第三内容样本对与第四内容样本对之间的内容差值，以得到所述内容样本集合的内容损失信息。[0027]可选的，在一些实施例中，所述训练单元，具体可以用于计算所述第三内容样本对的内容相似度与第四内容样本对的内容相似度之间的相似度差值，得到第二相似度差值；将所述第二相似度差值与预设内容边界值进行融合，得到所述第三内容样本对与第四内容样本对之间的内容差值；对所述内容差值进行标准化处理，得到所述内容样本集合的内容损失信息。[0028]可选的，在一些实施例中，所述内容检索装置还可以包括视频检索单元，所述视频检索单元，具体可以用于当所述待检索内容为文本内容时，对所述文本内容进行特征提取，得到所述文本内容的文本特征；根据所述文本特征，在所述预设内容集合中检索出所述文本内容对应的目标视频内容。此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的内容检索方法。[0029]此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种内容检索方法中的步骤。[0030]本申请实施例在获取用于检索目标内容的待检索内容后，当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到每一模态的模态特征，分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，将模态内容特征进行融合，得到视频内9容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容；由于该方案在对视频内容首先进行多模态特征提取，然后，分别在每一模态对应的模态特征中提取出模态视频特征，从而提升了视频中模态视频特征的准确性，并将模态视频特征进行融合，得到视频内容的视频特征，使得提取出的视频特征可以更好的表达视频中的信附图说明[0031]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附[0032]图1是本发明实施例提供的内容检索方法的场景示意图；[0033]图2是本发明实施例提供的内容检索方法的流程示意图；[0034]图3是本发明实施例提供的对视频内容进行模态特征提取的示意图；[0035]图4是本发明实施例提供的对预设内容检索模型的训练示意图；[0036]图5是本发明实施例提供的内容检索方法的另一流程示意图；[0037]图6是本发明实施例提供的内容检索装置的结构示意图；[0038]图7是本发明实施例提供的内容检索装置的另一结构示意图；[0039]图8是本发明实施例提供的内容检索装置的另一结构示意图；[0040]图9是本发明实施例提供的电子设备的结构示意图。具体实施方式[0041]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施[0042]本发明实施例提供一种内容检索方法、装置和计算机可读存储介质。其中，该内容检索装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。[0043]其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。[0044]例如，参见图1,以内容检索装置集成在电子设备中为例，电子设备在获取用于检索目标内容的待检索内容后，当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到每一模态的模态特征，分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，将模态内容特征进行融合，得到视频内容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容，进而提升内容检索的准确率。[0045]其中，需说明的是，本申请实施例提供的内容检索方法涉及到人工智能领域的计算机视觉技术，即在本申请实施例中，可以利用人工智能的计算机视觉技术对文本内容和视频内容进行特征提取，并基于提取特征，在预设内容集合中筛选出目标内容。[0046]所谓人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方[0047]其中，计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等人脸识别、指纹识别等生物特征识别技术。[0048]以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。[0049]本实施例将从内容检索装置的角度进行描述，该内容检索装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电其他可以进行内容检索的智能设备等设备。[0051]获取用于检索目标内容的待检索内容，当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到每一模态的模态特征，分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，将模态内容特征进行融合，得到视频内容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容。[0053]101、获取用于检索目标内容的待检索内容。[0054]其中，待检索内容可以理解为用于检索目标内容的检索条件中的内容，待检索内容的内容类型可以有多种，比如，可以为文本内容或视频内容。[0056]例如，可以直接接收用户通过终端发送的待检索内容，或者，可以从网络或者第三方数据库中获取待检索内容，或者，当待检索内容的内存较大或者数量较多时，接收内容检11索请求，该内容检索请求中携带待检索内容的存储地址，根据存储地址，在内存、缓存或第三方数据库中获取待检索内容。[0057]102、当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到多个模态对应的模态特征。[0058]其中，模态特征可以理解为视频内容中每一个模态对应的特征信息，视频内容中[0060]例如，采用训练后内容检索模型对视频内容进行多模态特征提取，得到视频内容中每一模态的初始模态特征，在视频内容中提取出视频帧，并采用训练后内容检索模型对视频帧进行多模态特征提取，得到每一视频帧的基础模态特征，在基础模态特征中筛选出每一模态对应的目标模态特征，并将目标模态特征和对应的初始模态特征进行融合，得到每一模态的模态特征。[0061]其中，视频内容和视频帧中包含多种模态，针对不同模态，可以采用不同的特征提取方法对视频内容和视频帧进行多模态特征提取，比如，针对描述动作模态，可以使用在动作识别数据集上做过预训练的S3D(一种动作识别模型)模型进行特征抽取，针对音频模态，可以使用预训练过的VGGish(一种音频提取模型)模型进行特征提取，针对场景模态，可以使用预训练过的DenseNet-161(一种深度模型)模型进行特征提取，针对人脸模态，可以使用预训练过的SSD模型和ResNet50模型进行特征提取，针对人脸模态，可以采用GoogleAPI(一种特征提取网络)进行特征提取，针对实体模态，可以采用预训练过的SENet-154(一种特征提取网络)进行特征提取。提取出的初始模态特征和基础模态特征都可以包含图像特[0062]其中，将目标模态特征和对应的初始模态特征进行融合，融合的方式可以有多种，比如，可以将目标模态特征和初始模态特征中的图像特征(F)、专家特征(E)和时间特征(T)进行相加，从而得到每一模态的模态特征(Ω),具体可以如图3所示。或者，还可以获取目标模态特和初始模态特征的加权系数，根据加权系数，对应目标模态特征和初始模态特征进行加权，并将加权后的目标模态特征和初始模态特征进行融合，得到每一模态的模态特征。[0063]其中，该训练后内容检索模型可以根据实际应用的需求进行设置，另外，需要说明的是，该训练后内容检索模型可以由维护人员预先进行设置，也可以由内容检索装置自行进行训练，即步骤“采用训练后内容检索模型对视频内容进行多模态特征提取，得到视频内容中每一模态的初始模态特征”之前，该内容检索方法还可以包括：[0064]获取内容样本集合，该内容样本集合包括视频样本和文本样本，该文本样本包括至少一个文本词，采用预设内容检索模型对视频样本进行多模态特征提取，得到每一模态的样本模态特征，分别对每一模态的样本模态特征进行特征提取，得到视频样本的样本模态内容特征，并将样本模态内容特征进行融合，得到视频样本的样本视频特征，对文本样本进行特征提取，得到样本文本特征和每一文本词对应的文本词特征，并根据样本模态视频特征、样本视频特征、样本文本特征和文本词特征，对预设内容检索模型进行收敛，得到训[0066]其中，内容样本集合包括视频样本和文本样本，该文本样本包括至少一个文本词。[0068]例如，可以直接获取视频样本和文本样本，得到内容样本集合，或者，可以获取原始视频内容和原始文本内容，然后，将原始视频内容和原始文本内容发送至标注服务器，接收标注服务器返回的原始视频内容和原始文本内容之间的匹配标签，将匹配标签添加至原始视频内容和原始文本内容，从而得到视频样本和文本样本，将视频样本和文本样本进行组合，得到内容样本集合，或者，当内容样本集合中的内容样本数量较多或者内存较大时，可以接收模型训练请求，该模型训练请求中携带内容样本集合的存储地址，根据存储地址，在内存、缓存或第三方数据库中获取内容样本集合。[0069]S2、采用预设内容检索模型对视频样本进行多模态特征提取，得到每一模态的样本模态特征。[0070]例如，采用预设内容检索模型对视频样本进行多模态特征提取，得到视频样本中每一模态的初始样本模态特征，在视频样本中提取出视频帧，并采用预设内容检索模型对视频帧进行多模态特征提取，得到每一视频帧的基础样本模态特征，在基础样本模态特征中筛选出每一模态对应的目标样本模态特征，并将目标样本模态特征和对应的初始样本模态特征进行融合，得到每一模态的模样本态特征，具体可以参见上文，在此就不再一一赘述。[0071]S3、分别对每一模态的样本模态特征进行特征提取，得到视频样本的样本模态内容特征，并将样本模态内容特征进行融合，得到视频样本的样本视频特征。[0072]例如，根据样本模态特征的模态，在预设内容检索模型的视频特征提取网络中识别出每一模态对应的目标视频特征提取网络，采用目标视频特征提取网络对样本模态特征进行特征提取，得到每一模态对应的样本模态内容特征。将样本模态内容特征进行融合，得到视频样本的样本视频特征。[0073]其中，预设内容检索模型的视频特征提取网络的模态固定，因此，只需要根据样本模态特征的模态，就可以识别出该模态对应的视频特征提取网络，将识别出的视频特征提取网络作为目标视频特征提取网络。[0074]在识别出目标视频特征提取网络之后，便可以采用目标视频特征提取网络对模态特征进行特征提取，特征提取的过程可以多种，比如，目标视频特征提取网络可以为模态特定的Transformer(一种转换网络)的编码器对样本模态特征进行编码，从而提取出每一模态的样本模态内容特征。[0075]在提取出样本模态内容特征之后，便可以将样本模态内容特征进行融合，融合的过程可以有多种，比如，可以将每一模态的样本模态内容特征进行组合，得到视频样本的样本模态内容特征集合，将该样本模态内容特征集合输入至Transformer进行编码，以计算样本模态内容特征的关联权重，根据关联权重对样本模态内容特征进行加权，并将加权后的样本模态内容特征进行融合，得到视频样本的样本视频特征。[0076]S4、对文本样本进行特征提取，得到样本文本特征和每一文本词对应的文本词特征，并根据样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对预设内容检索模型进行收敛，得到训练后内容检索模型。[0077]例如，采用预设内容检索模型的文本特征提取网络对文本样本进行特征提取，得到文本样本的文本特征和文本词的文本词特征，然后，根据样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对预设内容检索模型进行收敛，得到训练后内容检索模[0078]其中，对文本样本进行特征提取的方式可以有多种，比如，可以采用文本编码器对文本样本的文本特征进行特征提取，得到文本特征和文本词特征，文本编码器的类型可以有多种，譬如，可以包括Bert(一种文本编码器)或word2vector(一种词向量生成模型)等。[0079]在提取出文本特征和文本词特征之后，就可以根据样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对预设内容检索模型进行收敛，收敛的方式可以有多[0080]例如，可以根据样本模态内容特征和文本词特征，确定内容样本集合的特征损失信息，基于样本视频特征和样本文本特征，确定内容样本集合的内容损失信息，将特征损失信息和内容损失信息进行融合，并基于融合后损失信息，对预设内容检索模型进行收敛，得到训练后内容检索模型，具体可以如下：[0081](1)根据样本模态内容特征和文本词特征，确定内容样本集合的特征损失信息。[0082]例如，可以计算样本模态内容特征和文本词特征之间的特征相似度，得到第一特征相似度，根据第一特征相似度，确定视频样本和文本样本之间的样本相似度，基于样本相似度，计算视频样本与文本样本之间的特征距离，以得到内容样本集合的特征损失信息。[0083]其中，计算样本模态内容特征和文本词特征之间的特征相似度的方式可以有多种，比如，可以计算样本模态内容特征和文本词特征之间的余弦相似度，将余弦相似度作为第一特征相似度，具体可以参考公式(1)所示：[0086]计算出第一特征相似度之后，便可以根据第一特征相似度，确定视频样本和文本样本之间的样本相似度，确定的方式可以有多种，比如，可以根据第一特征相似度，将样本模态内容特征与文本词特征进行特征交互，得到交互后视频特征和交互后文本词特征，计算交互后视频特征与交互后文本词特征之间的特征相似度，得到第二特征相似度，将第二特征相似度进行融合，得到视频样本与文本样本之间的样本相似度。[0087]其中，将样本模态内容特征与文本词特征进行特征交互的方式可以有多种，比如，可以对第一特征相似度进行标准化处理，得到目标特征相似度，根据目标特征相似度，确定样本模态内容特征的关联权重，该关联权重用于指示样本模态内容特征与文本词特征之间的关联关系，基于关联权重，对样本模态内容特征进行加权，并基于加权后样本模态内容特征对文本词特征进行更新，以得到交互后视频特征和交互后文本词特征。[0088]其中，对第一特征相似度进行标准化处理的方式可以有多种，比如，可以采用激活函数对第一特征相似度进行标准化处理，激活函数的种类可以多种，譬如可以为ReLU(relu(x)=max(0,x)),标准化的过程可以如公式(2)所示：[0090]其中，Sij为目标特征相似度，S;为第一特征相似度，relu为激活函数。[0091]其中，根据目标特征相似度，确定样本模态内容特征的关联权重的方式可以有多该关联权重也可以理解为注意力权重，具体可以如公式(3)所示：[0094]在确定出样本模态内容特征的关联权重之后，便可以基于该关联权重对样本模态视内容特征进行加权，并将加权后的样本模态内容特征进行融合，就可以得到加权后模态内容特征，将加权后模态内容特征作为视频样本的初始交互后视频特征，具体可以参考公式(4)所示：[0097]在计算出初始交互后视频特征之后，便可以基于初始交互后视频特征对文本词特征进行更新，以得到交互后视频特征和交互后文本词特征，比如，可以基于初始交互后视频特征对文本词特征进行更新，得到初始交互后文本词特征，计算初始交互后视频特征与初始交互后文本词特征的特征相似度，得到第三特征相似度，根据第三特征相似度，对初始交互后视频特征和初始交互后文本词特征进行更新，得到交互后视频特征和交互后文本词特[0098]其中，基于初始交互后视频特征对文本词特征进行更新的方式可以有多种，比如，可以获取预设更新参数，将预设更新参数、初始交互后视频特征和文本词特征进行融合，得到初始交互后文本词特征，具体可以如公式(5)所示：文本词特征的多次更新，因此，可以将公式(5)进行整合得到F,就可以得到K次特征交(互交叉注意力运算)时的公式，如公式(6)所示：次的交互后视频特征，Ve为模态视频特征。[0103]其中，根据第三特征相似度，对初始交互后视频特征和初始交互后文本词特征进行更新的方式有多种，比如，可以根据第三特征相似度，将初始交互后视频特征和初始交互后文本词特征进行特征交互，以得到目标交互后视频特征和目标交互后文本词特征，将目标交互后视频特征作为初始交互后视频特征，并将目标交互后文本词特征作为初始交互后文本词特征，返回执行计算初始交互后视频特征与初始交互后文本词特征的特征相似度的步骤，直至初始交互后视频特征和初始交互后文本词特征的特征交互次数达到预设次数为止，得到交互后视频特征和交互后文本词特征。[0104]其中，特征交互的过程就可以看作是进行多步交叉注意力的计算，从而得交互后视频特征和交互后文本词特征。特征交互的次数可以根据实际应用来进行设定，通常可以[0105]在得到交互后视频特征和交互后文本词特征之后，便可以计算视频样本和文本样本之间的样本相似度，计算的方式可以有多种，比如，可以计算交互后视频特征和交互后文本词特征之间的特征相似度，得到第二特征相似度，将第二特征相似度进行融合，得到视频样本和文本样本之间的样本相似度，如公式(7)所示：[0108]在计算出样本相似度之后，便可以计算视频样本和文本样本之间的特征距离，从而得到内容样本集合的特征损失信息，计算的方式可以有多种，比如，可以获取内容样本集合对应的预设特征边界值，根据样本相似度，在内容样本集合中筛选出视频样本与文本样本匹配的第一内容样本对、以及视频样本与文本样本不匹配的第二内容样本对，基于预设特征边界值，计算第一内容样本对与第二内容样本对之间的特征距离，得到内容样本集合的特征损失信息。[0109]其中，根据样本相似度，在内容样本集合中筛选出第一内容样本对和第二内容样本对的方式可以有多种，比如，可以将样本相似度与预设相似度阈值进行对比，在内容样本集合中筛选出样本相似度超过预设相似度阈值的视频样本和对应的文本样本，从而就可以得到第一内容样本对，在内容样本集合中筛选出样本相似度未超过预设相似度阈值的视频样本和对应的文本样本，从而就可以得到第二内容样本对。[0110]在筛选出第一内容样本对和第二内容样本对之后，便可以计算第一内容样本对和第二内容样本对之间的特征距离，计算方式可以有多种，比如，可以在第二内容样本对中筛选出样本相似度最大的内容样本对，得到目标内容样本对，计算第一内容样本对的样本相似度与目标内容样本对的样本相似度之间的相似度差值，得到第一相似度差值，将预设特征边界值与第一相似度差值进行融合，以得到内容样本集合的特征损失信息，如公式(8)所征边界值与第一相似度差值进行融合之后，还可以对融合后相似度差值进行标准化处理，值与预设内容边界值进行融合，得到第三内容样本对与第四内容样本对之间的内容差值，过了双向max-marginrankingloss(一种损失函数)进行反向传播和参数更新得到损失信[0120]例如，可以获取预设平衡参数，将预设平衡参数与特征损失信息进行融合，得到平衡后特征损失信息，将平衡后特征损失信息与内容损失信息相加，从而得到融合后损失信衡参数，该预设平衡参数用于在尺度上平衡这两个损失函数。[0123]可选的，还可以获取特征损失信息和内容损失信息的加权参数，基于该加权参数，对特征损失信息和内容损失信息进行加权，并将加权后的特征损失信息和内容损失信息进[0124]在得到融合后损失信息之后，便可以基于融合后损失信息，对预设内容检索模型进行收敛，收敛的方式可以有多种，比如，可以根据融合后损失信息，采用梯度下降算法对预设内容检索模型中的网络参数进行更新，从而收敛预设内容检索模型，得到训练后内容检索模型，或者，还可以采用其他算法，采用融合后损失信息对预设内容检索模型中的网络参数进行更新，从而收敛预设内容检索模型，得到训练后内容检索模型。[0125]其中，需要说明的是，在内容检索模型训练过程中，文本样本和视频样本经过多步交叉注意力计算以及内容相似度的计算，分别采用了Tripletloss和双向max-marginrankingloss进行反向传播和参数更新，从而得到训练后内容检索模型，具体可以如图4所[0126]103、分别对每一模态对应的模态特征进行特征提取，得到每一模态对应的模态内容特征。[0127]其中，模态内容特征可以为每一模态内容的总体特征，用于指示该模态下的内容特征。[0128]其中，对模态特征进行特征提取的方式可以有多种，具体可以如下：[0129]例如，可以根据模态特征的模态，在训练后内容检索模型的视频特征提取网络中识别出每一模态对应的目标视频特征提取网络，采用目标视频特征提取网络对模态特征进行特征提取，得到每一模态对应的模态内容特征。[0130]其中，训练后内容检索模型的视频特征提取网络的模态固定，因此，只需要根据模态特征的模态，就可以识别出该模态对应的视频特征提取网络，将识别出的视频特征提取网络作为目标视频特征提取网络。[0131]在识别出目标视频特征提取网络之后，便可以采用目标视频特征提取网络对模态特征进行特征提取，特征提取的过程可以多种，比如，目标视频特征提取网络可以为模态特定的Transformer的编码器对模态特征进行编码，从而提取出每一模态的视频内容对应的模态内容特征。设内容集合中检索出视频内容对应的目标文本内容。[0133]其中，将模态视频特征进行融合的方式可以有多种，具体可以如下：[0134]例如，可以将每一模态的模态内容特征进行组合，得到视频内容的模态内容特征集合，将该模态内容特征集合输入至Transformer模型中进行编码，以计算模态内容特征的关联权重，根据关联权重对模态内容特征进行加权，并将加权后的模态内容特征进行融合，得到视频内容的视频特征，或者，获取每一模态对应的加权参数，基于该加权参数，对模态内容特征进行加权，并将加权后的模态内容特征进行融合，从而得到视频内容的视频特征，或者，直接将模态内容特征进行拼接，从而得到视频内容的视频特征。[0135]在得到视频内容的视频特征之后，便可以根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容，检索的方式可以有多种，比如，可以分别计算视频特征与预设内容集合中的候选文本内容的文本特征之间的特征相似度，根据特征相似度，在候选文本内容中筛选出视频内容对应的目标文本内容。[0136]其中，对候选文本内容进行文本特征提取的方式可以有多种，比如，可以采用文本编码器对候选文本内容进行特征提取，得到候选文本内容的文本特征，文本编码器的类型可以有多种，譬如，可以包括Bert和word2vector,或者，还可以提取出候一个文本词的特征，然后，计算每个文本词之间的关联权重，基于关联权重，对文本词特征进行加权，从而得到候选文本内容的文本特征。对预设内容集合中的候选文本内容进行文本特征提取的时间可以有多种，比如，可以为实时提取，譬如，当获取的待检索内容为视频内容时，就可以对候选文本内容进行文本特征提取，得到候选文本内容的文本特征，或者，还可以在获取待检索内容之前，就对预设内容集合中的候选文本内容进行文本特征提取，得到候选文本内容的文本特征，从而可以实现离线计算文本特征和视频特征之间的特征相似度，从而更快的在候选文本内容中筛选出视频内容对应的目标文本内容。[0137]其中，计算视频特征与候选文本内容的文本特征之间的特征相似度的方式也可以有多种，比如，可以计算视频特征与候选文本内容的文本特征之间的余弦相似度，从而就可以得到特征相似度，或者，还可以计算视频特征与候选文本内容的文本特征之间的特征距离，根据特征距离，确定视频特征与文本特征之间的特征相似度。[0138]在计算出特征相似度之后，便可以根据特征相似度在候选文本内容中筛选出视频内容对应的目标文本内容，筛选的方式可以有多种，比如，在候选文本内容中筛选出特征相似度超过预设相似度阈值的候选视文本内容，并对筛选出的候选文本内容进行排序，将排序后的候选文本内容作为视频内容对应的目标文本内容，或者，还可以根据特征相似度，对候选文本内容进行排序，在排序后的候选文本内容中筛选出视频内容对应的目标文本内容，筛选出的目标文本内容可以为一个，也可以为多个，当目标文本内容的数量为一个时，就可以将与视频特征的特征相似度最大的候选文本内容作为目标文本内容，当目标文本内容为数量为多个时，就可以在排序后的候选文本内容中筛选出与视频特征的特征相似度排名靠前的TOPN个候选文本内容作为目标文本内容。[0139]可选的，当待检索内容为文本内容时，还可以对文本内容进行特征提取，并根据提取出的文本特征，在预设内容集合中检索出文本内容对应的目标视频内容，具体可以如下：[0140]例如，当待检索内容为文本内容时，采用训练后内容检索模型的文本特征提取网络对文本内容进行特征提取，得到文本内容的文本特征。分别计算文本特征与预设内容集合中的候选视频内容的视频特征之间的特征相似度，根据特征相似度，在候选视频内容中筛选出文本内容对应的目标视频内容。[0141]其中，对文本内容进行特征提取的方式可以有多种，比如，可以采用文本编码器对文本内容中的总体特征进行提取，得到文本特征，文本编码器的类型可以有多种，譬如，可以包括Bert和word2vector,或者，还可以提取出文本内容中的每一个文本词的特征，然后，计算每个文本词之间的关联权重，基于关联权重，对文本词特征进行加权，从而得到文本特[0142]提取出文本内容的文本特征之后，便可以计算文本特征和视频特征之间的特征相似度，计算特征相似度的方式可以有多种，比如，可以对预设内容集合中的候选视频内容进行特征提取，得到每一候选视频内容的视频特征，然后，计算文本特征和视频特征之间的余弦相似度，从而就可以得到特征相似度。[0143]其中，在候选视频内容中提取出视频特征的方式可以有多种，比如，可以采用训练后内容检索模型对候选视频内容进行多模态特征提取，得到多个模态对应的模态特征，分别对每一模态对应的模态特征进行特征提取，得到每一模态对应的模态视频特征，将模态视频特征进行融合，就可以得到每一候选视频内容的视频特征。提取候选视频内容的视频特征的时间可以有多种，比如，可以实时提取候选视频内容的视频特征，譬如，每获取一次待检索内容，就可以对候选视频内容提取视频特征，或者，还可以在获取待检索内容之前，就对预设内容集合中的每一候选视频内容进行特征提取，提取出视频特征，从而可以实现离线计算文本特征和视频特征之间的特征相似度，从而更快的在候选视频内容中筛选出文本内容对应的目标视频内容。[0144]其中，根据特征相似度，在候选视频内容中筛选出文本内容对应的目标视频内容的方式可以有多种，比如，在候选视频内容中筛选出特征相似度超过预设相似度阈值的候选视频内容，并对筛选出的候选视频内容进行排序，将排序后的候选视频内容作为文本内容对应的目标视频内容，或者，还可以根据特征相似度，对候选视频内容进行排序，在排序后的候选视频内容中筛选出文本内容对应的目标视频内容，筛选出的目标视频内容可以为一个，也可以为多个，当目标视频内容的数量为一个时，就可以将与文本特征的特征相似度最大的候选视频内容作为目标视频内容，当目标视频内容为数量为多个时，就可以在排序后的候选视频内容中筛选出与文本特征的特征相似度排名靠前的TOPN个候选视频内容作为目标视频内容。其中，在本方案中不仅对视频中的多模态信息进行了更好的特征提取，而且更好地关注了检索文本中更重要的词，从而达到了更好的检索结果。在数据集MSR-VTT、LSMDC和ActivityNet上，内容检索性能较目前主流的方法有了较大的方案文本->视频对比方案1------对比方案26对比方案344本方案33方案文本->视频对比方案2------对比方案3本方案表3ActivityNet数据集上的结果方案文本->视频对比方案266对比方案35本方案33[0151]由以上可知，本申请实施例在获取用于检索目标内容的待检索内容后，当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到每一模态的模态特征，分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，将模态内容特征进行融合，得到视频内容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容；由于该方案在对视频内容首先进行多模态特征提取，然后，分别在每一模态对应的模态特征中提取出模态视频特征，从而提升了视频中模态视频特征的准确性，并将模态视频特征进行融合，得到视频内容的视频特征，使得提取出的视频特征可以更好的表[0152]根据上面实施例所描述的方法，以下将举例作进一步详细说明。[0153]在本实施例中，将以该内容检索装置具体集成在电子设备，电子设备为服务器为例进行说明。[0154](一)服务器训练内容检索模型[0156]例如，服务器可以直接获取视频样本和文本样本，得到内容样本集合，或者，可以获取原始视频内容和原始文本内容，然后，将原始视频内容和原始文本内容发送至标注服务器，接收标注服务器返回的原始视频内容和原始文本内容之间的匹配标签，将匹配标签添加至原始视频内容和原始文本内容，从而得到视频样本和文本样本，将视频样本和文本样本进行组合，得到内容样本集合，或者，当内容样本集合中的内容样本数量较多或者内存较大时，可以接收模型训练请求，该模型训练请求中携带内容样本集合的存储地址，根据存[0157]C2、服务器采用预设内容检索模型对视频样本进行多模态特征提取，得到每一模态的样本模态特征。[0158]例如，服务器采用预设内容检索模型对视频样本进行多模态特征提取，得到视频样本中每一模态的初始样本模态特征，在视频样本中提取出视频帧，并采用预设内容检索模型对视频帧进行多模态特征提取，得到每一视频帧的基础样本模态特征，在基础样本模态特征中筛选出每一模态对应的目标样本模态特征，并将目标样本模态特征和对应的初始样本模态特征进行融合，得到每一模态的模样本态特征。[0159]C3、服务器分别对每一模态的样本模态特征进行特征提取，得到视频样本的样本模态内容特征，并将样本模态内容特征进行融合，得到视频样本的样本视频特征。[0160]例如，服务器根据样本模态特征的模态，在预设内容检索模型的视频特征提取网络中识别出每一模态对应的Transformer网络作为目标视频特征提取网络，并采用Transformer网络的编码器对样本模态特征进行编码，从而提取出每一模态的样本模态内容特征。将每一模态的样本模态内容特征进行组合，得到视频样本的样本模态内容特征集合，将该样本模态内容特征集合输入至整体Transformer网络进行编码，以计算样本模态内容特征的关联权重，根据关联权重对样本模态内容特征进行加权，并将加权后的样本模态内容特征进行融合，得到视频样本的样本视频特征。[0161]C4、服务器对文本样本进行特征提取，得到样本文本特征和每一文本词对应的文本词特征，并根据样本模态内容特征、样本视频特征、样本文本特征和文本词特征，对预设内容检索模型进行收敛，得到训练后内容检索模型。[0162]例如，服务器可以采用Bert或word2vector等文本编码器对文本样本的文本特征进行特征提取，得到文本特征和文本词特征。根据样本模态内容特征和文本词特征，确定内容样本集合的特征损失信息，基于样本视频特征和样本文本特征，确定内容样本集合的内容损失信息，将特征损失信息和内容损失信息进行融合，并基于融合后损失信息，对预设内容检索模型进行收敛，得到训练后内容检索模型，具体可以如下：[0163](1)服务器根据样本模态内容特征和文本词特征，确定内容样本集合的特征损失信息。[0164]例如，服务器可以计算样本模态内容特征和文本词特征之间的余弦相似度，将余弦相似度作为第一特征相似度，具体可以参考公式(1)所示。采用激活函数对第一特征相似度进行标准化处理，激活函数的种类可以多种，譬如可以为ReLU(relu(x)=max(0,x)),标准化的过程可以如公式(2)所示，进而得到标准化后的目标特征相似度，获取预设关联参数，将关联参数与目标特征相似度进行融合，得到关联权重，该关联权重也可以理解为注意力权重，具体可以如公式(3)所示。基于该关联权重对样本模态内容特征进行加权，并将加权后的样本模态内容特征进行融合，就可以得到加权后模态视频特征，将加权后模态内容特征作为视频样本的初始交互后视频特征，具体可以参考公式(4)所示。[0165]服务器在计算出初始交互后视频特征之后，可以获取预设更新参数，将预设更新参数、初始交互后视频特征和文本词特征进行融合，得到初始交互后文本词特征，具体可以如公式(5)所示。计算初始交互后视频特征与初始交互后文本词特征的特征相似度，得到第三特征相似度，可以根据第三特征相似度，将初始交互后视频特征和初始交互后文本词特征进行特征交互，以得到目标交互后视频特征和目标交互后文本词特征，将目标交互后视频特征作为初始交互后视频特征，并将目标交互后文本词特征作为初始交互后文本词特征，返回执行计算初始交互后视频特征与初始交互后文本词特征的特征相似度的步骤，直至初始交互后视频特征和初始交互后文本词特征的特征交互次数达到预设次数为止，得到交互后视频特征和交互后文本词特征。[0166]服务器在得到交互后视频特征和交互后文本词特征之后，可以计算交互后视频特征和交互后文本词特征之间的特征相似度，得到第二特征相似度，将第二特征相似度进行融合，得到视频样本和文本样本之间的样本相似度，如公式(7)所示。将样本相似度与预设相似度阈值进行对比，在内容样本集合中筛选出样本相似度超过预设相似度阈值的视频样本和对应的文本样本，从而就可以得到第一内容样本对，在内容样本集合中筛选出样本相似度未超过预设相似度阈值的视频样本和对应的文本样本，从而就可以得到第二内容样本对。获取内容样本集合对应的预设特征边界值，在第二内容样本对中筛选出样本相似度最大的内容样本对，得到目标内容样本对，计算第一内容样本对的样本相似度与目标内容样本对的样本相似度之间的相似度差值，得到第一相似度差值，将预设特征边界值与第一相似度差值进行融合，以得到内容样本集合的特征损失信息，如公式(8)所示。[0167](2)服务器基于样本视频特征和样本文本特征，确定内容样本集合的内容损失信[0168]例如，服务器可以计算样本视频特和文本特征之间的特征相似度，得到视频样本与文本样本之间的内容相似度，根据内容相似度，在内容样本集合中筛选出视频样本与文本样本匹配的第三内容样本对、以及视频样本与内容样本不匹配的第四内容样本对，获取内容样本集合对应的预设内容边界值。计算第三内容样本对的内容相似度与第四内容样本对的内容相似度之间的相似度差值，得到第二相似度差值，将第二相似度差值与预设内容边界值进行融合，得到第三内容样本对与第四内容样本对之间的内容差值，对内容差值进行标准化处理，得到内容样本集合的内容损失信息，如公式(9)所示。[0169](3)服务器将特征损失信息和内容损失信息进行融合，并基于融合后损失信息，对预设内容检索模型进行收敛，得到训练后内容检索模型。[0170]例如，服务器可以获取预设平衡参数，将预设平衡参数与特征损失信息进行融合，得到平衡后特征损失信息，将平衡后特征损失信息与内容损失信息相加，从而得到融合后损失信息，如公式(10)所示。然后，根据融合后损失信息，采用梯度下降算法对预设内容检索模型中的网络参数进行更新，从而收敛预设内容检索模型，得到训练后内容检索模型，或者，还可以采用其他算法，采用融合后损失信息对预设内容检索模型中的网络参数进行更新，从而收敛预设内容检索模型，得到训练后内容检索模型。[0172]201、服务器获取用于检索目标内容的待检索内容。[0173]例如，服务器可以直接接收用户通过终端发送的待检索内容，或者，可以从网络或者第三方数据库中获取待检索内容，或者，当待检索内容的内存较大或者数量较多时，接收内容检索请求，该内容检索请求中携带待检索内容的存储地址，根据存储地址，在内存、缓存或第三方数据库中获取待检索内容。[0174]202、当待检索内容为视频内容时，服务器对视频内容进行多模态特征提取，得到多个模态对应的模态特征。[0175]例如，当待检索内容为视频内容时，服务器采用训练后内容检索模型对视频内容进行多模态特征提取，得到视频内容中每一模态的初始模态特征，在视频内容中提取出视频帧，并采用训练后内容检索模型对视频帧进行多模态特征提取，得到每一视频帧的基础模态特征，在基础模态特征中筛选出每一模态对应的目标模态特征，并将目标模态特征和对应的初始模态特征进行融合，得到每一模态的模态特征。[0176]其中，视频内容以及视频内容中的视频帧可以包括多种模态，针对描述动作模态，可以使用在动作识别数据集上做过预训练的S3D模型进行特征抽取，针对音频模态，可以使用预训练过的VGGish模型进行特征提取，针对场景模态，可以使用预训练过的DenseNet-161模型进行特征提取，针对人脸模态，可以使用预训练过的SSD模型和ResNet50模型进行特征提取，针对人脸模态，可以采用GoogleAPI进行特征提取，针对实体模态，可以采用预训练过的SENet-154进行特征提取。提取出的初始模态特征和基础模态特征都可以包含图像特征、专家特征和时间特征等。[0177]203、服务器分别对每一模态对应的模态特征进行特征提取，得到每一模态对应的模态内容特征。[0178]例如，可以根据模态特征的模态，在训练后内容检索模型的视频特征提取网络中识别出每一模态对应的Transformer网络作为目标视频特征提取网络，采用模态特定的Transformer的编码器对模态特征进行编码，从而提取出每一模态对应的模态内容特征。[0180]例如，服务器可以将每一模态的模态内容特征进行组合，得到视频内容的样本模态内容特征集合，将该模态视内容特征集合输入至Transformer模型中进行编码，以计算模态内容特征的关联权重，根据关联权重对模态内容特征进行加权，并将加权后的模态内容特征进行融合，得到视频内容的视频特征，或者，获取每一模态对应的加权参数，基于该加权参数，对模态内容特征进行加权，并将加权后的模态内容特征进行融合，从而得到视频内容的视频特征，或者，直接将模态视频特征进行拼接，从而得到视频内容[0181]205、服务器根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内[0182]例如，服务器可以采用Bert或word2vector等文本编码器对候选文本内容进行特征提取，得到候选文本内容的文本特征，或者，还可以提取出候选文本内容中的每一个文本从而得到候选文本内容的文本特征。[0183]服务器计算视频特征与候选文本内容的文本特征之间的余弦相似度，从而就可以得到特征相似度，或者，还可以计算视频特征与候选文本内容的文本特征之间的特征距离，根据特征距离，确定视频特征与文本特征之间的特征相似度。[0184]服务器在候选文本内容中筛选出特征相似度超过预设相似度阈值的候选视文本内容，并对筛选出的候选文本内容进行排序，将排序后的候选文本内容作为视频内容对应的目标文本内容，或者，还可以根据特征相似度，对候选文本内容进行排序，在排序后的候选文本内容中筛选出视频内容对应的目标文本内容，筛选出的目标文本内容可以为一个，也可以为多个，当目标文本内容的数量为一个时，就可以将与视频特征的特征相似度最大的候选文本内容作为目标文本内容，当目标文本内容为数量为多个时，就可以在排序后的候选文本内容中筛选出与视频特征的特征相似度排名靠前的TOPN个候选文本内容作为目标文本内容。[0185]其中，对预设内容集合中的候选文本内容进行文本特征提取的时间可以有多种，比如，可以为实时提取，譬如，当获取的待检索内容为视频内容时，就可以对候选文本内容进行文本特征提取，得到候选文本内容的文本特征，或者，还可以在获取待检索内容之前，就对预设内容集合中的候选文本内容进行文本特征提取，得到候选文本内容的文本特征，从而可以实现离线计算文本特征和视频特征之间的特征相似度，从而更快的在候选文本内容中筛选出视频内容对应的目标文本内容。[0186]206、当待检索内容为文本内容时，服务器对文本内容进行特征提取，并根据提取出的文本特征，在预设内容集合中检索出文本内容对应的目标视频内容。[0187]例如，当待检索内容为文本内容时，服务器可以采用Bert或word2vector等文本编码器对文本内容中的总体特征进行提取，得到文本内容的文本特征。采用训练后内容检索模型对候选视频内容进行多模态特征提取，得到多个模态对应的模态特征，分别对每一模态对应的模态特征进行特征提取，得到每一模态对应的模态视频特征，将模态视频特征进行融合，就可以得到每一候选视频内容的视频特征。然后，计算文本特征和视频特征之间的余弦相似度，从而就可以得到特征相似度。在候选视频内容中筛选出特征相似度超过预设相似度阈值的候选视频内容，并对筛选出的候选视频内容进行排序，将排序后的候选视频内容作为文本内容对应的目标视频内容，或者，还可以根据特征相似度，对候选视频内容进行排序，在排序后的候选视频内容中筛选出文本内容对应的目标视频内容，筛选出的目标视频内容可以为一个，也可以为多个，当目标视频内容的数量为一个时，就可以将与文本特征的特征相似度最大的候选视频内容作为目标视频内容，当目标视频内容为数量为多个时，就可以在排序后的候选视频内容中筛选出与文本特征的特征相似度排名靠前的TOPN个候选视频内容作为目标视频内容。[0188]其中，提取候选视频内容的视频特征的时间可以有多种，比如，可以实时提取候选视频内容的视频特征，譬如，每获取一次待检索内容，就可以对候选视频内容提取视频特征，或者，还可以在获取待检索内容之前，就对预设内容集合中的每一候选视频内容进行特征提取，提取出视频特征，从而可以实现离线计算文本特征和视频特征之间的特征相似度，从而更快的在候选视频内容中筛选出文本内容对应的目标视频内容。[0189]由以上可知，本申请实施例服务器在获取用于检索目标内容的待检索内容后，当待检索内容为视频内容时，对视频内容进行多模态特征提取，得到每一模态的模态特征，分别对每一模态的模态特征进行特征提取，得到每一模态的模态内容特征，将模态内容特征进行融合，得到视频内容的视频特征，并根据视频特征，在预设内容集合中检索出视频内容对应的目标文本内容，当待检索内容为文本内容时，对文本内容进行特征提取，并根据提取出的文本特征，在预设内容集合中检索出文本内容对应的目标视频内容；由于该方案在对视频内容首先进行多模态特征提取，然后，分别在每一模态对应的模态特征中提取出模态视频特征，从而提升了视频中模态视频特征的准确性，并将模态视频特征进行融合，得到视频内容的视频特征，使得提取出的视频特征可以更好的表达视频中的信息，实现文本和视[0190]为了更好地实施以上方法，本发明实施例还提供一种内容检索装置，该内容检索装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。提取

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113821687B 一种内容检索方法、装置和计算机可读存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档