CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-02 格式：DOCX 页数：53 大小：1.84MB 积分：10.8 举报 版权申诉

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）_第2页

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）_第3页

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）_第4页

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

图像特征提取模型提取所述视频帧图像的第一用第二文本特征提取模型提取所述目标文本的有效提升目标视频的视频标签识别过程的自动2调用第一图像特征提取模型提取所述视频帧图像的第调用第二图像特征提取模型提取所述视频帧图像的第一分类任务和第二分类任务训练的图像特征提取模型得到的第二图像特征用于判断目标调用第一文本特征提取模型提取所述目标文本的第一文取模型是基于所述第一分类任务训练的文本调用第二文本特征提取模型提取所述目标文本的第二文取模型是基于所述第一分类任务和第三分类任务训练的文本根据所述第一图像特征、所述第二图像特征、所述第一文本特其中，所述图像特征融合模型、所述文本特征融合模型以及所获取所述视频帧图像，识别所述视频帧图像中的文本，将识获取用于第一分类任务的第一样本数据，所述第一样本数及调用第二图像待训练中间模型提取所述第一样本视频帧图像调用第一文本待训练中间模型提取所述第一样本文本的第一样第二文本待训练中间模型提取所述第一样本文本调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征调用待训练文本特征融合模型，将所述第一样本文本特调用待训练标签识别模型，识别所述第一样本特征和3获取所述第一样本数据的第一样本标签，根据所述第一预测标获取用于第二分类任务的第二样本数据；所述第二样本数据包括第二样本视频帧图根据所述第二样本数据的第二样本标签以及第二预测标根据所述第一样本数据的样本标签以及原始图像预测标根据第三样本数据的第三样本标签以及第三预测标签，训练所述根据所述第一样本数据的样本标签以及原始文本预测标处理单元，用于调用第一图像特征提取模型提取所述视频帧图像的第所述处理单元，还用于调用第二图像特征提取模型提取所述视频所述处理单元，还用于调用第一文本特征提取模型提取所述目标文本的第一文本特4所述处理单元，还用于调用第二文本特征提取模型提取所述目标文本的第二文本特5特征提取模型是基于所述第一分类任务和第二分类任务训练的征提取模型是基于所述第一分类任务训练的文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任[0014]处理单元，用于调用第一图像特征提取模型提取所述视频帧图像的第一图像特67[0041]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”8训练的图像特征提取模型；调用第二图像特征提取模型提取视频帧图像的第二图像特征；二文本特征提取模型可以是循环网络(RecurrentNeuralNetworks，RNN)，卷积网络(ConvolutionalNeuralNetworks，CNN)，深度信念网络(DeepBeliefNeuralNetworks)，生成式对抗网络(GenerativeAdversarialNetworks)，自编码器[0049]本申请实施例的技术方案可以基于图1举例所示的视频过程的示意图或形变示意图像特征提取模型是基于所述第一分类任务和9本特征提取模型是基于所述第一分类任务训练的文本特征提本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取第一分类任务领域下的图像特征以及文本特征问题，还需要参考其他分类任务(即第二分类任务和第三分类任务)领域下的图像特征以及文本特征问题，基于多个分类任务领域图像特征提取模型是基于所述第一分类任务和本特征提取模型是基于所述第一分类任务训练的文本特征提本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提类方法也被称为skipconnection(跳跃连接)，即采用concat(连接)、add(添加)融合方连接全连接层。一个非线性变换层连接第一文本特征提取模型与第二文本特征提取模型，识别(OpticalCharacterRecognition,OCR)技术对每一个视频片段中包含的字幕进行提训练中间模型得到的。第一样本数据可以为进行广告标注的视频或未进行广告标注的视征融合模型将二者融合后得到的第一样本特征便可以为包含运动的人物图像特征的广告合模型将二者融合后得到的第二样本特征便可以为带有励志激励特征[0092]再者，视频识别装置在获取所述第一样本数据的第一样本标签(也就是第一样本签和第一样本标签的差值(即误差)，也即根据上述中间模型或者待训练模型的损失函数，[0093]训练完成后，得到的可以识别目标视频的视频标签的综合模型可以如图3C所[0098]该第二样本数据包括第二样本视频帧图像。第二图像待训练模型可以如图3D所频帧图像的原始图像预测标签；根据所述第一样本数据的样本标签以及原始图像预测标该损失函数调整第一图像待训练模型的参数值，使得第一图像待训练模型尽可能的收敛[0106]可见，基于少量的第一样本数据预先将第一图像待训练得到所述第一图像待训练中间模型。提升第一图像待训练中间模型的第一分类任务的能[0110]该第三样本数据包括第三样本文本。第二文本待训练模型样本文本，也可以是第一样本文本。通过一个循环神经网络(RecurrentNeuralNetwork，所述第一文本待训练模型得到第一文本待训练中[0118]可见，基于少量的第一样本数据预先将第一文本待训练本特征提取模型与第二文本特征提取模型皆包括模请实施例的图像识别装置400可以为前述图1-图3J对应实施例中的图像识别装置，图像识别装置400可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该图像识[0129]处理单元420，用于调用第一图像特征提取模型提取所述视频帧图像的第一图像[0130]所述处理单元420，还用于调用第二图像特征提取模型提取所述视频帧图像的第[0131]所述处理单元420，还用于调用第一文本特征提取模型提取所述目标文本的第一文本特征；所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模[0132]所述处理单元420，还用于调用第二文本特征提取模型提取所述目标文本的第二图像特征以及所述第二样本图像特征融合为第一样本特征；调用待训练文本特征融合模[0142]本申请实施例可以根据上述方法示例对视频识别装置进行功能单元的划分，例特征提取模型是基于所述第一分类任务和第二分类任务训练的征提取模型是基于所述第一分类任务训练的文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任图像特征以及所述第二样本图像特征融合为第一样本特征；调用待训练文本特征融合模机设备执行如上述方法实施例中记载的任一方法的部分或全碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccess

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN112149632B 一种视频识别方法、装置及电子设备 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112149632B 一种视频识别方法、装置及电子设备（腾讯科技（深圳）有限公司）