CN113963282B 视频替换检测及其模型的训练方法及装置 (阿里巴巴集团控股有限公司)_第1页
CN113963282B 视频替换检测及其模型的训练方法及装置 (阿里巴巴集团控股有限公司)_第2页
CN113963282B 视频替换检测及其模型的训练方法及装置 (阿里巴巴集团控股有限公司)_第3页
CN113963282B 视频替换检测及其模型的训练方法及装置 (阿里巴巴集团控股有限公司)_第4页
CN113963282B 视频替换检测及其模型的训练方法及装置 (阿里巴巴集团控股有限公司)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本说明书一个或多个实施例提供一种视频根据所述视频特征向量确定所述待检测视频是2生成所述待检测视频对应的视频特征向量,所述视频特征向量根据所述视频特征向量确定所述待检测视频是否依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向基于至少一个维度对所述多帧图像进行分组,各图像分组包含相邻的至少两帧图像,融合各图像分组对应的时序特征向量,其中,所述时序特征将所述时序特征向量的融合结果与所述图像特征向量的融合结分别采用每个卷积核对所述多帧图像对应的图像特征向量进采用所述卷积核对所述多帧图像对应的图像特征向量组成的矩阵进行采用所述卷积核分别对各帧图像对应的图像特征向量进行卷积处理于各帧图像的初始卷积结果拼接为与所述卷积核对应3将所述各帧图像对应的图像特征向量输入长短期记忆网络或3D卷积神经网络进行特将所述视频特征向量输入分类器进行识别,由所述分类器所述提取每帧图像的图像特征向量,包括:所述图像经过所述特征所述生成所述待检测视频对应的视频特征向量,包括:各帧图像根据所述视频特征向量确定所述待检测视频是否经过替换,包从每段视频样本抽取多帧图像,并生成各段视频样本对应的视频特征特征向量与针对所述多帧图像对应的图像特征向量将所述视频特征向量输入分类器进行训练,并根据所述替换标依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向将从各段视频样本抽取的多帧图像输入至所述特征提取子模型4将所述特征提取子模型输出的各帧图像的图像特征向量输入至所述特征融合子模型将所述特征融合子模型输出的对应于各段视频样本的视频特征向量输入至所述检测根据所述替换标注信息和所述检测子模型的输出结果对所述特征依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向生成模块,用于生成所述待检测视频对应的视频特征向量,所所述多帧图像对应的图像特征向量的融合结依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向生成模块,用于从每段视频样本抽取多帧图像,并生成各训练模块,用于将所述视频特征向量输入分类依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向5抽取模块,用于将从各段视频样本抽取的多帧图输入模块,用于将所述特征提取子模型输出的各帧图像的图像所述输入模块,还用于将所述特征融合子模型输出的对应于各段视调整模块,用于根据所述替换标注信息和所述检测子模依次将所述多帧图像中每帧图像对应的图像特征向量作分别采用每个卷积核对所述多帧图像对应的图像特征向量进对各个第二卷积结果进行加权融合,所述加权融合的结果用于确定所述视频特征向其中,所述替换检测器通过运行所述可执行指令以实现如权6视频特征向量与针对所述多帧图像对应的图像特征向量的融合结[0017]将所述特征提取子模型输出的各帧图像的图像特征向量输入至所述特征融合子[0018]将所述特征融合子模型输出的对应于各段视频样本的视频特征向量输入至所述7[0038]根据本说明书一个或多个实施例的第八方面,提供了一[0041]图3a是一示例性实施例提供的一种生成待检测视频对应的视频特征向量的流程8[0043]图4a是一示例性实施例提供的另一种融合各帧图像对应的图像特征向量的流程[0044]图4b是一示例性实施例提供的一种融合各图像分组对应的时序特征向量的流程中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相[0056]图1是一示例性实施例提供的一种视频替换检测系统的架可以是与其他电子设备进行视频通话过程中保存的视频9[0059]手机13_15与服务器11之间进行交互的网络12,可以包括多种类型的有线或无线[0060]图2是一示例性实施例提供的一种视频替换检测方法的流程图,可以包括以下步[0066]在一个实施例中,可以借助多任务卷积神经网络MTCNN实现目标对象所处的区域的R_Net和生成最终边界框与人脸关键点的O个全连接层。R_Net的思想是使用一个相对于P_Net更复杂的网络结构来对P_Net生成的可[0070]MTCNN能够避免滑动窗口加分类器等传统思路带来的巨大的性能消耗,兼顾了性[0071]在另一个实施例中,可以借助深度卷积网络实现图像特征向量的提取,可以将MTCNN识别出的目标对象所处区域对应的区域图像输入训练好的深度卷积网络进行特征提[0081]图3a是一示例性实施例提供的一种生成待检测视频对应的视频特征向量的流程A2i]3132的实现过程作进一步说明,图中的6×5矩阵表示由6幅图像对应的图像特征向量组成的矩[0094]图4a是一示例性实施例提供的另一种融合各帧图像对应的图像特征向量的流程A3i[0106]图4b是一示例性实施例提供的一种融合各图像分组对应的时序特征向量的流程[0108]以上述第一个维度的分组结果为例,n-1个图像分组对应n-1个卷积核,分别为对应的权重能够更为准确的反映该卷积结果对时序特征向量的融合结果[0126]上述的视频替换检测模型中不同的子模型部分都可以在模型训练阶段进行参数[0127]图5是一示例性实施例提供的一种用于视频替换检测的模型训练方法的流程图,[0128]步骤502、将从各段视频样本抽取的n帧图像输入至特征提取子模型进行特征提[0131]步骤504、将特征提取子模型输出的各帧图像的图像特征向量输入至特征融合子[0134]步骤506、将特征融合子模型输出的对应于各段视频样本的视频特征向量输入至个模型可以分别建立3个损失函数,并根据替换标注信息和检测子模型的输出结果分别确序特征向量的融合结果,将两个融合结果的拼接结果确定为待检测视频的视频特征向量,[0142]图6是一示例性实施例提供的另一种用于视频替换检测的模型训练方法的流程时序特征向量的融合结果,将两个融合结果的拼接结果确定为待检测视频的视频特征向[0171]可选地,在采用所述卷积核对所述多帧图像对应的图像特征向量进行卷积处理[0172]采用所述卷积核对所述多帧图像对应的图像特征向量组对应于各帧图像的初始卷积结果拼接为与所述卷积核对应的第二卷[0178]将所述各帧图像对应的图像特征向量输入长短期记忆网络或3D卷积神经网络进抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单关标注信息和所述分类器的输出结果对所述分类器的参数进据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体[0204]上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论