CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-07 格式：DOCX 页数：52 大小：1.77MB 积分：9.6 举报 版权申诉

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第2页

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第3页

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第4页

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了一种视频内容的完整度识别型，利用计算机设备实现识别视频完整度的功2获取视频文件和所述视频文件的视频发布信息，所述视频序中发布所述视频文件对应的视频内容时要求所述视频对所述拼接后的特征进行识别，得到所述视频文件对应的视频内容束视频用于指示最后一个字词的结束时刻与视频结束时刻的时间间隔小于预设时间间隔，所述非人声结束视频用于指示非人声突然结束使得非人声在所述视频文件对应的视频内容的所述完整度用于指示所述视频文件为正常视频的调用视频完整度识别模型对所述拼接后的特征进行根据所述预测概率得到所述视频文件对应的视频内容获取样本视频文件和所述样本视频文件的样本视频发布信息，从所述样本视频对应的音频数据中提取样本音频特征，从所述样本视对所述拼接后的样本特征进行识别，得到所述样本视频文件对根据所述内容预测完整度和所述样本视频标注的视频内容完整度对所述视频完整度根据所述误差损失对所述视频完整度识别模型进行训练，得到所述3根据所述激活函数、所述内容预测完整度和所述视频内容完整根据所述用于二分类的交叉熵损失函数计算所述内容预测完整度和所述视频内容完通过用于二分类的交叉熵损失函数计算所述误差损失，所述用于二响应于所述误差损失收敛，得到所述视频完整度识别模型对应的权重矩阵和偏移向根据所述权重矩阵和所述偏移向量得到所述训练后的视频完整7.根据权利要求1至6任一所述的方法，其调用类视觉几何组网络模型VGGish从所述音频通过梅尔频率倒谱系数算法MFCC从所述音频数据中提取第调用所述VGGish模型从所述音频数据中提取第一音频特响应于所述视频发布信息包括所述视频标题响应于所述视频发布信息包括所述视频标签容所属的类别；响应于所述视频发布信息包括所述用户帐号4获取模块，用于获取视频文件和所述视频文件的视频发布示在视频应用程序中发布所述视频文件对应的视频内容时要求所述视频文件的上传方提特征提取模块，用于从所述音频数据中提取音频特征，从识别模块，用于对所述拼接后的特征进行识别，得到所述述非截断型结束视频用于指示最后一个字词的结束时刻与视频结束时刻的时间间隔小于在所述视频文件对应的视频内容的所述完整度用于指示所述视频文件为正常视频的12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指指令集由处理器加载并执行以实现如权利要求1至9任一所述的视频内容的完整度识别方5[0003]短视频创作者将短视频上传至短视频平台，短视频平台对上传的短视频进行审6程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。[0026]图3是本申请一个示例性实施例提供的视频内容生产端和视频内容消费端的系统[0030]图7是本申请一个示例性实施例提供的视频完整度识别模型的训练方法的流程[0032]图9是本申请一个示例性实施例提供的视频完整度识别模型的输出层的结构示意[0033]图10是本申请另一个示例性实施例提供的视频内容生产端和视频内容消费端的[0034]图11是本申请一个示例性实施例提供的视频内容的完整度识别装置的结构示意7[0039]类视觉几何组网络模型(VGGish)：是指基于油管(Youtube)的AudioSet数据集训标签来自600多个音频事件类的本体，用于为音频检测事件提供常见的大规模评估任务。[0040]基于转换模型的双向编码表示模型(BidirectionalEncoderRepresentation[0042]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控8[0045]本申请实施例提供的视频内容的完整度识别方法可以应用于具有较强的数据处[0046]图1示出了本申请一个示例性实施例提供的计算机系统的示意图。该计算机系统100包括终端110和服务器120，其中，终端110与服务器120之间通过通信网络进行数据通[0049]服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集9音频特征。音频特征包括利用梅尔频率倒谱系数(MelFrequMFCC)从短视频10中提取的第一音频特征11，利用类视觉几何组网络(VisualGeometry[0051]服务器120调用视频完整度识别模型14对第一音频特征11、第二音频特征12和视120根据视频内容的完整度15确定向终端110推荐具有完整视频内容的短视频16。如图1所[0054]图2示出了本申请一个示例性实施例提供的视频内容的完整度识别方法的流程通过音频处理应用程序将音频从视频文件中分离出来，音频处理应用程序输出音频数据。调用音频特征提取模型和文本特征提取模型分别对音频特征和文本特度识别模型输出的标签类别即可判定视频内容[0074]图3示出了本申请一个示例性实施例提供的视频内容生产端到视频内容消费端的上传至短视频应用程序对应的后台服务器。第一用户对应的客户端为视频内容生产端21。视频生产端21包括专业生产内容或专家生产内容的视频网站(PGC，Professional还包括用户原创内容(UGC，UserGeneratedContent)多频道网络(MCN，Multi-Channel[0076]视频内容生产端21通过上行接口服务器22将短视频发送至视频内容存储服务器重服务28对短视频进行去重处理后向调度中心服务器25反馈去[0078]调度中心服务器25调用人工审核系统29对经过视频排重服务28去重后的短视频[0081]当用户观看短视频时(视频内容消费端31)，从下行接口内容服务器30(还可以是[0084]上述视频内容生产端和视频内容消费端的系统中，通过使得视频应用程序能够向用户推荐具有完整视频内[0085]图4示出了本申请另一个示例性实施例提供的视频内容的完整度识别方法的流程通过音频处理应用程序将音频从视频文件中分离出来，音频处理应用程序输出音频数据。[0096]VGGish模型是一种类似于集合组网络模型(VisualGeometryGroupNetwork，[0097]如图5所示，将音频数据输入至VGGish模型44中，输出具有语义和意义的高维度mel-spectrum得到稳定的梅尔声谱，mel-spectrum是指梅尔滤波器对应的参数，所加的[0102]如图5所示，将音频数据42通过MFCC算法45计算出的第一数值输入至音频特征提征时，需要根据图像识别技术从频谱图像上判断人声是否在最后时刻戛然而止(即音频数频的时间轴(从0秒开始到视频结束)，左侧的纵坐标表示对应时间点采样的序号按照采样图像，将梅尔频谱图像输入至音频特征提取模型47中，音频特征提取模型47包括嵌入层池化层(AveragePooling)，卷积层参数为3×3×8，最大池化层参数为2×2。示意性的，使得输出的视频完整度识别结果能够综合多种特征准确输出视频[0109]本申请实施例通过基于转换器模型的双向编码表示模型(BidirectionalEncoderRepresentationfromTransformers，BERT)从视频发布信息中提取文本特征。BERT模型是一种基于双向转换器模型(Transformer[0121]服务器将音频特征提取模型输出的音频特征和文本特征提取模型输出的文本特频完整度识别模型能够准确识别出视频内容的识别模型输出的视频文件的预测概率为0.8，则该视频文件对应的视频内容属于完整的视整度识别模型能够根据多种维度的特征对视频内容的完整度本特征能够代表视频发布信息，使得后续视频完整度识别模型对视频内容的识别更加准[0135]根据视频完整度识别模型对视频内容属于完整视频的预测概率确定视频内容的[0137]图7示出了本申请一个示例性实施例提供的视频完整度识别模型的训练方法的流意性的，样本视频文件是服务器从大量用户上传的视频中选择的符合样本标准的视频文样本视频内容属于不完整视频。标注过程中，通过访问视频内容的原始统一资源定位符[0157]服务器调用音频特征提取模型从样本视频对应的音频数据中提取样本音频特从音频数据中提取音频特征，再调用文本特征提取模型从视频发布信息中提取文本特征；和文本特征提取模型分别对音频特征和文本特征进行[0160]在一个示例中，服务器先调用VGGish模型从样本视频中[0165]步骤705，根据内容预测完整度和样本视频标注的视频内容完整度对视频完整度[0168]利用用于二分类交叉熵损失函数来计算内容预测完整度和视频内容完整度的误[0171]3)根据用于二分类的交叉熵损失函数计算内容预测完整度和视频内容完整度的[0176]基于交叉熵损失函数可得用于二分类的交叉熵损失函数(BinaryCrossEntropy[0179]本申请实施例利用逻辑回归函数(Sigmoid)和交叉熵损失函数进行二分类，实际数是通过视频完整度识别模型对应的激活函数、内容预测完整度和视频内容完整度得到[0186]2)响应于误差损失收敛，得到视频完整度识别模型对应权重矩阵用于表征样本视频文件对视频完整度识别模型输出内容预测完整度的影响程度，偏移向量用于表征内容预测完整度与视频完整度之间的偏差。频完整度视频模型对应的参数。当拼接后的特征输入至训练后的视频完整度识别模型中本特征，利用样本音频特征和样本文本特征拼接后得到的特征来训练视频完整度识别模[0190]根据视频内容的内容预测完整度和视频内容完整度之间的误差损失来训练视频[0191]根据用于二分类的交叉熵损失函数计算内容预测完整度和视频内容完整度之间[0192]根据用于二分类的交叉熵损失函数计算得到的权重参数和偏移参数来有针对性[0193]由此可知，图3所示视频完整度识别服务26是根据训练后的视频完整度识别模型统32用于从视频内容存储服务器23下载和获取原始的视频内容，控制下载的速度和进度，[0197]根据抽取音频信息服务33提取的音频特征和从内容数据库服务器24中提取到的[0198]图11示出了本申请一个示例性实施例提供的视频内容的完整度识别装置的结构[0206]所述获取模块1110，用于获取样本视频文件和样本视频文件的样本视频发布信[0207]所述特征提取模块1130，用于从样本视频对应的音频数器模型的双向编码表示模型BERT对视频标题进行处理，得到视频标题对应的第一文本特整度识别模型能够根据多种维度的特征对视频内容的完整度本特征能够代表视频发布信息，使得后续视频完整度识别模型对视频内容的识别更加准[0224]根据视频完整度识别模型对视频内容属于完整视频的预测概率确定视频内容的存取存储器(RAM，RandomAccessMemory)1202和只读存储器(ROM，ReadOnlyMemory)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系[0228]基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息统总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出系统1206还[0229]大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连他固态存储其技术，CD-ROM、数字通用光盘(DVD，DigitalVersatileDisc)或固态硬盘其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，ResistanceRandom上的远程计算机运

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112418011B 视频内容的完整度识别方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）