CN113902989B 直播场景检测方法、存储介质及电子设备 (腾讯音乐娱乐科技(深圳)有限公司)_第1页
CN113902989B 直播场景检测方法、存储介质及电子设备 (腾讯音乐娱乐科技(深圳)有限公司)_第2页
CN113902989B 直播场景检测方法、存储介质及电子设备 (腾讯音乐娱乐科技(深圳)有限公司)_第3页
CN113902989B 直播场景检测方法、存储介质及电子设备 (腾讯音乐娱乐科技(深圳)有限公司)_第4页
CN113902989B 直播场景检测方法、存储介质及电子设备 (腾讯音乐娱乐科技(深圳)有限公司)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

司域和背景区域,其中所述前景区域包括运动目态特征和所述环境的属性特征进行多模态特征2针对待检测的视频的视频帧,基于目标是否运动分割前景将所述运动目标的仪态特征和所述环境的属性特征进行多模态获得所述运动目标的仪态特征对应的向量以及所述环境的属利用所述运动目标的仪态特征及所述环境的属性特征分别对应的向量构建特征矩阵,将所述特征矩阵输入训练好的多层感知机,以由所述多层感知机输出场景分类向量,其中所述场景分类向量中的元素用于表示直播视频的场根据场景分类向量中的元素确定所述视频是3针对所述二值化图像执行膨胀操作和腐蚀操作,以获得所述前景区域的至少部分边将所述视频帧的下边框与所述至少部分边界所围成的区域确定为所在经划分的图像中确定一个或多个连续网格将所述模板图像与图像数据库中的样本图像分别进行模板匹配将所述节拍特征与所述运动目标的仪态特征和所述环境的属性特征进行多模态特征置成被运行时执行根据权利要求1至13中任一项所述器被配置为在运行计算机程序时执行根据权利要求1至13中任一项所述的直播场景检测方45所述处理器被配置为在运行计算机程序时执行任一本发明实施例的直播场[0023]图3示出了根据本发明实施例的分割前景区域和背景区域的方法的示意性流程[0026]图6示出了根据本发明实施例的图4所示的二值化图像中前景区域的至少部分边[0030]图10示出了根据本发明实施例的基于关键部位确定人物的姿态关键点的方法的[0033]图13示出了根据本发明实施例的识别背景区域中的环境的属性的方法的示意性[0036]图16示出了根据本发明实施例的对视频的声音进行节拍检测的方法的示意性流[0038]图18示出了根据本发明实施例的视频中声音的差值音频序列的频域信号的波形6[0039]图19示出了根据本发明实施例的特征融合以获得视频特征并基于视频特征预测[0042]图22示出了能实施根据本发明实施例的直播场景检测方法的电子设备的示例性[0044]如背景技术中所述,现有的直播场景检测方法仅仅通过单幅图像来判断直播情应地涉及对应的装置以及实施上述方法的计算机系统和存储有可执行上述方法的程序的所述直播场景检测方法100可以包括步骤S110至步骤象或周围环境则可以认为是背景区域。图2示出了根据本发明实施例的待检测的视频的视人物以及二人所处的周围环境可能是这一视频帧的背[0051]在得到前景区域和背景区域后,可以对前景区域中的运7[0058]根据上述技术方案,可以利用经多模态特征融合后的视频特征进行直播场景检[0059]图3示出了根据本发明实施例的分割前景区域和背景区域的示意性流程图。参见8y)|[0067]图4示出了根据本发明实施例将图2所示视频帧对应的差分图像进行二值化处理[0069]根据上述步骤已经得到了二值化图像,其中灰度值为255的像素点为前景区域中[0070]为了帮助理解,图5示出了根据本发明实施例的分割前景区域和背景区域的示意9[0081]图8示出了根据本发明实施例的对人物进行姿态估计的方法的示意性流程图。参在将相关联的关键点均进行了连接后,将获得一个类似人体骨架图的由线段构成的图形。[0089]图10示出了根据本发明实施例的基于关键部位确定人物的姿态关键点的方法的[0095]在确定了平行四边形的短边之后,可以根据短边的位置和长度确定短边的中以获得如图11所示的人物的姿态估计框架的对人物进行表情检测的步骤可以包括步骤S134和步骤21或22-26的关键点与面部识别框上边界的距离与面部识别框高度的比值越小时,可以表[0103]图13示出了根据本发明实施例的识别背景区域中的环境的属性的方法的示意性的环境的属性的干扰。图14示出了根据本发明实施例的对背景区域进行网格划分的示意[0115]图17示出了根据本发明实施例的视频中的声音的音频幅值数据的波形的示意[0123]图19示出了根据本发明实施例的特征融合以获得视频特征并基于视频特征预测[0124]步骤S171,获得运动目标的仪态特征对应的向量以及环境的属性特征对应的向运动目标的仪态特征以及环境的属性特征各[0127]根据前述步骤S171可以得到运动目标的仪态特征对应的向量以及环境的属性特2……分别表示上述运动目标的仪态特征[0131]多层感知机(MLP)是一种前馈人工神经网络模型,训练好的多层感知机是指对其输出的场景分类向量可以是其中每个元素分别表示视频是该元素所对应的场景的频帧所获得的场景分类向量表示这些视频帧为室内读书场景,基于后5个视频帧所获得的场景分类向量表示这些视频帧为室内唱歌场景,则将该待检测的视频检测为室内读书场量以及环境的属性特征进行多模态特征融合为例,来描述获得视频的视频特征的具体过[0137]场景标签数据可以是训练视[0139]其中,bn表示将训练视频的所有视频帧所对应的所有场景标签数据均分为N个批[0141]批梯度下降算法针对的是计算出的所有交叉熵损失函数的函数值,即整个数据度下降算法可以在每次迭代的过程中利用部分样本算机程序配置成被运行时执行任一本发明实施例器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的直播场景检测方[0149]图22示出了一种可以实施本发明实施例的直播场景检测方法的电子设备2200的储器(ROM)2202中的程序和/或数据或者从存储部分2208加载到随机访问存储器(RAM)2203ROM2202以及RAM2203通过总线2204彼此相连。输入/输出(I/O)接口2205也连接至总线行时能够实现上述各实施例描述的直播场景检测方法或装置的步骤由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论