CN113572976B 视频处理方法、装置、电子设备及可读存储介质 (腾讯科技(深圳)有限公司)_第1页
CN113572976B 视频处理方法、装置、电子设备及可读存储介质 (腾讯科技(深圳)有限公司)_第2页
CN113572976B 视频处理方法、装置、电子设备及可读存储介质 (腾讯科技(深圳)有限公司)_第3页
CN113572976B 视频处理方法、装置、电子设备及可读存储介质 (腾讯科技(深圳)有限公司)_第4页
CN113572976B 视频处理方法、装置、电子设备及可读存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目标背景音乐与所述目标子片段合成得到目标生成符合不同的目标对象标识和目标情绪的目2对象种子库中包括所述初始视频中出现的至少一个对象中每个对象的对象标识和对象的对于每一子片段,确定所述子片段中每一视频帧图像的情绪标签;将获取与所述情绪标签序列对应的目标背景音乐,基于所述目标背确定所述目标向量与所述对象种子库中的各标准目标向量将对应的相似度大于预设阈值的标准目标向量,确定为所述目标向量相匹配的标准目标向量对应的对象标识,确定为与该子片段对应的对象标识,通过对该子片段进行对象识别,确定所出现的至少一个对象中的若所述第一数量与所述总数量的比值大于第一预设比率,则从预设的音乐数据库中获取与所述出现频次最高的目标情绪标签对应的目标背景音3针对每一目标子片段,将该目标子片段中的每一视针对每一目标子片段,获取目标情绪尺度,确定所述目标子片段基于所述目标背景音乐与剪辑后的目标子片段合成得到基于所述目标子片段生成至少一个特写视频;其中,所述特写基于每一目标情绪标签的顺序将所述至少一个目标子片段合成将所述目标片段和所述目标背景音乐合成得到分镜模块,用于获取待处理的初始视频、以及预先构建的所所述目标向量相匹配的标准目标向量对应的对象标识,确定为与该子片段对应的对象标合成模块,用于获取与所述情绪标签序列对应的目标背景音乐,基确定所述目标向量与所述对象种子库中的各标准目标向量将对应的相似度大于预设阈值的标准目标向量,确定为所4通过对该子片段进行对象识别,确定所出现的至少一个对象中的若所述第一数量与所述总数量的比值大于第一预设比率,则从预设的音乐数据库中获取与所述出现频次最高的目标情绪标签对应的目标背景音第三确定模块,用于针对每一目标子片段,将该目标子片所述合成模块在基于所述目标背景音乐与所述目标子片段合成得针对每一目标子片段,获取目标情绪尺度,确定所述目标子片段基于所述目标背景音乐与剪辑后的目标子片段合成得到所述合成模块在基于所述目标背景音乐与所述目标子片段合成得基于每一目标情绪标签的顺序将所述至少一个目标子片段合成5将所述目标片段和所述目标背景音乐合成得到6[0003]目前可以采用深度学习的方式根据神经网络对视频进行处理,例如,采用video[0004]但目前的这种深度学习的方式对视频进行处理,只能生7[0029]从预设的音乐数据库中获取与出现频次最高的目标情绪标签对应的目标背景音[0039]在第一方面的可选实施例中,基于目标背景音乐与目标子片段合成得到目标视8[0061]在第二方面的可选实施例中,第一确定模块在确定与该子片段对应的情绪标签[0066]从预设的音乐数据库中获取与出现频次最高的目标情绪标签对应的目标背景音9[0086]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得[0099]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0103]智能视频生产的任务是输入一个长视频,通过算法生成相关内容的短视频(视频段视频从收集素材到成品的时间从3小时到10小时不等。视频精彩集锦生成是一件非常耗成,并设计了一个双路(two-stream)的架构来分别生成背景(Background)前景[0107]人工方法的主要问题是1)需人工分析基础素材:需要从原始视频中进行素材分[0109]本申请基于深度学习人脸识别和人脸属性识别能力,通过对视频进行人物识别、[0112]3)在整体框架上可以通过添加额外的人脸属性筛选素材得到不同的剪辑效果(如[0113]下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述网设备)、笔记本电脑(Laptop)、台式电脑(desktopcomputer)、平板电脑(Tablet段的情绪标签相对应,从而提高所合成的目标视频中视频画面和背景音乐的情绪匹配度;[0139](2)将目标向量分别与初始视频对应的至少一个对象的标准目标向量进行匹配,[0160]1)采用retinanet开源人脸检测模型,对子片段进行人脸检测(即上述的图像检[0161]2)采用insightface开源人脸识别模型,对人脸检测得到的人脸框通过人脸识别人物ID-人脸embedding的信息(即建立每一对象标片段的图像数量)大于指定阈值thrFace(即第一预设比率)的人脸作为最终分镜的人脸ID[0171]例如,子片段的视频帧图像共有10帧,其中6帧视频帧图像的情绪标签均为“开[0174](2)从预设的音乐数据库中获取与出现频次最高的目标情绪标签对应的目标背景[0175]具体的,可以将出现频次最高的目标情绪标签作为待合成的目标视频的整体标后的目标子片段的起始视频帧图像的情绪尺对应的一帧视频帧图像的情绪尺度符合目标情绪尺度,则可以将图中所示的501之前的视[0221]本申请实施例中提供了一种可能的实现方式,第一确定模块802在针对每一子片[0224]本申请实施例中提供了一种可能的实现方式,第一确定模块802在识别子片段中[0227]本申请实施例中提供了一种可能的实现方式,第一确定模块802在基于出现的至[0230]本申请实施例中提供了一种可能的实现方式,第一确定模块802在确定所出现的[0234]本申请实施例中提供了一种可能的实现方式,第一确定模块802在确定与该子片[0237]本申请实施例中提供了一种可能的实现方式,合成模块804在获取与情绪标签序[0239]从预设的音乐数据库中获取与出现频次最高的目标情绪标签对应的目标背景音[0249]本申请实施例中提供了一种可能的实现方式,合成模块804在基于目标背景音乐[0255]本公开实施例的图片的视频处理装置可执行本公开的实施例所提供的一种图片片的视频处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的视[0258]处理器4001可以是CPU(CentralProcessingUnit,中央DSP(DigitalSignalProcessor,数据信号处理器),ASIC(ApplicationSpecific实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器[0259]总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA(Extended[0260]存储器4003可以是ROM(ReadOnlyMemory,只读存储器)或可存储静态信息和指信息和指令的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasableProgrammableReadOnlyMemory,电可擦可编程只读存储器)、CD-ROM(CompactDisc[0262]图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或[0273]可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论