CN113823320B 音频识别方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司)_第1页
CN113823320B 音频识别方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司)_第2页
CN113823320B 音频识别方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司)_第3页
CN113823320B 音频识别方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司)_第4页
CN113823320B 音频识别方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

质联信息可以指示两个音频文件各自基于播放时过时序上的特征变化趋势清晰的表示了音频的2基于第一音频文件的音频特征和第二音频文件的音频特征,确定所基于所述音频片段对的播放时序,对所述第一音频文件和第二音频系数用于指示所述第二片段的播放时序随所述第一片段的播放时序的变其中,所述时序偏移量用于指示所述第一音频文件和所述基于所述时序偏移量,得到所述第一音频文件和所述第二音频文所述基于第一音频文件的音频特征和第二音频文件的音频特征,确定基于所述第一音频文件的音频特征和所述第二音频文件的音频对于每个音频片段对,获取所述音频片段对的第一片段的播放时序及与确定所述第一音频文件中每个音频片段的特征向量与所述第二音频文件中每个音频确定所述第一音频文件的目标片段和第二音频文件的目标片段中特征匹配的音频片3确定所述第一音频文件的第一部分和所述第二音频文件的第二部分中特征匹配的音频文件分别为至少两个视频文件中任意两个视频文件的背景所述基于所述关联信息,确定所述第一音频文件和所述第二音频文件的识别结果之基于所述识别结果,将所述至少两个视频文件划分至相应的视推送集合中的视频文件分别对应的背景音频所述基于所述关联信息,确定所述第一音频文件和所述第二音频文件的识别结果之基于所述识别结果,确定所述两个视频文件中对应音频文件检测得到所述重叠待确认视频文件中所包括图像存在重复的重叠视确定模块,用于基于第一音频文件的音频特征和第二音分析模块,用于基于所述音频片段对的播放时序,对所于播放时序的特征变化趋势与所述第二音频文件基于播放时序的特征变化趋势之间的关识别模块,用于基于所述关联信息,确定所述第一音频文件其中,所述时序偏移量用于指示所述第一音频文件和所述4文件和所述第二音频文件中存在重复的片段基于所述时序偏移量,得到所述第一音频文件和所述第二音频文匹配单元,用于基于所述第一音频文件的音频特征和所述第二音频文件的音频特征,获取单元,用于对于每个音频片段对,获取所述音频片段对的频文件中每个音频片段的特征向量与所述第二音频文件中每个音频片段的特征向量之间确定所述第一音频文件的目标片段和第二音频文件的目标片段中特征匹配的音频片确定所述第一音频文件的第一部分和所述第二音频文件的第二部分中特征匹配的音划分模块,用于基于所述识别结果,将所述至推送模块,用于向用户推送所述至少两个视频推送集合中的目标视频集合包括对应背景音频文件与用户偏好音频存在重复的视删除模块,用于基于所述识别结果,确定所述两个视频5一个或多个计算机程序,其中所述一个或多个应用程序被存18.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指6变化趋势与所述第二音频文件基于播放时序的特征变化趋势之间的述识别结果至少用于指示所述第一音频文件和所述第二音频文件是所述第一音频文件和第二音频文件中特征匹配的音频播放时序的特征变化趋势与所述第二音频文件基于播放时序的特征变化趋势之间的关联7[0027]图5为本申请实施例提供的一种利用音频指纹特征进行回归分析并得到回归系数[0028]图6为本申请实施例提供的一种利用MFCC特征得到的时序对在坐标系中的位置示8[0038]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0040]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”[0041]语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合9[0044]图1是本申请提供的一种音频识别方法的实施环境示意图。该实施环境包括计算[0046]在一个可能应用场景中,该服务器101可以对音频文件或视频文件中音频进行识内容交互应用的用户首页展示的按照热度排列的短视频。该服务器101可以为一台服务器[0050]图2为本申请实施例中提供的一种音频识别方法的流程图,该方法由计算机设备[0053]在一个可能示例中,该音频特征可以为MFCC(MelFrequencyCepstrum征向量,该第一音频文件的多个音频片段的音频特征可以表示为由n个特征向量组成的特器可以采用8维向量表示每个音频片段的MFCC特征向量;则特征向量集合X可以为n*8维的i[0058]该目标片段为对应音频文件中位于第一时序阈值之前或第二时序阈值之后的音[0060]该第一部分和第二部分由基于目标播放时长分别对第一音频文件和第二音频文基于第二种方式对第一音频文件和第二音频文件进行裁剪。该裁剪条件可以包括但不限[0065]步骤2021、服务器基于该第一音频文件的音频特征和该第二音频文件的音频特中每个特征向量,分别与第二音频文件的特征向量集合中每个特征向量之间的向量距离。例对特征距离的表现形式和第二阈值范围均不与Y中第j个特征向量之间的向量距离。该服务器基于第二阈值范围对距离矩阵进行过滤,频片段对包括第一目标片段的第一片段和第二目标片段个音频片段对包括第一部分的第一片段和第二部分通过将第一音频文件中每个音频片段的音频特征分别与第二音频文件中每个音频片段的[0081]该关联信息用于指示该第一音频文件基于播放时序的特征变化趋势与该第二音播放时序的变化趋势,来分析第一音频文件和第二音频文件的特征变化趋势之间的关联。现了多个第一片段和多个第二片段在播放时序的变化趋势上的关序对可以表示多个音频片段对中来自两个音频文件的音频片段在播放时序上变化趋势之[0088]例如,该服务器将k个音频片段对所对应的k个时序对表示为点对集合M={[i,音频片段在播放时序上变化趋势之间的关系。该服务器可以采用与步骤202的第一种方式时序为0的音频片段重复;第二音频文件播放时序为21的音频片段与第一音频文件中播放段的播放时序和第二片段的播放时序进行回归分析。示例性的,该目标回归算法可以为从而仍然能够准确找到识别出表征了第一片段和第二片段的时序变化区域之间的关联关两图为魔方的指导教程视频,上下两个图像对应于讲课内容不同的两个内容不重复的视[0113]本申请实施例提供的音频识别方法,通过基于特征匹配的音频片段对的播放时[0118]确定模块1101,用于基于第一音频文件的音频特征和第确定该第一音频文件和第二音频文件中特征匹时序的特征变化趋势与该第二音频文件基于播放时序的特征变化趋势之间的关第一片段的播放时序与第二片段的播放时序指示该第一音频文件和该第二音频文件中存在重复的片[0130]匹配单元,用于基于该第一音频文件的音频特征和该第离位于第二阈值范围的第一片段及与其对应的第二片段确定为一个音[0134]确定该第一音频文件的目标片段和第二音频文件的目标片段中特征匹配的音频视频集合包括对应背景音频文件与用户偏好音频存在重复的视[0141]本申请实施例提供的音频识别方法,通过基于特征匹配的音频片段对的播放时设备与其他计算机设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的[0149]总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA(Extended[0150]存储器4003可以是ROM(ReadOnlyMemory,只读存储器)或可存储静态信息和指信息和指令的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasableProgrammableReadOnlyMemory,电可擦可编程只读存储器)、CD-ROM(CompactDisc步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论