版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114420097B(21)申请号202210080156.X(22)申请日2022.01.24(65)同一申请的已公布的文献号申请公布号CN114420097A(43)申请公布日2022.04.29(73)专利权人腾讯科技(深圳)有限公司科技中一路腾讯大厦35层(74)专利代理机构深圳市联鼎知识产权代理有限公司44232专利代理师徐明霞(56)对比文件(54)发明名称语音定位方法、装置、计算机可读介质及电子设备(57)摘要本申请属于人工智能技术领域,具体涉及一种语音定位方法、装置、计算机可读介质及电子设备。该方法包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。本申请能够精准定位语2获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;所述主语音概率曲线上各点为所述语音信息中对应时间点存在所述主语音的概率;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点;其中,所述根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信根据所述主语音概率曲线中任意两个相邻波谷,将所述主语音概率曲线划分为多个主获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。2.根据权利要求1所述的方法,其特征在于,所述频谱信息为梅尔频谱图;所述对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,包括:对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;通过梅尔尺度滤波器对所述声谱图进行滤波处理,以获取所述梅尔频谱图。3.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;所述通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。4.根据权利要求3所述的方法,其特征在于,所述卷积网络模块包括多个结构相同的卷积网络单元,所述卷积网络单元包括第一卷积单元、第二卷积单元、池化层和随机剔除层,同时所述第一卷积单元和所述第二卷积单元均包括二维卷积层、批归一化层和激活函数5.根据权利要求4所述的方法,其特征在于,所述特征增强网络模块包括第一卷积网络单元和第二卷积网络单元,所述第一卷积网络单元和所述第二卷积网络单元的结构与所述卷积网络单元的结构相同;所述通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图,包括:3通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;对所述第二特征图进行上采样以获取第三特征图,同时采用1×1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;对所述第四特征图进行上采样以获取第五特征图,同时采用1×1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。6.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括:获取语音样本和自动生成的与所述语音样本对应的主语音标注信息;根据所述语音样本和所述主语音标注信息对待训练语音识别模型进行训练,以获取所述语音识别模型。7.根据权利要求6所述的方法,其特征在于,所述获取自动生成的与所述语音样本对应对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图;根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语音能量和背景音能量之间的能量比;根据所述语音样本中各句主语音的起始时间点将所述语音样本划分为多个语音区间;分别将各所述语音区间作为目标语音区间,获取所述目标语音区间的起始时间点所对应的目标能量比,并根据所述目标能量比和能量比下界确定能量比最大值;将所述目标语音区间中各时间切片对应的能量比与所述能量比最大值进行比较,根据所述目标语音区间中能量比大于或等于所述能量比最大值的连续时间切片确定主语音区间,并对所述主语音区间进行标注以获取所述主语音标注信息。8.根据权利要求6所述的方法,其特征在于,所述待训练语音识别模型包括待训练卷积网络模块、待训练特征增强网络模块、待训练长短期记忆网络模块和待训练分类预测模块;所述根据所述语音样本和所述主语音标注信息对待训练语音识别模型进行训练,以获固定所述待训练长短期记忆网络模块和所述待训练分类预测模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练卷积网络模块和所述待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块;固定所述卷积网络模块和所述特征增强网络模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练长短期记忆网络模块和所述待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块。9.根据权利要求8所述的方法,其特征在于,所述根据所述语音样本和所述语音标注信息对所述待训练卷积网络模块和所述待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块,包括:根据预设数量将所述语音样本分为多组,从各组所述语音样本中随机截取预设长度的语音片段;4将所述语音片段对应的梅尔频谱图输入至所述待训练语音识别模型中,通过所述待训练语音识别模型对所述语音片段对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述待训练卷积网络模块和所述待训练特征增强网络模块的参数进行优化,直至获取所述卷积网络模块和所述特征增强网络模块。10.根据权利要求8所述的方法,其特征在于,所述根据所述语音样本和所述主语音标注信息对所述待训练长短期记忆网络模块和所述待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块,包括:获取所述语音样本中的最大时长,通过补零将其它语音样本的时长与所述最大时长对齐,并根据预设数量将所述语音样本分为多组;将各组所述语音样本对应的梅尔频谱图输入至包含训练好的卷积网络模块和特征增强模块的待训练语音识别模型中,通过所述待训练语音识别模型对所述语音样本对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述长短期记忆网络模块和所述分类预测模块的参数进行优化,直至获取所述长短期记忆网络模块和所述分类预测模块。信息处理模块,被配置为获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;语音识别模块,被配置为将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;所述主语音概率曲线上各点为所述语音信息中对应时间点存在所述主语音的概率;语音定位模块,被配置为根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点;其中,所述根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信根据所述主语音概率曲线中任意两个相邻波谷,将所述主语音概率曲线划分为多个主获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。12.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至10中任意一项所述的语音定位方法。存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任意一项所述的语音定位方法。514.一种计算机程序产品,其特征在于,包括承载在计算机可读存储介质上的计算机程序,所述计算机程序被处理器执行时实现权利要求1至10中任意一项所述的语音定位方法。6技术领域[0001]本申请属于人工智能技术领域,具体涉及一种语音定位方法、语音定位装置、计算机可读介质以及电子设备。背景技术[0002]随着多媒体技术的发展,人们常常会使用电子设备录制音频或视频,而为了将音频或视频中的人声及对应的时间提取出来,通常需要将人声与背景音进行分离,然后对人声进行定位。[0003]目前,对语音进行定位的方法主要有两种,一种是基于音源分离的定位方法,但是该方法依赖于音源分离的准确度,由于音源分离本身不完美,会带来一些误判,并且对于音视频中其它的人声也会被判定为目标人声,造成误判,另外音源分离比较耗时,会增加语音定位的资源占用;另一种是基于卷积神经网络进行预测的方案,但是该方案依赖于数据的标注,标注数据本身难以获取,人工标注会占用大量人力,如果采用弱标注数据训练得到的模型对语音进行识别定位则存在准确率低的问题。发明内容[0004]本申请的目的在于提供一种语音定位方法、语音定位装置、计算机可读介质以及电子设备,能够克服相关技术中存在的语音定位准确率低、用时长、标注数据难以获取及模型性能差的问题。[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。[0006]根据本申请实施例的一个方面,提供一种语音定位方法,该方法包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。[0007]根据本申请实施例的一个方面,提供一种语音定位装置,该装置包括:信息处理模块,被配置为获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;语音识别模块,被配置为将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;语音定位模块,被配置为根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。[0008]在本申请的一些实施例中,所述频谱信息为梅尔频谱图;基于以上技术方案,所述信息处理模块配置为:对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;通过梅尔尺度滤波器对所述声谱图进7行滤波处理,以获取所述梅尔频谱图。[0009]在本申请的一些实施例中,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;基于以上技术方案,语音识别模块包括:卷积单元,被配置为通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;增强单元,被配置为通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;融合单元,被配置为通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取融合特征信息;预测单元,被配置为通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。[0010]在本申请的一些实施例中,基于以上技术方案,所述卷积网络模块包括多个结构相同的卷积网络单元,所述卷积网络单元包括第一卷积单元、第二卷积单元、池化层和随机剔除层,同时所述第一卷积单元和所述第二卷积单元均包括二维卷积层、批归一化层和激活函数层。[0011]在本申请的一些实施例中,所述特征增强网络模块包括第一卷积网络单元和第二卷积网络单元,所述第一卷积网络单元和所述第二卷积网络单元的结构与所述卷积网络单元的结构相同;基于以上技术方案,增强单元配置为:通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;对所述第二特征图进行上采样以获取第三特征图,同时采用1×1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;对所述第四特征图进行上采样以获取第五特征图,同时采用1×1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。[0012]在本申请的一些实施例中,基于以上技术方案,语音定位模块配置为:根据所述主语音概率曲线中任意两个相邻波谷将所述主语音概率曲线划分为多个主语音区间;获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。[0013]在本申请的一些实施例中,基于以上技术方案,语音定位装置还包括:样本获取模块,被配置为获取语音样本和自动生成的与所述语音样本对应的主语音标注信息;模型训练模块,被配置为根据所述语音样本和所述主语音标注信息对待训练语音识别模型进行训[0014]在本申请的一些实施例中,基于以上技术方案,样本获取模块配置为:对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图;根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语音能量和背景音能量之间的能量比;根据所述语音样本中各句主语音的起始时间点将所述语音样本划分为多个语音区间;分别将各所述语音区间作为目标语音区间,获取所述目标语音区间的起始时间点所对应的目标能量比,并根据所述目标能量比和能量比下界确定能量比最大值;将所述目标语音区间中各时间切片对应的能量比与所述能量比最大值进行比较,根据所述目标语音区间中能量比大于或等于所述能量比最大值的连续时间切片确定主语音区间,并对所8述主语音区间进行标注以形成所述语音标注信息。[0015]在本申请的一些实施例中,所述待训练语音识别模型包括待训练卷积网络模块、待训练特征增强网络模块、待训练长短期记忆网络模块和待训练分类预测模块;基于以上技术方案,模型训练模块包括:第一训练单元,被配置为固定所述待训练长短期记忆网络模块和所述待训练分类预测模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练卷积网络模块和所述待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块;第二训练单元,被配置为固定所述卷积网络模块和所述特征增强网络模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练长短期记忆网络模块和所述待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块。[0016]在本申请的一些实施例中,基于以上技术方案,第一训练单元配置为:根据预设数量将所述语音样本分为多组,从各组所述语音样本中随机截取预设长度的语音片段;将所述语音片段对应的梅尔频谱图输入至所述待训练语音识别模型中,通过所述待训练语音识别模型对所述语音片段对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述待训练卷积网络模块和所述待训练特征增强网络模块的参数进行优化,直至获取所述卷积网络模块和所述特征增强网络模块。[0017]在本申请的一些实施例中,基于以上技术方案,第二训练单元配置为:获取所述语音样本中的最大时长,通过补零将其它语音样本的时长与所述最大时长对齐,并根据预设数量将所述语音样本分为多组;将各组所述语音样本对应的梅尔频谱图输入至包含训练好的卷积网络模块和特征增强模块的待训练语音识别模型中,通过所述待训练语音识别模型对所述语音样本对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述长短期记忆网络模块和所述分类预测网络模块的参数进行优化,直至获取所述长短期记忆网络模块和所述分类预测网络模块。[0018]根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的语音定位方法。[0019]根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的语音定位方法。[0020]根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读介质中。电子设备的处理器从计算机可读介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行如以上技术方案中的语音定位方法。[0021]在本申请实施例提供的技术方案中,通过采用语音识别模型对与语音信息对应的频谱信息进行处理,以获取语音信息中的主语音信息,该主语音信息包括主语音概率曲线,进而根据该主语音概率曲线确定主语音在语音信息中所对应的起止时间点。本申请一方面能够精准定位语音信息中的主语音,提高语音定位的准确度和时效性;另一方面能够避免人工标注数据导致的高成本和低模型准确率;再一方面能够提高产品的用户粘度和用户体9[0022]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明[0023]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0024]图1示意性地示出了应用本申请技术方案的示例性系统架构框图。[0025]图2示意性地示出了本申请中语音定位方法的步骤流程示意图。[0026]图3示意性地示出了本申请中语音识别模型的架构示意图。[0027]图4示意性地示出了本申请中卷积网络单元的结构示意图。[0028]图5示意性地示出了本申请中通过语音识别模型获取主语音信息的流程示意图。[0029]图6示意性地示出了本申请中获取频谱增强特征图的流程示意图。[0030]图7示意性地示出了本申请中获取主语音标注信息的流程示意图。[0031]图8示意性地示出了本申请中的标注有歌词起始时间点的歌词lrc文件。[0032]图9示意性地示出了本申请中局部训练的流程示意图。[0033]图10示意性地示出了本申请中全局训练的流程示意图。[0034]图11示意性地示出了本申请中语音定位装置的结构框图。[0035]图12示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框具体实施方式[0036]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。[0037]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方[0038]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。[0039]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。[0040]图1示意性地示出了应用本申请技术方案的示例性系统架构框图。[0041]如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110例如可以包括智能手机、平板电脑、笔记本电脑等各种电子设备,进一步地,终端设备110还可以是包含有语音收录单元的装置,也可以是语音收录装置,例如录音笔、连接有外置麦克风的台式电脑等电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。[0042]根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。[0043]在本申请的一些实施例中,用户通过终端设备110获取语音信息,通过网络120将语音信息传输至服务器130,该语音信息例如可以是歌曲、电视/电影片段以及其它音视频,如活动音视频等,并且语音信息中包括背景音和主语音,具体而言,歌曲中的伴奏就是背景音,人声就是主语音,电视/电影片段中的背景音乐为背景音,对视频中的音乐、嘈杂人声都是背景音,发言人的声音为主语音。服务器130接收到语音信息后,可以对其进行处理获取与其对应的频谱信息,该频谱信息是人耳可识别频率的信息;接着调用语音识别模型,并将频谱信息输入至该语音识别模型,通过语音识别模型对频谱信息中的主语音进行识别,以获取主语音信息;进一步地,可以根据主语音信息确定主语音在语音信息中所对应的起止时间点,即可实现对语音信息中主语音的定位。[0044]在本申请的一些实施例中,语音定位装置还可以配置于终端设备110中,用户在终端设备110中确定需要定位的语音信息后,终端设备110可以对其进行处理获取与其对应的频谱信息,接着调用语音识别模型,并将频谱信息输入至该语音识别模型,通过语音识别模型对频谱信息中的主语音进行识别,以获取主语音信息;进一步地,可以根据主语音信息确定主语音在语音信息中所对应的起止时间点,即可实现对语音信息中主语音的定位。具体地,该主语音信息包括主语音概率曲线,在确定主语音在语音信息中所对应的起止时间点时可以根据主语音概率曲线中的局部极值点确定得到。[0045]在本申请的一些实施例中,终端设备110或者服务器130中设置的语音识别模型是基于人工智能技术进行语音定位的机器学习模型。[0046]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。[0047]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0048]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”11的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、[0049]机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。教学习等技术。[0050]在本申请的相关技术中,以对歌曲中的演唱进行定位为例,主要有基于音源分离定位演唱和基于卷积神经网络预测演唱的定位方案。[0051]基于音源分离的演唱定位方案,首先是对歌曲做音源分离,得到人声音轨和伴奏音乐音轨,然后计算人声音轨和伴奏音乐音轨上对应每一个小的时间区间的能量,最后根据人声能量与伴奏音乐能量的比值与预设阈值的关系进行演唱定位。具体地,当人声能量与伴奏音乐能量的比值大于或等于预设阈值时,则认定该时间区间为有人声演唱,当人声能量与伴奏音乐能量的比值小于预设阈值时,则认定该时间区间无人声演唱。[0052]基于卷积神经网络预测的演唱定位方案,依赖于有标签的数据,但由于完整标注工作量大,通常采用弱标注的方法,也就是对每首歌中有无人声演唱进行标注,如果有人声演唱则认定整首歌都在演唱,通过采用弱标注的样本训练卷积神经网络得到一个基础模型后,再用模型的预测结果去修正标签,进而根据修正后的标签对卷积神经网络模型进行再训练,重复多次后,即认定得到稳定的卷积神经网络,并可用于对歌曲中的演唱进行定位。[0053]但是上述两种方案存在相应的弊端,就音源分离进行歌曲演唱定位而言,首先,基于音源分离的方案依赖于音源分离的准确度,由于音源分离方法本身并不完美,会带来一些误判;其次,对于一些现场类歌曲,会有观众的欢呼声,并且一些歌曲中会有歌手对歌曲身比较耗时,会增加演唱定位的资源占用。就基于卷积神经网络进行歌曲演唱定位而言,基于卷积神经网络的方案依赖数据的标准,数据标注本身难以获取,人工标注会占用大量人力,并且基于弱标注的方案在性能上相对较差,进而造成演唱定位预测结果的准确率低。[0054]针对相关技术中存在的问题,下面结合具体实施方式对本申请提供的语音定位方法、语音定位装置、计算机可读介质以及电子设备等技术方案做出详细说明。[0055]图2示意性地示出了本申请一个实施例中的语音定位方法的步骤流程示意图,该语音定位方法可以由终端设备或者服务器执行,也可以由终端设备和服务器共同执行。如图2所示,本申请实施例中的语音定位方法主要可以包括如下的步骤S210至步骤S230。[0056]步骤S210:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;[0057]步骤S220:将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲[0058]步骤S230:根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。[0059]在本申请实施例提供的语音定位方法中,通过采用语音识别模型对与语音信息对应的频谱信息进行处理,以获取语音信息中的主语音信息,进而根据主语音信息确定主语音在语音信息中所对应的起止时间点。本申请一方面能够精准定位语音信息中的主语音,提高语音定位的准确度和时效性;另一方面能够避免人工标注数据导致的高成本和低模型准确率;再一方面能够提高产品的用户粘度和用户体验。[0060]下面对语音定位方法的各个方法步骤的具体实现方式进行详细说明。[0061]在步骤S210中,获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音。[0062]在本申请的一个实施例中,语音信息包括背景音和主语音,例如语音信息可以是歌曲,歌曲由曲和词组成,人声根据曲的节拍演唱词,那么用于伴奏的曲便是背景音,人声是主语音;还可以是电视剧/电影片段,片段中包含的人物对然还可以是其它类型的语音信息,比如拍摄的包含有人声的视频或录制的包含人声的语音,等等。值得注意的是,人声可以是现实中的人发出的声音,也可以是虚拟人物发出的声音,例如虚拟歌手演唱的歌曲中的声音也可以作为人声。[0063]在本申请的一个实施例中,在获取语音信息后,需要对其进行处理,以得到语音识别模型可识别的数据结构。在本申请的实施例中,可以对语音信息进行处理以获取与语音信息对应的频谱信息,该频谱信息为语音信息对应的梅尔频谱图。具体而言,首先可以对语音信息进行预处理,并对预处理后的语音信息进行短时傅里叶变换,以获取与语音信息对应的声谱图;然后通过梅尔滤波器对声谱图进行滤波处理,以获取梅尔频谱图。[0064]其中,对语音信息进行的预处理具体可以是对语音信息中的声音信号进行分帧,然后对分帧得到的声音帧进行加窗,接着再对每一帧声音信号做傅里叶变换,最后将每一帧的结果沿预设维度进行堆叠,以得到声谱图。由于得到的声谱图较大,并且频率的单位是Hz,人耳能听到的频率范围是20-20000Hz,但是人耳对Hz单位不是线性敏感,而是对低Hz敏感,对高Hz不敏感,因此为了得到合适大小的声音特征,通常将声谱图通过梅尔尺度滤波器组(Mel-scalefilterbanks)变为梅尔频谱,将Hz频率转化为梅尔频率,则人耳对频率的感知度就变为线性。变换公式如公式(1)所示:[0067]在步骤S220中,将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线。[0068]在本申请的一个实施例中,在获取语音信息对应的梅尔频谱图后,可以调用语音识别模型对其进行处理,以获取语音信息中的主语音。本申请中的语音识别模型是一个复合模型,图3示出了语音识别模型的架构示意图,如图3所示,语音识别模型300包括卷积网络模块301、特征增强网络模块302、长短期记忆网络(LSTM)模块303和分类预测模块304。其中,卷积网络模块301包括多个结构相同的卷积网络单元,例如可以是4个,也可以是5个等等;特征增强网络模块302包括第一卷积网络单元302-1和第二卷积网络单元302-2,第一卷积网络单元302-1和第二卷积网络单元302-2的结构与卷积网络单元的结构相同;分类预测模块304由全连接层FC和softmax层组成。[0069]在本申请的一个实施例中,图4示出了卷积网络单元的结构示意图,如图4所示,卷积网络单元400包括依次连接的第一卷积单元401、第二卷积单元402、池化层(pool)403和随机剔除层(dropout)404.其中,第一卷积单元401和第二卷积单元402的组成相同,均包括依次连接的二维卷积层(conv2d)、批归一化层(BN)和激活函数层。在本申请的实施例中,该二维卷积层是在时间和频率两个维度进行卷积的卷积层;激活函数层所使用的激活函数为ReLu函数,以增加网络的非线性分割能力,在反向传播时避免梯度爆炸;随机剔除层404可以在得到池化层403输出的信息后进行随机剔除,防止过拟合。[0070]接下来,基于图3所示的语音识别模型的结构以及图4所示的卷积网络单元的结构对如何通过语音识别模型获取主语音信息进行说明。[0071]图5示出了通过语音识别模型获取主语音信息的流程示意图,如图5所示,在步骤S501中,通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;在步骤S502中,通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;在步骤S503中,通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取融合特征信息;在步骤S504中,通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。[0072]值得说明的是,在语音识别模型的训练过程中,是分为局部训练和全局训练两部分进行的,卷积网络模块301和特征增强网络模块302是同时训练得到优化参数的,长短期记忆网络模块303和分类预测模块304是同时训练得到优化参数的,在训练卷积网络模块301和特征增强网络模块302时采用从语音样本中截取的部分语音样本进行训练的,比如采用60s的语音样本作为训练数据,而在训练长短期记忆网络模块303和分类预测模块304是将所有的语音样本的时长通过补零的方式与最长语音样本对齐,然后采用语音样本进行训练的,因此在使用语音识别模型对语音信息进行处理时,卷积网络模块301只能对语音信息进行分段特征提取,特征增强网络模块302对分段特征提取后得到的频谱特征图分别进行下采样后上采样并反向回传,以实现特征增强,而长短期记忆网络模块303则对所有的频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取与语音信息对应的融合特征信息,并通过分类预测模块304基于融合特征信息对主语音进行预测,以获取主语音信息。[0073]进一步地,在步骤S502中,特征增强网络模块302对频谱特征图进行的处理分为两部分,第一部分是通过第一卷积网络单元302-1和第二卷积网络单元302-2对频谱特征图进行下采样,第二部分是对下采样后得到的特征进行上采样并反向回传,在反向回传的过程中,还需要将上采样生成的特征图与下采样过程中大小相同的特征图进行拼接,以使最终得到的频谱增强特征图既包含下采样得到的深层语义又包含上采样得到的浅层信息。[0074]图6示出了获取频谱增强特征图的流程示意图,如图6所示,在步骤S601中,通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;在步骤S602中,对所述第二特征图进行上采样以获取第三特征图,同时采用1×1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;在步骤S603中,对所述第四特征图进行上采样以获取第五特征图,同时采用1×1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。[0075]在本申请的一个实施例中,通过分类预测模块304对融合特征信息中的主语音进行预测后,可以得到主语音信息,该主语音信息包括主语音概率曲线,主语音概率曲线上各点为对应各时间点存在主语音的概率。基于主语音概率曲线可以获取语音信息中的主语音所对应的起止时间点,实现语音信息中主语音的定位。[0076]在步骤S230中,根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。[0077]在本申请的一个实施例中,在获取主语音信息后,可以根据各时间点对应的存在主语音的概率形成主语音概率曲线,并基于主语音概率曲线确定主语音在语音信息中对应的起止时间点。在根据主语音概率曲线确定主语音对应的起止时间点时,首先可以明确的是,主语音概率曲线上任意相邻的两个波谷之间的曲线对应一个主语音区间,例如当语音信息为歌曲时,那么两相邻的波谷之间的曲线对应一个演唱区间,因此可以根据主语音概率曲线中任意两个相邻的波谷将语音概率曲线划分为多个主语音区间;接着可以获取主语音区间中的局部极值点,并将极大值点对应的时间点标记为主语音的起始时间点,将极小值点对应的时间点标记为主语音的终止时间点。具体而言,由第一个波谷到波峰的上升概率曲线中必然存在主语音开始的时间点,在波峰到第二个波谷的下降曲线中必然存在主语音结束的时间点,因此可以通过计算离散导数的局部极值点得到主语音的起始时间点和终止时间点。[0078]在获取主语音的起止时间点后,可以通过接口以文字的形式返回主语音对应的时间区间,例如在一段歌曲中有三句歌词,并且每句歌词都有人声演唱,那么在确定每句歌词对应的人声的起始时间点和终止时间点后,可以返回演唱区间为“[00:00:30,00:01:00]、[0079]在本申请的一个实施例中,为了提高语音定位的准确性,在采用语音识别模型对梅尔频谱图进行处理之前,还需要采用大量的语音样本对待训练语音识别模型进行训练,以获取稳定的语音识别模型。[0080]在训练待训练语音识别模型之前,需要获取大量的语音样本以及与语音样本对应的主语音标注信息,以便根据语音样本和主语音标注信息对待训练语音识别模型进行训[0081]在本申请的一个实施例中,可以收集一批语音样本,然后自动生成与语音样本对应的主语音标注信息。[0082]图7示出了获取主语音标注信息的流程示意图,如图7所示,获取主语音标注信息的流程至少包括步骤S701-S705,具体如下:[0083]在步骤S701中,对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图。[0084]在本申请的一个实施例中,在对语音样本中的主语音进行标注时,可以根据主语音能量与背景音能量的大小关系进行标注。为了获取主语音能量和背景音能量,需要对语音样本进行音源分离,以从语音样本中提取主语音波形图和背景音波形图,进而根据主语音波形图和背景音波形图计算主语音能量和背景音能量。[0085]在步骤S702中,根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语音能量和背景音能量之间的能量比。[0086]在本申请的一个实施例中,在获取主语音波形图和背景音波形图后,可以根据预设时间间隔对主语音波形图和背景音波形图进行切片,该预设时间间隔可以根据实际需要设定,例如可以是0.5s。在完成切片后,可以提取各个时间切片对应的主语音波形图和背景音波形图的振幅、频率等参数,进而计算得到各时间切片对应的主语音能量和背景音能量,最后再将同一时间切片对应的主语音能量和背景音能量相比即可得到二者之间的能量比。[0087]在步骤S703中,根据所述语音样本中各句主语音的起始时间点将所述语音样本划分为多个语音区间。[0088]在本申请的一个实施例中,在获取语音样本时,该语音样本中有人工标注的每句主语音的起始时间点,根据各句主语音的起始时间点可以将语音样本划分为多个语音区间,例如当语音样本为歌曲时,同时还需要收集歌曲对应的歌词1rc文件,其中对于每句歌词都标注有开始时间,如图8所示,进一步地,可以根据每句歌词的起始时间点可以将歌曲划分为多个歌词区间。[0089]在步骤S704中,分别将所述多个语音区间中的各语音区间作为目标语音区间,获取所述目标语音区间的起始时间点所对应的目标能量比,并根据所述目标能量比和能量比下界确定能量比最大值。[0090]在本申请的一个实施例中,对于每句主语音而言,当开始说话时便产生了主语音能量和背景音能量之间的能量比,因此可以将每句主语音的起始时间点对应的能量比作为目标能量比,并基于目标能量比确定该语音区间中的哪个时间点为主语音的终止时间点,进而根据起始时间点和终止时间点确定主语音区间。在确定主语音区间时,可以将一系数作用于各个目标语音区间的目标能量比,然后根据处理后的目标能量比和能量比下界确定能量比最大值,最后将目标语音区间各时间切片对应的能量比与能量比最大值进行比较,以确定主语音所对应的时间区间。[0091]其中,能量比最大值可以描述为max(ax,b),其中a为人工设置的系数,且满足0<a<[0092]在步骤S705中,将所述目标语音区间中各时间切片对应的能量比与所述能量比最大值进行比较,根据所述目标语音区间中能量比大于或等于所述能量比最大值的连续时间切片确定主语音区间,并对所述主语音区间进行标注以获取所述主语音标注信息。[0093]在本申请的一个实施例中,在确定能量比最大值后,将目标语音区间中各时间切片对应的能量比与能量比最大值进行比较,如果存在连续多个时间切片所对应的能量比都大于或等于能量比最大值时,便可以根据该些连续的时间切片确定主语音区间,说明在该主语音区间内存在主语音,进而可以对该主语音区间进行标注以获取主语音标注信息。通过将目标语音区间内各个时间切片对应的能量比与能量比最大值进行比较,能够过滤掉语音样本中的无效主语音,比如有一句文字没有人声读出来的情况。[0094]通过如图7所示的流程,可以对获取的语音样本自动标注出与其对应的主语音标注信息,并将语音样本和主语音标注信息用于待训练语音识别模型的训练,相对于弱标注的样本而言,本申请中的样本标注方法提高了模型的精度和准确度。[0095]在本申请的一个实施例中,在确定语音样本和对应的主语音标注信息后,可以对待训练语音识别模型进行训练。与图3所示语音识别模型的结构相似,待训练语音识别模型包括待训练语音识别模型包括待训练卷积网络模块、待训练特征增强网络模块、待训练长短期记忆网络模块和待训练分类预测模块,在模型训练时分为两部分进行,分别是局部训练和全局训练,其中局部训练是固定待训练长短期记忆网络模块和待训练分类预测模块的参数,根据语音样本和主语音标注信息对待训练卷积网络模块和待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块;全局训练是固定训练好的卷积网络模块和特征增强网络模块的参数,根据语音样本和主语音标注信息对待训练长短期记忆网络模块和待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块,进而得到收敛的语音识别模型。[0096]接下来,对局部训练和全局训练的过程进行详细说明。述语音样本分为多组,从各组所述语音样本中随机截取预设长度的语音片段;在步骤S902中,将所述语音片段对应的梅尔频谱图输入至所述待训练语音识别模型中,通过所述待训练语音识别模型对所述语音片段对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;在步骤S903中,根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述待训练卷积网络模块和所述待训练特征增强网络模块的参数进行优化,直至获取所述卷积网络模块和所述特征增强网络模块。[0098]其中,在步骤S901中,在采用语音样本对待训练语音识别模型进行训练时,遍历所有的语音样本,每次选取b个语音样本,并从每个语音样本中随机截取预设长度的语音片段,然后再根据所截取的语音片段对应的梅尔频谱图对待训练语音识别模型进行训练。该预设长度可以根据实际需要设定,例如可以是60s,预设长度不能超过最短语音样本的时长,且不能超出显存占用的实际限制,在满足这两个条件下预设长度越长越好,这样便更能学到更长的时间依赖关系。b个语音样本中截取的预设长度的语音片段即可组成一组训练样本,通过遍历所有语音样本即可获取多组训练样本。在步骤S902中,将截取的预设长度的语音片段对应的梅尔频谱图输入至待训练语音识别模型,待训练语音识别模型中的各个模块依次对梅尔频谱图进行处理,以获取主语音预测信息。每一组训练样本经过待训练卷积网络模块和待训练特征增强网络模块后,形成一个三维的张量,维度为(b,n,d),其中b为每组语音样本的总数量,n为与样本长度对应的时间维度,d为每个时间点的特征维度,在经过待训练长短期记忆网络模块和待训练分类预测模块处理后,可以针对每个时间点位作是否存在主语音的二分类预测,进而得到一个二维矩阵X,维度为(b,n)。在步骤S903中,结合主语音标注信息可以判断每个时间点位是否存在主语音,如果存在用1标记,如果不存在用0标记,这样也可以得到一个标注的二维矩阵Y,维度也是(b,n),根据二维矩阵X、Y和损失函数即可确定主语音预测误差,并根据主语音预测误差进行反向调参,直至获取待训练卷积网络模块和待训练特征增强网络模块的最优参数。[0099]本申请实施例中采用的损失函数可以是交叉熵损失函数,计算公式如公式(2)所[0103]在对待训练语音识别模型进行全局训练时,同样可以从语音样本中选取b个语音测误差时所采用的损失函数与局部训练时采用的损失函数可以相同,均为交叉熵损失函图中的演唱进行识别,以输出每个时间点存在人声演唱的概率;最后根据各个时间点对应的概率形成演唱概率曲线,该演唱概率曲线中任意两相邻波谷之间的曲线对应一个演唱区间,进而通过对每个演唱区间计算离散倒数的局部极值点可以得到每个演唱区间具体的起始时间点和终止时间点,实现演唱定位。当完成演唱定位后,可以根据定位得到的起止时间以根据演唱定位信息实现。[0106]本申请中的语音定位方法是通过采用语音识别模型对语音信息对应的频谱信息进行处理以获取主语音信息,该主语音信息包括主语音概率曲线,并根据主语音概率曲线中的局部极值点,确定主语音在语音信息中的起止时间点。本申请一方面能够提高语音定位的准确性和时效性;另一方面所使用的语音识别模型是采用自动标注的语音样本训练得到的,相比采用弱标注的语音样本训练得到的模型性能更好,并且避免了人工标注,提高了标注效率和准确率;再一方面能够提高使用语音定位的产品的用户粘度和用户体验。[0107]应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。[0108]以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的语音定位方法。图11示意性地示出了本申请实施例提供的语音定位装置的结构框图。如图11所示,语音定位装置1100包括:信息处理模块1110、语音识别模块1120和语音定位模块1130,具体地:[0109]信息处理模块1110,被配置为获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;语音识别模块1120,被配置为将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;语音定位模块1130,被配置为根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。[0110]在本申请的一些实施例中,所述频谱信息为梅尔频谱图;基于以上技术方案,所述信息处理模块1110配置为:对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;通过梅尔尺度滤波器对所述声谱图进行滤波处理,以获取所述梅尔频谱图。[0111]在本申请的一些实施例中,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;基于以上技术方案,语音识别模块1120包括:卷积单元,被配置为通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;增强单元,被配置为通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;融合单元,被配置为通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取融合特征信息;预测单元,被配置为通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。[0112]在本申请的一些实施例中,基于以上技术方案,所述卷积网络模块包括多个结构相同的卷积网络单元,所述卷积网络单元包括第一卷积单元、第二卷积单元、池化层和随机剔除层,同时所述第一卷积单元和所述第二卷积单元均包括二维卷积层、批归一化层和激活函数层。[0113]在本申请的一些实施例中,所述特征增强网络模块包括第一卷积网络单元和第二卷积网络单元,所述第一卷积网络单元和所述第二卷积网络单元的结构与所述卷积网络单元的结构相同;基于以上技术方案,增强单元配置为:通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;对所述第二特征图进行上采样以获取第三特征图,同时采用1×1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;对所述第四特征图进行上采样以获取第五特征图,同时采用1×1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。[0114]在本申请的一些实施例中,基于以上技术方案,语音定位模块1130配置为:根据所述主语音信息形成主语音概率曲线;根据所述语音概率曲线中任意两个相邻波谷将所述主语音概率曲线划分为多个主语音区间;获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。[0115]在本申请的一些实施例中,基于以上技术方案,语音定位装置1100还包括:样本获取模块,被配置为获取语音样本和自动生成的与所述语音样本对应的主语音标注信息;模型训练模块,被配置为根据所述语音样本和所述主语音标注信息对待训练语音识别模型进[0116]在本申请的一些实施例中,基于以上技术方案,样本获取模块配置为:对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图;根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语音能量和背景音能量之间的能量比;根据所述语音样本中各句主语音的起始时间点将所述语音样本划分为多个语音区间;分别将各所述语音区间作为目标语音区间,获取所述目标语音区间的起始时间点所对应的目标能量比,并根据所述目标能量比和能量比下界确定能量比最大值;将所述目标语音区间中各时间切片对应的能量比与所述能量比最大值进行比较,根据所述目标语音区间中能量比大于或等于所述能量比最大值的连续时间切片确定主语音区间,并对所述主语音区间进行标注以形成所述语音标注信息。[0117]在本申请的一些实施例中,所述待训练语音识别模型包括待训练卷积网络模块、待训练特征增强网络模块、待训练长短期记忆网络模块和待训练分类预测模块;基于以上技术方案,模型训练模块包括:第一训练单元,被配置为固定所述待训练长短期记忆网络模块和所述待训练分类预测模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练卷积网络模块和所述待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块;第二训练单元,被配置为固定所述卷积网络模块和所述特征增强网络模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练长短期记忆网络模块和所述待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块。[0118]在本申请的一些实施例中,基于以上技术方案,第一训练单元配置为:根据预设数量将所述语音样本分为多组,从各组所述语音样本中随机截取预设长度的语音片段;将所述语音片段对应的梅尔频谱图输入至所述待训练语音识别模型中,通过所述待训练语音识别模型对所述语音片段对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述待训练卷积网络模块和所述待训练特征增强网络模块的参数进行优化,直至获取所述卷积网络模块和所述特征增强网络模块。[0119]在本申请的一些实施例中,基于以上技术方案,第二训练单元配置为:获取所述语音样本中的最大时长,通过补零将其它语音样本的时长与所述最大时长对齐,并根据预设数量将所述语音样本分为多组;将各组所述语音样本对应的梅尔频谱图输入至包含训练好的卷积网络模块和特征增强模块的待训练语音识别模型中,通过所述待训练语音识别模型对所述语音样本对应的梅尔频谱图中的主语音进行识别,以获取主语音预测信息;根据所述主语音预测信息和所述主语音标注信息确定主语音预测误差,并根据所述主语音预测误差对所述长短期记忆网络模块和所述分类预测网络模块的参数进行优化,直至获取所述长短期记忆网络模块和所述分类预测网络模块。[0120]本申请各实施例中提供的语音定位装置的具体细节已经在对应的方法实施例中[0121]图12示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图,该电子设备可以是如图1中所示的终端设备110或者服务器130。[0122]需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。[0123]如图12所示,计算机系统1200包括中央处理器1201(CentralProcessingUnit,CPU),其可以根据存储在只读存储器1202(Read-OnlyMemory,ROM)中的程序或者从存储部分1208加载到随机访问存储器1203(RandomAccessMemory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1203中,还存储有系统操作所需的各种程序和数据。中央处理器1201、在只读存储器1202以及随机访问存储器1203通过总线1204彼此相连。输入/输出接口1205(Input/Output接口,即I/0接口)也连接至总线1204。[0124]在一些实施例中,以下部件连接至输入/输出接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CathodeRayTube,CRT)、液晶显示器(LiquidCrystalDisplay,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至输入/输出接口1205。可拆卸介质从其上读出的计算机程序根据需要被安装入存储部分1208。[0125]特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理器1201执行时,执行本申请的系统中限定的各种功能。[0126]需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传[0127]附图中的流程图和框图,图示了按照本申请各种实施
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校与学生安全协议书
- 建发房产定金合同范本
- 工程合同纠纷解协议书
- 抖音代发协议合同模板
- 安徽林地承包合同范本
- 房屋购买合同更改协议
- 建筑工程保险合同范本
- 工程送水送电合同范本
- 小学承包餐厅合同范本
- 承包焊接管道合同范本
- 人情世故培训课件
- 商品混凝土实验室操作手册
- 资金调拨拆借管理制度
- 装饰装修工程监理月报
- 超星尔雅学习通《美的历程:美学导论(中国社会科学院)》2025章节测试附答案
- 教学课件-积极心理学(第2版)刘翔平
- 2019人教版高中物理必修第一册《第二章 匀变速直线运动的研究》大单元整体教学设计2020课标
- DGTJ 08-2176-2024 沥青路面预防养护技术标准(正式版含条文说明)
- DB33 802-2013 铝合金铸件可比单位综合能耗限额及计算方法
- 移植后免疫监测技术-洞察分析
- 《车用动力电池液冷板技术条件》
评论
0/150
提交评论