版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114333896B(65)同一申请的已公布的文献号(73)专利权人华为技术有限公司地址518129广东省深圳市龙岗区坂田华为总部办公楼专利权人中国科学院自动化研究所(72)发明人卢恒惠秦磊张鹏许家铭徐波(74)专利代理机构深圳市赛恩倍吉知识产权代理有限公司44334专利代理师饶智彬GO6V40/16(2022.01)EP3607547A1separationwithvisualInternationaljointconferennetworks.2021,全文.审查员王昊语音分离方法、电子设备、芯片及计算机可读存储介质本申请实施例提供了一种语音分离方法,涉及电子设备领域。通过获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息,并对所述音频信息进行编码得到混合声学特征,再从所述视频信息中提取所述用户的视觉语义特征,再将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征,最后对所述用户的声学特征进行解码,得到所述用户的语音信号。本申请实施例还提供了一种电子设备、芯片及计算机可读存储介质。本申请基于视觉语义特征对混合语音进获取用户在说话过程中包含用户语音的音频信息及包含用获取用户在说话过程中包含用户语音的音频信息及包含用-21户脸部的视频信息对所述音频信息进行编码,得到混合声学特征从所述视频信息中提取所述用户的视觉语义特征对所述用户的声学特征进行解码,得到所述用户的语音信号2获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息;对所述音频信息进行编码,得到混合声学特征;从所述视频信息中提取所述用户的视觉语义特征,所述视觉语义特征包括所述用户在说话过程中的面部运动特征;将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征;对所述用户的声学特征进行解码,得到所述用户的语音信号;其中,所述从所述视频信息中提取所述用户的视觉语义特征,包括:将所述视频信息转换为按照帧播放顺序排列的图像帧,所述图像帧包含人脸;将所述图像帧输入至预设解耦网络,利用所述预设解耦网络将每一所述图像帧映射成包含人脸身份特征和所述视觉语义特征的视觉表征,及对所述视觉表征进行身份特征丢失处理,从所述视觉表征中分离出所述视觉语义特征。2.如权利要求1所述的语音分离方法,其特征在于,所述音频信息为包含所述用户语音与环境噪声的混合语音信息,所述对所述音频信息进行编码,包括:基于卷积神经网络构建时域音频编码器;利用所述时域音频编码器对所述音频信息进行时域编码。3.如权利要求2所述的语音分离方法,其特征在于,所述对所述用户的声学特征进行解基于所述卷积神经网络构建时域音频解码器;利用所述时域音频解码器对所述用户的声学特征进行解码,得到所述用户的时域语音信号。4.如权利要求1所述的语音分离方法,其特征在于,所述音频信息为包含所述用户语音与环境噪声的混合语音信息,所述对所述音频信息进行编码,包括:利用预设短时傅里叶变换算法对所述音频信息进行时域编码。5.如权利要求4所述的语音分离方法,其特征在于,所述对所述用户的声学特征进行解利用预设短时傅里叶逆变换算法对所述用户的声学特征进行解码,得到所述用户的时域语音信号。6.如权利要求1所述的语音分离方法,其特征在于,所述将所述图像帧输入至预设解耦对所述图像帧进行处理,得到具有预设尺寸且包含所述用户脸部的人脸缩略图;将所述人脸缩略图输入至所述预设解耦网络。7.如权利要求6所述的语音分离方法,其特征在于,所述对所述图像帧进行处理,得到具有预设尺寸且包含所述用户脸部的人脸缩略图,包括:定位所述图像帧中包含所述用户脸部的图像区域;对所述图像区域进行放大或缩小处理,得到具有所述预设尺寸且包含所述用户脸部的人脸缩略图。8.如权利要求1所述的语音分离方法,其特征在于,所述将所述混合声学特征和所述视3觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征,包括:获取所述混合声学特征的时间依赖关系,以基于所述混合声学特征的时间依赖关系得到深度混合声学特征;获取所述视觉语义特征的时间依赖关系,以基于所述视觉语义特征的时间依赖关系得到深度视觉语义特征;对所述深度混合声学特征与所述深度视觉语义特征进行模态融合,得到视听觉特征;基于所述视听觉特征预测得到所述用户的声学特征。9.如权利要求8所述的语音分离方法,其特征在于,所述对所述深度混合声学特征与所述深度视觉语义特征进行模态融合之前,还包括:对所述深度混合声学特征与所述深度视觉语义进行时间维度同步处理,以使得所述深度混合声学特征的时间维度与所述深度视觉语义的时间维度保持同步。10.如权利要求8所述的语音分离方法,其特征在于,所述基于所述视听觉特征预测得基于所述视听觉特征预测得到所述用户语音的掩蔽值;利用预设激活函数对所述掩蔽值进行输出映射处理;将经过所述预设激活函数处理的掩蔽值与所述混合声学特征进行矩阵点乘运算,得到所述用户的声学特征。11.如权利要求10所述的语音分离方法,其特征在于,所述利用预设激活函数对所述若基于卷积神经网络对所述音频信息进行编码,利用sigmoid函数对所述掩蔽值进行若基于短时傅里叶变换算法对所述音频信息进行编码,利用Tanh函数对所述掩蔽值进行输出映射处理。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至权利要求11中任一项所述的语音分离方法。13.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行权利要求1至权利要求11中任一项所述的语音分离方法。14.一种芯片,与电子设备中的存储器耦合,其特征在于,所述芯片用于控制所述电子设备执行权利要求1至权利要求11中任一项所述的语音分离方法。4技术领域[0001]本申请涉及终端技术领域,尤其涉及一种语音算机可读存储介质。背景技术[0002]语音交互技术已经越来越多地应用在实际产品中,如手机智能语音助手、智能音箱的语音控制、视频会议设备等。然而,在受嘈杂环境及周边人声干扰的情况下,会出现语音识别准确率低、通话质量下降等情形。为解决上述问题,业界提出了基于音视频融合的语音分离技术,该音视频融合的语音分离技术基于人脸表征进行语音分离,其基本思想是:利用预训练人脸模型提取人脸表征,然后基于人脸表征、混合语音及深度学习算法,提取指定说话人的语音。但该技术对未知说话者的泛化能力较差,即当目标说话人的语音未在训练数据集中出现过时,其语音分离的精度较差,导致用户使用体验较差,且语音分离的延迟较大,难以应用在实时语音分离的应用场景中。发明内容[0003]有鉴于此,有必要提供一种语音分离方法,其可克服上述问题,对未知说话者的泛[0004]本申请实施例第一方面公开了一种语音分离方法,包括:获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息;对所述音频信息进行编码,得到混合声学特征;从所述视频信息中提取所述用户的视觉语义特征,所述视觉语义特征包括所述用户在说话过程中的面部运动特征;将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征;对所述用户的声学特征进行解码,得到所述用户的语音信号。[0005]通过采用该技术方案,可实现基于视觉语义特征对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0006]在一种可能的实现方式中,所述音频信息为包含所述用户语音与环境噪声的混合语音信息,所述对所述音频信息进行编码,包括:基于卷积神经网络构建时域音频编码器;利用所述时域音频编码器对所述音频信息进行时域编码。[0007]通过采用该技术方案,对混合语音进行时域编码,使得后续可以解码得到时域语音信号,减少语音相位信息损失,提升语音分离性能,且具有语音分离延时低的优点。[0008]在一种可能的实现方式中,所述对所述用户的声学特征进行解码,得到所述用户的语音信号,包括:基于所述卷积神经网络构建时域音频解码器;利用所述时域音频解码器对所述用户的声学特征进行解码,得到所述用户的时域语音信号。[0009]通过采用该技术方案,可以解码得到时域语音信号,减少语音相位信息损失,提升语音分离性能,且具有语音分离延时低的优点。[0010]在一种可能的实现方式中,所述音频信息为包含所述用户语音与环境噪声的混合5语音信息,所述对所述音频信息进行编码,包括:利用预设短时傅里叶变换算法对所述音频信息进行时域编码。[0011]通过采用该技术方案,对混合语音进行时域编码,使得后续可以解码得到时域语音信号,减少语音相位信息损失,提升语音分离性能,且具有语音分离延[0012]在一种可能的实现方式中,所述对所述用户的声学特征进行解码,得到所述用户的语音信号,包括:利用预设短时傅里叶逆变换算法对所述用户的声学特征进行解码,得到所述用户的时域语音信号。[0013]通过采用该技术方案,可以解码得到时域语音信号,减少语音相位信息损失,提升语音分离性能,且具有语音分离延时低的优点。[0014]在一种可能的实现方式中,所述从所述视频信息中提取所述用户的视觉语义特征,包括:将所述视频信息转换为按照帧播放顺序排列的图像帧;对每一所述图像帧进行处理,得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图;将多个所述人脸缩略图输入至预设解耦网络,以提取所述用户的视觉语义特征。[0015]通过采用该技术方案,实现基于视觉语义特征对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0016]在一种可能的实现方式中,所述对每一所述图像帧进行处理,得到具有预设尺寸且包含所述用户脸部的多个人脸缩略图,包括:定位每一所述图像帧中包含所述用户脸部的图像区域;对所述图像区域进行放大或缩小处理,得到具有所述预设尺寸且包含所述用户脸部的人脸缩略图。[0017]通过采用该技术方案,实现基于视觉语义特征对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0018]在一种可能的实现方式中,所述将多个所述人脸缩略图输入至预设解耦网络,以提取所述用户的视觉语义特征,包括:将多个所述人脸缩略图输入至所述预设解耦网络;利用所述预设解耦网络将每一所述人脸缩略图映射成包含人脸身份特征和所述视觉语义特征的视觉表征,并从所述视觉表征中分离出所述视觉语义特征。[0019]通过采用该技术方案,实现利用预设解耦网络从视觉表征中分离出视觉语义特征,实现对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用[0020]在一种可能的实现方式中,所述将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征,包括:获取所述混合声学特征的时间依赖关系,以基于所述混合声学特征的时间依赖关系得到深度混合声学特征;获取所述视觉语义特征的时间依赖关系,以基于所述视觉语义特征的时间依赖关系得到深度视觉语义特征;对所述深度混合声学特征与所述深度视觉语义特征进行模态融合,得到视听觉特征;基于所述视听觉特征预测得到所述用户的声学特征。[0021]通过采用该技术方案,实现利用预设视觉语音分离网络对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0022]在一种可能的实现方式中,所述对所述深度混合声学特征与所述深度视觉语义特征进行模态融合之前,还包括:对所述深度混合声学特征与所述深度视觉语义进行时间维度同步处理,以使得所述深度混合声学特征的时间维度与所述深度视觉语义的时间维度保6持同步。[0023]通过采用该技术方案,实现利用预设视觉语音分离网络对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0024]在一种可能的实现方式中,所述基于所述视听觉特征预测得到所述用户的声学特征,包括:基于所述视听觉特征预测得到所述用户语音的掩蔽值;利用预设激活函数对所述掩蔽值进行输出映射处理;将经过所述预设激活函数处理的掩蔽值与所述混合声学特征进行矩阵点乘运算,得到所述用户的声学特征。[0025]通过采用该技术方案,实现利用预设视觉语音分离网络对包含有用户语音与环境噪声的混合语音进行语音分离,可准确地分离出所述用户的声音,提升用户使用体验。[0026]在一种可能的实现方式中,所述利用预设激活函数对所述掩蔽值进行输出映射处理,包括:若基于卷积神经网络对所述音频信息进行编码,利用sigmoid函数对所述掩蔽值进行输出映射处理;或若基于短时傅里叶变换算法对所述音频信息进行编码,利用Tanh函数对所述掩蔽值进行输出映射处理。[0027]通过采用该技术方案,实现根据不同的音频编码算法,采用与该音频编码算法对应的激活函数来进行输出映射处理。[0028]第二方面,本申请实施例提供一种计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第一方面或第二方面所述的语音分离方[0029]第三方面,本申请实施例提供一种电子设备,所述电子设备中至少安装代理服务进程,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行如第一方面或第二方面所述的语音分离方[0030]第四方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面或第二方面所述的语音分离方法。[0031]第五方面,本申请实施例提供一种装置,该装置具有实现上述第一方面或第二方面所提供的方法中第一电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。[0032]可以理解地,上述提供的第二方面所述的计算机可读存储介质,第三方面所述的电子设备,第四方面所述的计算机程序产品,第五方面所述的装置均与上述第一方面的方法对应,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。附图说明[0033]图1为本申请一实施例提供的语音分离装置的应用场景示意图;[0034]图2为本申请一实施例提供的语音分离方法的流程示意图;[0035]图3为本申请一实施例提供的预设解耦网络的网络结构示意图;[0036]图4为本申请一实施例提供的预设视觉语音分离网络的网络结构示意图;[0037]图5为本申请一实施例提供的语音分离装置的功能模块示意图;[0038]图6为本申请一实施例提供的一种可能的电子设备的结构示意图;7具体实施方式示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。本申请的区别类似的对象,而不是用于描述特定的顺序或先后次序。[0040]为了便于理解,示例性的给出了部分与本申请实施例相关概念的说明以供参考。[0041]下面结合图1示例性的介绍本发明实施例提供的一种语音分离装置的应用场景示意图。语音分离装置可以设置在电子设备100中。[0042]当用户使用电子设备100进行通话、视频会议、语音交互控制等过程中,如果用户当前所处的场景中包含其他人物发声或者其他物体的发声,可对用户语音进行分离与增强,从而突出用户语音,降低周围环境噪声对用户语音的干扰。[0044]参照图2所示,本申请实施例提供的一种语音分离方法,应用于电子设备100中。本[0045]21、获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信[0046]在一些实施例中,电子设备100可以包含有摄像功能以及拾音功能,比如电子设备100包括摄像头及麦克风,利用摄像头采集用户在说话过程中包含用户脸部的视频信息,利用麦克风采集用户在说话过程中包含用户语音的音频信息,进而可以从摄像头与麦克风中获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息。[0047]可以理解,摄像头采集到的视频信息不仅包含有用户脸部信息,可能还包含用户其他身体部位信息、当前拍摄背景信息、或者其他用户的身体部位信息。麦克风采集到的音频信息不仅包含有用户当前说话的语音,还可能包含有环境噪声。比如环境噪声为其他用户的声音和/或其他物体发出的声音。[0049]在一些实施例中,可以采用预设音频编码器对所述音频信息进行编码,得到混合声学特征。所述预设音频编码器可以是基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)构建得到的编码器,但并不以CNN为限,也可以是其他类型的神经网络,长短期记忆网络(LongShort-TermMemory,LSTM)、循环神经网络(RecurrentNeuralNetwork,RNN)等。采用CNN构建所述预设音频编码器的构建方式可以是现有方案记载的构[0050]在一些实施例中,对音频信息处理一般包括时域处理与频域处理。时域处理与频域处理相比,时域处理可降低语音帧的长度,便于进行低延迟语音分离模型的设计,减少语音相位信息损失,进而可提升语音分离性能。该预设音频编码器优选是基于CNN构建得到的进行时域编码的音频编码器。[0051]在一些实施例中,所述音频信息为包含有用户语音的混合语音,所述混合声学特征可以是指经过CNN编码得到的包含混合语音特征的向量。[0052]在一些实施例中,也可以采用短时傅里叶变换算法对所述音频信息进行时域编8区域,最后对所述图像区域进行放大或缩小处脸部的人脸缩略图。所述预设尺寸可以根据实际需求进行设定,比如预设即将所述用户脸部的图像区域统一转换为256*[0058]b.将多个所述人脸缩略图输入至预设解耦网络,以提取所述用户的视觉语义特征。[0060]在一些实施例中,可以利用N个视频样例及N个音频样例来训练所述预设解耦网特征的视觉表征;(即该音频样例为该视频样例的播放声音),记为1=1,当第n个视频样例与第m个音频样例不匹配时,记为1m=0。可以将第n个视频样例输入至视觉编码器到包含人脸身份特征和视觉语义特征的视觉表征fv(m),将第m个音频样例输入至语音编码[0063]当得到视觉表征fv(m)与语音表征fa(m)后,可以通过以下三种处理方式来实现拉近9[0067]b).利用二分类鉴别器D₂来进行对抗训练,识别输入的表征是视觉表征还是音频器E的权重,使其权重不被训练),训练二分类鉴别器D₂使其可以[0076]首先冻结视觉编码器E,的权重来训练身份鉴别器Dis,使得身份鉴别器Dis可以正确识别视频样例中每张人脸的身份,其训练损失记为Ladv,然后冻结身份鉴别器Dis的权例总共包括10类身份(第一类身份至第十类身份),若第一视频样例属于第一类身份,则对convld、激活-卷积单元PreLU_convld、激活单元ø/Tanh及矩阵点乘单元Matrix_dm。[0082]正则-卷积单元LN_convld用于对输入的混合声学特征进行正则化与一维卷积层处理;第一TCN单元TCN-1用于捕捉混合声学特征的时间依赖关系,得到深度混合声学特征;第三TCN单元TCN-3用于捕捉输入的视觉语义特征的时间依赖关系,得到深度视觉语义特征;上采样单元Upsample用于对深度视觉语义特征进行上采样,使其在时间维度与深度混合声学特征同步;模态融合单元Modal_fusion用于在通道维度对深度视觉语义特征与深度混合声学特征进行连接并经过一个线性层做维度变换,得到融合的视听觉特征,融合的视听觉特征可以通过以下算式进行表示:=P([a;Upsample(V)]),其中f为融合的视听觉特征;第二TCN单元TCN-2与激活-卷积单元PreLU_convld用于根据融合的视听觉特征f预测所述用户语音的掩蔽值(mask);激活单元σ/Tanh用于引入非线性特性对所述掩蔽值进行映射输出处理;矩阵点乘单元Matrix_dm用于将激活单元σ/Tanh输出的mask与混合声学特征进行矩阵点乘运算,得到所述用户的声学特征。使用sigmoid函数进行非线性特性引入,当采用短时傅里叶变换得到所述混合声学特征时,激活单元ø/Tanh可选使用Tanh函数进行非线性特性引入。[0085]在一些实施例中,当通过所述预设视觉语音分离网络得到所述用户的声学特征时,可以采用预设音频解码器对所述用户的声学特征进行解码,得到所述用户的语音信号。所述预设音频解码器可以是基于CNN构建得到的解码器,但并不以CNN为限,也可以是其他构建所述预设音频解码器的构建方式可以是现有方案记载的构建方式,在此不再赘述。[0086]可以理解,当采用短时傅里叶变换算法对所述音频信息进行编码得到混合声学特征时,此时,可以采用短时傅里叶逆变换算法对所述用户的声学特征进行解码,得到所述用户的语音信号。[0087]在一些实施例中,由于是采用CNN或者短时傅里叶变换算法对所述音频信息进行时域编码,解码得到的用户语音信号即为时域语音信号。[0088]上述语音分离方法,基于视觉语义特征并在时域上对混合语音进行语音分离,可以从环境噪声干扰中准确、实时分离出目标说话者的语音,对于未知说话者的语音分离准[0089]参照图5所示,本申请实施例提供的一种语音分离装置110,可应用于图1所示的电子设备100中,电子设备100可以包含有摄像功能以及拾音功能。本实施例中,语音分离装置[0090]获取模块101用于获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息。[0091]编码模块102用于对所述音频信息进行编码,得到混合声学特征。[0092]提取模块103用于从所述视频信息中提取所述用户的视觉语义特征,所述视觉语义特征包括所述用户在说话过程中的面部运动特征。11[0093]分离模块104用于将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征。[0094]解码模块105用于对所述用户的声学特征进行解码,得到所述用户的语音信号。[0095]可以理解,以上装置110中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。例如,以上各个模块可以为单独设立的处理元件,也可以集成在终端的某一个芯片中实现,此外,也可以以程序代码的形式存储于控制器的存储元件中,由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路芯片,具有信号的处理能力。该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,CPU),还可以是被配置成实施以上功能模块的一个或多个集成电路,例如:一个或多个特定集成电路(application-specificintegratedcircuit,ASIC),或,一个或多个微处理器(digitalsignalprocessor,DSP),或,一个或者多个现场可编程门阵列(field-programmablegatearray,FPGA)等。[0096]参考图6,为本申请实施例提供的电子设备100的硬件结构示意图。如图6所示,电子设备100可以包括处理器1001、存储器1002、通信总线1003、摄像头组1005及扬声器组件1006。存储器1002用于存储一个或多个计算机程序1007。一个或多个计算机程序1007被配置为被该处理器1001执行。该一个或多个计算机程序1007包括指令,上述指令可以用于实现在电子设备100中执行上述语音分离方法或者上述语音分离装置110。[0097]可以理解的是,本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆[0098]处理器1001可以包括一个或多个处理单元,例如:处理器1001可以包括应用处理器(applicationprocessor,AP),图形处理器(graphicsprocessingunit,GPU),图像信号处理器(imagesignalprocessor,ISP),控制器,视频编解码器,DSP,CPU,基带处理器,和/或神经网络处理器(neural-networkprocessingunit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。[0099]处理器1001还可以设置有存储器,用于存储指令和数据。在一些实施例中,处理器1001中的存储器为高速缓冲存储器。该存储器可以保存处理器1001刚用过或循环使用的指令或数据。如果处理器1001需要再次使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器1001的等待时间,因而提高了系统的效率。[0100]在一些实施例中,处理器1001可以包括一个或多个接口。接口可以包括集成电路(inter-integratedcircuit,I2C)接口,集成电路内置音频(inter-integratedcircuitsound,I2S)接口,脉冲编码调制(pulsecodemodulation,PCM)接口,通用异步收发传输器(universalasynchronousreceiver/transmitter,UART)接口,移动产业处理器接口(mobileindustrypr[0101]在一些实施例中,存储器1002可以包括高速随机存取存储器,还可以包括非易失易失性固态存储器件。[0102]摄像头组件1004用于拍摄说话者的脸部信息,以生成包含说话者脸部的视频信息,摄像头组件1004可以包括镜头、图像传感器、图像信号处理器等。麦克风组件1005用于录制说话者的声音及周围环境声音,得到包含用户语音的音频信息,麦克风组件1005可以包括麦克风及与麦克风配合的外围电路或元件。扬声器组件1006用于播放经过语音分离处理得到的说话者的声音,扬声器组件1006可以包括扬声器及与扬声器配合的外围电路或元件。[0103]本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的语音分离方法。[0104]本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音分离方法。[0105]另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音分离方法。[0106]其中,本实施例提供的第一电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。[0107]通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年铜川职业技术学院中国近现代史纲要期末考试模拟题附答案
- 2026年反洗钱远程培训终结性考试题库含答案(b卷)
- 2024年会东县幼儿园教师招教考试备考题库汇编
- 2026年成都农业科技职业学院单招职业技能测试模拟测试卷附答案
- 2026年大学生心理健康教育考试题库带答案
- 2026年低压电工操作证理论全国考试题库【学生专用】
- 2026年高校教师资格证《高校教师职业道德》题库附参考答案【夺分金卷】
- 2025天津市天宾服务中心所属国有企业招聘(公共基础知识)综合能力测试题附答案
- 2025年内蒙古辅警协警招聘考试真题必考题
- 2026年政工职称考试题库含完整答案(历年真题)
- 对外汉语教学法智慧树知到期末考试答案章节答案2024年西北师范大学
- 华北地区大雾分析报告
- 咳嗽咳痰的中医护理
- 二年级上学期语文非纸笔考试试题
- 肝恶性肿瘤护理教学查房课件
- 毛泽东思想和中国特色社会主义理论体系概论知识点归纳
- 23CG60 预制桩桩顶机械连接(螺丝紧固式)
- 南充职业技术学院辅导员考试题库
- 模具外协作业流程
- 法定代表人的委托书 法定代表人委托书原件(3篇)
- 公安机关业务技术用房建设标准
评论
0/150
提交评论