语音的产生机理课件_第1页
语音的产生机理课件_第2页
语音的产生机理课件_第3页
语音的产生机理课件_第4页
语音的产生机理课件_第5页
已阅读5页,还剩251页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物认证技术Biometrics生物认证技术Biometrics第五章声纹识别语音的产生机理课件内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1引言声音是携带信息的极其重要的媒体(20%)声音是通过空气传播的一种连续的波,叫声波,也具有反射、折射和衍射现象。声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。带宽为20Hz-20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。声音是时基类媒体。引言声音是携带信息的极其重要的媒体(20%)说的是什么内容?是谁在说话?计算机去说话?怎么把话说好?····语音识别············声纹识别········文语转换···说话水平评估说的是什么语言?····语种识别引言语音处理研究的基本内容说的是什么内容?是谁在说话?计算机去说话?怎么把话说好?··引言Speaker,orvoice,recognitionisabiometricmodalitythatusesanindividual’svoiceforrecognitionpurposes.说话人识别(声纹识别)是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。Itisadifferenttechnologythan“speechrecognition”,whichrecognizeswordsastheyarearticulated,whichisnotabiometric.声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。引言Speaker,orvoice,recogniti引言Thespeakerrecognitionprocessreliesonfeaturesinfluencedbyboththephysicalstructureofanindividual’svocaltractandthebehavioralcharacteristicsoftheindividual.声音是个复杂的信号,说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中,所有的这些差异都可以被用来区别不同的用户。它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。引言Thespeakerrecognitionproc引言说话人识别的特殊优势对用户干扰少,易被用户接受最经济的方法之一,输入设备造价低廉语音获取非接触,具备卫生方面的安全性适用基于电信网络的应用中

因此,说话人识别研究具有巨大应用前景引言说话人识别的特殊优势引言声纹分析技术的应用领域:信息查询领域的应用在电话交易的应用在PC以及手持式设备上面的应用在保安系统以及证件防伪中的应用与二维条码技术相结合的防伪应用引言声纹分析技术的应用领域:挑战说话人的发音经常与环境、情绪、健康状态有密切关系。语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不同,指纹是静态的、固定不变的生理特性,而说话人特征具有长时变动特性,会随时间、年龄的变化而变化。如感冒、声道管疾病,都有可能使发出的声音改变。情绪变化也是一个因素,大声喊叫的时候,声道的形状显然同正常状态有很大的不同。挑战说话人的发音经常与环境、情绪、健康状态有密切关系。挑战声音往往是可以模仿的,还可以预先录制起来,如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证,不能采用同用户的其他特征相结合的办法。挑战声音往往是可以模仿的,还可以预先录制起来,如何区别真假声挑战线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、同一线路在不同时期噪声情况也会不同,噪声的处理也很有难度。噪声可能导致语音信号在整个时域空间上的污染,甚至有可能也对频域特征造成污染,这就给提取出正确的反映说话人的特征,造成了很大的困难。挑战线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1历史以人们的语音作为身份认证的手段,据说是从1660年英国查尔斯一世之死的判决开始的,首次利用语音作为推断犯人作案的线索。其后随着技术的发展,电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了关注。历史以人们的语音作为身份认证的手段,据说是从1660年英国历史从1937年开始,以C.A.Lindbergh先生的儿子拐骗事件为开端,对语音的说话人个性开展了科学的测量和研究。1945年,美国贝尔实验室的R.K.Pooter发明了语音频谱图,能把所谓的声纹(voiceprint)动描述出来。1962年,贝尔实验室的L.G.Kersta第一次介绍了采用上述方法进行说话人识别的可能性。1966年,美国法院第一次采用此方法进行了取证。历史从1937年开始,以C.A.Lindbergh先历史原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听觉判断是谁的声音。随着计算机的发展,自动说话人识别(ASR)的研究得到了迅速的发展。自动说话人识别是指利用计算机技术,不需要人们的干预,自动的进行身份认证。历史原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1语音的产生机理众所周知,发声从肺部挤出空气开始,空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动,进一步强化共振,最终构成声音。这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中,口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容积改变,则发音也改变了,3个频率的组合产生声音。

语音的产生机理众所周知,发声从肺部挤出空气开始,空气通过振动语音的产生机理语音产生器官发声器官——语音合成肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形状复杂的管道声带和声门喉与气管的接口处称为声门声道其中喉以上的部分称为声道,随着发出语音的不同其形状是变化的语音的产生机理语音产生器官语音的产生机理产生语音的能量,绝大多数来源于正常呼吸时肺部呼出的稳定气流有极少数语种,如某些非洲语言,是利用吸气气流来发音的声带——最重要的发声器官既是一个阀门又是一个振动部件呼吸时左右两声带打开(声门开)在说话的时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-…”声门,从而冲击声带产生振动,然后通过声道响应变成语音语音的产生机理产生语音的能量,绝大多数来源于正常呼吸时肺部呼声道调制声道咽、口腔和鼻腔从声门延伸至口唇的非均匀截面的声管,约17cm功能谐振腔:放大某一频率而衰减其他频率分量谐振频率:由每一瞬间的声道外形决定,又称为共振峰,是声道的重要声学特征声道调制声道语音的频率性质音调周期/基音周期声门开启-闭合一次的时间即振动周期基频基音周期的倒数,声带振动的基本频率音调声带振动的频率(即基音)决定了声音频率的高低,频率快则音调高,否则音调低人的基音范围70~350HZ,儿童和青年女性偏高,男性偏低语音的频率性质音调周期/基音周期语音的产生机理浊音(voicedsounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。如发/U/、/d/、/i/等音清音(unvoicedsounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。如发/∫/音爆破音(plosivesounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。如发/t∫/音时语音的产生机理浊音(voicedsounds):声道打开,语音的产生机理课件发声过程小结人的发声过程包括两个步骤声门/声带产生不同频率的声音准周期气流脉冲或白噪声声道对声源的调制作用激励过程(声门)调制过程(声道)语音辐射发声过程小结人的发声过程包括两个步骤激励过程调制过程语音辐射语音的产生机理肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。语音的产生机理肺中的空气受到挤压形成气流,气流通过声门(声带语音的产生机理语音的产生机理语音信号的产生数学模型激励模型声道模型辐射模型语音信号的产生数学模型激励模型激励模型激励模型非常复杂声门脉冲模型浊音声带振动,声门脉冲如:斜三角形脉冲串随机白噪声清音声带不振动,随机白噪声激励模型激励模型非常复杂内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1声纹识别流程图1说话人识别模型

声纹识别流程图1说话人识别模型声纹识别系统的组成声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征.模式匹配的任务是对训练和识别时的特征模式做相似性匹配。

声纹识别系统的组成声纹识别系统主要包括两部分,即特征检测和模特征Speechsamplesarewaveformswithtimeonthehorizontalaxisandloudnessontheverticalaccess.VoiceSample:Thevoiceinputsignal(topofimage)showstheinputloudnesswithrespecttothetimedomain.Thelowerimage(blue)depictsthespectralinformationofthevoicesignal.Thisinformationisplottedbydisplayingthetimeversusthefrequencyvariations特征Speechsamplesarewaveforms特征特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语音信号,选择和提取表征语音信号的特征。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而语音识别的特征对说话人来讲必须是“共性特征”。较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能。特征特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话人所说的话的信息,也包含了说话人的个性信息,是话音特征和个性特征的混合体。目前还没有将说话人的个性特征从所发语音的语音特征中分离出来的较好办法,从而给有效的特征提取带来了很大的难度。所有提取出来的特征向量中,虽然在一定程度上表征了说话人的个性特征,不可避免的包含有特定话音的特征。特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱听觉特征不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征如感知线性预测(PLP)分析语音信号分析方法分类时域特征

根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。根据所分析的参数类型,语音信号分析可以分成时域分析和变换域短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性短时分析技术语音信号是非平稳时变信号语音信号的预处理

在对语音信号进行数字处理之前,首先要将模拟语音信号s(t)离散化为s(n).实际中获得数字语音的途径一般有两种,正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的预处理在对语音信号进行数

语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8kHz即可。有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。语音信号的频率范围通常是300~3400Hz,一般情况下取语音信号的预加重处理

预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现:设n时刻的语音采样值为x(n)

,经过预加重处理后的结果为

语音信号的预加重处理预加重目的:为了对语音的高频部分进高通滤波器的幅频特性和相频特性如下

高通滤波器的幅频特性和相频特性如下预加重前和预加重后的一段语音信号时域波形

预加重前和预加重后的一段语音信号时域波形

预加重前和预加重后的一段语音信号频谱

预加重前和预加重后的一段语音信号频谱语音信号的加窗处理

由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms~30ms)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。

语音信号的加窗处理由于发音器官的惯性运动,可以认为在一小说话人识别(9/14)说话人识别(9/14)语音信号的分帧实现方法:采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧。分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2。

语音信号的分帧实现方法:图3.3给出了帧移与帧长示意图。

图3.3给出了帧移与帧长示意图。加窗常用的两种方法:矩形窗,窗函数如下:汉明(Hamming)窗,窗函数如下加窗常用的两种方法:汉明(Hamming)窗,窗函数如下矩形窗及其频谱如下矩形窗及其频谱如下汉明窗及其频谱如下思考:两种窗效果有何异同?汉明窗及其频谱如下思考:两种窗效果有何异同?加窗方法示意图:加窗方法示意图:窗长的选择一般选取100~200。原因如下:当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。

窗长的选择

语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[]表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:语音信号的分帧处理,实际上就是对各帧进行某种几种常见的短时处理方法是:1.对应于能量;2.,对应于平均过零率;3.对应于自相关函数;几种常见的短时处理方法是:1.对应于能量;2.,对应于平均过短时平均能量

1.短时平均能量定义定义n时刻某语音信号的短时平均能量En为:

当窗函数为矩形窗时,有短时平均能量1.短时平均能量定义当窗函数为矩形窗时,有若令则短时平均能量可以写成:

若令2.En特点:En反映语音信号的幅度或能量随时间缓慢变化的规律。3.窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。

如果窗选得很长,En不能反映语音信号幅度变化。

窗选得太窄,En将不够平滑。通常,当取样频率为10kHz时,选择窗宽度N=100~200是比较合适的。2.En特点:En反映语音信号的幅度或能量随时间缓慢变不同矩形窗长N时的短时能量函数

不同矩形窗长N时的短时能量函数

短时平均能量的主要用途如下:

1)可以作为区分清音和浊音的特征参数。

2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。

3)可以作为辅助的特征参数用于语音识别中。短时平均能量的主要用途如下:MATLAB的具体实现如下:1、用Cooledit读入语音“我到北京去”。2、将读入的语音文件wav保存为txt文件,设置采样率为8kHz,16位,单声道。3、把保存的文件zqq.txt读入Matlab。fid=fopen('zqq.txt','rt');x=fscanf(fid,'%f');fclose(fid);4、对采集到的语音样点值进行分帧。MATLAB的具体实现如下:3.4短时平均幅度函数

为了克服短时能量函数计算x2(m)的缺点,定义了短时平均幅度函数:3.4短时平均幅度函数为了克服短

Mn与En的比较:

1.Mn能较好地反映清音范围内的幅度变化;

2.Mn所能反映幅度变化的动态范围比En好;

3.

Mn反映清音和浊音之间的电平差次于En。

Mn与En的比较:短时平均幅度函数随矩形窗窗长N变化的情况短时平均幅度函数随矩形窗窗长N变化的情况短时平均过零率

1.定义

在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为

短时平均过零率1.定义在上式中,用1/2N

作为幅值,是考虑了对该窗口范围内的过零数取平均的意思。在上式中,用1/2N作为幅值,是考虑了对该窗口范围内的过零

考虑到w(n-m)的非零值范围为n-m≥0,即m≤n,以及n-m≤N-1,故m≥n-N+1,因此短时平均过零率可以改写为:(定义式)考虑到w(n-m)的非零值范围为n-m≥0,2.实现短时平均过零率2.实现短时平均过零率女声“我到北京去”的短时平均过零次数的变化曲线:女声“我到北京去”的短时平均过零次数的变化曲线:3.应用

清音过零率高,浊音过零率低。局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。3.应用端点检测

端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。有效的端点检测不仅能使处理时间减到最少,而且能抑制无声段的噪声干扰,提高语音处理的质量。端点检测端点检测目的:从包含语音的一段信号中确定时域特征短时平均能量N为分析窗的宽度,St(n)

表示第t帧中第n个采样点的信号值短时平均过零率时域特征短时平均能量过零率tS(t)Oneframe20msOneframe20ms过零率tS(t)Oneframe20msOneframe时域特征能量和过零率参数的缺点对于说话人和背景噪声的鲁棒性较差目前时域参数多用在语音的预处理上如端点检测,判断语音的开始与结束也有人把它作为模型参数进行使用时域特征能量和过零率参数的缺点频域分析为什么要进行频域分析?稳态语音的生成模型由线性系统组成,其被一随时间做周期变化或者随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性语音信号的频谱具有非常明显的语音、声学意义,可以获得重要的语音特征,如共振峰共振峰是指在声音的频谱中能量相对集中的一些区域共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质频域分析为什么要进行频域分析?广义频域分析广义频谱分析频谱倒频谱功率谱频谱包络常用频谱分析方法傅里叶变换法线性预测法带通滤波器组法广义频域分析广义频谱分析频域分析基本工具——傅里叶变换标准傅里叶变换适用于周期、平稳随机信号不适合于非平稳的语音信号短时傅里叶变换短时谱,有限长度的傅里叶变换即对某一帧语音进行傅里叶变换窗选语音信号的标准傅里叶变换特别适用于“语音分析和语音合成”因为其可以精确的恢复语音波形频域分析基本工具——傅里叶变换反卷积问题定义语音信号的产生模型线性非移变系统的输出,即声门激励信号和声道冲激响应的卷积A=L*R问题已知A,如何求解L和R?解卷(反卷积)由卷积结果求得参与卷积的各个信号分量反卷积问题定义语音信号的产生模型反卷积方法倒谱(同态)分析线性预测分析反卷积方法倒谱(同态)分析同态分析基本思路,三步走:Z变换:卷积信号乘积信号对数运算:乘积信号加性运算逆Z变换:得到满足加性的时域信号分析得到的逆Z变换结果称为复倒频谱ComplexCepstrum倒谱同态分析/同态滤波/倒谱分析Spectrum同态分析基本思路,三步走:Spectrum倒谱(同态)分析应用倒谱分析可以得到某些参数的近似表示声门激励的基音周期声门的振动特征区分浊音与清音浊音:声带振动,声门开闭清音:声带不振动声道响应的共振峰频率声道(咽、口腔和鼻腔)特征倒谱(同态)分析应用倒谱分析可以得到某些参数的近似表示反卷积方法倒谱(同态)分析线性预测分析反卷积方法倒谱(同态)分析线性预测分析——概况线性预测LinearPrediction,LP1947年,维纳首次提出1967年,板仓等人应用于语音分析和合成中LP是首次得到成功实用的语音分析技术功能估计基本的语音参数包括基音、共振峰、谱、声道面积函数用于低带宽传输和存储语音优势精确估计参数;参数少但可以有效而准确的表示语音波形及其频谱性质;速度快,效率高。线性预测分析——概况线性预测LinearPredicti线性预测分析——基本思路基本概念一个语音的采样可以用过去若干个语音采样的线性组合来逼近分析思路通过使实际语音采样和线性预测采样之间差值的平方和达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组线性预测系数线性预测分析——基本思路基本概念线性预测分析——基本思路线性预测分析——基本思路线性预测分析——模型将信号看作某一模型(系统)的输出将语音生成的激励、声道和辐射模型全部谱效应简化为一个时变的数字滤波器用模型参数来描述信号,其参数包括:浊音/清音判决,浊音基音周期

增益常数,数字滤波器参数等线性预测分析——模型将信号看作某一模型(系统)的输出语音信号的线性预测分析求解数字滤波器的参数和增益常数的过程即语音信号的线性预测分析输出——LPC,LPcoefficients线性预测系数:参数、增益常数注意语音信号具有时变性,所以系数的预测同样要按帧进行语音信号的线性预测分析求解数字滤波器的参数和增益常数的过程即线性预测系数(LPC)的计算方法问题转化最后问题转化求解线性方程组的问题LPC的计算方法自相关法格型法引入正向预测/反向预测的概念协方差矩阵法对协方差矩阵进行特征分解线性预测系数(LPC)的计算方法问题转化LPC+倒谱=LPCC基于LP的倒谱分析LPC是语音信号的基本表示参数,可以变换为其他形式的参数在求得LPC后,使用下面的递推公式可以计算出该帧语音的LPC倒谱(LPCC)系数LPC+倒谱=LPCC基于LP的倒谱分析基于LPC的倒谱系数LPCC基于LPC的倒谱系数LPCC基于Mel频率的倒谱MFCC生理支持根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC:Mel-FrequencyCepstrumCoefficients特点MFCC比LPCC更能反映听觉特性,在语音识别系统中有着广泛的应用,是目前公认的性能最好的特征参数之一基于Mel频率的倒谱MFCC生理支持Mel-频率目的模拟人耳对不同频率语音的感知人的耳朵由外耳、中耳和内耳构成,起重要作用的是内耳耳蜗。对于不同的声音频率,耳蜗内的基底膜运动的幅度也不同。通常在几百赫兹以上的声音信号,频率沿基底膜是对数分布的;几百赫兹以下是线性分布的。通过耳蜗处理,把时域语音信号分解成在不同的空间轴位置上有不同频率特性的信号,这就是耳蜗的频率分解。Mel-频率目的Mel-频率人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率将频谱转换到基于Mel频标的非线性频谱在Mel频域内,人对音调的感知能力为线性关系如果两段语音的Mel频率差两倍,人在感知上也差两倍Mel-频率Mel-频率公式:频率-Mel-频率:--频率--Mel-频率Mel-频率频率(Hz)Mel-频率公式:--频率--Mel-频率Mel-频率频MFCC计算过程计算流程:DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCCMFCC计算过程计算流程:DFT时域信号线性谱域MelLogMel带通滤波利用D个三角带通滤波器分别与离散谱{St(k)}做卷积,其中三角滤波器的中心频率和边界频率与相应的Mel频标对齐(带宽在Mel标度上是相等的)Mel带通滤波利用D个三角带通滤波器分别与离散谱{St(k倒谱系数计算求出每个频段的对数能量输出三角滤波器的输出最后用DCT将这些系数变换到倒谱域倒谱系数的维数通常取DCT系数的前12维倒谱系数计算求出每个频段的对数能量输出声学特征小结短时平均能量/幅度/功率短时平均过零率线性预测系数(LPC)LPC倒谱特征(LPCC)Mel倒谱参数(MFCC)声学特征小结短时平均能量/幅度/功率内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1说话人识别(10/14)说话人识别模型主要有三类:基于模板的模型:K-NN(K近邻法)DTW(动态时间规整)VQ(矢量量化)随机模型:GMM(高斯混合模型)HMM(隐马尔可夫模型)基于人工神经网络的模型NN(神经元网络)SVM(支持向量机)说话人识别(10/14)说话人识别模型主要有三类:说话人识别(11/14)Feature1Feature2:class-Apoint:class-Bpoint:pointwithunknownclassCircleof3-nearestneighborsThepointisclassBvia3-NNR.K近邻法(K-NNR):1.对给定的点找到前K个最近的邻居.2.对这K个最近的邻居通过投票法决定这个特征点属于哪个类.说话人识别(11/14)Feature1Feature2说话人识别(12/14)一维高斯混合模型说话人识别(12/14)一维高斯混合模型二维高斯混合模型说话人识别(13/14)二维高斯混合模型说话人识别(13/14)三维高斯混合模型说话人识别(14/14)三维高斯混合模型说话人识别(14/14)情感和情感语音(1/7)普通心理学/现代心理学《简明牛津英语词典》从心理学的角度给情绪下的定义是:“情绪是一种不同于认知或意志的精神上的情感或感情。”情绪(emotion)是人对客观事物的态度和体验。这是从最广泛的意义上给情绪下的定义。情绪是人(包括动物)所具有的一种心理形式。它与认识活动不同,具有主干的体验形式(如喜怒悲剧惧等感受色彩)、外部表现形式(如面部表情),以及独特的生理基础(如皮层下等部位的特定活动)。情感和情感语音(1/7)普通心理学/现代心理学情感和情感语音(2/7)情绪可以分为基本情绪和复合情绪,口语中情绪表达一般不强烈,更多的是复合情绪而不是某一种基本情绪。目前用的最多的基本情绪分类为:害怕、生气、高兴、难过、惊讶、厌恶。情感和情感语音(2/7)情绪可以分为基本情绪和复合情绪,口语情感和情感语音(3/7)研究热点情感语音库情感语音分析情感语音识别情感语音合成情感和情感语音(3/7)研究热点语音产生语音理解生理过程语音产生语音理解生理过程图1中性语音“你是个好人”的语音特征情感和情感语音(4/7)语音信号中的情感特征基音频率发音持续时间能量韵律结构音质……

世间的问题,原来极复杂的,可以用极简单的事例,加以说明图1中性语音“你是个好人”的语音特征情感和情感语音(4/情感和情感语音(5/7)

情感与语音参数之间的关系

汉语语速稍快较快,但有时较慢稍慢很快非常慢平均音高非常高很高稍低非常高非常低音高范围很宽很宽稍窄很宽稍宽音节基频高线变化陡峭,在重读音节处平滑,上升变化下降变化正常宽,下降终端变化音节基频低线变化没有太多变化平滑,上升变化下降变化正常下降终端变化音强较高较高较低正常较低音质有呼吸声,胸腔声调有呼吸声,响亮共鸣声不规则发声嘟囔的胸鸣声清晰度焦急正常模糊准确正常情感和情感语音(5/7)情感与语音参数之间的关系情感和情感语音(6/7)情感和情感语音(6/7)情感和情感语音(7/7)传统说话人识别面临挑战中性语音低层的短时声学特征人机交互中情感计算的加强说话人发声状态的情感变异语速音高音长因此,需要情感鲁棒说话人识别模型情感和情感语音(7/7)传统说话人识别面临挑战内容情感和情感语音2.情感与说话人识别3.说话人识别技术1.内容情感和情感语音2.情感与说话人识别3.说话人识别技术1.情感语音对说话人识别系统性能影响(1/4)识别率情感语音对说话人识别系统性能影响(1/4)识别率情感语音对说话人识别系统性能影响(2/4)与训练语音的文本相关性文本的情感建模方式得分选择策略情感语音对说话人识别系统性能影响(2/4)与训练语音的文本相情感语音对说话人识别系统性能影响(3/4)训练文本的情感对于中性语音,诱发情感信息对于情感语音,更好地表达情感情感语料越多越好,但是情感语料的增加破坏了系统的友好性,一般每种情感可录10s;与训练语音的文本的相关性文本内容丰富,文本相关的系统性能要好 情感语音对说话人识别系统性能影响(3/4)训练文本的情感情感语音对说话人识别系统性能影响(4/4)建模方法情感语料充足时,单独为每个说话人的每种情感建立一个说话人模型得分选择策略在无法自动识别情感状态的情况下,可采用取最高得分策略情感语音对说话人识别系统性能影响(4/4)建模方法建设抗情感变化的说话人系统的对策(1/2)前台诱发用户通过文本提示框训练时,提供文本内容丰富,文本情感丰富的语料测试时,提供文本相关的语料建设抗情感变化的说话人系统的对策(1/2)前台诱发用户建设抗情感变化的说话人系统的对策(2/2)系统后台处理(算法改进)在模型训练时,是说话人模型尽可能包容不同情感下的特征变化信息通过对说话人分类情感模型,使得训练与测试情感下的情感能够匹配。优化得分及选择合适的取得分策略建设抗情感变化的说话人系统的对策(2/2)系统后台处理(算法情感鲁棒说话人系统模型决策特征情感鲁棒说话人识别模型(1/2)情感鲁棒模型决策特征情感鲁棒说话人识别模型(1/2)情感鲁棒说话人识别模型(2/2)特征层图1基于情感拓展的说话人识别模型

模型层得分层拓展情感信息情感语音聚类语音帧得分规整

如何拓展情感信息,使说话人模型包容不同情感下的特征变化信息如何有效利用情感信息,来建立说话人模型如何通过规整,消除情感差异,增强目标说话人模型的可信度情感鲁棒说话人识别模型(2/2)特征层图1基于情感拓展的情感鲁棒说话人识别研究现状(1/2)研究机构日内瓦大学浙江大学清华大学情感鲁棒说话人识别研究现状(1/2)研究机构情感鲁棒说话人识别研究现状(2/2)方法特征合适的语音参数倒谱线性补偿根据基频去帧跟据情感模型间参数迁移规律基于规则的特征修正模型结构化训练方法EmotionattributeprojectionEmotion-added基于情感语音聚类的说话人建模方法得分E-NormFLRS情感鲁棒说话人识别研究现状(2/2)方法基于情感拓展的比较(MASC)特征修正对生气、高兴和惊慌较好聚类改善了中性和悲伤得分对说话人确认系统提高更大32.13%39.71%45.68%20.44%基于情感拓展的比较(MASC)32.13%39.71%45.展望情感特征提取方面使用更多形式的情感特征更准确的特征提取方法特征建模方面如何采用一个更好的模型来刻画高层信息刻画低层的声道特征与高层信息之间的联系将补偿算法与情感状态联系起来得分方面寻找更合适的归整算法其他评价情感补偿算法的标准高层信息表现情感特性展望情感特征提取方面声纹识别技术的优缺点优势:1.蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;2.获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;3.适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;4.声纹辨认和确认的算法复杂度低;5.配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率等等。声纹识别技术的优缺点优势:声纹识别技术的优缺点缺点:

1.同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;

2.不同的麦克风和信道对识别性能有影响;

3.环境噪音对识别有干扰;

4.混合说话人的情形下人的声纹特征不易提取等等声纹识别技术的优缺点缺点:Questions?Questions?生物认证技术Biometrics生物认证技术Biometrics第五章声纹识别语音的产生机理课件内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1引言声音是携带信息的极其重要的媒体(20%)声音是通过空气传播的一种连续的波,叫声波,也具有反射、折射和衍射现象。声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。带宽为20Hz-20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。声音是时基类媒体。引言声音是携带信息的极其重要的媒体(20%)说的是什么内容?是谁在说话?计算机去说话?怎么把话说好?····语音识别············声纹识别········文语转换···说话水平评估说的是什么语言?····语种识别引言语音处理研究的基本内容说的是什么内容?是谁在说话?计算机去说话?怎么把话说好?··引言Speaker,orvoice,recognitionisabiometricmodalitythatusesanindividual’svoiceforrecognitionpurposes.说话人识别(声纹识别)是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。Itisadifferenttechnologythan“speechrecognition”,whichrecognizeswordsastheyarearticulated,whichisnotabiometric.声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。引言Speaker,orvoice,recogniti引言Thespeakerrecognitionprocessreliesonfeaturesinfluencedbyboththephysicalstructureofanindividual’svocaltractandthebehavioralcharacteristicsoftheindividual.声音是个复杂的信号,说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中,所有的这些差异都可以被用来区别不同的用户。它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。引言Thespeakerrecognitionproc引言说话人识别的特殊优势对用户干扰少,易被用户接受最经济的方法之一,输入设备造价低廉语音获取非接触,具备卫生方面的安全性适用基于电信网络的应用中

因此,说话人识别研究具有巨大应用前景引言说话人识别的特殊优势引言声纹分析技术的应用领域:信息查询领域的应用在电话交易的应用在PC以及手持式设备上面的应用在保安系统以及证件防伪中的应用与二维条码技术相结合的防伪应用引言声纹分析技术的应用领域:挑战说话人的发音经常与环境、情绪、健康状态有密切关系。语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不同,指纹是静态的、固定不变的生理特性,而说话人特征具有长时变动特性,会随时间、年龄的变化而变化。如感冒、声道管疾病,都有可能使发出的声音改变。情绪变化也是一个因素,大声喊叫的时候,声道的形状显然同正常状态有很大的不同。挑战说话人的发音经常与环境、情绪、健康状态有密切关系。挑战声音往往是可以模仿的,还可以预先录制起来,如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证,不能采用同用户的其他特征相结合的办法。挑战声音往往是可以模仿的,还可以预先录制起来,如何区别真假声挑战线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、同一线路在不同时期噪声情况也会不同,噪声的处理也很有难度。噪声可能导致语音信号在整个时域空间上的污染,甚至有可能也对频域特征造成污染,这就给提取出正确的反映说话人的特征,造成了很大的困难。挑战线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1历史以人们的语音作为身份认证的手段,据说是从1660年英国查尔斯一世之死的判决开始的,首次利用语音作为推断犯人作案的线索。其后随着技术的发展,电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了关注。历史以人们的语音作为身份认证的手段,据说是从1660年英国历史从1937年开始,以C.A.Lindbergh先生的儿子拐骗事件为开端,对语音的说话人个性开展了科学的测量和研究。1945年,美国贝尔实验室的R.K.Pooter发明了语音频谱图,能把所谓的声纹(voiceprint)动描述出来。1962年,贝尔实验室的L.G.Kersta第一次介绍了采用上述方法进行说话人识别的可能性。1966年,美国法院第一次采用此方法进行了取证。历史从1937年开始,以C.A.Lindbergh先历史原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听觉判断是谁的声音。随着计算机的发展,自动说话人识别(ASR)的研究得到了迅速的发展。自动说话人识别是指利用计算机技术,不需要人们的干预,自动的进行身份认证。历史原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1语音的产生机理众所周知,发声从肺部挤出空气开始,空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动,进一步强化共振,最终构成声音。这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中,口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容积改变,则发音也改变了,3个频率的组合产生声音。

语音的产生机理众所周知,发声从肺部挤出空气开始,空气通过振动语音的产生机理语音产生器官发声器官——语音合成肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形状复杂的管道声带和声门喉与气管的接口处称为声门声道其中喉以上的部分称为声道,随着发出语音的不同其形状是变化的语音的产生机理语音产生器官语音的产生机理产生语音的能量,绝大多数来源于正常呼吸时肺部呼出的稳定气流有极少数语种,如某些非洲语言,是利用吸气气流来发音的声带——最重要的发声器官既是一个阀门又是一个振动部件呼吸时左右两声带打开(声门开)在说话的时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-…”声门,从而冲击声带产生振动,然后通过声道响应变成语音语音的产生机理产生语音的能量,绝大多数来源于正常呼吸时肺部呼声道调制声道咽、口腔和鼻腔从声门延伸至口唇的非均匀截面的声管,约17cm功能谐振腔:放大某一频率而衰减其他频率分量谐振频率:由每一瞬间的声道外形决定,又称为共振峰,是声道的重要声学特征声道调制声道语音的频率性质音调周期/基音周期声门开启-闭合一次的时间即振动周期基频基音周期的倒数,声带振动的基本频率音调声带振动的频率(即基音)决定了声音频率的高低,频率快则音调高,否则音调低人的基音范围70~350HZ,儿童和青年女性偏高,男性偏低语音的频率性质音调周期/基音周期语音的产生机理浊音(voicedsounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。如发/U/、/d/、/i/等音清音(unvoicedsounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。如发/∫/音爆破音(plosivesounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。如发/t∫/音时语音的产生机理浊音(voicedsounds):声道打开,语音的产生机理课件发声过程小结人的发声过程包括两个步骤声门/声带产生不同频率的声音准周期气流脉冲或白噪声声道对声源的调制作用激励过程(声门)调制过程(声道)语音辐射发声过程小结人的发声过程包括两个步骤激励过程调制过程语音辐射语音的产生机理肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。语音的产生机理肺中的空气受到挤压形成气流,气流通过声门(声带语音的产生机理语音的产生机理语音信号的产生数学模型激励模型声道模型辐射模型语音信号的产生数学模型激励模型激励模型激励模型非常复杂声门脉冲模型浊音声带振动,声门脉冲如:斜三角形脉冲串随机白噪声清音声带不振动,随机白噪声激励模型激励模型非常复杂内容历史2.语音产生机理3.语音特征4.系统架构5.引言1.内容历史2.语音产生机理3.语音特征4.系统架构5.引言1声纹识别流程图1说话人识别模型

声纹识别流程图1说话人识别模型声纹识别系统的组成声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征.模式匹配的任务是对训练和识别时的特征模式做相似性匹配。

声纹识别系统的组成声纹识别系统主要包括两部分,即特征检测和模特征Speechsamplesarewaveformswithtimeonthehorizontalaxisandloudnessontheverticalaccess.VoiceSample:Thevoiceinputsignal(topofimage)showstheinputloudnesswithrespecttothetimedomain.Thelowerimage(blue)depictsthespectralinformationofthevoicesignal.Thisinformationisplottedbydisplayingthetimeversusthefrequencyvariations特征Speechsamplesarewaveforms特征特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语音信号,选择和提取表征语音信号的特征。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而语音识别的特征对说话人来讲必须是“共性特征”。较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能。特征特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话人所说的话的信息,也包含了说话人的个性信息,是话音特征和个性特征的混合体。目前还没有将说话人的个性特征从所发语音的语音特征中分离出来的较好办法,从而给有效的特征提取带来了很大的难度。所有提取出来的特征向量中,虽然在一定程度上表征了说话人的个性特征,不可避免的包含有特定话音的特征。特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱听觉特征不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征如感知线性预测(PLP)分析语音信号分析方法分类时域特征

根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。根据所分析的参数类型,语音信号分析可以分成时域分析和变换域短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性短时分析技术语音信号是非平稳时变信号语音信号的预处理

在对语音信号进行数字处理之前,首先要将模拟语音信号s(t)离散化为s(n).实际中获得数字语音的途径一般有两种,正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的预处理在对语音信号进行数

语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8kHz即可。有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。语音信号的频率范围通常是300~3400Hz,一般情况下取语音信号的预加重处理

预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现:设n时刻的语音采样值为x(n)

,经过预加重处理后的结果为

语音信号的预加重处理预加重目的:为了对语音的高频部分进高通滤波器的幅频特性和相频特性如下

高通滤波器的幅频特性和相频特性如下预加重前和预加重后的一段语音信号时域波形

预加重前和预加重后的一段语音信号时域波形

预加重前和预加重后的一段语音信号频谱

预加重前和预加重后的一段语音信号频谱语音信号的加窗处理

由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms~30ms)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。

语音信号的加窗处理由于发音器官的惯性运动,可以认为在一小说话人识别(9/14)说话人识别(9/14)语音信号的分帧实现方法:采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧。分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2。

语音信号的分帧实现方法:图3.3给出了帧移与帧长示意图。

图3.3给出了帧移与帧长示意图。加窗常用的两种方法:矩形窗,窗函数如下:汉明(Hamming)窗,窗函数如下加窗常用的两种方法:汉明(Hamming)窗,窗函数如下矩形窗及其频谱如下矩形窗及其频谱如下汉明窗及其频谱如下思考:两种窗效果有何异同?汉明窗及其频谱如下思考:两种窗效果有何异同?加窗方法示意图:加窗方法示意图:窗长的选择一般选取100~200。原因如下:当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。

窗长的选择

语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[]表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:语音信号的分帧处理,实际上就是对各帧进行某种几种常见的短时处理方法是:1.对应于能量;2.,对应于平均过零率;3.对应于自相关函数;几种常见的短时处理方法是:1.对应于能量;2.,对应于平均过短时平均能量

1.短时平均能量定义定义n时刻某语音信号的短时平均能量En为:

当窗函数为矩形窗时,有短时平均能量1.短时平均能量定义当窗函数为矩形窗时,有若令则短时平均能量可以写成:

若令2.En特点:En反映语音信号的幅度或能量随时间缓慢变化的规律。3.窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。

如果窗选得很长,En不能反映语音信号幅度变化。

窗选得太窄,En将不够平滑。通常,当取样频率为10kHz时,选择窗宽度N=100~200是比较合适的。2.En特点:En反映语音信号的幅度或能量随时间缓慢变不同矩形窗长N时的短时能量函数

不同矩形窗长N时的短时能量函数

短时平均能量的主要用途如下:

1)可以作为区分清音和浊音的特征参数。

2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。

3)可以作为辅助的特征参数用于语音识别中。短时平均能量的主要用途如下:MATLAB的具体实现如下:1、用Cooledit读入语音“我到北京去”。2、将读入的语音文件wav保存为txt文件,设置采样率为8kHz,16位,单声道。3、把保存的文件zqq.txt读入Matlab。fid=fopen('zqq.txt','rt');x=fscanf(fid,'%f');fclose(fid);4、对采集到的语音样点值进行分帧。MATLAB的具体实现如下:3.4短时平均幅度函数

为了克服短时能量函数计算x2(m)的缺点,定义了短时平均幅度函数:3.4短时平均幅度函数为了克服短

Mn与En的比较:

1.Mn能较好地反映清音范围内的幅度变化;

2.Mn所能反映幅度变化的动态范围比En好;

3.

Mn反映清音和浊音之间的电平差次于En。

Mn与En的比较:短时平均幅度函数随矩形窗窗长N变化的情况短时平均幅度函数随矩形窗窗长N变化的情况短时平均过零率

1.定义

在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为

短时平均过零率1.定义在上式中,用1/2N

作为幅值,是考虑了对该窗口范围内的过零数取平均的意思。在上式中,用1/2N作为幅值,是考虑了对该窗口范围内的过零

考虑到w(n-m)的非零值范围为n-m≥0,即m≤n,以及n-m≤N-1,故m≥n-N+1,因此短时平均过零率可以改写为:(定义式)考虑到w(n-m)的非零值范围为n-m≥0,2.实现短时平均过零率2.实现短时平均过零率女声“我到北京去”的短时平均过零次数的变化曲线:女声“我到北京去”的短时平均过零次数的变化曲线:3.应用

清音过零率高,浊音过零率低。局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。3.应用端点检测

端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。有效的端点检测不仅能使处理时间减到最少,而且能抑制无声段的噪声干扰,提高语音处理的质量。端点检测端点检测目的:从包含语音的一段信号中确定时域特征短时平均能量N为分析窗的宽度,St(n)

表示第t帧中第n个采样点的信号值短时平均过零率时域特征短时平均能量过零率tS(t)Oneframe20msOneframe20ms过零率tS(t)Oneframe20msOneframe时域特征能量和过零率参数的缺点对于说话人和背景噪声的鲁棒性较差目前时域参数多用在语音的预处理上如端点检测,判断语音的开始与结束也有人把它作为模型参数进行使用时域特征能量和过零率参数的缺点频域分析为什么要进行频域分析?稳态语音的生成模型由线性系统组成,其被一随时间做周期变化或者随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性语音信号的频谱具有非常明显的语音、声学意义,可以获得重要的语音特征,如共振峰共振峰是指在声音的频谱中能量相对集中的一些区域共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质频域分析为什么要进行频域分析?广义频域分析广义频谱分析频谱倒频谱功率谱频谱包络常用频谱分析方法傅里叶变换法线性预测法带通滤波器组法广义频域分析广义频谱分析频域分析基本工具——傅里叶变换标准傅里叶变换适用于周期、平稳随机信号不适合于非平稳的语音信号短时傅里叶变换短时谱,有限长度的傅里叶变换即对某一帧语音进行傅里叶变换窗选语音信号的标准傅里叶变换特别适用于“语音分析和语音合成”因为其可以精确的恢复语音波形频域分析基本工具——傅里叶变换反卷积问题定义语音信号的产生模型线性非移变系统的输出,即声门激励信号和声道冲激响应的卷积A=L*R问题已知A,如何求解L和R?解卷(反卷积)由卷积结果求得参与卷积的各个信号分量反卷积问题定义语音信号的产生模型反卷积方法倒谱(同态)分析线性预测分析反卷积方法倒谱(同态)分析同态分析基本思路,三步走:Z变换:卷积信号乘积信号对数运算:乘积信号加性运算逆Z变换:得到满足加性的时域信号分析得到的逆Z变换结果称为复倒频谱ComplexCepstrum倒谱同态分析/同态滤波/倒谱分析Spectrum同态分析基本思路,三步走:Spectrum倒谱(同态)分析应用倒谱分析可以得到某些参数的近似表示声门激励的基音周期声门的振动特征区分浊音与清音浊音:声带振动,声门开闭清音:声带不振动声道响应的共振峰频率声道(咽、口腔和鼻腔)特征倒谱(同态)分析应用倒谱分析可以得到某些参数的近似表示反卷积方法倒谱(同态)分析线性预测分析反卷积方法倒谱(同态)分析线性预测分析——概况线性预测LinearPrediction,LP1947年,维纳首次提出1967年,板仓等人应用于语音分析和合成中LP是首次得到成功实用的语音分析技术功能估计基本的语音参数包括基音、共振峰、谱、声道面积函数用于低带宽传输和存储语音优势精确估计参数;参数少但可以有效而准确的表示语音波形及其频谱性质;速度快,效率高。线性预测分析——概况线性预测Line

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论