第1章-语音信号短时分析技术.ppt_第1页
第1章-语音信号短时分析技术.ppt_第2页
第1章-语音信号短时分析技术.ppt_第3页
第1章-语音信号短时分析技术.ppt_第4页
第1章-语音信号短时分析技术.ppt_第5页
免费预览已结束,剩余85页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,语音信号处理,哈尔滨工程大学信息与通信工程学院,陈立伟,2,1、杨行峻、迟惠生.语音信号数字处理.电子工业出版社,2004.2、韩纪庆、张磊、郑铁然.语音信号处理.清华大学出版社,2004.3、赵力.语音信号处理.机械工业出版社,2003.4、易克初、田斌.语音信号处理.国防工业出版社,2000.5、HuangXD,AceroA,HonH,etal.SpokenLanguageProcessing:AGuidetoTheory,AlgorithmandSystemDevelopment.NewJersey:PrenticeHallPTR,2001,参考书,3,语音是语言的声学表现形式,是声

2、音和意义的结合体。语音的目的是为了能够实现交流(Communication),也就是说要相互的沟通理解(Inter-connected),语音是媒介(Media)!具体形式上表现为携带信息的信号波形(Waveform)。,绪论,4,一、本课程的意义和目的,语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。,语音信号处理的目的:得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。,5,语音信号处理为多边学科的综合。包括:声学(Acoustics)语言学(linguistics)语音学(phonetics)生理学(ph

3、ysiology)心理学(psychology)人工智能(ArtificialIntellections)。,6,二、语音技术概述,语音技术的研究目标就是使信息时代的各种信息机器象人一样“能听会说”。语音识别(ASR):把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵。孤立词识别技术连续语音识别关键词识别技术话者识别技术,7,语音合成(TTS):把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴;语音应答系统自动报站信息查询语言学习软件TTS(TexttoSpeech)技术,8,语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。脉冲编码调制自适应预测编码自

4、适应变换编码线性预测编码线性预测声码器共振峰声码器相位声码器,9,三、语音信号处理的进展,1876年Bell发明电话。1939年H.Dudley研制成功第一个声码器。1942年Bell实验室发明了语谱仪。1948年美国Haskin实验室研制成功“语图回放机”。1952年Bell实验室研制成能识别十个英语数字的识别器。,60年代前:,10,60年代:,1956年声控打字机60年代以后,随着计算机技术的发展,语音信号处理技术获得了长足的进步,计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断涌现。1960年Denes等人用计算机实现自动语音识别,引入了时间归正算法改进匹配性能;60年代中

5、期,Martin等人为邮局研制了邮政编码阅读机;,11,70年代:,70年代开始,人工智能技术开始引入到语音识别中。美国国防部ARPA组织了有CMU等五个单位参加的一项大规模语音识别和理解研究计划;70年代中,日本学者提出的动态时间弯折算法对小词表的研究获得了成功,从而掀起了语音识别的研究热潮;70年代末,基于矢量量化码本生成的LBG算法被提出,从而使矢量量化技术广泛地应用于语音识别、语音编码和说话人识别中;,12,目前:,从70年代末80年代初开始,HMM技术被应用到语音识别中;1985年IBM公司研制了5000词英语听写机Tangora90年代初,CMU的LeeKaifu完成的SPHINX

6、1997年IBM推出的汉语听写机产品Viavoice1999年Intel推出语音识别软件开发包Spark3.0;MicrosoftVoice及基于.net的语音识别引擎。,13,(1)从语音的产生和语音的感知进行研究,五、语音信号处理的基础理论和算法,(2)将语音当作一种信号进行处理,六、语音信号处理的硬件和实用系统,计算机+数字信号处理板通用或专用DSP芯片+辅助芯片,14,1.1语音和语言,第1章语音信号短时分析技术,构成人类语音的是声音,由人讲话所发出的声音,对语音中音的分类和研究称为语音学。,1、言语的过程和作用,想说阶段大脑中枢活动说出阶段发音器官的活动传送阶段传送信息的物理过程起作

7、用接收阶段听觉系统活动理解阶段大脑中枢活动,15,2、一些基本概念,音素(phoneme):语音的最小单位,由音素构成音节。,音节(Syllable):说话时一次发出的,具有一个响亮的中心,并被明显感觉的语音片断。,音素和音节,16,辅音和元音音素分为两类:辅音(Consonant)和元音(Vowel),元音:声带振动产生一个准周期的空气脉冲,如i、u、a、o、e等。辅音:呼出的气流,由于通路中某一部分封闭起来或受阻,气流不通畅所产生的声音,如b、p、m、f、d、t、n、l等。,17,辅音和元音的区别有四点:1、辅音发音时,气流在通过咽头、口腔的过程中,要受到某部位的阻碍;元音发音时,气流在咽

8、头、口腔不受阻碍。这是元音和辅音最主要的区别。2、辅音发音时,发音器官成阻的部位特别紧张;元音发音时发音器官各部位保持均衡的紧张状态。3、辅音发音时,气流较强;元音发音时,气流较弱。4、辅音发音时,声带不一定振动,声音一般不响亮;元音发音时,声带振动,声音比辅音响亮。,18,半元音:声道基本通畅,但某处比较狭窄,引起轻微摩擦。W、Y,元音构成音节的主干,辅音只出现在音节前端或前后两端。,元音的共振峰特性:声道被看成具有均匀截面积的声管,发音时起共鸣器的作用。元音激励进入声道时引起共振特性,产生一组共振频率,即共振峰。,19,清音和浊音,清音:声带不振动浊音:声带振动而发音,元音都是浊音、辅音有

9、清音也有浊音。,20,3、汉语的声调:,浊音的声带振动基频称为基音频率。无论在说一个单音节或说一段连续语音时,各个音节中韵母段的都是随时间变化的,基音频率的不同轨迹称为声调。,几乎平均于横轴、平均值高,从较低一直上升到较高频率,先降后升,从较高频率降到较低频率,21,4、语音信号的时域波形,开始,/ai/,/k/,时变特性有些段落周期性,有些段落具有噪声特性,短时平稳性,22,Doyoulikeit?VsDidyoulikeit?Waveform,23,24,Voicecontaminatedbyenginenoise(0dB),25,10dBmixed,20dBmixed,-10dBmixe

10、d,-20dBmixed,26,5、语音信号的统计特性,修正伽马分布:,拉普拉斯分布:,27,1.2语音产生的过程及声学特征,语音产生的过程,喉以上的部分称为声道,随着发出声音的不同其形状是变化的;而喉的部分称为声门。,28,声带(VocalCords)1014mm在喉部的从喉结到杓状软骨之间的韧带褶。声门(Glottis)两个声带之间形成一个开闭自如的声门,声带合拢因而受声门下气流的冲击而张开;但由于声带韧性迅速地闭合,随后又张开而闭合,声带开启和闭合使气流形成一系列脉冲。,声门每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其倒数称为基音频率,也简称为基频。基音的范围约为70350

11、Hz左右。,29,声道(vocaltract)17cm由咽腔、口腔和鼻腔三个空气腔体组成。,声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。如果声道的截面是均匀的,谐振频率将发生在,30,听觉系统:,声波经过外耳的放大后,经过鼓膜和听小骨将声波转化为机械振动,传入内耳。,1.3语音感知,由外耳、中耳、内耳组成,人耳的作用:1、声音放大;2、声音传导;3、声源定位,31,正常人的听域与听阈:,听觉感知特性:,正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热

12、运动所产生的声压。正常人可听声音的频率范围为0.016-16kHz,年轻人可听到20kHz的声音,而老年人可听到的高频声音要减少到10kHz左右。正常人可听声音的强度范围为0-120dBSPL(声压级),这里的基准声压(0dBSPL)是或。,32,纯音听阈是与频率有关的量,在1000Hz时约为4dB左右,而在40Hz时上升为50dB左右,在15kHz时上升为24dB左右。,感觉阈代表可容忍的最高声压。在声压级高到一定程度时,耳朵会出现不适感觉,或者具有痒、压迫及痛感。对正常人而言一般取120dB为不适阂,140dB为痛阐,且认为它与频率无关。,33,响度(Londness)-方(phon)是一

13、种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响度也会有所不同。0dB声强级的1000Hz纯音的响度级为0phon;ndB声强级的1000Hz纯音的响度级为nphon;,34,听觉掩蔽效应,掩蔽效应:一种声音的听觉感受受到同时听到的另一种声音的影响。分:同时掩蔽和短时掩蔽,35,同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。,短时掩蔽:当A声和B声不同时出现时。后向掩蔽:掩蔽声B消失后,其作用仍持续一段时间:0.52s前向掩蔽:被掩蔽音A出现后,相隔0.0050.2s

14、之内出现掩蔽音B,也会对A起作用。,36,1.4语音信号的数学模型,准则:要寻求一种可以表达一定物理状态下的数学关系,要使这种关系不仅具有最大的精确度,而且还要最简单。期望:模型既是线性的又是时不变的,这是最理想的模型。语音信号特征:一连串的时变过程;声门和声道相互耦合,还形成语音信号的非线性特性。合理假设:在较短的时间间隔内表示语音信号时,采用线性时不变模型。,37,发音器官的机理模型:,38,语音信号的产生模型,39,(1)发浊音时。此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调

15、周期。(2)发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为白色分布的序列。,1、激励模型,40,罗森贝格(Rosenberg)在研究中发现,如果在发浊音时声门脉冲取如图所示的形状,可以获得比较好的合成语音效果。,发浊音时的声门脉冲,41,把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。,2、声道模型,(一)声管模型,42,管道内声波的运动方程:,其中,为在点时刻的声压为在点时刻的体积速度为空气密度为声速为管道截面积,43,每个管子可看作为一个四端网络,这个网络具有反射系数,声道可由一组截面积或一组反射系数来表示。,通常用A表示声

16、管的截面积。由于语音的短时平稳性,假设在短时间内,各段管子的截面积且是常数。设第m段和第m+1段的声管的截面积分别为Am、Am+1,设称为“面积和差比”,其取值范围为-1km1。它实际上是线性预测的反射系数。,44,共振峰与舌位关系舌位高低决定了F1共振频率。舌位越高,F1的频率越低,反则反之。舌位前后决定了F2共振频率舌位越后,F2的频率越低,反则反之。,(二)共振峰模型,声道被视为谐振腔,共振峰是腔体的谐振频率,45,共振峰频率F共振峰频率是一条包络线上的峰值位置共振峰强度L共振峰带宽B,46,47,带宽不同共振峰轮廓线的改变,对于语音来说,元音带宽窄的,声音清晰,相反就声音含混。带宽加大

17、以后,共振峰强度减弱,也就使声音质量降低。,48,共振峰频率提高,共振峰强度也随着提升,在一定范围内共振峰频率提高,人耳的敏感程度也在提高,听起来就特别响亮。从中国传统音韵学来说,细音主要是低音共振峰频率低,洪音主要是低音共振峰频率高。元音a比元音i、u、响亮,是跟这种变化有关系的。,49,“集聚”特征,细线画出了元音a三个共振峰的曲线。最后得到的轮廓线是它们相加的结果。那是dB值的代数加法。F3遇到了F1的负值,相加的结果反而降低了。请注意,图中F1与F2相近,它们相加的结果是互相抬高对方,使这一频段的能量加强。,50,1)级联共振峰模型(适合于一般元音),分解:,51,2)并联型(非一般元

18、音和大多数辅音),52,3、混合型(结合级联型和并联型):,幅度控制因子AB专为一些频谱特性比较平坦的音素,如f,p,b所考虑的。,53,声道的终端为口和唇。从声道输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗ZL。它表征口和唇的辐射效应,也包括圆形的头部的绕射效应等。,口唇的辐射效应可表示为:,它是一阶后向差分。辐射模型R(z)是一阶类高通滤波器的形式。,3、辐射模型,54,完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为:H(z)=U(z)V(z)R(z)这里,U(z)是激励信号声门脉冲即斜三角波的形式;V(z)是声道传递函数,既可

19、以用声管模型,也可以用共振峰模型来描述。在共振峰模型中,又可采用级联型、并联型或混合型等几种形式;R(z)为辐射模型。,4、完整的模型,55,韵母的产生过程,56,1.5语音的质量评估,一类是音节以下(如音素、声母、韵母)的语音单元的测试,这常称为“清晰度”测试;清晰度测试可以元音、辅音为基础或以声母、韵母为基础,再根据音节成分算出音节清晰度。一类是音节以上(如词、句)的语音单元的测试,常称为“可懂度”测试。,语音质量测试可分为两类:,57,1.6语音信号的时频特性分析,汉语拼音“SouKe”的时域波形,采样率8kHz,58,59,60,1.7语音信号的语谱图,语谱仪:将语音信号(经话筒变成了

20、电信号)送进一排频率依次相接的窄带滤波器,各窄带滤波器的输出记录在一卷按一定速度旋转的记录纸上(各滤波器的由低到高按频率排列),信号强则记录得浓黑一些,反之则浅谈一些。由此得到的即是语音信号的语谱图,此图的水平方向是时间轴,垂直方向是频率轴,固上或深或浅的黑色条纹表征各个时刻的短时谱。,61,自然语音a波形图,自然语音a语谱图,自然语音o波形图,合成语音o语谱图,62,语音处理的根本方法短时分析技术,语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。语音的重要特性是它具有“短时性”,所以对语音的分析和处理必须建立在“短时”的基础上,即进行

21、“短时分析”,,1.8语音信号的数字化与预处理,语音信号处理系统框图,63,数字化:放大、增益控制、反混叠滤波、采样、A/D变换及编码预处理:预加重、加窗、分帧、端点检测,表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。可以得到语音的一些重要参数。采用示波器等通用设备,使用较为简单。,时域分析的特点:,64,1、预滤波、采样、A/D变换,目的:1、抑制输入信号各频域分量中频率超出fs/2的所有分量,以防止混叠干扰;2、抑制50Hz工频干扰。,实现:带通滤波器,上下边带截止频率分别为、,65,采样,根据取样定理,当取样频率大于信号的两倍带宽时,取样过程中不会丢失信息,且从取样信号

22、中可以精确地重构原始信号波形。在信号的带宽不明确时,在取样前应接入反混叠滤波器,使其带宽限制在某个范围内。,语音信号频率范围:3003400Hz采样率:8kHz10kHz,66,量化:将输入的整个幅值分成有限区间,把落入同一区间的波形样本都量化成同一幅度值。,67,量化后的信号值与原信号之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大或量化间隔足够小时,可以证明量化噪声符合具有下列特性的统计模型:它是一个平稳的白噪声过程;量化噪声和输入信号不相关;量化噪声在量化间隔内均匀分布,即具有等概率密度分布。,68,若用表示输入语音信号序列的方差,2Xmax表示信号的峰值,B表示量化字长,

23、表示噪声序列的方差,则可证明量化信噪比(信号与量化噪声的功率之比)为假设语音信号的幅度服从Laplacian分布,此时信号幅度超过的概率很小,只有0.35,因而可以取Xmax=。此时上式变为表明量化器中每bit字长对SNR贡献为6dB。,69,2、预处理,预加重:原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB倍频程跌落。目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。位置:可在反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。也可在AD变换之后进行,用具有6dB倍频程的提升高频特性的预

24、加重数字滤波器实现,它一般是一阶的。式中值接近于1。,70,加窗分帧:语音信号是一种典型的非平稳信号,其特性是随时间而变化的,但是语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语音信号常常可假定为短时平稳的,即在1030ms的时间段内,其频谱特性和物理特征参量可近似地看作是不变的,这样,就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法,以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好像是来自一个具有固定特性的持续语音片段一样。,71,将语音分成短段的基本手段是对语音加窗,即用一个有限长度的窗序列截

25、取一段语音信号来进行分析。该窗函数可以按时间方向滑动,以便分析任一时刻附近的信号。加窗运算定义为:,72,帧长和帧移的示例,73,矩形窗:,汉明窗:,汉宁窗:,74,端点检测:端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。有效的端点检测不仅能使处理时间减到最小,而且能去除无声段的噪声干扰,从而使识别系统具有良好的识别性能。一个较好的端点检测算法应该能够满足:门限值可以对背景噪声的变化有一定的适应;能够将短时冲激噪声和超过门限值的信号纳入无声段而不是有声段;对于爆破音的寂静段,应将其纳入语音的范围而不是无声段;应该尽量避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语

26、音;应该避免使用过零率作为判决标准,以免带来负面影响。,75,传统的端点检测算法,1.基于能量的端点检测,语音和噪音的主要区别在它们的能量上,语音段的能量比噪音段的大,语音段的能量是噪音段能量叠加语音声波能量的和。传统端点检测算法认为,如果环境噪声和系统环境噪声比较小,能够保证系统的信噪比较高,那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。,实际中信噪比较低。,76,2.双门限前端检测法,利用短时过零率来检测清音,用短时能量来检测浊音。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限用以确定语音已开始,再取一比稍低的门限,用以确定真正的起止点及结束点。判断清音与无话的差别,是采用另一个较低的门限,求越过该门限的“过零率”。只要取得合适,通常背景噪声的低门限过零率将明显低于语音的低门限过零率值。这种方法普遍地用于有话、无话鉴别或词语前端检测。,77,3.基于噪声动态检测的语音端点检测算法,78,仿真实验及结果分析,图1“制约”在零噪声时的检测结果,图2“”在加入少量噪声时的检测结果,图3“”在噪声加大时的检测结果,图4“”在噪声进一步加大时的检测结果,79,4.基于小波变换的语音端点检测算法,依据:小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论