




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 语音信号处理基础知识1、 语音信号处理?语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。2、 语音信号处理的目的?1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音
2、的产生过程?3、 什么是语音?语音是带有语言的声音。人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。4、 语音的产生语音的产生依赖于人类的发声器官。人的发音器官包括:肺、气管、喉、咽、鼻、口等。u 喉以上的部分称为声道,其形状随发出声音的不同而变化;u 喉的部分称为声门。u 喉部的声带是对发音影响很大的器官。声带振动产生声音。u 声带开启和闭合使气流形成一系列脉冲。 每开启和闭合一次的
3、时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。基音的范围约为70 - 350Hz,与说话人的性别、年龄等情况有关。人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。人的说话的过程:1) 想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。2) 说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。与
4、此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。经常有些人说话时会手舞足蹈。另外,还会开动“反馈”系统来帮助修正语音。3) 传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。4) 接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。5) 理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。再开始介绍语音信号的特性之前,
5、我们先zai了解一下语音和语言的定义。5、 语言是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。语言学是语音信号处理的基础。例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。6、语音学Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音
6、学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。7、语音信号的声学特性语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。说话时一次发出,具有一个响亮的中心,并
7、被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔,从唇腔出去时,这些声腔完全开放,气流顺利通过产生音素。-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。-通常只出现在音节的前端、后端或前后两端。发辅音时由声带是否振动引起浊音和清音的区别:-声带振动
8、的是浊音;-声带不振动的是清音。8、基音频率发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。所以浊音声带振动的基本频率称为基音频率,一般用F0表示。无论一个音节或是一段连续语音,各个音节的元音段的F0都是随时间变化的,该变化产生了声调,其变化轨迹为声调轨迹。基音频率与个人声带的长短、厚薄、韧性和发音习惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。 9、共振峰共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的
9、作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。元音的一个重要的声学特性就是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。元音的共振峰与发音机制(舌位高低、前后,舌尖的状态等)有关。不同元音对应于一组不同的共振峰参数,为精确描述语音,应尽可能使用多个共振峰,但实际应用时,只用前3个就够了,分别称为F1,F2,F3。表给出了前3个共振峰成年男子和成年女子的分布范围。所以虽然一般地说,虽然就语音的基音频率而言是女声和童声高于男声,
10、但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。下面我们再看一下语音的时域波形和频谱特性: 10、语音信号的时域波形和频谱特性时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。从上图可以看出,清
11、辅音sk和元音ou e这两类音的时间波形有很大区别。例如,从A点开始的音节s,以及从C点开始的k都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音ou以及从D点开始的e都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性和噪声性语音的特征也在不断变换中。但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在1030
12、ms内语音信号特性基本上是不变的,或者变化很缓慢。-因此可以截取一段进行傅里叶变换(具体的频谱分析方法将在第三章中介绍),求其短时谱。于是,从中截取一小段进行频谱分析。下图给出“sou”中音素“ou”的傅里叶变换:时间大约为时间波形180ms处开始,取时间波形宽度为256个样本,因采样频率为8kHz,故语音段持续时间为32ms(256/8)。幅度/dB频率/kHz从该频谱图上可以直接看出浊音的基音频率及谐波频率。在01.83kHz之间几乎有6个峰值,因此,基音频率为301Hz(1.83kHz/6)。观察时间波形“ou”波形周期之间的距离也可证明,其中在225250ms之间大约有7.5个周期,因
13、此可以估计周期为300Hz(7.5/25)。在频谱图中可以看出明显的具有几个凸起点,它们出现的频率就是共振峰频率,从而表明元音具有明显的共振峰特性。清辅音“k”的傅里叶变换如下图所示:可以看出,频谱峰点之间间隔是随机的,表明该清辅音没有周期分量。11、语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10ms30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时
14、谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。语谱图是一种三维频谱,它表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。 语谱仪实际上是一个带通滤波器组的输出随时间连续变化,连续重复进行语音信号频率分析
15、的仪器。带通滤波器有两种带宽选择:窄带为45Hz,宽带为300Hz。窄带语谱图具有较好的频率分辨率,有利于显示基音频率及其各次谐波,但时间分辨率较差,不利于观察共振峰的变化;宽带语谱图则具有良好的时间分辨率及较差的频率分辨率。它能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图中共振峰呈现为黑色条纹。语谱图上因其不同的黑白程度,形成不同的纹路,称为“声纹”,其因人而异,即不同说话人语谱图的声纹是不同的。因而可以利用声纹鉴别不同说话人。这与指纹可以区别不同人的道理相同。下图给出了一个宽带语谱图,横坐标为时间,纵坐标为频率,语句内容为“nothing was really accomplishe
16、d”。发音在图下方以音标表示。该图下方给出了时域波形。 语谱图中的花纹有横杠(Bar)、乱纹和竖直条等。横杠是与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,也就是共振峰。从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高。元音一般对应横杠,如图中nothing的,还有accomplished中的。它指示了共振峰的存在。清擦音从语谱图上看,表
17、现为乱纹,如语谱图中p以及等音,乱纹的深浅和上下限反映了噪声能量在频域中的分布。语音信号的第三个特性即统计特性。12、语音信号的统计特性语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量(如均值和自相关函数)来描述。表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其幅度直方图(统计某一幅度值出现的频度),然后,根据统计的振幅直方图,寻找近似的概率密度表达式。通过对语音信号的统计特性的研究表明,语音信号振幅分布的概率密度有两种逼近方法: 一种是修正伽玛(Gamma)分布概率密度函数 另一种是拉普拉斯(Laplace)分布概率密度函
18、数 对于长期统计来说,用拉普拉斯分布描述语音信号的统计特性不及伽码分布描述精确,但其函数式却简单一些。也可以用高斯分布(Gaussian)来近似。如下图给出了修正伽马密度(实线)、拉普拉斯密度(虚线)和高斯密度(点线)以及天气预报语音的长期幅度分布(不规则的虚线)图形。可以看出,这三个分布函数中,伽码函数逼近效果最好,其次是拉普拉斯函数,而高斯分布逼近效果最差。本章的第三个内容是语音信号的生成模型:13、语音信号生成的数学模型u 所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立了语音信号的数学模型,才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生
19、成的数学模型是语音信号处理的基础。 u 建立数学模型的基本原则是这种数学关系不仅具有最大的精确性,还要最为简单。理想的模型是线性的和时不变的。但从人的发声器官的机理看,发不同性质的语音,声道的情况是不同的。另外,声门和声道还会相互耦合,形成语音信号的非线性特性。因此,语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。 u 可以将语音
20、生成系统分成三个部分,在声门(声带)以下,称为声门子系统,负责产生激励振动,是激励系统;从声门到嘴唇的呼气通道是声道,是声道系统;语音从嘴唇辐射出去,嘴唇以外是辐射系统。u 下面分别介绍激励模型、声道模型、辐射模型,再介绍语音信号产生的数学模型。 14、激励模型激励模型一般分成浊音激励和清音激励来讨论。浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。清音时,激励信号是由一个随机噪声发生器产生。可设定其平均值为0,其自相关函数是一个单位冲激函数。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:
21、式中,N1为斜三角波上升部分的时间,N2为其下降部分的时间。单个斜三角波波形脉冲如下图图左所示,频谱如下图右所示。由图可见,它是一个低通滤波器。它的z变换的全极模型的形式是: 这里,c是一个常数。显然,上式表示的斜三角波形可描述为一个二极点的模型。周期性的斜三角脉冲串可看作加权的单位脉冲串激励上述单个斜三角脉冲的结果。而该单位脉冲串及幅值因子则可表示成下面的z变换形式:调节浊音信号的幅度单位脉冲串及幅度因子可表示为:所以,整个浊音激励模型可表示为: 也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。 发清音时,声道被阻碍形成湍流,可模拟为随机白噪声。实际中使用均值为0,方差为1,并在时间
22、或幅度上为白色分布(在所考虑的频带内具有连续频谱和恒定的功率谱密度)的序列。其实,简单的把激励分为浊音和清音两种情况是不全面的。对于某些音,把两种激励叠加起来也不严格,但是若将两种激励经过适当的网络之后,就可以得到良好的激励信号。为了更好地模拟激励信号,有人提出在一个音调周期内用多个斜三角波;还有人提出用多脉冲序列和随机噪声序列的自适应激励法。15、声道模型声道的数学模型有两种观点:1) 声管模型将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就
23、是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图
24、所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,NR,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此
25、,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 16、辐射模型从声道模型输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗。它表征口唇的辐射效应, 也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下: 式中, ,这里,是口唇张开时的开口半径,是声波传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。17、语音信号的数学模型综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型
26、的串联来表示。如图所示:冲激序列发生器声门脉冲模型G(Z)基音频率F0 振幅AV声道模型 V(Z)辐射模型 R(Z) 语音 s(n)随机噪声发声器 信号 振幅AU它的传输函数可表示为: 这里,U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下, U(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。实际上就是全极点模型: 应该指出,上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。另外,这种模型是“短时”模型,因为一些语音信号的变化是缓慢的,例如元音在1020ms内其参数可
27、假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外,这一模型认为语音是声门激励源激励线性系统-声道所产生的。而则可由式(2-13)按如下方法来得到:先将该式改写为拉普拉斯变换形式: 然后使用数字滤波器设计的双线性变换方法将上式转换成变换的形式: 若略去上式的极点(值很小),即得一阶高通的形式: 以上就是语音信号处理的基础知识。习题:1、什么叫语音?什么叫语言?人们说话过程包括哪5个阶段?各个阶段的主要内容是什么?语音是由一连串的音组成语言的声音。语言是是从人们的话语中概括总结出来的规律性的符号系统。人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。6) 想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内科学高血压试题(附答案)
- 足疗按摩技巧与穴位解析试题及答案
- 2025年基因治疗药物临床研究新技术突破与市场前景分析报告
- 推拿治疗学试题及答案详解【真题汇编】
- 2025年新能源汽车废旧电池回收利用产业链风险控制报告
- 2025年数字艺术市场创作与交易市场潜力与发展趋势分析报告
- 2025至2030年中国粽子行业发展监测及投资战略规划研究报告
- 国际合作协议示范条款
- 园林绿化作业人员试题完整版附答案详解
- 2025版潍坊市房地产行业劳动合同范本
- 泌尿外科常见疾病护理要点
- 移动患者的体位安全护理
- 牙克石市综合高级中学2025-2026学年第二学期工作计划
- 北师大版高一数学必修一教学安排
- 广州市南沙区卫生健康局招聘下属事业单位工作人员考试真题2024
- 职场心理健康课件
- 2025年锅炉专业培训试题及答案
- 2025至2030中国舆情大数据行业市场深度调研及投资前景报告
- 高三职业生涯规划课件
- 上汽大众品牌培训课件
- 铅锌行业规范条件 (一)
评论
0/150
提交评论