数字语音处理数字模型_第1页
数字语音处理数字模型_第2页
数字语音处理数字模型_第3页
数字语音处理数字模型_第4页
数字语音处理数字模型_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.2语音的发音机理1.组成⑴肺和气管组成声源;⑵喉和声带称为声门;⑶由咽腔、口腔、鼻腔组成声道;

2.2.1人的发音器官现在是1页\一共有44页\编辑于星期三2.功能肺:产生压缩气体,通过气管传送到声音生成系统。喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。现在是2页\一共有44页\编辑于星期三现在是3页\一共有44页\编辑于星期三(a)闭合状态

(b)张开状态

图2.2喉的生理结构现在是4页\一共有44页\编辑于星期三

声门:声带之间的间隙称为声门。主要功能:产生激励。声道:指声门至嘴唇的所有发音器官。

包括:咽喉、口腔和鼻腔。主要功能:传输调制声波。声道的形状变化由舌、软腭、唇、牙决定。

现在是5页\一共有44页\编辑于星期三口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为:硬腭和软腭两部分;舌又分为:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。现在是6页\一共有44页\编辑于星期三图2.3声道纵剖面图现在是7页\一共有44页\编辑于星期三

图2.4发音器官机理模型

空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。声门子系统声道系统辐射系统2.2.2语音生成现在是8页\一共有44页\编辑于星期三语音生成动作可分为两种功能:(1)激励(2)调制现在是9页\一共有44页\编辑于星期三2.2.2语音生成-浊音空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。

这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。现在是10页\一共有44页\编辑于星期三基音周期:声带每开启和闭合一次的时间。其倒数称为基音频率。基音频率是由声带张开闭合的周期所决定的:男性的基音频率一般为50~250Hz;女性基音频率为100~500Hz。现在是11页\一共有44页\编辑于星期三2.2.2语音生成-清音

空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。现在是12页\一共有44页\编辑于星期三2.2.2语音生成-爆破音

另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。现在是13页\一共有44页\编辑于星期三

共振峰频率或共振峰

声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响。

声道是一个谐振腔,具有一组共振频率,称为共振峰频率或共振峰。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。现在是14页\一共有44页\编辑于星期三共振峰的计算假设声道截面是均匀的(此时可把声道看作一个粗细均匀圆筒),从喉到唇的距离L=17cm,音速c=340m/s,则共振峰频率将发生在:现在是15页\一共有44页\编辑于星期三现在是16页\一共有44页\编辑于星期三2.3语音的听觉机理2.3.1听觉器官人的听觉器官包括:外耳、中耳和内耳图2.9人耳结构示意图现在是17页\一共有44页\编辑于星期三2.3.2语音信号听觉模型

图2.10语音信号听觉模型一般原理框图现在是18页\一共有44页\编辑于星期三2.4语音的感知音质也称音色,是一种声音区别于其他声音的基本特征。音调声音的高低。取决于声波的频率—频率快则音调高,频率慢则音调低音强即音量,又称响度。由声波震动幅度决定的。音长即声音的长短,取决于发音持续时间的长短。2.4.1语音的基本特性声音的物理属性现在是19页\一共有44页\编辑于星期三音素

是语音的最小、最基本的组成单位。音节

是最小的语言片段,一个音节由一个或几个音素组成。单词

是由音节结合而成的更大单位,是有意义的语言的最小单位。句子

是单词的进一步组合。语音的组成单位现在是20页\一共有44页\编辑于星期三一个音节由元音和辅音构成元音:由声带振动发出的声音。其特点由声道的形状和尺寸决定。所有的元音都是浊音。辅音:由呼出的气流克服发音器官的阻碍而产生的。发辅音时声带不振动,则形成清音;声带振动则形成浊辅音。汉语的特点:音素少、音节少。汉语中的音节即字音是由声母、韵母和声调按一定方式构成的,即由声、韵、调三个音素构成的现在是21页\一共有44页\编辑于星期三2.4.2语音的时间波形现在是22页\一共有44页\编辑于星期三清音的波形特点:类似于白噪声,具有很弱的振幅。浊音(元音)的波形特点:具有明显的准周期性,并具有较强的振幅。现在是23页\一共有44页\编辑于星期三2.4.3几个概念1.人耳能听到声音的频率范围大约为:20Hz~20kHz。2.人耳能承受的声压级范围是0~130dB。现在是24页\一共有44页\编辑于星期三3.人耳能感觉的描述声音的三个特性①响度取决于声音的幅度,单位是宋(sone),人耳对3K~4KHz声音的音强感觉最灵敏。②音调人耳对声音频率高低的感受,单位是美(Mel)。③音色也叫音质,反应了声音的属性。现在是25页\一共有44页\编辑于星期三

两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。

在掩蔽情况下,被隐蔽音的听阈会提高,即加大被掩蔽音的强度才能听到。2.4.4掩蔽效应现在是26页\一共有44页\编辑于星期三利用人耳的听觉掩蔽,在进行语音压缩时,让量化噪音的频谱跟随语言信号频谱包络变化,则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。掩蔽效应的作用现在是27页\一共有44页\编辑于星期三2.5语音信号模型语音信号的数字模型:利用数字技术模拟语音信号的产生或是利用数字信号处理技术来实现发音器官的模拟。

在一些合理的假设下,在较短的时间间隔内(20-30ms),语音信号被看成是线性时不变系统(声道)在随机噪声或准周期脉冲激励下的输出。现在是28页\一共有44页\编辑于星期三uG(n)Av冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期T0Au清/浊音开关浊音激励清音激励2.5.1激励模型现在是29页\一共有44页\编辑于星期三

1、浊音激励发浊音时,由于声门不断开启和关闭,产生间歇的脉冲。经仪器测试它类似于斜三角形的脉冲。现在是30页\一共有44页\编辑于星期三单个斜三角波的频谱表现出一个低通滤波器G(ejω)的特性。可以把它表示成z变换的全极点形式:现在是31页\一共有44页\编辑于星期三整个浊音激励模型可以表示为:周期性的斜三角波脉冲串可以看做是一串加权的单位脉冲序列去激励上述单个斜三角波模型实现。

这个单位脉冲串和幅值因子可以表示成下面的Z变换形式

:现在是32页\一共有44页\编辑于星期三2、清音激励

发清音时声道被阻碍形成湍流,所以可把清音激励模拟成随机白噪声。此处用均值为0、方差为1,在幅值上为平稳分布的序列。现在是33页\一共有44页\编辑于星期三2.5.2声道模型(声管模型)现在是34页\一共有44页\编辑于星期三

声管模型

是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波。现在是35页\一共有44页\编辑于星期三2.5.2声道模型(共振峰模型)

共振峰模型就是将声道视为一个谐振腔,共振峰就是这个腔体的谐振频率。三种共振峰模型分别是:级联型、并联型和混合型。现在是36页\一共有44页\编辑于星期三1级联型(元音)

声道是一组串联的二阶谐振器(一个谐振腔对应1个共振峰频率)。H1H2H3H4H5P为极点个数,G是增益参数,为常系数。传输函数现在是37页\一共有44页\编辑于星期三2并联型(大部分辅音)适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:H1H2H3H4H5现在是38页\一共有44页\编辑于星期三通常,P>R;若分子与分母无重根,则上式可分解为部分分式之和。每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。现在是39页\一共有44页\编辑于星期三3混合型

是一种比较完备的共振峰模型,能够根据不同性质的语音进行切换。H1H2H3H4H5H1H2H3H4H5现在是40页\一共有44页\编辑于星期三2.5.3辐射模型线性系统唇辐射R(z)ul(n)pl(n)

在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字高通滤波器拟这个现象,其数学式如下:现在是41页\一共有44页\编辑于星期三有三部分作用施加在语音的声波上:声门产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论