02语言信号处理第二章基础知识.ppt_第1页
02语言信号处理第二章基础知识.ppt_第2页
02语言信号处理第二章基础知识.ppt_第3页
02语言信号处理第二章基础知识.ppt_第4页
02语言信号处理第二章基础知识.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 语音信号处理的基础知识,主要知识点:,语音产生过程: 声门激励和声道 共振峰和基音周期 语音基本特征 音素、频谱、波形 语音数学模型 激励模型,声道模型,辐射模型,2.1 概述,语音信号处理 是研究用数字信号处理技术对语音信号进行处理的一门学科 研究目的: 获取语音信号的信息或参数 分析处理并加以实用 认识语音信号:产生模型与感知模型,人类的语音是由人体发音器官在大脑控制下的生理运动产生的; 人的发音器官包括:肺、气管、喉、咽、鼻、口等。,2.2 语音产生,人的发音器官简图,语音产生的机理图,喉以上的部分称为声道,其形状随发出声音的不同而变化; 喉的部分称为声门。 喉部的声带是对发音影

2、响很大的器官。声带振动产生声音。 声带开启和闭合使气流形成一系列脉冲。 每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。 基音的范围约为70 - 350Hz,与说话人的性别、年龄等情况有关。,语音由声带振动或不经声带振动来产生,其中: 由声带振动产生的音称为浊音(Voice Speech); 不由声带振动产生的音称为清音(Unvoice Speech),声道是一根从声门延伸至口唇的非均匀截面的声管,由咽、口腔、鼻腔组成。 在产生声音的过程中,声道的非均匀截面又是在随时间不断地变化。 在说话的时候,声门处气流冲击

3、声带产生振动,然后通过声道响应变成语音。由于发不同音时,声道的形状不同,所以能够听到不同的语音。,(a) 清音 (b)浊音 (c)爆破音,声道可以等效为一个谐振腔,在发音时起共鸣作用 当元音激励进入声道时会引起共鸣,产生的一组谐振频率 这就称共振峰频率或简称共振峰。 共振峰是区别不同元音的重要参数 谐振频率由每一瞬间的声道外形来决定。 若声道截面是均匀的,则谐振频率发生在:,c为声速,空气中为350m/s,L为声道长度,n为序号。,共振峰声道的重要声学特性,语音产生的两个重要参数,共振峰 基音周期/基音频率,2.3 语音信号特性,一、什么 是语音,语音是有声音的语言。它是声音和语言的组合体。

4、声音是一种波,振动频率在2020000Hz; 语音是声音的一种,由人的发音器官发出且具有一定的语法和意义,振动频率最高可达15000Hz。,语音的声学特性 音色:音质,区别不同声音的基本特征 音调:声音的高低; 音量:声音的幅度强弱; 音长:声音的发音时间长短。,语音学基础知识 音素是语音的基本单位。可以分为元音和辅音。 元音是指发音的过程中,对声腔气流无明显阻塞而发出的音段,如a、i等。 辅音是声腔气流明显受阻时所发出的音段,如mn等。 此外还用半元音、双元音、半辅音等等。 美国英语包括42个音素,分为:元音12个;双元音6个;半元音4个;辅音20个。,汉语普通话是以北京语音为标准音 汉语音

5、素主要由声母和韵母组成 汉语采用声韵结构,每个字音分成两部分,前面的部分称为声母(initial),后一部分称为韵母。 声母为辅音,但不是所有的辅音都可以做声母。声母共22个。,声母表 b p m f d t n l g k h j q x zh ch sh r z c s 韵母可以包括一个元音,也可以包括多个元音,也可以包括辅音。韵母共38个。 韵母表 I u A ia ua o uo e ie e ai uai ei uei ao iao ou iou an ian uan an en in uen n ang iang uang eng ing ueng ong iong,汉语音素为64

6、个,分为辅音、单元音、复元音和复鼻尾音。 汉语的每个字就是一个音节。音节由声母和韵母拼接而成,音节中也可以不包含声母。 无调音节415个。 每个音节可以有四种声调,因此有调音节一千二百多个。,汉语音节的声调主要体现在信号的基音频率随时间而变的规律上。,注意:,元音不等于韵母。 元音、辅音是按音素的发音特征分类的,而声母、韵母则是按音节结构分类的。,二、语音的时间波形和频谱特性,声门激励脉冲及声道对它的响应,2. 声门激励脉冲的频域特性,周期声门脉冲含有丰富的谐波,3. 输出的语音频谱,4. 语音信号特性,图2-7 In the suburbs 时域波形,图2-8 元音【】的频谱,图2-9 辅音

7、【S】的语谱,人的听觉系统 是一个十分巧妙的音频信号处理器 听觉系统对声音信号的处理能力来自于它巧妙的生理结构,2.4 语音感知,人的耳朵接收声音并转换成神经刺激。人耳听到声音后,还要经过大脑处理变成确定的含义,这就是对语音的感知。,目前,对人耳听觉特性的研究大多在心理声学和语言声学领域内进行。,听觉系统是外界语音进入大脑的唯一通路。在听觉通路的每个阶段,都要对语音信号进行处理。 语音信号处理和图象信号处理是不同的。每个听觉感觉细胞比视觉感觉细胞所承担的信息量大约大10倍,即人的听觉系统是一个非常复杂的编码系统。,耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量 人耳能听到的频率范围大约

8、为16Hz16kHz,年轻人上限频率可达20kHz,老年人则衰退为10kHz。强度大概为5130dB,人听觉系统重要特性时频分析特性,对于人耳的感觉,用声音三要素来描述: 响度:人耳对声音强弱程度的反映。取决于声音的幅度,并和频率有关。如:对30004000Hz最敏感。 音调:也叫音高。人耳对声音频率高低的感受。如:对频率高的声音感觉音调“高”,对频率低的声音感觉音调“低”。 音色:也叫音质。反映了声音属性。每个声音具有特殊的音色。,人听觉系统重要特性掩蔽效应,当两个响度不同的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易觉察,这就是掩蔽效应。,对

9、于中等掩蔽强度,纯音最有效的掩蔽出现在它的频率附近,低频的纯音可以有效地掩蔽高频地纯音,而高频的纯音对低频的纯音掩蔽作用很小。掩蔽效应会造成因一个声音的存在而使另一个声音的听阈上升。,当声音的强度小到人耳刚刚能够听见时,掩蔽效应分为同时掩蔽和短时掩蔽,频率为1kHz 声压级为60dB的音调信号的掩蔽阈值曲线,异时掩蔽又分为前掩蔽和后掩蔽两种 一般后掩蔽可持续100 ms,而前掩蔽仅持续20 ms。,三种掩蔽现象的强度以及持续时间,各种不同的掩蔽效果 (1)纯音调信号间的掩蔽,频率为1 kHz 声压级不同的纯音调对纯音调的掩蔽阈值曲线,(2)宽带噪声对纯音调的掩蔽,宽带噪声对纯音调的掩蔽阈值曲线

10、,(3)窄带噪声对纯音调的掩蔽,中心频率为 1 kHz、声压级不同的窄带噪声对纯音调的掩蔽曲线,中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的。,声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线,2.5 语音信号产生的数字模型,语音信号可以看为是:随机噪声或准周期脉冲序列激励经过线性时不变系统(信道)后的输出。,增益控制系数,代表浊音时声门激励信号的强度,用来调节信号的幅度和能量,增益控制系数,代表清音时声门激励信号的强度,用来调节信号的幅度和能量,激励模型,发不同性质的音时,激励的情况是不同的。 (1)发浊音时 声带不断张开和关闭,产生间歇的脉冲波。 见图2-13。 则激励信号

11、是一个以基音周期为周期的斜三角脉冲串。 从频谱上看,是一个低通型滤波器。可以表示为Z变换的全极点模型形式:,周期性的斜三角脉冲串可看作加权的单位脉冲串激励上述单个斜三角脉冲的结果。,单位脉冲串及幅度因子可表示为:,则整个激励模型可表示为:,(2)发清音时 声道被阻碍形成湍流,可模拟为随机白噪声。,实际中使用均值为0、方差为1,并在时间或幅度上为白色分布的序列,2.声道模型,(1)声管模型,声道的数学模型目前有两种观点:,将声道看为由多个不同截面积的管子串联而成的系统。 在“短时”期间,声道可表示为形状稳定的管道。,每个管子可以看作一个四端网络,这个网络具有反射系数,这些系数和我们第六章要介绍的

12、线性预测的参数之间有唯一的对应关系。所以声道可由一组截面积或一组反射系数来表示,(2)共振峰模型,将声道看为一个谐振腔。共振峰就是腔体的谐振频率。 一般,用前三个共振峰来代表一个元音就足够了。 而较复杂的辅音或鼻音需要五个以上,级联型,对于一般元音,可以用全极点模型。,即AR(自回归)模型,模型的阶数即极点个数,模型系数,幅值因子,由P和ak决定声道特性,描述说话人的特征,将传输函数分解为多个二阶极点的网络的级联:,P/2个共扼复根决定了声道的共振峰参数。,见图2-15。(p=10),P值越大,模型的传输函数与声道的实际传输函数的吻合程度就越高,一般P为812就满足要求了。,图215 级联型共

13、振峰模型,级联型比较简单,用于描述一般的元音。级联的级数取决于声道的长度。,并联型,对于非一般的元音和大部分辅音,必须用零极点模型。,分解为部分分式之和,见下图(p=10),图216 并联型共振峰模型,当鼻化元音或鼻腔参与共振以及发阻塞音或摩擦音时,此时腔体具有反谐振特性,必须考虑加入零点,成为极零点模型,采用并联型结构;每个谐振器的幅度都要独立控制。,混合型,将级联型和并联型结合起来的比较完备的一种模型。,可根据不同性质的语音进行切换。,见图2-17。(p=10),幅度独立控制和调节,用来模拟辅音频谱特性中能量集中区,专为一些频谱特性比较平坦的因素而考虑的,图217,3. 辐射模型,一阶类高

14、通滤波器形式,从声道输出的是速度波,而语音信号是声压波,二者之比为辐射阻抗ZL。它表征口唇的辐射效应,也包括圆形头部的绕射效应等。,研究表明,口唇端辐射在高频端比较显著,而在低频端时影响比较小。所以辐射模型为,嘴唇的辐射影响引起的输出信号高频提升作用大约有每倍频程6dB,预加重技术和去加重处理,在语音信号模型中,我们如果不考虑冲击脉冲串模型,则斜三角波模型是二阶低通,而辐射模型为一阶高通,所以实际信号的分析常采用预加重技术,即在信号取样之后,插入一个一阶高通滤波器。这样,只剩下声道部分,便于声道参数分析。,在语音合成时,我们再采取去加重处理。,4. 完整的语音信号数字模型,语音取样值,激励模型,声道模型,辐射模型,注意,一、这种模型是“短时模型”,其中U(Z)、R(Z)保持不变,而基音频率、清音浊音的幅度、清/浊音判决,声道参数ak、P是时变的,二、声道参数030ms内近似不变,激励参数在5ms左右近似不变,H(Z)是一个参数随时间缓慢变化的模型,可以假定1020ms内固定不变。,三、对于某些音,需要用一些修正的或更精确的模型来模型,四、模型对语音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论