语音信号处理第2章-语音信号基础_第1页
语音信号处理第2章-语音信号基础_第2页
语音信号处理第2章-语音信号基础_第3页
语音信号处理第2章-语音信号基础_第4页
语音信号处理第2章-语音信号基础_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息科学与工程学院东南大学2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析信息科学与工程学院东南大学2.1 概述n语音信号处理是用数字信号处理技术对语语音信号处理是用数字信号处理技术对语音信号进行分析和研究的学科,其目的:音信号进行分析和研究的学科,其目的:l一是要得到反映语音信号重要特征的语音参数,一是要得到反映语音信号重要特征的语音参数,以便高效的传输或储存语音信号;以便高效的传输或储存语

2、音信号;l二是要通过运算,实现语音信号的应用,如语二是要通过运算,实现语音信号的应用,如语音合成、辨识讲话者、识别讲话内容等等。音合成、辨识讲话者、识别讲话内容等等。信息科学与工程学院东南大学2.2语音和语言n人们讲话时发出的话语叫语音,语音人们讲话时发出的话语叫语音,语音(Speech)是声音是声音(Acoustic)和语言和语言(Language)的组合体。的组合体。n语音:是由一连串的音组成语言的声音。语音:是由一连串的音组成语言的声音。 信息科学与工程学院东南大学2.2 语音和语言n人的说话过程人的说话过程可以分为五个阶段:(可以分为五个阶段:(1)想)想说阶段(说阶段(2)说出阶段(

3、)说出阶段(3)传送阶段()传送阶段(4)接收阶段(接收阶段(5)理解阶段)理解阶段信息科学与工程学院东南大学2.2 语音和语言n语音研究分为两类:语音研究分为两类:l语言学:语言学:包括构成语言的语素、词、短语和句包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法、文子等的不同层次的单位,以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处脉等语法和语义内容等。语言学是语音信号处理的基础。理的基础。 l语音学:语音学:考虑的是语音产生、语音感知等的过考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。语程以及语音中各个音的特征和分类等问题。语音学发展

4、成为三个主要分支:发音语音学、声音学发展成为三个主要分支:发音语音学、声学语音学、听觉语音学。学语音学、听觉语音学。信息科学与工程学院东南大学2.2 语音和语言n语音是一种声波,声波的特征属性:语音是一种声波,声波的特征属性:l音色:也叫音质,指包含的谐波成分,是不同音色:也叫音质,指包含的谐波成分,是不同声音相互区别的基本特征。声音相互区别的基本特征。l音调:声波的频率。音调:声波的频率。l音高:声波的强度或者振动幅度决定。音高:声波的强度或者振动幅度决定。l音长:发音的持续时间。音长:发音的持续时间。信息科学与工程学院东南大学2.2 语音和语言n音节:说话时发出的响亮中心,并被明显音节:说

5、话时发出的响亮中心,并被明显感觉到的语音片段叫音节(感觉到的语音片段叫音节(Syllable)。)。l英语单词发音时,是几个字母几个字母地拼起英语单词发音时,是几个字母几个字母地拼起来发音的,几个拼起来发音的字母叫一个音节来发音的,几个拼起来发音的字母叫一个音节如单词如单词China,划分成,划分成chi-na两个音节,单词两个音节,单词international分成分成in-ter-na-tio-nal五个音节,单五个音节,单词词English划分成划分成Eng-lish两个音节。两个音节。l而汉语则是一个字一个音节而汉语则是一个字一个音节信息科学与工程学院东南大学2.2 语音和语言nYog

6、urt有两个音节有两个音节yo-gurt020004000600080001000012000-1-0.8-0.6-0.4-0.200.20.40.60.81yo-gurt信息科学与工程学院东南大学2.2 语音和语言nCompanions有有3个音节,个音节, Com-pa-nions050001000015000-0.4-0.200.20.40.60.8com-pa-nions信息科学与工程学院东南大学2.2 语音和语言n但我也爱星天但我也爱星天0200040006000800010000120001400016000-0.6-0.4-0.200.20.40.60.81但我也爱星天信息科学与

7、工程学院东南大学2.2 语音和语言n一个音节可以由一个音素(一个音节可以由一个音素(Phoneme)构)构成,也可以由几个音素构成。成,也可以由几个音素构成。n音素:是语音发音的最小单位。分为元音音素:是语音发音的最小单位。分为元音(Vowel)和辅音()和辅音(Consonant)两类。)两类。信息科学与工程学院东南大学2.2 语音和语言n中文中文星天星天01000200030004000500060007000-1-0.8-0.6-0.4-0.200.20.40.60.81星:一个音节一个音素一个音素一个音素一个音素天:一个音节信息科学与工程学院东南大学2.2 语音和语言n元音和辅音的区别

8、:元音和辅音的区别:l元音:元音是在发音过程中由气流通过口腔而元音:元音是在发音过程中由气流通过口腔而不受阻碍发出的音。发音时从肺部呼出的气流不受阻碍发出的音。发音时从肺部呼出的气流通过起共振作用的口腔,阻力极小并无摩擦声通过起共振作用的口腔,阻力极小并无摩擦声音的语音。音的语音。l辅音:呼出的声流,由于通路的某一部分封闭辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。发音器官的这种阻碍而产生的音素称为辅音。信息科学与工程学院东南大学2.2 语音和语言n元音和辅音的区别元音和辅音的区

9、别l元音另一个重要声学特征就是共振峰:共振峰元音另一个重要声学特征就是共振峰:共振峰参数是区别不同元音的重要参数,它一般包括参数是区别不同元音的重要参数,它一般包括共振峰频率共振峰频率(Formant Frequency)的位置和)的位置和频带宽度频带宽度(Formant Bandwidth)。)。 l一般地说:区分语音是男声还是女声、是成人一般地说:区分语音是男声还是女声、是成人声音还是儿童声音,共振峰频率的高低是重要声音还是儿童声音,共振峰频率的高低是重要因素。因素。 信息科学与工程学院东南大学2.2 语音和语言n根据发音时声带是否振动,分为浊音和清根据发音时声带是否振动,分为浊音和清音的

10、区别。音的区别。n通常元音为浊音,辅音为清音,但也有一通常元音为浊音,辅音为清音,但也有一部分辅音发声时,声带振动,因此辅音中部分辅音发声时,声带振动,因此辅音中有一部分是浊音。有一部分是浊音。 信息科学与工程学院东南大学01000200030004000500060007000-0.4-0.3-0.2-0.100.10.20.30.4020406080100120140160-0.03-0.02-0.0100.010.0200.511.522.533.5-100-50050020406080100120140160-0.3-0.2-0.100.10.200.511.522.533.5-100

11、-50050020406080100120140160-0.4-0.200.20.400.511.522.533.5-60-40-2002040信息科学与工程学院东南大学2.3 汉语语音学n汉语语音的特点:汉语语音的特点: l音系简单。这是指音素少、音节少。音节的结音系简单。这是指音素少、音节少。音节的结构也比较简单。构也比较简单。 l由于清辅音多,而且多是弱清音,而且开口呼由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。听感上有清亮、高扬和舒服、柔和的感觉。 l有鲜明的轻重音和儿化韵

12、,所以字词分隔清楚有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。,语言表达准确而丰富。 信息科学与工程学院东南大学2.3 汉语语音学n汉语音节的一般结构汉语音节的一般结构 l汉语的每个汉字是一个音节,音节一般由汉语的每个汉字是一个音节,音节一般由声母声母、韵母和声调、韵母和声调三部分组成。三部分组成。l更为细致的将一个音节划分为更为细致的将一个音节划分为9个部分,其中个部分,其中14段属于声母(辅音),段属于声母(辅音),69段属于韵母(段属于韵母(元音)。第元音)。第5段是二者的过渡段。段是二者的过渡段。l第第7段(主要元音段)是每个音节是具有的。段(主要元音段)是每个音节是

13、具有的。 l汉语中一般有五个声调,即阴平、阳平、上声汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。、去声以及轻声。信息科学与工程学院东南大学2.3 汉语语音学n汉语音节的一般结构汉语音节的一般结构信息科学与工程学院东南大学2.3 汉语语音学n汉字汉字天天05001000150020002500300035004000-0.4-0.3-0.2-0.100.10.20.30.4韵母声母信息科学与工程学院东南大学2.3 汉语语音学n汉语汉语声母声母的结构的结构 l声母共有声母共有21个,个,b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s,可分为六大

14、类,可分为六大类:擦音、塞音、塞擦音、边音、鼻音、零声母:擦音、塞音、塞擦音、边音、鼻音、零声母l声母除了零声母外,其它都是单辅音声母除了零声母外,其它都是单辅音信息科学与工程学院东南大学2.3 汉语语音学n汉语汉语韵母韵母的结构的结构 l8个单韵母,如个单韵母,如a、i、u等;等;l14个复韵母,如个复韵母,如ai、ao等;等;l16个鼻韵母如个鼻韵母如an、uang等。等。n应该注意,元音并不等于韵母。元音、辅应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不韵母则是按音节结构分类的。这是两种不同

15、的概念,尽管它们之间有一定的联系。同的概念,尽管它们之间有一定的联系。 信息科学与工程学院东南大学2.3 汉语语音学n声母和韵母的相互作用声母和韵母的相互作用音征互载音征互载l声母和韵母的音征并不总是在各自的音段之内声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的会带有韵母的信息,韵母里也可能带有声母的信息,如辅音音渡。信息,如辅音音渡。信息科学与工程学院东南大学2.3 汉语语音学n汉语的声调汉语的声调l汉语普通话的声调只有阴平、阳平、上声、去汉语普通话的声调只有阴平、阳平、上声、去

16、声以及声以及“轻声轻声”等五种声调。等五种声调。l声调的变化就是浊音基音周期(或基音频率)声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时间的变化的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。产生了声调,变化的轨迹称为声调曲线。 信息科学与工程学院东南大学2.3 汉语语音学n汉语的声调汉语的声调l汉语普通话四种声调的典型曲线:汉语普通话四种声调的典型曲线: 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音发音系统语音发音系统 l人的发音器官包括:肺、气管、喉(包括声带人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。

17、这些器官共同形成一条形状)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。复杂的管道。l喉的部分称为声门。从声门到嘴唇的呼气通道喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道(叫做声道(Vocal Tract)。声道的形状主要由)。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。不断改变,而发出不同的语音。 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音听觉系统语音听觉系统l人耳由内耳、中耳和外耳三部分组成。人耳由内耳、中耳和外耳三部分组成。l外耳由耳翼、外耳道和鼓膜构成。外耳在对声外耳由耳翼、

18、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。音的感知中起着声源定位和声音放大的作用。l中耳包括由锤骨、砧骨和镫骨这三块听小骨构中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用配起来,同时对内耳起着保护的作用 。l内耳的主要构成器官是耳蜗内耳的主要构成器官是耳蜗(Cochlea)。它是听。它是听觉的受纳器,把声音通过机械变换产生神经发觉的受纳器,把声音通过机械变换产生神经发放信号。放信号。

19、信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n听觉系统听觉系统 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音听觉系统:时频分析和掩蔽语音听觉系统:时频分析和掩蔽l时频分析:时频分析:如果信号是一个多频率信号,则产如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大生的行波将沿着基底膜在不同的位置产生最大幅度。耳蜗就象一个频谱分析仪,将复杂的信幅度。耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。号分解成各种频率分量。l掩蔽效应:并非所有的声音都能被人耳听到,掩蔽效应:并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心

20、理声学这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。分为同时掩蔽和短时掩蔽。 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n同时掩蔽同时掩蔽信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n短时掩蔽短时掩蔽信息科学与工程学院东南大学2.5 语音信号生成的数学模型n语音信号是非平稳随机过程语音信号是非平稳随机过程n短时分析:短时分析:短段时间内表示语音信号时,短段时间内表示语音信号时,采用采用

21、线性时不变线性时不变模型。模型。 信息科学与工程学院东南大学2.5 语音信号生成的数学模型声道模型声道模型 语音信号语音信号 的产生模型的产生模型激励模型激励模型辐射模型辐射模型声管模型声管模型共振峰模型共振峰模型级联型级联型并联型并联型混合型混合型信息科学与工程学院东南大学系统模型n对于一阶全极点传递函数对于一阶全极点传递函数l传递函数所对应的幅度响应实际上是:传递函数所对应的幅度响应实际上是:11( )1H zaz|1|( )|zH zzaza信息科学与工程学院东南大学n当当a0信息科学与工程学院东南大学n当当a0信息科学与工程学院东南大学系统模型n当当aR,则上式可分解为如下部分分式之,

22、则上式可分解为如下部分分式之和的形式:和的形式:NkkkRrrrzazbzV101)(MiiiizCzBAzV1211)(信息科学与工程学院东南大学2.5 语音信号生成的数学模型n并联型并联型lM=5时的时的并联型共振峰模型并联型共振峰模型信息科学与工程学院东南大学2.5 语音信号生成的数学模型n混合型混合型l对于鼻化元音、阻塞音或摩擦音,腔体具有反对于鼻化元音、阻塞音或摩擦音,腔体具有反谐振特性,必须考虑零点,使之成为零极点模谐振特性,必须考虑零点,使之成为零极点模型。型。l将级联模型和并联模型结合起来的混合模型也将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。许是比较

23、完备的一种共振峰模型。 信息科学与工程学院东南大学2.5 语音信号生成的数学模型n混合型混合型信息科学与工程学院东南大学2.5 语音信号生成的数学模型辐射模型辐射模型n辐射阻抗的公式如下:辐射阻抗的公式如下:l式中,式中, , (a是口唇张开时的开口是口唇张开时的开口半径半径),c是声波传播速度是声波传播速度l辐射模型是一阶类高通滤波器,其等价的辐射模型是一阶类高通滤波器,其等价的z变变换换 rrrrLLjRRLjz)(,91282rRcaLr3810( )(1)R zRz信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的特性:语音信号的特性:l声学特性声学特性l时域波形时域波形

24、l频谱特性频谱特性l统计特性统计特性 信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性 l在时间域里,汉字在时间域里,汉字天天的拼音的拼音“tian”的时间的时间波形波形fs=8kHz,16bit。 05001000150020002500300035004000-0.4-0.3-0.2-0.100.10.20.30.4韵母声母信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性l清辅音,波形类似于白噪声,振幅很小,没有清辅音,波形类似于白噪声,振幅很小,没有明显的周期性;明

25、显的周期性;l元音具有明显的周期性,且振幅较大。它们的元音具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率周期对应的就是声带振动的频率,即基音频率。信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性l语音信号属于短时平稳信号,一般认为在语音信号属于短时平稳信号,一般认为在1030ms内语音信号特性基本上是不变的,或者变内语音信号特性基本上是不变的,或者变化很缓慢。化很缓慢。信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的语谱图语音信号的语谱图 l 时域分析对语音信号的频率特性没有直观的了时域分析对语音信号的频率特性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论