语音信号处理第2章-语音信号基础_第1页
语音信号处理第2章-语音信号基础_第2页
语音信号处理第2章-语音信号基础_第3页
语音信号处理第2章-语音信号基础_第4页
语音信号处理第2章-语音信号基础_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息科学与工程学院东南大学2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析信息科学与工程学院东南大学2.1 概述n语音信号处理是用数字信号处理技术对语语音信号处理是用数字信号处理技术对语音信号进行分析和研究的学科,其目的:音信号进行分析和研究的学科,其目的:l一是要得到反映语音信号重要特征的语音参数,一是要得到反映语音信号重要特征的语音参数,以便高效的传输或储存语音信号;以便高效的传输或储存语

2、音信号;l二是要通过运算,实现语音信号的应用,如语二是要通过运算,实现语音信号的应用,如语音合成、辨识讲话者、识别讲话内容等等。音合成、辨识讲话者、识别讲话内容等等。信息科学与工程学院东南大学2.2语音和语言n人们讲话时发出的话语叫语音,语音人们讲话时发出的话语叫语音,语音(Speech)是声音是声音(Acoustic)和语言和语言(Language)的组合体。的组合体。n语音:是由一连串的音组成语言的声音。语音:是由一连串的音组成语言的声音。 信息科学与工程学院东南大学2.2 语音和语言n人的说话过程人的说话过程可以分为五个阶段:(可以分为五个阶段:(1)想)想说阶段(说阶段(2)说出阶段(

3、)说出阶段(3)传送阶段()传送阶段(4)接收阶段(接收阶段(5)理解阶段)理解阶段信息科学与工程学院东南大学2.2 语音和语言n语音研究分为两类:语音研究分为两类:l语言学:语言学:包括构成语言的语素、词、短语和句包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法、文子等的不同层次的单位,以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处脉等语法和语义内容等。语言学是语音信号处理的基础。理的基础。 l语音学:语音学:考虑的是语音产生、语音感知等的过考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。语程以及语音中各个音的特征和分类等问题。语音学发展

4、成为三个主要分支:发音语音学、声音学发展成为三个主要分支:发音语音学、声学语音学、听觉语音学。学语音学、听觉语音学。信息科学与工程学院东南大学2.2 语音和语言n语音是一种声波,声波的特征属性:语音是一种声波,声波的特征属性:l音色:也叫音质,指包含的谐波成分,声音区音色:也叫音质,指包含的谐波成分,声音区别的基本特征。别的基本特征。l音调:声波的频率。音调:声波的频率。l音高:声波的强度或者振动幅度决定。音高:声波的强度或者振动幅度决定。l音长:发音的持续时间。音长:发音的持续时间。信息科学与工程学院东南大学2.2 语音和语言n音节:说话时发出的响亮中心,并被明显音节:说话时发出的响亮中心,

5、并被明显感觉到的语音片段叫音节(感觉到的语音片段叫音节(Syllable)。)。l英语单词发音时,是几个字母几个字母地拼起英语单词发音时,是几个字母几个字母地拼起来发音的,几个拼起来发音的字母叫一个音节来发音的,几个拼起来发音的字母叫一个音节如单词如单词China,划分成,划分成chi-na两个音节,单词两个音节,单词international分成分成in-ter-na-tio-nal五个音节,单五个音节,单词词English划分成划分成Eng-lish两个音节。两个音节。l而汉语则是一个字一个音节而汉语则是一个字一个音节信息科学与工程学院东南大学2.2 语音和语言信息科学与工程学院东南大学2

6、.2 语音和语言n一个音节可以由一个音素(一个音节可以由一个音素(Phoneme)构)构成,也可以由几个音素构成。成,也可以由几个音素构成。n音素:是语音发音的最小单位。分为元音音素:是语音发音的最小单位。分为元音(Vowel)和辅音()和辅音(Consonant)两类。)两类。信息科学与工程学院东南大学2.2 语音和语言n元音:元音是在发音过程中由气流通过口元音:元音是在发音过程中由气流通过口腔而不受阻碍发出的音。发音时从肺部呼腔而不受阻碍发出的音。发音时从肺部呼出的气流通过起共振作用的口腔,阻力极出的气流通过起共振作用的口腔,阻力极小并无摩擦声音的语音。小并无摩擦声音的语音。n辅音:呼出的

7、声流,由于通路的某一部分辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素而克服发音器官的这种阻碍而产生的音素称为辅音。称为辅音。信息科学与工程学院东南大学2.2 语音和语言n根据发音时声带是否振动,分为浊音和清根据发音时声带是否振动,分为浊音和清音的区别。音的区别。n通常元音为浊音,辅音为清音,但也有一通常元音为浊音,辅音为清音,但也有一部分辅音发声是,声带振动,因此辅音中部分辅音发声是,声带振动,因此辅音中有一部分是浊音。有一部分是浊音。 信息科学与工程学院东南大学2.2 语音和语言n共振峰:

8、共振峰参数是区别不同元音的重共振峰:共振峰参数是区别不同元音的重要参数,它一般包括要参数,它一般包括共振峰频率共振峰频率(Formant Frequency)的位置和)的位置和频带宽度频带宽度(Formant Bandwidth)。)。 n一般地说:区分语音是男声还是女声、是一般地说:区分语音是男声还是女声、是成人声音还是儿童声音,共振峰频率的高成人声音还是儿童声音,共振峰频率的高低是重要因素。低是重要因素。 信息科学与工程学院东南大学2.2 语音和语言n元音元音信息科学与工程学院东南大学2.2 语音和语言n辅音(清音)辅音(清音)信息科学与工程学院东南大学2.3 汉语语音学n汉语语音的特点:

9、汉语语音的特点: l音系简单。这是指音素少、音节少。音节的结音系简单。这是指音素少、音节少。音节的结构也比较简单。构也比较简单。 l由于清辅音多,而且多是弱清音,而且开口呼由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。听感上有清亮、高扬和舒服、柔和的感觉。 l有鲜明的轻重音和儿化韵,所以字词分隔清楚有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。,语言表达准确而丰富。 信息科学与工程学院东南大学2.3 汉语语音学n汉语音节的一般结构汉语音节的一般结构 l汉语的每个汉字是

10、一个音节,音节一般由汉语的每个汉字是一个音节,音节一般由声母声母、韵母和声调、韵母和声调三部分组成。三部分组成。l汉语音节的一般结构,由汉语音节的一般结构,由9个部分组成。其中个部分组成。其中14段属于声母(辅音),段属于声母(辅音),69段属于韵母(段属于韵母(元音),第元音),第5段是二者的过渡段。一个音节可段是二者的过渡段。一个音节可能只包含里面的某几段,但是第能只包含里面的某几段,但是第7段(主要元段(主要元音段)是每个音节是具有的。音段)是每个音节是具有的。 l汉语中一般有五个声调,即阴平、阳平、上声汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。、去声以及轻声。信息科学与工

11、程学院东南大学2.3 汉语语音学n汉语音节的一般结构汉语音节的一般结构信息科学与工程学院东南大学2.3 汉语语音学n汉语汉语声母声母的结构的结构 l声母共有声母共有21个,个,b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s,可分为六大类,可分为六大类:擦音、塞音、塞擦音、边音、鼻音、零声母:擦音、塞音、塞擦音、边音、鼻音、零声母信息科学与工程学院东南大学2.3 汉语语音学n汉语汉语韵母韵母的结构的结构 l8个单韵母,如个单韵母,如a、i、u等;等;l14个复韵母,如个复韵母,如ai、ao等;等;l16个鼻韵母如个鼻韵母如an、uang等。等。n应该注意

12、,元音并不等于韵母。元音、辅应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不韵母则是按音节结构分类的。这是两种不同的概念,尽管它们之间有一定的联系。同的概念,尽管它们之间有一定的联系。 信息科学与工程学院东南大学2.3 汉语语音学n声母和韵母的相互作用声母和韵母的相互作用音征互载音征互载l声母和韵母的音征并不总是在各自的音段之内声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的会带有韵母的信

13、息,韵母里也可能带有声母的信息,如辅音音渡。信息,如辅音音渡。信息科学与工程学院东南大学2.3 汉语语音学n汉语的声调汉语的声调l汉语普通话的声调只有阴平、阳平、上声、去汉语普通话的声调只有阴平、阳平、上声、去声以及声以及“轻声轻声”等五种声调。等五种声调。l声调的变化就是浊音基音周期(或基音频率)声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时间的变化的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。产生了声调,变化的轨迹称为声调曲线。 信息科学与工程学院东南大学2.3 汉语语音学n汉语的声调汉语的声调l汉语普通话四种声调的典型曲线:汉语普通

14、话四种声调的典型曲线: 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音发音系统语音发音系统 l人的发音器官包括:肺、气管、喉(包括声带人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。这些器官共同形成一条形状)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。复杂的管道。l喉的部分称为声门。从声门到嘴唇的呼气通道喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道(叫做声道(Vocal Tract)。声道的形状主要由)。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。不断改变,而发出不同的语音。

15、信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音听觉系统语音听觉系统l人耳由内耳、中耳和外耳三部分组成。人耳由内耳、中耳和外耳三部分组成。l外耳由耳翼、外耳道和鼓膜构成。外耳在对声外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。音的感知中起着声源定位和声音放大的作用。l中耳包括由锤骨、砧骨和镫骨这三块听小骨构中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用配起来,

16、同时对内耳起着保护的作用 。l内耳的主要构成器官是耳蜗内耳的主要构成器官是耳蜗(Cochlea)。它是听。它是听觉的受纳器,把声音通过机械变换产生神经发觉的受纳器,把声音通过机械变换产生神经发放信号。放信号。 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n听觉系统听觉系统 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n语音听觉系统:时频分析和掩蔽语音听觉系统:时频分析和掩蔽l时频分析:时频分析:如果信号是一个多频率信号,则产如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大生的行波将沿着基底膜在不同的位置产生最大幅度。耳蜗就象一个频谱分析仪,

17、将复杂的信幅度。耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。号分解成各种频率分量。l掩蔽效应:并非所有的声音都能被人耳听到,掩蔽效应:并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。分为同时掩蔽和短时掩蔽。 信息科学与工程学院东南大学2.4 语音生成系统和语音感知系统n同时掩蔽同时掩蔽信息科学与工程学院东南大学2.4 语音生成系统和语音感知

18、系统n短时掩蔽短时掩蔽信息科学与工程学院东南大学2.5 语音信号生成的数学模型n语音信号是非平稳随机过程语音信号是非平稳随机过程n短时分析:短时分析:短段时间内表示语音信号时,短段时间内表示语音信号时,采用采用线性时不变线性时不变模型。模型。 信息科学与工程学院东南大学2.5 语音信号生成的数学模型激励模型激励模型n浊音激励浊音激励l浊音浊音:由于声带不断张开和关闭,将产生间歇的由于声带不断张开和关闭,将产生间歇的脉冲波,因此浊音激励波是一个以基音周期为脉冲波,因此浊音激励波是一个以基音周期为周期的斜三角脉冲串,其数学表达式如下:周期的斜三角脉冲串,其数学表达式如下: 其他, 0,2/ )(c

19、os0),/cos(1)2/1 ()(2112111NNnNNNnNnNnng信息科学与工程学院东南大学2.5 语音信号生成的数学模型l由于单个斜三角波的由于单个斜三角波的z变换形式为:变换形式为:l而斜三角波的脉冲串可以看成单位脉冲串通过而斜三角波的脉冲串可以看成单位脉冲串通过斜三角波的滤波器,因此斜三角波脉冲串的模斜三角波的滤波器,因此斜三角波脉冲串的模型是单位脉冲和斜三角波的乘积型是单位脉冲和斜三角波的乘积 211)1 (11)()()(zezAzEzGzUcTv1 21( )(1)cTG zez信息科学与工程学院东南大学2.5 语音信号生成的数学模型n清音激励清音激励l随机白噪声随机白

20、噪声信息科学与工程学院东南大学2.5 语音信号生成的数学模型声道模型声道模型n共振峰模型共振峰模型l一个元音用前三个共振峰来表示,而对于较复一个元音用前三个共振峰来表示,而对于较复杂的辅音或鼻音,用前五个以上的共振峰。杂的辅音或鼻音,用前五个以上的共振峰。l可以建立起三种实用的共振峰模型:级联型、可以建立起三种实用的共振峰模型:级联型、并联型和混合型。并联型和混合型。 信息科学与工程学院东南大学2.5 语音信号生成的数学模型n级联型级联型l声道是一组串联的二阶谐振器:从共振峰理论声道是一组串联的二阶谐振器:从共振峰理论来看,整个声道具有多个谐振频率和多个反谐来看,整个声道具有多个谐振频率和多个

21、反谐振频率,所以它可被模拟为一个零极点的数学振频率,所以它可被模拟为一个零极点的数学模型;模型;l对于一般元音,则用全极点模型,传输函数可对于一般元音,则用全极点模型,传输函数可分解表示为多个二阶极点的网络的串联:分解表示为多个二阶极点的网络的串联: 121( )1MikiiaV zb zc z信息科学与工程学院东南大学2.5 语音信号生成的数学模型n级联型级联型l如二阶全极点传递函数如二阶全极点传递函数l其极点和频谱响应为:其极点和频谱响应为:11( )521H zz-1-0.500.51-1-0.8-0.6-0.4-0.200.20.40.60.812Real PartImaginary

22、Part012345610-1FrequenceMagnitude信息科学与工程学院东南大学2.5 语音信号生成的数学模型n级联型级联型信息科学与工程学院东南大学2.5 语音信号生成的数学模型n并联型并联型l对于非一般元音以及大部分辅音,必须考虑采对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:用零极点模型。此时,模型的传输函数如下: l通常,通常,NR,则上式可分解为如下部分分式之,则上式可分解为如下部分分式之和的形式:和的形式:NkkkRrrrzazbzV101)(MiiiizCzBAzV1211)(信息科学与工程学院东南大学2.5 语音信号生成的数学模型n

23、并联型并联型lM=5时的时的并联型共振峰模型并联型共振峰模型信息科学与工程学院东南大学2.5 语音信号生成的数学模型n混合型混合型l对于鼻化元音、阻塞音或摩擦音,腔体具有反对于鼻化元音、阻塞音或摩擦音,腔体具有反谐振特性,必须考虑零点,使之成为零极点模谐振特性,必须考虑零点,使之成为零极点模型。型。l将级联模型和并联模型结合起来的混合模型也将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。许是比较完备的一种共振峰模型。 信息科学与工程学院东南大学2.5 语音信号生成的数学模型n混合型混合型信息科学与工程学院东南大学2.5 语音信号生成的数学模型辐射模型辐射模型n辐射阻抗的公

24、式如下:辐射阻抗的公式如下:l式中,式中, , (a是口唇张开时的开口是口唇张开时的开口半径半径),c是声波传播速度是声波传播速度l辐射模型是一阶类高通滤波器,其等价的辐射模型是一阶类高通滤波器,其等价的z变变换换 rrrrLLjRRLjz)(,91282rRcaLr3810( )(1)R zRz信息科学与工程学院东南大学2.5 语音信号生成的数学模型语音信号的数学模型语音信号的数学模型 n完整的语音信号数字模型是:激励模型、完整的语音信号数字模型是:激励模型、声道模型和辐射模型的串联。声道模型和辐射模型的串联。声道模型v(z)辐射模型R(z)随机噪声发生器声道参数浊音/清音开关uAvA输出语

25、音基音频率0F周期脉冲发生器声门脉冲模型G(z)激励源声道模型辐射模型信息科学与工程学院东南大学2.5 语音信号生成的数学模型语音信号的数学模型语音信号的数学模型lU(z)是激励信号,浊音时是激励信号,浊音时U(z)是声门脉冲即斜是声门脉冲即斜三角形脉冲序列的三角形脉冲序列的z变换;在清音的情况下,变换;在清音的情况下, U(z)是一个随机噪声的是一个随机噪声的z变换。变换。lV(z)是声道传输函数,既可用声管模型,也可是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。以共振峰模型等来描述。lR(Z)是辐射模型,一阶高通。是辐射模型,一阶高通。)()()()(zRzVzUAzH信息科学

26、与工程学院东南大学2.6 语音信号的特性分析n语音信号的特性:语音信号的特性:l声学特性声学特性l时域波形时域波形l频谱特性频谱特性l统计特性统计特性 信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性 l在时间域里,汉语拼音在时间域里,汉语拼音“sou ke”的时间波形的时间波形fs=8kHz,16bit。不同性质的音素的差别。不同性质的音素的差别。 信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性l从从A点开始的音节点开始的音节s、从、从C点开始的点开始的k都是清都是清辅音,波形类似于白噪声,振幅很小,没有明辅音,波形类似于白噪声,振幅很小,没有明显的周期性;显的周期性;l从从B点开始的元音点开始的元音ou、从、从D点开始的点开始的e都具有都具有明显的周期性,且振幅较大。它们的周期对应明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率。的就是声带振动的频率,即基音频率。信息科学与工程学院东南大学2.6 语音信号的特性分析n语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性l语音信号属于短时平稳信号,一般

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论