语音信号处理第2章.ppt

上传人：x*** IP属地：四川上传时间：2020-03-25 格式：PPT 页数：43 大小：618KB 积分：15 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2 1概述2 2语音和语言2 3汉语语音学2 4语音生成系统和语音感知系统2 5语音信号生成的数学模型2 6语音信号的特性分析第2章语音信号处理的基础知识 2 1概述语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息二是要通过处理的某种运算以达到某种用途的要求例如人工合成出语音辨识出讲话者识别出讲话的内容等等因此在研究各种语音信号数字处理技术应用之前首先需要了解语音信号的一些重要特性的知识在此基础上才可以建立既实用又便于分析的语音信号产生模型和语音信号感知模型等它们是贯穿整个语音信号数字处理的基础 2 2语音和语言人们讲话时发出的话语叫语音它是一种声音具有称为声学特征的物理特性语音 Speech 是声音 Acoustic 和语言 Language 的组合体可以这样定义语音语音是由一连串的音组成语言的声音人的说话过程可以分为五个阶段 1 想说阶段 2 说出阶段 3 传送阶段 4 理解阶段 5 接收阶段 2 2语音和语言人的说话的过程 2 2语音和语言语言是从人们的话语中概括总结出来的规律性的符号系统包括构成语言的语素词短语和句子等的不同层次的单位以及词法句法文脉等语法和语义内容等语言学是语音信号处理的基础语音学 Phonetics 是研究言语过程的一门科学它考虑的是语音产生语音感知等的过程以及语音中各个音的特征和分类等问题现代语音学发展成为三个主要分支发音语音学声学语音学听觉语音学 2 2语音和语言语音是人的发声器官发出的一种声波它具有一定的音色音调音强和音长其中音色也叫音质是一种声音区别于另一种声音的基本特征音调是指声音的高低它取决于声波的频率声音的强弱叫音强它由声波的振动幅度决定声音的长短叫音长它取决于发音时间的长短说话时一次发出的具有一个响亮的中心并被明显感觉到的语音片段叫音节 Syllable 一个音节可以由一个音素 Phoneme 构成也可以由几个音素构成音素是语音发音的最小单位任何语言都有语音的元音 Vowel 和辅音 Consonant 两种音素 2 2语音和语言说话时一次发出的具有一个响亮的中心并被明显感觉到的语音片段叫音节 Syllable 一个音节可以由一个音素 Phoneme 构成也可以由几个音素构成音素是语音发音的最小单位任何语言都有语音的元音 Vowel 和辅音 Consonant 两种音素当声带振动发出的声音气流从喉腔咽腔进入口腔从唇腔出去时这些声腔完全开放气流顺利通过这种音称为元音呼出的声流由于通路的某一部分封闭起来或受到阻碍气流被阻不能畅通而克服发音器官的这种阻碍而产生的音素称为辅音发辅音时由声带是否振动引起浊音和清音的区别声带振动的是浊音声带不振动的是清音 2 2语音和语言决定元音音色的主要因素是舌头的形状及其在口腔中的位置简称舌位嘴唇的形状简称口形等元音的另一个重要声学特性是共振峰 Formant 共振峰参数是区别不同元音的重要参数它一般包括共振峰频率 FormantFrequency 的位置和频带宽度 FormantBandwidth 一般地说虽然就语音的基音频率而言是女声和童声高于男声但是实验表明区分语音是男声还是女声是成人声音还是儿童声音更重要的因素是共振峰频率的高低 2 2语音和语言从上面的介绍可以总结出发音器官产生元音的条件即声道受到声带振动的激励引起共振在语音流的持续过程中声道不发生极端的狭窄并维持较稳定的形状和鼻腔不发生偶合声音只从口腔辐射出去这三个条件中只要缺少其中之一则该语音就是辅音辅音没有明确的共振峰结构辅音发音时的阻碍的位置叫调音点 PlaceofArticulation 阻碍的方法叫调音方式 MannerofArticulation 调音方式等的不同可以把辅音分成如下几类塞音摩擦音塞擦音鼻音边音颤音通音根据发辅音时声带有无振动可以把辅音分类成浊辅音和清辅音根据辅音除阻后是否紧跟着送出一股气来可以把辅音分类成送气辅音和不送气辅音 2 3汉语语音学汉语语音的特点音系简单这是指音素少音节少音节的结构也比较简单由于清辅音多而且多是弱清音而且开口呼的音节占全部音节的一半以上所以汉语语音听感上有清亮高扬和舒服柔和的感觉有鲜明的轻重音和儿化韵所以字词分隔清楚语言表达准确而丰富汉语的拼音方法汉语由音素构成声母或韵母有时将含有声调汉语通常认为有五个声调的韵母称为调母由单个调母或由声母与调母拼音成为音节汉语的一个音节就是汉语一个字的音即音节字由音节字构成词其中主要是两音节字构成的两字词约占74 最后再由词构成句子国际上都是用音标来描述拼音过程的汉语也不例外汉语拼音的音标包括声母表韵母表和声调符号等汉语音节的一般结构汉语音节一般由声母韵母和声调三部分组成汉语普通话中有6000多个常用字每个汉字是一个音节如将同音字合一处理则汉语中共有1332个有调音节其中可以单念的有1268个汉语中一般有五个声调即阴平阳平上声去声以及轻声如果不考虑声调则汉语中无调音节共有407个汉语音节的一般结构由9个部分组成其中1 4段属于声母辅音 6 9段属于韵母元音第5段是二者的过渡段一个音节可能只包含里面的某几段但是第7段主要元音段是每个音节是具有的汉语音节的一般结构汉语声母的结构普通话中的二十二声母可分为六大类擦音塞音塞擦音边音鼻音零声母除零声母之外其他所有的声母全部都是单辅音汉语韵母的结构普通话的三十八个韵母大致可以分为三类 8个单韵母如 a i u 等 14个复韵母如 ai ao 等 16个鼻韵母如 an uang 等在这三十八个韵母中有三个 i er 是特殊韵母应该注意元音并不等于韵母元音辅音是按音素的发音特征分类的而声母韵母则是按音节结构分类的这是两种不同的概念尽管它们之间有一定的联系声母和韵母的相互作用音征互载在普通话里声母和韵母的音征并不总是在各自的音段之内而且又可能跨越两者的边界即声母里可能会带有韵母的信息韵母里也可能带有声母的信息如辅音音渡如果把韵母从元音起始就开始算起的话那么音渡就是韵母中载带的辅音音征对于某些辅音来说如不送气塞音 b d 元音里的音渡正是它们之间相互区别的主要音征而韵母中的某些音征有声带载带的现象最典型的就是介音的实现方式汉语的声调汉语是一种声调语言相同声母和韵母构成的音节随声调的不同而具有完全不同的意义对应着不同的汉字所以在汉语的相互交谈中不但要凭借不同的元音辅音来辨别这些字或词的意义还需要从不同的声调来区别它也就是说声调有辨意作用另外汉语中存在着多音字现象同一个字在不同的语气或不同的词义下具有不同的声调因而声调对于汉语语音的理解极为重要承担着重要的构字辨意作用汉语普通话的声调只有阴平阳平上声去声以及轻声等五种声调声调的变化就是浊音基音周期或基音频率的变化各个韵母段中基音周期随时间的变化产生了声调变化的轨迹称为声调曲线汉语的声调汉语普通话四种声调的典型曲线 2 4语音生成系统和语音感知系统语音发音系统人的发音器官包括肺气管喉包括声带咽鼻和口这些器官共同形成一条形状复杂的管道喉的部分称为声门从声门到嘴唇的呼气通道叫做声道 VocalTract 声道的形状主要由嘴唇颚和舌头的位置来决定由声道形状的不断改变而发出不同的语音语音听觉系统人耳由内耳中耳和外耳三部分组成外耳由耳翼外耳道和鼓膜构成外耳在对声音的感知中起着声源定位和声音放大的作用中耳包括由锤骨砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成中耳的作用是进行声阻抗的变换即将中耳两端的声阻抗匹配起来同时对内耳起着保护的作用内耳的主要构成器官是耳蜗 Cochlea 它是听觉的受纳器把声音通过机械变换产生神经发放信号语音听觉系统人的听觉系统语音听觉系统人的听觉系统有两个重要特性一个是耳蜗对于声信号的时频分析特性另一个是人耳听觉掩蔽效应如果信号是一个多频率信号则产生的行波将沿着基底膜在不同的位置产生最大幅度从这个意义上讲耳蜗就象一个频谱分析仪将复杂的信号分解成各种频率分量并非所有的声音都能被人耳听到这取决于声音的强度和其频率范围心理声学中的听觉掩蔽效应是指在一个强信号附近弱信号将变得不可闻被掩蔽掉了掩蔽效应分为同时掩蔽和短时掩蔽 2 5语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示建立了语音信号的数字模型才能够用计算机来定量地对语音信号进行模拟和处理所以语音信号生成的数学模型是语音信号处理的基础理想的模型是线性的和时不变的语音信号是非平稳随机过程其特性是随着时间变化的所以模型中的参数应该是随时间而变化的但语音信号特性随着时间变化是很缓慢的所以可以作出一些合理的假设将语音信号分为一些相继的短段进行处理在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程这样在这些短段时间内表示语音信号时可以采用线性时不变模型激励模型激励模型一般分成浊音激励和清音激励来讨论发浊音时由于声带不断张开和关闭将产生间歇的脉冲波这个脉冲波的波形类似于斜三角形的脉冲它的数学表达式如下式中 N1为斜三角波上升部分的时间 N2为其下降部分的时间单个斜三角波波形的频谱的图形如图2 18所示由图可见它是一个低通滤波器它的变换的全极模型的形式是激励模型这里 c是一个常数显然上式表示斜三角波形可描述为一个二极点的模型因此斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果而该单位脉冲串及幅值因子则可表示成下面的z变换形式所以整个浊音激励模型可表示为也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串声道模型关于声道部分的数学模型有多种观点目前最常用的有两种建模方法一是把声道视为由多个等长的不同截面积的管子串联而成的系统按此观点推导出的叫声管模型另一个是把声道视为一个谐振腔按此推导出的叫共振峰模型共振峰模型把声道视为一个谐振腔共振峰就是这个腔体的谐振频率由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的所以这种共振峰的声道模型方法是非常有效的一般来说一个元音用前三个共振峰来表示就足够了而对于较复杂的辅音或鼻音大概要用到前五个以上的共振峰才行基于物理声学的共振峰理论可以建立起三种实用的共振峰模型级联型并联型和混合型声道模型级联型这时认为声道是一组串联的二阶谐振器从共振峰理论来看整个声道具有多个谐振频率和多个反谐振频率所以它可被模拟为一个零极点的数学模型但对于一般元音则用全极点模型就可以了它的传输函数可分解表示为多个二阶极点的网络的串联声道模型级联型声道模型并联型对于非一般元音以及大部分辅音必须考虑采用零极点模型此时模型的传输函数如下通常 N R 且设分子与分母无公因子及分母无重根则上式可分解为如下部分分式之和的形式这就是并联型的共振峰模型如图2 21所示 M 5 声道模型并联型声道模型混合型上述两种模型中级联型比较简单可以用于描述一般元音当鼻化元音或鼻腔参与共振以及阻塞音或摩擦音等情况时级联模型就不能胜任了这时腔体具有反谐振特性必须考虑加入零点使之成为零极点模型采用并联结构的目的就在于此它比级联型复杂些每个谐振器的幅度都要独立地给以控制但对于鼻音塞音擦音以及塞擦音等都可以适用正因为如此将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型声道模型混合型共振峰模型辐射模型从声道模型输出的是速度波而语音信号是声压波二者之倒比称为辐射阻抗它表征口唇的辐射效应也包括圆形的头部的绕射效应等当然从理论上推导这个阻抗是有困难的但是如果认为口唇张开的面积远小于头部的表面积则可近似地看成平板开槽辐射的情况此时可推导出辐射阻抗的公式如下式中这里是口唇张开时的开口半径是声波传播速度图2 24显示了辐射阻抗的实部和虚部的频率响应曲线由辐射引起的能量损耗正比于辐射阻抗的实部所以辐射模型是一阶类高通滤波器语音信号的数学模型综上所述完整的语音信号的数字模型可以用三个子模型激励模型声道模型和辐射模型的串联来表示如图所示它的传输函数可以表示为语音信号的数学模型这里 U z 是激励信号浊音时U z 是声门脉冲即斜三角形脉冲序列的z变换在清音的情况下 U z 是一个随机噪声的z变换 V z 是声道传输函数既可用声管模型也可以共振峰模型等来描述实际上就是全极点模型应该指出上式所示模型的内部结构并不和语音产生的物理过程相一致但这种模型和真实模型在输出处是等效的另外这种模型是短时的模型因为一些语音信号的变化是缓慢的例如元音在10 20ms内其参数可假定不变这里声道转移函数是一个参数随时间缓慢变化的模型另外这一模型认为语音是声门激励源激励线性系统声道所产生的 2 6语音信号的特性分析语音信号的特性主要是指它的声学特性语音信号的时域波形和频谱特性以及语音信号的统计特性等关于声学特性在上面已经作了简单的介绍下面主要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析语音信号的时域波形和频谱特性在时间域里语音信号可以直接用它的时间波形表示出来通过观察时间波形可以看出语音信号的一些重要特性下图是汉语拼音 souke 的时间波形表示这段语音波形时采用的采样频率是8kHz 量化精度是16bit 图上标明了时间及各个音节的起始位置由于在时域波形里各个单音节间不好明显地分界因此图上标出的某个音的起点只是粗略的观察语音信号时间波形的特性可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别语音信号的时域波形和频谱特性从上图可以看出清辅音 s k 和元音 ou e 这两类音的时间波形有很大区别例如从A点开始的音节 s 以及从C点开始的 k 都是清辅音它们的波形类似于白噪声振幅很小没有明显的周期性而从B点开始的元音 ou 以及从D点开始的 e 都具有明显的周期性且振幅较大它们的周期对应的就是声带振动的频率即基音频率它是声门脉冲的间隔如果考察其中一小段元音语音波形从它的频谱特性大致可以看出它们的共振峰特性语音信号的时域波形和频谱特性语音信号属于短时平稳信号一般认为在10 30ms内语音信号特性基本上是不变的或者变化很缓慢于是可以从中截取一小段进行频谱分析下图给出 sou 中音素 ou 的傅里叶变换语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法显然这两种单独分析的方法均有局限性时域分析对语音信号的频率特性没有直观的了解而频域分析出的特征中又没有语音信

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第2章.ppt

文档简介

温馨提示

最新文档

评论

语音信号处理第2章.ppt

文档简介

温馨提示

最新文档

评论

相关文档