语音信号处理第2章.ppt_第1页
语音信号处理第2章.ppt_第2页
语音信号处理第2章.ppt_第3页
语音信号处理第2章.ppt_第4页
语音信号处理第2章.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 1概述2 2语音和语言2 3汉语语音学2 4语音生成系统和语音感知系统2 5语音信号生成的数学模型2 6语音信号的特性分析 第2章语音信号处理的基础知识 2 1概述 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息 二是要通过处理的某种运算以达到某种用途的要求 例如人工合成出语音 辨识出讲话者 识别出讲话的内容等等 因此 在研究各种语音信号数字处理技术应用之前 首先需要了解语音信号的一些重要特性的知识 在此基础上才可以建立既实用又便于分析的语音信号产生模型和语音信号感知模型等 它们是贯穿整个语音信号数字处理的基础 2 2语音和语言 人们讲话时发出的话语叫语音 它是一种声音 具有称为声学特征的物理特性 语音 Speech 是声音 Acoustic 和语言 Language 的组合体 可以这样定义语音 语音是由一连串的音组成语言的声音 人的说话过程可以分为五个阶段 1 想说阶段 2 说出阶段 3 传送阶段 4 理解阶段 5 接收阶段 2 2语音和语言 人的说话的过程 2 2语音和语言语言是从人们的话语中概括总结出来的规律性的符号系统 包括构成语言的语素 词 短语和句子等的不同层次的单位 以及词法 句法 文脉等语法和语义内容等 语言学是语音信号处理的基础 语音学 Phonetics 是研究言语过程的一门科学 它考虑的是语音产生 语音感知等的过程以及语音中各个音的特征和分类等问题 现代语音学发展成为三个主要分支 发音语音学 声学语音学 听觉语音学 2 2语音和语言语音是人的发声器官发出的一种声波 它具有一定的音色 音调 音强和音长 其中 音色也叫音质 是一种声音区别于另一种声音的基本特征 音调是指声音的高低 它取决于声波的频率 声音的强弱叫音强 它由声波的振动幅度决定 声音的长短叫音长 它取决于发音时间的长短 说话时一次发出的 具有一个响亮的中心 并被明显感觉到的语音片段叫音节 Syllable 一个音节可以由一个音素 Phoneme 构成 也可以由几个音素构成 音素是语音发音的最小单位 任何语言都有语音的元音 Vowel 和辅音 Consonant 两种音素 2 2语音和语言说话时一次发出的 具有一个响亮的中心 并被明显感觉到的语音片段叫音节 Syllable 一个音节可以由一个音素 Phoneme 构成 也可以由几个音素构成 音素是语音发音的最小单位 任何语言都有语音的元音 Vowel 和辅音 Consonant 两种音素 当声带振动发出的声音气流从喉腔 咽腔进入口腔从唇腔出去时 这些声腔完全开放 气流顺利通过 这种音称为元音 呼出的声流 由于通路的某一部分封闭起来或受到阻碍 气流被阻不能畅通 而克服发音器官的这种阻碍而产生的音素称为辅音 发辅音时由声带是否振动引起浊音和清音的区别 声带振动的是浊音 声带不振动的是清音 2 2语音和语言决定元音音色的主要因素是舌头的形状及其在口腔中的位置 简称舌位 嘴唇的形状 简称口形 等 元音的另一个重要声学特性是共振峰 Formant 共振峰参数是区别不同元音的重要参数 它一般包括共振峰频率 FormantFrequency 的位置和频带宽度 FormantBandwidth 一般地说 虽然就语音的基音频率而言是女声和童声高于男声 但是实验表明 区分语音是男声还是女声 是成人声音还是儿童声音 更重要的因素是共振峰频率的高低 2 2语音和语言从上面的介绍可以总结出发音器官产生元音的条件 即 声道受到声带振动的激励引起共振 在语音流的持续过程中 声道不发生极端的狭窄 并维持较稳定的形状 和鼻腔不发生偶合 声音只从口腔辐射出去 这三个条件中 只要缺少其中之一 则该语音就是辅音 辅音没有明确的共振峰结构 辅音发音时的阻碍的位置叫调音点 PlaceofArticulation 阻碍的方法叫调音方式 MannerofArticulation 调音方式等的不同可以把辅音分成如下几类 塞音 摩擦音 塞擦音 鼻音 边音 颤音 通音 根据发辅音时声带有无振动 可以把辅音分类成浊辅音和清辅音 根据辅音除阻后是否紧跟着送出一股气来 可以把辅音分类成送气辅音和不送气辅音 2 3汉语语音学汉语语音的特点 音系简单 这是指音素少 音节少 音节的结构也比较简单 由于清辅音多 而且多是弱清音 而且开口呼的音节占全部音节的一半以上 所以汉语语音听感上有清亮 高扬和舒服 柔和的感觉 有鲜明的轻重音和儿化韵 所以字词分隔清楚 语言表达准确而丰富 汉语的拼音方法汉语由音素构成声母或韵母 有时 将含有声调 汉语通常认为有五个声调 的韵母称为调母 由单个调母或由声母与调母拼音成为音节 汉语的一个音节就是汉语一个字的音 即音节字 由音节字构成词 其中主要是两音节字构成的两字词 约占74 最后再由词构成句子 国际上 都是用音标来描述拼音过程的 汉语也不例外 汉语拼音的音标包括 声母表 韵母表和声调符号等 汉语音节的一般结构汉语音节一般由声母 韵母和声调三部分组成 汉语普通话中有6000多个常用字 每个汉字是一个音节 如将同音字合一处理 则汉语中共有1332个有调音节 其中可以单念的有1268个 汉语中一般有五个声调 即阴平 阳平 上声 去声以及轻声 如果不考虑声调 则汉语中无调音节共有407个 汉语音节的一般结构 由9个部分组成 其中1 4段属于声母 辅音 6 9段属于韵母 元音 第5段是二者的过渡段 一个音节可能只包含里面的某几段 但是第7段 主要元音段 是每个音节是具有的 汉语音节的一般结构 汉语声母的结构普通话中的二十二声母可分为六大类 擦音 塞音 塞擦音 边音 鼻音 零声母 除零声母之外 其他所有的声母全部都是单辅音 汉语韵母的结构普通话的三十八个韵母大致可以分为三类 8个单韵母 如 a i u 等 14个复韵母 如 ai ao 等 16个鼻韵母如 an uang 等 在这三十八个韵母中有三个 i er 是特殊韵母 应该注意 元音并不等于韵母 元音 辅音是按音素的发音特征分类的 而声母 韵母则是按音节结构分类的 这是两种不同的概念 尽管它们之间有一定的联系 声母和韵母的相互作用 音征互载 在普通话里 声母和韵母的音征并不总是在各自的音段之内 而且又可能跨越两者的边界 即声母里可能会带有韵母的信息 韵母里也可能带有声母的信息 如辅音音渡 如果把韵母从元音起始就开始算起的话 那么音渡就是韵母中载带的辅音音征 对于某些辅音来说 如不送气塞音 b d 元音里的音渡正是它们之间相互区别的主要音征 而韵母中的某些音征有声带载带的现象 最典型的就是介音的实现方式 汉语的声调汉语是一种声调语言 相同声母和韵母构成的音节随声调的不同而具有完全不同的意义 对应着不同的汉字 所以在汉语的相互交谈中 不但要凭借不同的元音 辅音来辨别这些字或词的意义 还需要从不同的声调来区别它 也就是说声调有辨意作用 另外 汉语中存在着多音字现象 同一个字在不同的语气或不同的词义下具有不同的声调 因而声调对于汉语语音的理解极为重要 承担着重要的构字辨意作用 汉语普通话的声调只有阴平 阳平 上声 去声以及 轻声 等五种声调 声调的变化就是浊音基音周期 或基音频率 的变化 各个韵母段中基音周期随时间的变化产生了声调 变化的轨迹称为声调曲线 汉语的声调汉语普通话四种声调的典型曲线 2 4语音生成系统和语音感知系统语音发音系统人的发音器官包括 肺 气管 喉 包括声带 咽 鼻和口 这些器官共同形成一条形状复杂的管道 喉的部分称为声门 从声门到嘴唇的呼气通道叫做声道 VocalTract 声道的形状主要由嘴唇 颚和舌头的位置来决定 由声道形状的不断改变 而发出不同的语音 语音听觉系统人耳由内耳 中耳和外耳三部分组成 外耳由耳翼 外耳道和鼓膜构成 外耳在对声音的感知中起着声源定位和声音放大的作用 中耳包括由锤骨 砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成 中耳的作用是进行声阻抗的变换 即将中耳两端的声阻抗匹配起来 同时对内耳起着保护的作用 内耳的主要构成器官是耳蜗 Cochlea 它是听觉的受纳器 把声音通过机械变换产生神经发放信号 语音听觉系统人的听觉系统 语音听觉系统人的听觉系统有两个重要特性 一个是耳蜗对于声信号的时频分析特性 另一个是人耳听觉掩蔽效应 如果信号是一个多频率信号 则产生的行波将沿着基底膜在不同的位置产生最大幅度 从这个意义上讲 耳蜗就象一个频谱分析仪 将复杂的信号分解成各种频率分量 并非所有的声音都能被人耳听到 这取决于声音的强度和其频率范围 心理声学中的听觉掩蔽效应是指 在一个强信号附近 弱信号将变得不可闻 被掩蔽掉了 掩蔽效应分为同时掩蔽和短时掩蔽 2 5语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示 建立了语音信号的数字模型 才能够用计算机来定量地对语音信号进行模拟和处理 所以语音信号生成的数学模型是语音信号处理的基础 理想的模型是线性的和时不变的 语音信号是非平稳随机过程 其特性是随着时间变化的 所以模型中的参数应该是随时间而变化的 但语音信号特性随着时间变化是很缓慢的 所以可以作出一些合理的假设 将语音信号分为一些相继的短段进行处理 在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程 这样在这些短段时间内表示语音信号时 可以采用线性时不变模型 激励模型激励模型一般分成浊音激励和清音激励来讨论 发浊音时 由于声带不断张开和关闭 将产生间歇的脉冲波 这个脉冲波的波形类似于斜三角形的脉冲 它的数学表达式如下 式中 N1为斜三角波上升部分的时间 N2为其下降部分的时间 单个斜三角波波形的频谱的图形如图2 18所示 由图可见 它是一个低通滤波器 它的变换的全极模型的形式是 激励模型这里 c是一个常数 显然 上式表示斜三角波形可描述为一个二极点的模型 因此 斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果 而该单位脉冲串及幅值因子则可表示成下面的z变换形式 所以 整个浊音激励模型可表示为 也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串 声道模型关于声道部分的数学模型 有多种观点 目前最常用的有两种建模方法 一是把声道视为由多个等长的不同截面积的管子串联而成的系统 按此观点推导出的叫 声管模型 另一个是把声道视为一个谐振腔 按此推导出的叫 共振峰模型 共振峰模型 把声道视为一个谐振腔 共振峰就是这个腔体的谐振频率 由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的 所以这种共振峰的声道模型方法是非常有效的 一般来说 一个元音用前三个共振峰来表示就足够了 而对于较复杂的辅音或鼻音 大概要用到前五个以上的共振峰才行 基于物理声学的共振峰理论 可以建立起三种实用的共振峰模型 级联型 并联型和混合型 声道模型级联型这时认为声道是一组串联的二阶谐振器 从共振峰理论来看 整个声道具有多个谐振频率和多个反谐振频率 所以它可被模拟为一个零极点的数学模型 但对于一般元音 则用全极点模型就可以了 它的传输函数可分解表示为多个二阶极点的网络的串联 声道模型级联型 声道模型并联型对于非一般元音以及大部分辅音 必须考虑采用零极点模型 此时 模型的传输函数如下 通常 N R 且设分子与分母无公因子及分母无重根 则上式可分解为如下部分分式之和的形式 这就是并联型的共振峰模型 如图2 21所示 M 5 声道模型并联型 声道模型混合型上述两种模型中 级联型比较简单 可以用于描述一般元音 当鼻化元音或鼻腔参与共振 以及阻塞音或摩擦音等情况时 级联模型就不能胜任了 这时腔体具有反谐振特性 必须考虑加入零点 使之成为零极点模型 采用并联结构的目的就在于此 它比级联型复杂些 每个谐振器的幅度都要独立地给以控制 但对于鼻音 塞音 擦音以及塞擦音等都可以适用 正因为如此 将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型 声道模型混合型共振峰模型 辐射模型从声道模型输出的是速度波 而语音信号是声压波 二者之倒比称为辐射阻抗 它表征口唇的辐射效应 也包括圆形的头部的绕射效应等 当然 从理论上推导这个阻抗是有困难的 但是如果认为口唇张开的面积远小于头部的表面积 则可近似地看成平板开槽辐射的情况 此时 可推导出辐射阻抗的公式如下 式中 这里 是口唇张开时的开口半径 是声波传播速度 图2 24显示了辐射阻抗的实部和虚部的频率响应曲线 由辐射引起的能量损耗正比于辐射阻抗的实部 所以辐射模型是一阶类高通滤波器 语音信号的数学模型综上所述 完整的语音信号的数字模型可以用三个子模型 激励模型 声道模型和辐射模型的串联来表示 如图所示 它的传输函数可以表示为 语音信号的数学模型这里 U z 是激励信号 浊音时U z 是声门脉冲即斜三角形脉冲序列的z变换 在清音的情况下 U z 是一个随机噪声的z变换 V z 是声道传输函数 既可用声管模型 也可以共振峰模型等来描述 实际上就是全极点模型 应该指出 上式所示模型的内部结构并不和语音产生的物理过程相一致 但这种模型和真实模型在输出处是等效的 另外 这种模型是 短时 的模型 因为一些语音信号的变化是缓慢的 例如元音在10 20ms内其参数可假定不变 这里声道转移函数是一个参数随时间缓慢变化的模型 另外 这一模型认为语音是声门激励源激励线性系统 声道所产生的 2 6语音信号的特性分析 语音信号的特性主要是指它的声学特性 语音信号的时域波形和频谱特性以及语音信号的统计特性等 关于声学特性在上面已经作了简单的介绍 下面主要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析 语音信号的时域波形和频谱特性在时间域里 语音信号可以直接用它的时间波形表示出来 通过观察时间波形可以看出语音信号的一些重要特性 下图是汉语拼音 souke 的时间波形 表示这段语音波形时采用的采样频率是8kHz 量化精度是16bit 图上标明了时间及各个音节的起始位置 由于在时域波形里各个单音节间不好明显地分界 因此 图上标出的某个音的起点只是粗略的 观察语音信号时间波形的特性 可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别 语音信号的时域波形和频谱特性从上图可以看出 清辅音 s k 和元音 ou e 这两类音的时间波形有很大区别 例如 从A点开始的音节 s 以及从C点开始的 k 都是清辅音 它们的波形类似于白噪声 振幅很小 没有明显的周期性 而从B点开始的元音 ou 以及从D点开始的 e 都具有明显的周期性 且振幅较大 它们的周期对应的就是声带振动的频率 即基音频率 它是声门脉冲的间隔 如果考察其中一小段元音语音波形 从它的频谱特性大致可以看出它们的共振峰特性 语音信号的时域波形和频谱特性语音信号属于短时平稳信号 一般认为在10 30ms内语音信号特性基本上是不变的 或者变化很缓慢 于是 可以从中截取一小段进行频谱分析 下图给出 sou 中音素 ou 的傅里叶变换 语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法 显然这两种单独分析的方法均有局限性 时域分析对语音信号的频率特性没有直观的了解 而频域分析出的特征中又没有语音信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论