[工学]数字语音处理1-2章.ppt_第1页
[工学]数字语音处理1-2章.ppt_第2页
[工学]数字语音处理1-2章.ppt_第3页
[工学]数字语音处理1-2章.ppt_第4页
[工学]数字语音处理1-2章.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信号处理,天行健君子以自强不息,教材,1. 语音信号处理(修订版)胡航 哈尔滨工业大学出版社,参考资料,1.语音信号数字处理Lawrence Rabiner,1983 2.语音识别基本原理 Lawrence Rabiner,1999,第一章 绪论,数字语音处理研究的内容 语音处理的发展历史 返回 下一章,语音信息的重要性,人类从大自然获取信息的分布图,数字语音处理研究的内容,语音信号处理的实质 语音信号的数字表示 语音信号数字处理的方法和技术 数字语音处理的应用 返回,1.语音信号处理的实质,1.实质:是研究用数字信号处理技术对语音信号进行处理的一门学科 2目的: 通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算以达到某种要求。,1.语音信号处理的实质,3.学科基础:以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与心理学、生理学、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。 返回,1.语音信号处理的基本内容,说的是什么内容?,是谁在说话?,计算机去说话?,怎么把话说好?,语音识别,说话人识别/确认,文语转换,说话水平评估,说的是什么语言?,语种识别,2. 语音信号的数字表示,语音表示方法的选择 要保存语音信号中的消息内容; 表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取; 2. 语音信号数字表示的优点 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;,2. 语音信号的表示,数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。 语音信号的数字表示方法 波形表示采样和量化,保持波形 参数表示激励源和模型参数(第二章),语音信号波形表示示例,一些常用的语音波形分析与处理的软件 Cooledit Goldenwave SFS Nero waveedit Praat,Cooledit Pro 界面,返回,3. 语音信号的数字处理方法,语音信号的特点短时平稳性 短时时域处理方法短时能量、短时平均过零率以及短时自相关函数计算 短时频域分析短时傅立叶分析 线性预测技术本质上属于时域分析方法,但其结果可以是频域参数 倒谱和同态分析、矢量量化和隐马尔可夫模型,语音信号的特点短时平稳性,语音信号数字处理基本过程,以降低语音发音速率的处理过程为例,语音信号数字处理基本过程,连续语音波形 - A/D 转换 - 离散时间信号 - 用数字系统进行处理 - 修改后的离散时间信号 - D/A 变换 - 模拟波形 返回,4. 数字语音处理的应用,语音压缩和编码语音通信数字化; 语音合成自动报站、自动报时、自动警告、电话自动查询和语音提示等; 语音识别声控应用、自动口语翻译; 说话人识别安全加密、银行信息电话查询服务以及破案和法庭取证; 语音增强通常作为语音处理的前端。,各种语音产品,返回,语音处理的发展历史,1876年电话的发明,贝尔(Bell); 1939年声码器的研制成功声源声道; 1947年贝尔实验室发明语谱图仪语音识别研究的开始; 50年代第一台口授打字机和英语单词语音识别器; 60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;,语音处理的发展历史,70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别; 80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),viavoice汉语听写机。CMU语音组研制成功SPHINX系统(识别率达95.8%); 国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。 返回,第二章 基础知识,人类的语言器官 语音产生过程 语音信号产生的数字模型 语音信号的特性 人类的听觉功能 返回 下一章,1. 人类的语言器官,人类能以语言沟通,进而累积知识,形成文化,其中一个主要的原因,就是人类具有较其它生物优越的发音器官。 人类的发音器官能够产生多样性的声音,构成丰富的词汇,无疑是最关键的因素。,1. 人类的语言器官,人体发音器官肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:咽、鼻腔 、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。,1. 人类的语言器官,注:喉部以上的部分统称为声道;气管和肺在声门以下,1. 人类的语言器官,图2-2 最重要的发音器官之一:声带,(a)闭合状态 (b)张开状态,甲状软骨 杓状软骨 环状软骨 声门 声带(声襞),返回,2. 语 音 产 生 过 程,发音机理,肺,声带,声道,恒定气流,声音,嘴唇,声压波,速度波,能源,激励源,谐振腔,辐射源,变化气流,2.语音产生过程,语音的形成过程空气由肺部排入喉部,经 过声带进入声道,最后由嘴辐射出声波,形成 语音。 浊音:声带绷紧,气流通过时会使得开口变成 一开一闭的周期性动作,这时候就造成周期性 的激发气流,如a,o; 清音:声带完全舒展,声道某部位收缩形成一 个狭窄的通道,产生空气湍流,如h,d; 爆破音:声带完全舒展,声道的某部位完全闭 合,一旦闭合点突然开启,空气压力快速释 放 ,如b,p。,2. 语音产生过程,语音的两个重要声学特性: 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。 人类基音频率的范围在60Hz至450Hz左右。,2. 语音产生过程,语音的两个重要声学特性: 共振峰(Fn , n=1,2,.):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。,2. 语音产生过程,理想状态下共振峰的计算:假设声道截面是均匀的(此 时可把声道看作一个粗细均匀的圆筒),从喉到唇的距 离L=17 cm,音速c=340 m/s,则共振峰将发生在:,返回,2.3 语音的时间波形和频谱特性,语音可以直接用它的时间波形来表示,根据时间波形可以看出语音信号的一些主要特性。就其本性而言,语音波形是时间的连续函数,其统计特性是随时间而变化的,但比较缓慢,1030ms,2.3语音的时间波形和频谱特性,语音的频谱特性由声道的形状和尺寸决定,随 时间变化短时谱(清浊音的不同、对数和 线性振幅谱);语谱图(浊音和清音的不同、 宽带和窄带语谱图),2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,元音信号的频谱,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,2.3语音的时间波形和频谱特性,语音信号时域波形示意图: 静息波 脉冲波(清塞音)准周期波(浊音)噪声波(摩擦音 ),2.3语音的时间波形和频谱特性,声音的语谱图,2.3语音的时间波形和频谱特性,窄频带的语谱图(narrowband spectrograms) 语谱图的产生是用傅里叶转换(Fourier transform),当我们用较长的分析窗口(analysis windows),约20ms,对应频宽约为45 Hz,得到的频率分辨率较高,频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0) 。,2.3语音的时间波形和频谱特性,宽频带的语谱图(wideband spectrograms) 若是在转换演算时用较少的取样点,分析窗口大约 3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分, 在语谱图上看不到等距的黑白相间。频率分辨率较低, 反而是时轴上的分辨率较高,看到明显的垂直线条。,2.3语音的时间波形和频谱特性,共振峰(formant) 在频域上,能量集中处就是共振峰(formant)之所在,在语谱图上就是颜色较深的位置。 在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。 如果是发辅音,而且声带不振动,就看不到谐振频率。通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。 若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。,2.3语音的时间波形和频谱特性,元音与辅音的声学特性 (一) 元音 发元音的声音时,声带是振动的,音强也较大,波形上可以看到大的振幅,而且呈现周期性。其周期就是音高周期,对应的频率就是基频,通常以F0表示。 正常说话时,元音的音长大约是50到400ms之间。 元音在频谱上会呈现能量集中的现象,集中处的频带称为共振峰。在5 kHz的语音频带范围内,会有5个共振峰,分别以F1F2F3F4与F5代表,其中F1F2与F3比较明显 。,2.3语音的时间波形和频谱特性,图4-3 三个元音的语谱图(分别对应汉语拼音的 元音i , a , u ),2.3语音的时间波形和频谱特性,图4-4 双元音在语谱图上共振峰转移(过渡)的现象 分别对应汉语拼音的双元音 ai , ei , ao , ou,2.3语音的时间波形和频谱特性,(二) 辅音 辅音是对元音的前或后作修饰。带声的辅音会有类似元音的共振峰,因为声带振动,所以和元音一样有谐振的成分,但相对于元音,能量小得多。不带声的摩擦音(如f, s, sh, x, h)类似噪音,能量倾向在高频。发鼻音时,鼻腔的共振效果使得低频成分受到压抑,虽然是声带振动而有共振峰,但低频的共振峰能量较弱。 下图分别对应汉语拼音辅音:b, p, m, f, j, q, x, zh, ch, sh,2.3语音的时间波形和频谱特性,图4-5 塞音(或爆破音)出现在元音前的例子 下图分别对应 ba , da , ga , pa , ta , ka,在一个音节的开始若有塞音,当气流放出之后,随着就发元音,声带开始振动,在语谱图上可以观察到一小段时间之后,才有明显的共振峰出现,这一小段时间就叫做嗓音的起始时间(voice onset time),简称VOT。,返回,2.3语音信号的统计特性,语音信号可以看成是一个遍历性随机过程的样本函数; 语音信号的统计特性可以用它的振幅概率密度函数和一些平均量(均值和自相关函数)来描述概率密度的估算、逼近方法及意义;自相关函数的估计及影响因素(语音段和滤波情况); 语音信号的统计特性也可以用功率谱来描述长期平均功率谱可以用周期图来估计; 返回,2.3语音信号的统计特性,长时平均幅度的概率密度分布,2.4. 语音信号产生的数字模型,在研究了发声器官和语音的产生过程以后,便可以建立 一个离散时域的语音信号产生的数字模型,它将是我们 将数字信号处理技术应用于语音信号的基础。下图是一 个完整的语音信号产生的数字模型:,2.4. 语音信号产生的数字模型,由此模型框图,我们可将语音信号看成准 周期序列或随机噪声序列作为激励的线性 非移变系统的输出,此模型可分为三个部 分:(1)激励模型(2)声道模型(3)辐射模型 (1)激励模型 根据发浊音和发清音的机理 又分为: (a)浊音激励 (b)清音激励,2.4. 语音信号产生的数字模型,(a)浊音激励 由前面所讲发音过程可 知,发浊音时声带不断地张 开和闭合将产生间歇的准周 期性脉冲波,其周期为基音 周期,单个脉冲的波形类似 于斜三角波,故数字模型中 可用周期为T0单位取样序列 串作为声门脉冲模型g(n)的输 入,其输出就是浊音激励。 由于人类语音的频率范围 主要集中在300Hz3400Hz, 数字模型中的信号取样率一 般为8KHz。,2.4. 语音信号产生的数字模型,声门脉冲模型数学表达式(L为斜三角波上升时间,K 为斜三角波下降时间,两者均为整数),由语音信号产生的数字模型激励部分可知,是一个以基音周期T0为周期的斜三角波脉冲串序列。,2.4. 语音信号产生的数字模型,上述公式中参数T0为 数字信号的取样间隔, 由左边声门脉冲模型 的频谱图可知声门脉 冲模型是一个低通滤 波器,一个二级点模 型。,2.4. 语音信号产生的数字模型,(b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。,2.4. 语音信号产生的数字模型,(2)声道模型 两种建模方法:(a)声管模型(b)共振峰模型 共振峰模型将声道视为一个谐振腔,按 此原则导出。 基于各种音素发音的不同谐振特点可建 立起三种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型,2.4. 语音信号产生的数字模型,(2)声管模型,2.4. 语音信号产生的数字模型,(a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器:,这是一个全极点模型,极点就是这个多项式的根:,若P为偶数,解其根会得到共轭复数对的根,表示成:,2.4. 语音信号产生的数字模型,F=1/T - 取样频率 i/ - 共振峰的频宽。 Fi是 - 共振峰(formant)的中心频率,这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。,2.4. 语音信号产生的数字模型,(a)级联型:,2.4. 语音信号产生的数字模型,(b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型:,通常PR,假设分子与分母无公因 子且分母无重根,则此式可分解为 以下部分分式之和的形式:,这就是并联型共振峰模型,每一个二阶因式对应一个共 振峰。每个二阶谐振器的幅度可单独控制。,2.4. 语音信号产生的数字模型,(b)并联型,2.4. 语音信号产生的数字模型,前面两种共振峰模型各自都只能适用于部分语音,级联 或并联的级数取决于声道的长度,一般成人取3到5级。 级联型结构较为简单,并联型各谐振器幅度可独立控制, 综合考虑两者的优缺点可将两种共振峰模型有机地结合 起来就得到一种较为完备的共振峰模型。 (c)混合型 我们可以根据发音的需要自动切换串联或 并联通路,此外并联部分还有一条直通路径,其幅度控 制因子为AB,这是专为一些频谱特性较为平坦的音素如 f、p、b而考虑的,以增强反谐振特性。,2.4. 语音信号产生的数字模型,(c)混合型,幅度控制因子AB专为一些频谱特性比较平坦的音素,如f,p,b所考虑的。,2.4. 语音信号产生的数字模型,(3)辐射模型 在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字高通滤波器拟这个现象,这个滤波器又叫做辐射模型(radiation model),其数学式如下,完整的数字模型的系统函数:,2.4. 语音信号产生的数字模型,总结: 1. 此模型并非最完备的模型,因为它对一些音是不适用的如浊音中的摩擦音,这种音要有发浊音和清音的两种激励,而不是简单的叠加关系,对这些音我们可用更精确的模型来模拟。 2. 语音产生的数字模型中增益控制(对Av或AN)代表了输出语音的音响强度;时变线性系统主要用来模拟声道的特性; 3. 数字语音处理中两个基本问题,即语音分析和语音合成,都是基于这个模型来实现的; 4. 此数字模型的特点: 系统参数固定不变短时分析; 全极点性质零点可由多个极点逼近; 激励源和声道互相独立适用于大多数数字语音处理。 返回,2.5. 人类的听觉功能,用语言作沟通,就是说话的人能让对方听懂他在说些什么,双方用说与听来达成信息交换与感情交流。而语言的学习过程,更是不断地听,然后学习会说,所以语言与听觉有密切的关联性。 本节将说明人类听觉器官的构造,以及如何听声音。并且对于人耳在听觉上的一个重要特性,听觉掩蔽效应做了简要叙述,这是语音处理中常常会用到的听觉特性。,2.5. 人类的听觉功能,图5-1 听觉器官简图,2.5. 人类的听觉功能,图5-2 听觉过程,2.5. 人类的听觉功能,外耳 从耳翼(pinnas)到鼓膜(eardrum)这一段叫做外耳。耳翼的功能在帮助判断声音的来源方向,它对于听者前方来的声音比较敏感。 耳翼到鼓膜之间的通道叫做耳道(meatus) ,这是一个长约2.7公分直径约0.7公分的通道。对于声波的传播而言,这条通道等于是一个四分之一波长的共振腔,它的第一个共振频率大约是3 kHz,这个共振作用将35 kHz的声波放大15 dB左右,因此使得我们的听觉对于35 kHz的频率范围比较敏感。,2.5. 人类的听觉功能,中耳 在鼓膜与耳蜗之间有一个大约6立方公分的小空间,称之为中耳。在这个小空间内,有三块小骨头,分别是槌骨(hammer,或称为malleus),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论