第一章语音信号处理的基础知识.ppt

上传人：流*** IP属地：江西上传时间：2020-03-11 格式：PPT 页数：50 大小：1.09MB 积分：12 举报 版权申诉

免费预览已结束，剩余45页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 语音信号处理 2 课程考核方式闭卷笔试成绩评定方式考试成绩占80 实验成绩占10 平时成绩占10 3 教材胡航语音信号处理第3版哈尔滨工业大学出版社 4 参考书韩纪庆张磊郑铁然语音信号处理北京清华大学出版社 2004赵力语音信号处理北京机械工业出版社 2003 5 课程安排第一章语音信号处理的基础知识第二章语音信号分析第三章矢量量化技术第四章隐马尔可夫模型第五章语音编码第六章语音合成第七章语音识别第八章语音增强 6 第一章语音信号处理的基础知识 1 1数字语音处理研究的内容1 2语音文件格式1 3人类的语言器官1 4语音产生过程1 5语音信号产生的数学模型 7 声音语音和非语音语音是语言的声学表现是人类交流信息最自然最有效最方便的手段是人类进行思维的依托人的言语过程想说说出传输接收理解语音编码 8 语音信息的重要性人类从大自然获取信息的分布图 9 一语音信号处理的实质 1实质是研究利用数字信号处理技术对语音信号进行处理的一门学科2目的通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息通过对语音信号进行某种运算以达到某种要求 3学科基础以语言语音学和数字信号处理为基础而形成的一门涉及面很广的学科与心理学生理学计算机科学通信与信息科学模式识别和人工智能等学科均有密切的关系 1 1数字语音处理研究的内容 10 二语音信号的数字处理方法 1语音信号的特点短时平稳性2短时时域处理方法短时能量短时平均过零率以及短时自相关函数计算3短时频域分析短时傅立叶分析4线性预测技术本质上属于时域分析方法但其结果可以是频域参数5倒谱和同态分析矢量量化和隐马尔可夫模型 11 语音信号的特点短时平稳性 12 1 2语音文件格式计算机中最常见的存放声音格式就是WAV WAVEFORM 文件格式其扩展名是 wav WAVE文件作为最经典的Windows多媒体音频格式它使用三个参数来表示声音采样位数采样频率和声道数声道有单声道和立体声之分采样频率一般有11025Hz 11kHz 22050Hz 22kHz 和44100Hz 44kHz 三种 WAVE文件所占容量采样频率采样位数声道时间 8 1字节 8bit 13 二语音文件格式之WAV格式 WAVE文件作为多媒体中使用的声波文件格式之一它是以RIFF resourceinterchangefileformat 资源互换文件格式格式为标准的 WAV文件是以RIFF的档案格式储存每个WAVE文件的头四个字节便是 RIFF RIFF可以看做是一种树状结构其基本构成单位为chunk 犹如树状结构中的节点每个chunk由辨别码数据大小及数据所组成辨别码由4个ASCII码所构成数据大小则标示出紧跟其后数据的长度单位为Byte 而数据大小本身也用掉4个Byte 所以事实上一个chunk的长度为数据大小加8 Window目前仅提供WAVE FORMAT PCM一种数据格式 14 二语音文件格式之WAV格式 1 格式详解 RIFFWAVEChunk 所占字节数具体内容 ID 4Bytes RIFF Size 4Bytes Type 4Bytes WAVE WAVE文件是由若干个Chunk组成的按照在文件中的出现位置包括 RIFFWAVEChunk FormatChunk FactChunk 可选 DataChunk 每个chunk由辨别码数据大小及数据所组成每个Chunk有各自的ID 位于Chunk最开始位置作为标示而且均为4个字节并且紧跟在ID后面的是Chunk大小去除ID和Size所占的字节数后剩下的其他字节目 4个字节表示 15 FormatChunk 字节数具体内容 ID 4Bytes fmt Size 4Bytes 数值为16或18 18则最后又附加信息 FormatTag 2Bytes 编码方式一般为0 x0001 Channels 2Bytes 声道数目 1 单声道 2 双声道 SamplesPerSec 4Bytes 采样频率 AvgBytesPerSec 4Bytes 音频数据传送速率其值为声道数每秒数据位数采样频率每样本的数据位数 8 BlockAlign 2Bytes 数据块对齐单位每个采样需要的字节数其值为声道数每样本的数据位值 8 BitsPerSample 2Bytes 每个采样需要的bit数 2Bytes 附加信息可选通过Size来判断有无 16 DataChunk 所占字节数具体内容 ID 4Bytes data Size 4Bytes data 17 DataChunk是真正保存wav数据的地方以 data 作为该Chunk的标示然后是数据的大小紧接着就是wav数据根据FormatChunk中的声道数以及采样bit数 wav数据的bit位置可以分成以下几种形式单声道取样1 取样2 取样3 取样4 8bit量化声道0 声道0 声道0 声道0 双声道取样1 取样2 8bit量化声道0 左声道1 右声道0 左声道1 右取样1 取样2 单声道 16bit量化声道0 声道0 声道0 声道0 低位字节高位字节低位字节高位字节取样1 双声道 16bit量化声道0 左声道0 左声道1 右声道1 右低位字节高位字节低位字节高位字节 wav数据bit位置安排方式 18 实例说明Asanexample herearetheopening72bytesofaWAVEfilewithbytesshownashexadecimalnumbers 524946462408000057415645666d7420100000000100020022560000885801000400100064617461000800000000000024171ef33c133c1416f918f934e723a63cf224f211ce1a0d 19 20 interpretationofthesebytesasaWAVEsoundfile 21 实例说明例一个WAV文件的前段其内存中存放的数据如下 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 22 二语音文件格式之WAV格式 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 23 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 24 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 25 说明以上面的WAV文件为例要抽取出声音的PCM波形时先要找到标示为 fmt 的子区块 sub chunk 知道所存的波形是PCM格式它有两个声道取样频率为44 100Hz 每个取样为16位接下去找到标示为 data 的子区块知道后面接着的是24 877 696个byte的左右两声道波形数据 26 1 3人类的语言器官人类能以语言沟通进而累积知识形成文化其中一个主要的原因就是人类具有较其它生物优越的发音器官人类的发音器官能够产生多样性的声音构成丰富的词汇无疑是最关键的因素人体发音器官肺气管喉包括声带和声道肺是语音产生的能源所在声带为产生语音提供主要的激励源声道是指声门至嘴唇的所有器官咽鼻腔口腔等它们具有非均匀截面且随时间变化起共鸣器或谐振器的作用 27 1 3人类的语言器官一人类的发音器官注喉部以上的部分统称为声道气管和肺在声门以下 28 1 3人类的语言器官喉的生理结构 a 闭合状态 b 张开状态甲状软骨杓状软骨环状软骨声门声带人类的发音器官 29 1 4语音产生过程肺声带声道直流气流声音嘴唇声压波速度波能源激励源谐振源辐射源交流气流声带为产生语音提供主要的激励源由声带振动产生声音呼吸时左右两声带打开讲话时声带合拢起来讲话时因声带受声门下气流的冲击而张开但由于声带韧性迅速地闭合随后又张开而闭合语音的形成过程空气由肺部排入喉部经过声带进入声道最后由嘴辐射出声波形成语音 30 一话音的分类浊音声道打开声带在先打开后关闭气流经过使声带要发生张驰振动变为准周期振动气流浊音的激励源被等效为准周期的脉冲信号清音声带完全舒展开来声道的某个部位发生收缩形成了一个狭窄的通道当空气流到达此处时被迫以高速冲过收缩区并在附近产生空气的湍流类似于白噪声爆破音声带完全舒展开来声道的某个部位完全闭合在一起当空气流到达时便在此处建立起空气压力一旦闭合点突然开启便会让气压快速释放实际上也是一种空气的湍流 1 4语音产生过程 31 女声汉语拼音a的时域波形 32 男声汉语拼音声母s的时域波形 33 利用MATLAB产生的高斯噪声 34 1 4语音产生过程二语音的两个重要声学特性1浊音的基音频率 F0 声带张开和闭合一次的时间的倒数由声带的尺寸特性和声带所受张力决定 F0的大小决定了声音的高低称为音高男性的F0大致分布在 60 200Hz 女性和儿童的F0大致分布在 200 450Hz Tp 基音周期 35 二语音的两个重要声学特性声道具有一组共振峰声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度共振峰及其带宽取决于声道某一瞬间的形状和尺寸因而不同的语音对应于一组不同的共振峰参数实际应用中头三个共振峰最重要 2共振峰气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射期间的传输通道称为声道气流流过声道时犹如通过了一个具有某种谐振特性的腔体放大某些频率在频谱上形成相应位置的峰起称为共振峰讲话时由于舌和唇的连续运动使声道形状改变随即改变谐振频率使得发不同的音声道的不同的形状对应不同的谐振频率 36 女声英文a的频谱横轴数据为数据 10 Hz 37 男声汉语拼音声母s的频谱横轴数据为数据 10 Hz 38 1 4语音产生过程三共振峰的计算假设声道截面是均匀的此时可把声道看作一个粗细均匀圆筒从喉到唇的距离L 17cm 音速c 340m s 则共振峰频率将发生在 39 一种声道形状对应一套共振峰不同人的声道大小不同共振峰不同同一人发不同音共振峰也不同总结前三个共振峰频率范围 Hz 40 1 5语音信号产生的数字模型利用数字技术模拟语音信号的产生语音信号的数字模型在一些合理的假设下在较短的时间间隔内语音信号被看成是线性时不变系统声道在随机噪声或准周期脉冲激励下的输出肺声带声道直流气流声音嘴唇声压波速度波能源激励源谐振源辐射源交流气流 41 1 5语音信号产生的数字模型下图是一个完整的语音信号产生的数字模型有三部分作用施加在语音的声波上声门产生的激励模型G z 声道产生的调制函数V z 嘴唇产生的辐射函数R z 语音信号的传递函数由这三个函数级联而成即 H z G z V z R z 42 uG n Av 冲激序列发生器声门脉冲模型G z 随机噪声发生器基音周期T0 Au 清浊音开关浊音激励清音激励 1 5语音信号产生的数字模型一激励模型 43 1 5语音信号产生的数字模型一激励模型1浊音激励发浊音时由于声门不断开启和关闭产生间隙的脉冲经仪器测试它类似于斜三角形的脉冲故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g n 的输入其输出就是浊音激励 44 1 5语音信号产生的数字模型一激励模型1浊音激励单个斜三角波的频谱表现出一个低通滤波器G ej 的特性对声门脉冲的频谱分析表明其幅度谱按每倍频程12dB的速度递减可以把它表示成z变换的全极点形式因此作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现这个单位脉冲串和幅值因子可以表示成下面的Z变换形式 45 1 5语音信号产生的数字模型1浊音激励 2清音激励发清音时声道被阻碍形成湍流所以可把清音激励模拟成随机白噪声此处用均值为

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第一章语音信号处理的基础知识.ppt

文档简介

温馨提示

最新文档

评论

第一章语音信号处理的基础知识.ppt

文档简介

温馨提示

最新文档

评论

相关文档