第一章语音信号处理的基础知识.ppt_第1页
第一章语音信号处理的基础知识.ppt_第2页
第一章语音信号处理的基础知识.ppt_第3页
第一章语音信号处理的基础知识.ppt_第4页
第一章语音信号处理的基础知识.ppt_第5页
免费预览已结束,剩余45页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 语音信号处理 2 课程考核方式闭卷 笔试 成绩评定方式 考试成绩占80 实验成绩占10 平时成绩占10 3 教材 胡航 语音信号处理 第3版 哈尔滨工业大学出版社 4 参考书 韩纪庆 张磊 郑铁然 语音信号处理 北京 清华大学出版社 2004赵力 语音信号处理 北京 机械工业出版社 2003 5 课程安排 第一章语音信号处理的基础知识第二章语音信号分析第三章矢量量化技术第四章隐马尔可夫模型第五章语音编码第六章语音合成第七章语音识别第八章语音增强 6 第一章语音信号处理的基础知识 1 1数字语音处理研究的内容1 2语音文件格式1 3人类的语言器官1 4语音产生过程1 5语音信号产生的数学模型 7 声音 语音和非语音语音是语言的声学表现 是人类交流信息最自然 最有效 最方便的手段 是人类进行思维的依托 人的言语过程 想说 说出 传输 接收 理解 语音编码 8 语音信息的重要性 人类从大自然获取信息的分布图 9 一 语音信号处理的实质 1实质 是研究利用数字信号处理技术对语音信号进行处理的一门学科2目的 通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息 通过对语音信号进行某种运算以达到某种要求 3学科基础 以语言语音学和数字信号处理为基础而形成的一门涉及面很广的学科 与心理学 生理学 计算机科学 通信与信息科学 模式识别和人工智能等学科均有密切的关系 1 1数字语音处理研究的内容 10 二 语音信号的数字处理方法 1语音信号的特点 短时平稳性2短时时域处理方法 短时能量 短时平均过零率以及短时自相关函数计算3短时频域分析 短时傅立叶分析4线性预测技术 本质上属于时域分析方法 但其结果可以是频域参数5倒谱和同态分析 矢量量化和隐马尔可夫模型 11 语音信号的特点 短时平稳性 12 1 2语音文件格式 计算机中最常见的存放声音格式就是WAV WAVEFORM 文件格式 其扩展名是 wav WAVE文件作为最经典的Windows多媒体音频格式 它使用三个参数来表示声音 采样位数 采样频率和声道数 声道有单声道和立体声之分 采样频率一般有11025Hz 11kHz 22050Hz 22kHz 和44100Hz 44kHz 三种 WAVE文件所占容量 采样频率 采样位数 声道 时间 8 1字节 8bit 13 二 语音文件格式之WAV格式 WAVE文件作为多媒体中使用的声波文件格式之一 它是以RIFF resourceinterchangefileformat 资源互换文件格式 格式为标准的 WAV文件是以RIFF的档案格式储存 每个WAVE文件的头四个字节便是 RIFF RIFF可以看做是一种树状结构 其基本构成单位为chunk 犹如树状结构中的节点 每个chunk由 辨别码 数据大小 及 数据 所组成 辨别码由4个ASCII码所构成 数据大小则标示出紧跟其后数据的长度 单位为Byte 而数据大小本身也用掉4个Byte 所以事实上一个chunk的长度为数据大小加8 Window目前仅提供WAVE FORMAT PCM一种数据格式 14 二 语音文件格式之WAV格式 1 格式详解 RIFFWAVEChunk 所占字节数 具体内容 ID 4Bytes RIFF Size 4Bytes Type 4Bytes WAVE WAVE文件是由若干个Chunk组成的 按照在文件中的出现位置包括 RIFFWAVEChunk FormatChunk FactChunk 可选 DataChunk 每个chunk由 辨别码 数据大小 及 数据 所组成 每个Chunk有各自的ID 位于Chunk最开始位置作为标示 而且均为4个字节 并且紧跟在ID后面的是Chunk大小 去除ID和Size所占的字节数后剩下的其他字节目 4个字节表示 15 FormatChunk 字节数 具体内容 ID 4Bytes fmt Size 4Bytes 数值为16或18 18则最后又附加信息 FormatTag 2Bytes 编码方式 一般为0 x0001 Channels 2Bytes 声道数目 1 单声道 2 双声道 SamplesPerSec 4Bytes 采样频率 AvgBytesPerSec 4Bytes 音频数据传送速率其值为声道数 每秒数据位数 采样频率 每样本的数据位数 8 BlockAlign 2Bytes 数据块对齐单位 每个采样需要的字节数 其值为声道数 每样本的数据位值 8 BitsPerSample 2Bytes 每个采样需要的bit数 2Bytes 附加信息 可选 通过Size来判断有无 16 DataChunk 所占字节数 具体内容 ID 4Bytes data Size 4Bytes data 17 DataChunk是真正保存wav数据的地方 以 data 作为该Chunk的标示 然后是数据的大小 紧接着就是wav数据 根据FormatChunk中的声道数以及采样bit数 wav数据的bit位置可以分成以下几种形式 单声道 取样1 取样2 取样3 取样4 8bit量化 声道0 声道0 声道0 声道0 双声道 取样1 取样2 8bit量化 声道0 左 声道1 右 声道0 左 声道1 右 取样1 取样2 单声道 16bit量化 声道0 声道0 声道0 声道0 低位字节 高位字节 低位字节 高位字节 取样1 双声道 16bit量化声道0 左 声道0 左 声道1 右 声道1 右 低位字节 高位字节 低位字节 高位字节 wav数据bit位置安排方式 18 实例说明Asanexample herearetheopening72bytesofaWAVEfilewithbytesshownashexadecimalnumbers 524946462408000057415645666d7420100000000100020022560000885801000400100064617461000800000000000024171ef33c133c1416f918f934e723a63cf224f211ce1a0d 19 20 interpretationofthesebytesasaWAVEsoundfile 21 实例说明 例 一个WAV文件的前段其内存中存放的数据如下 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 22 二 语音文件格式之WAV格式 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 23 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 24 WAV文件的内容 52494646A49A7B0157415645666D7420100000000100020044AC000010B102000400100064617461809A7B0142FF35FCE2FE0700E7FEAF035FFF6501 25 说明 以上面的WAV文件为例 要抽取出声音的PCM波形时 先要找到标示为 fmt 的子区块 sub chunk 知道所存的波形是PCM格式 它有两个声道 取样频率为44 100Hz 每个取样为16位 接下去找到标示为 data 的子区块 知道后面接着的是24 877 696个byte的左右两声道波形数据 26 1 3人类的语言器官 人类能以语言沟通 进而累积知识 形成文化 其中一个主要的原因 就是人类具有较其它生物优越的发音器官 人类的发音器官能够产生多样性的声音 构成丰富的词汇 无疑是最关键的因素 人体发音器官 肺 气管 喉 包括声带 和声道 肺是语音产生的能源所在 声带为产生语音提供主要的激励源 声道是指声门至嘴唇的所有器官 咽 鼻腔 口腔等 它们具有非均匀截面 且随时间变化 起共鸣器 或谐振器 的作用 27 1 3人类的语言器官 一 人类的发音器官 注 喉部以上的部分统称为声道 气管和肺在声门以下 28 1 3人类的语言器官 喉的生理结构 a 闭合状态 b 张开状态 甲状软骨杓状软骨环状软骨声门声带 人类的发音器官 29 1 4语音产生过程 肺 声带 声道 直流气流 声音 嘴唇 声压波 速度波 能源 激励源 谐振源 辐射源 交流气流 声带为产生语音提供主要的激励源 由声带振动产生声音 呼吸时 左右两声带打开 讲话时声带合拢起来 讲话时因声带受声门下气流的冲击而张开 但由于声带韧性迅速地闭合 随后又张开而闭合 语音的形成过程 空气由肺部排入喉部 经过声带进入声道 最后由嘴辐射出声波 形成语音 30 一 话音的分类 浊音 声道打开 声带在先打开后关闭 气流经过使声带要发生张驰振动 变为准周期振动气流 浊音的激励源被等效为准周期的脉冲信号 清音 声带完全舒展开来 声道的某个部位发生收缩形成了一个狭窄的通道 当空气流到达此处时被迫以高速冲过收缩区 并在附近产生空气的湍流 类似于白噪声 爆破音 声带完全舒展开来 声道的某个部位完全闭合在一起 当空气流到达时便在此处建立起空气压力 一旦闭合点突然开启便会让气压快速释放 实际上也是一种空气的湍流 1 4语音产生过程 31 女声汉语拼音a的时域波形 32 男声汉语拼音声母s的时域波形 33 利用MATLAB产生的高斯噪声 34 1 4语音产生过程 二 语音的两个重要声学特性1浊音的基音频率 F0 声带张开和闭合一次的时间的倒数 由声带的尺寸 特性和声带所受张力决定 F0的大小决定了声音的高低 称为音高 男性的F0大致分布在 60 200Hz 女性和儿童的F0大致分布在 200 450Hz Tp 基音周期 35 二 语音的两个重要声学特性 声道具有一组共振峰 声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 共振峰及其带宽取决于声道某一瞬间的形状和尺寸 因而不同的语音对应于一组不同的共振峰参数 实际应用中 头三个共振峰最重要 2共振峰 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射 期间的传输通道称为声道 气流流过声道时犹如通过了一个具有某种谐振特性的腔体 放大某些频率 在频谱上形成相应位置的峰起 称为共振峰 讲话时 由于舌和唇的连续运动 使声道形状改变 随即改变谐振频率 使得发不同的音 声道的不同的形状 对应不同的谐振频率 36 女声英文a的频谱 横轴数据为 数据 10 Hz 37 男声汉语拼音声母s的频谱 横轴数据为 数据 10 Hz 38 1 4语音产生过程 三 共振峰的计算假设声道截面是均匀的 此时可把声道看作一个粗细均匀圆筒 从喉到唇的距离L 17cm 音速c 340m s 则共振峰频率将发生在 39 一种声道形状对应一套共振峰 不同人的声道大小不同 共振峰不同 同一人 发不同音 共振峰也不同 总结 前三个共振峰频率范围 Hz 40 1 5语音信号产生的数字模型 利用数字技术模拟语音信号的产生 语音信号的数字模型 在一些合理的假设下 在较短的时间间隔内 语音信号被看成是线性时不变系统 声道 在随机噪声或准周期脉冲激励下的输出 肺 声带 声道 直流气流 声音 嘴唇 声压波 速度波 能源 激励源 谐振源 辐射源 交流气流 41 1 5语音信号产生的数字模型 下图是一个完整的语音信号产生的数字模型 有三部分作用施加在语音的声波上 声门产生的激励模型G z 声道产生的调制函数V z 嘴唇产生的辐射函数R z 语音信号的传递函数由这三个函数级联而成 即 H z G z V z R z 42 uG n Av 冲激序列发生器 声门脉冲模型G z 随机噪声发生器 基音周期T0 Au 清 浊音开关 浊音激励 清音激励 1 5语音信号产生的数字模型 一 激励模型 43 1 5语音信号产生的数字模型 一 激励模型1浊音激励 发浊音时 由于声门不断开启和关闭 产生间隙的脉冲 经仪器测试它类似于斜三角形的脉冲 故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g n 的输入 其输出就是浊音激励 44 1 5语音信号产生的数字模型一 激励模型1浊音激励单个斜三角波的频谱表现出一个低通滤波器G ej 的特性 对声门脉冲的频谱分析表明 其幅度谱按每倍频程12dB的速度递减 可以把它表示成z变换的全极点形式 因此 作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现 这个单位脉冲串和幅值因子可以表示成下面的Z变换形式 45 1 5语音信号产生的数字模型1浊音激励 2清音激励发清音时声道被阻碍形成湍流 所以可把清音激励模拟成随机白噪声 此处用均值为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论