已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号处理 SpeechSignalProcessing 中国矿业大学信息工程系 全书三篇 16章 讲15章 第一篇语音信号处理基础 第二章语音信号处理的基础知识 第一章绪论 第二篇语音信号分析 第三章语音信号的时域分析 第四章语音信号的短时傅里叶分析 第五章语音信号的同态滤波及倒谱分析 第六章语音信号的线性预测分析 第七章语音信号的矢量量化 第八章隐马尔可夫模型 HMM 第九章语音检测分析 第三篇语音信号处理技术与应用 第十章语音编码 一 波形编码 第十一章语音编码 二 声码器技术与混合编码 第十二章语音合成 第十三章语音识别 第十四章说话人识别 第十五章语音增强 第二章语音信号处理的基础知识 语音的产生 语音的分类 语音的基本特性 语音的时间波形和频谱特性 语音信号的统计特性 声道模型 语音信号的产生模型 激励模型 辐射模型 声管模型 共振峰模型 级联型 并联型 混合型 语音感知 定义 人耳的听力范围 声音的三要素 掩蔽效应 第二章思考题 什么叫语言 什么叫语音 人类的发音器官包括哪些 在发音时各起了什么作用 解释以下概念 基音频率 共振峰 浊音 清音 语音信号模型包括哪些子模型 激励模型和辐射模型各属于什么性质的滤波器 第三章语音信号的时域分析 语音处理的目的 语音信号分析方法 短时分析技术 语音信号的数字化和预处理 取样率的选择 量化字长的选择 预处理 短时能量分析 短时平均能量的定义 窗口形状的选择 窗口的长度 主要用途 直角窗和海明窗的频率特性比较 短时平均幅度 短时过零分析 过零分析的概念 短时平均过零数的实现 短时平均过零数的应用 短时相关分析 自相关函数的定义 自相关函数的性质 短时自相关函数的定义 修正的短时自相关函数 短时平均幅度差函数 AMDF 相关分析 第三章思考题 1 在语音信号参数分析前为什么要进行预处理 有哪些预处理过程 2 短时平均能量 平均幅度 和短时平均过零率的定义 这两种时域参数的用途 窗口函数的长度和形状对它们有什么影响 3 短时自相关函数和短时平均幅度差函数定义和用途 它们间有什么差异 第四章语音信号的短时傅里叶分析 短时傅里叶变换的定义 短时傅里叶变换的取样率 标准傅里叶变换的解释 滤波器的解释 语音信号的短时综合 滤波器组求和法 语谱图 可同时在时间和频率上显示语音频谱随时间的变化 第四章思考题 语音信号的短时谱的定义 如何提高短时谱的频率分辨率 在求语音信号的短时谱时 对窗函数有什么要求 对语音信号频谱分析采用海明窗和矩形窗各有什么特点 3 什么是语谱图 它有什么特性 第五章语音信号的同态滤波及倒谱分析 同态信号处理也叫同态滤波 它实现了将卷积关系变换为求和关系的分离处理 复倒谱和倒谱 同态信号处理的基本原理 卷积同态系统模型 特征系统 D 和D 1 的三步数学运算 语音信号两个卷积分量的复倒谱 避免相位卷绕的算法 最小相位信号序列 信号的零极点全部在z平面单位圆内 1 卷积同态系统的组成及意义 特征系统D 和逆特征系统D 1 运算的三个步骤是什么 2 什么是复倒谱 什么是倒谱 清 浊音的复倒谱或倒谱各有什么特点 第五章思考题 主要内容6 1概述6 2线性预测分析的基本原理6 3线性预测分析的解法 自相关法6 4格型法6 5线性预测分析应用 LPC谱估计和LPC复倒谱 第六章语音信号的线性预测分析 线性预测分析就是根据已知信号s n 对各参数和增益G进行估计 在这里为线性预测系数 F z s n 图6 3线性预测器 1 如何将信号模型化为模型参数 最常用的是什么模型 什么叫线性预测 什么叫逆滤波器 2 什么叫LPC参数 PARCOR参数 LSP参数 3 什么是LPC谱 LPC谱估计的特点 第六章思考题 7 1概述7 2矢量量化的基本原理7 3失真测度7 4最佳矢量量化器和码本设计7 5降低复杂度的矢量量化系统7 6语音参数的矢量量化 第七章语音信号的矢量量化 矢量量化的定义2 什么是失真测度 常用的失真测度有哪些 3 矢量量化器最佳设计的两个条件 4 LBG算法 第七章思考题 第8章隐马尔可夫模型 HMM 8 1概述8 2隐马尔可夫模型的引入8 3隐马尔可夫模型的定义8 4隐马尔可夫模型三项问题的求解 1 什么叫做隐马尔可夫过程 为什么说语音信号可以看成隐马尔可夫过程 隐马尔可夫模型有哪些模型参数 请叙述这些参数的含义和定义式 2 HMM模型的结构主要有哪两种 主要用在什么场合 3 转移概率矩阵的计算 第八章思考题 第九章语音检测分析 语音检测分析 语音特征参数的提取和分析 主要包括 基音检测和共振峰参数的估值 简化逆滤波法 SIFT 基音检测 倒谱法 自相关法 共振峰估值 带通滤波器法DFT法倒谱法LPC法 1 基音检测的自相关法中的中心削波处理的思路及实现过程 2 用倒谱法实现基音检测和共振峰检测的原理 第九章思考题 第十章语音编码 波形编码 语音编码的概念 应用和分类等语音信号的压缩编码原理对语音进行压缩编码的两个基本依据等语音通信中的语音质量脉冲编码调制 PCM 及其自适应自适应量化分为前馈或反馈两种 预测编码及其自适应APC自适应预测编码APC系统框图 总量化误差预测编码可以改善信噪比的原因短时预测和长时预测自适应差分编码调制 ADPCM 1 在语音通信中 常将语音质量分为哪四等 2 语音信号能进行压缩编码的依据是什么 语音编码的分类 3 自适应的控制量有几个 控制方式有几种 其特点是什么 4 预测编码可以改善信噪比的原因是什么 5 什么是短时预测和长时预测 第十章思考题 参数编码概念 与波形编码的不同声码器的基本结构相位声码器和通道声码器同态声码器线性预测声码器混合编码 MPLPC CELP 原理 传输码率计算等 第十一章语音编码 声码器技术及混合编码 第十二章语音合成 语音合成的概念 目的语音合成系统与声码器中的语音合成器的区别语音合成原理语音合成的方法 波形合成法 参数合成法规则合成法语音合成系统的特性共振峰合成线性预测合成 形式有两种用预测器系数ai直接构成的递归型合成滤波器采用反射系数构成的格型合成滤波器 第十三章语音识别 语音识别的概念 目的和分类语音识别原理 模式匹配原理 语音识别的步骤框图理解动态时间规整 DTW 目的 原理孤立词识别系统 原理和框图理解端点检测的作用 1 什么是语音识别 语音识别系统如何分类 当前 语音识别的主流方法是什么 2 语音识别系统由哪几个部分组成 语音识别中常用的语音特征参数有哪些 3 什么是动态时间规整 实际中 它解决了什么问题 4 孤立词识别系统框图 框图中 参考模式库和模式识别的作用是什么 第十三章思考题 第十四章说话人识别 说话人识别定义 目的和关键问题说话人识别分类 应用特征提取说话人识别所用的特征特征类型的优选准则 F比作为有效性准则说话人识别系统的结构 组成 基本结构 说话人识别系统的性能评价如 说话人确认系统最重要的两个性能指标 错误拒绝率 FR 错误接受率 FA 说话人识别中的识别方法DTW型说话人识别系统 说话人确认系统应用VQ的说话人识别系统 说话人辨认系统 1 说话人识别和语音识别的区别在什么地方 2 说话人确认和说话人辨认有什么不同 3 在说话人识别中 应选择哪些可以表征个人特征的识别参数 4 怎样评价说话人识别特征参数选取的好坏 即F比的物理意义 5 说话人确认系统最重要的两个性能指标是什么 含义为什么 6 基于DTW和VQ算法的系统框图理解 第十四章思考题 人类的语音是由人体发音器官在大脑控制下的生理运动产生的 人的发音器官包括 肺 气管 喉 咽 鼻 口等 声带开启和闭合使气流形成一系列脉冲 每开启和闭合一次的时间即振动周期称为基音周期 其倒数为基音频率 简称基频 基频决定了声音频率的高低 频率快则音调高 频率慢则音调低 基音的范围约为70 350Hz 与说话人的性别 年龄等情况有关 语音由声带振动或不经声带振动来产生 其中 由声带振动产生的音称为浊音 VoiceSpeech 不由声带振动产生的音称为清音 UnvoiceSpeech 使声道完全闭合 在闭合后建立起气压 然后突然释放 得到爆破音称为爆破音 plosiveSpeech 声道可以等效为一个谐振腔 有许多谐振频率 谐振频率由每一瞬间的声道外形来决定 若声道截面是均匀的 则谐振频率发生在 c为声速 空气中为350m s L为声道长度 n为序号 音质 区别与其它声音的基本特征音调 声音的高低 取决于频率音量 声音的强弱 声波振动的幅度音长 声音的长短 发音持续时间的长短 图2 7TenaboveInthesuburbs时域波形 图2 8元音 的频谱 图2 9辅音 S 的语谱 基音周期的计算 清音浊音的判断 学习得到 图2 6输出的语音频谱 虚线为谱包络 恢复谱包络是许多语音处理应用中的主要问题 因为谱包络携带了主要的发音信息 根据长时间范围内一段语音信号的大量取样数据的绝对值计算其直方图 方法 概率密度 修正伽玛概率密度 拉普拉斯分布 图2 10修正伽玛密度 拉普拉斯密度和高斯密度以及天气预报语音的长期幅度分布 图2 11语音幅度的累计频度分布 观察 得到 语音主要集中在幅度较小的区域 语音的动态范围都超过50dB 激励模型 发不同性质的音时 激励的情况是不同的 1 发浊音时声带不断张开和关闭 产生间歇的脉冲波 见图2 13 则激励信号是一个以基音周期为周期的斜三角脉冲串 从频谱上看 是一个低通型滤波器 可以表示为Z变换的全极点模型形式 2 发清音时声道被阻碍形成湍流 可模拟为随机白噪声 见图2 12 实际中使用均值为0 方差为1 并在时间或幅度上为白色分布的序列 声道模型 1 声管模型 声道的数学模型目前有两种观点 将声道看为由多个不同截面积的管子串联而成的系统 在 短时 期间 声道可表示为形状稳定的管道 2 共振峰模型 将声道看为一个谐振腔 共振峰就是腔体的谐振频率 一般 用前三个共振峰来代表一个元音就足够了 而辅音需要五个以上 图2 15级联型共振峰模型 级联型比较简单 用于描述一般的元音 级联的级数取决于声道的长度 图2 16并联型共振峰模型 当鼻化元音或鼻腔参与共振以及发阻塞音或摩擦音时 此时腔体具有反谐振特性 必须考虑加入零点 成为极零点模型 每个谐振器的幅度都要独立控制 幅度独立控制何调节 用来模拟辅音频谱特性中能量集中区 专为一些频谱特性比较平坦的因素而考虑的 图2 17 辐射模型 一阶类高通滤波器形式 从声道输出的是速度波 而语音信号是声压波 二者之比为辐射阻抗ZL 它表征口唇的辐射效应 也包括圆形头部的绕射效应 研究表明 口唇端在高频端比较显著 而在低频端时影响比较小 所以辐射模型为 嘴唇的辐射影响引起的输出信号高频提升作用大约有每倍频程6dB 4 完整的语音信号数字模型 语音取样值 激励模型 声道模型 辐射模型 注意 一 这种模型是 短时模型 其中U Z R Z 保持不变 而基音频率 清音浊音的幅度 清 浊音判决 声道参数ak P是时变的 二 声道参数0 30ms内近似不变 激励参数在5ms左右近似不变 H Z 是一个参数随时间缓慢变化的模型 可以假定10 20ms内固定不变 三 对于某些音 需要用一些修正的或更精确的模型来模型 四 模型对语音产生的模拟得是否成功 主要考察它所产生得语音信号听上去是否合乎预期得结果 对于它是否能准确得描述发音器官产生语音得物理过程并不重要 五 语音分析和语音合成都是基于这个模型来实现的 六 模型的思想起源于30年代发明的声码器 其基本思想是将激励和系统相分离 使语音信号解体来分别描述 而不是直接研究信号波形本身的特性 人的耳朵接收声音并转换成神经刺激 人耳听到声音后 还要经过大脑处理变成确定的含义 这就是对语音的感知 人耳能听到的频率范围大约为16Hz 16kHz 年轻人上限频率可达20kHz 老年人则衰退为10kHz 对于人耳的感觉 用声音三要素来描述 响度 人耳对声音强弱程度的反映 取决于声音的幅度 并和频率有关 如 对3000 4000Hz最敏感 音调 也叫音高 人耳对声音频率高低的感受 如 对频率高的声音感觉音调 高 对频率低的声音感觉音调 低 音色 也叫音质 反映了声音属性 每个声音具有特殊的音色 掩蔽效应 当两个响度不同的声音作用于人耳时 则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受 使其变得不易觉察 这就是掩蔽效应 对于中等掩蔽强度 纯音最有效的掩蔽出现在它的频率附近 低频的纯音可以有效地掩蔽高频地纯音 而高频的纯音对低频的纯音掩蔽作用很小 掩蔽效应会造成因一个声音的存在而使另一个声音的听阈上升 当声音的强度小到人耳刚刚能够听见时 一 对语音信号进行分析 提取特征参数 二 加工语音信号 总之 在于方便有效地提取并表示语音信号所携带的信息 语音处理的目的 语音信号分析方法 时域分析 频域分析 倒谱域分析 语音信号具有时变特性 是一个非平稳的随机过程 但是 语音信号又具有 短时平稳性 即在一个短时间范围内其特性基本保持不变 这是语音信号处理的一个重要出发点 即 短时分析 短时分析 对语音信号采用分段或叫分帧来处理 短时分析技术 注 语音通常在10 30ms内保持相对平稳 所以帧长取为 10 30ms 模拟语音 数字语音 须经过取样 量化 语音信号 频率范围可高达10KHz 电话带宽语音 300 3400Hz通信系统中 数字化取样率一般为8KHz 语音信号处理中 取样率为10KHz 取样率的选择 2 量化字长的选择 量化过程 将整个幅度值分割为有限个区间 落入同一个区间的样本都赋予相同的幅度值 量化过程不可避免会产生量化误差 可以证明量化信噪比为 量化字长 输入语音信号的方差 噪声序列的方差 信号的峰值 若语音信号服从拉普拉斯 Laplacian 分布 则 可见 每比特对SNR贡献6dB B 7Bit时 SNR 35dB 可满足一般通信系统要求 实际中 因语音波形变化的动态范围可达55dB 所以 应取B 10Bit 二 预处理 预处理 模拟语音的数字化 放大及增益控制 反混叠滤波 预加重等 反混叠滤波 在取样前 为预防混叠失真和噪声干扰 采用的一个截止性能良好的模拟低通滤波器 反混叠滤波器一般与A D做在一块集成片内 预加重 因语音信号高频端800Hz以上按6dB 倍频程下降 所以在A D前 可以采用预加重方法 即提升高频部分 使信号的频谱变得平坦 便于频谱分析和声道参数分析 注 预加重也可在A D后进行 此时可采用数字滤波器实现 预加重后的信号在分析后 还需要进行去加重处理还原为原来的语音信号 一 短时平均能量的定义 注意 En以n为标志 因为窗序列是沿着平方值的序列逐段移动 见图3 6图3 7短时能量序列的计算方法 表明 短时平均能量相当于语音信号平方通过一个单位脉冲响应为h n 的线性滤波器的输出 注意 不同的窗
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东深圳市宝安区水田实验学校诚聘初中小学数学教师笔试考试参考题库及答案解析
- 2025重庆大学医院劳务派遣医技人员招聘4人笔试考试参考试题及答案解析
- 2026天津市卫生健康委员会所属天津市天津医院招聘52人(应届毕业生)考试笔试备考试题及答案解析
- 2025江西新余市国有资产经营有限责任公司及其下属子公司招聘3人考试笔试备考试题及答案解析
- 2025年福建泉州慧昊新能源集团有限公司招聘3人笔试考试备考题库及答案解析
- 2025湖南怀化芷江侗族自治县纪委监委选调机关事业单位工作人员5人考试笔试模拟试题及答案解析
- 2025贵州安顺市平坝区人力资源和社会保障局招聘公益性岗位人员1人考试笔试模拟试题及答案解析
- 2026湖南岳阳市中心医院护理人员招聘80人笔试考试参考题库及答案解析
- 2025重庆市万盛经开区医疗保障事务中心公益性岗位招聘1人考试笔试模拟试题及答案解析
- 2025福建宁德市蕉城区国有资产投资经营有限公司、宁德市蕉城区园投集团有限公司、宁德市蕉城区乡投集团有限公司、福建环三兴港投资集团有限公考试笔试参考题库附答案解析
- 2025-2030中国打码机行业市场发展分析及竞争格局与投资前景研究报告
- 急危重症患者手术护理专家共识
- 大气压强教学课件初中物理教科版(2024)八年级下册
- 仓库安全案例分析
- 《公路工程施工组织设计》完整全套教学课件
- 《贵州海川联合矿业(集团)有限公司贵州省修文县大豆厂矿区铝土矿(新建)矿产资源绿色开发利用方案(三合一)》评审意见
- 【圆锥曲线】25定比点差法(含经典题型+答案)
- 《建物业的承接查验》课件
- 工地饭堂承包合同协议书
- DB32-T 4569-2023 发泡陶瓷保温板 保温系统应用技术规程
- 【MOOC】学术交流英语-语言技能-电子科技大学 中国大学慕课MOOC答案
评论
0/150
提交评论