数字通信原理第3章.ppt_第1页
数字通信原理第3章.ppt_第2页
数字通信原理第3章.ppt_第3页
数字通信原理第3章.ppt_第4页
数字通信原理第3章.ppt_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章语言信号压缩编码 3 1语言信号压缩编码的基本概念3 2自适应差值脉冲编码调制3 3参量编码3 4混合编码3 5低速率语言压缩编码的应用 一 压缩编码原因语音信号的压缩编码是研究如何降低语音信号编码速率的问题 以语音信号为例 模拟形式下带宽一般不到4KHz 经过调制后 所需传输带宽不会超过8KHz 但是以8KHz抽样 并且每个样值用8位二进制代码表示时 即采用A率13折线PCM数字语音信号时 信息速率为64Kbit s 利用二进制理想基带传输系统传输一路这样的数字语音信号 所占系统的最小频带宽度为32KHz 频带利用率 传输速率 带宽 二 什么是语音压缩编码 把数码率低于64Kbit s的语音编码方法称为语音压缩编码技术 三 语音编码分类 根据编码器的实现机理 分成三大类 波形编码 参数编码 混合编码 了解语音信号数字化的目的和要求 理解语音信号的波形编码 参数编码 混合编码的定义 掌握对语音编码信号性能的评价方法 理解标量量化和矢量量化的原理及异同点 了解语音信号的参数模型 掌握线性预测的概念 线性预测声码器的工作原理 掌握参数编码中合成分析算法的基本原理和优缺点 了解常用的语音信号的混合编码方法 要求 语音编码方法的分类 波形编码参数编码混合编码 一 语音编码的方法 1 语音信号的波形编码原理 从语音信号波形的特点出发 在时间轴上对模拟语音按一定的速率抽样 对波形的采样值 或其预测值 或其预测的误差值进行量化并编码 编码后的信号为二进制数字序列 解码是其反过程 将收到的数字序列经过解码和滤波恢复成模拟信号 一 语音编码的方法 特点 以重构语音波形为目的 力图使重建语音波形保持原语音信号的波形形状 适应能力强 语音质量好 编码速率高 在16至64kbit s的速率上获得较高的编码质量 当速率进一步下降时 其性能会下降较快 一 语音编码的方法 常见的波形编码方式 脉冲编码调制 PCM 增量调制 M 自适应增量调制 ADM 自适应预测编码 APC 自适应差分编码 ADPCM 子带编码 SBC 一 语音编码的方法 2 语音信号的参量编码原理 从语音信号的产生机理出发 构造语音信号的模型 提取描述语音信号的特征参数 对模型参数或其预测值进行编码 在收端 根据特征参数通过模型重构语音信号 一 语音编码的方法 特点 编码速率低 可压缩到2kbit s 800bit s 合成的话音质量差 只能达到中等 自然度较低 不以重构语音波形为目的 在解码端重构一个新的有相似声音但波形不尽相同的语音信号 常见的方式 线性预测编码 LPC 及其各种改进型 如MBE等 一 语音编码的方法 3 语音信号的混合编码原理 混合编码将波形编码和参量编码组合起来 克服了原有波形编码和参量编码的弱点 结合各自的长处 力图保持波形编码的高质量和参量编码的低速率 目前在1 2 16Kbit s速率上能够得到高质量的合成语音 特点 低速率 高质量 一 语音编码的方法 常见混合编码方式 多脉冲激励线性预测编码 MPLPC 规则脉冲激励线性预测编码 RPELPC 码本激励线性预测编码 CELP 矢量和激励线性预测编码 VSELP 多带激励 MBE 及改进型IMBE ImprovedMBE 和AMBE AdvancedMBE 混合激励线性预测 MELP 一 语音编码的方法 说明上述语音编码器的分类方法只是一种较通用的方法 并非十分严格 除了传统的波形编码器和参数编码器以外 许多新型的语音编码技术都比较复杂 很难严格分类 基于分析合成技术的线性预测编码器则既可以视为参量编码 也可以视为混合编码 一 语音编码的方法 语音编码性能评价的参量 1 语音编码质量2 编码速率3 编解码的复杂度4 编解码延时 语音编码的基本目标 在给定编码速率的条件下 用尽量小的编解码延时和复杂度 得到尽量好的重建语音质量 二 语音编码性能的评价 1 语音编码质量语音编码质量是衡量语音编码算法优劣的关键性能之一 在数字通信中常把语音质量分为四级 广播级质量长途电话质量通信质量合成语音质量 二 语音编码性能的评价 语音编码质量用质量评估指标衡量 分为以客观评定方法和主观评定方法两大类 主观评定方法是以人类听话时对语音质量的感觉来评定 国际上常用的主观评定标准主要有 平均意见得分MOS MeanOpinionScore 判断韵字测试DRT DiagnosticRhymeTest 判断满意度测量DAM DiagnosticAcceptabilityMeasure 可懂度指数AI ArticulationIndex 二 语音编码性能的评价 MOS评定方法由于语音质量高低的直接感受者是听众的主观感觉 因此目前广泛采用的评定方法是MOS 获取MOS的方法是 由数十名试听者在不同的信道环境中试听并给予评分 然后求出统计平均分 分数等级采用5级分制 5分为优 4分为良 3分为中 2分为差 1分为不可接受 4分以及4分以上为高质量语音编码 达到长途电话质量 3 5分左右为通信级质量 3分以及3分以下为合成语音质量 二 语音编码性能的评价 对应于主观评定等级 还有一个收听注意力等级 ListeningEffortScale 表2 1给出了主观评定等级制的质量等级 分数和相应的收听注意力等级 二 语音编码性能的评价 客观评价的方法 时域 信噪比 加权信噪比 平均分段信噪比等频域 谱失真测度 LPC倒谱距离测度等 说明 以上方法都建立在度量均方误差的基础上 其特点是计算简单 但不能完全反映人对语音质量的感觉 对于速率为16kb s以下的中低速率语音编码尤为突出 主要适用于速率较高的波形编码的质量测量 二 语音编码性能的评价 2 编码速率语言编码后的速率用 比特 秒 度量或用 比特 样点 度量 后者表示平均每个样点所需的编码比特数 通常编码速率高 则编码后的语音质量高 但所需的传输带宽就宽 二 语音编码性能的评价 好的语音编码方法 是在保持语音质量的前提下降低速率 3 编解码的复杂程度编解码的复杂度与算法有关 通常算法复杂 则话音质量好 编码速率低 但实现复杂 且体积大 功耗高 成本高 甚至编解码延时大 二 语音编码性能的评价 二 语音编码性能的评价 4 编解码延时编解码延时也与算法有关 通常算法复杂 则编解码延时大 也有专为减小延时的短延时算法 不过 质量好 延时短的算法 相应的编码速率也高 5 对语音编码的要求在满足用户对语音质量要求的前提下 编码速率尽可能低 在强噪声环境中 算法应有较好的抗误码性能 也就是说 当误码率较低时 例如为10 2 仍能保持良好的话音质量 编 解码延迟应控制在几十毫秒之内 越短越好 复杂性要适度 以便于使用大规模集成器件 二 语音编码性能的评价 二 语音编码性能的评价 6 几种语音编码的质量比较 LD CELP 低时延 码激励线性预测MP MLQ 多脉冲最大似然量化ACELP 代数码激励线性预测CS ACELP 共轭结构 代数码激励线性预测 三 语音编码的标准 ETSI 欧洲电信标准协会TIA 北美 电信工业协会RCR 日本 无线通信系统研究发展中心DVSI 数字声音系统公司 三 语音编码的标准 保密电话语音编码标准 三 语音编码的标准 窄带保密电话应用于带宽受限信道 目前只有美国公布了所用保密电话的标准 FS 1015标准 2 4kb s的LPC声码器 DRT为90 FS 1016标准 4 8kb s的CELP声码器 比FS 1015具有好得多的自然度及环境噪声能力 混合激励线性预测 MELP 标准 编码速率为2 4kb s 语音质量优于FS 1016 各种语音编码标准的相对效果 三 语音编码的标准 第三章语言信号压缩编码 3 1语言信号压缩编码的基本概念3 2自适应差值脉冲编码调制3 3参量编码3 4混合编码3 5低速率语言压缩编码的应用 自适应差值脉冲编码调制原理 ADPCM 3 1 1差值脉冲编码 DPCM 1 编码思想 提高通信质量 必须 减小量化误差 减小量化级 当抽样值范围确定时 增加编码位数N 增加编码位数可获得大的信噪比 在编码位数固定时 减小抽样值的变化范围 也同样可以提高信噪比 即 若缩小抽样值 被编码信号 的变化范围 就可以在保证信噪比不变的情况下 减小编码的位数 这就是差值编码的中心思想 二 差值编码模型图 在原来的抽样值中减去某一个值 然后对两者之差进行编码 在接收端将解码值再加上发送端所减去的值便可恢复出原始值 x n d n c n d n x n x n x n 差值编码模型 译码 图中 x n 是原始样值 n时刻的抽样值 x n 为减去量d n x n x n 为差值 可以看出 1 d n 越小 在相同的编码位数时信噪比越大 2 收发端必须有相同的减去量x n 根据前些时刻的样值来预测现时刻的样值 只要传递预测值和实际值之差 而不需要每个样值的编码都传 这种方法就称为DPCM编码 三 DPCM系统 1 DPCM系统的概念 举例来说 设以1 Ts的速率对信号S t 抽样 在时刻前可得到 等一组样值 以前面N个样值作为基础对的预测值是 不同时刻样值的加权系数 根据相关性情况 可设为常量或变量 2 实现预测的横向滤波器 N阶预测器 在每个抽样时刻到来时 滤波器输出将会给出下一个样值的预测值 一般来说 在抽样时刻t nTs时所得的预测值与真正的样值并不相同 N阶预测器输出 差值脉冲编码就是对真正的样值与过去的样值为基础得到的估值之间的差值进行量化和编码 3 DPCM系统模型框图 量化器 预测器 预测器 下张 图中 x n 为抽样信号的实际值 d n x n x n 图 x n x n d n 该系统的量化误差可以表示为 e n x n x n d n x n x n d n d n d n 上式表明 系统的传输误差就是差值 的量化误差 4 DPCM系统的抗噪声性能分析 系统信噪比定义为 预测器增益 量化器的量化信噪比 GP 1 GP 1 预测器有增益 加预测器后反而不利 GP DPCM系统相对于PCM系统而言的信噪比增益 量化器产生的信噪比 即非预测的PCM系统的量化信噪比 提高系统信噪比采取的措施 减小 x n 精确 d n d n x n x n 最佳预测 量化误差 最佳量化 小结 一 压缩编码的原因二 什么是语音压缩编码三 语音编码分类3 1ADPCM系统3 3 1DPCM一 差值编码思想二 差值编码系统模型图三 DPCM系统1 概念2 预测器模型图3 DPCM系统模型4 DPCM系统的抗噪声性能分析 自适应差值脉冲编码调制 ADPCM 1 实质 DPCM 自适应量化和自适应预测 固定预测固定量化 2 定义 能够实现自适应预测功能 或者自适应量化功能或者同时实现两种自适应功能的DPCM系统称为ADPCM系统 3 设计的目的 ADPCM充分利用了语音波形的统计特征和人耳听觉特性 其设计思路主要瞄准了两个目标 a 尽可能去掉语音信号中的冗余信号 b 以有效的方式将可用比特分配给语音信号 对消除冗余后的信号 从自适应角度进行最佳编码 1 1预测的自适应 1 极点预测器 1 预测器的结构 用重建信号x n 进行的预测 量化器 预测器 X n X n d n d n 编码 X n P Z X n a 极点预测器的 方框图 b 预测器传递函数P z N阶预测器公式 X n 进行Z变换后得 则预测器的传递函数为 为预测系数 c 重建滤波器 预测器 x n x n X n d n H Z 重建滤波器 分析 一阶最佳线性预测 求最佳预测系数h1 N 1时 X n h1x n 1 则差值信号为 d n x n h1x n 1 E d n 2 E x n h1x n 1 2 2 2 求使 最小的h1的值 2 令 得最佳预测系数h1opt p1 当N 1时的最大预测增益为 b 二阶线性预测 N 2 d n x n h1x n 1 h2x n 2 令 得最佳h1 h2 大于或者等于零 故二阶预测器总是优于一阶预测器 第三章语言信号压缩编码 3 1语言信号压缩编码的基本概念3 2自适应差值脉冲编码调制3 3参量编码3 4混合编码3 5低速率语言压缩编码的应用 波形编码的语音质量较高 实现简单 但速率较高占频带较宽 因而将影响通信系统的容量 寻求低速高质的语音编码方法一直是数字通信领域的一个重要研究课题 一个重要概念 对反映语音信号特征的参量进行编码与传输而不是对信号的时域波形本身 即所谓参量编码 可大大降低编码信号的速率 参量编码的基础是语音信号特征参数的提取与语音信号的恢复 这将涉及到语音产生的物理模型 一 语音信号产生模型及其特征参数 人的发音系统由声带 声道及次声门系统构成 声道从声带的开口即声门处开始 直至嘴唇 包括咽喉 口 舌等 声道的截面积是可变化的 它取决于舌 唇等器官的位置 次声门系统由肺 气管等级联 是产生语音的能量来源 简化的发音系统如图所示 浊音与清音 浊音又称为有声音 气流通过声门时 如果声带振动并产生一个准周期的空气脉冲激励声道 就得到浊音 典型的浊音波形如图所示 其中 a 为声门处的气流速度 b 为通过声道后在唇口处形成的声压波形 浊音波形具有明显准周期性 声带振动的频率称为基音频率fb 周期为基音周期Tp 基音频率fb一般在70 300Hz的范围内 相当于Tp为3 15ms 基音周期Tp是语音信号的主要特征之一 清音又称无声音 声道在某处发生收缩 同时迫使空气以高速冲过一收缩部位而产生湍流 就得到清音 发清音时声带不振动 此时是由湍流建立的宽带噪声源激励着声道 清音波形类似于噪声 如图 c 所示 声道的无损声管模型 声道包括口腔和鼻腔 相当于一个非均匀截面的管道 当产生声音的气流顺着这个管道传播时 其频谱特征就由管道的选择性所改变声道的谐振频率称为共振峰频率 简称共振峰 其中第一共振峰就是上面提到的基音频率fb 声道截面面积与声道长度方向之间的依赖关系称为声道的面积函数 声道谐振特性主要取决于其面积函数 实际声道可以用一个级联的无损声管来表示 当选用较多数量的短管级联 使得各管的截面积逼近声道的面积函数时 就可以期望级联声管的谐振频率接近于声道的谐振频率 由N个等长无损声管级联的系统的传递函数为 70 一 语音信号的基本特性 语音信号的基本特性语音信号是非稳态信号 特征随时间变化 但在一个很短的时间段内 约5ms 50ms 具有相对稳定的特征 称为准平稳信号 语音信号通常可以分为浊音 清音和混合音 浊音在时域上具有准周期性 在频域上 精细谱具有周期性起伏的谐波特性 谱包络具有共振峰结构 清音类似于随机噪声 其频带较宽 浊音段的信号能量要比清音段的能量高 这一特点可用于判断区分清 浊音 语音产生模型 无损声管模型等效为时变线性数字滤波器 滤波器极点对应声道振峰频率 增益参数G和滤波器系数都随时间而变化 且依赖于面积函数 终端等效的概念 当线性系统的一组参数被控制之后其输出就具有所希望的语音特征 而这组参量是和实际语音产生过程有关的 语音信号具有慢变化特征 其激励和声道的特征在10 20ms时间内保持不变 语音产生模型包括激励源 声道和反映嘴唇处声辐射影响的部分 如图所示 语音特征参数 激励源分为浊音激励和清音激励 用浊音 清音开关进行控制 在浊音段 激励由冲激序列发生器和声门脉冲模型G z 级联构成 前者产生周期为Tp的单位冲激响应 后者为波形成形系统 在清音段 激励模型为一个随机噪声源及控制清音激励强度的增益参数 声道模型为一个时变线性系统 辐射模型为R z 语音特征参数有 基音周期 共振峰频率 语音强度 清音 浊音判决及时变滤波器参数等 特征参量的提取 提取方法是基于数字信号处理的理论和技术 语音信号的准平稳特性 即在10 20ms的短时间内认为语音的特征参数不变 这样 可将实际语音信号分成短的时间段 在各个段内分别进行参量提取 简单介绍一下基音提取问题 包括两个方面 首先进行浊音 清音判决 然后再确定浊音段语音波形的周期Tp 浊音 清音判决或称基音检测 就是判决一个时间段是浊音段还是清音段 这就要利用浊音和清音在时域和频域上的差别 浊音信号具有准周期性 频谱有峰值 即基音及其谐波 浊音信号有较强的相关性 清音信号的波形近似于噪声 没有准周期性 其频谱没有明显的峰值 时域中也不存在相关性 基音提取的方法很多 可分为三类 利用语音信号的时域特征 如自相关函数法 利用语音信号的频域特征 主要是利用浊音频谱的峰值特征 综合利用语音信号频域与时域特征 如线性预测技术等 76 一 语音信号的基本特性 语音信号的基本特性语音信号是非稳态信号 特征随时间变化 但在一个很短的时间段内 约5ms 50ms 具有相对稳定的特征 称为准平稳信号 语音信号通常可以分为浊音 清音和混合音 浊音在时域上具有准周期性 在频域上 精细谱具有周期性起伏的谐波特性 谱包络具有共振峰结构 清音类似于随机噪声 其频带较宽 浊音段的信号能量要比清音段的能量高 这一特点可用于判断区分清 浊音 77 二 语音信号的产生模型 78 产生语音信号s n 的参量清 浊音类型 基音周期TP 代表声道的时变滤波器的系数 aj 及滤波器阶数p 增益系数G 说明 根据语音信号慢变化的特点 可以每隔10 30ms左右预测一次上述各参数的值 即以每10 30ms为一帧传送一次参数样值的编码 并不传送话音样值的编码 因此比特速率低得多 二 语音信号的产生模型 79 三 LPC声码器的工作原理 80 1 全极点数字滤波器参数的确定阶数P模型阶数P的选择 应该从频谱估计精度 计算量 存储量等多方面综合进行考虑 P取很大值时 可以获得很好的信号谱估计 但增加的计算量和存储量代价太大 语音谱估计时主要关心的是声道的谐振特性 P值过大 估计的谱中保留许多信号谱细节 反而使共振峰分析效果变坏 阶数P的经验值在8 12之间 通常采用10个极点的滤波器 模型就能正确描述共振峰特性和谱的基本形状 三 LPC声码器的工作原理 81 滤波器系数 aj 三 LPC声码器的工作原理 设计的滤波器系数 aj 就是使得误差e n 在某个预定的准则下最小 通常是根据最小均方误差准则求解 aj 在LPC模型中 信号s n 的估计误差e n 为 82 三 LPC声码器的工作原理 根据最小均方误差准则通过求解P个方程来得到P个未知数aj 83 三 LPC声码器的工作原理 2 基音检测根据语音信号的特性检测基音周期的方法有 利用时域特性检测 利用频域特性检测 同时利用时域和频域特性检测 这里只介绍利用时域特性检测 84 基本原理 利用语音信号的时域波形的相似性 通过比较原始信号和它的移位信号的相似程度来寻找基音周期 如果移位的距离等于基音周期 则两个信号之间将具有最大的相似性 常用方法 短时自相关函数和短时平均幅度差函数AMDF 利用时域特性检测 三 LPC声码器的工作原理 85 三 LPC声码器的工作原理 基于求短时自相关函数的基音周期估计 86 三 LPC声码器的工作原理 sw n 的自相关函数称为语音信号s n 的短时自相关函数 用Rw l 表示 如果s n 是浊音 其短时自相关函数Rw l 呈现出明显的周期性 其周期等于s n 的基音周期 基音周期就是第一个峰值点到零点之间的距离 87 三 LPC声码器的工作原理 88 设sw n 是一段加窗的语音信号 它的非零区域为 n 0 N 1 sw n 的短时平均幅度差函数rw l 定义为 三 LPC声码器的工作原理 基于短时平均幅度差函数 AMDF 的基音周期估计 89 三 LPC声码器的工作原理 如果s n 是浊音 其AMDF也呈现出明显的周期性 其周期等于s n 的基音周期 与Rw l 不同的是在基音周期的各个整数倍点上 rw l 具有谷值而非峰值 要通过寻找最深谷值点的位置来确定基音周期 90 三 LPC声码器的工作原理 91 两种基音周期估计方法比较AMDF方法计算简单 只需减法和取幅度运算 不需要乘法运算 AMDF的动态范围较小 易于算法的定点实现 AMDF在基音周期点上 它的谷点锐度较之短时自相关函数的峰点锐度更尖锐 估值精度更高 更稳健 但信号不够平稳时 这个特点不明显 短时自相关函数法的特点是对相位不敏感 在信号有相位失真时能较好地检测基音 三 LPC声码器的工作原理 92 窗长为了使较好地反映sw n 的周期性 窗长N至少应大于两个基音周期 一般取长度为10 30ms 克服共振峰特性造成的干扰由于共振峰的干扰 会出现Rw l 的第一最大峰值点或rw l 的第一最深谷值点与基音周期不一致的情况 当基音周期性和共振峰周期性混在一起时 检测出来的周期可能是Np Nf Np是基音周期 Nf是第一共振峰的周期 三 LPC声码器的工作原理 讨论 93 克服上述干扰有两种方法 用低通滤波器 60Hz 900Hz 对语音信号进行滤波 去除大部分共振峰的影响 基音频率最高约450Hz 滤波后可以保留其一 二次谐波 先对语音信号进行非线性变换 例如 中心削波 然后再求Rw l 或rw l 这样可以明显地改善基音估计的效果 基音周期点上 峰值点或深谷值点比削波前得到的要尖锐 突出 三 LPC声码器的工作原理 94 产生语音信号s n 的参量清 浊音类型 基音周期TP 代表声道的时变滤波器的系数 aj 及滤波器阶数p 增益系数G 说明 根据语音信号慢变化的特点 可以每隔10 30ms左右预测一次上述各参数的值 即以每10 30ms为一帧传送一次参数样值的编码 并不传送话音样值的编码 因此比特速率低得多 二 语音信号的产生模型 95 三 LPC声码器的工作原理 96 对于加窗的语音信号sw n 当窗的起点n 0时 语音信号sw n 的短时能量用E表示 短时平均幅度用M表示 计算公式如下 三 LPC声码器的工作原理 3 浊音 清音及无声的判别根据语音信号的短时能量 短时平均幅度和短时过零率来判断当前帧的语音信号是浊音 清音 还是无声 97 语音信号的过零率用Z表示 它表示一帧语音信号中波形穿过横轴 零电平 的次数 它可以用相邻两个取样改变符号的次数来计算 三 LPC声码器的工作原理 98 浊音 V 的M最大而Z最低 当采样率为8kHz 帧长为20ms时 Z的平均值约为20 清音 U 的M居中而Z最高 当采样率为8kHz 帧长为20ms时 Z的平均值约为70 无声 S 的M最低而Z居中 判断当前帧是浊音 清音 无声的依据如下 三 LPC声码器的工作原理 99 三 LPC声码器的工作原理 在S U V三种情况下 短时平均幅度M和短时过零率Z的条件概率密度函数示意图 通道声码器 通道声码器 发送端通过若干个并联的通道对语音信号进行粗略的频谱估计接收端产生的信号其频谱与发送端所规定的频谱相匹配 滤波器组队频带的划分不均匀 低频带的带宽窄 高频段的带宽宽主要缺点 需要进行基音检查和清浊音的判决 精确性较差 通道数量有限 造成信号频谱畸变 共振峰声码器 共振峰声码器 对整体的语音信号进行分析 提取信号中的共振峰的位置 幅度 带宽等参数 构成对应清音和浊音的两个声道滤波器 与通道声码器相比 共振峰声码器合成的语音质量较好 而且比特率可以压缩的更低 104 四 LPC10声码器 复习 LPC声码器的工作原理 105 1 LPC10声码器概况LPC 10声码器采用10阶线性预测分析滤波器 编码速率为2 4kb s 被美国在1981年作为联邦标准FS 1015用于窄带保密通信 其语音质量清晰可懂 但抗噪声的能力和自然度尚有欠缺 四 LPC10声码器 106 四 LPC10声码器 2 LPC10编码器 107 LPC 10编码器的特点 1 采样采样率8kHz 每个样本量化为12bit得到数字化语音 每180个样点分为一帧 22 5ms 以帧为处理单元 四 LPC10声码器 预加重的目的是加强语音谱中的高频共振峰 使语音短时谱以及线性预测分析中的余数 残差 频谱变得更为平坦 从而提高了谱参数估值的精确性 2 预加重在提取声道参数之前 先进行预加重 高频提升 处理 预加重滤波器的传输函数Hpw z 为 108 传输函数Hpw z 的幅频和相频特性 四 LPC10声码器 109 3 声道滤滤器参数RC该编码方案中采用协方差法计算预测系数 ai i 1 P P 10 预测系数不适于直接量化 因为它的微小变化会导致LP综合滤波器极点位置很大的变化 很可能造成滤波器不稳定 为了保证滤波器的稳定性 要求有相当高的量化精度 每个系数需要8 10bits 四 LPC10声码器 110 四 LPC10声码器 为了降低量化比特数 采用了在数学上完全等价的P个反射系数 RC ReflectionCoefficient ki i 1 P代替预测系数进行量化编码 滤波器稳定的条件是参数ki满足下式 此条件在量化时容易保证 可以通过Levinson Durbin算法求得部分相关系数 PartialCorrelation 部分相关系数与RC在理论上是互为相反数 111 4 增益RMS增益RMS由下式计算 Si是经过预加重后的数字语音信号样本 N是分析帧长度 对于浊音帧 其分析帧长取为130个样本以内的基音周期整数倍值 对于清音帧 其分析帧长取为长度为22 5ms的整个帧的中点为中心的130个样点 四 LPC10声码器 112 清 浊音判决是利用模式匹配技术 基于低带能量 AMDF函数的最大值与最小值之比 过零率三个因素判别 最后对基音值 清浊音判决结果用动态规划算法 在三帧范围内进行平滑和错误校正 从而给出当前帧的基音周期 清浊音判决参数V U 5 提取基音周期和检测清 浊音采用基于短时平均幅度差函数 AMDF 法提取基音周期 四 LPC10声码器 113 6 参数编码对10个反射系数RC 增益RMS 基音周期 U V判决标志以及同步信号共编码成每帧54bits 帧长22 5ms 因此编码速率为2 4kb s 各比特分配如下表 四 LPC10声码器 114 四 LPC10声码器 115 四 LPC10声码器 3 LPC10译码器 116 LPC 10声码器的缺点 1 采用过分简化的二元激励 合成的语音自然度较低 2 稳健性 Robustness 差 3 LPC 10的语音谱共振峰的位置以及带宽估值有时会产生很大的失真 从而影响语音的质量 当浊音的基音频率接近谱包络中的第一共振峰时 LPC谱估计在共振峰位置上出现极其尖锐的峰值 估计失真 使得相应得在合成语音中会出现尖峰或较大的毛刺 影响语音质量 四 LPC10声码器 117 采用混合激励代替简单的二元激励 使合成语音的质量得到改善 激励脉冲加抖动 对每个基音周期的长度乘上一个0 75 1 25之间均匀分布的随机数以改善语音的自然度 4 LPC 10e声码器LPC 10e声码器采用针对LPC 10声码器的缺点加以改进的算法 并能与LPC 10声码器兼容 用于美国第三代保密电话 四 LPC10声码器 1 激励源的改善 118 2 基音提取方法的改进LPC 10提取基音采用的是AMDF 它的显著特点是不需要乘法 计算较小 LPC 10e中采用LPC的残差信号或语音信号的短时自相关函数 利用动态规划的平滑算法来更准确地提取基音周期 四 LPC10声码器 119 3 声道滤波器参数量化的改进线谱频率LSF LineSpectrumFrequency 或称为线谱对 LineSpectrumPair 是数学上与线性预测系数 ai i 1 P 和反射系数 ki i 1 P 完全等价的另一种表示方式 LSF参数集 i i 1 P 都在单位圆上 它们在频域描述全极点滤波器H Z LSF在数学上有良好的量化特性 四 LPC10声码器 120 四 LPC10声码器 在求取LSF参数及量化过程中 如果保持LSF参数的有序有界性质 即 就可以保证全极点滤波器H Z 是稳定的 LSF参数有序有界性 121 LSF误差相对独立性某个频率点的LSF偏差只对该频率附近的语音频谱产生影响 而对其它LSF频率上的语音频谱影响不大 这有利于LSF的参数量化和插值 四 LPC10声码器 122 LSF参数的量化在标量量化时 通过设计最佳的LSF参数的非均匀标量量化器 可以用较少的量化比特达到较高的量化精度 例如 对10个LSF参数 根据每个参数所起的作用 分配的量化比特数为 3 4 4 4 4 3 3 3 3 3 共34bits 所得的合成语音质量与用41bits对反射系数k参数量化得到的合成语音质量相比较 在听觉上没有任何差别 两者的波形完全吻合 计算量化畸变约为1dB 四 LPC10声码器 123 四 LPC10声码器 LSF参数的量化 续 在矢量量化时 将10个LSF合并成 4 6 两个矢量 每个矢量量化为12bits 共24bits 可以得到平均谱畸变为1dB的 透明 矢量量化 第三章语言信号压缩编码 3 1语言信号压缩编码的基本概念3 2自适应差值脉冲编码调制3 3参量编码3 4混合编码3 5低速率语言压缩编码的应用 3 4 1混合编码 混合编码结合了波形编码和参量编码的优点 采用线性技术构成声道模型 不止传输预测参数和清浊音信息 而且也同时传输预测误差信息 实现混合编码基本方法是以参量编码特别是线性预测编码LPC为基础的 合成分析法 AbS Analysis By Synthesis 的基本思想 用合成来指导分析 将合成器引入编码系统 使之与分析器相结合 在编码器中产生与译码器完全一致的合成语音 将此合成语音与原始语音相比较 根据一定的误差准则调整计算分析器的各个参数 使两者之间的误差达到最小 然后将误差最小时的语音参数传送到接收端 得到高质量的合成语音 合成分析法 在LPC基础上采用AbS的编码方法 AbS LPC编码器包括三个基本部分 时变滤波器 包括LPC和基音滤波器 基于感知的最小化处理 激励信号 AbS LPC编码器 AbS LPC编码器与译码器 AbS LPC编码器 AbS LPC编码器 合成分析编码方法的特点 发端是一个闭环系统 对激励信号没有明显的分类 由闭环系统选择与原始语音误差最小的激励信号 使得合成语音质量比传统的LPC声码器好得多 1 时变滤波器时变滤波器由LPC合成滤波器和基音合成滤波器级连组成 LPC合成滤波器实现语音的短时预测 基音合成滤波器实现语音的长时预测 AbS LPC编码器 在语音谱中 能量较高的频段 如共振峰处 的噪声相对于能量较低频段的噪声不易被感知 在度量原始语音与合成语音之间的误差时可以计入这一因素 在语音能量高的频段 允许二者的误差大一些 反之则小一些 为此在计算二者误差时 引入频域感觉加权滤波器W f 2 感觉加权滤波器感觉加权滤波器 是根据人的听觉特性对预测残差信号进行处理 以产生较好的主观听觉效果 AbS LPC编码器 3 激励信号源激励信号是AbS LPC模型的输入 包含不能由时变滤波器谱模型表征的残差结构 如超出长时线性预测范围的相关性就不能由长时线性预测包含 激励信号还包括不能用确定方法有效表征的随机结构 采用AbS方法的声码器都用激励信号源的种类命名 例如 1 多脉冲线性预测编码 MP LPC 2 规则脉冲激励 长时预测编码 RPE LTP LPC 3 码本激励线性预测编码 CELP AbS LPC编码器 语音的合成分析编码 合成分析法 ABS 的基本思想是用合成来指导分析 将合成器引入编码瑞 使之与分析器相结台 在编码器中产生与译码器端完全一致的合成语音 将此合成语音与原始语音相比较 根据一定的误差准则调整计算各个参数 使得二者之间的误差达到最小 将误差最小时的系统参数传送到接收端 可以合成较高质量的语音 AbS LPC编码方法 1 缓存一帧语音采样值 通道LPC分析得到一组LPC系数 2 通过LPC逆滤波计算不量化的残差信号 3 由于LPC分析帧通常较长 确定激励信号时需要把一帧分成几个子帧 4 对每个子帧计算基音滤波器 长时预测器 参数 5 将基音和LPC合成滤波器级联起来 选择最佳激励信号 6 接收端根据收到的码字或数据求得最佳激励信号 通过级联滤波器产生与原始语音误差最小的合成语音 多带激励 MBE 和混合激励线性预测 MELP 编码 多带激励 MBE 语音编码混合激励线性预测 MELP 编码 多带激励 MBE 语音编码 MBE编码算法首先由美国的MIT大学林肯实验室的P W Griffin和J S Lim于1984年提出的 算法的关键是提出了一种基于频域的 新的语音信号产生模型 多带激励模型 进而提高了合成语音的自然度 MBE语音模型 MBE模型与传统的声码器模型的突出区别在激励模型的表示上 传统的声码器模型 整个频带不是清音就是浊音 激励谱由全频带的清浊音判决并由基音周期表示 这种描述方法不能反映语音的复杂构成 合成语音自然度差 MBE模型 将整个频带以基音谐波为中心 以基音频率为带宽划分为若干频带 在每个频带根据频谱特征进行清浊音判决 形成多带激励谱 整个激励谱由基音频率和它的谐波以及一组清浊音判决参数表示 能较好地反映语音特征 混合激励线性预测 MELP 编码 MELP算法的基本特点 采用了混合激励的形式代替基本LPC模型的二元激励形式 将周期脉冲激励源和白噪声源混合作为激励信号解决了二元激励模式不能准确描述过渡帧和弱浊音帧的问题使合成激励信号谱与残差信号谱更加匹配吸取MBE模型的思想 对激励信号进行分带处理MELP声码器的质量大大超过LPC 10声码器 是一种较理想的低速率语音编码算法 MELP简要框图 1 分析部分 基音提取分为几个步骤 首先是用自相关法进行整数基音初估 得到整数基音初值 然后利用内插公式提高输入基音值的准确度 分带话音分析首先将输入语音信号滤成5个子频带的信号 计算5个子带的分带话音强度井以此为依据进行分带清 浊音判决 线性预测分析用L D算法进行自相关分析 对线性预测系数的量化使用多级矢量量化技术 计算残差谐波谱时 首先使用量化后的LSF参数计算线性预测系数 并用它产生残差信号 对其进行FFT变换 利用频谱峰点检测算法找到与前10次谐波对应的傅里叶系数输出 2 合成部分 合成部分仍然采取LPC合成的形式 不同的是激励信号的合成方式和后处理 MELP算法中 混合激励为合成分带滤波后的脉冲与噪声激励之和 脉冲激励是用长度为 个基音周期的残差谱博里叶系数的离散博里叶反变换计算出来 噪声激励是首先产 0 1 间均匀分布的白噪声源 再对其进行电平调整和限幅 脉冲和噪声源各自滤波后加在一起合成混合激励 混合激励信号合成后经自适应谱增强滤波器处理 用于改善共振峰的形状 随后 激励信号进行LPC合成得到合成语音 3 参数量化编码部分 MELP算法的参数包括LPC参数 基音周期 模式分类参数 分带混合比例 残差谐波谱参数和增益 MPLPC RPELPC CELP 数字音频编码标准 话音音频编码标准1 G 711标准 CCITT 国际电报电话咨询委员会 于1972年对话音频谱的模拟信号用脉冲编码调制 PCM 编码时的特性进行了规范 速率为64kb s 适合于电话质量的语言信号编码 频率范围300Hz 3 4kHz 2 G 721标准 G 721标准是CCITT1988年制订的 速率为32kb s 采用自适应差分脉码调制 ADPCM 算法 适合于中等质量音频信号编码 同时也应用于调幅广播质量的音频信号编码 3 G 722标准 G 722标准是CCITT1988年制订的 该标准规范了一种音频 50 7000Hz 编码系统的特性 速率为64kb s 采用子带自适应差分脉码制 SB ADPCM 算法 具有数据插入的功能 适合于调幅广播质量的音频信号编码 也适合于需要存储大量高质量音频信号的多媒体系统 例如视听多媒体 会议电视等具有调幅广播质量的音频 G 722编 解码器原理框图 a 发端编码器 b 收端解码器 4 G 728标准 速率为16kb s 采用短时码本激励线性预测编码 LD CELP 算法 适合于高质量的语音信号编码 5 G 729标准 G 729标准提出了一种采用共轭结构代数码激励线性预测 CS ACELP 方法 是以8kb s速率对语音信号编码的算法 它是由ITU T于1995年制订的 该算法应用在多媒体通信和IP电话等领域 CS ACELP编码器原理 GSM标准 由欧洲数字移动特别工作组制订速率为13kb s采用长时线性预测规则码本激励 RPE LTP 算法适合于移动通信的低速语音编码编码净比特率为 Kb s 加上信道抗干扰编码后为22 8Kb s 再加上管理信息等 信道传送速率为24 7Kb sRPE LTP方案由预处理 LPC分析 短时分析滤波 长时预测和规则激励码编码五大部分构成 GSM标准的长时线性预测规则码本激励 RPE LTP 编码原理图 方案由预处理 LPC分析 短时分析滤波 长时预测和规则激励码编码五大部分构成 GSM的RPE LTP方案的一帧中各参数编码比特分配如表 每帧20ms 共260bit量化编码 所以净编码速率为13kb s CTIA标准 美国数字移动通信标准 速率为8kb s 采用矢量和激励线性预测 VSELP 算法 压缩率大 计算量适中 同GSM的13kb s标准一样 应用在低速语音编码领域 NSA标准 美国国家安全局标准 速率为4 8kb s和2 4kb s 分别采用码本激励 CELP 和线性预测 LPC 编码方案 高保真立体声音频编码标准 1 MPEG 1音频编码标准 是国际上第一个高保真立体声音频编码标准 以MUSICAM MaskingPatternUniversalSubbandIntegratedCodingAndMultiplexing 为基础的三层编码结构 根据不同的应用要求 使用不同的层来构成其音频编码器 2 MPEG 2音频编码标准 在MPEG 1音频编码方案 MUSICAM只能传送左 右两个声道 MPEG 2在其基础上扩展了低码率多声道编码 称为MUSICAM环绕声 该方案将声道数扩展至5 1个 即3个前声道 左L 中C和右R 2个环绕声道 左LS 右RS 和1个超低音声道LFE 常称为0 1声道 它于1994年公布 3 MPEG 4音频编码标准 MPEG 4定义了3种类型的编码器 低速率音频编码 对8kHz取样的语音的2 4kb s速率的编码 中速率音频编码 对8或16kHz取样的语音的4 16 kb s速率的编码 高速率音频编码 指16kb s以上速率的编码 4 AC 3系统 AC 3系统是Dolby公司开发的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论