语音编码总结

上传人：简*** IP属地：湖北上传时间：2020-04-04 格式：DOCX 页数：16 大小：151.32KB 积分：9.6 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音编码总结一历史与概念 1 模拟的声音信号话音信号口语发声的 200Hz 3400Hz 调幅广播信号无线广播 50Hz 到 7000Hz 调频广播信号无线广播 20Hz 到 16000Hz 激光唱机信号 CD 10Hz 20000Hz 2 话音编码技术的历史回顾无线 AM 14 位 16k 224k PCM 64k 子带 ADPCM 88 年 G 722 64k PCM 8 位 8k Toll G 711 无线 FM 高保真立体音频 16 位 44 1k 905 6k PCM ISO 1990 压缩 64k 128k MPEG 每声道在 32k 448k 10 20 50 200 3400 7000 1600 20000 Hz 话音编码研究的历史表明这一领域的研究成果直接为通信产业发展提供了源动力目前 IP 电话所用的编码的标准有 G 723 1 G 728 G 729 具有低延迟低码率低复杂性高音质的话音编码算法将是未来 IP 电话网络的奠基石 3 若干概念术语 1 数字信号标称的不连续信号它可以用离散的步差从一个状态转变到另一个状态 2 采样按周期 T 对模拟信号进行测量称为采样采样频率 Fs 1 T 在满足奈奎斯特定理时从采样值可准确的恢复原信号 3 量化用数字信号表示话音的过程称为量化 4 非均匀量化非均匀量化可以兼顾动态范围和小信号的系统精度 Reeves 提出概念即对大信号取较大的量化步长对小信号取较小的量化步长二矢量量化将 k 个样点构成的有序集信源矢量集合映射为 M 个恢复失量构成的有限集 A 码书码本中的某个矢量 Yi 码字码元的映射称为矢量量化它是对标量量化在 K 维空间的一个推广标量量化矢量量化量化对象单个采样点 K 个采样点集合划分在一维幅度轴上划分有限个区间 1 a0 a1 n an 1 an 在 k 维空间里划分成有限个子空间 S Si i 1 2 M 量化过程在每个区间里选一个代表值 fi i I 1 2 n 在每个子空间里选一个代表矢量 Yi Yi1 Yi2 Yii Yi Si i 1 2 M 量化方法对任一模拟信号当其标称值属于区间 i 时就用数字信号 fi 代表值对任一 k 维模拟信号的矢量当其标称值属于子区间 Si 时就用代表矢量 Yi 去量化之 1 码本设计的 LBG 方法 1 在矢量空间 X 中进行最佳划分即把 X 划分成 M 个子空间 Si i 1 2 m 使平均失真最小 2 对划分后的子空间 Si 求出其形心作为新的最佳代表矢量 Yi 从而构成新的码本将上述步骤反复迭代最终求出最佳码本和量化器 3 初始码本的选择 A 随机选取迭代时间较长 B 分裂法 4 LBG 方法不是最优化方法即迭代过程不能保证收敛到全局最小值后来有人提出模拟退火法将 LBG 方法收敛到局部最小值时采用某种扰动将迭代过程继续进行下去 2 空间分布对矢量量化的影响 LBG 算法把问题简化为在矢量空间中样点的分布是均匀的但实际的应用场合往往不满足这个前提因此应考虑空间分布空间分布对量化值的选择有很重要的影响对矢量的情况影响依然存在 3 语音编码方案的三种类型语音编码的主要任务对量化的话音信号施加某种数字变化使其具有适于数字信道传输的形式同时尽可能多信号所承载的信息话音信号的剩余度主要表现在三个方面 1 相邻样点存在较强的相关性 2 对浊音信号存在周期准周期性 3 信号短时平稳时不变性此外人类听觉对话音有选择效应即当一个强音与一个弱音同时存在时人类听觉能够自动抑制弱音的效果称为人耳的掩蔽效应这些是话音压缩编码的出发点 3 1 波型编码对话音信号的每一个样点进行量化编码和传输因此波型编码是没有延迟的话音编码方案 3 1 1 差值脉码调制 DPCM 和调制一位的 DPCM 系统成为调制或增量调制 DM 流程图如下量化器码化器预测器译码器预测器编码器解码器 Si diCiCi i d i d i s i s i s i s 这里表示对应的量化值上标表示对应的预测值用 ei 表示差值 di 的量化误差收端恢复的量化信号只与差值信号的量化误差有关而与预测器性质无关 1 当信号变化快时恢复波形跟不上信号的变化称为斜率过载 2 对于零信号 DM 方法交替输出一串 0 和 1 这种随机交变电平成为颗粒噪声解决办法是在量化器引入自适应阶矩调整机制 ADM 如果自适应调整依据输入信号称为前向自适应如果自适应调整依据是量化器输称为后向自适应前向自适应将导致延迟的产生后向自适应有可能不稳定 3 1 2 连续可变斜率增量调制 CVSD 其原理可用下图说明 PG 1 0 语音信号比较放大器 CLK 解码器 ALL 1 ALL 0 PG ALL 1 ALL 0 1 0 CLK 触发器回放信号当反馈回路中出现连续四个 1 或连续四个 0 时表明系统出现斜率过载的情况此时或门输出一个高电平驱动触发器改变量化的阶矩的大小以便适应输入信号的变化 3 1 3 自适应差值脉码调制 ADPCM PCM 非均匀量化 D 调制差值调制 CVSD 自适应概念将脉码调制差值调制和自适应技术三者结合起来使编码算法不仅适用于幅值起伏较大的话音信号而且能很好的适合于平稳信号如话带数据 3 1 4 信息压缩的基本思路 1 信息与消息 1 消息是由符号数字文字或语言组成的序列 2 信息是消息中不确定的内容消息是信息的载体信息是消息的内含由于信息是消息中承载的不确定性因素差别变化区别等因此必然与通信双方的知识约定有关越少见的事件其出现带来的信息越多 2 信息压缩的主要手段 1 减少不确定性差值编码相当于用前一个值来预测当前值引出线性预测的概念 P i i insnsnd 1 2 通信双方建立某种知识约定如码书或算法 3 对变化的规律不确定性因素建立描述机制或学习机制 3 2 参数编码就是对每帧语音信号将滤波器系数和残差 e n 分别进行量化编码由于 e n 的平均能量和幅度变化范围远远小于信号 s n 因此在信噪比相同的条件下可以用较少的比特对其编码参数编码时将激励按清音浊音分成高斯随机白噪声或准周期信号倒谱参数 C n 构成的同态声码器用共振峰参数构成的共振峰声码器都是参数编码方法 1 基音提取并联基音提取方法 1 短时平均幅度差函数 AMDF 2 中心削波法是对信号的一个非线性变换 ll l ll CnSCnS CnS CnSCnS nSC 10 式中 Cl 称为削波电平它取信号最大值 Smax 的一个百分比 30 80 3 三电平中心削波函数 l ll l CnS CnSC CnS nSC 1 0 1 Cl Cl s 1 1 C s 用 Y S n 表示三电平中心削波器的输出在自相关函数中有 1 0 0 0 1 y nmy nmk y nm y nmky nmor y nmk y nmy nmk 用三电平中心削波信号计算自相关函数找到自相关函数最大值并将峰值与一个固定门限例如 Rn 0 的 1 3 比较如果低于门限判为清音如果高于门限则最大峰位置判为基音周期 2 并联基音提取基本方法原理 1 先对信号进行处理产生若干冲激串冲激串只保留原始信号的周期性而去除了与基音检测无关的信息 2 估计每个冲激串的周期 3 对这些周期进行逻辑判断最后确定语音信号的周期将进过低通滤波的信号按如下原则求出六个冲激串 3 3 混合编码波形编码音质好但码率高参数编码可以获得很低的码率但音质不好为了兼顾二者的长处和不足提出了残差激励模型多脉冲激励模型和码激励模型此外对 LPC 参数模型也提出了噪声加权整形技术和长时预测滤波器等方法 1 混合编码中的新技术 1 长时预测滤波器浊音信号存在准周期性当用滤波器 1 i i insnsne 描述语音信号时残差序列 e n 保留着中准周期性为此用一个称为长时预测滤波器的 B z 来去除这种准周期性 I Ij jM jM zzB 式中 M 是对应于基音周期的样点数 I 根据滤波器阶数一般取 0 或 1 残差 e n 经 B z 滤波器滤波后将得到更加白化的噪声谱 2 噪声整形信号经短时长时滤波后噪声谱一般是平坦的由于在两个共振峰之间信号谱低于噪声谱因此尽管总的信噪比是高的但在阴影区域对应的频率上噪声能明显被人耳感觉到采用噪声谱变形后总的信噪比有所降低但在所有频率上信号的能量大于噪声的能量由于人耳的选择性可以形成对噪声的听觉屏蔽效应所以采用噪声整形功率谱 dB 噪声谱包络信号谱包络频率 kHz a 加噪声谱变形 3 合成分析法 Analasys By Sythesis A B S 波形编码器内一般要嵌入一个解码器使得解码信号与原始信号作差提供一个比较信息或形成后向自适应在参数编码时也用这一类方法将合成信号与原始信号作差加权并比较以次为依据进行参数修正或选择激励这种方法称为 A B S LPC 编码方法的二元激励模型过于简化 1 多脉冲激励线性预测编码器 MPLPC 的关键问题是如果一帧中允许用 M 个激励脉冲如何求出这 M 个脉冲的位置和幅度使得合成语音与原始语音的感觉加权均方误差最小激励发生器 LPC 分析 LPC 综合滤波器感觉加权均方误差最小 S n es n ew n ns 用自相关法求出短时滤波器 A z 后经听觉加权处理其冲击响应为 P j j j Nnjnhrnnh 1 1 它们激励综合滤波器合成语音信号为 I i ini mnhgns 1 2 规则脉冲激励线性预测编码器 RPE LPC 规则脉冲是多脉冲的一种即脉冲间隔固定的多脉冲激励对于规则脉冲激励算法可以简化其结构图如下 A z S n 原始语音 r n 残差激励发生器均方误差最小估值 1 A z r ew n v n 规则脉冲是让原始语音经短时滤波后的信号 r n 与激励信号作差然后对感觉加权后的差值信号求均方误差最小来确定最佳激励规则脉冲激励的问题是 A 确定规则脉冲最佳的相位 B 为每个非零脉冲确定一个幅度 4 码激励 CELP 通过 LPC 分析去除信号的短时相关性再用长时基音分析去除基音周期性得到的是信号具有高斯白噪声特性 5 G 728 低延迟码激励话音编码算法 LD CELP A 特点 a 每 5 个样点为一帧延迟为 0 625ms b 采用 50 阶 LPC 滤波器不用长时预测和基音检测 c 50 阶 LPC 滤波器参数每 4 帧 20 个样点 2 5ms 更新一次具有时变参数特性 d 3 位增益码书 7 位波形码书的结构增益码书与波形码书分别有 0 5 位冗余 e 采用后向滤波技术因此不传递参数信息只传递激励信息 f 采用对数增益滤波技术有效地降低码书尺寸 B G 728 原理可归纳为一个判据三个模块 1 判据 2 2 min ji ygnxnH 2 LPC 分析模块 3 包括四个滤波器 a 50 阶综合滤波器 b 10 阶感觉加权滤波器 c 10 阶对数增益滤波器 d 10 阶后滤波器 6 G 729 共轭结构的代数码激励 CS ACELP G 729 编码器属于 CELP 型编码器帧长为 10ms 采样率为 8kHz 通过对输入语音信号进行分析提取出 CELP 模型参数包括线性预测滤波器系数自适应码书和代数码书的标号和增益将这些参数编码后发往解码器 A 编码器原理框图 LPC 信息 LPC 信息 LPC 信息预处理 LP 分析量化内插固定码书自适应码书基音分析固定码书搜索感觉加权参数编码增益量化图 G 729 编码器原理基本框图 C G P G 综合滤波器输入语音传送的比特流 B 解码器原理解码器对接收到的码流进行解码得到对应的编码器参数利用这些参数构成重建语音再将重建语音送给后处理级后处理级包括基于长时和短时合成滤波器的后滤波器后面跟有一个高通滤波器和幅度调节单元 C 固定码书自适应码书短时滤波后处理 G 729 解码器原理框图 GP GC 加窗 LP 分析窗由两部分组成第一部分是半个哈明窗第二部分是四分之一个余弦函数窗 D 感觉加权滤波器 10 1 2 10 1 1 2 1 1 1 i i i i i i i i za za zW zA zA 滤波器系数 ai 是通过对输入语音进行 LP 分析而得到的 ai 值每帧更新一次以达到加权的作用 E 开环基音分析为降低搜索闭环基音的复杂性可以先把搜索范围限制在开环基音 Top

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音编码总结

文档简介

温馨提示

最新文档

评论

语音编码总结

文档简介

温馨提示

最新文档

评论

相关文档