语音编码总结_第1页
语音编码总结_第2页
语音编码总结_第3页
语音编码总结_第4页
语音编码总结_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音编码总结 一 历史与概念 1 模拟的声音信号 话音信号 口语发声的 200Hz 3400Hz 调幅广播信号 无线广播 50Hz 到 7000Hz 调频广播信号 无线广播 20Hz 到 16000Hz 激光唱机信号 CD 10Hz 20000Hz 2 话音编码技术的历史回顾 无线 AM 14 位 16k 224k PCM 64k 子带 ADPCM 88 年 G 722 64k PCM 8 位 8k Toll G 711 无线 FM 高保真立体音频 16 位 44 1k 905 6k PCM ISO 1990 压缩 64k 128k MPEG 每声道在 32k 448k 10 20 50 200 3400 7000 1600 20000 Hz 话音编码研究的历史表明 这一领域的研究成果直接为通信产 业发展提供了源动力 目前 IP 电话所用的编码的标准有 G 723 1 G 728 G 729 具有低延迟 低码率 低复杂性 高音质的话音编码 算法将是未来 IP 电话网络的奠基石 3 若干概念术语 1 数字信号 标称的不连续信号 它可以用离散的步差从一个状 态转变到另一个状态 2 采样 按周期 T 对模拟信号进行测量 称为采样 采样频率 Fs 1 T 在满足奈奎斯特定理时 从采样值可准确的恢复原信号 3 量化 用数字信号表示话音的过程称为量化 4 非均匀量化 非均匀量化可以兼顾动态范围和小信号的系统精度 Reeves 提 出概念 即对大信号取较大的量化步长 对小信号取较小的量化步 长 二 矢量量化 将 k 个样点构成的有序集 信源矢量集合 映射为 M 个恢复失 量构成的有限集 A 码书 码本 中的某个矢量 Yi 码字 码元 的映射 称为矢量量化 它是对标量量化在 K 维空间的一个推广 标量量化 矢量量化 量化对象 单个采样点 K 个采样点 集合划分 在一维幅度轴上划分有限个区间 1 a0 a1 n an 1 an 在 k 维空间里 划分成有限个子空间 S Si i 1 2 M 量化过程 在每个区间里 选一个代表值 fi i I 1 2 n 在每个子空间里 选一个代表矢量 Yi Yi1 Yi2 Yii Yi Si i 1 2 M 量化方法 对任一模拟信号 当其标称 值 属于 区间 i 时 就用数字信号 fi 代表值 对任一 k 维模拟信号的矢量 当其标称值属 于子区间 Si 时 就用代表矢量 Yi 去量化之 1 码本设计的 LBG 方法 1 在矢量空间 X 中 进行最佳划分 即 把 X 划分成 M 个子空 间 Si i 1 2 m 使平均失真最小 2 对划分后的子空间 Si 求出其形心作为新的最佳代表矢量 Yi 从 而构成新的码本 将上述步骤反复迭代 最终求出最佳码本和量化 器 3 初始码本的选择 A 随机选取 迭代时间较长 B 分裂法 4 LBG 方法不是最优化方法 即迭代过程不能保证收敛到全局最 小值 后来有人提出模拟退火法 将 LBG 方法收敛到局部最小值时 采用某种扰动将迭代过程继续进行下去 2 空间分布对矢量量化的影响 LBG 算法把问题简化为 在矢量空间中 样点的分布是均匀的 但 实际的应用场合往往不满足这个前提 因此应考虑空间分布 空间 分布对量化值的选择有很重要的影响 对矢量的情况 影响依然存 在 3 语音编码方案的三种类型 语音编码的主要任务 对量化的话音信号施加某种数字变化 使其具有适于数字信道传输的形式 同时尽可能多信号所承载的信 息 话音信号的剩余度主要表现在三个方面 1 相邻样点存在较强的相关性 2 对浊音信号存在周期 准周期 性 3 信号短时平稳 时不变性 此外 人类听觉对话音有选择效应 即当一个强音与一个弱音 同时存在时 人类听觉能够自动抑制弱音的效果 称为人耳的 掩 蔽效应 这些是话音压缩编码的出发点 3 1 波型编码 对话音信号的每一个样点进行量化 编码和传输 因此 波型编码是没有延迟的话音编码方案 3 1 1 差值脉码调制 DPCM 和 调制 一位的 DPCM 系统成为 调制或增量调制 DM 流程图如下 量化器码化器 预测器 译码器 预测器 编码器解码器 Si diCiCi i d i d i s i s i s i s 这里 表示对应的量化值 上标 表示对应的预测值 用 ei 表 示差值 di 的量化误差 收端恢复的量化信号只与差值信号的量化误 差有关 而与预测器性质无关 1 当信号变化快时 恢复波形跟不上信号的变化 称为 斜率过 载 2 对于零信号 DM 方法交替输出一串 0 和 1 这种随机交变电 平成为 颗粒噪声 解决办法是在量化器引入自适应阶矩调整机 制 ADM 如果自适应调整依据输入信号 称为前向自适应 如 果自适应调整依据是量化器输 称为后向自适应 前向自适应将导 致延迟的产生 后向自适应有可能不稳定 3 1 2 连续可变斜率增量调制 CVSD 其原理可用下图说明 PG 1 0 语音信号 比较放大器 CLK 解码器 ALL 1 ALL 0 PG ALL 1 ALL 0 1 0 CLK 触发器 回放信号 当反馈回路中 出现连续四个 1 或连续四个 0 时 表明 系统出现斜率过载的情况 此时或门输出一个高电平 驱动触发器 改变量化的阶矩的大小 以便适应输入信号的变化 3 1 3 自适应差值脉码调制 ADPCM PCM 非均匀量化 D 调制 差值调制 CVSD 自适应概念 将脉码调制 差值调制和自适应技术三者结合起来 使编码算 法不仅适用于幅值起伏较大的话音信号 而且能很好的适合于平稳 信号 如话带数据 3 1 4 信息压缩的基本思路 1 信息与消息 1 消息是由符号 数字 文字或语言组成的序列 2 信息是消息中不确定的内容 消息是信息的载体 信息是消息的内含 由于信息是消息中承载的 不确定性因素 差别 变化 区别等 因此必然与通信双方的知 识 约定 有关 越少见的事件 其出现带来的信息越多 2 信息压缩的主要手段 1 减少不确定性 差值编码 相当于用前一个值来预测当前值 引出线性预测的概念 P i i insnsnd 1 2 通信双方建立某种知识约定 如码书或算法 3 对变化的规律 不确定性因素建立描述机制或学习机制 3 2 参数编码就是对每帧语音信号 将滤波器系数和残差 e n 分别 进行量化编码 由于 e n 的平均能量和幅度变化范围远远小于信号 s n 因此在信噪比相同的条件下 可以用较少的比特对其编码 参 数编码时 将激励按清音 浊音分成高斯随机白噪声或准周期信号 倒谱参数 C n 构成的同态声码器 用共振峰参数构成的共振峰声码 器 都是参数编码方法 1 基音提取 并联基音提取方法 1 短时平均幅度差函数 AMDF 2 中心削波法是对信号的一个非线性变换 ll l ll CnSCnS CnS CnSCnS nSC 10 式中 Cl 称为削波电平 它取信号最大值 Smax 的一个百分比 30 80 3 三电平中心削波函数 l ll l CnS CnSC CnS nSC 1 0 1 Cl Cl s 1 1 C s 用 Y S n 表示三电平中心削波器的输出 在自相关函数中有 1 0 0 0 1 y nmy nmk y nm y nmky nmor y nmk y nmy nmk 用三电平中心削波信号计算自相关函数 找到自相关函数最大值 并将峰值与一个固定门限 例如 Rn 0 的 1 3 比较 如果低于门限判 为清音 如果高于门限则最大峰位置判为基音周期 2 并联基音提取 基本方法原理 1 先对信号进行处理产生若干冲激串 冲激串只保留原始信号的 周期性而去除了与基音检测无关的信息 2 估计每个冲激串的周期 3 对这些周期进行逻辑判断 最后确定语音信号的周期 将进过 低通滤波的信号按如下原则求出六个冲激串 3 3 混合编码 波形编码音质好但码率高 参数编码可以获得很低的码率但音 质不好 为了兼顾二者的长处和不足 提出了残差激励模型 多脉 冲激励模型和码激励模型 此外 对 LPC 参数模型也提出了噪声加 权整形技术和长时预测滤波器等方法 1 混合编码中的新技术 1 长时预测滤波器 浊音信号存在准周期性 当用滤波器 1 i i insnsne 描述语音信号时 残差序列 e n 保留着中准周期性 为此 用一个 称为长时预测滤波器的 B z 来去除这种准周期性 I Ij jM jM zzB 式中 M 是对应于基音周期的样点数 I 根据滤波器阶数一般取 0 或 1 残差 e n 经 B z 滤波器滤波后将得到更加白化的噪声谱 2 噪声整形 信号经短时长时滤波后 噪声谱一般是平坦的 由于在两个共 振峰之间 信号谱低于噪声谱 因此尽管总的信噪比是高的 但在 阴影区域对应的频率上 噪声能明显被人耳感觉到 采用噪声谱变 形后 总的信噪比有所降低 但在所有频率上信号的能量大于噪声 的能量 由于人耳的选择性 可以形成对噪声的听觉屏蔽效应 所 以采用噪声整形 功率谱 dB 噪声谱包络 信号谱包络 频率 kHz a 加噪声谱变形 3 合成分析法 Analasys By Sythesis A B S 波形编码器内一般要嵌入一个解码器 使得解码信号与原始信 号作差 提供一个比较信息或形成后向自适应 在参数编码时也用 这一类方法 将合成信号与原始信号作差 加权 并比较 以次为 依据进行参数修正或选择激励 这种方法称为 A B S LPC 编码方法 的二元激励模型过于简化 1 多脉冲激励线性预测编码器 MPLPC 的关键问题是 如果一帧中允许用 M 个激励脉冲 如何求 出这 M 个脉冲的位置和幅度 使得合成语音与原始语音的感觉加权 均方误差最小 激励发生器 LPC 分析 LPC 综合 滤波器 感觉加权 均方误差最小 S n es n ew n ns 用自相关法求出短时滤波器 A z 后经听觉加权处理 其冲击响应为 P j j j Nnjnhrnnh 1 1 它们激励综合滤波器合成语音信号为 I i ini mnhgns 1 2 规则脉冲激励线性预测编码器 RPE LPC 规则脉冲是多脉冲的一种 即脉冲间隔固定的多脉冲激励 对于规 则脉冲激励 算法可以简化 其结构图如下 A z S n 原始语音 r n 残差 激励发生器 均方误差最小估值 1 A z r ew n v n 规则脉冲是让原始语音经短时滤波后的信号 r n 与激励信号作差 然后对感觉加权后的差值信号求均方误差最小来确定最佳激励 规则脉冲激励的问题是 A 确定规则脉冲最佳的相位 B 为每个非零脉冲确定一个幅度 4 码激励 CELP 通过 LPC 分析去除信号的短时相关性 再用长时基音分析去除基音 周期性 得到的是信号具有高斯白噪声特性 5 G 728 低延迟码激励话音编码算法 LD CELP A 特点 a 每 5 个样点为一帧 延迟为 0 625ms b 采用 50 阶 LPC 滤波器 不用长时预测和基音检测 c 50 阶 LPC 滤波器参数每 4 帧 20 个样点 2 5ms 更新一次 具 有时变参数特性 d 3 位增益码书 7 位波形码书的结构 增益码书与波形码书分别 有 0 5 位冗余 e 采用后向滤波技术 因此不传递参数信息 只传递激励信息 f 采用对数增益滤波技术 有效地降低码书尺寸 B G 728 原理可归纳为一个判据 三个模块 1 判据 2 2 min ji ygnxnH 2 LPC 分析模块 3 包括四个滤波器 a 50 阶综合滤波器 b 10 阶感觉加权滤波器 c 10 阶对数增益滤波器 d 10 阶后滤波器 6 G 729 共轭结构的代数码激励 CS ACELP G 729 编码器属于 CELP 型编码器 帧长为 10ms 采样率为 8kHz 通过对输入语音信号进行分析 提取出 CELP 模型参数 包括 线性预测滤波器系数 自适应码书和代数码书的标号和增益 将这 些参数编码后发往解码器 A 编码器原理框图 LPC 信息 LPC 信息 LPC 信息 预处理 LP 分析 量化内插 固定码书 自适应码书 基音分析 固定码书 搜索 感觉加权 参数 编码 增益 量化 图 G 729 编码器原理基本框图 C G P G 综合滤波器 输入语音 传送的比特流 B 解码器原理 解码器对接收到的码流进行解码 得到对应的编码器参数 利 用这些参数 构成重建语音 再将重建语音送给后处理级 后处理 级包括基于长时和短时合成滤波器的后滤波器 后面跟有一个高通滤 波器和幅度调节单元 C 固定码书 自适应码书 短时滤波 后处理 G 729 解码器原理框图 GP GC 加窗 LP 分析窗由两部分组成 第一部分是半个哈明窗 第二部分是四分 之一个余弦函数窗 D 感觉加权滤波器 10 1 2 10 1 1 2 1 1 1 i i i i i i i i za za zW zA zA 滤波器系数 ai 是通过对输入语音进行 LP 分析而得到的 ai 值每 帧更新一次 以达到加权的作用 E 开环基音分析 为降低搜索闭环基音的复杂性 可以先把搜索范围限制在开环基音 Top

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论