




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 随着数字移动通信的高速发展 尤其是第三代移动通信的发展 使得当 今的信道环境变得极其复杂 如何在日趋恶劣的通信环境中保持良好的通话 质量 增加通信系统容量 使人们能更加有效地产生 传输 存储和获取语 言信息 这对于促进社会发展具有十分重大的意义 语音编码技术可以有效 地压缩语音信号的传输带宽 增加通信系统的容量 给解决这一问题提供了 一个有效的途径 本文首先简单介绍了语音编码技术的数学基础 基本概念和发展现状 并简单地分析了数字移动通信的特点 总结了适合数字移动通信的语音编码 技术的特点 结合目前大家使用的中国移动 GSM 和中国联通 CDMA 数 字移动通信系统 对其使用的 RPE LTP 和 QCELP 编码技术做了详细的讨论 并对正处于产业化发展阶段的 3G 三大主流技术拟采用的编码技术做了简单的 介绍 关键词 数字移动通信 语音编码 变速率编码 3G ABSTRACT With the rapid development of the digital mobile communication especially the development of the 3G the channel become extreme complex How to keep a good quality of call in the more and more worsen communication condition and improve the capacity of the system it is very important for the development of the society which make people to produce transfer store and capture the information more efficient The technology of speech coding offers a way to meet this challenge It can efficiently compress the transmission bandwidth of speech signals to improve the capacity of the system First this text introduced the mathematics foundation basic concept and the development conditions of speech coding in brief and analyzed the characteristics of the digital mobile communication At the foundation this text put forward the charcateristics of speech coding that fit for the digital mobile communication system Bond with CHINA MOBILE GSM and CHINA UNICOM CDMA we are currently using and discuss the RPE LTP and QCELP speech coders they used in detail At last this text simple introduced the speech coders of three essential techniques in 3G KEYWORDS Digital Mobile Communication Speech Coding Variable Rate Speech Coding 3G 前 言 现代社会已步入信息时代 世界各国都在致力于现代通信技术的开发以 及现代综合通信网的建设 数字移动通信是现代通信技术中不可缺少的部分 在移动通信中传输最多的信息是语音信号 因而语音编码的技术在数字移动 通信中具有相当关键的作用 自八十年代末开始 我国的移动通信事业发展 极为迅速 经历了第一代的模拟移动通信和第二代数字移动通信 到现在使 用的二代半移动通信 还有即将投入使用的第三代数字移动通信 目前介绍 移动通信原理的文章 书籍很多 但都很少涉及信源编码这个方面 总结数 字移动通信系统中使用的各种语音编码技术 全面 系统地分析它们的原理 技术及应用 不仅能够更好地了解当前的移动通信系统原理 还对促进通信 和信号处理事业的发展 具有重要意义 本论文以具体所使用的数字移动通信系统为依据 以编码器和译码器为 单元 主要以原理框图的形式 对所使用的各种语音编码技术的原理进行讨 论 在讨论过程中 以各个语音编码标准的公布时间先后为线索 以编码技 术的不同特点为切入点进行详细的讨论 本论文可分为三个单元 第一单元包括一 二章 主要对语音编码技术 作一个简要的描述 在此基础上简单分析了移动通信的特点 总结了适合数 字移动通信的语音编码技术的特点 第二单元为三 四章 结合目前大家使 用的中国移动 GSM 和中国联通 CDMA 数字移动通信系统 对其使用的 RPE LTP 和 QCELP 编码技术做了详细的讨论 最后一个单元对正处于产业 化发展阶段的 3G 三大主流技术拟采用的编码技术做了简单的介绍 第一章 语音编码概述 在现代通信中 信息的传输都是以数字信号的形式进行的 因而在通信 的发送端必须将模拟信号转换为数字信号 在接收端再将数字信号还原成模 拟信号 随着科学技术的迅速发展 图像 数据等非话音信息在通信信息总 量中所占的比例大大提高 而且这种提高的趋势仍然会继续下去 但是 到 目前为止 在大多数通信系统中 传输最多的信息仍然是语音信号 在可以 预见的未来的通信中 尽管语音信号在通信信息总量中所占的比例会有所下 降 但仍然会是传输最多的信息 因而语音编码技术在数字移动通信中具有 相当关键的作用 语音编码为信源编码 它将模拟信号变成数字信号以便在信道中传播 这是数字移动通信网中的至关重要的一步 语音编码技术本身已发展多年 随着科学技术的迅速发展尤其是随着计算机技术 微电子技术 信号处理技 术以及编码理论的发展和进步 语音编码技术取得许多突破性进展 研究出 许多实用的编码技术 这些技术在不断研究 改进和应用中日趋成熟 形成 了各种实用的语音编码技术 在各类通信网中得到了广泛的应用 1 1 语音信号的特性 要对语音信号进行压缩 就要了解语音信号的一些特性 根据这些对设 计编码有用的特性 提出合适的编码技术 其中最常用的包括语音幅度的非 均匀概率分布 连续语音抽样信号之间的非零相关性 语音频谱的非平坦特 性 语音中的清音和浊音成分的存在 语音信号的类周期性 最基本的特性 是语音信号是带限的 一个有限的带宽意味着它可以以一定的速率抽样 当 抽样频率大于或等于 2 倍的信号最高频率成分 fm时 就可以从抽样值中完全 恢复原来的信号 语音信号的带限特性使信号的模数转换成为可能 同时前 面提及的各种特性使量化操作 另一个在语音编码中很重要的处理 能以很 高的效率实现 1 1 1 概率分布密度函数 PDF 语音幅度的非均匀概率分布密度函数是另一个重要的语音信号特性 语 音信号的 PDF 的一般特性是 在近零幅度处高概率分布 在幅度很高处低概 率分布 在这两个极端之间单调递减 但是确切的分布依赖于输入带宽和录 音条件 式 1 1 的双边指数函数 是电话质量语音信号的长时概率分布 密度函数很好的近似表达式 p x 1 1 1 exp 2 2 x x p xx 注意到这个函数表明在零值时有一个最大值 这是由于语音经常性的暂 停以及低频语音成分的存在 语音成分的短时 PDF 也是单峰函数 通常近似 地认为是高斯分布 为了保持输入信号的 PDF 与量化电平分布相匹配 采用非均匀量化 包 括矢量量化 方法 在高概率分布的地方安排更多的量化电平 而在概率低 的地方安排较少的电平 1 1 2 自相关函数 ACF 自相关函数是另一个语音信号中非常有用的特性 即在语音相连的抽样 值之间存在很大的相关性 这就表明了 对每一个语音抽样 有很大的成分 可以从以前的抽样值中预测 而且仅有很小的随机误差 所有的差分编码及 预测编码的技术都是以研究该特性为基础的 自相关函数 ACF 是信号抽样值之间的作为抽样时间间隔函数相似性的定 量测试 该函数的表达式如式 1 2 所示 1 2 1 0 1 Nk n C kx n x nk N 其中表示第 k 个语音抽样 自相关函数按照语音信号的方差归一化 X k 这样 它的值在 1 1 范围内 且 典型的信号存在一个连续抽样值 0 1C 的相关性 为 0 85 到 0 9 之间 1 C 1 1 3 功率谱密度函数 PSD 语音功率谱密度的非平坦特性 能够用来在频域内明显低压缩语音编码 PSD 非平坦特性基本上是非零自相关特性在频域中的典型表现 典型语音的 长期平均 PSD 表明高频部分对整个语音能量作用很小 这说明在不同的频域 上分别编码 可以产生明显的编码增益 虽然高频部分对能量作用不显著 但它也携带了语音信息 这样也需要在编码中充分表现出来 利用频谱平坦检测 SFM 研究语音频谱的非均匀特性方法 可以得到 理论上最大的编码增益的定量分析 SFM 被定义为 PSD 在频域轴上均匀间隔 抽样点的算术平均与几何平均的比值 数学表达式为如式 1 3 所示 1 3 2 1 1 2 1 1 N K K N N K K S N SFM S 其中是语音信号 PSD 在频域轴上第 k 个抽样值 语音信号的长期 K S SFM 的典型值为 8 而短期值在 2 500 之间 1 1 4 语音中的清音和浊音 根据发音的机制不同 语言的声音可分为浊音和清音两大类 浊音有称为有声音 英语中的元音和汉语中的韵母都是浊音 当气流通 过声门时 如果声带振动并产生一个准周期的空气脉冲 这一空气脉冲激励 声道 就得到浊音 声带振动的频率称为基音频率 周期为基音周期 b f p T 基音频率一般在 70 300Hz 的范围之内 相当于为 3 15ms 基音周期 b f p T 时语音信号的主要特征之一 p T 清音又称无声音 英语中的大多数辅音和汉语拼音中的大多数声母都是 清音 如果声道在某处发生收缩 同时迫使空气以高速冲过这以收缩部分而 产生湍流 就得到清音 发清音时声带不振动 此时是由湍流建立的宽带噪 音源激励着声道 清音波形类似于噪音 1 2 语音编码的基本概念 语音编码技术通常分为三类 波形编码 参数编码和混合编码 其中波 形编码和参数编码是两类基本类型 1 2 1 波形编码 波形编码是将时间域信号直接变换成数字代码 其目的是尽可能精确地 再现原来的话音波形 波形编码的基本原理是在时间轴上对模拟信号按奈奎 斯特定律所确定的速率进行抽样 然后将幅度样本分层量化 并用二进制代 码表示 在量化过程中 充分利用语音信号幅度的非均匀概率分布 连续语 音抽样信号之间的非零相关性 语音频谱的非平坦等特性 提高了量化效率 改善了量化性能 解码是其反过程 将收到的数字序列经过解码和滤波恢复 成模拟信号 对于比特速率较高的编码信号 例如从 16kbit s 到 64kbit s 波形编码技术能够提供相当好的话音质量 但对于低速率语音编码信号 即 是比特率低于 16kbit s 波形编码的话音质量显著下降 脉冲编码调制 PCM 和增量调制 以及它们的各种改进型都属于波形编码技术 M 1 2 2 参数编码 参数编码 又称为声源编码或声码器 有时又称为分析 综合编码 它 是将信源信号在频率域或其他正交变换域提取特征参数 并将其变换成二进 制数字代码进行传输 这些参数主要包括基音周期 共振峰频率 语音强度 浊音 清音判决 解码实为反过程 将接收到的数字信号经变换恢复特征参数 根据这些特征参数重建语音信号 具体来说 参数编码是以发音机制的模型 作为基础 用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这 个模型 在发送端从模拟信号中提取各个特征参数并进行量化编码 在接收 端 根据接收到的数字信号经变换恢复的滤波器系数和声源参数重建语音信 号 参数编码通过对语音信号特征参数的提取和编码 力求使重建语音信号 具有尽可能高的可懂度 即保持原语音信号的语意 但重建语音信号的波形 与原语音信号波形却相差甚远 这种编码技术可实现低速率语音编码 比特 速率可低至 2 4kbit s 以下 但语音质量中等 自然度较低 即使是熟人一般 也听不出讲话人是谁 线性预测编码 LPC 及其各种改进型都属于参数编 码 基于上述两种编码技术 可对现有的语音编码器作如图 1 1 的分类 语音编码器 波形编码器参数编码器 时域频域LPC声码器 非差分差分SBCATC PCMADPCM CVSDMAPC 增益 图 1 1 语音编码器的分类 1 2 3 混合编码 混合编码是近二十年提出的一种新的语音编码技术 它将波形编码和参 数编码结合起来 既保持了波形编码的高质量和参数编码的低速率的优点 又克服了两者各自的不足 混合编码数字语音信号中既包括若干语音特征参 数又包括部分波形编码信息 其可将比特速率压缩到 4 16kbit s 在 8 16kbit s 范围内能达到良好的话音质量 混合编码技术在现代通信系统中得 到广泛应用 多脉冲激励线性预测 MPE LPT 编码 规则脉冲激励线性预 测 RPE LPT 编码和码激励线性预测 CELP 编码等 都属于混合编码 混合编码技术仍然处于迅速发展之中 目前仍有许多新的编码算法不断出现 1 2 4 信息压缩技术 要实现低速 高质量的语音编码 必须采用信息压缩技术 一般说来 信息压缩技术可分为两大类 波形处理技术和量化技术 波形处理技术的目 标是削减语音波形的冗余度 包括线形预测分析 频带分割 正交变换和分 析合成等 量化技术的目标是在幅度量化上实现优化 包括自适应量化 自 适应比特分配和矢量量化 典型的语音编码方式和信息压缩技术的关系见图 1 2 线性预测 时间分割 频带分割 正交变换 分析合成 残差 脉冲模型化 APC ADPCM SBC APC AB ATC TC WVQ MPC CELP 自适应量化 自适应 比特分配 矢量量化 波形处理技术编码方式量化技术 图 1 2 语音编码方式和信息压缩技术 1 2 5 语音质量的评价 在语音编码技术中 对语音质量的评价是一个重要的问题 语音质量的 高低的直接感受者是听者的主观感觉 所以要客观地对语语音质量进行测量 是一个长期存在的难题 目前 广泛采用的评定方法是所谓的主观评定等级 Subjective Opinion Scale 也称为平均得分 Mean Opinion Score MOS 其 方法是 由数十名试听者在不同信道环境中试听并给予评分 然后对评分进 行统计处理 求出平均得分 分数等级采用五级分制 需要指出的是 听者 对语音质量的主观感觉往往是其注意力集中的程度相联系的 因而 对应于 主观评价等级 还有一个收听注意力等级 Listening Effort Scale 表 1 3 给 出了主观评定等级制的质量等级 分数和相应的收听注意力等级 表 1 3 主观评定等级 MOS 判分质量级别收听注意力等级 5 优可完全松弛 不需要注意力 4 良需要注意 但不需要明显集中精力 3 满意需要中等程度注意力 2 差需要集中注意力 1 劣即使努力去听 也很难懂 实际上 任何语音编码都必须满足质量等级和收听注意力等级两者的最 小要求 而在评价一种编码时 可仅基于质量等级 从用户角度看 通常认为语音质量得分在 4 分和 4 分以上者为高质量语 音编码 达到长途电话网的质量要求 也常称之为网络质量 得分在 3 5 分左右称为达到通信质量的语音编码 这时听者能感到重建话 音质量有所下降 但不影响正常通话 可以满足多数话音通信系统的使用要 求 得分在不超过 3 分者称为合成质量的语音编码 系指一些声码器合成的 语音所能达到的质量 这种语音一般具有足够高的可懂度 但自然度较差 不容易识别出讲话者 1 3 语音编码技术的进展与现状 语音编码技术首先应用于有线通信和保密通信 其中最成熟的实用数字 语音系统是 64kbit s 的 PCM 这是一种典型的波形编码技术 主要用于有线 电话网 它的话音质量好 可以与模拟语音相比 达到网络质量 另一类型 的波形编码是增量调制 Delta Modulation 较简单且能抗误码 当速率从 32kbit s 至 40kbit s 时 语音质量较好 当速率是 8kbit s 至 16kbit s 时 语音 质量较差 还有一种实用系统是 2 4kbit s 的声码器 这是典型的参量编码技 术 优点是速率低 主要应用于军方的保密通信 语音质量仅能达到合成质 量 且对背景噪声敏感 在数字通信发展的推动下 语音编码技术的研究进展迅速 提出了众多 适合于数字移动通信的编码技术 研究的方向主要有两个 一是降低语音编 码的速率 这主要是针对语音质量好但速率高的波形编码 特别是 64kbit s 的 PCM 二是提高语音编码质量 这主要是针对速率低但语音质量较差的参 数编码 特别是对 2 4kbit s 的声码器 波形编码的改进主要有自适应差分 PCM ADPCM 目前中国电信的小灵 通系统的语音编码技术就是 32kbit s ADPCM 子带编码 SBC 自适应变 换域编码 ATC 时域谐波压扩 TDHS 等 这些编码的速率从 9 6kbit s 至 32kbit s 语音质量也较好 这些技术大都利用数字信号处理技术提取某些 语音特征参量来传输 以达到压缩速率的目的 所以 它们已不是单纯的波 形编码 而属于混合编码 参数编码的一项突出进展是提出了矢量量化编码技术 可进一步压缩速 率 为改进参数编码语音质量 提出多脉冲激励线性预测编码 MPE LPC 规则脉冲激励线性预测编码 RPE LPC GSM 系统的语音编码技术 等 它们的速率从 4 8kbit s 至 16kbit s 语音质量可达到中等 这些编码方式已不 再属于单纯的参数编码 属于混合编码 其中 在 CDMA 系统中使用的码本 激励线性预测编码 CELP 也是近年来提出的较好的编码技术 按速率不同可将语音编码器分成两大类 一类是所谓的低速率编码器 速率低于 4 8kbit s 另一类是所谓中速率编码器 速率从 4 8kbit s 至 32kbit s 在语音编码技术的发展中 特别要提及的是数字信号处理器 DSP 的 出现和应用 实际上 很多编码算法在理论上较早就提出来了 由于硬件方 面上的困难 没能应用到实用系统中 DSP 的出现改变了这种状况 许多复 杂算法的实现已成为可能 目前 许多低速高音质编码器都是用 DSP 实现的 248163264 Bad 1 Poor 2 Fair 3 Good 4 Excellent 5 MOS 分 G 728 G 721 G 711 PCM 声码器 速率 kb s 波形编码 混合编码 研究目标 G 711 64kb s PCM G 721 32kb s ADPCM G 728 16kb s LD CELP 图 1 4 语音质量与比特率关系 将各种编码技术的语音质量与比特速率的关系都画在一张图中 可显示 语音编码技术的概貌 见图 1 4 图的横坐标为比特速率 纵坐标为语音质 量的主观评定分数 图中用实线给出了 PCM ADPCM 线性预测编码 LPC 声码器以及混合编码器的质量 速率曲线 虚线给出了研究目标 可以看出 目前语音编码的研究目标是在 4kbit s 至 16kbit s 的速率范围内达到较高的语 音质量 MOS 分为 4 0 如图 1 4 可知 目前研制的混合编码最接近于研 究目标 此外 近年来在数字声广播 消费电子技术以及电话会议迅速发展的推 动下 语音编码也在朝着宽频带高音质声频编码的方向发展 这是语音编码 技术目前一个很重要的发展动向 受到人们的广泛关注 第二章 移动通信特点对语音编码技术的要求 2 1 无线通信信道的条件 在数字移动通信中 由于无线信道的信道特点 会对所传输的数字信号 带来各种影响 造成通信的准确性下降 下面主要讨论无线信道的某些特点 从而总结最适合于无线信道传输的语音编码技术的特点 提高数字移动通信 的准确性 2 1 1 频率资源有限 在移动通信系统中 信道带宽是很珍贵的 如何在有限的可分配的信道 带宽内容纳更多的用户 成为移动业务提供商所面临的问题 低比特率语音 编码提供了解决该问题的一种方法 在编码器能够传送高质量语音的前提下 如果比特率越低 那么在一定的信道带宽内能容纳更多的语音信道 2 1 2 无线信道的衰落 1 慢衰落损耗 它是由于在电波的传播路径上受到建筑物及山丘等的阻 挡所产生的阴影效应而产生的损耗 它反映了中等范围内数百波长量级接收 电平的均值变化而产生的损耗 一般遵从对数正态分布 其变化率较慢故称 为慢衰落 2 快衰落损耗 它主要是由于多径传播而产生的衰落 它反映了微观小 范围内数十波长量级接收电平的均值变化而产生的损耗 一般遵从 Reyleigh 瑞利分布 或 Rician 莱斯 分布 其变化率比慢衰落快 故称它为快 衰落 其中它又可分为以下三类 空间选择性衰落 频率选择性衰落与时间 选择性衰落 所谓选择性是指在不同的空间 不同的频率和不同的时间其衰 落特性是不一样的 慢衰落损耗 尤其是快衰落损耗会引起较高的信道误比特率 因此编码 算法应有较好的抗误码能力 2 1 3 编码技术特点 另外从用户的辨别和舒适角度出发 还应该有较好的语音质量和较短的 迟延 归纳起来 无线通信对数字语音编码技术的要求如下 1 速率较低 纯编码速率要低于 16kbit s 2 在一定的编码速率下语音质量应尽可能高 3 编解码时延应较短 控制在几十毫秒之内 4 在强噪声环境中 算法应具有较高的抗误码性能 以保持较好的话音 质量 5 算法复杂程序适中 应易于大规模电路集成 2 2 激励源与混合编码 从上节所述可知 波形编码速率太高 而参数编码能够实现低速率编码 但语音质量较差 都不适合在数字移动通信中选用 那么就有一种想法 能 不能吸收波形编码语音质量好和参数编码低速率编码这两个优点 提出一种 新的语音编码技术 其中一种思路是改善参数编码的语音质量 参数编码语音质量较差的原因是其激励函数比较粗糙 仅采用清音和浊 音这种简单的激励模型 而实际语音是比较复杂的 这样就失去了许多的信 息 针对这个问题 许多研究者提出了各种改善音质的方法 这些方法不尽 相同 但主要思路是一致的 即构成更精确的激励模型 作为语音合成器的 激励源 很显然 激励源可以从语音波形信号本身来提取 这就构成了声激 励声码器 这种系统包括了两种不同的传输途径 一条路径产生通常的线性预测参 数 线性滤波器系数和增益等 并传送出去 另一条路径滤出波形信号的低 频部分 并进行通常的波形编码传送出去 在接收端的语音合成器中 接收 到的低频语音信号经过适当组合以及平滑处理后作为激励信号输入到数字滤 波器中恢复语音 而数字滤波器由接收到的预测参数所确定 语音信号的低频部分包括所有有关激励源的必要信息 也就是说 在浊 音段 它是周期信号 在清音段 它近似噪音 因此用这种方法产生激励信 号就不需要进行浊 清音判决和基音周期提取 当然 这种方法的代价是为了 精确地描述信号的低频部分 必须在信道中传送更多的信息 因而其码元速 率比一般的 LPC 声码器要高 通常在 4kbit s 以上 已属中等速率编码 由于改善了激励信号 使之含有更多的语音信息 所以声激励声码器的 语音质量改善了许多 并且对于不同的说话者和传输条件 语音质量更加一 致 可以看出 这种改进的参数编码 不但对语音信号的特征参数进行编码 而且对原信号的部分波形进行编码 也就是说 它属于混合编码 由于混合 编码吸收了波形编码和参量编码两者的优点 在编码信号速率和语音质量两 方面都比较好 数字蜂窝移动系统中实用语音编码技术均采用混合编码 采用的激励源 不同 就构成不同的编码技术 GSM 系统中的 RPE LTP 编码技术采用规则 脉冲作激励源 而 CDMA 系统中使用的 QCELP 编码技术采用码本激励的方 法 第三章 GSM 系统中的语音编码技术 3 1 RPE LTP 概述 RPE LTP 是规则脉冲激励长时预测的缩写 是欧洲移动通信特别小组 GSM 在多种技术中经过试验 比较 最后选定的语音编码技术 并作为 GSM 标准予以公布 目前它用于泛欧蜂窝移动通信系统 它的纯编码速率为 13kbit s MOS 得分为 4 0 RPE LTP 采用间隔相等 相位和幅度优化的规则脉冲作为激励信号源 以便使合成波形接近于原信号 这种编码技术由于又使用了长时预测 进一 步消除信号冗余度 使编码速率降低 同时 其算法简单 计算量适中 易 于硬件实现 GSM 系统中的语音信号处理是分段进行的 发送端首先进行语音检测 将每个时间段分为有声段和无声段 在有声段 进行语音编码 产生编码语 音帧 在无声段 对背景噪声进行估计 产生静寂描述帧 SID 帧 发射机 采用不连续发射的方式工作 即仅在包含语音帧的时间段内才打开发射机 SID 帧是在语音段结束时发射的 接收机根据收到的 SID 帧中的信号在无声 段时间内插入舒适噪声 语音编码器的输入信号为速率 8000 样本 秒的语音信号抽样序列 编码处 理是按帧进行的 每帧 20ms 含 160 个语音样本 编码后为 260bit 的编码块 3 2 RPE LTP 编码器 RPE LTP 编码器包括预处理 线性预测分析 短时分析滤波 长时预测 及规则激励码编码等五部分 每部分中又包括若干处理过程 图 3 1 给出了 编码器的原理框图 预加重分帧 LPC分析 滤波器 直流 失调 补偿 自相关 Schur 迭代算法 反射 系数 长时 分析 长时参数 编码器 APCM 逆量化器 RPE网格 位置恢复 对数 面积比 LAR 编码器 LAR 解码器 插值 长时参数解 码器 信号 参数 输出参数 ACF 预处理LPC 分析短时分析滤波长时预测RPE编码 d s0 Z N r LAR r Nb N b e cb MCx maxcx Mx d 加权滤波 器H z APCM 量化器 LAR dLARc cM cN S S d Mx d d e RPE网格 位置选择 LAR 图 3 1 GSM 系统的 RPE LTP 编码器原理框图 各部分的功能介绍如下 1 预处理部分 语音信号进行编码前先要经过预处理 以消除信号中的直流分量并进行 高频分量预加重 预处理的目的是为了更好地进行 LPC 分析 这部分包括了 两个子处理块 偏移补偿和预加重 1 偏移补偿 输入信号通过一个陷波滤波器进行偏移补偿 得到无偏移信号 o S k of Sk 2 预加重 信号经过一阶 FIR 滤波器进行预加重 得到信号再进行分析 of Sk S k 处理 2 LPC 分析部分 预处理之后的信号送入 LPC 分析部分 以便进行线性预测分析参数 S k 的提取 这部分包括五个子处理器 分帧 自相关 Schur 递归 反射系数映 射至对数面积比变换以及对数面积比的量化编码 1 分帧 语音信号被分割为不交叠的帧来进行处理 每帧长度为 S k 0 20Tms 含有 160 个样本 然后 按帧进行 8 阶 LPC 分析 2 自相关 编码器采用自相关法求解 LPC 参数 由信号求出自相关值 S k ACF k 3 Schur 递归 采用 Schur 递归法求解线性方程组 从而由自相关值求出反射系 ACF k 数 在这里 反射系数就是线性滤波器的参数 r i 4 反射系数至对数面积比的映射 研究表明 反射系数是一组稳定的参数 有 但其分布极不均匀 1r i 为了按合理的方式配置固定的量化比特 对其进行变换 变换后的参数称为 对数面积比 对数面积比具有相当均匀的幅度分布 而且参数之间的 LAR i 相关性很小 这对于数字传输十分有利 当采用这组参数时 每个对数面积 比只需要 5 至 6bit 即可保证一定的语音质量 5 LAR 量化与编码 每个对数面积比参数具有不同的动态范围与分布密度 因而在量 LAR i 化时取值范围也是不相同的 表示量化和整数编码后的值 C LARi LAR i 作为参数发送给解码器 同时又送给下一部分 作短时分析滤波用 C LARi 3 短时分析滤波 语音信号的当前帧样本一直保存再存储器中直到完成 LPC 参数的 LAR i 计算 然后这些样本被读出并送到八阶短时分析滤波器中 滤波器系数是前 一阶段 LPC 分析所得到的经过解码 插值及反变换求出来的 滤波 C LARi 结果是 160 个样本的短时残差信号 1 量化对数面积比的解码 这一模块就是将已量化编码的对数面积比参数解码还原成抽样值 LAR i 2 对数面积比插值 为了使处理后语音信号各帧之间能够平滑地衔接 需要对恢复后的预测 参数进行线性插值 这涉及到相邻两帧的参数 经过插值处理后参数为 LAR i 3 对数面积比至反射系数的映射 将经反变换后可以确定反射系数 LAR i r i 4 长时预测 一般来说 经过短时预测就可以了 但是 在 RPE LTP 技术中 又进行 一次长时预测 短时分析滤波器输出的短时残差信号再这里作长期预测 d k LPT 处理 进一步去除冗余度 达到最优化 降低编码速率 在这里 处 理是按子帧进行的 每个帧分为四个子帧 每个子帧含 40 个样本 在每个子 帧中对长时分析滤波器的参数 LTP 滞后和 LTP 增益进行估值和更新 5 规则脉冲编码 长时余量信号被送入这一部分进行规则脉冲激励序列的提取跟编码 e k 此后的处理也是按子帧进行 首先经过加权滤波 然后按 1 3 来抽取其 e k 序列 将一个子帧分成四个子序列 每个子序列中含有 13 个样本 其他样本 均作为零值 选择 4 个子序列中能量最大的一个作为 RPE 脉冲序列 经自适 应 PCM APCM 量化编码后发送出去 选中的 RPE 格点位置 M 和子块中的最 大幅度也被量化编码并发送出去 上面的信息同时回送本地 RPE 解码和 max X 重建模块以恢复长时余量信号 被反馈到长时预测部分 用来恢复 e k e k 短时余量信号 d k 1 加权滤波 每个子帧的 40 个样本首先要通过加权滤波 加权滤波后的信号记 e k 为 x k 2 RPE 网格位置选取 滤波后的信号进行 1 3 抽取 每个子帧分成四个子序列 每个子 x k 序列有 13 个样本 由于在抽取位置上可以有四种不同的非零样点序列 称之 为网格位置 M 将能量最大的子序列的网格位置 M 用 2bit 量化为 M x c M 3 RPE 序列的 APCM 量化 优先选取能量最大的子序列作为规则脉冲激励 RPE 序列被量化 M x 首先找到最大的非零点 将其用 6 比特编码 再将 13 个非零样点做归一化处 理 即最大样值为 1 其他样值均小于 1 将其用 APCM 编码 每个样值各 用 3 比特编码 共编 39 比特 这样 预测误差信号每 20ms 共编码 4 6 39 180 比特 4 APCM 逆量化 这个子块将归一化 RPE 样本的量化值解码 恢复子序列样本 解码过程中要用到最大值 0 12 m xi i max x 5 RPE 网络位置恢复 这个子块根据已解码的 RPE 样本值和最佳网格位置来恢复长 m xi c M 时余量信号 重构的被送回长时预测部分 以恢复短时余量信号 e k e k d k 综上所述 编码器输入信号为每帧 160 个样本 每个样本是 13bit 所 以每帧总比特数为 经过编码处理后 每帧为 260bit 每帧中160 132080 编码信息的比特分配见表 3 2 表 3 2 每帧比特分配 参 数数量比特 参数比 特 数 LPC系数 LTP增益 LTP滞后 RPE网格位置M 最大值 RPE样本值 LAR i j b j N max x 合计 8 4 4 4 4 52 3 4 5 6 2 7 2 6 3 36 8 28 8 24 156 260 3 3RPE LTP 解码器 RPE 解码器的原理图见图 3 3 解码器包含四个部分 RPE 解码 长时预 测 短时合成滤波及后处理 其中大部分处理子块在编码器也要采用 前面 都已介绍过 只有短时合成滤波器和去加重滤波器是新的子块 在图 3 3 中 有关的量和参数都增加了下标 r 以区别于编码器中相应的量和参数 1 RPE 解码部分 这部分包括 APCM 逆量化和 RPE 网格位置恢复 从接收到的信息 Mcr 和中恢复出长时余量信号 maxcr x mcr xi r ek APCM 译码器 插值 LAR 译码器 去加重 N Z 参数 接收参数 信号 rc M cr b cr N cr LAR r s ro s r e r d r d 译码预处理长时预测短时综合滤波后处理 LTP参数 译码器 RPE网格 位置恢复 maxcr x mcr x r b r N r LAR r LAR r r 短时合成滤 波器1 A z 反射系统 图 3 3 GSM 系统的 RPE LTP 解码器原理框图 2 短时合成滤波部分长时预测部分 重构的长时余量信号送给长时合成滤波器进行处理以恢复短时余量 r ek 信号供短时合成器使用 r dk 短时合成滤波器得系数从接收到的经过解码 插值 求反射系数 cr LARi 等子块处理后得到的 它的输入为短时余量信号 输出为未加去加重的 r dk 合成语音信号 r s k 3 后处理 合成滤波器输出信号被送到 IIR 去加重滤波器进行处理 恢复出原 r s k 来的语音信号 0r s 第四章 IS 96 系统中的语音编码技术 4 1 QCELP 概述 IS 96 CDMA 系统语音编码采用 QCELP 技术 即码激励线性预测的可变 速率混合编码技术 这种编码技术以线性预测编码为基础 使用码表矢量量 化差值信号 算法基于码激励线性预测 CELP 的编码模式 它的特点有 根据信号能量和背景噪音动态调整编码速率 属于变速率编码 在基本不影 响语音质量的前提下 能够明显地降低数据的平均速率 自适应码本搜索采 用开环基音分析与闭环搜索相结合的模型 固定码本采用循环递归结构 减 少了码本搜索的计算量和存储空间 QCELP 语音压缩编码算法有 8k 和 13k 两种 在这里主要讨论在 IS 96 中 使用的 8k QCELP 它的合成语音质量没有 13kQCELP 高 但平均速率低 8kQCLEP 对输入的信号用 8kHz 采样 16 比特线性 PCM 量化 每 20ms 分为一个语音帧 每帧包括 160 个样本点 对这些样本点可以选择以下四种 速率中的任一种进行编码 全速率 1 2 速率 1 4 速率 1 8 速率 8kQCELP 将每一帧又分为 LPC 子帧 基音子帧和固定码本子帧 编码速率不同 每帧 中各子帧的数目 包含的样本点及其参数编码所占比特数也不相同 具体分 配见表 4 1 8k QCELP 对每帧语音信号进行分析 确定该帧的编码速率 并提取各种 参数 线性预测滤波器系数 基音延迟 基音预测增益 固定码本索引 或 随机数种子 固定码本增益 然后将这些参数打包发送出去 在解码端 从 接收到的比特流中恢复出各个参数 用固定码本索引从固定码本中得到固定 码矢 或用随机数种子得到伪随机矢量 乘以固定码本增益得到激励序列 用基音参数构成基音合成滤波器 用线性预测滤波器系数构成 LPC 合成滤波 器 激励序列依次通过基音合成滤波器 LPC 合成滤波器计算出合成语音 最后用后置滤波器进一步增强音质 表 4 1 8k QCLEP 速率与各帧更新 所占比特的关系 参 数全速率1 2速率1 4速率1 8速率 每个LPC子帧包含的样本数 1111每帧的LPC子帧数 每个LPC子帧参数编码所占比特数 每帧的基音子帧数 每个基音子帧包含样本数 每个基音子帧参数编码所占的比特数 每帧的固定码本子帧数 每个固定码本子帧包含的样本数 每个固定码本子帧参数编码所占比特数 A L p L c L 160 20ms 160 20ms 160 20ms 160 20ms 40201010 4210 40 5ms 80 10ms 160 20ms 101010 8421 20 2 5ms 40 5ms 80 10ms 160 20ms 1010106 1 8 速率用伪随机激励代替固定码本 6 比特包括 4 比特码本种子和 2 比特码本增益 4 2 8k QCELP 编码器 自适应码本 固定码本 固定码本 搜索 自适应码 本搜索 参数 编码 知觉加权 LPC合成 滤波器 线性预测分析 和量化插值 预处理 速率判决 原始语音信号 速率1 8 速率1 4 速率1 2 全速率1 LPC参数 发送比特流 LPC参数 固定码本参数 基音参数 LPC参数 p G c G 图 4 2 8k QCELP 编码原理框图 8k QCELP 编码器包括预处理 线性预测分析和量化 知觉加权 速率判 决 自适应码本搜索 固定码本搜索 编码器的存储器更新 空帧和参数格 式化输出等九个部分 其中每部分又包括若干处理过程 图 4 2 给出了 8k QCELP 编码器原理框图 1 预处理 输入信号按 8kHz 抽样后 将其分成许多 20ms 160 个样本点 长的帧 预处理主要是对输入信号帧去除直流分量和加窗 8k QCELP 速率判决算法用 每帧样本点的第一个自相关系数来估计该帧信号的能量 信号中的直流分量 会使信号能量过大 导致速率判决算法失效 因此 需要去除输入信号中的 直流分量 8k QCELP 采用汉明窗 长度为 160 个样本点 窗的中心位于每帧的第 139 和第 140 个样本点的中间 2 线性预测分析和量化 8k QCELP 用 10 阶线性预测 LPC 合成滤波器做短时分析 LPC 合成 滤波器的传输函数为式 4 1 4 1 1 11 1 p i i i A z a z 10p 其中 为短时线性预测误差滤波器 是 1 1 p i i i A za z 1 2 10 i a i 线性预测系数 LPC 系数 线性预测分析的目的就是求出 10 个 LPC 系数 将其转换成 LSP 参数 在 LSP 域内进行量化和内插 3 知觉加权 知觉加权滤波器是基于量化 LPC 系数 其传输函数为式 4 2 4 2 10 1 10 1 1 1 i i i ii i i a z A z W z A z az 其中 为线性预测误差滤波器 LPC 参数是由当前子帧 A z 1 2 10 i a i 内插后的 LSP 参数转换而来的 加权因子 0 8 4 速率判决 8kQCELP 声码器有四种速率 全速率 1 2 速率 1 4 速率 1 8 速率 声码器利用速率判决算法 RDA Rate Decision Algorithm 来选择速率 即 根据语音信号能量和背景噪声动态地调整编码速率 因而能够在不牺牲话音 质量的前提下显著地降低数据的平均速率 1 估计语音信号能量 8kQCELP 声码器利用当前第 帧输入信号的第一个自相关系数估计i 0 i R 其能量 2 确定三个门限 8k QCELP 声码器根据背景噪声确定三个门限 每一帧数据速率判决之 前都要更新这三个门限 当前第 帧的背景噪声电平由式 4 3 估计 i i B 4 3 111 min 0 16000 max 1 00547 1 iiii BRBB 其中 min x y z 是取 x y z 中的最小值 max x y 是取 x 和 y 的最大值 第一 帧的背景噪声估计值初始化为 16 000 如果编码器没有话音输入 当编码 i B 器重新有话音输入时 则背景噪声要重新初始化 这样做是为了防止语音输 入前的无声被当作低噪声背景而使编码出错 如果背景噪声电平 则按式 4 4 计算三个门限 160000 i B 4 4 62 1 52 2 52 3 5 0544613 10 4 047152362 1 529733 10 8 7500451136 3 957050 10 18 899623347 iii iii iii T BBB T BBB T BBB 如果背景噪声电平 则按下式计算三个门限 160000 i B 4 5 62 1 72 2 72 3 9 043945 10 3 53574862071 1 986007 10 4 941658223951 4 838477 10 8 63002645864 iii iii iii T BBB T BBB T BBB 3 根据信号能量和门限决定数据速率 当前帧的语音信号能量由下式计算 4 6 159 0 0 ww m Rsm sm 其中是当前帧加窗后的语音信号 w sm 如果信号能量大于三个门限值 则选择全速率 如果信号能量大于其中 两个门限值 则选择 1 2 速率 如果信号能量大于其中的一个门限值 则选择 1 4 速率 如果信号能量比三个门限值都小 则选择 1 8 速率 另外 速率判决还必须遵循以下的原则 A 每一帧的速率只能比前一帧降低一阶 即如果前一帧速率为速率 1 而当前帧的数据速率判决为 1 4 或 1 8 速率 则当前帧应为 1 2 速率 依此类 推 B 若声码器被要求不能产生全速率的数据包 而根据速率判决确定为全 速率 则它产生一个 1 2 速率的数据包 C 如果声码器被要求产生一个空数据包 无论根据速率判决确定的速率 为多少 它都将产生一个空数据包 5 自适应码本搜索 每一个语音帧都被分成了等长的基音子帧 根据表 4 1 可知 1 8 速率 没有基音子帧 不同速率的基音子帧也不同 全速率有四个基音子帧 1 2 速 率有两个基音子帧 1 4 速率有一个基音子帧 每一个基音子帧进行一次的自 适应码本搜索 自适应码本搜索采用合成分析的搜索方法 寻找最佳的基音 延迟和基音预测增益 使得这些参数合成的语音信号与输入语音信号之间的 知觉加权误差最小 基音延迟和基音预测增益每基音子帧更新一次 6 固定码本搜索 除了 1 8 速率的语音帧以外 每一个基音子帧包含两个等长固定码本子帧 8kQCELP 采用中心削波的高斯随机码本 固定码本搜索的目的就是寻找码本 索引和码本增益 1 8 速率时 每帧只有一个有 160 个样本点的固定码本IG 子帧 只需确定一个码本索引和一个码本增益 1 8 速率并不采用码本索引所 确定的码矢量作为激励 而是用由随机数种子产生的伪随机码矢量代替固定 码本 最后编码传送的参数为码本增益和随机数种子 固定码本中共有个码矢量 M 7 采用循环递归结构 即某一码本矢2M 量是由前一码本矢量右移移出一个样点 左边补进一个样点而得到的 例如 全速率时固定码本子帧长度 码矢量维数 为 20 则第一个码矢量为 c L 第二个码矢量为 第 0 0 1 19 c nccc 1 127 0 18 c nccc 三个码矢量为 依此类推 因此 这样的 2 126 127 0 17 c ncccc 码本可以存储个码矢量 为了减少计算量 8kQCEL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高压电工技师考试题库:高压绝缘技术现场施工合同管理策略解析试题
- 2025年特产食品项目立项申请报告
- 2025年装卸机械项目规划申请报告
- 农村生物技术农业种植服务协议
- 2025年辅导员招聘考试题库:教育心理学科研究方法应用前景研究分析探讨试题
- 2025年福建泉州市事业单位招聘考试卫生类中医学专业知识试卷
- 2025年智能燃气表项目申请报告
- 网络游戏对青少年的影响议论文11篇范文
- 2025年电梯安装维修人员考试试卷:电梯机械部件故障分析与排除案例分析试题
- 2025年电子商务数据可视化与分析测试试卷
- 大学生医学健康科普演讲
- 2025国开电大《管理英语1》综合测试形考任务答案
- 冶金天车作业安全培训
- 广东省深圳市2021-2022学年高一下学期英语期末调研考试(含答案)
- 《马克思主义基本原理概论》课后思考题及答案
- 公益岗考试试题及答案
- 2025届成都市新都一中高三一诊考试英语试卷含答案
- 煤炭行业的企业战略布局与资源整合考核试卷
- 电动二轮车租赁合同协议
- 电梯维保合同分包协议
- 静脉血液标本采集指南
评论
0/150
提交评论