第5讲语音编码.ppt

上传人：1*** IP属地：浙江上传时间：2020-08-05 格式：PPT 页数：29 大小：451.01KB 积分：20 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、回声的产生,在实时通信中，回声是不可避免的，A端发送的声音在B端放出后，会随着B的声音再传送到A端，形成回声。当A-B间延时很小，则A的回声与A语音近似重叠，人耳无法分辨。在PSTN网中，对于普通的市话呼叫，就属于这种情况。如果A-B延时较大，则回声和语音就能被人耳所分辨，形成干扰。卫星电话和IP电话就属于这种情况,A,B,Echo of A,Vout,Vin,回声的分类,分为声回声(Acoustic Echo)和线回声(Line Echo) 声回声：Vout播放出来，经空气传播，通过直射、反射等各种方式，形成Vin。声回声形成复杂，回声路径多样化，回声延时较大。线回声：在公用电话网中，干

2、线传输采用4线方式（收、发各两线），而到交换局和电话终端之间，则采用2线方式（收发语音合并）。在2-4线转换过程中，由于阻抗匹配的问题，总会有些语音直接回传到发端，形成回声。这种回声路径比较固定（就是2-4线转换器），回声延时也比较小。,线回声抵消技术,对于Line Echo，由于回声路径固定，回声延时较小，一般采用自适应滤波技术，用一个滤波器来模拟回声路径，并将滤波器输出与实际的采样语音相减，从而抵消掉回声。,128阶滤波器，可抵消16ms的回声。一般采用LMS算法估计滤波器系数。,声回声抵消技术,与Line Echo相比，Acoustic Echo的回声路径更加复杂，而且路径的时变性更大，

3、因此LMS算法已无法及时跟踪。而且由于回声延时很大，如果继续采用线性滤波器，则运算量将大幅增加。首先要选择更好的自适应滤波算法，有更快的收敛速度。其次要采用一些特殊的滤波器结构，以减小运算量。还可以采用多点语音输入输出方式，利用他们的空间相对位置进行计算。,在多媒体通信中的应用,和公用电话网相比，基于Internet的语音通信有巨大的延时。编解码延时（10-30ms）网络延时（几十至几百ms）处理延时（取决于处理器，一般几ms）因此收发两端延时往往能达到上百ms，必须采用回声抵消技术。在端对端通信中，一般采用线回声抵消，在会议通信中，一般采用声回声抵消。,语音降噪,在一些恶劣的通信

4、环境下，往往通话中含有极大的噪声（如坦克之间的通信），对通信造成很大的影响。噪声和语音在特性上有很大的不同。可以利用这些特征，将噪声和语音分离，再单独对语音作编码。语音的例子，噪音的例子。语音编辑处理软件CoolEdit2000,噪音和语音的特征,过零率：噪音的过零率高，而语音的过零率低。基因周期：噪声没有周期性，而语音有比较明显的周期特征。短时能量：噪声的短时能量稳定，语音的短时能量变化较大。,增益控制,在企业的会议通信中，两个Group之间的会议是很典型的应用。此时一个Group中的每个成员，距离通信终端的距离都不同。自动增益控制（AGC）通过检测输入信号的能量，并进行调整，使

5、得发送到对端的语音信号能量基本相同，让对端有一个较好的听觉效果。,增益控制（二）,增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢，比较稳定。短时能量变化虽然快，但对于每个音节来说，相差不大。因此由于距离调整所引起的短时能量变化，如果向长时能量逼近，则可以保持语音能量的平稳性。对于更复杂的增益控制算法，应考虑对噪声放大所产生的问题。,语音压缩,声音的分类语音编码的性能评价指标和国际标准语音的特点和模型几种基本的语音编码技术 CELP编码模型的分析,声音的分类,语音 (Telephone Speech) ，2003400Hz，8KHz采样，主要应用于数字电话波形编

6、码参数编码混合编码宽带语音（Wideband Speech）， 507000HZ 16KHz采样，主要应用于会议电视，相当于调幅广播质量音频(Audio) ，10-20000Hz，主要应用在娱乐与欣赏对于重建信号的音质有很高的要求，目前采用比特率较高的波形编码技术进行压缩。,语音编码性能指标,1. 编码速率（KBPS、KB/S）信号带宽：2003400Hz、507000Hz、1020000Hz 采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s） 2. 编解码延时公用电话网510ms，移动蜂窝网不超过100ms 3. 算法复杂度和可扩展性用MIP

7、S衡量，现在的DSP运算能力达到几百上千MIPS。G729和G729A，可扩展性的例子。 4. 抗误码，抗丢包的能力 5. 鲁棒性对不同音源，不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。,语音编码性能评价,1. 编码速率（KBPS、KB/S）信号带宽：2003400Hz、507000Hz、1020000Hz 采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s） 2. 重建语音质量客观评价：信噪比主观评价：MOS分（1-5分） 3. 编解码延时（ms） 4. 算法复杂度 5. 抗误码，抗丢包的能力，多次编码解码后语音的质量,语音编码质量评价

8、（一）,可懂度评价：判断韵字测试，改进韵字测试音质评价：MOS（Mean Opinion Score), DMOS(Degradation MOS),语音编码的速率、复杂度和语音质量有着相互制约的关系。速率和复杂度都有客观的评价标准，而语音质量更多的是主观感受。主观评价方法：可懂度评价和音质评价。可懂度反映对语音内容的识别程度，音质包括语音的自然度和讲话人的可识别性。音质高-可懂度高；反之不一定成立。,语音编码质量评价（二）,时域测度信噪比(SNR)，分段信噪比。越大越好。频域测度对数谱距离，倒谱距离，Mel谱。越小越好,主观评价方法的执行受人员的很大制约，受到测试者的内在的不可重复

9、性的影响，而且无法直接反映出系统参数的一些影响。为此需要客观标准。一般采用下图进行客观质量评价，其关键点是同步。,一些语音编码标准,发声特点,时变性，短时不变性发声器官：喉（激励），声道（滤波器），嘴清音与浊音，声母与韵母,发声模型,周期脉冲发生器,声门脉冲模型G(z),声道模型 V(z),辐射模型 R(z),随机噪声发生器,X,X,基音频率F0,声道参数,Av,Av,语音,语音编码技术的分类,有损压缩波形编码：主要基于语音波形预测，目标是使重建语音波形保持不变。语音质量好，简单易实现，但编码速率较高。参数编码：通过语音信号的数学模型提取语音的参数并编码，目标是使重建信号尽可能保

10、持原信号的语意。一般我们称之为声码器。一般用于4.8kb/s以下的低速信道。混合编码：结合波形编码的高质量和参数编码的低码率，被广泛采用。,波形编码,PCM：对每个样点独立编码，利用非均匀量化，将每个样点编码为8比特。 DPCM：利用相邻两个样点的相关性，对相邻样点的差值进行编码，这样减小了编码数据的动态范围，用较少的比特就可以得到同样的量化误差。 M：类似DPCM，但只用一个比特对差值进行编码，因此需要较高的采样率。以上编码方法都属于波形编码，其特点是对采样点逐点处理。,参数编码（一）,由于人的发声器官的特点，发声过程可以被抽象为一定的模型。参数编码就是将实际语音信号作为模型输出，去求模

11、型输入与模型参数，并将其作为编码结果。语音存在周期性，为了提取该周期，需要的语音数据长度至少要大于一个周期。一般选10ms的倍数，最低为10ms。,参数编码（二）,重要的语音参数：基因频率：语音时域波形周期性信号的频率。男性一般是60-200Hz，女性和儿童是200-450Hz。共振峰：频谱中的凸起点。与声道的谐振频率相对应。短时过零率：单位时间内，语音信号过零点的次数。短时能量：短时自相关函数：,混合编码,参数编码得到的解码语音，和原始语音相比，有较多的损伤，原因是模型的参数无法控制语音的所有特性。因此，为了得到较高质量的解码语音，必须引入波形编码的一些技术。事实上，语音的激励

12、信号中的固定码本，就是利用大量实际语音统计得到的。,预测编码(一),由于语音信号存在关联性，可利用前面的一个或多个信号对下一个信号进行预测，得到预测值，然后将实际值和预测值求差，并对差值信号进行编码传送。由于差值信号的动态范围很小，用较少的比特就可以精确的量化，从而压缩数据。线形预测编码(LPC, Linear Predictive Coding) 采样值为f(n)，预测值为f(n)。差值为e(n)=f(n)-f(n).,预测编码(二),调制与DPCM 调制是PCM的变形，是对实际采样信号与预测信号差值的极性进行编码。若差值大于量化阶，输出为1，否则输出0，每个样点编码为1个比特。当输入信号变化过快，就会出现斜率过载。 DPCM，用上一个样点值作为本次样点的预测值，对差值进行编码。,CELP编码,采用分帧技术，帧长20-30ms。基于合成分析(A-B-S)的搜索过程，感觉加权矢量量化和线性预测技术。CELP一般将每一帧语音分为2-5个子帧，在每个子帧内搜索最佳的码矢量。,CELP编码模型,固定码本,自适应码本,+,线性预测滤波器 1/A(z),感觉加权滤波器 W(z),+,最小感觉加权误差,gs,ga,码本的获得,固定码本：经过大量语音的统计获得自适应码本：随着输入语音的变化而变化，编解

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第5讲语音编码.ppt

文档简介

温馨提示

最新文档

评论

第5讲语音编码.ppt

文档简介

温馨提示

最新文档

评论

相关文档