




已阅读5页,还剩115页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音编码( speech coding)概述语音信号压缩编码的原理及其评价系统语音信号的波形编码语音信号的参数编码语音信号的混合编码概述一、编码(压缩)的重要性二、编码速率(信息容量)三、编码的分类四、已经标准化的语音编码编码、传输、存储和译码是语音数字传输和数字存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。一、编码(压缩)的重要性数字传输系统模型信源 信源编码 信道编码 调制传输通道用户 信源解码 信道解码 解调噪声语音编码应用实例( IP电话)接收器 模数转换 压缩编码 IP封装网络IP解包解码数模转换播放器二、编码速率(信息容量)用比特 /秒( b/s或 bps) 来度量,用 I表示,有:I=R fs ,R代表每个语音采样值编码所需的比特数; fs是采样频率。当 fs=8kHz, 每个采样值用 8比特位来编码,则编码速率为 64kb/s。三、编码的分类1.波形编码 (waveform coding): 基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率高。如 PCM编码类( a率或 u率 PCM、 ADPCM 、 ADM), 编码速率为 64 16kb/s, 语音质量好。2.参数编码(声源编码 parametric coding) :根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测( LPC) 编码类。编码速率低, 2.4-1.2kb/s, 自然度低,对环境噪声敏感。3.混合编码 (Hybrid coding):将波形编码与参数编码相结合,在 2.4-1.2kb/s速率上能够得到高质量的合成语音。规则码激励长时预测编码 RPELPT 即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点。四、已经标准化的语音编码指定组织:国际电信联盟 ITU-T, 标准 编码速率(kb/s)算法 MOS得分应用G.711 64 u律或 a律 PCM 4.3 公用网 G.721 32 ADPCM 4.1 公用网G.723.1 5.3 ACELP 3.2 无线网G.729 8 CS-ACELP 3.8 无线网GSM 13 RPE-LTP 3.9 无线网(5)RPE-LTP: 长时预测的规则脉冲激励的线性预测 Regular-Pulse Excited LPC with a Long-Term Predictor(1)ADPCM: 自适应差分脉冲编码 adaptive difference pulse code modulation(2)CELP: 码本激励线性预测 ( code excited linear prediction)(3)ACELP: 代数码本激励线性预测 Algebraic-Code-Excited Linear-Prediction(4)CS-ACELP: 共轭结构的代数码本激励线性预测Conjugate Structure Algebraic-Code-Excited Linear-Prediction语音信号压缩编码的原理及其评价系统一、语音压缩的基本依据二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法一、语音压缩的基本依据是语音信号的冗余度和人的听觉感知机理。1.存在的时域冗余度:( 1)幅度非均匀分布( 2)语音信号样本间的相关性很强( 3)浊音具有准周期( 4)声道的形状及其变化缓慢( 5)语音间隙(静止系数)2.存在的频域冗余度:( 1)非均匀的长时功率谱密度( 2)短时功率谱密度女声英文 a的功率谱3.人的听觉感知机理( 1)人类的听觉特性具有掩蔽效应( 2)人耳对不同频段声音的敏感程度不同( 3)人耳对语音相位不敏感4. 语音编码的极限速率语音中最基本的元素是音素,大约有 128 256个,如果按通常的说话速度,每秒平均发出 10个音素,则信息率为: I=log2(256)10bps=80bps把发音看成是以语音速率来传送,则语音编码的极限速率为 80bps,从数字化标准的编码速率 64kbps, 到极限速率 80bps, 之间的距离,对于理论研究和实践有着极大的吸引力。二、语音编码的关键技术语音信号中存在两种类型的相关性:( 1)样点间的短时相关性( 2)相邻基音周期之间的长时相关性e(n)x(n)短时预测滤波器1. 语音信号的短时预测模型D为基音周期,长时预测系数 bi的个数取 1(q=r=0)或 3(q=r=1)。 D、 bi 从语音信号中直接提取。语音信号通过长时预测,得出基音周期、增益(振幅大小)。2.语音信号的长时预测语音信号的长时预测 长时 线性预测x(n-p),x(n-p+1),.x(n-1) x(n)长时预测滤波器x(n)e(n)激励发生器完整的语音信号的预测模型3.感觉加权滤波器由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的误差时,在高能量段允许误差大,因此引入一个频域的感觉加权滤波器 W(z)来衡量语音之间的误差。加权因子 在 0 1之间 ,控制共振峰区域的误差增加 。输入语音x(n)线性预测分析感觉加权滤波器后继处理三、语音压缩系统的性能指标和评测方法1.语音压缩系统的性能指标( 1)编码速率( 2)编码器的顽健性( 3)编码器的时延( 4)算法的复杂度和可扩展性编码延时一般地,编解码算法越复杂,延时越大,会明显感觉到通话对方反映 “ 迟钝 ” ,甚至造成正常通信困难。另外一方面,延时造成回声,传统的电话系统中,在 2-4 线的转换处(混合线圈)因阻抗不匹配,导致接收者的收话音信号泄露到其发送路径上,返回给发送者,形成了回声。当延时小时,回声同房间交混,因此感觉不到;当延迟超过了 25ms, 能明显感觉到,从而严重影响通信。一般地,要求编解码延时不超过 5 10ms。A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论