(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf_第1页
(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf_第2页
(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf_第3页
(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf_第4页
(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(通信与信息系统专业论文)itut+g7231语音编码器的分析与优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 2 1 世纪的通信将为人们提供高效快捷的多种形式信息交换。其中,通过语 音传递信息是人们最重要、最有效和最方便的通信和交流方式,语音通信在现代 数字通信系统中占有重要的地位。随着信息社会的快速发展,通信信道资源变得 越发宝贵,各种语音压缩编码技术应运而生,在移动通信、i p 电话、多媒体信 息传输、保密话音通信等领域发挥着重要作用。多种语音压缩编码的国际标准相 继出台,大大推动了语音编码器及其应用的发展,中低速语音编码已成为数字通 信中的一个重要研究领域。 本文介绍了国际电信联盟( i t 功制定的g 7 2 3 1 双速率( 5 3 6 3 k b p s ) 语音多媒 体通信编码建议,对其中基本编解码模块进行了分析和算法设计:基于合成分析 的方法,预测信号的变化趋势,对实际信号与预测信号之差用一段脉冲信号通过 合成滤波器进行模拟,在误差最小时将滤波器系数、脉冲位置和幅度等参数编为 一个比特流传送,采用代数码本激励线性预测和多脉冲极大似然量化在软件平台 实现了语音的压缩和恢复,验证了算法的可行性。 在此基础上,对算法效率进行了分析,对运算复杂度较大的几个模块( 基因 分析、自适应码本搜索和固定码本搜索等) 进行了优化设计和软件实现,详细介 绍了算法优化的关键技术,并采用g 7 2 3 1 建议的测试矢量对优化算法进行了测 试验证。 最后通过语音测试表明优化算法能够满足语音通信的实时性要求,在有限的 复杂度情况下最优化的表示了语音信号,且能较好地恢复语音。合成语音具有良 好的自然度和抗噪能力,证明了该算法可以推向实际应用。 关键词:语音编码合成分析代数码本激励线性预测多脉冲极大似然量化 a b s t r a c t i n21c e n t u r y , c o m m u n i c a t i o ns h o u l ds u p p l ya l lk i n d so fw a y st os a t i s f yp e o p l e s n e e di ne x c h a n g i n gi n f o r m a t i o na v a i l a b l y a ss p e e c hi st h em o s ti m p o r t a n t ,e f f i c i e n t a n dc o n v e n i e n tw a yi nc o m m u n i c a t i o n s ,s p e e c hc o m m u n i c a t i o nh o l d st h ei m p o r t a n c e i nm o d e r nd i g i t a lc o m m u n i c a t i o ns y s t e m t h ef r e q u e n c ys o u r c eh a sb e c o m em o f ea n d m o r ev a l u a b l ew i t ht h ed e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , s om o r ea n dm o r es p e e c h c o m p r e s sc o d i n gt e c h n o l o g i e sc o m ei n t ob e i n gt od e c r e a s eb i tr a t ei nt r a n s m i s s i o n , a n dp l a ya l li m p o r t a n tr o l ei nm o b i l ec o m m u n i c a t i o n , v o i c eo v e ri p , m u l t i m e d i a i n f o r m a t i o nt r a n s m i s s i o n , s e c r e c yc o m m u n i c a t i o n ,e t c m a n yi n t e r n a t i o n a ls t a n d a r d s o fs u c hs p e e c hc o d e ch a v eb e e ns e tu p ,a n dt h el o wb i tr a t es p e e c hc o d i n ga n di t s a p p l i c a t i o n sh a v eb e c o m et h em a i nf i e l df o rr e s e a r c h t h i sp a p e rf o c u s e so nt h ep r i n c i p l e so fi t u - tg 7 2 3 1d u a lr a t es p e e c hc o d e c s t a n d a r d ,w i t ha n a l y z i n ga n da l g o r i t h md e s i g no ft h em a i nm o d u l e s b a s i n go i l a n a l y s i s - b y - s y n t h e s i s ,i m p l e m e n t e d t h e s p e e c hc o m p r e s s i n ga n dd e c o d i n gb y a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ( a c e l p ) a n dm u l t i p u l s em a x i m u m l i k e l i h o o dq u a n t i z a t i o np r i n c i p l e s ,a n dp r o v e dt h ea l g o r i t h mt ob ef e a s i b l e b a s eo nt h a t ,t h ep a p e rp u t sf o r w a r dt oo p t i m i z et h em o d u l e sw i t hl a r g e c o m p u t a t i o n a lc o m p l e x i t y , s u c ha sp i t c he s t i m a t i o nm o d u l e t h ea d a p t i v ea n df e d c o d e b o o kr e s e a r c hm o d u l e s ,a n dd e s c r i b e si n d e t a i lt h es o f t w a r ed e s i g na sw e l la s s o m ek e yt e c h n i q u e si np r o g r a m m i n go p t i m i z a t i o n u s i n gt h et e s tv e c t o r sf r o mt h e r e c o m m e n d a t i o ng 7 2 3 1 ,t h eo p t i m i z e da l g o r i t h mh a sb e e nt e s t e da n da n a l y z e d i nt h ee n d ,t h ep a p e rp r e s e n t st h es p e e c ht e s t i n go ft h eo p t i m i z e da l g o r i t h mt o m e e tt h er e a l t i m en e e do ft h es p e e c hc o m m u n i c a t i o n t h et e s t i n gr e s u l t ss h o wt h e o p t i m i z e da l g o r i t h mc a nr e p r e s e n tt h es p e e c hw i t hah i g hq u a l i t yu s i n gal i m i t e d a m o u n to fc o m p l e x i t y t h ed e c o d i n gs i g n a l ss h o wag o o dm e a no p i n i o ns c o r ea n d r o b u s t n e s s ,a n dp r o v e dt h ec o d e ct ob ep r a c t i c a la p p l i c a b l e k e y w o r d s :s p e e c hc o d i n g ,a n a l y s i s b y s y n t h e s i s ,a c e l p , m p - m l q 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得:苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:吗岛屯钎 签字同期: 2 。口7 年2 月同 学位论文版权使用授权书 本学位论文作者完全了解丕鲞盘堂有关保留、使用学位论文的规定。 特授权玉盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 秘匕莳 签字r 期:2 d 9 7 年月2 r 导师躲f 黝孑多之 签字同期:劢7 年沙月z 自 第一章绪论 1 1 研究的应用背景 第一章绪论 语言是人类进行思想交流的传播媒体和重要工具,是人们进行相互通信的最 方便快捷的手段。在高度发达的信息社会,数字化的语音传送、储存、识别、合 成和增强等是整个数字通信网中最重要、最基本的组成部分之一。 随着通信、计算机网络技术的飞速发展,日益增加的客户需求量与现有通信 信道容量之间的矛盾日益突出,信息传输中的频带资源变得越发珍贵。如何在现 有的频道资源条件下通过压缩信源传送更多的信息,已成为当代急需解决的问题 之一。语音压缩编码技术和相继出现的语音压缩标准,为多用户高质量的信息传 输提供了一种有效方法。在通信系统中,语音编码技术在很大程度上决定了接收 语音质量和系统容量,如移动通信系统中,在一定的带宽和语音质量前提下,比 特率降低,就可以容纳更多的语音通道,使高效的信息传输成为可能。从现代语 音编码技术的发展来看,国内外的研究注意力都集中在中低码速语音编码的实用 化上,目前的努力方向主要为进一步降低码速率和提高其抗干扰、抗噪声能力, 以期进一步提高系统利用率,满足越来越多的用户需求。 语音信号处理涉及一系列前沿科研课题,是目前发展最迅速的信息科学研究 诸领域中的一个,众多科研者在寻求更低码率、更高质量和更低复杂度三者之间 的平衡中不断推进着语音编解码技术的发展。从最早的标准化语音编码系统 ( 6 4 k b p s 的p c m 波形编码器) ,到9 0 年代中期速率为4 8 k b p s 的混合编码器,以 及2 4 k b p s 的低速率编码器,在性能和实用化方面都不断提高并广泛应用于保密 通信、个人移动通信、语音邮件、i p 电话、数字卫星等系统中。随着通信用户 数的迅速增加,语音编码今后的研究重点将逐步转向更低速率的编码方法,以满 足通信系统的不断扩容。 从1 9 8 5 年b s a t a l 和m r s c h r o e d e r 提出了码本激励线性预 贝! j ( c e l p ) 算法 以来,闭环分析算法( l p a b s ) 成为主流,l o 年间产生了3 个国际标准,分别是: c c i t t 公布的g 7 2 8 16 k b p s 短时延码激励线性预钡j j ( l d c e l p ) 编码标准,g 7 2 3 5 3 6 3 k b p s 代数码本激励线性预澳i ( a c e l p ) 多脉冲极大似然量化( m p - m l q ) 双速 语音编码标准,g 7 2 9 8 k b p s 共轭结构代数码激励( c s a c e l p ) 语音编码标准;2 个地区性的标准为:北美蜂窝电话工业组织( c t u a ) 公布的i s 一5 4 中8 k b p s 矢量和 随机激励线性预测( v s e l p ) 语音编码方案,欧洲电信管理局公布的g s m 中 第一章绪论 1 3 k b p s 规则脉冲激励长时预测( 1 溉一l t p ) 语音编码方案:2 个国家标准为:美国 国防部公布的4 8 k b p s c e l p 联邦标准( f s 1 0 1 6 ) 和日本公布的6 7 k b p s v s e l p 标 准,以及国际海事卫星组织( i n m a r s a t ) 与1 9 9 0 年公布的4 1 5 k b p s 改进多带激励 ( i m b e ) 语音编码标准。 从信息论的角度分析,语音压缩的潜力还很大。语音中最基本的单位是音素, 假设相邻的音素不相关,按照香农信息理论,每一个音素需要的平均比特数为: j = 一p ,l o g :( 鼽) f 英文音素有4 2 个,汉语的音素有4 8 个,按照普通的说话速率约为每秒钟 1 0 个音素,根据音素出现的相对概率表,能够计算出每一个音素的信息量约为 5 b i t ,得到的全部信息速率大约是5 0 b p s ,即语音压缩编码的比特率低限。但此 时系统只传送音素序列,发音人声音的个性特征,即声带形状和声道描述几乎全 部丢失1 2 1 。要达到高质量的语音还需要对语音的生理特性有深入研究,这将是长 期而艰巨的工作。 由以上分析可以看到从标准码率到极低的极限压缩速率还有一定的跨度,所 以低速语音编码技术的研究和应用对研究者有很大的吸引力。本文所分析的 i t u tg 7 2 3 1 语音编码器就是低码率编码标准的一个代表,能够以5 3 6 3 k b p s 的速率压缩语音或其他音频信号。 同时,随着需求的不断增加,语音编码器不但要有较高的合成质量,较低的 编码速率,并且算法的复杂度要受到现有d s p 芯片运算能力和实时性的限制。 由于在可视电话和视频会议系统中,语音和图像的编解码都要占用较多的处理时 间,导致g 7 2 3 1 语音编码器存在较大的时延,因此还必须对g 7 2 3 1 语音编码 算法进行效率优化,对编码标准优化策略的研究和实现也是语音压缩处理的一个 重要研究方向。 1 2 当前主要的编码标准 语音压缩技术由于受到网络带宽的限制,总是希望采用压缩比高的编码方 法。当前i t u t 话音编码标准主要有g 7 11 、g 7 2 6 、g 7 2 8 、g 7 2 9 、g 7 2 3 1 等, 其中被i p 电话广泛采用的g 7 2 3 1 双速率语音编码标准具有静音检测、噪声填充 和丢帧恢复等机制,话音质量相对比较好,能对话音以及其他声音( 音乐等) 进行 有效的压缩,是许多成熟的网络电话产品支持的编码标准。当然,现在编码率更 第一章绪论 低的压缩方法有很多,有的甚至达到1 2 k b p s ,但没有形成公认的标准,且由于 它们的话音质量、编码速度、环境适应性等综合音素的影响,其普及的程度远不 如g 7 2 3 1 标准。 表1 11 t u - tg 系列语音编码建议1 3 1 比特率编码质量复杂度时延发布时 标准 编码类型 ( k b p s )( m o s )( m s )( m s ) 间 g 7 1 lp | c m 6 44 4 0 50 1 2 51 9 7 2 g 7 2 6a d h c m16 ,2 4 ,3 2 ,4 04 o2o 1 2 51 9 9 0 g 7 2 8l d c e i j p1 64 0 3 0 0 6 2 5 1 9 9 4 g 7 2 9c s a c e l p84 o2 01 51 9 9 5 g 7 2 9 a c s a c e l p 84 0 1 0 5 1 5 1 9 9 6 k 3 强p5 33 61 63 7 5 g 7 2 3 11 9 9 6 m p - m l q 6 3 3 91 4 63 7 5 m i p s :m i l l i o n so fi n s t r u c t i o n sp e rs e c o n d , 每秒百万条指令 m o s :m e a no p i n i o ns c o r e ,平均意见得分 由表1 1 示,最早的标准化语音编码系统是速率为6 4 k b p s 的p c m 波形编码 器,到9 0 年代中期速率为4 8 k b p s 的混合编码器,在语音质量上已逼近前者水 平,且已达到实用化阶段。据预测,以m e l p ( 2 4 k b p s ) 为代表的低速语音编码器, 未来几年中将在性能和实用化两方面都接近于6 4 k b p s 的标准p c m 编码器。 1 3g 7 2 3 1 语音编码器简述 g 7 2 3 1 是h 3 2 4 可视电话语音标准系列的一个组成部分,是i t u t 为满足 多媒体通信需要而制定的双速率语音编解码算法建议。高速率( 6 3 k b p s ) 提供更好 的重建语音质量,低速率( 5 3 k b p s ) 的算法计算量低,给系统设计者提供了更多的 灵活性。两种速率的编解码器都具有较高的语音质量和较低的延时,并且允许在 任意相邻帧( 3 0 m s ) 的边界转换速率,实现了可变比特率的不间断传输。同时该标 准的语音激活算法能够自动检测语音信号是否存在,并用噪声填充话音间隙,进 一步压缩了编码速率。 g 7 2 3 1 编码建议在有限的复杂度下最优化地表示了语音信号,采用线性预 测的合成分析法( a n a l y s i s b y s y n t h e s i s ) 分帧处理。高码率激励信号采用多脉冲极 大似然量化( m p - m l q ) ,低码率激励信号采用代数码本激励线性预澳j ( a c e l p ) 进 第一章绪论 行编码。每帧长为3 0 m s ,分为4 个长度为7 5 m s 的子帧,每帧编码另加7 5 m s 的前视( 前一帧的最后一子帧) ,算法总固有延迟为3 7 5 m s 。编码器的其他附加延 迟来自数据处理延迟、信道传输延迟以及多层协议中的缓冲延迟。 2 0 世纪8 0 年代以来,专用于数字信号处理运算的微处理器d s p 芯片得到了 飞速发展,使得在单片d s p 上实时实现高复杂度的语音压缩算法成为可能。但 由于d s p 系统对语音编码的实时性要求以及d s p 自身资源空间的有限性,对算 法复杂度及存储空间的要求非常苛刻,直接按照g 7 2 3 1 标准实现编码将无法应 用到实际领域。因此在深入研究g 7 2 3 1 语音编码算法的基础上,分析其实时实 现的软硬件要求和性能指标并提出优化策略,是标准转化到实际应用的关键一 步,具有非常重要的应用意义。本课题将就此展开研究工作。 1 4 本文的安排 论文首先对i t u tg 7 2 3 1 语音编码器进行了详细分析,之后对运算复杂度 较大的几个模块如基因分析、固定码本搜索和自适应码本搜索等进行了算法优化 设计,最后通过软件实现和测试分析了优化结果。主要内容如下: 第一章:绪论,介绍了课题的研究应用背景; 第二章:语音压缩编码关键技术的概括,阐述了声道模型建立等相关原理: 第三章:编解码算法设计,对编解码器的各个模块设计进行了详尽的阐述, 包括线性预测、线谱对变换、矢量量化、基因周期估计、余量编码等; 第四章:算法的优化与实现,利用g 7 2 3 1 建议的测试矢量对运算量大的编 解码模块进行了优化设计和软件实现,并通过语音测试对优化算法进行了验证。 第二章声道模型与语音压缩编码基础 第二章声道模型与语音压缩编码基础 2 1 语音信号特征的简要分析 在研究各种语音编码技术之前,首先应了解语音信号的一些基本特征。 一般来说,语音信号的频谱集中在3 0 0 3 4 0 0 h z 的范围内,对应的采样频率 一般为8 k h z 。取一段语音信号的时域波形,可以看到语音信号具有很强的时变 性,在些段落里有类似于准周期的特性,另一些段落里则具有类似噪声的特性。 这是由于发声机理造成的:当声门处的气流冲击声带产生振动,声带周期性地开 启和闭合,产生一个准周期性脉冲序列的空气流,经过声道形成浊音,这一段的 语音具有周期性;如果气流通过声门时声带完全舒展而不振动,则气流通过声道 形成波形和噪声类似的摩擦音、爆破音或清音。此外,语音信号的另外一个重要 特征是短时性,即认为信号在一段很短时间内( 典型为5 5 0 m s ) 保持相对稳定,便 于提取其中的参数。故语音信号的特性是不断地在变化,但是变化很慢,短时内 可以近似认为语音特征基本不变,并且相邻段的语音波形有时会有很强的相关 性,即语音的短时性和相关性,如图2 1 示。 图2 1 一段语音信号的时域波形 图2 2 给出汉语“业”字发音时的时域波形,显示了语音的短时周期性,在 第二章声道模型与语音压缩编码基础 6 3 4 s 一6 3 9 s 的5 0 m s 内约有1 6 个周期,由此可以估算出基音周期约为3 0 0 h z 。 图2 2 汉语“业”字发音时的时域波形 语音信号的基本组成单位为音素,可以分为“浊音和“清音”,一般在短 时分析的基础上分析一段语音属于哪一类音素。“浊音一一般对应汉语拼音中的 韵母,有明显的周期性,由声带振动产生,可用一周期脉冲发生器进行近似;“清 音一般对应汉语拼音中的声母,不由声带振动产生,类似于一个随机噪声。 在说话的时候,声门处的气流冲击声带产生振动,然后通过声道响应变成语 音。声道是一个分布参数系统,它有许多自然谐振频率,称为共振峰频率,是声 道的重要声学特征。语音的频率特性主要由共振峰决定,当声音沿着声管传播时, 其频谱形状会随着声管而改变。声门脉冲序列具有丰富的谐波成分,这些频率成 分与声道的共振峰频率之间相互作用的结果对语音的音质具有很大的影响。 语音信号压缩的基本依据是根据语音信号和人的听觉特性得到的。 首先,语音信号的产生机理和结构性质表明,其自身存在着很大的冗余度, 语音压缩本质上就是通过识别这些冗余度并设法去掉它们,从而达到压缩比特率 的目的。语音信号的冗余度归纳起来主要体现在:l 、语音信号样本间相关性很 强,即其短时谱是不平坦的;2 、浊音语音段具有准周期性:3 、声道形状及其变 化的速率是有限的;4 、传输码值的概论分布是非均匀的。 其次,人的听觉具有“掩蔽”特点:1 、一个强的音能抑制一个同时存在的 弱音的听觉;2 、人的听觉对低频端比较敏感;3 、人的听觉对信号的相频特性很 不敏感。 第二章声道模型与语音压缩编码基础 2 2 语音信号产生的模型 语音的产生过程可以近似看成是肺部压力形成的气流,经过声门约束后激励 声道( 吼腔、口腔和鼻腔) ,由e l 唇辐射出的声音。若发音时声门周期性地振荡, 则发出的是浊音,否则发出的是清音。这个声学振荡系统可以用一个电子学上的 线性系统等价地描述,即用一个离散时域的信号产生模型对其进行近似,这就是 语音产生模型,如图2 - 3 所示。 - j 周期脉冲 。= d 凝黼 基音频率l 型生 愿 控制幅度a v 紫型 g ( z ) i v 控制幅度 u 声道参数 声道模型 v ( z ) 图2 3 语音信号产生的数字模型 辐射模型 r ( z ) 语音信号 此模型包括三个部分:激励源以及反映声道响应和口唇辐射影响的两个线性 系统。激励源可以产生两种类型的激励信号:周期性脉冲串和白噪声,所产生的 输出分别模拟浊音和清音。浊音的短时频谱有两个特点:l ,有明显的周期起伏 结构;2 ,频谱中明显有几个凸起点,它们出现的频率与声道的谐振频率相对应, 称为“共振峰。清音的短时频谱则没有上述特点,它类似于一段随机噪声的频 谱。因此,浊音情况下,激励源是一个准脉冲序列发生器,产生周期为n 的冲 激序列,系数a v 用来调节信号的幅度或能量;清音情况下,激励源由一个随机 噪声发生器产生,可设定其平均值为0 ,自相关函数是一个单位冲激函数,幅度 具有正态概论分布,系数a u 用来调节信号的幅度或能量。声道模型v ( z ) 给出了 离散时域的声道传输函数,把实际声道模拟为一个变截面声管,利用流体力学的 方法可以导出,在大多数情况下它是一个p 阶的全极点函数,p 值越大,模拟的 传输函数与声道实际传输函数的吻合程度越高。辐射模型r ( z ) 与嘴型相关。 在这个模型中,除了g ( z ) 和r ( z ) 保持不变外,n 、a v 、a u 、浊,清音控制以 及声道模型中的参数都随时间而变化。由于语音的形成过程与发生器官的运动密 切相关,这些物理运动比起声音振动速度要缓慢得多,语音信号常常可假定为短 时平稳的,即可认为声道和激励源参数在1 0 3 0 m s 的时间内保持不变。 第二章声道模型与语音压缩编码基础 2 3 语音编码的类别 语音编码的方法可归纳为三类:波形编码,参数编码和混和编码。 自从p c m 原理以及声码器( v o c o d e r ) 的概念提出后,语音编码一直沿着 两个基本方向发展,即波形编码与参数编码。波形编码力图使重建语音保持原始 信号的波形形状,将语音信号作为一般的波形信号来处理,具有适应能力强、语 音质量好的优点,但所需的编码速率高,所占带宽大。相应标准采用8 k h z 采样, 对每一个采样数据,语音编码器保存该点语音信号的放大信息。这种采样方案的 问题在于:为了降低编码后的数据传输所需带宽,就必须减少语音信号编码的位 数和降低语音放大级数,从而降低语音质量。波形编码算法有:脉冲编码调制 ( p c m ) 、自适应增量调制( a d m ) 、自适应差分编码( a d p c m ) 、自适应预测编码 ( a r c ) 等,分别在6 4 ,1 6 k b p s 的速率上能给出高编码质量,当速率进一步降低, 其性能下降较快。 参数编码则从听感的角度注重语音本身的重现,通过对语音信号特征参数的 提取及编码,力图使重建语音信号具有尽可能高的可懂性,即携带原有的语音信 息,而其重建信号的波形同原始信号的波形可能会有很大区别。这种编码方式的 特点是编码速率低,目前的参数编码算法的比特率最低可达到0 8 k b p s 左右,仍 能进行正常通信。这种合成语音质量较差,自然度低,抗误码能力差。目前速率 为2 4 k b p s 参数编码器可以达到可为用户普遍接受( 即主观测试为f a i r 等级) 的音 质,并且已得到广泛应用。典型的参数编码器有l p c 声码器、多带激励( m b e ) 声码器等。 混合编码结合了上述两种方法的优点,既有波形逼近,又充分利用语音产生 模型和人类听觉系统的特性,故可在中等速率( 4 1 6 k b p s ) 下提供高质量( 即主观测 试为g o o d 等级) 的输出语音。典型的编码算法有:矢量和激励线性预澳 ( v s e l p ) 、 多脉冲线性预测编码( m p l p c ) 、规则脉冲激励线性预测编码( r p e l p c ) 和码激励 线性预n ( c e l p ) 声。本论文所讨论的标准属于参数编码中的c e l p 范畴。 综上,波形编码原理简单,压缩倍数低,语音质量好;参数编码原理复杂, 压缩倍数高,语音质量相对较差:混合编码压缩倍数中等,语音质量较好。 2 4c e l p 的关键技术 2 4 1 语音编码中的线性预测技术 语音信号具有很强的相关性,经采样和数字化后依然保留这种特性。预测技 第二章声道模型与语音压缩编码基础 术就是一种利用序列相关性进行语音信号分析的常用技术,即从已收到的信源符 号中获取关于未来符号的信息,并利用预测值对未来符号进行编码。预测的基础 是估计理论,当估计值与原始值之差的平方的期望最小时,称为最佳估计。当最 佳估计用作预测值时,预测的均方失真最小。 线性预测编码( l i n e a rp r e d i c t i v ec o d m g ,l p c ) 原是一种波形编码技术,其基 本原理是:对于数字语音信号,将每一个信号样点用前面若干个样点值的加权线 性组合来预测,当权值选择适当时,预测误差较小。如果在发端和收端都有同样 的线性预测器,则只需从信道传送预测误差信号,其方差比原信号的方差要小得 多,因此可以用较低的信息速率进行编码,从而实现了压缩。 由于上述预测器的权系数可以基于全极点模型假定采用最小均方误差逼近 法从原信号中估计出来,因此当极点的个数( 一般取1 0 ) 选择合适使之能反映声道 响应的共振峰特性时,就可以根据前述语音产生模型对语音信号进行激励源系 统响应的分离,也可以重新合成恢复语音,构成声码器对语音信号进行压缩编码 传输,这就是l p c 声码器。由于能够有效地提取较少的参数且能较好地描述声 道特性,因此l p c 技术在语音识别、合成、编码、说话人识别等方面都得到了 成功的应用,成为近三十年来语音信号发展的主要推动力量之一。 由2 2 中所讨论的语音信号的产生模型,可以把语音信号s ( n ) 看作是一个激 励“ ) 通过线性时不变因果稳定系统h ( z ) 的输出,其简化模型如图2 _ 4 示。 s ( ,z ) 图2 _ 4 语音信号s ) 产生的简化模型 设日( 加而1 2 忑1 i 输出的误差e ( n ) 与语音信号s ( n ) 之间的关系为: “( n ) ( 2 1 ) p ( 胛) :s ( n ) 一;( ,1 ) :s ( ,1 ) 一p 吩s ( 行一d ( 2 2 ) i = 1 p 其中,;o ) = a i s ( n f ) 称为s 伽) 的预测值或估计值。 i = 1 第二章声道模型与语音压缩编码基础 设计滤波器h ( z ) ,就是求解预测系数q ,使预测误差e ( n ) 在某个预定的准 则下最小。线性预测分析的基本问题即通过对一短段语音的分析来求解和处理一 组预测系数q ,从而实现对语音的预测。l p c 的详细过程将在算法研究时讨论。 2 4 2 语音信号的矢量量化( v q ) 矢量量化( v e c t o rq u a n t i z a t i o n ,简称为v q ) 是一种重要的信号压缩方法,广 泛应用于图像、语音等低速编码领域。标量量化,如p c m ,是用若干个离散的 数字值来表示每一个具有连续幅度取值( 模拟值) 的离散采样信号。矢量量化则是 将若干个采样值分成一组,构成一个矢量,然后从码本中选出一个标号来代表矢 量,在矢量空间中给以整体量化,从而压缩了数据。 矢量量化的过程是:将语音信号波形的k 个采样点或k 个参数的每一参数帧, 构成k 维空间中的一个矢量,然后对这个矢量进行“集体”量化。标量量化即是 k = l 的一维矢量量化。在矢量量化时,将k 维无限空间划分为m 个边界,将输 入信号矢量与这些边界进行比较,量化为“距离”最小的区域边界的中心矢量值。 矢量量化的两个主要问题是:l 、将k 维无限空间划分为m 个区域边界,这 个过程称为“训练”或建立码本,方法是将大量处理信号的波形帧矢量或参数帧 矢量进行统计划分,进一步确定这些划分边界所对应的中心矢量值来得到码本; 2 、确定两矢量在进行比较时的测度,即两矢量之间的距离,或以其中一个矢量 为基准时的失真度。理想的失真测度应具有主观意义( 即最小的失真应对应于最 好的主观语言质量) 并易于处理,常用的测度为欧氏距离和线性预测失真测度。 矢量量化的原理如图2 5 所示。 信道 存储器 图2 5 矢量量化原理图 矢量量化器的设计就是从大量信号样本中训练出好的码本,从实际效果出发 第二章声道模型与语音压缩编码基础 寻找到好的失真测度定义公式,设计出最佳的量化系统。输入矢量被量化后,得 到的是码本中与该矢量之间具有最小失真的某码本矢量的脚标( 或地址码) ,将这 些脚标作为存储或传输的参数。 2 4 3 码激励线性预测c e l p 的基本模型 1 9 8 5 年,m a n f r e dr s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首 先提出了用码本作为激励源的线性预测编码技术。c e l p 以其高质量的合成语音 及优良的抗噪声和多次转接性能,在4 8 1 6 k b p s 速率上得到了广泛的应用。1 9 8 9 年,8 k b p s 速率的北美数字移动通信全速率编译码器标准采用修改的c e l p 技术 v s e l p ( v e c t o rs u m e x c i t e dl i n e a rp r e d i c t i v e ) 。 c e l p 采取分帧技术进行编码,帧长一般为2 0 3 0 m s ,基于合成分析( a b s ) 的搜索过程,采用感知加权矢量量化( v q ) 和线性预测( l d 技术。在c e l p 中,用 从码本中搜索出来的最佳码矢量乘以最佳增益,代替l p 余量信号作为激励信号 源,并将码字的标号传递给解码段。其编码示意图如图2 - 6 。 标号a 标号b 图2 - 6 c e l p 编码示意图 c e l p 用自适应码本代表语音中的基音部分,用随机码本代表清音部分。搜 索出来的最佳码矢量,乘以各自的增益后相加,成为c e l p 激励信号源。激励信 号输入p 阶l p 综合滤波器i a ( z ) ,得到合成语音信号s ( n ) ,s 。( n ) 与原始语音 信号s ( 九) 的误差经过感觉加权滤波器w ( z ) ,得到加权误差p ( 以) 。c e l p 用感觉 加权的最小平方预测误差作为搜索最佳码矢量的准则。 两个码本的搜索过程本质上是一致的。为了减少计算量,通常不将两个码本 同时搜索,而采用两级码本顺序搜索的方法,先计算自适应码本,搜索目标矢量 是加权线性预测余量信号,即去除语音信号中短时和长时相关后的信号;后计算 第二章声道模型与语音压缩编码基础 随机码本,搜索目标是前一级搜索的目标矢量减去自适应码本搜索得到的最佳码 矢量通过综合加权滤波器的输出。由此可见c e l p 编码器的计算量主要集中在对 码本及幅度的搜索上,计算的复杂度与合成语音的质量取决于码本的大小。 以下章节中,将以前述技术为基础,对g 7 2 3 1 语音编码标准进行具体分析。 2 5 中速语音编码的基本策略 中速语音编码的基本策略是:以语音产生模型为基础,采用混和编码算法, 将最小均方误差逼近与听觉掩蔽效应紧密结合,在确保较高语音质量的前提下降 低编码速率,提高误码特性,减小编解码延迟。具体做法主要是以下四点: 1 、利用语音信号样点之间的相关性减少冗余度 语音信号的冗余度主要存在于两个方面:语音信号幅度分布的非均匀性和 样本之间的相关性。中速语音编码重点利用后者去除冗余。这种相关性分为两类, 即样点之间的短时相关性和相邻基音周期之间的长时相关性,利用这些相关特 性,可以在实现中、低速率编码时,也能保持较高的语音编码质量。 短时相关可由短时合成滤波器模型来描述( 谱包络) ,其传递函数为: ( 2 - 3 ) 其中,a i 为短时预测系数,p 为滤波器的阶数,一般称日( z ) 为i j p 综合滤 波器。极点数目选择应反映语音信号的共振峰特性,p 通常取值8 - 1 2 。 长时合成滤波器描述语音信号的长时相关性( 频谱精细结构) ,传递函数为: 1 尸( z ) l 一岛z 叫肌o i = - - q ( 2 4 ) 其中,延时参数d 等于基音周期,缸是长时预测系数,通常个数取l ( q = 厂= o ) 或3 ( q = 厂= 1 ) 。d 或岛可以从语音信号中直接提取,也可以从除去了短时相关性 的余量信号中提取。这些系数随时间更新,更新速度为5 0 。2 0 0 次秒。根据具体 编码方案的需求,也可只进行短时预测不进行长时预测,而在l p c 激励模型中 引入语音的长时相关性。 第二章声道模型与语音压缩编码基础 2 、利用人类听觉特性降低编码的信息速率 人耳对语音信号的听觉特性存在掩蔽效应,应用得当可以大幅度降低编码 速率。在编码过程中,采用感觉加权滤波器与最小均方误差准则相结合,改变编 解码过程中引入噪声的频谱形状,使此噪声较多地分布在信号较强的共振峰处而 被掩蔽,可明显提高合成语音的主观质量。感知加权滤波器的z 域表达式为: w ( z ) = p 1 一a i y z i z f _ l ( 2 5 ) 式中,p 为滤波器的阶数,q 为l p c 参数,x 、托为加权系数。w ( z ) 的频 率响应与原始语音起伏相反,这样对误差信号进行加权,就可以使能量大的区域 ( 共振峰区域) 的噪声多一些,信号能量小的区域( 波谷区域) 噪声少一些,符合大 信号隐蔽其相邻频带小信号的原理,大大改善合成语音的主观听觉效果。 3 、采用静音压缩技术 测试表明,人在正常谈话时有5 0 左右是静音,静音特征信息只需很少几 个参数( 每帧1 个或4 个字节) 来表示。引入静音压缩技术,实际的平均编码速率 会降低。静音编码主要是语音检澳f f v o i c ea c t i v i t yd e t e c t i o n ,v a d ) 和柔和噪声再 生( c o m f o r tn o i s eg e n e r a t o r ,c n g ) 。v a d 用于区分输入的信号是实际的话音信 号还是背景噪声,c n g 的作用是在语音信号的接收端重构背景噪声。 4 、采用合成分析法 中低速率的语音编码方案可分为两类:分析合成a a s ( a n a l y s i s a n d s y n t h e s i s ) 与合成分析a b s ( a n a l y s i s b y s y n t h e s i s ) 。a a s 法非常适用于速率为9 6 1 6 k b p s 的 语音编码,但如果速率再降低的话,其编码后的语音质量将下降很快,这是因为: ( 1 ) 对编码信号没有进行分析,对重复信号的变形没有加以检测和控制; ( 2 ) 当前帧分析中没有考虑以前帧的累积误差,故误差会在后续帧中扩散。 a b s 方案中,将综合器引入编码器,与分析器结合,在编码器中产生与解 码器端完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差 规则来调整各个参数,使得两者之间误差最小。c e l p 即采用合成分析的方法。 2 6 语音编码器的性能指标 衡量压缩编码性能的主要指标有:比特率、语音质量、延迟和复杂度。 第二章声道模型与语音压缩编码基础 语音编码的比特率反映了编码的压缩效率,单位为比特,秒( b p s ) 或千比特, 秒( k b p s ) 。对于各种不同算法,参数比特分配规律、帧结构和加入的纠错冗余比 特数不同,形成了许多不同的标准。 评价语音编码器输出语音质量的方法和指标有多种,可以在一定程度上反 映出语音的可懂度和自然度。评价语音质量的方法包括客观评价和主观评价两 类,对中、低速率的语音编码算法,客观评定方法常常很难反映人对语音质量的 感受,因此主要使用主观评定方法。常用的方法有平均意见分( m e a no p i n i o n s c o r e , m o s ) 、诊断韵字测试( d i a g n o s t i cr h y m et e s t , d r t ) 、诊断满意度测量 ( d i a g n o s t 论a c c e p t a b i l i t ym e a s u r e d a m ) 等。m o s 分满分是5 分,其质量为优 ( e x c e l l e n t ) ,m o s 分为4 、3 、2 、1 分,其质量分别为l 曼( g o o d ) 、中( f a i r ) 、劣( p o o r ) 和不可接受( u n a c c e p t a b l e ) 。d r t 和d a m 均采用百分制,分数越高,质量越好。 编解码延迟是指编码器和解码器处理数据所需要的时间。以目前的网络质 量来看,一般网络传输的时延较大,必须使语音编译码器尽可能较小地增加附加 时延以免总的时延过大,因此要求语音编解码算法的延时在5 0 m s 以下。对于有 二四线制转换的全双工语音通信,若传输时延过大,会引起回波现象。为保证 正常通话,总延迟超过l o o m s 时,一般需要采取回音抵消或回声抑制等措施。 算法的复杂度包括两个方面:运算复杂度和内存要求,它们影响算法硬件 实现的代价。运算复杂度以m i p s ( m i l l i o ni n s t r u c t i o n sp e rs e c o n d ) 衡量,表示实时 实现该算法需要的通用数字信号处理芯片( d s p ) 的最低运算能力。算法越复杂, 实现所需的成本、功耗就越大。当然,达到相同的话音质量,可以采用复杂一些 的算法来降低编码速率。 第三章g 7 2 3 1 语音编码算法设计 3 1 概述 第三章g 7 2 3 1 语音编码算法设计 g 7 2 3 1 是h 3 2 4 可视电话语音标准系列的一个组成部分,是i t u t 为满足 多媒体通信需要而制定的双速率语音编解码算法建议。g 7 2 3 1 提供了一种用于 压缩话音以及其他音频信号的编解码算法,使用5 3 k b p s 和6 3 k b p s 双速率进行 传输。高速率提供更好的重建语音质量,低速率的算法计算量低,给系统设计者 提供了更多的灵活性。两种速率的编解码器都具有较高的语音质量和较低的延 时,并且允许在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论