




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 利用因特网承载语音业务,将使长途通信的费用大幅降低。带宽是影响语音 质量的一个主要因素,也是因特网当前最难解决的问题,一个解决的办法就是采 用高效的语音压缩算法。人们直在研究低速率,并且保证语音质量的语音编码 算法。1 9 9 6 年,i t u t 提出基于共轭结构代数码激励线性预测c s a c e l p ( c o n j u g a t e s t r u c t u r ea l g e b r a i c c o d e e x e i t e d l i n e a r p r e d i c t i o n ) 算 法,速率为8 k b i t s 的g 7 2 9 协议。因其具有良好的合成语音质量、适中的复杂 度、较低的时延等优点,g 7 2 9 标准已出现在一些设备和应用中,如v o i p 网关、 i p 电话、网络电话等。 本论文在介绍了低速率语音编码技术的背景知识后,系统地阐述了g 7 2 9 语音编码标准及其附录a ,着重从原理上分析了算法中的关键技术。接着介绍了 t m s 3 2 0 c 6 0 0 0 器件以及根据其特点对i t u r 提供的源代码进行优化的一些方 法。用1 t u t 提供的g 7 2 9 语音编码器测试序列进行测试,基本上达到了要求。 最后对其在t m s 3 2 0 c 6 2 1 ld s k 上的实时实现进行了研究和实践。 关键词g 7 2 9 ;语音编码算法:c s - a c e l p ;t m s 3 2 0 c 6 0 0 0 a b s t r a c t a b s t r a c t i fu s i n gi n t e r n e tt oc a r r ys p e e c hs e r v i c e s ,t h ee x p e n s e so fl o n gd i s t a n c e c o m m u n i c a t i o ni sc u td o w nt oag r e a te x t e n t t h eb a n d w i d t hi sap r i n c i p a lf a c t o r t h a tm a k e st h es p e e c hq u a l i t yb a d i ti sa l s ot h em o s td i f f i c u l tp r o b l e mt ob e r e s o l v e df o rt h ei n t e r n e t p e o p l ei sa l w a y ss e a r c h i n gs p e e c hc o d i n gm e t h o d so f l o w e r s p e e da n dh i g h e r s p e e c hq u a l i t y i n1 9 9 6 ,t h e i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o na p p r o v e dn i l8 k b i t ss p e e c hc o d i n gs t a n d a r dg 7 2 9 b a s e do i l c s a c e l pa l g o r i t h m f o ri t sh i g hq u a l i t y ,m e d i u mc o m p l e x i t ya n dl o w d e l a y , i ti sa l r e a d yu s e di ns o m ef a c i l i t i e sa n da p p l i c a t i o n s ,s u c ha sv o i pg a t e ,i p t e l e p h o n ea n di n t e r n e tt e l e p h o n e i nt h i sp a p e r t h eb a c k g r o u n dk n o w l e d g eo fs p e e c hc o d i n g ,t h et h e o r ya n d d e v e l o p m e n ti sf i r s t l yi n t r o d u c e d ,t h e nc 7 2 9s t a n d a r da n da p p e n d i xai s a n a l y z e ds y s t e m a t i c a l l y t h ek e yt e c h n i q u e si se x p o u n di nd e t a i l n e x t t m s 3 2 0 c 6 0 0 0d s pc h i pi si n t r o d u c e da n ds o m em e t h o d su s e dt oo p t i m i z i n g g 7 2 9a c c o r d i n gt ot h ea r c h i t e c t u r eo ft h ed s pc o r ei sr e c o m m e n d e d t h e o p t i m i z e dc 1 7 2 9s p e e c hc o d e ci st e s t e db ya l lt h ei t ut e s ts e q u e n c e sa n dh a s a c c o m p l i s h e dt h er e q u e s t a tl a s tt h ea p p r o a c ht ot h er e a lt i m ei m p l e m e n t a t i o n o fg ;7 2 9s p e e c hc o d e cu s i n gt m s 3 2 0 c 6 2 1 1d s ki ss t u d i e da n da c h i e v e d k e yw o r d :c - 7 2 9 ;s p e e c h - c o d i n g a l g o r i t h m ;c s - a c e l p ;t m s 3 2 0 c 6 0 0 0 - i i 第1 章绪论 第1 章绪论 1 1 引言 在数字通信系统中,信息的传输都是以数字信号的形式进行的,因而在通信 发送端必须将模拟信号转换为数字信号,在接收端将数字信号还原成模拟信号。 移动通信中处理的信息包括语音、数据和信令信息,而处理最多的信息是语音信 号,因此高质量低速率的语音编码技术可以提高数字通信网的系统容量。 d s p 芯片,也称数字信号处理器,是一种具有特殊结构的微处理器,d s p 芯 片的内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流 水线操作,提供特殊的d s p 指令,可以用来快速的实现各种数字信号处理算法。 采用低速率语音编码技术进行语音传输比语音信号模拟传输有诸多优点。现 代通信的发展趋势决定了语音编码技术的两大突出优势: ( 1 ) 大大节省了带宽。从最初p c m 6 4 k 编码到现在的标准语音压缩协议如 g 7 2 3 1 编码速率为j 3 k 或6 3 k b p s ;g 7 2 9 编码速率为8 k b p s ,还有未形成协 议标准但更低的编码速率已有成熟的算法可以实现,如a m b e 、c e l p 、r e l p 、v s e l p 、 m e l p 、m p m l q 、l p c 一1 0 等多种语音压缩算法,最低编码速率达到2 4 k b p s ,有些 算法己在包括第三代移动通信系统( 3 g ) 的多个领域得到应用。 ( 2 ) 便于实现与i p 融合。i n t e r n e t 的成功运用使得与i p 的融合已成为必然的 发展趋势。分组语音,即将分组交换的概念与语音传输相结合,使得语音信息更 易于接入i p 网。而分组语音的关键技术之一就是语音编码技术,低速率的语音 编码技术对语音信息的实时性有更好的保证。采用分组语音传输的网络,其传输 的语音信息本身就是分组数据包,这样的语音信息在接入i n t e r n e t 时将是非常 的方便。 1 2 语音压缩编码技术的回顾 自从上世纪3 0 年代提出脉冲编码原理( p c m ) 以及声码器的概念后,语音信 号编码一直沿着波形编码与参数编码两个方向发展。 波形编码力图使重建语音信号和原始语音信号的波形保持一致,而参数编码 河北大学工学硕士学位论文 则通过语音信号特征参数的提取和编码,力图使重建语音信号有尽可能高的可懂 性,保持原始语音的语意,而波形则可能有比较大的差异。常见的波形编码器有 脉冲调制( p c m ) 、自适应增量调制( a d m ) 、自适应差分编码( a d p c m ) 、自适应预 测编码( a p c ) 、自适应子带编码( a s b c ) 、自适应变换编码( a t c ) 等。它们在 1 6 6 4 k b s 的速率上能给出高质量的重建语音,当速率进一步降低时性能的下 降就非常快。参数编码器利用一定的语音信号产生模型的特征参数表示语音信 号,所以编码速率可以非常低,但是合成语音的质量比较差,自然度低,并且在 有背景噪声的环境下,模型参数的提取会产生很大的误差,从而导致性能严重下 降。 上世纪8 0 年代以后,产生了新一代的波形参数混合编码器,它将波形编码 器和参数编码器各自的优点结合起来,克服了各自原有的缺陷,在2 4 1 6 k b s 的速率上可以给出高质量的合成语音。到目前为止,比较成功和研究的热点有码 本激励线性预测编码算法( c e l p ) 、多带激励( 忸e ) 语音编码算法和波形插值算 法( w i ) 等。 码本激励线性预测编码( c e l p ) 是在线性预测编码的基础上,利用分析合成 ( a b s ) 和感觉加权的方法使合成语音信号和原始语音信号在波形上尽量保持一 致,并尽量适应人耳的听觉特征。从而使合成语音信号具有较高的自然度,并提 高了编码器抗噪声的能力,具有非常好的实用价值。码本激励线性预测编码算法 ( c e l p ) 在4 8 1 6 k b s 的范围内具有非常好的性能。当速率进一步降低时,由 于没有足够的比特来表示激励信号,合成语音的质量会迅速下降。 多带激励( m b e ) 语音编码方案突破了传统的二元激励模型的局限,强语音 频谱按各基音谐波频率分成若干个子带,分别进行清音、浊音判决,然后根据各 带是清音还是浊音,采用不同的激励信号产生其合成信号,最后将各带相加形成 全带合成语音。m b e 编码方案在2 4 4 8 k b s 的速率范围内能够合成出比传统 声码器好的多的语音,具有较好的自然度和抗噪声的能力,是这一速率上比较理 想的编码方案。 波形插值算法( w i ) 用基音变化轨迹和特征波形来表示语音信号。这种算 法利用浊音段语音相邻基音周期的波形变化不大的特点,用线性插值的方法来表 示每个基音周期的语音。在清音段,将语音分为快变波形和慢变波形两部分进行 第1 章绪论 处理,也获得了很好的效果。波形插值算法在2 4 k b i t s 至6 k b i t s 之间取得了相 当好的效果。 在不久的将来,随着小波技术的引进,更新的工作在1 2 k b s 频带范围的高 质量低速率编码器的出现也指日可待。 1 3 数字信号处理器的发展 在数字信号处理技术发展的初期( 上世纪5 0 6 0 年代) ,人们只是在通用数 字计算机上进行算法的研究和处理系统的模拟和仿真。尽管人们已经认识到数字 系统的优越性,并将其应用在信号处理的实际系统之中,但由于受到速度、成本 和体积的限制,实时数字信号处理系统还只是美好的愿望。 快速傅氏变换方法的提出和集成电路技术的发展,使得用硬件来实现各种数 字滤波和f f t 受到了极大的关注。从而导致了近二十年来d s p 技术与器件的极为 迅速的发展。 一般认为7 0 年代后期推出的i n t e l2 9 2 0 是第一块脱离了通用型微处理器结 构的d s p 芯片,即程序数据和指令不再共用一个存储空间和单一的地址和数据总 线。但是芯片的内部没有现代d s p 芯片所必须的单周期乘法器。n e c 于1 9 8 0 年 前后推出的g p d 7 7 2 0 具有专门的硬件乘法器,从而被认为是第一块单片d s p 器件。 在此之后,t i 公司推出了其第一代d s p 芯片t m s 3 2 0 1 0 及其系列产品 t m s 3 2 0 1 1 、t m s 3 2 0 c 1 0 c 1 4 c 1 5 c 1 6 c 1 7 等,之后相继推出了第二代d s p 芯片 t m s 3 2 0 2 0 、t m s 3 2 0 c 2 5 c 2 6 c 2 8 ,第三代d s p 芯片t m s 3 2 0 c 3 0 c 3 l c 3 2 ,第四代d s p 芯片t m s 3 2 0 c 4 0 c 4 4 ,第五代d s p 芯片t m s 3 2 0 c 5 x c 5 4 x 以及目前速度最快的第六 代d s p 芯片t m s 3 2 0 c 6 2 x c 6 7 x c 6 4 x 等。t i 将其常用的d s p 芯片归纳为三大系列, 即:t m s 3 2 0 c 2 0 0 0 系列、t m s 3 2 0 c 5 0 0 0 系列、t m s 3 2 0 c 6 0 0 0 系列。如今,t i 公司 的一系列d s p 产品己经成为当今世界上最有影响的d s p 芯片。t i 公司也成为世 界上最大的d s p 芯片供应商,其d s p 市场份额占全世界份额的一半。 德州仪器公司( t i ) 为推进下一代先进通信进程,推出业界最高性能系列可 编程数字信号处理器( d s p ) 的三个成员:t i 三种新型d s p 产品t m s 3 2 0 c 6 4 1 4 、 t m s 3 2 0 c 6 4 1 5 和t m s 3 2 0 c 6 4 1 6 是基于业界最高性能d s p 内核( 即t i 的 t m s 3 2 0 c 6 4 x d s p ) 的首批器件,现已投入量产。 河北大学工学硕士学位论文 除了无以比拟的性能外,新产品仅消耗1 1 3 功率。这些新型产品,可以使包 括3 g 无线基站、数字用户接入复用设各( d s l a m ) 和网络集中设备在内的通信基 础设施,实现最大的通道密度。 德州仪器公司( t i ) 宣布推出t m s 3 2 0 c 6 4 ud s p ,称其可提供业界性价比最高 及功耗最小的百万级乘法累加器( m m a c s ) ,从而为当今嵌入式设计人员提供所需 的高性能。凭借新型c 6 4 1 1d s p ,t i 正进一步扩展c 6 4 xd s p 的产品范围,迎合 了更低功耗、更高性价比应用的增长空间。c 6 4 1 1d s p 的内核电压为1 0 v ,功耗 为2 5 0 m w ,据称是市场上同类产品中功耗最低的c 6 4 xd s p ,且仍能提供3 0 0 m h z 每秒2 4 亿个指令( m i p ) 1 2 0 0m m a c s 的高性能。 由于c 6 4 xd s p 指令集是c 6 xd s p 指令集的超指令集,所以可以直接移植为 前一代产品开发的目标代码。利用c 6 4 x d s pc 编译器能够生成新的代码,并快 速修改现有代码,对于发展迅速的3 g 无线领域,这是非常重要的功能。 1 4 研究任务及论文内容介绍 本论文的任务就是研究i t u t 于1 9 9 6 年发布的g 7 2 9c s a c e l p 协议及附录 a 所描述的语音编解码器,然后对其进行优化并在t i 公司推出的t m s 3 2 0 c 6 2 1 1 d s k 上对其进行实现,力图达到尽可能在不大量增加源代码长度的前提下,缩短 执行时间,提高工作效率,为以后实现多通道实时处理作准备。 本文共分六部分,首先对语音压缩编码技术以及数字信号处理器件的发展进 行了总结;在第二章对低速语音编码技术进行了分析;第三章对i t u - tg 7 2 9 协 议及附录a 进行了系统的描述;第四章对高速信号处理器t m s 3 2 0 c 6 2 0 0 的c p u 结 构和片内外设以及t i 提供的开发工具进行分析和研究;第五章详细讲述了对算 法进行的优化及其在d s k 上的实现;在第六章总结全文。 第2 章低速率语音编码技术 第2 章低速率语音编码技术 2 1 语音信号的数字模型 人体的发声器官由三部分组成:喉、声道和嘴。发声时,首先由肺部收缩送 出空气流,空气流经气管通过喉头声门处时带动声带振动。由声带振动激发声道 中空气发生振动,从口腔和鼻腔向外辐射即产生声音。按照激励源的不同,语音 ( 1 ) 清音,激励空气流是空气流高速通过声道的某一收缩部分而产生的湍流。 ( 2 ) 浊音,激励空气流是准周期性脉冲气流,由绷紧的声带做张驰式振动产生。 ( 3 ) 爆破音,激励空气流是声道在完全闭合的情况下突然开启后释放的空气流。 根据发声气管和语音的产生过程,在实际应用中为了简化语音信号产生的数 字模型,激励源分为浊音和清音两个分支,浊音由周期性脉冲序列激励产生,清 音由随机噪声激励产生,为了使浊音的激励信号具有声门气流脉冲的实际波形, 还需要将周期性脉冲序列通过一个声门脉冲模型滤波器,其传输函数g ( z ) 表示 g ( z ) 2 瓦仁翮 q 1 ) 声道可以看作是一个变截面积管加以研究,采用流体力学的方法可以导 出,在大多数情况下,它是一个全极点函数,这样,声道的全极点模型的传输函 数v ( z ) 的表达式为: y ( z ) ,土 ( 2 2 ) z 。 其中,口。;1 ,口,为实数,这里将截面积连续变化的声管近似为p 段短声管 的串联,每段短声管的截面积近似不变,p 值越大,模型的传输函数与声道实际 传输函数的吻合程度越高。但对大多数实际应用而言,p = 8 1 2 就能满足要求。 河北大学工学硕士学位论文 语苔的激励气流经声遭传生嘴,由嘴向外辐射。嘴的张开形状会影响语舌信 号频谱的形状,嘴唇处的辐射模型的传输函数r ( z ) 可以由下式表示: 尺( z ) = r 。( 1 一z 。1 )( 2 3 ) 综合上面的分析,语音信号产生的数学模型如下图2 1 所示:其中增益因 子爿,和山分别用于调节浊音语音和清音语音的幅度或能量。整个模型的系统函 数h ( 。) 可以表示为: h ( z ) = g ( z p 扛l r ( z )( 2 4 ) 在上述语音信号产生的数学模型中,c ( z ) ,r ( z ) 黼y ,a ,a 。,清浊 判决,声道参数。,都是时变的。发声气管的惯性使这些参数的变化速度受到限制。 对于声道参数,在o 3 0 m s 内近似不变,语音分析帧长一般为2 0 m s 左右。对于 激励参数,在5 m s 左右近似不变。 图2 1 语音信号的产生模型 数字语音处理中的语音分析和语音合成问题都是基于上述模型来实现的。语 音分析是根据原始语音信号来估计信号模型的参数,而语音合成则是利用信号模 型参数产生出在可懂度和自然度方面可接受的语音来,语音信号的这种分析合成 系统在中低速率语音编码中应用十分广泛。 第2 章低速率语音编码技术 2 2 语音压缩编码的基本技术 2 2 1 线性预测编码 在基于参数模型的谱估计法中,常常假定系统的传递函数为有理函数,即变 量z 的有理分式。这种有理函数有三种情况:一种是只有零点没有极点的,称为 滑动平均模型,即m a 模型;另一种是只有极点没有零点的,称为自回归模型, 即a r 模型;第三种是既有零点又有极点的,称为自回归滑动平均模型,即a r m a 模型,但它的参数估计存在许多复杂问题。全极点模型的参数估计十分简便,而 且往往只需很少几个极点就可以相当好的逼近一种频谱或一种系统的频率响应。 因此上述的语音信号模型的系统函数用一个全极点模型来表示,其简化形 式为: 一器5 万g ( 2 5 ) 这个模型的主要优点在于可以用线性预测分析法对增益参数g 和滤波器的 系数a j 进行直接、高效率的计算。 这样语音信号s b ) 和激励信号e ( n ) 之间的关系可以用下列简单的差分方程 来表示: s ) 地( n ) + 善a i s ( n - i ) ( 2 6 ) 我们可以把上式中与n 有关的部分理解为:n 时刻语音信号不仅同月时刻激 励信号有关,还同n 时刻以前的语音信号有关,即语音样点间有相关性,可以用 过去的样点值预测未来样点值。 阶线性预测器的系统函数为: p ( z ) 2 荟叩“ 则预测器的输出为:f 仁) 。荟。t s 仁一) ( 2 7 ) ( 2 8 ) 河北大学工学硕士学位论文 那么用上式表示的线性预测器预测信号s ( n ) 的预测误 e ( ”) 5s ( ”) 一f ( 一) 2s ( n ) 一酗5 ( 枞) 2 2 2 矢量量化 ( 2 9 ) 矢量量化( v e c t o rq u a n t i z a t i o n 缩写v q ) 技术在语音编码尤其在中低速 率编码方面有着重要的应用。它在高效压缩数码率的同时能保持编码质量不下 降。 矢量量化是先将k 个( k 己2 ) 个采样值形成k 维空间胪中的一个矢量,然 后将这个矢量一次进行量化。它可以大大降低数码率。矢量量化的原理框图如图 2 2 所示,在编码端,将输入矢量与码本中的每一个码字或部分码字进行比较, 编解码端都具有相同的码本,当输入矢量被量化后,得到的是在码本中与该矢量 在某种测度下具有虽小失真的某码字的下标的索引,将其传输到解码端,解码端 按此索引即可从码本中找到相应的码字,就可以恢复或重构原始信号。 y :怔,y 2 ,y ) ify = 杷,y 2 ,k ) l 两级矢量量化器是多级矢量量化器中最简单的一种,因其相对简单,输出的 码字所需的比特数、码本存储容量以及运算量都较好,在应用场合使用的最多。 在g 7 2 9 a 中,也用到两级矢量量化。它的原理框图如下图2 - 3 所示: 第一级码书大小为1 ,第二级码书大小为n :,矢量维数为k 。由于每级码本的 体积很小,故一般采用全搜索方法对每级码本搜索。 第2 章低速率语音编码技术 工作原理:量化时( 编码时) ,输入矢量盖首先在第一级量化器中进行量化, 得到相应的量化矢量,并将其下标i 的编码信号送入信道。然后由盖减去x 形 成误差矢量e = 一一r ,p 就是第二级量化器的输入矢量,它在第二级量化器中量 化得到量化矢量ej ,并将其下标j 的编码信号送入信道。这样,信道中实际传输 的是下标f 和,的编码信号。译码时,把收到的f 和,的编码信号译成f 和j ,再 在译码端码书中分别找出和s j ,并将他们相加就得到输入矢量的重构矢量j , 即x = + f ,。 输 e ;x y 图2 3两级矢量量化编码器 2 2 3 码本激励线性预测 语音信号中主要存在两种类型的相关性,即语音样点之间的短时相关性和相 邻基音周期之间的长时相关性。 在基于合成分析的中低速率语音压缩编码方案中,最普通的语音合成模型为 b s m a l 提出的随机激励线性预测合成模型,这种模型的基本思想就是利用几 乎是白的信号激励两个时变的线性递归滤波器,每个滤波器反馈环路上有一个预 测器,其中一个是长时预测器( 或基音预测器) ,用来产生浊音语音的音调结构( 谱 的细致结构) ,另一个是短时预测器,用来恢复语音的短时谱包络。基于他的理 论,提出的c e l p 语音编码原理框图如图2 4 。 它采用矢量量化的码激励技术,即激励信号源是预先选定的一组激励序列组 甲上 河北大学t 学硕士学位论文 成的码本,码本容量的大小根据需要而定。编码原理:一般先将一帧语音信号分 成2 5 予帧,在每一个子帧里,用合成分析的方法根据感知加权准则从码本中 搜索出一个最佳码矢量作为最佳激励信号。将该最佳码矢量的标号编码后传送至 解码器,解码器通过查找相同的码本而得到最佳激励信号。 图2 4c e l p 语音编码原理框图 为了最佳匹配原始语音信号,c e l p 编码模型需要频繁的修正时变滤波器参 数和激励参数。系统的分析过程是按帧分序进行的,即首先确定时变滤波器的参 数,然后确定激励参数,分析帧的长度和修正速度决定了编码方案的比特率。上 述模型的激励参数优化过程使用的是感觉加权均方误差最小准则。而未使用普通 的均方误差最小准则。这是因为在低比特速率,每个语音样点平均分配的比特数 一般要小于l ,这就使得准确匹配语音波形变得十分困难,所以原始语音信号和 重建语音信号之间的均方误差缺少意义和充分性。这就要求所使用的误差准则和 人类的听觉特性相一致。目前流行的方法是在基于合成分析的编码方案中使用 a t a l 建议的感觉加权滤波器,它的作用是减弱共振峰频率区域的重要性,通过 在共振峰区域分配比较大的失真,来减少共振峰谷里主观感觉更大的噪声。 由于c e l p 合成语音质量好,抗噪音能力强,编码率低。近年来的研究十分 活跃,提出了很多新的方法,已被许多语音编码标准所采用。 2 3 语音编码器- 陛能的衡量 语音编码器的性能包括四个部分,即编码速度、编解码的复杂度、编解码的 第2 章低速率语音编码技术 时延,合成语音质量。 语音编码研究的基本问题就是在给定编码速率条件下,如何得到尽可能好的 重建语音质量,并保证尽可能小的编解码时延和适当的算法复杂度,或者说是在 给定编码质量、编解码时延及算法复杂度的条件下,如何降低语音编码所需的比 特率。 编码速率可以用比特秒( b s 或b p s ) 来度量,它代表了编码的总速率,一 般用i 表示。编码速率也可以用“比特样点”( b p ) 来度量,它代表了平均每个语 音样点用多少个比特编码,一般用r 表示。i 和r 可以通过采样速率联系起来: i = r f s 电话语音信号的频率范围是2 0 0 3 4 0 0 h z 所以f s = 8 k h z ,很明显,平均每样 点比特数r 越高,语音波形或参数量化就越精细,语音质量也就越高,相应的, 对传输带宽或存储容量的要求也就越高。 编解码算法的复杂程度与语音编码的语音质量有密切的联系。在相同比特率 情况下,采用相对复杂的一些算法会获得更好的语音质量,或者说,对于相同的 语音质量,采用相对复杂的算法会降低编码比特率。 编解码算法的复杂度与硬件的实现有密切关系,它决定了硬件实现的复杂程 度、体积、功耗及成本。目前的很多语音编码算法都采用通用d s p 芯片来实时 实现,这主要是考虑了投资少、研制周期短等优点。语音编码算法的复杂度越高, 所需d s p 芯片的速度越快,存储器容量越大,成本和功耗也越高。 编解码时延,在数字语音通信系统中,语音编解码时延像线路传输时延一样, 对系统的通话质量有很大的影响。般的,编解码的算法说越复杂,时延越大。 合成语音质量通常从主客观两个方面来度量。主观评价方法中对其评价和测 量方法通常用平均意见打分的办法,主要方法有m o s ( m e a no p i n i o ns c o r e ,简称 m o s 得分) 、判断韵字测试( d i a g n o s t i cr h y m e r t e s t ,简称d r t 得分) 和判断满 意度测试( d i a g n o s t i c a c c e p t a b i l i t ym e a s u r e ,简称d a m ) 得分等。 m o s 得分通常采用5 级评分标准,如表2 1 所示: 河北大学工学硕士学位论文 表2 一lm o s 评分标准 m o s 等级质量级别失真级别 5 优觉察不到 4 良刚有察觉 3 由 有察觉且稍觉可恶 2 差 明显觉察到,可厌,但可忍受 1坏 不可忍受 判断韵字测试( d r t ) 是反映语音清晰度或可懂度的一种方法,它主要应用 于低速率语音编码的质量测试,因为这时的可懂度已成为主要问题,对于低速率 语音编码,一般要求其清晰度能够达到9 0 以上。 判断满意度测量( d a m ) 是对语音质量的综合评估,它是在许多条件下对 语音质量可接受程度的一种量度,也可采用百分比评分。 客观评价方法是用客观测量的手段来评价语音编码质量,它们是建立在均方 误差测度的基础上,计算简单,但不能完全反映人对语音质量的感觉,这个问题 对于速率为1 6 k b p s 以下的中、低速率语音编码尤为突出。 第3 章c - 7 2 9 语音编码标准 第3 章g 7 2 9 语音编码标准 国际电信联盟i t u t 的g 系列建议面向的方向是传输系统和媒体,数字系统 和网络。g 7 2 9 协议是国际电信联盟于1 9 9 6 年3 月正式通过的语音压缩标准, 也被称为“共轭结构代数码激励线性预测编码方案( c s a c e l p ) ”,是由美国 a t & t 、法国t e l e c o m 、日本n t t 、和加拿大s h e r b r o o k e 大学等几家著名的国际电 信实体联合开发的。它将1 2 8 k b i t s 的p c m 信号压缩到8 k b i t s 的速率,压缩比 是1 6 ,并且保持了长话质量,m o s 评分大于4 。和其他几种g 系列语音压缩标准 相比,g 7 2 9 无论从速率和复杂性、语音质量等方面都存在着优势。1 9 9 6 年1 1 月又通过了g 7 2 9 协议附录a 即降低了复杂度的c s a c e l p 算法,它是g 7 2 9 协 议的简化方案,主要降低了计算的复杂度以及实现方便。在下面的叙述中,主要 介绍g 7 2 9 协议,在此过程中,把g 7 2 9 附录a 一同介绍。 3 1g 7 2 9 语音编码器概述 c 8 一a c e l p 编码器根据码激励线性预测( c e l p ) 的编码模式原理。编码器在 lo m s 的语音帧上运行,它相应于采样速率每秒8 0 0 0 次采样的8 0 个样本。对每 个l o m s 帧而言,分析语音信号以抽取c e l p 模型的参数( 线性预测滤波器系数、 自适应与固定码本时延和增益) ,编码并传输这些参数。 表3 18 k b i t sc s a c e l p 算法( 1 0 m s 帧) 的比特分配 参数码字子帧1子帧2每帧总计 线谱对l o ,l 1 ,l 2 ,l 3 1 8 自适应码本时延 p 1 ,p 2 851 3 基音时延奇偶性p o 1l 固定码本指标c i ,c 2 1 31 32 6 固定码本符号 s 1 s 2448 码本增益( 第一级)g a l ,g a 2 336 码本增益( 第二级) g b l ,g b 2 448 总计 8 0 在解码端,用这些参数来恢复激励信号和合成滤波器系数,如下图3 1 c e l p 河北大学工学硕士学位论文 合成模块原理图 话音 i 图3 1c e l p 合成模块原理图 短时合成滤波器基于一个1 0 阶线性预测( l p ) 滤波器,长时或基音合成滤 波器采用所谓的自适应码本方法来实施。计算重构语音之后,该语音通过后置滤 波器进一步增强。 编码器原理框图见图3 2 ,在编码器端,主要进行的有线谱对( l s p ) 参数 的量化、基音分析、固定码本的搜索和增益的量化四个步骤。编码器首先对输入 信号( 8 k h z 采样1 6 b i t s p c m 信号) 进行预处理,然后对每帧( 1 0 m s ) 语音进行 线性预测分析,得到l p c 系数,并把l p c 系数转换成l s p 参数,最后是对l s p 参 数进行矢量量化。在接下来的基音分析中,每一帧先搜索到最佳基音时延z 的一 个候选时延乙,然后依据乙在每一子帧( 5 m s ) 内搜索出各自的最佳基音时延。 固定码本的搜索主要是找到四个非零脉冲的位置和幅度。最后还需对自适应码本 增益g 。和固定码本增益g 。进行量化。激励参数除l s p 外,每一子帧一次。g 7 2 9 附录a 与g 7 2 9 算法是基本相似的,比特分配也是相同的。主要不同点有: 感知加权滤波器使用了量化的l p 滤波器系数,表达式为w ( z ) = a ( z ) - ( z r ) 其中y = o 7 5 。 开环基音分析时,采用抽取方法简化计算。即只计算偶数基音时延的相关数, 然后在所选基音时延+ 1 和一1 的时延上测试,以确定开环基音时延,而不 是在全部基音时延上都计算相关数再确定。 由于( z ) 量( z ) 简化为帕( y ) ,加权合成滤波器g 拍( z ) 的冲击响应的计 算,目标信号的计算,更新滤波器的状态都得以简化。 简化了固定代数码本的搜索过程,以迭代的深度优先树搜索代替四层嵌套循 第3 章( 3 7 2 9 语音编码标准 环,这一部分中,复杂度的降低占了整个编码器算法复杂度降低的5 0 。 在解码端,只使用整数时延,简化了后置滤波器。 在以下的叙述中,会对不同点加以详细的描述。 曲一鼍捆+ c s - a c e l 懈器编码原理 图3 - 2 河北大学工学硕十学位论文 3 2g 7 2 9 编码器 3 2 1 预处理 编码器的输入信号要求是1 6 b i t 的p c m 信号。预处理有两个功能: ( 1 ) 信号定标:输入信号被用2 除,以降低定点运算中的可能溢出。 ( 2 ) 高通滤波:预防不希望出现的低频分量。 预处理由式3 1 所示的截止频率为1 4 0 h z 的二阶极点零点滤波器来完成。 日,f。1:一046363718-092724705z-1+046363718z-2 ( 3 1 ) 爿一忙j i 西蕊蕊i 面五瓦瓦= 广 【j 1 , 经日。( z ) 滤波的输入信号称之为s 0 ) 。 3 2 2 线性预测( l p ) 分析和量化 3 2 21l p 分析 l p 分析的目的是去除语音信号间存在的短时相关性,从语音产生的数学模 型来看,凹分析就是为了求解声道模型v ( z ) 的参数。g 7 2 9 中的l p 分析采用的 是1 0 阶线性预测滤波器。具体的过程如下: 首先,为保证l p 分析的短时性,预处理后的信号5 ( h ) 要经过加窗处理。l p 分析窗采用来自过去语音帧的1 2 0 个样点、来自当前语音帧的8 0 个样点、以及 来自未来话音帧的4 0 个样点。窗给定如下: w 。n ) = 。40 4 0 c o s ( 罴) h 小。j 9 9 。:, c o s 2 n ( n - 2 0 0 ) 1 月;2 0 0 ,2 3 9 1 5 9 j 窗化后的语音为:s7 0 ) ;“b ( 一) 然后对加窗的信号求自相关函数,) : ,) ;y 2 3 9 。,0 b ,仁一七) 女:o ,1 0 r ( ) 一芝s ( ”b ( n 一七) 女= o ,一,1 0( 3 3 ) 第3 章g 7 2 9 语音编码标准 为了避免低电平输入信号的计算问题,g 7 2 9 采用了带宽扩展和自噪声校正因子 对,以) 进行了修正: r ( o ) = 1 0 0 0 1 r ( o ) ( 3 4 ) r 伍) ;w 岫瞎卜忙) k = 1 ,1 0( 3 5 ) 其中:1 0 0 0 1 是白噪声校正因子,w l a g 忙) 是6 0 h z 带宽扩展函数 。( k ) = e x p h 爿 f o = 6 0 h z | s = 8 0 0 0 h z ( 3 6 ) 虽后,利用修正的自相关函数,以) ,求解以下方程组来获得l p 滤波器系数n 。, 1 0 、 n 。r 0 f 一七1 ) = 一r7 ( 女) ;1 ,一,1 0 ( 3 7 ) 米用德宾递推算法,得到l p 滤波器系数n 。 3 2 2 2 l p 系数的量化 l p 系数在量化前要转换为线谱对( l s p ) 系数,这是因为l p 系数的微小变 化会造成合成滤波器极点位置较大的变化,从而使谱包络发生失真。在语音的线 性预测分析中,一短段语音被看成是一全极点滤波器日( z ) = 】爿( z ) ,4 ( z ) 为预测 误差滤波器。 4 ( z ) 小酗z 。 ( 3 8 ) 用爿仁) 构造两个i i 阶多项式,1 g ) ,( = ) : ,1 i z ) ;4 ( z ) + z “爿k 一1 ) ( 3 9 ) 巧0 ) ;彳【z ) 一z “a ( z 一1 )( 3 1 0 ) e b ) 是对称的实系数多项式,( z ) 是反对称的实系数多项式,因此它们都 有共轭的复根,能够证明这些多项式的所有的根均在单位圆上且相互交替,并且 e z ) ,e b ) 还有z = - + 1 的实根,即 河北大学工学硕士学位论文 扛j :o b ;o )e ;( z l :;o :玎) z 一1 但z ;t 1 这两个根不携带任何语音特征,所以修正多项式把该对根消去 e ( z ) = ,1 7 ( z ) 1 + z “ f 2z ) ;( z ) 1 一z 。1 ( 3 1 1 ) ( 3 1 2 ) 则曩( z ) 的根为e r ( i ;1 ,3 ,9 ) ,f 2 仁) 的根为e 枷r0 = 2 ,4 ,, 1 0 ) 。根据多 项式的性质,曩( z ) ,2 ( z ) 可以写成连乘的形式: f l ( z ) - ,卫,1 _ 2 q i z 1 + z - 2 ) f 2 ( z 卜。且皇一z q i z - 1 + z - 2 ) 其中吼= c o s ( 。) 即称为线谱对( l s p ) ,6 0 i 称为线谱频率( l s f ) 。 r 3 1 3 ) f 3 1 4 ) 鉴于多项式e ( = ) ,f 2 ( z ) 均为对称的,所以只需计算每个多项式的头5 个系 数。g 7 2 9 的算法是这样的,在0 玎的范围内取相等间隔的6 0 个点,估算它的 值并比较相邻两个点的符号,如果符号不同,则说明在这两个点之间多项式有根, 在两个等分点问再四等分来求更精确的根。在g 7 2 9 a 中,取得是5 0 个等分点, 在符号变化的间隔内分成两等分。 ,l ( z ) ,2 仁) 在等分点处的求值方法如下:首先,多项式的系数可以通过以 下递归关系发现: 。 ( f + 1 ) = 口,+ ,+ n 。+ ;一,1 ( f ) i = o ,一,4 ( 3 1 5 ) ,2 ( f 十1 ) = d ,。一口。一i + 。乙( f ) i = o ,4( 3 1 6 ) 其中,l ( o ) = ,2 ( o ) ;1 0 然后多项式,1 0 ) ,e 0 ) 在z = e 灿处的值可以写为: f ) = 2 e 邙。c ( x )( 3 1 7 ) 其中c g ) = l 扛) + ,( 1 圮g ) + f ( 2 地0 ) + ( 3 坡仁) + ,( 4 e 仁) + ,( 5 ) 2 这里厂0 ) ,i = 1 ,5 是0 ) 或,2 0 ) 的系数,即,1 ( f ) 或,2 ( f ) ,i ;o ,4 l b ) ;c o s ( m m ) 是坍阶切比雪夫多项式,c 扛) 在z = c o s ) 处的求解过程如下: 】8 一 第3 章g 7 2 9 语音编码标准 1 0 r k = 4d o w n t o1 b ;2 x b 女+ 。一b 。+ 2 + ,5 一k ) e n d c 扛) = x b 。一b :+ ,( 5 ) 2 初始值b 5 = 1 ,6 。;0 。 3 2 2 3l s p 系数的量化 采用标准化频率域 0 ,玎 中的l , s f 即甜。来表示l s p 系数q 。,即: 。一a r c c o s ( q i ) i ;l ,1 0 ( 3 1 8 ) 采用交换4 阶m a 预测方法预测当前帧的l s f 系数,计算的系数与预测的 系数之间的差采用两级矢量量化器量化。第一级是用包含1 2 8 ( 7 b i t ) 个码字的 的1 0 维矢量工1 量化。第二级采用分裂式矢量量化,将1 0 维矢量分裂成两个5 维矢量,前5 个分量构成一个矢量三3 ,后5 个分量构成一个矢量l 2 ,每个5 维 矢量再各用5 比特进行矢量量化。 设。( ) 为当前帧l s f 矢量,击,( ”) 为当前帧量化后的l s f 矢量,则对当前的 l s f 系数最好的近似的定义为具有下述的最小加权均方误差: 小誊w ,钟) ) 2 ( 3 1 9 ) 其中加权系数w ,是自适应。仰7 的。 叩。叫z + , 2 s fs 9 w ,2 1 0 一甜;+ 。一甜。一。一1 ) :+ 1 h 。2 美一珊。+ 。,2 。一,:+ , 另外权值w 5 和w 。每一个都乘上因子1 2 。 l s f 参数矢量量化过程分以下几个步骤: ( 1 ) 求得目标矢量,: 矿2 一o 0 4 石- 1 0 o t h e r w i s e 矿i + 1 一c o f t - 1 0 o t l 】e r w i s o 矿一q + o 9 2 百一1 0 o t h e r w i s e 河北大学工学硕士学位论文 z 。2 m 。) 一薹p 。f _ 一1 ,一荟4p 】 i = - ,。,。 c s z 。, 其中p 。为m a 预测系数,t 一为先前第女帧量化后的目标矢量。 ( 2 ) 进行第一级矢量量化,在l 1 中,在未加权的均方误差最小的准则下,搜 索最佳码矢量,得到它的码本索引。 ( 3 ) 进入第二级矢量量化的低部分矢量量化,其目标矢量是f i 与第一级搜索到 的最佳码字矢量的误差矢量,搜索使得加权后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高考地理试题分类汇编:人口解析版
- 2025年调酒师岗位职业技能资格知识考试题与答案
- 基于无人机三维激光扫描的输电精益化管理
- 2025关于住宅房屋租赁合同范本
- 2025合同丧失声明样本
- 2025四川兼职劳动合同
- “破解七陷阱”突破NA-高考化学考点复习(解析版)
- 安装家具合同(标准版)
- 2025店面股份及品牌授权使用合同
- 2025年度特种工程用沙石购销合同
- 铁路专项病害课件
- 开学安全教育课件
- 2025年学历类自考专业(学前教育)学前儿童发展-学前教育原理参考题库含答案解析(5套)
- 2025-2026学年人教版(2024)初中化学九年级上册教学计划及进度表
- 日本设备销售合同范本
- (2024)大学生宪法知识竞赛题库及答案
- 2025年芜湖市鸠江区医院招聘16名工作人员笔试参考题库附答案解析
- T-CBDA 86-2025 建筑幕墙、采光顶及金属屋面工程质量验收标准
- 厨房消防安全培训
- 2025山西阳泉平定县从社区专职网格员中选聘社区专职工作人员考试备考试题及答案解析
- 小陈 税务风险应对常见指标与答复思路
评论
0/150
提交评论