




已阅读5页,还剩73页未读, 继续免费阅读
(信号与信息处理专业论文)3gpp+amrnb与itut+g729ab间的语音转码方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 无线通信网络与i p 网络的互通与融合已成为未来通信发展的一个主要方 向。其中,由第三代合作组织( 3 g p p ) 标准化的自适应多速率窄带( 剐r n b ) 语音编码算法已应用于第三代移动通信系统。与此同时,由国际电信联盟( i t u t ) 标准化的g 7 2 9 a b 语音编码算法也被广泛应用于v o i p 等分组交换网络中。 为了实现上述两种通信系统间的互通,则需要进行编码标准间的转码操作。 目前有关转码的研究大多不涉及使用非连续传输( d t x ) 情况下的转码操作,在 源编码系统和目标编码系统一方使用、双方均使用或双方均不使用d t x 情况下, 还没有一套完整的a m r n b 与g 7 2 9 a b 间的转码方法。鉴于此,本文根据华为 技术有限公司的实际需要,提出了一套完整的支持d t x 和f e c 功能的3 g p p a m r - n b 与i t u tg 7 2 9 a b 间相互转码的方法。 当源编码系统和目标编码系统均不使用d t x 时,本文采用基于不同域的转 码方法进行语音帧参数的转码操作。在码书增益参数转码时,提出一种基于缩放 失真测度的转码方法。该方法转码后的合成语音质量高于级联( d t e ) 方法,并 且保证了转码后合成语音平均分段能量与d t e 方法相近,去除了能量差异对主 观听觉质量的影响,并使码书增益参数转码部分的计算复杂度降低为零。当源编 码系统和目标编码系统一方或双方均使用d t x 时,本文提出了用a m r - n b 的话 音激活检测( v a d ) 算法确定目标帧类型的方法,该方法在正向转码时使计算复 杂度降低1 个w m o p s 以上,并使源编码系统和目标编码系统在一方使用、双 方均使用或双方均不使用d t x 情况下的转码方法的融合成为可能。还提出了语 音帧参数与非语音帧参数间的转码方法。在发生丢帧情况下,本文采用了一种基 于线性预测的基音参数恢复和转码方法,该方法提高了在发生丢帧情况下转码后 的合成语音质量。 最后,对所提出转码方法的主客观合成语音质量、客观语音质量的9 5 置信 区间下限值、平均计算复杂度、最坏情况下的计算复杂度和所需存储空间与d t e 方法进行了比较。综合测试结果表明,所提转码方法在主客观合成语音质量均不 低于d t e 方法的前提下,使平均计算复杂度较d t e 方法降低了2 8 及以上,最 坏情况下的计算复杂度较d t e 方法降低了2 6 及以上。将本文所提出的转码方 法应用于实际的转码系统中,在满足用户需求的前提下,能够使运营商的运营成 本降低2 5 以上。 关键词: 语音编码;转码;a m r n b ;g 7 2 9 a b ;非连续传输 a b s t r a c t 墨! ! ! 苎苎暑! ! ! 苎! 皇曼! 鼍! ! 苎! ! ! ! 曼! ! 曼i ii1ii!i鼍!苎皇亭!皇烹!苎篁 a b s t r a c t i n t e r c o m m u n i c a t i n ga n dm e r g i n go fw i r e l e s sc o m m u n i c a t i o nn e t w o r ka n di p n e t w o r kb e c o m e sa ni m p o r t a n td e v e l o p m e n tt r e n di nt h ef u t u r e a m r n bs t a n d a r di s a d o p t e db yt h et h i r dg e n e r a t i o np a r t n e r s h i pp r o j e c t ( 3 g p p ) a st h em a n d a t o r yc o d e c f o rt h et h i r dg e n e r a t i o n ( 3g ) m o b i l ec o m m u n i c a t i o ns y s t e m a tt h es a m et i m e , g 7 2 9 a bs t a n d a r d i z e db yi t i i ti sw i d e l yu s e df o rp a c k e ts w i t c h e dn e t w o r k ss u c ha s v o i p i no r d e rt oc o m m u n i c a t eb e t w e e nt h ea b o v et w oc o m m u n i c a t i o ns y s t e m s ,a t r a n s c o d e ri sn e e d e dt oc o n v e r td i f f e r e n ts p e e c hc o d i n gb i t - s t r e a m a tp r e s e n t ,m o s to f r e s e a r c hw o r k so ns p e e c ht r a n s c o d i n gd on o ti n v o l v ed i s c o n t i n u o u st r a n s m i s s i o n ( d t x ) f u n c t i o n t h e r ei sn o ty e tac o m p l e t et r a n s c o d i n gm e t h o df o ra m r n ba n d g 7 2 9 a bt h a tc a nc a r r y o u tt r a n s c ol i n go p e r a t i o nw h e nn e i t h e r , e i t h e ro rb o t ho ft h e t w oc o d i n gs y s t e m sa d o p td t xf u n c t i o n i nt h ev i e wo ft h i sf a c t ,t h i sp a p e rp r o p o s e s ac o m p l e t et r a n s c o d i n gm e t h o df o r3 g p pa m r - n ba n di t u - tg 7 2 9 a bt h a tc a nd e a l w i t hd t xa n df r a m ee r a s u r ec o n c e a l m e n t ( f e c ) f u n c t i o n si na c c o r d a n c ew i t ht h e n e e do fh u a w e it e c h n o l o g i e sc o ,l t d w h e nn e i t h e ro ft h et w oc o d i n gs y s t e m sa d o p t sd t xf u n c t i o n ,t r a n s c o d i n g m e t h o d si nd i f f e r e n td o m a i n sa r ep r o p o s e d s p e c i a l l yr e l a t e dt oc o d e b o o kg a i n c o n v e r s i o n ,as c a l a b l ed i s t o r t i o nm e a s u r em e t h o di sp r o p o s e dt oi m p r o v et h es p e e c h q u a l i t ya n dk e e pt h ea m p l i t u d eo fs y n t h e s i z e ds p e e c hc o m p a r e dw i t hd e c o d et h e n e n c o d e ( d t e ) m e t h o d t h ee f f e c to ns u b je c t i v es p e e c hq u a l i t yd u et ot h ea m p l i t u d e o fs y n t h e s i z e d s p e e c h i sc a n c e l l e db yu s i n gt h ep r o p o s e dm e t h o da n dt h e c o m p u t a t i o n a lc o m p l e x i t yi sr e d u c e dt oz e r o w h e ne i t h e ro rb o t ho ft h et w oc o d i n g s y s t e m sa d o p td t xf u n c t i o n ,t h i sp a p e rp r o p o s e san e wd e s t i n a t i o nf r a m e - t y p e d e t e r m i n a t i o nm e t h o du s i n gv o i c ea c t i v ed e t e c t i o n ( v a d ) a l g o r i t h mo fa m r - n b t h e p r o p o s e dm e t h o di n t e g r a t e st h et r a n s c o d i n gm e t h o d sf o rn e i t h e r ,e i t h e ro rb o t ho f t h es o u r c ea n dd e s t i n a t i o nc o d i n gs y s t e m sa d o p t i n gd t xf u n c t i o ni n t oo n es y s t e m a n dm o r et h a n1 w e i g h t e dm i l l i o n so fo p e r a t i o n sp e rs e c o n d ( w m o p s ) i n c o m p u t a t i o n a lc o m p l e x i t yi s r e d u c e dw i t ht h i sm e t h o dw h e nt r a n s c o d i n gf r o m a m r n bt og 7 2 9 a b s i m u l t a n e o u s l yt r a n s c o d i n gm e t h o d sb e t w e e ns p e e c hf r a m e a n dn o n s p e e c hf r a m ea r ep r o p o s e d w h e nt h ef r a m ei sd e t e c t e da sa ne r a s e df r a m e ,a l i n e a rp r e d i c t i o nb a s e dp i t c hr e c o v e r ym e t h o di sa d o p t e di nt h i sp a p e rt oi m p r o v et h e q u a l i t yo f t r a n s c o d e ds p e e c h a tl a s t ,t h ep e r f o r m a n c eo ft h ep r o p o s e dt r a n s c o d i n gm e t h o di sc o m p a r e dw i t h i i i 北京工业火学工学硕上学位论文 d t em e t h o di nt e r m so fs u b je c t i v ea n do b je c t i v es p e e c hq u a l i t y , l o w e rb o u n d a r yo f 9 5 c o n f i d e n c ei n t e r v a lf o ro b j e c t i v es p e e c hq u a l i t y , a v e r a g ec o m p u t a t i o n a l c o m p l e x i t y , w o r s tc a s ec o m p u t a t i o n a lc o m p l e x i t y a n ds t o r a g es p a c e g e n e r a lt e s t r e s u l t ss h o wt h a t ,t h eq u a l i t yo ft h ep r o p o s e dm e t h o di si m p r o v e dc o m p a r i n gw i t ht h e c o n v e n t i o n a ld t em e t h o d t h ea v e r a g ec o m p l e x i t yi sr e d u c e db ya b o u t2 8 a n dt h e w o r s tc a s ec o m p l e x i t yi sr e d u c e db ya b o u t2 6 i ft h ep r o p o s e dm e t h o di sa d o p t e di n ar e a lt r a n s c o d i n gs y s t e m ,i tc a ns a v em o r et h a n2 5 s y s t e mc o s tf o rn e t w o r k o p e r a t o r s k e yw o r d s :s p e e c hc o d i n g ;t r a n s c o d i n g ;a m r - n b ;g 7 2 9 a b ;d t x 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:彳l 日期:匣丘土乒 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:缝象 导师签名: 第1 章绪论 1 1 课题背景 第1 章绪论 一直以来,语言都是人类相互交流的重要手段之一。随着数字信号处理与计 算机技术的发展,数字化通信网络已经成为信息社会中必不可少的基础设施之 一。用数字化的方法对语音进行编码、传送、存储、合成和识别等处理,是整个 数字化通信网中最重要最基本的组成部分。语音编码技术作为数字通信领域极为 重要的技术之一,在过去的几十年里已经取得了巨大的成果。在当前的v o l p 和 第三代移动通信系统中,语音编码也发挥了非常重要的作用。其中,由3 g p p 标 准化的a m r n b t 2 j 语音编码算法已用于第三代移动通信系统。该算法具有八种不 同的编码速率,并附有提高信道利用率的非连续传输d t x 功能【3 j 。与此同时,由 i t u t 标准化的g 7 2 9 a b ( 4 - 6 j 语音编码算法也被广泛应用于v o l p 等分组交换网络 中,该算法也包含提高信道利用率的d t x 6 】功能。无线通信网络与i p 网络的互通 与融合已成为未来通信发展的一个主要方向。 为了实现上述两种通信系统间的互通,需要进行编码标准之间的转码操作。 转码就是将传输到媒体网关或基站的源系统编码后的比特流“翻译”成目标系统 可正常解码的比特流。传统解决上述问题的方法称为d t e 方法,其原理框图如 图l 所示。当从系统a 向系统b 进行转码操作时,首先,用源编码系统a 的解 码算法将传输至媒体网关或基站的输入比特流进行解码,恢复出重建语音;然后, 用目标编码系统b 的编码算法对重建语音进行编码,生成转码后的输出比特流, 再传送至目标系统b ,反之亦然。d t e 方法虽然能够完成不同编码算法间的转码 操作,但存在以下三个问题:首先,传递至目标系统的合成语音需经过源编码系 统和目标编码系统的两次处理,这导致最终合成语音质量的明显降低。研究表明, 在d t e 单级联的情况下,m o s 分降低了0 5 分以上,在复合级联的情况下语音 质量下降的更多【7 j ;其次,由于d t e 方法经过源编码系统和目标编码系统的两 次处理,使转码操作的计算复杂度大大增加:最后,d t e 方法需利用目标编码 系统的编码算法来得到转码后的输出比特流,目标系统编码算法中l p c 分析的 附加延迟被引入到转码操作中,造成了整体转码方法延迟的增加。 北京工业大学丁学硕:e 学位论文 图l - 1d t e 转码原理框图 上述d t e 方法属于语音域的转码方法,所谓语音域转码方法即需要通过生 成重建语音来完成参数的转码操作,除此之外,还有激励域转码方法、参数域转 码方法和比特域转码方法。为了解决上述d t e 方法的弊端,国外研究人员基于 码激励线形预测( c e l p c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 语音编码模型【8 j 提出了 不同编码标准间的参数直接转换( p d c p a r a m e t e rd i r e c tc o n v e r s i o n ) 方法【9 j 。该 方法不需要重建语音来完成参数的转码操作,只需将待转码参数从输入比特流中 解码得出,进行适当的调整,将调整后的参数进行重新量化处理后写到输出比特 流中来完成转码操作。h o n g g o ok a n g 等提出了一种g 7 2 9 与a m r n b7 4 k b s 模式间的双向转码方法i l0 1 ,该方法侧重描述了l s p 参数和码书增益参数的转码 方法,在丢帧和不丢帧情况下,其主客观合成语音质量均高于d t e 方法,且计 l 算复杂度仅为d t e 方法的= 。y a s u j io t a 等提出了一种g 7 2 9 与a m r n b7 9 5 k b s u 模式间的双向转码方法】,该方法利用感知加权残差最小准则和倒谱失真系数最 小准则实现了高性能的l s p 参数转码,在不丢帧情况下,其主客观合成语音质 量均高于d t e 方法。j i n k y nc h o i 等提出了一种a m r n b 、g 7 2 3 1 与g 7 2 9 之 间的相互转码方法【抡】,该方法通过引入一种新的感知加权滤波器来提高转码后合 成语音质量,测试结果表明,g 7 2 9 a 向a m r n b5 1 5k b s 、7 9 5k b s 和1 2 2k b s 三种速率转码后的合成语音质量均高于d t e 方法,同时使计算复杂度降低了 2 9 - 7 7 。m o h a n m e dg h e n a n i a 等提出了一种g 7 2 9 与a m r n b1 2 2 k b s 模式 间的相互转码方法【l3 1 ,该方法引入了一种基于信号域的代数码书参数转码方法, 测试结果表明,在计算复杂度大幅降低的前提下,合成语音的主客观质量略低于 d t e 方法。c h r i s t o p h eb e a u g e a n t 提出了一种a m r - n b 与g 7 2 9 a 1 4 】之间基于语 音分类的基音参数转码方法。测试结果表明,应用该方法的合成语音质量高于 d t e 方法,同时使转码方法的平均计算复杂度进一步降低。国内对于转码的研 究起步相对较晚:2 0 0 4 年东南大学的吴振扬教授发表了一篇a m r 向1 3 7 2 9 进行 参数转码的论文【l 引,与传统的d t e 方法相比,在语音质量的损失可以接受的前 第l 章绪论 提下,计算复杂度有较大的降低。2 0 0 5 年复旦大学的胡波教授发表了一篇a m r 与g 7 2 9 a 之间进行参数转码的论文【l 引,所提方法提高了转换后的语音质量,而 且计算复杂度也降低了约2 5 6 4 。 统计研究表明,在人们的正常通话中,类似噪声的非语音信息占到了6 0 , 为了提高信道利用率,目前通常采用v a d 1 7 j 和d t x 算法来实现语音的非连续传 输,即对语音信息进行高比特率传输,对非语音信息进行低比特率传输。i t u t g 7 2 9 a b 就是这种非连续传输的典型案例。基于这种语音的菲连续传输技术,本 文将实际的语音转码过程分为四种情况,第一种情况为源编码系统和目标编码系 统均不使用d t x ;第二情况为源编码系统使用d t x ,而目标编码系统不使用 d t x ;第三情况为源编码系统不使用d t x ,而目标编码系统使用d t x ;第四情 况为源编码系统和目标编码系统均使用d t x 。t s u e h i n a g a 等申请了一个源编码系 统和目标编码系统均使用d t x 情况下的语音转码专利【i8 1 ,该专利所提方法可以 完成源编码系统使用d t x 而目标编码系统不使用d t x 、源编码系统和目标编码 系统均使用d t x 情况下的转码操作,但该专利不能完成源编码系统不使用d t x 而目标编码系统使用d t x 情况下的转码操作,且其实际的转码性能也未见报道。 虽然在转码方面已有学者提出了许多方法,但是调研发现目前有关转码的研 究大多不涉及使用d t x 情况下的转码操作,在源编码系统和目标编码系统一方 使用、双方均使用或双方均不使用d t x 情况下,还没有一套完整的a m r - n b 与 g 7 2 9 a b 间的转码方法。对于源编码系统和目标编码系统均不使用d t x 情况下的 转码方法研究,在a m r7 9 5 k b s 和7 4 k b s 两种速率与g 7 2 9 a b 之间的转码方法 研究较为成熟,在转码后合成语音质量高于d t e 方法的同时,使计算复杂度有 了尽可能大的降低。但在a m r 其它速率,例如1 2 2 k b s 、1 0 2 k b s 、5 1 5 k b s 和 4 7 5 k b s 四种速率下与g 7 2 9 a b 间的转码方法研究成果不容乐观,在转码后合成 语音质量提升与计算复杂度降低两方面还有待进一步的研究。这主要是由于 a m r 在上述四种速率下参数求取方法与g 7 2 9 a b 参数求取方法存在较大差异造 成的。随着移动用户和v o i p 用户数量的增长,无论是移动通信系统还是v o i p 系 统均会频繁使用d t x 功能来提高信道利用率。因此,提出一套完整的a m r n b 与g 7 2 9 a b 间的转码方法,使该方法可以同时处理源编码系统和目标编码系统一 方使用、双方均使用或双方均不使用d t x 情况下的转码操作,且在不降低主客 观听觉质量的同时,使整体计算复杂度尽量降低的转码方法已成为语音处理领域 极具挑战的任务之一。 1 2 研究目标 源编码系统和目标编码系统均不使用d t x 情况下的转码方法是整个转码方 北京工业人学工学硕上学位论文 法的基础,它的执行效率和合成语音质量会影响到使用d t x 情况下转码方法的性 能。同时,源编码系统和目标编码系统一方使用或双方均使用d t x 情况下转码方 法的执行效率和合成语音质量也决定着整个转码方法在使用d t x 情况下的性能。 因此,本课题的研究目标为:提出一套完整的带有d t x 和f e c 功能的3 g p p a m r n b 与i t u tg 7 2 9 a b 间相互转码的方法。便所提转码方法的主客观合成语 音质量不低于d t e 方法,客观合成语音质量得分的9 5 置信区间下限值不低于 d t e 方法,平均计算复杂度较d t e 方法降低2 5 及以上,最坏情况下计算复杂度 较d t e 方法降低2 5 及以上,使用定点c 语言实现所提转码方法,且所提转码方 法的程序、表格和通道变量存储空间不l 匕d t e 方法所用空间大。以达到满足客户 的主观质量和降低设备商硬件成本的要求,同时提高我国自主知识产权的应用竞 争力。 1 3 主要研究内容 根据本课题的研究目标,主要研究内容如下: 在源编码系统和目标编码系统一方使用、双方均使用或双方均不使用d t x 情况下,提出一套完整的a m r n b 与g 7 2 9 a b 间的转码方法。主要包含如下几 个方面: ( 1 )源编码系统和目标编码系统均不使用d t x 情况下a m r - n b 与g 7 2 9 a b 间 的转码方法; ( 2 )源编码系统或目标编码系统一方或双方均使用d t x 情况下a m r n b 与 g 7 2 9 a b 间的转码方法; ( 3 )源编码系统和目标编码系统一方使用、双方均使用或双方均不使用d t x 情况且发生丢帧时a m r n b 与g 7 2 9 a b 间的转码方法。 1 4 本文的组织安排 第一章为绪论,主要介绍了课题背景、本文的研究目标及主要研究内容。 第二章首先对a m r n b 与g 7 2 9 a b 均基于的c e l p 模型进行简单描述,然后将 a m r - n b 与g 7 2 9 a b 编码算法进行对比,最后对所提出转码方法的整体框架和处 理流程进行说明。 第三章介绍源编码系统和目标编码系统均不使用d t x 情况下的转码方法,主 要介绍了本文所提出的基于缩放失真测度的码书增益参数转码方法。 第四章介绍源编码系统和目标编码系统一方使用或双方均使用d t x 及发生 丢帧情况下的转码方法,主要介绍了本文所提出的目标帧类型确定方法、非语音 帧向非语音帧参数转码方法、语音帧向非语音帧参数转码方法、非语音帧向语音 第l 黉绪论 暑! 皇鼍暑! ! ! 鼍! ! ! 皇皇! ! ! 苎! ! ! ! 竺! 鼍! 鼍! 鼍詈! ! ! 竺詈苎曼皂! ! ! 苎苎詈! 曼! 鼍! 苎! ! 曼苎! ! ! 璺苎毫詈璺曼鼍曙毫! ! ! 皇苎皇苎! ! ! ! 鼍曼! 鼍 帧参数转码方法和发生丢帧情况下的转码方法。 第五章对所提转码方法性能进行测试,测试内容包括:主客观语音质量测试、 客观语音质量的9 5 置信区间下限值比较测试、平均计算复杂度测试、最坏情况 下计算复杂度测试和所提转码方法程序、表格和通道变量所需存储空间测试。最 后对所提转码方法的界面演示程序进行了介绍。 第2 章a m r n b 与g 7 2 9 a b 编码算法对比 及所提转码方法原理 由于a m r - n b 和g 7 2 9 a b 均基于c e l p 模型,所以本章首先对c e l p 模型 进行介绍。然后对a m r n b 与g 7 2 9 a b 的编码算法进行说明和对比,主要包括 两方面:不使用d t x 情况下的算法说明和对比、使用d t x 情况下的算法说明和 对比。最后介绍所提转码方法的整体框架和处理流程。 2 1c e l p 编码模型 八十年代后期出现的c e l p 语音编码技术是近十年来最成功的。它基于合成 分析原理,利用线性预测提取声道参数,应用感觉加权技术和波形编码准则去优 化激励信号。即在闭环的基础上,从一个具有典型激励矢量的码书中寻找主观失 真最小的激励矢量,从而以低于1 6 k b s 码率获得高质量的合成语音,现有的 g 7 2 8 ( 1 粥、g 7 2 9 和a m r n b 等语音编码标准均是基于这种技术。 2 1 1c e l p 语音编码器原理 在基于合成分析的中低速率语音编码方案中,应用最为广泛的即为b s a t a l 8 】 提出的随机激励线形预测合成模型。该模型的基本处理过程如下:首先将输入语 音经过短时预测器以去除语音信号样点间的相关性。经过实验观察,此时的信号 还存在很大的基音问的冗余性,所以再把经过短时预测器后的信号经过基音预测 器以去除基音周期间的样点相关性。经过两级预测得到的残差信号近似服从正态 分布。该模型的基本思想就是利用几乎是自的信号激励两个时变的线性递归滤波 器,每个滤波器反馈回路上有一个预测器,其中一个是长时预测器( 或基音预测 器) e ( z ) ,用来产生浊音语音的音调结构( 谱的细致结构) ,另一个是短时预测 器f ( z ) ,用来恢复语音的短时谱包络。图2 1 中的激励信号通常从高斯白噪声序 列构成的码书中选取,所以这种模型又称为码激励线性预测。 北京工业大学工学硕士学位论文 随机 激励 7 7 j jljl 厂i 厂_ 语音 信号 ( a ) 合成过程 ( b ) 预测过程 图2 - i 随机激励线性预测模型 图2 1 中的短时预测器的传递函数一般表示为: p ,( z ) = q z f z l 合成 语音 残差 信号 ( 2 - 1 ) 上式中,a 。为预测器系数,p 为预测器阶数,一般介于8 1 6 之间。在接收端, 短时合成滤波器的传递函数为: 舭,= 南= 高 ( 2 - 2 ) 上式中,彳( z ) = l - f ( z ) 是线性预测误差滤波器。预测器系数a ,一般每隔2 0 - - 3 0 m s 修正一次。 图2 1 中的基音预测器的传递函数一般表示为: , 户( z ) = 卢,z 州“ ( 2 - 3 ) 上式中,m 为基音延迟,屈为基音预测器系数。通常,m 随系数屈一起修正, 修正速率通常比短时预测器系数高,一般每隔5 1 0 m s 修正一次。式中求和限, 通常取0 或1 ,i = 0 时,对应于l 阶基音预测器,= 1 时,对应于3 阶基音预测 器。基音合成滤波器的传递函数为: 1 p ( z ) 2 高豸( 2 - 4 ) 根据图2 1 给出的语音合成模型,可以给出如图2 2 所示的基于合成分析过 程的c e l p 语音编解码模型。 第2 章a m r n b 与g 7 2 9 a b 编码算法对比及所提转码方法原理 ( a ) 编码器 i 最佳短时合成 i 激励 滤波器 i ( b ) 解码器 输出语音 图2 2c e l p 语音编码原理框图 为了最佳匹配原始语音信号,c e l p 编码模型需要频繁地修正时变滤波器参 数和激励参数。系统的分析过程是按帧分序进行的,即首先确定时变滤波器的参 数,然后确定固定激励参数。分析帧的长度和修正速率决定了编码方案的比特率。 上述模型的激励参数优化过程使用的是感觉加权均方误差最小准则,而未使用普 通的均方误差最小准则。这是因为在低比特速率,每个语音样点平均分配的比特 数一般要小于1 ,这就使得准确匹配语音波形变得十分困难。所以,原始语音信 号和重建语音信号之间的均方误差缺少意义和充分性,这就要求所使用的误差准 则应该和人类的听觉特性相一致。尽管人们在不断地开展有关听觉特性的研究工 作,但迄今为止还没有一个满意的误差准则问世。 在误差准则方面,目前流行的方法是在基于合成分析的编码方案中使用由 a t a l 建议的感觉加权滤波器,其传递函数为: 瞰,= 蒜= 誊肚川 p 5 , 这里,a 。为量化后的线性预测( l p ) 系数,y 为展宽因子。感觉加权滤波器的频 率特性中的峰和谷正好与语音谱中的峰和谷相反,所以感觉加权滤波器的作用是 减弱共振峰频率区域的重要性,通过在共振峰频率区域分配比较大的失真,来减 少共振峰谷里主观感觉更大的噪声。这一过程利用了人耳听觉的掩蔽效应,即共 北京工业火学工学硕一k - 学位论文 振峰处的噪声相对于能量较低频段的噪声而言不易被察觉。对于8 k h z 的采样频 率,展宽因子y 通常介于0 。8 0 9 之间。 为了计算简便,将图2 2 中的感觉加权滤波器r v ( z ) 的位置进行一下调整, 如图2 - 3 所示。这样,在整个闭环搜索过程中仅对输入语音信号加权一次。同时, ( z ) 与短时合成滤波器巧( z ) 组合得到如下的感觉加权合成滤波器: 以加舭沙= 去叭加忑p ( 2 - 6 ) 图2 - 3 修正的c e l p 编码器 2 1 2 两级码书结构的c e l p 编码器 图2 - 3 中,当基音合成滤波器的阶数为1 时,由式( 2 。3 ) 和式( 2 4 ) 可知, 基音合成滤波器的传递函数为: 州加毒 ( 2 - 7 ) 上式中,氍为基音预测系数,m 为基音延迟。当固定码书激励作用于h p ( z ) 时, 其输出为: d ( n ) = u ( n ) + g 。d ( n m )( 2 - 8 ) 由式( 2 8 ) ,可以将合成激励看作两个激励的叠加,一个来自于u ( n ) ,用固 定码书表示。结合图2 2 和图2 3 可知,这里的u ( n ) 在理论上具有白噪声的特性。 第2 章a m r n b 与g 7 2 9 a b 编码算法对比及所提转码方法原理 另一个激励信号来自于过去的合成激励d ( n m ) 。这里,d ( n m ) 由自适应码书 表示。自适应码书利用移位寄存器来存储码矢量,码矢量具有叠接性,若基音延 迟m 的最大值为m m 腻,则自适应码书的大小为m m 酞。自适应码书记录着语音信 号的周期信息,并且每子帧更新次。两级码书结构的c e l p 语音编码模型的原 理可用图2 - 4 来表示。事实上,几乎全部的c e l p 语音编码器都是基于这种两级 码书结构模型而实现的【。 图2 4 两级码书结构的c e l p 编码器 c e l p 语音编码算法主要包括l p 分析( 又称短时谱分析) 、自适应码书搜索 和固定码书搜索三大部分。短时谱分析通常每帧进行一次,采用l p 分析提取语 音信号的谱包络信息,自适应码书搜索和固定码书搜索则每子帧进行一次。从自 适应码书和固定码书中搜索出的最佳激励矢量乘以各自的最佳增益后相加便可 得到激励信号e 。( 捍) ,它被用来更新自适应码书( 每子帧更新一次) 。在解码端, 解码器根据编码器传输过来的信息从自适应码本和随机码本中找到最佳码矢量, 分别乘以各自的最佳增益并相加可恢复出激励信号巨( 门) ,将e 。( 甩) 输入到感觉 加权合成滤波器便可得到合成语音雪( 刀) 。 2 2a m r n b 与g 7 2 9 a b 编码算法说明和对比 g 7 2 9 是i t u t 制订的基于共轭结构代数码激励线性预测( c s a c e l p c o n j u g a t es t r u c t u r e a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ) 模型的语音编码标 准,该算法广泛应用于v o l p 等分组无线网络中,且只有8 k b s 一种固定编码速率。 g 7 2 9 a 是g 7 2 9 的简化版本,其与g 7 2 9 的比特流格式相互兼容。g 7 2 9 a 的计算 北京t 业大学丁学硕【j 学位论文 复杂度约为g 7 2 9 的5 0 ,合成语音质量略低于g 7 2 9 2 0 j 。g 7 2 9 b 是g 7 2 9 具有 d t x 功能的版本,该版本的编码算法支持速率为1 5 k b s 的背景噪声编码模式。 在实际应用中,常将具有低计算复杂度的g 7 2 9 a 和具有d t x 功能的q 7 2 9 b 联 合使用,联合后的编码算法常称为g 7 2 9 a b 。 a m r - n b 是由3 g p p 制订的基于c e l p 模型的语音编码标准,主要应用于第 三代移动通信系统之中。a m r - n b 具有从4 7 5 k b s 到1 2 2 k b s 的八种速率模式以 及一种1 。7 5 k b s 的背景噪声编码模式,它可以根据实际信道状况选择一种编码模 式进行传输。 a m r n b 与g 7 2 9 a b 均基于c e l p 模型,两个编码算法对于语音信号的处理 过程是相同的。首先都需要将输入语音通过v a d 算法进行分类,分为语音帧或 非语音帧。然后根据不同的帧类型选用不同的编码处理方法:对于语音帧采用高 码率的编码算法,对于非语音帧采用d t x 进行高效压缩编码处理,将需要传送 的噪声信息通过s i d 帧发送到解码端。最后将比特流进行传送。在解码端,根据 不同的帧类型选择不同的解码算法生成合成语音,其中,c n g 算法用来对非语 音帧信息进行恢复,语音帧解码算法用来对语音帧信息进行恢复。图2 5 为 a m r n b 和g 7 2 9 a b 编解码算法的原理框图。 图2 5a m r n b 和g 7 2 9 a b 编解码算法原理框图 2 2 1a m r - n b 与g 7 2 9 a b 在不使用d t x 情况下编码算法对比 q 7 2 9 a b 的处理帧长为1 0 m s ,在线性预测分析时引入5 m s 的附加延迟,因 此,g 7 2 9 a b 的整体算法延迟为1 5 m s 。对于每个输入的1 0 m s 帧,采用 l e v i n s o n d u r b i n 1 , 2 1j 算法对l p c 系数进行求解。求解得到的l p c 系数用多级矢 量量化方法进行量化,将量化后的l p c 系数发送至解码端,用于重构短时合成 滤波器。未量化的l p c 系数则用于在编码端构建感知加权滤波器,将输入语音 经过感知加权滤波器后得到感知加权语音,对感知加权语音进行开环基音分析以 第2 章a m r n b 与g 7 2 9 a b 编码算法对比及所提转码方法原理 得到开环基音值。为了避免基音加倍现象的发生,将开环基音值的计算范围分为 三段,在不同计算范围内使用不同的权值,令较小的基音值更容易被选中。在得 到开环基音值后,采用一阶基音预测器进行自适应码书搜索,所采用的分数基音 1 分辨率为二。随后进行固定码书搜索,采用4 脉冲代数码书对非周期激励信号进 3 行表示,代数码书搜索采用深度优先树算法【2 2 , 2 3 】。最后,为了提高码书增益部分 的量化效率,对自适应码书增益和代数码书增益采用基于共轭结构的联合量化方 法进行量化操作。 a m r n b 的处理帧长为2 0 m s ,除1 2 2 k b s 模式外,在线性预测分析时也引 入5 m s 的附加延迟,因此,a m r n b 的整体算法延迟为2 5 m s 。在编码端也采用 l e v i n s o n d u r b i n 算法对l p c 系数进行求解。与g 7 2 9 a b 不同的是,对于求解得 到的l p c 系数,a m r - n b 在1 2 2 k b s 模式下采用分裂矩阵量化方法进行量化操 作,在其余速率模式下采用分裂矢量量化方法进行量化操作。在开环基音分析时, 为了避免基音加倍现象的发生也采取了将开环基音值的计算范围分为三段,在不 同计算范围内使用不同的权值,令较小的基音值更容易被选中的方法。在自适应 码书搜索时,根据不同速率选择不同的搜索范围和不同的分数基音分辨率进行搜 索。对于固定码书搜索,也采用代数码书结构对非周期激励信号进行表示,在 a m r n b 不同速率时采用不同的脉冲个数进行表示。对于码书增益参数量化, 在a m r n b1 2 2 k b s 和7 9 5 k b s 模式下分别对自适应码书增益和代数码书增益进 行量化,在其余速率模式下对自适应码书增益和代数码书增益采用联合量化方法 进行量化。 表2 - 1 给出了a m r - n b 与g 7 2 9 a b 在不使用d t x 情况下算法之间的比较。 从表中可以看出,a m r n b7 9 5 k b s 、7 4 k b s 、6 7 k b s 和5 9 k b s 四种速率模式 的编码算法与g 7 2 9 a b 编码算法之间的差异较少,而a m r - n b1 2 2 k b s 、1 0 2 k b s , 5 1 5 k b s 和4 7 5 k b s 四种速率模式的编码算法与g 7 2 9 a b 编码算法之间的差异较 大。 2 2 2a m r n b 与g 7 2 9 a b 在使用d t x 情况下编码算法对比 两个编码器在使用d t x 情况下的算法均包括以下四个部分:语音激活检测 ( v a d ) 、非连续传输功能( d t x ) 、静音插入描述( s i d s i l e n c ei n s e r t i o n d e s c r i p t o r ) 和舒适噪声产生( c n g c o m f o r tn o i s eg e n e r a t i o n ) 2 4 j 。其中,v a d 算法将输入语音分为语音帧和非语音帧两类。对于非语音帧,使用d t x 算法进 行高效压缩编码。d t x 算法用来判断是否需要发送编码比特流来对当前非语音 帧信息进行描述:如果不需要,则不发送任何信息;若需要,则将含有非语音帧 表2 - 1a m r n b 与g 7 2 9 a b 在不使用d t x 情况下编码算法对比 a m r n b 对比参数 与g 7 2 9 a b 相同点与g 7 2 9 a b 不同点 比特率 帧长不同 所有速率帧长子帧长度均为5 m s a m r n b 帧长为2 0 m s g 7 2 9 a b 帧长为1 0 m s 具体量化方法及分配比特数 线谱对参数( l s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年美国留学入学测试题及答案
- 合作学习:高中英语阅读教学的创新引擎与实践探索
- 代写申博研究计划书合同8篇
- 2026届高考政治一轮复习统编版选必一 第四单元国际组织知识整合 课件
- 教师招聘之《小学教师招聘》模拟卷包及答案详解一套
- 教师招聘之《小学教师招聘》考试押题密卷及完整答案详解【考点梳理】
- 教师招聘之《幼儿教师招聘》模拟题库带答案详解(b卷)
- 2025年教师招聘之《幼儿教师招聘》通关试题库含答案详解(新)
- 教师招聘之《幼儿教师招聘》考试押题卷含答案详解【考试直接用】
- 押题宝典教师招聘之《小学教师招聘》考试题库含答案详解【综合卷】
- 2022年贵州省人民医院医护人员招聘笔试试题及答案解析
- “数学悖论”-辛普森悖论
- 医疗器械临床试验GCP三套考试题
- 车辆赠与协议模板
- 烧结岗位安全操作培训-PPT课件
- 【课件】1.2 点线传情——造型元素之点线面 课件-2021-2022学年高中美术人美版(2019)选修绘画
- 运动处方(课堂PPT)
- 物资储备与物流方案
- 财务报销流程培训PPT模板课件
- 关于加强铁路企业年金管理的指导意见
- 幼儿园体检结果分析评价表
评论
0/150
提交评论