![(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd1.gif)
![(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd2.gif)
![(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd3.gif)
![(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd4.gif)
![(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd/6bd5b66e-1ac1-4ca9-9885-eaacf6b886dd5.gif)
已阅读5页,还剩58页未读, 继续免费阅读
(电路与系统专业论文)基于GMM的AMRNB与G729A之间的LSP与基音参数转码技术研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 a m r n b 与g 7 2 9 a 两种编码器之间转码技术的研究是当今语音编码领域的 一大热点。传统的基于d t e 的l s p 参数与基音参数转码算法具有计算复杂度高, 合成语音质量较差等问题。针对这种情况,本文提出了一种有效的解决办法。 首先,本文在c e l p 语音编码模型的基础上,对a m r n b 与g 7 2 9 a 两种编 解码器的线性预测分析方法,基音搜索技术,代数码书的结构和搜索方法,增益 信息量化方法以及编码性能进行了详细的对比。 其次,本文对传统的a m r n b 与g :7 2 9 a 之间的l s p 参数与基音参数转码 技术进行了分析研究。在l s p 参数转码技术中,通过对非线性插值方法和线性 插值方法的分析,提出了一种基于最小二乘法的l s p 参数线性插值系数向量求 取方法。 最后,本文通过对高斯混合模型的数学分析,建立并实现了基于高斯混合模 型的l s p 参数与基音参数转码算法,并通过实验对高斯混合模型在转码中的一 些实际应用问题进行了分析和讨论。实验结果表明,本文提出的基于高斯混合模 型的l s p 参数转码算法在合成语音质量不次于d t e 方法的同时,l s p 参数计算 复杂度下降了7 8 9 或以上;本文提出的基音参数转码在合成语音质量接近d t e 方法的同时,计算复杂度降低了6 0 7 4 或以上。 关键词:a m r - n b ;g 7 2 9 a :语音转码;l s p :基音:g m m a b s t r a c t a b s t r a c t n o w a d a y sr e s e a r c ho nt r a n s c o d i n gt e c h n i q u e sb e t w e e na m r 。n ba n dg 7 2 9 a i s p o p u l a ri nt h ef i e l do fs p e e c hc o d i n g t h e r ea r es e v e r lp r o b l e m s i nt r a d i t i o n a l t r a n s c o d i n ga l g o r i t h m so fl s pa n dp i t c hp a r a m e t e r sb a s e do nd t es u c ha sh i i 曲 c o m p l e x i t ya n dh i g l ls p e e c hd i s t o r t i o n i nt e r m so fi t ,a ne f f e c t i v es o l u t i o ni sp r o p o s e d i nt h i sp a p e r f i r s t l y , i nt h i st h e s i s ,i ti sd e t a i l e d l yc o n t r a s t e df o rt h ea l g o r i t h m so fl i n e a r p r e d i c t i v ea n a l y s i s ,s e a r c h i n gt e c h n i q u e so fp i t c h ,s e a r c h i n gm e t h o d sa n ds t r u c t u r eo f a l g e b r a i cc o d c b o o k ,q u a n t i z a t i o nm e t h o d so fg a i na sw e l la ss p e e c hp e r f o r m a n c eo f b o t ht h ec o d e c s s e c o n d l y , t h et r a d i t i o n a lt r a n s c o d i n gt e c h n i q u e so fl s pa n dp i t c hp a r a m e t e r sa r e a n a l y z e d b ym e a n so ft h ea n a l y s i so fn o n l i n e a ra n dl i n e a ri n t e r p o l a t i o nm e t h o d si n t r a n s c o d i n go fl s pp a r a m e t e r s ,ac a l c u l a t i o n m e t h o do ft h el i n e a ri n t e r p o l a t i n g p a r a m e t e rv e c t o ro fl s pp a r a m e t e r sb a s e do nl e a s ts q u a r em e t h o di sp r o p o s e di nt h i s t h e s i s f i n a l l y , t r a n s c o d i n ga l g o r i t h m so fl s pa n dp i t c hp a r a m e t e r sb a s do ng m m a r e p r o p o s e da n dr e a l i z e dt h r o u g ht h em a t h e m a t i c a la n a l y s i so fg m m i nt h i st h e s i s m e a n w h i l e ,s e v e r a lp r a c t i c a li s s u e si nd e t a i l sa r ea n a l y s e du n d e re x p e r i m e n m i ti s s h o w nb yt h er e s u l t so ft h ee x p e r i m e n t st h a t :b ye m p l o y i n gt h ep r o p o s e dl s p t r a n s c o d i n ga l g o r i t h mt ot h et r a n s c o d e r s ,t h ec o m p l e x i t yi sr e d u c e db y7 8 9 o r a b o v e ,w i t ht h es p e e c hq u a l i t yn o tw o r s et h a nd t em e t h o d ;b y e m p l o y i n gt h e p r o p o s e dp i t c ht r a n s c o d i n ga l g o r i t h mt ot h et r a n s c o d e r s ,t h ec o m p l e x i t yi sr e d u c e db y 6 0 7 4 o ra b o v e ,w i t ht h es p e e c hq u a l i t ya p p r o a c h i n gt od t em e t h o d k e y w o r d s :a m r - n b ;g 7 2 9 a ;s p e e c ht r a n s c o d i n g ,:l s p ;p i t c h ;g m m 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 关于论文使用授权的说明 日期: 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:王 - 峰导师签名:歹趔日期:班 第l 章绪论 1 1 课题背景 第1 章绪论 a m r n b 【i 】( a d a p t i v em u l t i p l er a t e - n a r r o wb a n d ) 是3g p p ( 3 r dg e n e r a t i o n p a r t n e r s h i pp r o j e c t ) 制订的语音压缩标准,现广泛应用于w - c d m a ( w i d e b a n d c o d em u l t i p l ea c c e s s ) 和t d s c d m a ( t i m e d i v i s i o n s y n c h r o n o u sc o d ed i v i s i o n m u l t i p l ea c c e s s ) 等第3 代移动通信系统。g 7 2 9 t 2 j 是i t u ( i n t e m a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ) 于19 9 5 年制定的语音编码方案,g 7 2 9 a 3 】是g 7 2 9 的 低复杂度版本,现主要应用于语音压缩与v o l p ( v o i c eo v e ri n t e m e tp r o t o c a l ) 等 通信系统。这两种语音编码技术在当今移动通信系统和网络通信系统中的作用越 来越重要。为了实现不同供应商之间通信设备的兼容与互通,需要进行不同语音 编码标准间的转码工作。目前解决这个问题最为广泛的方法是直接转码( d t e , d e c o d et h e ne n c o d e ) ,转码方法框图如图1 1 所示。d t e 转码方法的流程为:发 送端的解码器将传输的比特流进行解码后恢复出重建语音,再应用接收端的编码 器对重建语音进行编码,生成接收端解码器可以解码的码流,再传送至接收端。 这种传统的码流转换方案具有两大缺点:一是运算量大,一次转换需要一次译码 过程( a m r - n b 译码或者g 7 2 9 a 译码) 和一次编码过程( g 7 2 9 a 编码或者 a m r - n b 编码) ,计算复杂度很高。二是由于二次压缩造成语音失真度加大,降 低了合成语音质量。在d t e 单级联的情况下,m o s ( m e a no p i n i o ns c o r e ) 分降 低了0 5 以上,在复合级联的情况下质量下降的更多。 a m r - n b i 一一一一一一一一一一一一i g 7 2 9 a 图卜ld t e 转码方法框图 为了解决d t e 方法带来的弊端,国外学者提出了利用直接参数转换的方法 来实现不同编码标准之间的转码,此种方法主要通过比特域,参数域和信号域之 间的转换来实现不同编码标准之间的转码。采用不同域之间的参数转换效果是不 同的,选择在哪个域来进行参数转换要折衷考虑很多因素,如量化方法的异同, h 竹 北京工业大学工学硕十学位论文 计算复杂度和转码效果等等。日本科学家y a s u j io t a 等在2 0 0 2 年发表了一篇 a m r n b 与q 7 2 9 a 之间转码的论文1 4 】,该论文在l s p ( l i n e a rs p e c t u a lp a i r ) 参 数转换时给出了关于转换效果的度量,通过感知加权残差准则和倒谱失真系数, 可以在最小化主观谱失真的前提下得到最优的转换l s p 参数。2 0 0 4 年m o h a n m e d g h e n a n i a 发表了一篇关于a m r - n b 与g 7 2 9 a 之间转码的论文d 】,该论文在l s p 参数转换时将谱失真作为衡量l s p 参数转换性能的标准,转换性能达到了透明 量化的效果:在固定码书转换时应用信号域的快速算法,在降低复杂度的同时没 有降低主观的听觉质量。2 0 0 4 年j i n k y uc h o i 也发表了一篇a m r n b 与g 7 2 9 a 直接转码的论文【6 l ,该论文给出了g 7 2 9 a 到a m r n b 转换时客观语音质量的测 试结果。结果表明,从g 7 2 9 a 到a m r n b 的5 15 k b i t s 、7 9 5 k b i t s 和1 2 2 k b i t s 三种速率进行转换时,应用文中所提供的算法得到的合成语音质量要高于d t e 方式的合成语音质量。在转码技术的研究方面,国内学者起步较晚,2 0 0 4 年东 南大学的吴振扬教授等发表了一篇a m r n b 到g 7 2 9 a 进行参数转码的论文【7 j , 与传统的编码器转换方案相比,在语音质量的损失可以接受的前提下,算法复杂 度有较大的降低。2 0 0 5 年复旦大学的胡波教授等发表了一篇g 7 2 9 a 与a m r 进 行参数转码的论文【8 l ,所提算法提高了转换后的语音质量,而且计算复杂度也降 低2 5 - 6 4 。 然而,从目前国内外的研究现状看,还没有一种方法能够解决转码后语音质 量明显提升而复杂度又大幅度下降的问题。基于这种情况,本人所在实验室与华 为技术有限公司合作,在充分研究3 g p p a m r n b 与i ,r u t - g 7 2 9 a 两种标准的 编解码技术和现有的两者之间的转码技术以后,试图提出一种更加有效的l s p 参数与基音参数转码技术,在语音质量提升0 - - 0 1 个m o s 分,不引入转码延迟, 空间复杂度不增加的前提下,使转码算法的计算复杂度降低3 0 以上,以达到满 足客户的主观质量和设备商降低硬件成本的要求,同时提高我国自主知识产权的 应用竞争力。 1 2 研究目标 本文围绕华为技术有限公司与北京工业大学语音与音频信号处理实验室合 作的a m r - n b 与g 7 2 9 a 转码项目展开研究,目标是建立并实现一种有效的 a m r - n b 与g 7 2 9 a 相互的l s p 与基音参数转码算法,并基于该算法,给出一套 a m r n b l 0 2 k b p s 模式与q 7 2 9 a 相互转码的转码器方案。根据项目要求,该转 码算法具体指标的要求为: ( 1 ) 转码后合成语音质量与d t e 方法相比,m o s 分提高1 ; ( 2 ) 转码算法计算复杂度与d t e 方法相比,降低3 0 或以上; 第1 章绪论 ( 3 ) 转码算法所需存储空间不超过d t e 方法; ( 4 ) 转码延时不超过d t e 方法。 1 3 研究内容 本文围绕华为技术有限公司与北京工业大学语音与音频信号处理实验室合 作的a m r - n b 与g 7 2 9 a 转码项目展开研究,其中本文的研究重点主要包括以下 几个方面: ( 1 ) 研究a m r - n b 与g 7 2 9 a 标准,熟悉标准中各参数的计算方法和量化方法, 对参数直接转码算法中主要转换的4 个参数:l s p 参数,基音延迟,固定码书索 引和增益索引的求取方法和量化方法进行对比分析,尤其对l s p 参数与基音参 数进行重点研究; ( 2 ) 分析传统的a m r n b 与g 7 2 9 a 的八种速率之间的参数层转码算法,重点 是l s p 参数的转码技术及基音参数的转码技术; ( 3 ) 研究高斯混合模型的基本原理及其在语音信号处理领域中的应用,并将其 应用于a m r n b 与g 7 2 9 a 的转码之中,建立和实现基于高斯混合模型的l s p 参数转码函数,并进行性能评测。 ( 4 ) 寻找一种基于g m m 的基音参数转码方案,其中工作重点是语音质量的提 升。 ( 5 ) 设计一套有效的a m r n b l 0 2 k b p s 模式与g :7 2 9 a 之间的转码算法,其中 重点包括新的l s p 参数与基音参数转码技术,并给出语音质量与复杂度评测结 果。 1 4 论文结构 第一章是全文的绪论,主要介绍了本文的课题背景、研究目标、研究内容以 及论文结构。 第二章对a m r o n b 与g 7 2 9 a 两种编解码器进行概述,主要介绍了语音编码 技术的分类、c e l p 语音编码的基本原理,分析了a m r n b 与g 7 2 9 a 编解码器 的技术细节,比较了两者之间的异同点。 第三章总结了传统的a m r o n b 与c t 7 2 9 a 编解码器之间的l s p 参数与基音 参数转码技术。 第四章分析了高斯混合模型在语音信号处理中的应用及其基本原理,建立了 基于g m m 的a m r - n b 与g 7 2 9 a 之间的l s p 参数转码函数,并给出相应的实 验结果。 第五章实现了一种基于g m m 的a m r o n b 与o 7 2 9 a 之间的基音参数转码方 北京工业大学工学硕士学位论文 案。 第六章设计并实现了一套a m r - n b1 0 2 k b p s 模式与g 7 2 9 a 之间的相互转码 方案以及性能评测。 第2 章a m r n b 与g 7 2 9 a 编码器的对比研究 第2 章a m r - n b 与g 7 2 9 a 编码器的对比研究 2 1 语音编码 语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从 而降低传输码率并进行数字传输。语音编码研究的基本问题是在给定编码速率的 条件下,如何得到尽可能好的重建语音质量,并保证尽可能小的编解码延时和适 当的编码复杂度。或者说是在给定的编码质量、编解码延时及算法复杂度的条件 下,如何降低语音编码所需的比特率。 2 1 1 语音编码的分类 语音编码的分类方式有很多,按照编码方式可以分为三类:波形编码、参数 编码和混合编码【引。 ( 1 ) 波形编码是尽量使重建的语音信号波形逼近于原始信号,一般将语音信号 当成波形信号来处理,这种方式编码的话音质量较好,但是其比特率较高,一般 在1 6 - - 6 4 k b p s ,当速率进一步降低时,语音质量会有较大的下降。常见的波形 编码模型有脉冲编码调制( p c m ) 以及自适应差分脉冲编码调制( a d p c m ) 等。 ( 2 ) 参数编码是编码语音信号的特征参数,通过这些参数来合成语音,使重建 语音有尽可能高的可懂度,即保持语音的语义,这种编码方式的编码速率很低, 一般在4 k b p s 以下,但是其编码出的语音质量较差,自然度较低,只能保证语音 的可懂度。常见的参数编码模型有波形内插编码( w i ) 、多带激励编码( m b e ) 正弦变换编码( s t c ) 以及混合激励线性预测( m e l p ) 等。 ( 3 ) 混合编码克服了波形编码和参数编码的弱点,使两种方法较好的结合在一 起,并引入了合成分析等新的技术,能够在4 1 6 k b s 上取得高质量的合成语音。 混合编码模型中比较有代表性的是码激励线性预测编码( c e l p ) ,本文研究的 a m r - n b 与q 7 2 9 a 都是基于c e l p 模型的语音编码器,因此下面对c e l p 编码 进行简单的介绍。 2 1 2 码激励线性预测( c e l p ) 编码 c e l p ( c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 编码模型是现有的语音编码标准中 采用最多的模型之一。1 9 8 5 年,m a n f r e dr s c h r o e d e 和b i s h n us a t a l 首次提出 北京工业大学工学硕士学位论文 了该编码模型。它是一种混合编码方法,以语音线性预测模型为基础,对残差信 号采用了矢量量化,搜索过程用合成分析方法( a n a l y s i sb ys y n t h e s i s ,a b s ) ,并 采取感觉加权均方误差最小判决准则,在4 8 - 1 6 k b p s 速率范围内获得了巨大的 成功。现在很多常用的语音编码标准都是采用此模型,例如g 7 2 9 ,g t 7 2 3 1 ,g :7 2 8 , a m r - w b 等,广泛应用于各种网络传输中。 码激励线性预测最初的思想是利用几乎是白噪声的信号激励两个时变的线 性递归滤波器,每个滤波器反馈环路上有一个预测器,其中一个是长时预测器( 或 基音预测器) ,用来产生浊音语音的音调结构( 谱的细致结构) ,另一个是短时预 测器,用来恢复语音的短时谱包络。激励信号通常从高斯白噪声序列构成的码书 中选取,所以,这种模型又称为码激励线性预测。编码器的原理框图如图2 1 所示。 通过一个激励码书来激励基音合成滤波器和感觉加权合成滤波器,依据原始 信号s ( 疗) 与合成语音,( n ) 之间的感觉加权均方误差最小准则从激励码书中搜索 最优的激励矢量。在解码端用最佳的激励( 已经过基音合成滤波器) 来激励短时 合成滤波器,得到合成语音。 ( a ) 编码器 输出语音 解码器 图2 - 1c e l p 语音编码原理框图 码激励线性预测最终经过多年的完善,最终形成两激励码书的结构,如图 2 2 所示,其算法主要包括三个部分:线性预测( l p ) 分析、自适应码书搜索和 固定码书搜索三大部分。线性预测分析通常每帧进行一次,采用l p 分析提取语 音信号的谱包络信息;自适应码书搜索每子帧进行一次,用于计算语音的基音周 期,描述激励中的浊音成分;固定码书搜索每子帧进行一次,用于描述激励中的 非周期成分。从自适应码书和固定码书中搜索出的最佳激励矢量乘以各自的最佳 增益后相加便可得到激励信号g x c ,它一方面被用来更新自适应码书( 每子帧更 6 第2 章a m r - n b 与g 7 2 9 a 编码器的对比研究 詈詈詈皇詈詈詈詈詈詈! 詈暑皇皇詈鲁詈皇詈詈詈詈皇詈鼍詈詈詈詈! ! ! 暑! 苎曼! ! 詈皇詈! 詈鲁詈喜詈詈! ! ! ! ! ! ! ! ! ! 竺! 詈詈詈詈詈! 詈! ! 鼍詈! 鼍詈鼍! 鼍m m ,鲁 新一次) ,另一方面则被输入到感觉加权合成滤波器以得到合成语音j ( 甩) 。 图2 2 两级码书结构的c e l p 编码器 需要编码的信息包括:线性预测系数、基音周期( 自适应码书索引) 、固定 码书索引、自适应码书增益、固定码书增益。 在解码时,根据编码传输过来的信息从自适应码书和随机码书中找到最佳码 矢量,分别乘以各自的最佳增益并相加可得到激励信号e x c ,将e x c 输入到由线 性预测系数决定的合成滤波器便可得到合成语音s 。( 疗) 。 2 2a m r - n b 与g 7 2 9 a 语音编码算法的对比研究 a m r - n b 是由3 g p p 于1 9 9 9 年制订的基于码激励线性预测( c e l p ) 算法的 语音压缩编码器标准,主要应用于第三代移动通信w - c d m a 系统中。a m r - n b 具有从4 7 5 k b p s 到1 2 2 k b p s 的8 种速率模式及一种1 8 k b p s 的背景噪声编码模式, 可根据无线信道和传输状况来自适应地选择一种编码模式进行传输【l o l 。 q 7 2 9 是i t u t 于1 9 9 5 年制订的基于共轭结构代数码激励线性预测 ( c o n j u g a t es t r u c t u r e a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ,c s a c e l p ) 算法 的语音编码标准,现广泛应用于v o l p ,个人通信与卫星系统等通信系统中。g 7 2 9 只有8 k b p s 一种固定编码速率。q 7 2 9 a 是g 7 2 9 的简化版本,两者的比特流格 式是相同的。g 7 2 9 a 的计算复杂度为q 7 2 9 的5 0 ,合成语音质量略次于g 7 2 9 , 因此更适合于实际应用。本节主要对g 7 2 9 a 与a m r n b 中的线性预测分析 ( l i n e a rp r e d i c t i o n ,l p ) 、基音搜索、代数码书搜索、增益量化四个方面关键 技术以及编解码性能进行分析和比较。 北京工业大学工学硕士学位论文 2 2 1 线性预测分析的比较 2 2 1 1 帧长及l p 次数的比较 a m r - n b 与g 7 2 9 a 编码输入均为8 k h z 采样频率,1 6 b i tp c m 量化的语音 信号。a m r n b 编码帧长为2 0 m s ,g 0 7 2 9 a 编码帧长为1 0 m s ,两种标准子帧长 度均为5 m s 。a m r n b 与g 7 2 9 a 的l p 阶数均为1 0 ,两种标准的线谱对( l s p ) 参数所表征的信息基本上一致【l 。 g 7 2 9 a 编码器每帧( 1 0 m s ) 进行1 次l p 分析。a m r n b 编码器在1 2 2k b p s 模式下每帧进行2 次l p 分析,即每1 0 m s 进行1 次l p 分析;在其他七种速率模 式下每帧进行1 次l p c 分析,即每2 0 m s 进行1 次l p 分析,在这七种速率模式 下,a m r n b 每帧的l s p 参数与g 7 2 9 a 每两帧l s p 中的一帧完全对应1 1 2 1 。 2 2 1 2 力口窗的比较 在l p 分析中,g 7 2 9 a 使用的是由2 个部分构成的不对称混合窗:前半部分 是1 2 汉明窗后半部分是1 4 余弦函数,其中有5 m s ( 4 0 个样点) 来自下一帧, 1 5 m s ( 1 2 0 个样点) 来自上一帧,1 0 m s ( 8 0 个样点) 来自当前帧。窗函数如式( 2 1 ) 所示; 形( 刀) = ( 2 1 ) 式中,骂n = 2 0 0 点,g = 4 0 点。 a m r n b 的l p 加窗分为2 种情况【n i : ( 1 ) 在1 2 2 k b p s 模式下,分别采用不对称窗函数r e , ( 刀) 和( 行) 。其中形( 刀) 与c t 7 2 9 a 相同,( 刀) 的窗函数如式( 2 - 2 ) 所示。 希掘 ,l 卜一 s 门一 0 1 1 c6 一一d 4 圪一一气 o “一t磊 ( 刀) = 第2 章a m r n b 与g 7 2 9 a 编码器的对比研究 圳c o s ( 南加o 1 掣一1 + 。4 6 c 。s ( 至 爰云华) ,门= l ( i ) 叠) + - ,叠) + 叠y 一 ( 2 2 ) 其中,骂盯= 1 6 0 点,掣= 8 0 点。 ( 2 ) 在除了1 2 2 k b p s 之外的其他7 种模式下,a m r n b 的l p 分析窗与g 7 2 9 a 完全相同。由于此时a m r n b 也与g 7 2 9 a 一样采用5 m s 前视,导致子帧的对 应关系发生变化,g 7 2 9 a 每两帧中有一帧的l p 系数与a m r n b 完全对应 2 2 1 3l s p 系数的量化比较 g 7 2 9 a 使用一个选择式4 阶m a 预测器来预测当前帧的l s f 系数,并且用 一个2 级矢量量化器对余弦域中预测系数与计算得到的系数的差值进行量化。该 量化器第一级为7 b i t s 、码书大小为1 2 8 的l o 维矢量量化器;第二级分裂为两个 5 b i t s 、码书大小为3 2 的5 维矢量量化器i l 引。 a m r - n b 的l s p 系数的量化分为两种情况:在1 2 2 k b p s 模式下,a m r n b 应用1 个1 阶m a 预测器对频域l s p 系数进行预测,并使用分裂矩阵量化器 ( s m q ) 对2 个l s f 残差矢量进行量化。该矩阵分裂成5 个2 * 2 维的子矩阵。 在其他7 种速率模式下,a m r - n b 应用一个l 阶m a 预测器对频域l s p 系数进 行预测,与1 2 2 k b p s 模式不同的是,a m r n b 使用分裂式矢量量化器对l s f 残 差矢量进行量化。该量化器分裂为维数分别为3 ,3 ,4 的3 个子矢量,其子矢量 的比特分配如表2 1 所示: 表2 - 1a m r - n b 非1 2 2 k b p s 模式下的l s p 量化比特分配 a m r n b 各科- 速率的l s p 量化码书存在复用情况,共分为3 类:( 1 ) 4 7 5 5 1 5 k b p s ,( 2 ) 7 9 5 k b p s ( 3 ) 5 9 6 7 7 4 1 1 0 2 k b p s d t x 。 4 4 j c j 0 o ,【 模式子矢量1子矢量2 子矢量3 10 2 k b p s 8 9 9 7 9 5 k b p s 9 99 7 4 k b p s 8 99 6 7 k b p s 8 99 5 9 k b p s 899 5 1 5 k b p s 8 87 4 7 5 k b p s 88 7 北京工业大学1 二学硕七学位论文 詈皇鼍皇富曼曼喜詈詈詈詈皇皇量皇曼皇皇詈詈!鼍曼詈皇!鼍暑喜皇詈鼍鼍皇皇詈皇i一 一; 一 詈m 鼍鼍皇! 鲁 2 2 1 4l s p 系数的内插比较 a m r - n b 将量化后和未量化的l s p 参数直接作为第四子帧的l s p 参数,而 第一、二、三子帧的l s p 参数由相邻两帧的l s p 参数内插得到。如公式( 2 - 3 ) 所示1 1 5 】: 卵= 0 7 5 q :卜1 + o 2 5 玩刖, 采一= 0 5 q :川+ o 5 以, ( 2 3 ) 9 5 斤= 0 2 5 q :”一。+ 0 7 5 q :” 在g 7 2 9 a 中,第二子帧使用当前计算得到的l s p 系数,而第一子帧的l s p 系数由相邻两帧的l s p 参数插值得到,如公式( 2 - 4 ) 所示: 牡o 5 蠢p r e v i o u s ) + 0 5 蠢一眦i = 1 2 1 0 ( 2 - 4 ) g ;2 ) = g ,删肼) i _ l ,2 ,1 0 2 2 1 5l p c 谱回声监控的比较 l p c 谱回声监控的目的是检测由于信道误码而产生的自适应码本存储器的 分歧,防止该分歧导致滤波器不稳定。a m r - n b 与g 7 2 9 a 的回声监控原理相同, 但过程有所差异:a m r n b 对未量化的l s p 参数进行判断处理,如果相邻l s p 系数的间隔比设定的门限小,则计数器加l ,判为回声帧。如果有连续1 2 个回 声帧,则置l s pf l a g 为l ,然后进行后续处理。g 7 2 9 a 在l s p 系数量化过程中 对量化残差间隔进行判断,其目的是检查相关滤波器,保证其稳定性,防止相邻 残差间隔过小,避免尖锐回声产生。 2 2 2 基音搜索技术的比较 2 2 2 i 开环基音搜索的比较 a m r n b 和( 2 7 2 9 a 中的基音参数的物理意义是一致的,并且都是每子帧传 递一次,但是a m r n b 的不同码率模式下基音的搜索范围与g 7 2 9 a 不尽相同。 因此需要分类进行分析,如表2 2 所示。 表2 2a m r n b 与g 7 2 9 开环基音分析的对比 g 7 2 9 aa m ra 瓜a m ra m r 方式与速率 8 k b p s 12 2 k b p s10 2 k b p s 7 9 5 7 4 6 7 5 9 k b p s 5 15 4 7 5 k b p s 开环分析 1 0 m s1 0 m s 1 0 m s 1 0 m s2 0 m s 间隔时间 i - - 32 0 3 91 8 3 52 0 1 4 32 0 3 92 0 3 9 i - 24 0 7 93 6 7 l 加权处理 4 0 7 94 0 7 9 i - l8 0 1 4 37 2 1 4 3 不分段 8 0 一1 4 38 0 1 4 3 由表2 2 对比分析得到: ( 1 ) 在a m r n b 的2 种低速率4 7 5 k b p s 与5 1 5 k b p s 模式下,为了节约码率, 开环基音分析每2 0 m s 进行1 次;除此之外,a m r n b 其他6 种速率与g 7 2 9 a 均为每1 0 m s 进行一次。 ( 2 ) 在a m r - n b 的1 0 2 k b p s 模式下,整数基音延迟采用加权处理,不分段。 除此之外,a m r - n b 的其他7 种速率与g 7 2 9 a 整数基音延迟都分为3 段,以防 止基音加倍或减半现象的发生。 ( 3 ) 在a m r - _ n b 的1 2 2 k b p s 模式下,整数基音延迟的范围是1 8 1 4 3 。除此 之外,a m r - n b 的其他7 种速率与g 7 2 9 a 整数基音延迟范围均为2 肛1 4 3 。另 外,在1 2 2 k b p s 模式下,3 段基音延迟范围也与其他分段模式有所不同。 2 2 2 2 闭环基音搜索的比较 a m r - n b 与g 7 2 9 a 在闭环基音搜索上过程一致,但分辨率和量化方法不 尽相同,需要分类分析,具体区别如表2 3 所示: 表2 3a m r n b 与g 7 2 9 a 闭环基音分析的对比 g 7 2 9 aa m ra m ra m ra m ra m r 方式与速率 8k b p s12 2 k b p s7 9 5k b p s10 2 7 4 k b p s6 7 5 9k b p s5 15 4 7 5 k b p s illil1 分辨率 一一一一一 3 6 3333 分数 - ,;州; 1 7 三。9 4 兰1 9 三8 4 三1 9 上8 4 三1 9 1 8 4 三1 9 三,8 4 三 细分范围 663 3 33333 3 整数 细分范围 8 5 1 4 39 5 一1 4 38 5 一1 4 38 5 1 4 38 5 一1 4 38 5 1 4 3 奇数子帧 乙3 乙3乙3 乙3乙3乙5 搜索范围 l - 5 - v , + 4 i 5 q + 4 偶数子帧 ”; + ; ;一t + 唁o 扣一;v , 4 扣; t i 1 + 昙t 1 唾 + 要搜索范围 jj jj 量化( 比特)8 , 5 9 , 6 ,9 ,68 , 6 ,8 ,68 , 5 ,8 ,58 , 4 ,8 ,48 , 4 ,8 ,4 北京工业大学工学硕1 :学位论文 由表2 3 对比分析得: ( 1 ) a m r - n b1 2 2 k b p s 模式下的基音分辨率,分数基音细分范围,整数基音细 分范围都较特殊,而其他a m r - n b 各速率模式与g 7 2 9 a 完全相同。 ( 2 ) a m r - n b 两种低速率4 7 5 k b p s 与5 1 5 k b p s 模式由于开环基音分析每2 0 m s 进行一次,在闭环基音分析中的第l 子帧搜索范围设为乙5 ,第2 ,3 ,4 子帧 搜索范围为【互一5 ,石+ 4 】,而a m i l n b 其他速率与( 2 7 2 9 的奇数子帧搜索范围均 为乙3 。 ( 3 ) 各种速率模式的偶数子帧搜索范围与基音延时量化比特数不尽相同。 a m r - n b 与c t 7 2 9 a 的闭环基音搜索准则相同,都是使原始语音和重构语音 之间的均方加权误差最小,即使r ( k ) 最大。如公式( 2 5 ) 所示: r ( 七) = 式中,工( 一) 是目标信号,儿( 疗) 是延时k 的过去滤波激励,即 ( 2 - 5 ) y k ( n ) = y k l ( n 一1 ) + 甜( 一k ) h ( n ) n = 3 9 ,3 8 ,o ( 2 6 ) 这里,g 7 2 9 a 为了简化搜索过程以降低复杂度,只计算分子,如公式( 2 7 ) 所 示: 3 93 9 凡( 七) = z ( 刀) 儿( 刀) = z x b ( n ) u 七( 刀) ( 2 - 7 ) n = 0 n = 0 其中毛( 刀) 是后向滤波后的目标信号,u k ( n ) 是经过延迟k 的过去激励u ( n 一七) 。 确定最佳整数基音延时之后,在最佳整数延时附近的分数作估计,通过内插 归一化相关系数r ( 七) 并搜索最大值以得到分数基音周期。a m r - n b 和c t 7 2 9 a 都使用了f i r 滤波器进行内插,但滤波器使用的汉明窗截取样函数的截断点不 尽相同,可分为三类,分析如下: ( 1 ) a m r - n b1 2 2 k b p s 模式使用的汉明窗截取样函数s i n x x ,截断在+ 2 3 处, 在士2 4 处置为零: ( 2 ) a m r - n b 除1 2 2 k b p s 以外的其他七种模式使用两个f i r 滤波器,取样函 数s i n x x 分别是在士11 处和+ 2 9 处截断: ( 3 ) g 7 2 9 a 使用的汉明窗截取样函数s i n x x ,截断在士l l 处,在:t = 1 2 处置为零。 、- 、 刀 ly、- 、 阿 ,l x ”删 第2 章a m r n b 与g 7 2 9 a 编码器的对比研究 确定f i r 滤波器之后,通过内插得到r ( k ) ,如( 2 8 ) 式所示: r ( 后) ,= r ( k - i ) b 1 2 ( f + 3 f ) + 尺( 后+ 1 + 明2 ( 3 - t + 3 i ) ,t - = 0 ,l ,2 i = - oi = o ( 2 8 ) 在g 7 2 9 a 与a m r - n b 非1 2 2 k b p s 模式下,t = o ,l ,2 分别对应的分数延时为 0 ,l 3 ,1 3 。 在a m r - n b1 2 2 k b p s 模式下,t - - 0 ,l ,5 分别对应的分数延时为0 ,1 6 ,2 6 , 3 6 ,2 6 ,1 6 。 确定基音延时后,在给出的整数延时k 和分数延时t 处内插过去的激励u ( n 来计算自适应码书( 刀) ,如( 2 9 ) 式所示: u t u ( 刀) = “( 刀一七+ 鸲。( h 3 f ) + “( 刀一七+ l + f ) ( 3 一f + 3 f ) ,n = o ,3 9 ,t - - - o ,l ,2 l - oi = o ( 2 9 ) 同样,在g 7 2 9 a 与a m r - n b 非1 2 2 k b p s 模式下,t = 0 ,l ,2 。在a m r l 2 2 k b p s 模 式下,t - = 0 ,1 ,5 。 2 2 3 代数码书的结构和搜索方法比较 2 2 3 1 代数码书结构的比较 g 7 2 9 a 和a m r - n b 均采用正负号脉冲交错( i n t e r l e a v e ds i n g l e p u l s e p e r m u t a t i o n ,i s p p ) 设计,都是将一个固定码本的脉冲序列分成若干个脉冲选择 位,在每个脉冲选择位上选择一定数目的脉冲( 1 至2 个) ,每个脉冲的幅值为 + l 或1 ,各脉冲可能分布的位置是有限的。 g 7 2 9 a 只有1 种固定速率,代数码本结构只有1 种;而a m r - n b 具有8 种速率模式,其中固定码本有6 种不同的结构,每个结构对应不同的脉冲选择位 以及脉冲数目,因此需要分类分析。 ( 1 ) g 7 2 9 a 代数码书结构 在g 7 2 9 a 代数码本中,每个固定码本矢量含有4 个非零脉冲,每一子帧 的4 0 个样点( 5 m s ) 位置被分成4 个轨道,每个轨道包含1 个脉冲,所在位置 列于表2 - 4 : 表2 - 4g 7 2 9 a 代数码j 忙结构 轨道脉冲位置 l i o 0 , 5 ,1 0 ,1 5 ,2 0 ,2 5 ,3 0 ,3 5 2i 1 1 , 6 ,1 1 ,1 6 ,2 1 ,2 6 ,3 1 ,3 6 3i 2 2 ,7 ,1 2 ,1 7 ,2 2 ,2 7 ,3 2 ,3 7 3 , 8 ,13 ,18 ,2 3 ,2 8 ,3 3 ,3 8 4i 3 4 , 9 ,14 ,19 ,2 4 ,2 9 ,3 4 ,3 9 ( 2 ) a m r - n b1 2 2 k b i t s 代数码书结构 在这个码本中,每个固定码本矢量含有1 0 个非零脉冲,每一子帧的4 0 个样 点( 5 m s ) 位置被分成5 个轨道,每个轨道包含2 个脉冲,所在位置列于表2 5 : 表2 - 5 a m r - n b 1 2 2 k b p s 代数码书结构 轨道脉冲位置 l i 0 ,i 50 , 5 ,10 ,15 ,2 0 ,2 5 ,3 0 ,3 5 2 i 1 ,i 6 1 ,6 ,1 1 ,1 6 ,2 1 ,2 6 ,3 1 ,3 6 3i 2 ,i 7 2 ,7 ,12 ,l7 ,2 2 ,2 7 ,3 2 ,3 7 4 i 3 ,i 8 3 , 8 ,1 3 ,1 8 ,2 3 ,2 8 ,3 3 ,3 8 5 i 4 ,i 94 ,9 ,14 ,19 ,2 4 ,2 9 ,3 4 ,3 9 需要说明的是: 1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 1776-2025超细铂粉
- 2025年上半年上海市卫生健康技术评价中心工作人员公开招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025年4月广东深圳小学光明学校曙光校区、狮山校区赴济南定点面向2025年应届毕业生招聘教师11人模拟试卷含答案详解
- 安全培训教师体会课件
- 2025年福建省莆田市秀屿区上塘珠宝城实业有限公司招聘1人考前自测高频考点模拟试题及答案详解(典优)
- 2025年合肥复兴控股集团第一批人员招聘27人考前自测高频考点模拟试题及1套完整答案详解
- 安全培训教员资质课件
- 广播电台培训课件
- 2025贵州黔西南州望谟县消防救援大队招聘政府专职消防文员1人模拟试卷附答案详解
- Human-ZIC1-mRNA-生命科学试剂-MCE
- 人教版音乐八年级上册-《学习项目二探索旋律结构的规律》-课堂教学设计
- 《中国人民站起来了》课件 (共50张)2025-2026学年统编版高中语文选择性必修上册
- 2025-2030滑雪培训行业市场发展分析及前景趋势预测与投资可行性评估报告
- 中国企业供应链金融白皮书(2025)-清华五道口
- 2025年陕西省专业技术人员继续教育公需课答案
- 2025年土方坍塌应急预案演练脚本
- 医院常用消毒液的使用及配置方法
- 2022英威腾MH600交流伺服驱动说明书手册
- 2025年中国药典培训试题及答案
- 新疆教育惠民政策课件
- 非法言论主题班会课件
评论
0/150
提交评论