（控制科学与工程专业论文）evcelp语音编解码模型的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：58 大小：3.66MB 积分：0 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

（控制科学与工程专业论文）evcelp语音编解码模型的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要语音编码技术在通信系统中占有重要的地位，随着通信技术的快速发展，对语音编码技术的要求越来越高，所以需要合成语音质量更好编码速率更低的语音编码器。本文对4 8 k b s 码激励线性预测( c e l p ) 编码技术进行深入的研究，为了降低编码速率并保证语音质量，重点研究了语音端点检测技术和语音增强技术。针对语音增强技术中的固定阂值法存在的缺陷，实现了基于小波包和t e a g e r 能量算子的语音增强算法，该算法去噪的效果优于固定阈值法的去噪效果。研究了经典的基于短时能量和过零率的双门限端点检测方法，针对该方法在高信噪比下检测比较准确，低信噪比下检测性能恶化的问题，提出了低信噪比下的端点检测方法，改进的端点检测方法能够随着环境自适应门限，鲁棒性好，对环境的适应性强，适合实际应用的需要。本文将语音增强的算法和低信噪比下的端点检测算法应用到c e l p 编解码器中，提出了e v - c e l p 编码模型。该模型在m a t l a b 中实现丫仿真，并对其进行了性能测试。结果表明，e v - c e l p 在有效降低语音编码率的同时仍然合成出具有比较良好的可懂度语音。 e v - c e l p 编码模型是一种有效的低速率语音编码算法。其合成语音质量达到了通信质量，可以将e v c e l p 编码模型应用到通信系统中。关键词码激励线性预测，端点检测，语音增强，小波变换，t e a g e r 能量算子 a b s t r a c t s p e e c hc o d i n gt e c h n o l o g yi n t h ec o m m u n i c a t i o ns y s t e mp l a y sa n i m p o r t a n tr o l e ，w i t ht h er a p i dd e v e l o p m e n to fc o m m u n i c a t i o nt e c h n o l o g y ， s p e e c hc o d i n gt e c h n o l o g yb e c o m i n gm o r ed e m a n d i n g ，s ot h e yn e e da s p e e c hc o d e rw i t hb e t t e rs p e e c hq u a l i t ya tl o w e re n c o d i n gr a t e i nt h i sp a p e r , 4 8 k b sc e l p s p e e c hc o d i n gt e c h n o l o g yi ss t u d i e d ，i n o r d e rt or e d u c et h ec o d i n gr a t ea n de n s u r ev o i c eq u a l i t y ，f o c u s i n go nt h e v o i c ea c t i v i t yd e t e c t i o na n ds p e e c he n h a n c e m e n tt e c h n i q u e s an e w s p e e c h e n h a n c e m e n ta l g o r i t h mb a s e do nw a v e l e tp a c k e ta n dt e a g e r e n e r g yo p e r a t o ri sp r e s e n t e d 。n o i s e r e d u c t i o no ft h ea l g o r i t h mc a nb e b e t t e rt h a nt h ef i x e dt h r e s h e o l d sm e t h o di ns p e e c h t h ep a p e ra n a l y z e s t h ec l a s s i cs p e e c he n d p o i n td e t e c t i o nb a s e do ns h o r - t i m ee n e r g ya n d s h o r t - t i m ez e r o c r o s s i n gr a t ef e a t u r e a c c u r a c yo ft h ea l g o r i t h mi sg o o d i nh i g hs n re n v i r o n m e n t a n dw o r s e ni nl o ws n re n v i r o n m e n t an e w e n d p o i n td e t e c t i o na l g o r i t h m i s p r e s e n t e di nl o ws n re n v i r o n m e n t ， w h i c hc a nb ea d a p t i v et h r e s h o l da n dh a sb e t t e rr o b u s tc a p a b ili t y t h e i m p r o v e da l g o r i t h mi sf i tf o ra c t u a lr e q u i r e m e n t i nt h i sp a p e r ，t h es p e e c h e n h a n c e m e n ta l g o r i t h ma n dt h en e we n d p o i n td e t e c t i o na l g o r i t h ma r e a p p l i e dt oc e l pe n c o d e r ，a n de v - c e l p m o d e li sp r e s e n t e d s i m u l a t i o n s i nm a t l a bd e m o n s t r a t e se v c e l pm o d e l ，a n dp e r f o r m a n c et e s t i n gi s m a d e t h er e s u l t sp r o v et h a ti ti sb o t hl o wc o d er a t ea n dg o o dr e b u i l d s p e e c h e v - c e l pm o d e li s h i g h - q u a l i t y l o wb i tr a t e s p e e c hc o d i n g a l g o r i t h m i t sq u a l i t yr e a c hr e q u i r eo fc o m m u n i c a t i o n ，w h i c hc a nb e a p p l i e dc o m m u n i c a t i o ns y s t e m k e yw o r d sc e l p ，e n d p o i n td e t e c t i o n ，s p e e c he n h a n c e m e n t , w a v e l e tt r a n s f o r m ，t e o l i 硕i j 学位论文第一章绪论 1 1 概述第一章绪论众所周知，语言作为人类文明进步的标志是人们日常生活中相互交流的重要手段。随着人类社会的不断进步，人们语言交流受到了时间和地点的影响，不能够进行随意的交流。于是，如何使得语言的交流不受这种影响，成为人们最初的想法。科技的发展，出现了多媒体、通信和计算机技术，使得这种想法成为了可能。目前，这些数字化的技术已经取得了非常大的进步，并且应用的非常广泛，而应用也促进了数字技术的不断进步。用数字化的技术来进行语音的传输和存储是通信技术的基本原理【l j f 2 l 。语音编码技术是数字化技术的典型应用，与模拟语音相比，使用语音编码技术来进行传输和存储，一方面同样的语音所用的存储空问更少，这样大大节约了成本，而且可靠性更高。另一方面，可以在语音传输中使用抗干扰技术，这样使得鲁棒性增强，便于实现保密、复用等功能1 3 j 。语音编码技术应用的范围也越来越广，除了在通信系统中占有重要的位置之外，还可以将语音编码技术应用于网络，不但提高了效率，而且大大降低了通信成本。正是生活中实际的需求和应用，推动了语音编码技术的不断进步和发展1 4 j 。在这2 0 年里，语音编码技术获得了快速的发展。国际组织如c c i t t 和大公司都纷纷制定了许多高质量的语音编码标准，这些语音编码标准也反映出语音编码技术的发展和趋势。同时，语音压缩编码技术也被大量的运用到实际中，反过来也推动了语音编码标准的发展，希望能制定出语音质量更高，传输码率更低以及编码延时更小和算法复杂度更低的语音编码的标准。科技是在不断进步，新的编码标准也会不断的产生，使得它更加满足实际的需求，从而获得更大的经济效益。 1 2 语音编码技术的发展概况语音压缩编码是在不断的发展，从时域波形编码和变换域编码发展到现在的参数编码和混合编码。在这个发展的过程中，也体现出了如何在低的传输码率下获得更好的语音质量这个根本目标。当然，传输码率的降低会导致语音质量的下降，所以这二者也是矛盾的，如何平衡这二者之间的关系，也是人们研究的热点。时域波形编码是基于语音波形来编码的，这种编码的主要特点是语音质量好、适应能力强、方法简单和实现起来容易，缺点是编码速率太高，占用的带宽硕j ：学位论文第一章绪论太多1 5 1 。时域波形编码的主要代表是自适应差分脉冲编码调铝t j ( a d p c m ) 。变换域编码其实质还是波形编码，但是它不是在时域上进行的编码，而是一个时域和频域之间相互变换的过程。它相比时域波形编码而言，编码效率提高了。变换域编码的主要代表是子带编码( s b c ) 和自适应变换编码( a t c ) 1 6 j 。参数编码是从1 9 3 9 年美国的h o m e r d u d l e y 发明声码器以后才开始被研究的。参数编码是基于声学模型建立起来的，主要是提取语音信号的特征参数进行传送1 3 j 。它的特点是大大降低了编码速率，但是相对而言，语音质量比较差。参数编码的典型代表是s a t o i t a k u r a 和a t a l s c h r o e d e r 研究的共振峰声码器和线性预测声码器。共振峰声码器的提出具有划时代的意义，率先将线性预测技术用到了语音编码中。线性预测声码器是一种比较实用的声码器，它因算法比较成熟成为了研究的热点1 7 j 。混合编码则是综合了波形编码和参数编码的优点，它既利用了语音波形编码的信息去增强合成语音的自然度，以保证能够获得较高的语音质量；又保留了参数编码的特点，采用线性预测分析技术。混合编码的典型代表如美国国防部公布了4 8 k b sc e l p 联邦标准( f s 一1 0 1 6 ) ! 引、8 k b s 矢量和激励线性预测( v s e l p ) 语音编码以及c c i t t 在1 9 9 2 年公稚的g 7 2 81 6 k b s 短时延码激励线性预测语音编码 ( l d c e l p ) 和在1 9 9 6 年公布的g 7 2 98 k b s c s - a c e l p 共扼结构代数码激励的语音编码标型引。自1 9 8 5 年b s a t a l 和m r s e h r o e d e r 提出c e l p 至1 9 9 6 年g 7 2 9 的提出，混合编码在这1 0 年里，得到了辉煌的发展。国际编码标准有3 个、地区标准有 2 个以及国家标准也有2 个，这么多个标准的产生也体现出了混合编码具有实用的价值。目前，混合编码已成为了研究的主流，而且混合编码在实际应用也体现出了它的优势。随着移动通信的发展，从最初的第一代发展到第三代，目前第四代移动通信也在开发研究中。由于语音业务是移动通信的最主要业务，所以语音编码方案也是移动通信关注的焦点。在第三代移动通信中，提出了变速率语音编码，即速率不再是固定的，速率的变化主要是根据信源、信道以及网络。由高通公司提出的码激励线性预测( q c e l p ) 是典型的信源控制速率的编码方案，8 k 的q c e l p 使用了4 种不同的速率。而后又提出了自适应多速率( a m r ) i 吾音编码，它支持八种速率，目前已经在第三代移动通信w c d m a 应用。它能够在信源和信道之间协调速率选择的问题，在实际通信中，更多的是根据信道的条件来进行选择。中国提出的时分同步一码分多j k ( t d s c d m a ) 也同样采用的是a m r 语音编码技术。 2 硕一l j 学位论文第一章绪论 1 3 语音编码的性能评价方法语音编码算法性能评价的基本指标主要是以下四个指标包括编码速率、语音质量、语音算法复杂度和语音编解码延时。这四个指标之间的关系密切，一般而言，语音编码速率的大小和语音质量之间是相互矛盾的，也就是说语音质量越高通常对应的编码速率也就越大，而语音编码的根本目的是合成的语音质量尽可能好，语音编码速率尽可能的低。那么，在具体评价语音编解码算法的性能时，则需要结合实际情况来考虑，下面具体介绍这四个评价语音性能的指标。语音编码速率反映了语音信号的压缩程度。语音压缩的程度越大，则编码速率越小，反之，则编码速率越大。语音编码速率是用“比特秒”来衡量的，也就是反映了每秒钟所传送的比特数。合成的语音质量反映的是语音的好坏，在评价的过程中，可以依据自然度、可懂度和满意度等来进行评价。评价的方法有很多，总的来说可以分为两类即主观评价法和客观评价法。主观评价方法是一组试听者听合成的语音，然后将合成的语音与原始的语音进行对比，最后按照评价的规则给出一个评价。主观评价法对试听者有严格的要求，因为语音质量的好坏完全取决于试听者的主观判断。在进行语音的主观评价时，实验条件也必须考虑在列，环境对语音的评判结果也是有影响的。即使试听人员和实验条件都是严格要求的，也是按照试听的程序严格执行，但评价的结果仍然是不可重复的，因为人受内在因素的影响，导致评价会有变化。主观评价方法包括平均意见得分( m o s ，m e a no p i n i o ns c o r e ) 、判断韵字测试( d r t ，d i a g n o s t i cr h y m et e s t ) 和判断满意度测试( d a m ，d i a g n o s t i ca c c e p t a b i l i t y m e a s u r e ) 这3 种1 9 1 。m o s 评分是目前最为普遍采用的，它采用五级评判标准，具体的评分等级表如表l 一1 。从表1 1 中可以看出，m o s 分在4 o 分以上语音质量是比较高，可用于长途通话网。m o s 分在3 5 分左右，可以用于大多数语音系统，也是达到通信质量的要求的。m o s 分在3 o 分以下，达到了一般合成语音的质量。d r t 是通过听同韵母的单字或单音节，然后让试听者判断，所有试听者判断正确的百分比得出的。它是主要用于评价低速率语音编码的可懂度。d a m 也是采用百分比评分，它主要是通过两个途径来结合进行评价。这里的两个途径是指直接途径和间接途径，直接途径是指试听者直接听给出评价结果；间接途径是指根据已给出了标准，再来进行评价。主观评价由于需要大量的试听人员，而且对试听条件要求严格，并且还要遵循试听程序，所以主观评价一般被大型的组织所采用，个人一般把主观评价作为一个辅助的手段。 3 硕l ：学位论文第一章结论优良满意差劣可完全放松，不需要注意力需要注意，但不需明显集中注意力中等程度的注意力需要集中注意力即使努力玄听，也很难听懂客观评价方法是相对主观评价方法而言的，该方法是将原始语音和合成语音进行对比。客观评价方法的优点是不受人的主观凶素的影响，而且是可重复的，评价过程简单和成本低。但是它也有很明显的缺点，首先客观评价方法比较多，但是每种评价方法并不能适应所有的语音编码模型，如巴克谱失真测度( b s d ， b a r ks p e c t r a ld i s t o r t i o n ) ，它对波形编码的评价比较准确，但是对于参数编码和混合编码的评价就不能很好的和主观评价相符合。另外，客观评价方法并不能完全和人耳的听觉感受相一致，这也是一个很难解决的问题。客观评价方法分为时域客观评价和频域客观评价。时域客观评价的方法的典型代表有信噪比( s n r ) ，信噪比的值越大表示语音质量越好。频域客观评价方法有巴克谱失真测度和l p c 倒谱距离测度等l l0 1 。该类方法和时域方法评价的结果正好相反，频域客观评价方法的结果越小，表示语音质量越好。编解码延时表示的是单次编解码需要的时问。由于在通信系统中，对实时性要求比较高，所以希望编解码的延时越小越好，如果编解码延时太大，则会影响通信质量，给人们的交流带来了不便。所以，语音编解码器的性能要考虑编解码延时。算法复杂度也是衡量语音编解码的指标，因为算法过于复杂，会使得硬件的设计变得困难，而且也增加了成本。所以，从实际的角度出发，希望算法复杂度不要太大。当然，衡量语音编解码算法的性能还有顽健性和抗误码的能力等。总而言之，实际的语音编码算法是不可能同时具备编码速率低、合成语音质量又好，并且编解码延时和算法复杂度都小的优点，它只能在这些性能之间进行折衷。 1 4 本文所做的主要研究及论文安排论文对4 8 k b sc e l p 语音编码技术进行深入的研究。为了降低编码速率并保证语音质量，重点研究了语音端点检测技术和语音增强技术。研究了小波去噪的基本原理和t e a g e r 能量算子，实现了基于小波包和t e a g e r 能量算子的语音增 4 硕1 ：学位论文第一章绪论强算法。针对低信噪比下端点检测性能恶化，提出了低信噪比下的端点检测算法。最后，4 8 k b sc e l p 语音编码技术结合了语音检测和语音增强技术，提出了 e v o c e l p 模型，并对该模型的性能进行了测试。论文的结构安排如下：第一章绪沦。主要介绍语音编码技术的发展概况、性能评价方法以及本文所做的主要研究和论文安排。第二章4 8 k b s 码激励线性预测语音编码。研究了4 8 k b sc e l p 编解码原理，并指出了该编解码器需要改进的方面。第三章语音增强技术的研究。主要介绍了目前常用的增强算法，将小波去噪的基本原理和t e a g e r 能量算子相结合，实现了基于小波包和t e a g e r 能量算子的语音增强算法。第四章语音检测技术的研究。研究了常用的基于短时能量和短时过零率的方法，在此基础上进行了改进。在低信噪比的情况下，提出了基于离散小波变换的语音端点检测算法。第五章e v - c e l p 语音编码的方案及评价。详细介绍了e v - c e l p 编码方案，并对该语音模型进行了性能测试。第六章结束语。对本论文所做的工作进行了总结，说明了本文创新点，对下一步的工作进行了展望。 5 硕+ l ：学位论文第二章4 8 k b s 码激励线性预测语爵编码 2 1 引言第二章4 8 k b s 码激励线性预测语音编码 m a n t l e dr s c h r o e d e r 和b i s h n us a t a l 于19 8 5 年在信号处理会议( i c a s s p ) 年会上首先提出了用码本作为激励源的码激励线性预澳i j ( c e l p ) 编码技术。c e l p 以高质量的合成语音以及良好的抗噪声和信道误码能力，在低速率语音编码得到了广泛的应用，已经成为了一种主流的编码技术i l l l i l 2 】。 1 9 8 8 年美国国防部首先对几种4 8 k b s 的编码器进行了评价，选出了与贝尔实验室共同制定的c e l p 编码器。同时美国政府于1 9 9 1 年2 月1 4 日正式颁布了联邦f s 1 0 1 6 标准语音编码器，即4 8 k b s 码激励线性预测( c e l p ) 语音编码标准，该编码器足第一个非常重要的c e l p 算法国际标准1 1 3 】。 f s 一1 0 1 6 标准语音编码器采用了合成分析搜索( a b s ) 、知觉加权、矢量量化 ( v q ) 和线性预测( l p ) 等技术。在编码端，它采用了码本作为激励源，建立了两个码本包括自适应码本和随机码本，其和作为c e l p 的激励信号源【h 1 。同时， f s 一1 0 1 6 标准语音编码器使用了l o 阶线性预测滤波器，也就是l p c 共振峰综合滤波器，用来模拟语音信号的短时频谱或声道特性。在译码端，由搜索得到的自适应码本和随机码本的最佳码矢量经过增益加权后得到合成语音的激励信号。 2 2f s 一1 0 1 6 标准编码原理 f s 一1 0 1 6 标准语音编码器在进行编码时，首先输入采样频率为8 k h z 、1 6 比特线性量化脉冲编码调制( p c m ) 的语音信号。该标准在编码时按帧为单位，进行 l p c 分析，帧长为3 0 m s ，也就是2 4 0 个样点，并且一帧再分为4 个子帧，子帧长是6 0 个样点( 7 5 m s ) 。发送端主要完成短时线性预测分析、自适应码本搜索和随机码本搜索三大功能。将短时线性预测得到的参数进行量化成1 0 个比特的参数发送，搜索出来的自适应码本和随机码本的最佳码矢量所对应的索引以及各自的对应的增益也是要发送的参数，还包括帧同步，前向纠错以及未来扩展比特需要发送，总共是1 4 4 比特每帧。 2 2 1 编码框图与编码过程 f s 一1 0 1 6 标准语音编码器的编码原理框图如图2 1 。从编码原理框图可以看出，f s - 1 0 1 6 标准语音编码器的过程如下：首先输入8 k h z 采样的语音信号，然 6 硕l ：学位论文第二章4 8 k b s 码激励线性颅测语哥编码后对语音信号s ( n ) 进行分帧处理，每2 4 0 个样点分析一次，然后将语音进行线性预测分析即图2 1 中的l p c 分析，然后对l p c 系数进行转换得到l s p 参数，将 l s p 参数进行内插为四个子帧。用量化后的l s p 构成综合滤波器，综合滤波器的系数需要每予帧更新一次。由未量化的线性预测系数构成感知加权滤波器；然后开始根据均方误差最小的准则，进行自适应码本和随机码本最佳码矢量和增益的搜索，将搜索得到的最佳码矢量和增益构成激励通过综合滤波器即得到合成语音，自适应码本和随机码本搜索也是每子帧更新一次。 2 2 2 预处理图2 - 1c e l p 编码原理框图在语音编码端，首先要进行预处理包括滤波和加窗，这里采用的是二阶巴特沃思高通数字滤波器，这样可以去除直流分量和供电干扰。该滤波器的通带下限为3 d b ，频率为1 0 0 h z ，滤波器的传输函数为：日亿) ：0 9 4 6 - 1 8 9 2 z - - 1 + 0 9 4 _ 6 z - 2( 2 1 )、7 1 0 - 1 8 8 9 z 一+ 0 8 9 5 z 一2 、7 f s 1 0 1 6 标准语音编码器采用的是汉明窗，长度为2 4 0 个样点，汉明窗函数由式( 2 2 ) 给出：，、io 5 4 0 4 6 c o s 2 n n 2 4 0 1 ，0 n 2 3 9l 叫功。1o ，刀：其它值 ( 2 - 2 ) 7 硕1 j 学位论文第- 二章4 8 k b s 码激励线性预测语音编码设加窗后的语音信号为s 。( n ) ，其中s ( n ) 为滤波后的语音，则有 s ( n ) = r o ( n ) s ( n ) ，n = o ，l ，2 3 9( 2 3 ) 这里采用的是以奉帧木点为中心加3 0 m s 无叠接汉明窗，也就是取本帧信号的第三、第四子帧和下一帧的信号的前1 2 0 个样点。 2 2 3 线性预测分析与量化在对原始语音进行预处理后，就可以进行的线性预测( l p ) 分析，它的目的在于求出l o 个l p c 系数。线性预测分析采用的是丌环的方法，每帧分析一次，由于加窗后的语音与下一帧的前两个子帧相关，导致了f s 1 0 1 6 标准语音编码的算法延时了4 5 m s 。首先求出s ( n ) 对应的自相关函数k ( k ) 为 2 3 9 k ( 后) = 5 ( 刀p ( n - k ) ，k = 1 ，2 ，1 0 ( 2 4 ) n = k 则求解l o 阶线性预测系数 a i ) ，i = l ，2 ，1 0 ，由于综合滤波器为l o 阶，就是求解下述方程： 1 0 a ( 1 i - k 1 ) = - t o , ( 0 ，i = l ，1 0( 2 5 ) k = l 这个方程组是用经典的莱文逊杜宾( le v i n s o n d u r b i n ) 算法求解，即用如下递归算法求解：置d ( o ) = r o a o ) 力厂f = 1 ，d1 0 砌硝1 = l i - i 向- 【k ( 0 ) 一亏1 r o , ( i - j ) e ( i - 1 ) j = o z o = t f o r = l t o i - id o 矽= 巧卜”+ 毛粥 e n d e w ( i ) = ( 1 一砰) 最d ( f 1 ) e n d 最后的求解结果为 8 硕t 学位论文第二章4 8 k b s 码激励线性预测语音编码 q = 砖1 0 ) j = l ，2 ，1 0 ( 2 6 ) 解得的1 0 阶线性预测系数 q ) ，f = l ，2 ，1 0 构成l p 分析滤波器： 1 0 a ( z ) = l - a , z 叫 ( 2 7 ) l = l 则l p 综合滤波器h ( z ) 由式( 2 8 ) 给出：脚，2 去2 习1 i 倍8 ， a l z l o 一 _ 。 i = i 在线性预测分析的过程中，为了改善其效果，并且也将l p c 悉数转化为l s p ，需要对h ( z ) 进行1 5 h z 的带宽扩展。设a ( z ) 的零点或者说h ( z ) 的极点为乞= a , e 1 岛，= l ，2 ，1 0( 2 9 ) 其中层由共振峰，和采样频率z 决定，即层：孕( 2 - 1 0 ) 而共振峰z 处的带宽，由共振峰q 决定，即 a z ：创z( 2 一1 1 ) 若用r a , ( o y 1 ) 代替q ，则h ( z ) 的极点将向原点径向移动，新的极点为 z = y a , e 一粥，汪1 ，1 0( 2 1 2 ) 则扩展后的带宽为 z ：刿z + 幽厂( 2 一1 3 ) 所以带宽扩展的值为 7 97 万：创z( 2 1 4 ) 当z = 8 k h z ，万= 1 5 h z 时，对应的感知加权系数厂= 0 9 9 4 。在f s 1 0 1 6 标准中，在编码端传送的是量化的l s p 参数，所以在量化和内插以前，必须将l p c 系数( 后= l ，2 ，1 0 ) 转换为l s p 系数，首先用l p c 系数构造一个对称多项式和一个反对称多项式，其多项式的根就是所需要的l s p 系数：正( z ) = 彳( z ) + z 一a ( z 一1 )( 2 1 5 a ) 巧( z ) = 彳( z ) 一z 一1 1 a ( z 一1 ) ( 2 1 5 b ) 这些多项式的根是在单位圆上，并且是相互交替出现的。其中巧( z ) 一定会出现一个根z = 一1 ( 缈= 万) ，而巧( z ) 会出现一个根z = l ( c o = o ) 。所以定义新的多项式： 9 硕一l ：学位论文第二章4 8 k b s 码激励线性顶测语齿编码 e ( z ) = f 2 ( z ) ( 1 一z 叫)( 2 1 6 ) 每个多项式会出现5 个共轭复根在单位圆上( 矿。q ) ，其可以用式( 2 1 7 ) 来表示：鼻( z ) = 兀( 1 2 q , z 一+ z 。2 ) ( 2 1 7 a ) 。t = l j 9 e ( z ) =兀( 1 - 2 q , z _ 1 + z - 2 )( 2 1 7 b ) j - - - 2 , 4 一，1 0 式( 2 1 7 ) 中：吼= c o s c o j ，c o , 是线谱频率并满足顺序的特性， 0 c o ! c 0 2 q o 万，而q i 是l s p 系数在余弦域的表示。将每一帧得到的一组线谱对( l s p ) 参数用频率域( l s f ) 来表示 z = 是a r e c o s ( q , ) ，江l ，2 ，1 0 ( 2 一l8 ) 在f s 一1 0 1 6 标准语音编码的算法中，将l o 个l s f 参数进行独立、非均匀的标量量化，1 0 个l s f 参数量化的比特数分别为3 ，4 ，4 ，4 ，4 ，3 ，3 ，3 ，3 ，3 ，共3 4 b 。 l s p 参数是每帧计算一次，在f s 1 0 1 6 标准中，综合滤波器的系数需要每子帧更新一次，所以需要将各子帧的l s p 参数按公式( 2 1 9 ) 进行内插得到，即秽= 0 8 7 5 0 伽一+ o 1 2 5 0 伽( 2 1 9 a ) 鳄= o 6 2 5 0 伽1 + o 3 7 5 0 ( 2 19 b ) 承呻= o 3 7 5 0 伽一+ o 6 2 5 0 ”( 2 19 e ) 社= o 1 2 5 0 伽一+ o 8 7 5 0 ”( 2 19 d ) 式( 2 1 9 ) 中：毹、蚕；、口p 和秽分别表示各子帧的l s p 参数；毒伽表示由当前输入帧求得的量化的l s p 参数；毒伽。表示由前一输入帧求得的量化的l s p 参数。 4 2 3 自适应码本搜索与编码自适应码本搜索采用的是修正的闭环感知加权最小均方误差准贝i i ( m s p e ) 来进行搜索。由于浊音信号是具有基音周期的，相隔整数倍的基音周期是存在很强周期性的，所以基于这一点，对感知加权最小均方误差准则的判决规则进行了修正。修正的内容为先将最小均方误差准则搜索得到的自适应周期m 进行检查，其均方预测误差( s p e ) 值是e r r 。如果存在一个最短自适应周期为n 对应的均方预测误差值与e r r 在1 2d b 之内，且m 是n 的整数倍，则将搜索得到的自适应周期m 调整为n 。对于f s 一1 0 1 6 ，自适应码本包含整数延时和分数延时。当前帧的自适应码本 1 0 硕1 ：学位论文第一二章4 8 k b s 码激励线性预测语爵编码是由该帧之前的激励矢量构成的1 4 7 个元素的序列。如果是整数延时，当前子帧的激励矢量的6 0 个元素用如下方法来构成。延时值m 是取2 0 1 4 7 之间的一个整数值。如果自适应码本用r 表示，那么它是包括1 4 7 个元素的线形数组： r = r ( - 1 4 7 ) ，“一1 4 6 ) ，r ( 一1 ) 】( 2 - 2 0 ) 如果延时值m 取的是6 0 - - 1 4 7 之间的某个整数值，那么当前子帧的6 0 维自适应码矢量，可按式( 2 2 1 ) 来构成，= 【，( 一m ) ，( 一m + 1 ) ，r ( 一m + 5 9 ) 】，m = 6 0 ，6 1 ，1 4 7 ( 2 - 2 1 ) 如果延时值m 取在2 0 - - 5 9 之间的某个整数值，那么r 可用式( 2 2 2 ) 来构成，= 【厂( 一m ) ，( 一m + 1 ) ，r ( - 1 ) ，厂( 一m ) ，( 一m + 1 ) ，】，m = 2 0 ，2 1 ，5 9 ( 2 - 2 2 ) 自适应码本在两个码本搜索完成后需要进行更新，更新的频率为每子帧更新一次。具体更新的方法为将两个码本搜索出来的最佳码矢量经过最佳增益加权后得到激励矢量，然后用得到的当前子帧激励矢量来移进自适应码本，根据先进先出的原则，将最先进的6 0 个元素移走，将更新后的自适应码本作为下一子帧的码本。自适应码本总共有2 5 6 个码字，其中包括1 2 8 个整数延时码字和1 2 8 个非整数延时码字。非整数延时是将两个整数延时之间再进行细分，具体再将间隔分为几个点，不同的延时是不一样的。自适应码本表见附录l ，从自适应码本编码表中可以看出，时延值小的间隔点分的多一点，而时延值大的间隔点很的少一些。具体的表现为时延值从8 0 - - - 1 4 7 没有细分，也就是只有整数时延，没有分数时延。时延值从3 4 - - - 7 9 这个部分，两个整数时延之间的分数时延为0 0 0 ，0 3 3 ，0 6 7 ；时延值从2 6 3 3 这个部分时，在两个整数时延之间的分数时延要多一个，为 0 0 0 ，0 2 5 ，0 5 0 ，0 7 5 ；而时延值在在2 0 2 5 时，分数时延与3 4 - - - 7 9 这个部分的分数时延相同。非整数时延所对应的码字是在整数时延基础上计算的，具体过程如下：第一步，计算加权值。4 8 0 点的汉明窗函数的公式如式( 2 2 3 ) ( 后) = 0 5 4 + o 4 6c o s ( k n 6 x4 0 ) ，k = - 2 4 0 ，2 4 0 ( 2 2 3 ) 取样函数的公式如式( 2 2 4 ) w ( j ，f ) = s i n ( j + f ) 万“，+ f ) 厅，= 一2 0 ，1 9 ，f = 1 4 ，1 3 ，1 2 ，2 3 ，3 4 ( 2 2 4 ) 以中点对齐，将h ( k ) x w ( j ，) ，即得到不同时延值i 时的加权值。第二步，对整数时延码字的6 0 个元素进行编号，编号分别为n o ，蜀，恐，； l l 硕l ：学位论史第一：章4 8 k b s 码激励线住顶测语者编码其中r 为时延最长的元素。如整数时延为6 6 ，则r = 一6 6 ，r = - 6 5 ，足。= 一7 如整数时延为2 1 ，则r o = - 2 1 ，r i = - 2 0 ，如= 一l ，r l = - 2 1 ，尼，= _ 2 0 ，局l = 一1 ，尼2 = 一2 1 ，恐8 = - 5 ，忍9 = - 4 ；若整数延时为5 8 ，则r 。= - 5 8 ， r j = - 5 7 ，足7 = - 1 ，咫8 = - 5 8 ，咫9 = - 5 7 。。第三步，把整数时延的前2 0 个元素及后1 9 个元素，连同其本身共4 0 个元素，分别乘以加权值累加后即得在此整数点上已考虑非整数时延后的值。，= 以坼m ，) ，= 一2 0 t = 垃人整数 ( 2 2 5 ) 其中i p = 0 ，l ，5 9 ；a 州。+ i 为整数时延的自适应码字元素，为加窗后的取样加权值，产一2 0 ，1 9 ，1 9 。在自适应码本编码的过程中，并不是每一子帧都在自适应码本整个范围内进行编码，即需要8 比特。只有第一子帧和第三子帧是在整个范围内进行编码，第二子帧和第四子帧是在f 一个子帧的基础上进行编码。因为根据实验所得，第二子帧和第四子帧都是在前一子帧的一个范围内，这个范围的大小是前3 1 个码字和后3 2 个码字，也就是总共为“个码字，只需要6 比特来进行编码。如果第一子帧的自适应码字编号为6 8 ，则第二子帧所用的自适应码字必在5 7 6 7 7 8 6 7 范围内，“0 0 0 0 0 0 ”表示为5 7 6 7 ，“0 1 1 1 1 1 ”表示为6 8 ，“l l l l l l 表示为7 8 6 7 。当前一子帧自适应码字如果在2 0 0 0 2 9 2 5 区间和1 1 5 肛1 4 7 o 区间内时，第二、第四子帧的自适应码字分别取的范围是2 0 0 0 - - 3 8 3 3 和8 4 0 0 1 4 7 0 0 区间内。在自适应码本编码搜索过程中，除了需要确定最佳码矢序号以外，还需要确定每一子帧中自适应码字的相应增益，表2 1 给出了自适应码本的增益码本表，从表2 1 中可以看出增益用5 比特编码。译码端在语音合成时，也用接收的5 比特码字来还原增益。表2 i 自适应码本增益编码表 1 2 硕1 ：学位论文第_ 二章4 s k b s 码激励线性预测语啬编码 2 2 4 固定码本的搜索与编码自适应码本搜索完成后，即进行固定码本搜索，固定码本和自适应码本的搜索方法一样，只是搜索的目标不同而已。固定码本搜索的矢量是自适应码本搜索后的剩余信号。由于这个剩余信号具有随机噪声的特点，所以固定码本又称随机码本。随机码本是由1 0 8 2 个三值元素( 一l ，o ，1 ) 构成，总共有5 1 2 个码字，每个码字和自适应码本一样都是6 0 个元素。这些元素是由零均值、单位方差的白色高斯序列经过削波得到的，其中7 7 的值是0 。1 0 8 2 个随机数中的最前、最后的 5 0 个元素分别如下： 0 ，l ，o ，o ，o ，l ，0 ，o ，0 ，0 ，0 ，0 ，l ，o ，l ，o ，o ，0 ，0 ，一1 ，o ，0 ，一1 ，0 ，一l ，0 ，l ，0 ，0 ，0 ，0 ，0 ，o ，一l ，0 ，一l ，一l ，0 ，0 ，0 ，0 ，0 ，0 ，一l ， 0 ，0 ，0 ，0 ，1 ，0 ， 0 ，一l ，0 ，0 ，0 ，0 ，一l ，0 ，0 ，0 ，0 ，l ，一1 ，0 ，o ，o ，0 ，一l ，0 ，l ，o ， 0 ，1 ，0 ，0 ，0 ，0 ，一l ，o ，0 ，0 ，o ，1 ，0 ，0 ，0 ，o ，一1 ，o ，o ，一l ，0 ，o ，o ， 0 ，0 ，o ，l ，0 ，0 在每个码矢量中，第n + 1 个码矢量只是比第n 个码字向前移两个元素而已。 5 1 2 个6 0 维随机码矢量如表2 2 所示。表2 - 26 0 维随机矢量在随机码本搜索过程中，除了需要确定最佳码矢序号以外，还需要确定每一子帧的最佳随机码矢量的相应增益，表2 3 给出了随机码本的增益码本表，从随机码本的增益码本表中可以看到，固定码本增益编码是用5 比特进行编码的。 1 3 硕l ：学位论文第- 二章4 8 k b s 码激励线性预测语音编码 2 2 5 感知加权滤波器感知加权滤波器足根据人耳的听觉掩蔽效应的原理来的，通过线性滤波使客观误差在不重要的频段能够衰减，在重要的频段上可以加强，所以合成语音在主观听觉上的噪卢和失真会大大减小。但是实际上，感知加权滤波器只是对噪声进行了频域的加权，在f s 一1 0 1 6 编码中，将通过感知加权滤波的误差用最小均方误差的准则来搜索，使得谱谷处的噪声受到抑制。总的来说，感知加权滤波并没有使得噪声能量减小，只不过是让听觉敏感的噪声受到抑制。感知加权滤波器的传递函数为 w ( z ) = a ( z ) a ( z r )o 7 1( 2 2 6 ) l o 其中a ( z ) = i - 口，z ，根据f s 一1 0 1 6 的标准规定：y = 0 8 。 2 2 6 编码参数的比特分配语音编码参数主要由l o 个l s p 参数，4 个子帧的自适应码本索引和增益，固定码本索引和增益，再加上帧同步、前向纠错和未来扩展比特，共1 4 4 b 帧。详细的编码参数比特分配如表2 4 所示。每帧用4 个比特( h p l h p 4 ) 进行纠错校验。此标准采用( 1 5 ，1 1 ) 汉明校验码对“b 进行前向纠错。这l l b 是：a 1 5 、a 1 6 、a i 7 、a g i - 4 、a g 2 4 、a 2 5 、 a 2 6 、a 2 7 、a g 3 4 、a g 4 - 4 和s p 。其中a 1 5 表示第一子帧的自适应码本编码的第5 比特；a g l 4 表示第一子帧的自适应码本增益编码的第4 比特；s p 为扩展比特，其余类推。胛l h p 4 分别为上述1 1 个比特中的7 个比特的模2 名，具体表达式为式( 2 2 7 ) 。 1 4 硕f ：学位论文第二章4 8 k i f s 码激励线性顶测语肯编码矧定码本索引( c i c 4 ) 同定码本增益 ( c g l c g 4 ) 自适应码本索引( a 1 a 4 ) 自适应码本增益 ( a g l va g 4 ) 9 4 = 3 6 5 4 = 2 0 8 + 6 + 8 + 6 = 2 8 5 4 = 2 0 同步( s 扩展( s p ) 纠错( h p ) 线谱对( l s p o l s p 9 ) 3 + 4 + 4 + 4 + 4 + 3 + 3 + 3 + 3 + 3 = 3 4总计14 4 2 3f s 一1 0 1 6 标准译码原理 ( 2 2 7 ) f s 1 0 1 6 的译码部分的功能主要包含以下四个部分：自适应码本解码、固定码本解码、线性预测分析与量化和后置滤波。其中后置滤波是为了增强合成语音质量。 2 3 1 译码框图与译码过程 f s

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（控制科学与工程专业论文）evcelp语音编解码模型的研究.pdf

文档简介

温馨提示

最新文档

评论

（控制科学与工程专业论文）evcelp语音编解码模型的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档