(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf_第1页
(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf_第2页
(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf_第3页
(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf_第4页
(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(电磁场与微波技术专业论文)基于arm的g729语音编码实现方案的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 i t u - tg 7 2 9 协议于1 9 9 6 年3 月发布,该协议是对使用共轭结构代数码激励线性预测 ( c s - a c e l p ) 对语音信号进行8 k b i t s 编码的算法的描述该算法广泛的应用于蜂窝电话网 络多媒体通信和卫星通信等领域。 这个方案的特点是分析窗采用混合窗:l s p 参数采用二级矢量量化;以子帧为单住的码本 搜索分为自适应码本搜索和代数( 固定) 码本搜索:基音分析采用开环基音分析和自适应码本 搜索相结合,从而降低了运算量,减少了基音的量化比特数,并提高了基音预测的准确度: 代数码本算法简单,不需要存储码本,恢复音质清晰在8 k b i t s 码率下合成语音质量不低 3 2 k b it sa d p c m 的水平。 在我国现阶段,以5 l 系列为代表的8 1 6 位处理器在信号采集、系统监控等低端领域得到 广泛的应用。随着对高处理能力、实时多任务、网络通信和超低功耗需求的增长,传统8 位 机的各种能力已远远满足不了新产品的要求,高端嵌入式处理器已经进入了国内开发人员的 视野,并在国内得到了普遍的重视和应用。像a 1 0 4 ,p o w e r p c ,m i p s ,c o l d f i r e 等3 2 位嵌入式处 理器在p d a ,g p s 消费电子s t b 和工业仪器仪表等应用领域显示出其强大的潜力。本课题 也正是基于a r m 实验平台上进行开发的。并在实验平台上给出了g 7 2 9 协议的整个算法 本文的内容安排如下,第一章,对课题的背景和语音信号处理及其相关标准进行了介绍; 第二章,介绍了线性预测合成分析编码的原理;第三章,详细介绍了g 7 2 9 的实现细节,以 及其中一些重要技术的原理;第四章,详细介绍基于a r m 实验平台的语音编解码协议的软件 实现方案,包括了编码和解码两个部分;最后。对所做的工作进行总结,并指出来完成的工 作。 关犍词:共轭结构代数码激励线性预测嵌入式处理器语音信号处理 a b s t r a c t a b s t r a c t i n1 9 9 6 。m a r c h ,r e c o m m e n d a t i o ng 7 2 9w a ss t a n d a r d i z e db y1 1 1 j t h er e c o m m e n d a t i o n i sad e s c r i p t i o no ft h ec o d i n go fs p e e c hs i g n a l sa t8k b i t su s i n gc o n j u g a t e - s t r u c t u r e a l g e b m i c - c o d e - e x c i t e d l i n e a r - p r e d i c t i o n ( c s a c e l p ) t h ea l g o r i t h mi sw i d e l ya p p l i e d i n c e l p h o n e m u l t i - m e d i an e t w o r kt e l e c o m m u n i c a t i o n ,s a t e l l i t et e l e c o m m u n i c a t i o na n d s oo n t h ec h a r a c t e r i s t i co ft h i sp r o g r a m m ei st h ea d o p t i o no fc o m p o u n d e dw i n d o w sa s a n l y s i s w i n d o w :l s pe o e f f i c i e a t sa r eq u a n t i z e d u s i n g a t w o s t a g e v e c t o r q u a n t i z e r ;c o d e b o o ks e a r c hc o n t a i n i n ga d a p t i v e c o d e b o o ks e a r c ha n df i x e dc o d e b o o k s e a r c hi sd o n eo n c eaf r a m e t or e d u c ec o m p l e x i t y ,r e d u c et h eq u a n t i z e db i t so fp i t c h a n di m p r o v et h ea c c u r a c yo fp i t c hp r e d i c t ,p i t c ha n a l y s i su s et h eo p e n l o o pp i t c h a n a l y s i sa n da d a p t i v ec o d e b o o ks e a r c h t h ea l g o r i t h mo fa l g b r ac o d e b o o k i s s i m p l e ,n e e dn om e m o r yt os t o r et h ec o d e b o o ka n dt h et i m b r eo fr e c o n s t r u c t e ds p e e c h s i g n a l si sc l e a n c u t t h eq u a l i t yo f t h ec o m p o u n d e ds p e e c hs i g n a l su s i n g8 k b i t s c o d i n gr a t ei sn o tl o w e rt h a nt h e 1 e v e l o f3 2 k b i t sa d p c m n o w a d a y s8 1 6b i tp r o c e s s o re s p e c i a l l ys u c ha s5 1s e r i e sa r ew i d e l ya p p l i e di n s i g n a l sc o l l e c t i o n ,s y s t e ms u p e r v i s ea n dc o n t r 0 1 w i t ht h ei m p r o v e m e n to fh i g h p e r f o r m a n c ep r o b i l i t y ,r e a lt i m e m u l t i t a s k s ,n e t w o r kt e e c o m m u n i c a t i o n a n du l t r a l o wp o w e rd e m a n d ,e a c hk i n do fp r o b i l i t yo ft r a d i t i o n a l8b i tp r o c e s s o rc o u l dn o t m e e tt h ed e m a n do fn e wp r o d u c ta n ym o r e a d v a n c e de m b e d d e dp r o c e s s o rh a sc o m ei r i t e i n t e r n a ld e v e l o p e r se y e s h o ta n da c c e p t su n i v e r s a la t t e n t i o na n da p p li c a t i o ni n i n i a n d 3 2 b i te m b e d d e dp r o c e s s o r ss u c ha sa r m p o w e r p c ,m i p s ,c o l d f i r ee t ci n d i c a t e t h e i rp o w e r f u lp o t e n c ei np d a ,g p s ,c o m s u m e de l e c t r o n ,s t ba n di n d u s t r i a li n s t r o m e n t a n dm e t e r ,o u rt a s ki sj u s td e v e l o p e do na r me x p e r i m e n tp l a t f o r ma n dr e a l i z e st h e r e c o m m e n d a t i o ng 7 2 9o nt h ep l a t f o r m t h ec o n t e n to f t h i s t h e s i s i s a r r a n g e d a s f o l l o w i n g :i nc h a p t e r l w e m a i n l y i n t r o d u c e t h eb a c k g r o u n do fo u rt a s k , s p e e c hd i g i t a lp r o c e s sa n di n t e r r e l a t e ds t a n d a r d i nc h a p t e r2 ,w e i n t r o d u c et h ep r i n c i p l eo f l p a s i nc h a p t e r3 ,w ei n t r o d u c et h er e a l i z a t i o no f r e c o m m e n d a t i o ng 7 2 9i nd e t a i l sa n ds o m ek e yt e c h n o l o g y sp r i n c i p l eo fi t i n c h a p t e r4 w ei n t r o d u c et h es o f t w a r er e a l i z a t i o no fs p e e c hc o d i n gr e c o m m e n d a t i o no n a r me x p e r i m e n t a lp l a t f o r m ,i n c l u d i n gc o d i n ga n dd e c o d i n g a ti a s t ,w es u m m a r i z eo u r w o r k sa n dp o i n to u tu n f i n i s h e dw o r k s k e yw o r d s :c s a c e l p ,e m b e d d e dp r o c e s s o r ,s p e e c hs i g n a lp r o c e s s 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:日 期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印,缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名: 导师签名: 日期: 第1 章绪论 第1 章绪论 随着多媒体信息技术和网络技术的高速发展,数字语音压缩技术的应用领域越来越广 泛,尤其在可视电话、会议电视、i p 网络电话、数字蜂窝移动通信、数字卫星系统、数字线 路倍增设备( d c m e ) 、综合业务数字网( i s d n ) 、公共交换电话网( p s t n ) 、话音存储转发系统等 领域中图1 1 为一利用a r m 实现语音编解码的数字无线蜂窝移动通信系统便携终端结构框 图。压缩语音的目的是在保证语音一定质量的前提下尽可能降低其编码比特率,以便在有限 的传输带宽内让出更多的信道来传送图像、传真、文档、计算机文件和其他数据流,从而达 到传输资源的有效利用和网络容量的提高。【j j l 一 t 一 嘲州 乍逆 、r 1 洱, 、r 一 x k m 嚣 皿 锭n鼋燕 , , 器嗡f 钟f l 畦 “;器 嚣尸 图1 1 数字无线蜂窝移动通信系统便携终端结构框图 1 1 数字语音压缩技术的现状 经过近二三十年的努力,人们在声音信号的压缩方面取得了很大的进展。提出许许多多 的压缩方法,其中的一些成为了国际和地区编码标准。按技术可以分为波形编码和参数编码 两类。i l l 表1 1 波形编码1 1 1 j 标准 标准颁发比特率复杂度 时延语音编码器 年份 ( k b i t s )m i p sr a m质量类型 ( b y t e ) g 7 l l 1 9 7 2 6 4( 110 1 2 5 长途压扩 p c m g 7 2 61 9 8 81 6 ,2 4 , 1 2 5 5 00 1 2 5 长途 a d p 吼 ( g 7 2 1( 1 9 8 43 2 ,4 0 g 7 2 3 ) ,1 9 8 6 ) g 7 2 71 9 9 01 6 ,2 4 。1 2 5 5 0 0 1 2 5 长途 d p a i 3 2 ,4 0 g 7 2 21 9 8 86 4 ,5 6 。1 01 k 1 5 长途a d p 删 4 8 东南大学硕士学位论文 波形编码系统直接对语音时域或频域波形样值进行编码,其基本出发点是获得尽可能高 的信噪比( s n r ) 。由于这种系统保留了语音信号原始样值的细节变化,从而保留信号的各种 过渡特性,所以其解码声音质量较高。但高质餐解码语音需要系统具有比较高的编码速率, 以保持语音波形中的各种过渡特性。传码率比较高、压缩比不大是此类系统最大的缺点。波 形编码广泛应用于电路交换网。常用的波形编码国际标准如表1 1 所示。 表1 2 参数编码国际和地区性标准 标准颁发比特率复杂度时延( m s )语音编码器 年份 ( k b i t s )m i p sr a m 帧长前视质量类型 ( b y t e ) g 7 2 81 9 9 41 63 02 k0 6 2 5o 长途 c e l p g ,7 2 91 9 9 682 03 kl o5 长途 c e l p g 7 2 3 1 1 9 9 5 5 3 ,6 3 1 62 2 k 3 07 5长途多脉冲 c e l p g s m 半速率 1 9 9 45 63 04 k2 05长途c e l p i s 9 61 9 9 38 5 ,4 ,2 ,o 82 02 k2 05 i s 5 4c e l p j d c 半速率 1 9 9 33 4 54 86 k4 0l o i s 5 4c e l p 参数编码又称声码器( v o c o d e r ) ,其基础是人类语音的生成模型。该模型以定精度模拟 发话者的发声卢道,接收端根据该模型还原生成发话者的音素,在频率域上该模型就对应为 一定零极点分布的数字涟波器。编码器发送的主要信息就是该模型的参数,相当于话音的主 要特征,而并非具体的话音波形幅值。而且由丁话音信号变化是缓慢的,一个音素要持续相 当长一段时间( 相对于抽样周期而言) ,阏此该模犁参数的更新频率较低,不但可以利用抽样 值间的相关性,还可以充分利州帧与帧之间的信息冗余性以及更故时间段中的音源信息冗余 性,有效地阳氏编码比特率。目前小f 1 6 k b i t s 的低比特率话音编码都采用参数编码。它在移 动通信、卫星通信、保密和军事通信、多媒体通信和i p 网络电话等应f j 中起到重要的作用。 有影响的话音参数编码国际标准和地区性标准有i t u t 和数字蜂窝标准组织制定。f j 参数编码的固有误差是由话音生成数字模型本身限定的,无论怎样增加参数的编码比特 率,减小量化误差,都不能使重构信号收敛丁原信号。而波形编码不一样,理论上只要预测 阶数足够高,量化误差足够小,重构信号将收敛于原信号。 1 2 用a r m 技术实时实现语音压缩算法的需要 国际电信联盟( 1 1 1 j 。i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) 于1 9 9 6 年推出了采用共轭结 构代数码激励线性预测( c s a c e l p 。c o n i u g a t es a u c t u r ea l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c a t i o n ) 技术的具有8 k b i t s 码速率的语音编码算法建议g 7 2 9 ,该算法是以语音编码方案中的码 激励线性预测( c e l p ,c o d ee x c i t e dl i n e a rp r e d i c a t i o n ) 技术为基础提出的,与g 7 2 3 ,l 卢码器 同属于i t u 己制定语音压缩国际标准中最新且码率最低的两种,属于参数编码器。c e l p 虽 然能在中低速率上提供较好的合成语音方案,成为目前语音编码算法中最主要的方案,但计 算复杂和数据存储量大却是它的固有缺陷。这使得一些理论上性能良好的语音编码方案在实 时实现或实际应用中还存在许多困难。因此语音编码算法的实时实现一直是该领域中的一个 具有重大意义的研究课题。 嵌入式系统就是嵌入到对象体系中的专用计算机系统。以嵌入式计算机为核心的嵌入式 第1 章绪论 系统就是继i t 网络技术之后,又一个新的技术发展方向。i e e e ( 国际电气和电子r = 程师协会) 对嵌入式系统的定义为:嵌入式系统是“用于控制,监视或者辅助操作机器和设备的装置” ( 原文为d e v i c eu s e dt oc o n t r o l ,m o n i t o ro ra s s i s tt h eo p e r a t i o no fe q u i p m e n t , m a c h i n e r yo rp l a n t s ) 。由于其具有体积小,性能好,功耗低,可靠性高以及面向行业应 用的突出特征,目前已广泛地应用于军事国防,消费电子,信息家电,网络通信,工业控制 等领域。| 3 6 1 嵌入式微处理器的基础是通用计算机中的c p u ,是嵌入式系统的核心。在应用中,嵌入 式微处理器具有体积小,质量轻,成本低,可靠性高等优点。目前比较有影响的嵌入式r i s c 处理器产品主要有i 删公司的p o w e rp c ,m i p s 公司的m i p s ,s u n 公司的s p a r c 和a r m 公司的a r m 系列在本文中采用s 3 c 4 4 0 b o x 硬件实验平台来实现该语音编码算法。i 刈 1 3 研究内容和研究思路 语音信号生成数字模型的建立是参数编码理论的前提。本文首先分析语音形成机理,构 造出语音信号生成数字模型,然后对低比特率参数编码技术中的线性预测合成分析编码 ( l a p s ) 原理进行讨论,这种研究了线性预测( l p ) 技术( 包括线性预测系数的计算,量 化和内插,误差加权滤波器的确立) ,激励信号的生成( 包括激励信号的表示,码本矢量量 化技术,基音预测和自适应码本技术,基音信号的确定) 和后置滤波器技术。g 7 2 9 声码器 是基丁二l a p s 原理的。本文的第三部分研究g 7 2 9 语音编码器的编解码算法理论,分析编码比 特流组成。第四部分研究g 7 2 9 声码器在s 3 c 4 4 b o x 芯片上具体的实时实现的硬,软件结构( 包 括硬件平台的组成,a r m 存储器空间分配,系统软件设计) 和软件优化等关键技术,最后给 出性能测试结果。 3 东南大学硕上学位论文 第2 章线性预测合成分析编码原理 g 7 2 9 是基于线性预测合成分析( l p a s ,l i n e a rp r e d i c t i o na n a l y s i s - - s y n t h e s i s ) 原理的 低比特率参数编码器,以f 主要对话音形成原理进行分析、构造出声音生成数字模型及对此 类低比特率参数语音编码技术进行讨论。 2 1 声音形成机理 话音形成的大致过程如下。从肺部压出的空气由气管到达声门,气流流经声门时形成声 音,然后再经咽腔。由口腔或鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声管组成的卢道, 当腔体呈不一】形状,舌、齿、唇等处于不同位置时,相当于形成一个具有不同零极点分布的 滤波器,气流通过该滤波器后产生相应的频响输出,从而发出不同的音素。口1 音素可以分成两类。伴有声带振动的音称为浊音( v o i c e ds o u n d ) ,声带不振动的音称为清 音( u n v o i c e ds o u n d ) 。由于声带振动有不同的频率,因此浊音就有不同的音调,称之为基音 频率。气流压出的不同强度对应为声音的音量大小。 1 ) ) :盏 1 1 1 ) ) 懿 图2 1 声音形成过程 浊音气流流经声道后,其幅频特性在声道的滤波作用f 将呈现两个显著的特点。一是幅 频频谱的包络有儿个明显的局部最人值,称之为共振峰。在这些频率点处,反射波相互迭加, 声波能餐加强。二是频谱的精细结构呈现周期性,即每隔一定频率间距出现一个峰值,该间 距对应的就是基音频率。对于浊音尤其是元音,频谱的前二个共振峰为特征共振峰,由于共 振峰可以识别音素,而一个音素持续的时间相对较短( 音节时间) ,因此可以说频谱包络反映 了话音的短时相关性。而发话者基音频率的变化则比较缓慢,因此频谱的精细结构反映了话 音的妖时相关性。“ 4 第2 章线性预测合成分析编码原理 2 2 语音生成的数字模型 人们经过对语音信号大量分析、模拟和实验,得到语音信号生成的数字模型( 也就是 语音参数模型) 如图2 2 所示。它由声源和声道两部分组成。声源包括激励信号和增益控制。 浊音的激励源为一串周期性的脉冲,脉冲周期即是基音周期:清音的激励源为随机噪声信号。 增益控制反映信号的强弱,开关则表示清浊音判决。声源决定了话音信号频谱的精细结构。 声道由时变数字滤波器组成,它决定话音频谱的包络特性。这样不断控制消浊音开关、激励 脉冲周期以及噪声源强度,同时随着不同的发音改变滤波器特性,输出的信号就是所求的语 音信号序列。 增蕊控锏 滤波猫参数 2 3l p a s 编码原理 2 3 1 结构原理 图2 2 语音信号产生的电路模型 “i i ;s 印) 基于线性预测合成分析( l p a s ) 技术的话音参数编码器的结构原理如图2 3 所示。 图2 3l p a s 声码器的原理结构 激励生成器产生的激励信号经线性预测器后得剑重构的话音信号s ( i ) ,线性预测器模拟 声道特性,加强激励信号的某些频率域,减弱另一些频率域,体现了话音的短时相关性。激 - 5 东南大学硕士学位论文 励信号则体现了话音的长时相天性,输人线性预测器的激励信号是量化后的增益和基音信 号。由于量化误差的影响,重构信号和输人信号s ( i ) 之间必然存在有限的差值e ( i ) ,称之为 残差信号( r e s i d u a ls i g n a l ) ,最小化过程的目的就是调整激励信号,使残差的方筹为最小, 由此构成确定激励信号的闭环同路。为了减小鼍化比特,提高编码效率,激励生成器输出的 是残差信号估值,而不是原信号估值。经过最小化过程确定的激励信号量化值就是声码器的 输出,接收端的解码器根据此信号和同样的线性预测器恢复原来的话音信号。 由于声道的形状和大小是随音素而变化的,因此预测合成器是一个线性时变系统,其滤 波器系数需要定期更新。冈此,l p a s 的闭环回路实际上包含两层反馈控制。内层是线形预测 滤波器的自适应控制,系数更新周期为一帧长,典型值为1 0 3 0 m s 。外层是激励信号的优化, 由f 基音周期小于帧长,因此其更新周期较短,典型值为5 1 0 m s l p a s 的关键技术是如何确 定和鼍化激励信号。残著激励信号的量化有多种方法:一种广为使 l 的方法称之为多脉冲 激励( m p e ,m u l t i - p u l s ee x c i t a t i o n ) 编码,该方法用于比特率为i o k b i t s 左右的话音编码器,其 复杂度适中。有良好的话音质量。与此类似的一种方法称为规则脉冲激励( r p e ,r e g u l a r p u l s e e x c i t a t i o n ) 编码,该方法限定激励脉冲的位置,复杂度较低,其比特率及质量和多脉冲编码 类似。近年来得到广泛使用的方法是码本激励线性预测( c e l p ,c o d e e x c i t e dl i n e a r p r e d i c t i o n ) 编码,该方法采用矢量颦化技术,用预定义的码本( c o d e b o o k ) 激励代替脉冲激励, 码本中的每一个向量对应一个量化信号,编码信息转化为码本索引。这种方法具有很高的编 码效率,但是复杂度也很高,由丁近年来高速数字处理:吝片的出现才使这种方法成为实用。 g 7 2 9 就是以此为基础演绎出具有8 k b i t t s 低比特率声码器标准。 2 3 2 实际采用的l p a s 功能结构 实际采用的l p a s 功能结构如图2 4 所示,它是在图2 3 基础上增加了以下两个功能。 1 差加权滤波器 人的听觉系统对下不同频段噪声的感觉是不一样的。如果有一个强信号存在,一个本来 可以听到的话音可能会被掩没成为不w 闻信号,这一感觉效应称为掩蔽( m a s k i n g ) 误差加权 滤波器的作用就是对残差信号进行频谱掩蔽,也就是按照话音信号频谱的峰值来整形量化噪 声,使得鼍化噪声的能量集中在原信号的高能区域。插入加权滤波器后,编码器参数将根据 感觉加权均方差准则选取,由此得到的量化噪声也许会增加,但是对于人的听觉系统来说可 感的噪声却降低了,可以有效的提高l p a s 编码器的性能。与此类似,在解码器的输出端也 可以加入一个自适应后置滤波器,以进一步降低可感噪声,特别是低能量频率区域的噪声。 其原理和编码器中的误差加权滤波器相似。具体实现为短时相关滤波器和长时相关滤波器的 组合。短时滤波器根据收到的预测合成器系数修改重建信号的频谱包络,长时滤波器参数则 由收到的激励信号数据导出。 2 输入信号预处理 其目的也是修正误差判据,使其更加符合人类听觉系统的感觉特性,降低编码参数的比 特串对于最小均方著判据来说,原信号和重构信号之间的微小的时延差,印相位不匹配造 成很人的失配误差但是实际上这类误差是感觉不到的,即使时延差随时间缓慢变化,人类 听觉系统对此也不敏感。输入信号预处理的作用就是对信号进行简单的时延处理或较为复杂 的时间变换处理,掩蔽相位误差有效地提高基音预测的编码效率。 6 第2 章线性预测合成分析编码原理 2 4 线性预测技术 囤囤 图2 4l p a s 声码器的改进结构 l p a s 结构的内核是合成滤波器,它描述了话音信号的短时相关性。如图2 3 所示,其输 入为激励信号,输出为重构话音信号。编码器按块处理方式, 作。在每一时间块中,大量的 激励信号试验通过合成滤波器,由此选定产生失真最小的激励信号作为编码参数送出。原则 上可有多种方法实现该合成滤波器,如倒谱分析( c e p s t r u ma n a l y s i s ) 法,非线性预测方法 等,但由于其复杂度高,性能未见显著改进因此很少采用。目前大量采用的是线性预测方 法。 2 4 1 帧、子帧和窗口 l p a s 编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为“帧” ( f r a m e ) 。合成滤波器系数根据输入信号每帧重新计算一次,计算用到的输入信号抽样值范 围称之为l p 分析窗口,窗口长度一般和帧长相同,其相对位置可能和帧完全对应,也可能比 帧超前,也就是说除了用到当前帧的抽样信号值外,还要用到下一帧的部分样值,这称之为 “前视”( 1 0 0 k a h e a d ) 。它的好处是每帧更新的滤波器性能不会产生突变,有利于提高模型 的精度,其代价是需引入额外的算法时延。激励信号更新周期小于合成滤波器的更新周期, 称为“子帧”( s u b f r a m e ) 。通常帧长为1 p 3 0 m s ,子帧长为2 1 0 皿s 2 4 2 线性预测系数的计算 设开环预测公式为 式中,a 。为线性预测系数。 则开环线性预铡残差为: , 鳓= - a s ( i 一 n = - i 一7 ( 2 1 ) 东南大学硕士学位论文 对应的z 变换为: _ 聃= 一韵= s ( f ) + a n s ( i n ) n = l , 反z ) = ( 1 + z - n 姆( z ) = 一( = ) s ( z ) ( 2 3 ) = l a ( z ) 称为l p 分析滤波器,确定的基本准则是最小化e ( i ) 。记a 【a l ,a 2 ,a 3 ,a 4 】7 。输入信号的 自相关系数为r ( i k 产e 【s ( i ) s ( k ) 】,式中e 【_ 】为期望值。自相关矩阵记为r ,其元素为r 女= r ( i k ) , 由此得: 对上式求极小值:令娑:o 得: 功 h ) = 烈o ) + 2 【尉1 ) ,尉2 ) ,胄( ) 】口+ ,冗口 ( 2 4 ) a r r = 一【月( 1 ) ,胄( 2 ) 一二月( ) 】 ( 2 5 ) 上式称为y u l e - w a l k e r ,y 程。由于r 为对称矩阵可采 :i 杜宾( d u r b i n ) 递推算法求解。假设在 一帧时间内输入信号是统计稳定的,现_ j 窗口函数截取输入信号抽样序列,窗口长度为l , 在窗口范围之内的抽样值s ( i ) 的加权值为w ( o ,窗口范闸之外的抽样值加权值为零,即不作 为计算依据。则r ( k ) 的统计估计值为: 一i - k 烈1 ) :罗“玲s ( f ) w ( “ 梦o + ) ( 2 6 ) i = 0 将上式代a ( 2 5 ) 式,即可求得预测系数a n 。 2 4 3 预测系数的量化和内插 1 - 系数量化 低比特率编码器一般将预测系数a 。量化后传送至解码器。除了常规的量化精度外,还锝 考虑系统的稳定性。由于传输信道误码的客观存在,如果直接传送a i l ,在接收端收到的a 。会 发生变化,而a 。的少量变化会导致滤波器频谱的很大变化,甚至会使滤波器不稳定。为此, 量化并不是直接对a 。进行,而是对a 。的某种变换形式进行。最常用的变换形式就是线谱频率 ( l s f ,l i n e a rs p e c t r u mf r e q u e n c y ) 对,线谱频率对的获取方法是,利用滤波器a ( z ) 和a ( z _ 1 ) 构 成一个和值滤波器p ( z ) 和一个差值滤波器q ( z ) : p ( 2 ) :爿( z ) + z - ( + 1 ) 一( z 一) ( 2 7 ) g z ) = 4 ( z ) 一z _ “) 彳( z 1 ) p ( z ) 和q ( z ) 的根称为l s f ,它们具有如下十分有用的性质: ( 1 ) p ( z ) 和q ( z ) 的根均位单位圆上,且相互交替问隔排列。 s ( 2 8 ) 所 西 。删 2h 烈 脚 2 瓤 l i 1 ,j 2 改 匝 第2 章线性预测合成分析编码原理 ( 2 ) 只要接收端收到的l s f 仍然保持上述性质,则对应的a ( z ) 保持为最小相位滤波器。 这样就最大程度地减小了传输误码的影响,并确保l p 合成滤波器的稳定性。 ( 3 ) l s f 的频谱灵敏度具有很好的频率选择性,也就是说,单个l s f 的误差只局限于该 频率附近的频谱范围。 性质( 1 ) 和性质( 2 ) 表示只要l s f 保持单调,即间隔交替,就能确保滤波器的稳定,使得 量化的要求大为放宽,可采用多种方法进行量化。接收端只要沿单位圆搜索l s f ,且按升序依 次确定p ( z ) 、q ( z ) 的根即可。性质( 3 ) 表示l s f 的频谱灵敏度是局部的,因此各个l s f 可以独 立进行量化,对于灵敏度高的参数可以分配较多的龟化比特,量化失真不会从一个频谱域泄 露到另一个频谱域去。与此对照,直接对a 。茸化就不具备这些优点。一则a n 的稳定性检验复 杂,没有一个简易可行的准则:二则一个a 。的变化会引起整个频谱的变化,关联性太大。 2 系数内插 由于预测系数是逐帧计算更新的,在某些情况下,就可能在帧与帧之间产生预测系数的 突变,此瞬变效应将导致解码器话音恢复时产生失真。解决此问题的方法,一是前视,利用 部分下一帧的数据计算系数,达到平滑的作用。二是内插,即将上帧与本帧的系数计算值适 当组合后作为最终的系数。具体实现时,可以对每个子帧选取不同的权值,逐渐变更预测系 数。第i 子帧的系数可按f 式计算: s t ( 0 = 彬s 巧+ 0 一彬) 踮 ( 2 9 ) 式中,s t f 和s f d 分别为上帧和本帧计算的系数,w i 为第i 子帧的权值。对于帧长为2 0 3 0 m s 的情况,每帧包含4 个子帧,w ,可取为0 2 5 ,0 7 5 ,1 o ,1 0 ( i = l ,2 ,3 ,4 ) 。同量化一样,内插不是直 接对l p 系数进行的,而是对l p 系数的某种变换形式,如l s f 进行的,以保证内插涟波器的稳 定,并且允许对不同系数进行不同的内插。 2 4 4 误差加权滤波器 常用的误差加权滤波器是根据表征话音信号短时相关性的l p 系数构成的,其传递函数为 悱籍0 t i y 2 1 i - 月i =,l 式中爿( z ,t ) 的表达式为: ( 2 1 0 ) 彳( z t ) = 1 - a n y z 1 ( 2 i 1 ) r - 1 新 1 ,则1 ,a ( z 一) 滤波器的根更靠近单位圆的圆心,对应为频谱共振峰的带宽加宽,从而使 共振峰附近的噪声得到加强。丫l 和y 2 的值根据听觉和编码器的量化失真选定常用值为t l 10 t 2 = 0 8 。涟波器系数根据量化l p 系数或未量化l p 系数导出。 2 5 激励信号生成 激励信号生成模型是声码器的主体部分,l p a s 声码器的合成分析指的就是激励信号的生 - 9 东南大学硕士学位论文 成机理,它通过分析比较大量激励源合成的结果,从中选出最佳匹配的激励信号。声码器编 码输出的主要部分是激励信号。激励信号包括清浊音判定、基音周期和增益。清浊音可根 据话音信号自相关函数归一化峰值电平来判定。若电平值大干给定阐值,则为浊音,否则为 清音。如为清音,则激励源为随机信号。如为浊音则为准周期脉冲信号,激励源为空间位置 有规律分布的脉冲串,脉冲位置间隔体现为基音周期,它决定了话音信号的长时相关性。如 果长时相关也采_ i j 线性预测滤波器模型,该周期即对应为离散信号的时延。增益则是另一个 独立豹参数。所以激励信号生成的主要问题是如何表示和选定浊音对应的脉冲源。 2 5 1 激励信号的表示 1 多脉冲激励( m p e ) 其设计思想是只对激励信号的重要抽样编码,忽略其它抽样( 即将其置零) ,以此降低编 码比特率。多脉冲激励信号用有限数量脉冲的幅值和位置表示为: ( 2 1 2 ) 式中a a ,n ,k 分别为脉冲幅值、脉冲位置和脉冲数,6 ( 0 ) 为6 函数。需要编码的信息只有 脉冲位置和幅值。 2 规则脉冲激励( r p e ) 其设计思想和多脉冲激励相同,但是为了降低复杂度,脉冲位置限定为间隔为s 的栅状 位置,其激励信号表示为: 在给定的子帧中只有s 个允许组合位置。激励信号搜索就是针对每种允许的格栅位置计算脉 冲幅值和相应误差选定最佳逼近原信号的参数,它需要求解系列线性方程组。 3 码本激励( c e ) 量化有两种类型:一种是标量量化,也就是对每个参数独立地进行量化,然后通过组合确定 参数集。另一种是矢量最化( v q v e c t o rq u a n t i z a t i o n ) ,也就是将所有参数组合起来作为一个 整体进行量化,在数学上用矢龟表示参数的组合。所有可能的参数组合对应为个有限的矢 量空间,矢量全化就是在这缩减的矢量宅间中按某一判据选取最佳的矢量( 参数组合量化 值) ,显然它的效率比标肇量化高。矢量每化的核心部件就是码本( c o d e b o o k ) 。码本包含的 矢量数称为码本尺寸,记作l :每个矢量包含的比特数称为码本的维数,记作k 。显然有l = 2 。 设每个矢量记录了p 个参数的量化值,平均每个参数分配到的比特称为量化比特率,记作r , 则有r = k p 。被量化的参数可以是话音抽样值、线性预测系数、激励脉冲等。 记连续参数空间为x ,离散的码本矢量空间为c ,矢量量化就是完成x c 的映射过程。设 待量化的参数为x = 【x l ,x 2 ,x 3 ,x p ,搜索码本确定最佳匹配的矢量为c 。,则有: d ( x ,g ) s o ( x ,q ) w i( 2 1 4 ) 式中,d 为点x 和c 之间的度量距离,该距离的不同定义就决定了不同的量化判据。目前大多 数矢肇量化器采用的都是欧几里得平方距离或加权的平方距离。另一种方法是壹接穷尽搜索 码本空间,按某种判据,如残差信号均方芹最小的原则确定最佳矢量,它将参数计算和量化 综合在一起完成,随机激励信号的生成可以采用这种方法。在矢量量化中,编码器和解码器 1 0 、j 崎 一一 ,i j q h m f i ) ” ( “ 筇伫 u 一心一h , 占 q :l 1 1 ) 第2 章线性预测合成分析编码原理 中存有完全相同的码本。编码器选定最佳匹配矢量c 后,只需将其在码本中的下标i 传送到 解码器,后者根据f 标就可找出对应的矢量,从而恢复为原来的参数。其过程如图4 5 所示。 固( 孽丑- 图2 5 矢量量化过程示意图 为了降低话音编码器的复杂度、比特率和所需存储量,人们提出了许多种不同的码本 结构,据此可将矢量量化划分成如下几种类型: ( 1 ) 全码本矢量量化 这是最简单的一种矢量量化方法,它只有一个总的码本,量化时需要对码本中的所有矢 量进行搜索,找出和输入矢量x 最靠近的码本矢量y i 。可记作y 。= q ( x ) ,式中q ( ) 表示晕化函 数,即x y 的映射关系。这种方法的两个最大缺点是存储量大,计算复杂例如在线性预测 时要得到可接受的失真度,需要一个2 0 比特的码本。它包含1 0 0 万个矢量,实时搜索这样大 的码本是不现实的。 ( 2 ) 分割码本矢量量化( s p l i tv q ) 这种方法将待量化的矢量分割成两个或多个子矢量,然后对每个子矢量独立进行鼍化, 每个子矢量量化有它自己的码本。最后的量化结果为选定的各子码本矢量之和。在搜索第1 个码本时。和全码本法一样,没有任何约束。搜索后续码本时,必须考虑前面已确定的子矢 量,要保证输入矢量的单调性。例如在2 分割矢量量化中,量化过程为y l ,= q 】( x 1 ) ,y m = q 2 ( x 2 ) 在进行q 2 搜索时,必须保证矢最y l l 和y 2 组合后误差判据将单调卜- 降。 码本分割后,各子码本的尺寸呈指数关系卜降,而顺序搜索各子码本的计算量则是各子 码本搜索量的线性和,因此分割量化的计算复杂度将大为简化。另外,根据重要程度的不同, 各子码本的大小可不相同。例如话音的低频成份对质量影响较大,则可以对此部分量化多分 配些比特。 ( 3 ) 多级矢量量化 这种方法的思路是分阶段量化。先对输入矢量x 讲行颗粒度较粗的量化,对应的码本只 需要包含较少数量的矢量,记作y l 邗1 ( ) ( ) ,其误差矢量为w :( x y 1 ) 。然后再用另一个码本 进行细量化,进一步减小量化误差,记作z = q 2 ( w ) 。原则上可以进行更多级的量化。 1 4 ) 自适应矢量量化 这种方法的码本内容是不断在更新的。如果在一段时问内,某些低概率码本矢量一直未 被使用,则可将它们从码本中去除,然后代之以高概率矢量。这些高概率矢量取自于当前输 入数据,且未被包含在现有的码本中。这些更新的码矢可以在静音期或话音数据量低的时期 发送给接收方。还有一种较为实用的方法是,编码器和解码器按照同样的原则更新码本。无 需传送码本更新信息。犹如反馈型自适应方法无需传送预测系数一样。 矢量量化另一个重要的问题是如何建立码本,它应该忠实地反映实际参数的组合情况。 为此,需建立一个数据库,例如不同发话者、不同音素的发音数据,通过模拟确定合适的码 本矢量。这一过程称为码本训练过程。 4 基音预测和自适应码本 由丁二浊音的激励信号具有明显的周期性,相邻子帧的激励信号有很大的相关性,因此理 想的方法应该是将上一子帧的激励信号作为初始估值,然后在此基础上附加增晕信号,构成 本子帧的激励信号。显然增餐信号功率小得多,量化空间显著减小,可以有效地提高搜索效 东南大学硕士学位论文 率。基音预测有两种实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论