(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf_第1页
(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf_第2页
(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf_第3页
(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf_第4页
(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(通信与信息系统专业论文)csacelp编码算法研究及其dsp实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业大学硕士学位论文摘要 摘要 多媒体技术的不断发展,对语音编码提出的要求越来越高,不仅要求低速率、 低延时,而且要求很高的合成语音质量。i t u t g 7 2 9 语音编码方案采用共轭结 构代数码本激励线性预测( c s a c e l p ) 技术,算法具有8 k b s 的编码速率、较低的 延迟和高质量编码语音,因此,研究和实现c s a c e l p 算法具有重要意义。 本文首先介绍了信号的模型和线性预测的基本原理,在此基础上建立并讨论 了语音信号线性预测编码的数字模型,同时给出了求解线性预测方程组最常用的 l e v i n s o n d u r b i n 高效递推算法,进而介绍了语音编码中非常重要的矢量量化原 理、知觉加权滤波器、分析合成法的基本原理以及它们在语音编码中的所起的作 用,详细介绍了码激励线性预测编码( c e l p ) 的基本原理以及自适应码本和固定码 本的搜索过程,然后深刻剖析了c s - - a c e l p 语音编码算法原理,最后,给出了 t m s 3 2 0 v c 5 5 1 0 的高性能特性以及它的存储器配置方案,详细分析了a i c 2 3 语音 编码芯片的性能以及它的外围接口、初始化方法以及驱动程序的开发,最后,在 t m s 3 2 0 v c 5 5 1 0d s k 平台上实现了该语音编解码算法并进行仿真测试,结果达 到了8 k b sc s - - a c e l p 编解码器的要求。 关键词:线性预测矢量量化 分析合成 c e l pd s p 西北: 业人学硕:卜学位论文 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g i e s ,t h er e q u e s tf o rt h es p e e c hc o d e i sm o r ea n dm o r eh i g h ,n o to n l yt h el o wc o d er a t e ,t h el o wt i m ed e l a y ,b u ta l s ot h e v e r y h i g hq u a l i t yo ft h es y n t h e s i sp r o n u n c i a t i o n i t u - tg 7 2 9 i sb a s e do nt h e c o n j u g a t e - s t r u c t u r ea l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ( c s - a c e l p ) ,w h i c h h a s8 k b sr a t e ,t h el o wt h ed e l a ya n dh i g hq u a l i t yo ft h es y n t h e s i sp r o n u n c i a t i o n ,s o r e s e a r c ha n di m p l e m e n tt h ec s - a c e l pi so f g r e a ts i g n i f i c a n c e t h i sp a p e ri n t r o d u c e st h es i g n a lm o d e la n dt h eb a s i cp r i n c i p l eo fl i n e a rp r e d i c t i o n f i r s t l y ,t h e nt h ea n a l y s i sm o d e lo ft h el i n e a rp r e d i c t i o nc o d ea n dt h el e v i n s o n d u r b i n a l g o r i t h mw h i c hi so n eo ft h em o s tc o m m o n l yu s e dh i g h l ye f f e c t i v er c c u r s i o n a l g o r i t h mo ft h es p e e c hs i g n a la r ee s t a b l i s h e d ,b a s e do nt h ev e c t o rq u a n t i f i c a t i o n , c o n s c i o u s n e s sw e i g h t i n gf i l t e r ,t h ea n a l y s i sb ys y n t h e s i s ,t h ec o d ee x c i t e dl i n e a r p r e d i c t i o nc o d i n g ( c e l p ) ,a sw e l la st h es e a r c hp r o c e s so fa u t o a d a p t e dc o d ea n d f i x e dc o d e ,t h ed e t m l e dp r i n c i p l eo fc o n j u g a t e s t r u c t u r ea l g e b r a i cc o d ee x c i t e d l i n e a rp r e d i c t i o n ( c s - a c e l p ) c o d ea r ea n a l y s i s e d ,f i n a l l y ,ai m p l e m e n ts c h e m e f o u n d e do nt h eh a r d w a r ep l a t f o r mc o m p o s e do fa d v a n c e dt m $ 3 2 0 v c 5 5 1 0d s pi s p r e s e n t e d t h eh i g hp e r f o r m a n c ec h a r a c t e r i s t i c so ft m s 3 2 0 v c 5 5l o ,t h ep e r i p h e r y c o n n e c t i o n t h ei n i t i a l i z a t i o nm e t h o da sw e l la st h ed e v e l o p m e n to fd r i v e ro fa i c 2 3 a l ea n a l y s i s e d ,t h et e s tr e s u l ti n d i c a t e st h a tt h ed e s i g np r o j e c tc a ns a t i s f yt h er e q u e s to f 8 k b ,sc s a c e i ,p k e yw o r d s :l i n e a rp r e d i c t i o n v e c t o rq u a n t i f i c a t i o na n a l y s i sb ys y n t h e s i s c e l pd s p 西北工业入学硕士学位论文 第一章绪论 第一章绪论 i ,i 论文研究的背景和意义 随着通信技术的发展,通信信道的使用己日趋饱和,如何有效地利用现有的 有限频带资源成为人们研究的重点,其中一个重要的研究方向就是利用一般语音 信号的冗余将话音压缩传输,从而占用较少的通信频带,尤其随着第3 代移动通 信的发展,对语音压缩编码技术提出了更高的要求,不但要求低编码速率以增加 系统的容量,而且要求高质量的合成音质以保证通话质量,所以语音压缩编码研 究的重点是在保证重构语音质量的前提下,以尽可能低的二进制比特流来表示语 音信号,使其具有实际应用上的价值,因此,探求一种能够在低速率上获褥高质 量的语音编码方法一直是科研工作者奋斗的目标。 自从1 9 3 7 年a h r e e v e s 提出脉冲编码调制( p c m ) 以来,语音编码技术已有6 0 余年的发展历史,尤其是近2 0 年随着计算机和微电子技术的发展,语音编码技术 得到飞速发展,c c i t t 于1 9 7 2 年确定了6 4 k 纠s p c m 语音编码g 7 1 1 建议,它己广泛 的应用于数字通信、数字交换机等领域,至今,6 4 k b s 的标准p c m 系统仍占统治 地位,这种编码方法可以获得较好的语音质量但占用带宽较多,在带宽资源有限 的情况下不宜采用;c c i t t 于8 0 年代初着手研究低于6 4 k b s 的非p c m 编码算法, 并于1 9 8 4 年通过了3 2 k b s a d p c m 语音编码g 7 2 1 建议,它不仅可以达到p c m 相同 的语音质量而且具有更优良的抗误码性能;1 9 8 9 年公布了用于g s m 的语音编码 器,规则脉冲激励长时预测,它的数码率为1 3 k b s ,在信道误码率为1 0 “的信 道中传输,话音质量不降低,为适应1 0 - 2 的误码率,还在g s m 中加入了1 5 8 k b s 的前向纠错码;1 9 9 1 年公布了可变速率( v b r ) 的a d p c m 编码标准i 丁u t1 3 7 2 6 , 它主要用于数字电路复接设备中,通常用4 0 k b s 的速率发送语音数据,传输语音 时用3 2 k b s ,必要时可降至1 j 2 4 或1 6 k b s 使用;同年还公布了美国q u a l c o m m 公司为 c d m a 移动蜂窝网i s 9 6 研发的一种c e l p ( q c e l p ) ,它具1k b s 、2k b s 和4 k b s3 种速率;1 9 9 2 年公布了1 6 k b s 低延迟码激励线性预测( l d c e l p ) 的g 7 2 8 建议,它 以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用,例如,可 视电话伴音、无绳电话机、单路单载波卫星和海事卫星通信、数字插空设备、存 储和转发系统、语音信息录音、数字移动无线系统、分组化语音等;1 9 9 4 年公白 西北工业人学硕士学位论文 第一章绪论 了半速率g s m 研究的v s e l p 编码技术,码速率为5 6 k b s ,它可以使原有的g s m 扩容一倍;1 9 9 5 年公布了低速码率多媒体通信的语音编码标准i t u tg 7 2 3 ,它 具有6 3 k b s 和5 3 k b s 两种速率,分别采用对脉冲最大似然度量化( m p m l q ) * i :1 1 _ 数码本激励线性预测编码( a c e l p ) ,与它相配合的图像编码标准是h2 6 3 ,图像 和语音的总速码率小于2 8 8 k b s ,可用于v 3 4m o d e m 在p s t n 上开通【叮视电话业 务;共轭代数码激励线性预n ( c s a c e l p ) 的8 k b s 语音编码g 7 2 9 已在i t u t s g l 5 全会上通过,正式成为国际标准,它以语音编码方案中的码激励线性预n ! | ( c e l p ) 技术为基础,模拟信号经过话带滤波后,以8 k h z 的频率采样并转换为1 6 b i t 线性 p c m 信号作为编码器的输入信号,编码器的输出为8 k b s 的码流,因此其压缩比 高达1 6 :1 ,而经g 7 2 9 解码器还原出来的语音信号质量其主观平均得分( m o s ) 在4 分以上,属于良好级别,人的耳朵几乎察觉不到声音有失真的情况,其音质是同 档次码速率中最优的,与3 2 k b s 的a d p c m 相同,而且在噪声较大的环境中也会 有较好的语音质量,它占用的带宽为g 7 1 l 的1 8 ,另外,g 7 2 9 的延时较小,仅为 1 5 m s 左右,已选用语音编码算法的数字电路设备若采用g 7 2 9 ,效率会增为4 倍, 个人手持电话系统若将8 k b s 的c s a c e l p 编码用于语音,则可将2 4 k b s 分配给非 话音信号,这也是迈向移动多媒体通信的一大步。 虽然g 7 2 9 具有码率低,还原音质高和延时小等优点,但是,由于它存在算 法复杂度大和数据存储量大等固有的缺陷,随着大规模集成电路的发展v s l i 工 艺的进步,极大地推动了数字信号处理器( d s p ) 的发展,各大厂商纷纷推出了各 具特色的高性能d s p ,也大大降低了实现g 7 2 9 语音编码算法的成本,本文就是 使用t i 公司的高性能t m s 3 2 0 v c 5 5 1 0 定点d s p 来实现该算法。 1 2 语音压缩编码方法分类 语音编码的方法大致可以分为3 类:波形编码、参量编码和混和编码。 1 波形编码 波形编码是将时间域信号直接变换为数字代码,力图使重建语音波形保持原 语音信号的波形。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽 样,然后将幅度样本分层量化,并用代码表示。解码是其反过程,将收到的数字 序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点, 但所用的编码速率高,所以主要应用于对信号带宽要求不太严格的通信中,而对 频率资源相对紧张的移动通信来说,这种编码方式显然不合适。脉冲编码调制 f p c m ) $ - t l 增量调制( m ) ,以及它们的各种改进型自适应增量调甫i j ( a d m ) ,自适 , 西北工业大学硕士学位论文 第一章绪沦 应差分编码调f 目g ( a d p c m ) 等,都属于波形编码技术。它们能分别在6 4 k b s 以及 1 6 k b s 的速率上给出高的编码质量当速率进一步下降时,其性能会f 降较快。 2 参量编码 参量编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特 征参量,并将其变换成数字代码进行传输。解码为其反过程,将收到的数字序列 经变换恢复出特征参量,再根据特征参量重建语音信号。具体地说,参量编码是 通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可 懂性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相 当大的差别。这种编码技术可以实现低速率语音编码,其比特率可压缩至1 2 k b s 到4 8 k b s ,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都 不一定能听出讲话人是谁,而且抗背景噪声能力差。线性预测编码( l p c ) 及其它 各种改进型都属于参量编码,采用参量编码的编码器称为声码器。 3 混合编码 混合编码将波形编码和参量编码结合起来,克服了原有波形编码和参量编码 的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在 4 - 1 6 k b s 速率上能够得到高质量的合成语音。其代表是分析合成线性预测编码, 它采用知觉加权技术,在闭环的基础上寻找主观意义上失真最小的激励矢量。根 据采用的激励信号模型不同,可以派生出很多种新的编码方法,多脉冲激励线性 预测编码( m p l p c ) ,规划脉冲激励线性预测编码( g p e l p c ) ,码本激励线性预测 编码f c e l p ) 等都属于混合编码技术。很显然,混合编码是适用于数字移动通信的 语音编码技术。 1 3 语音压缩编码算法的评价标准 语音编码的根本目标就是在尽可能低的编码速率下,得到尽可能高的重构语 音合成质量,同时还应尽量减小编解码延时和算法复杂度。因此编码速率、合成 语音质量、编解码延时以及算法复杂度这四个因素构成了评价一个语音编码算法 性能的基本指标。这四个因素之间有着密切的联系,并且在不同的应用中对各方 面的侧重要求也有所不同,在具体评价一种语音编码算法优劣时,需要根据具体 的实际情况,综合考虑这四个因蔡。 1 编码速率 编码速率直接反映了语音编码器对语音信息的压缩程度,可以用比特秒来 度量,它取决于用户对语音质量的要求,同时也受信道容量和存储介质的限制, 1 两j e 工业入学硕士学位论文 第一章绪论 编码速率越低,越有利于存储和传输,但相对应的编码质量也会有所下降。 2 编解码延时 编解码延时包括算法延时( 语音分析所需的存储缓冲) 以及计算延时( 处理帧 内数据所需的时间) 。在实时语音通信系统中,语音编解码延时同线路传输延时 一样,对系统的通话质量有很大影响。延时过长会使通话双方都反应“迟钝”,严 重时无法正常通话,延时影响通话质量的另一个可能的原因是回声干扰,传输线 路如果阻抗匹配不理想会使信号反馈形成回声,当延时比较小时,回声同话机侧 音及房间交混回响声相混,因而感觉不到,若往返总延时超过1 0 0 m s 时,发送端 就能听到自己的回声,如果回声传输路径衰耗不够大,就会听到多次回声,从而 严重影响通话质量。 3 算法复杂度 算法复杂度同语音编码的话音质量有非常密切的关系。在同样码速率的情况 下,采用复杂一些的算法将会获得更好一些的话音质量。同样,对于相同的话音 质量,采用复杂一些的算法能够降低编码所需的速率。算法复杂度包括两个方面, 运算复杂度和内存要求,它们影响算法在硬件上的实现,并决定了硬件实现的复 杂程度、体积、功耗以及成本等。对于一些较复杂的语音编码算法,一般用每秒 钟处理信号样本所需的数字信号处理指令条数来衡量其运算复杂度,可用单位百 万次操作秒( m o p s ) 或百万条指令,秒( m i p s ) 等来对算法复杂度进行描述,内存用 b y t e 、k b y t e 等来衡量。 4 合成语音质量 合成语音质量是衡量语音编码算法性能优劣的关键因素之,评价合成语音 的方法大致分为两类,即客观评价法和主观评价法。客观评价法是用客观测量的 方法来评价合成语音质量,它建立在原始语音和合成语音的数学对比之上,常用 的方法有信噪比、加权信噪比、平均分段信嗓比、巴克谱失真测度、m e l 谱测 度等。这些算法的特点是计算简单、结果客观,但是不能完全反映人对语音的感 觉效果,对于速率低于1 6 k b s 的中低速率语音编码尤为突出,所以此方法主要 适用于速率较高的波形编码类型的算法。 主观评价法是在一组测试者对原始语音和合成语音进行对比试听的基础上, 根据某种预先约定的尺度来对失真语音划分质量等级。常用的主观评价方法有三 种:平均意见得分( m o s ) 、判断韵字测试( d r t ) 和判断满意度测量( d a m ) 。最常 用的主观评价方法是m o s 评分法,它采用五级评分标准,由数十名试听者在相 同信道环境中试听合成语音并给予评分,然后对评分进行统计处理,求出平均得 分。m o s 评分等级见表1 1 所示。 西北工业大学硕士学位论文 第一章绪论 表1 - 1m o s 评分等级表 m o s 评分质量等级 失真描述 5 优 没察觉 4 良刚有察觉 3 满意( 正常)有察觉且稍觉可厌 2 差 明显察觉且可厌但可忍受 1 劣不可忍受 在数字语音通信中,通常认为m o s 评分在4 0 4 5 分时为高质量数字化语 音,达到了长途电话网的要求,接近于透明信道编码,也常称之为网络质量, m o s 评分在3 5 分左右时称作通信质量,这时能感到重建语音质量有所下降, 但不妨碍正常通话,可以满足多数话音系统的使用要求,m o s 评分在3 0 分以 下时,常称作合成语音质量,这是指一些声码器合成的语音所能达到的质量,它 一般具有足够高的可懂度,但自然度及讲话人的确认等方面不够好。 1 4 论文的内容与结构 本文的研究工作主要包括以下内容: 全面收集并阅读了语音压缩编码相关的文献资料,系统学习了语音压缩编 码的基本原理以及现有的各种语音编码方法以及国内外研究现状。 熟悉语音信号线性预测编码的基本原理、矢量量化的原理以及分析合成法 等,深入了解码激励线性预测编码的基本原理以及固定码本和自适应码本的搜 索过程。 了解d s p 系统的开发流程,领会其设计思想,掌握c c s 集成开发环境的使 用。 深入研究c s a c e l p 编解码算法原理,核心研究了码本的结构以及它的搜 索过程。 根据算法复杂度以及实时实现的要求,采用t m s 3 2 0 v c 5 5 l od s k 实现该 算法。 文章的结构安排如下: 第1 章简要介绍了语音压缩编码方法的分类及其评价标准以及论文的结 构。 第2 章在线性预测原理的基础上,给出_ 语音信号的线性预测编码模型及 西北工业大学硕士学位论文 第章绪论 快速l e v i n s o n d u r b i n 递推算法。 第3 章介绍了矢量量化、合成分析法、知觉加权以及码激励线性预测编码 的基本原理及其码本搜索过程。 第4 章详细给出了8 k b sc s a c e l p 编码算法的原理。 第5 章详细给出了8 k b sc s a c e l p 解码算法的原理, 第6 章对t m s 3 2 0 v c 5 5 1 0d s k 的硬件开发环境给予介绍,并给出了该系统 软件设计的详细过程,最后实现并进行仿真和测试。 西t 工业入学硕士学位论文第二章语音信号的线性预测分析 第二章语音信号的线。| 生预测( l p ) 分析 2 。1 信号模型 在随机信号谱分析中,常把一个时间序列s 如) 模型化为白噪声”如) 通过一个 数字滤波器h 0 ) 的输出,如图2 1 所示。在一般情况下,日( z ) 可写成有理分式 的形式: h 0 ) = k ( 2 - 1 ) 式中,系数“j 玩以及增益因子世都是模型参数。 尘u 石性 i,一 图2 1 信号s n ) 的模型化 从时域上看,信号模型的输出和输入满足下面的差分方程: s 如) = 艺口,o f ) + 足岛“o 一,) b 。= 1( 2 2 ) 根据数字滤波器日0 ) 有理式的不同,有如下三种信号模型: 自回归信号模型( a u t o r e g r e s s i v em o d e l ) 。此时日g ) 是只含有递归结构的全 极点模型,由它产生的序列称为a r 过程序列。 滑动平均模型( m o v i t l ga v e r a g em o d e l ) 。此时日g ) 是只含有非递归结构的 全零点模型,由它产生的序列称为m a 过程序列。 自回归滑动平均模型( a u t o r e g r e s s i v em o v i n ga v e r a g em o d e l ) 。此时h 0 ) 同 时含有极点和零点,是上述二种模型的混合结构,相应产生的序列称为a r m a 过 程序列。 一 一 1 啦一如 厶旦。厶 + 一 一 西北工业大学硕十学位论文 第二二章语音信号的线性预测分析 2 2 线性预测原理 线性预测的基本思想是信号的每个采样值能够用它过去的若干个采样值的 线性组合来表示,通过使实际信号的采样值和线性预测值之间的误差在某种准则 下达到最小,来确定唯一的一组线性预测滤波器系数。线性预测是通过线性预测 误差滤波器来实现的,如图2 2 所示。 盟r 瓦芦 【,:一 图2 2 线性预测误差滤波 它的传递函数爿( z ) 为: 4 0 ) = 1叩。 i = i ( 2 - 3 ) 输出f 扛) 与输入s 如) 满足关系: s 0 ) = s o ) 一j 0 ) = s 0 ) 一a i s ( n - i ) ( 2 - 4 ) 式中,j ( n ) = q s o f ) ,称作s 以) 的预测值。因为j g ) 由s 如) 的一组过去样本 值j g 一1 ) ,s ( n z l 2 ) ,s d p ) 线性组合而得到,它可看成是从s 0 ) 过去的样本值 来预测或估计当前值s o ) 的结果,故又称之为线性预测值,日称为线性预测系数, 输出s 0 ) 是真值s g ) 和线性预测值j 伽) 之差,称为线性预测误差。 线性预测分析就是设计一个预测误差滤波器,求解预测滤波器系数口使得预 测误差s o ) 在某个准则下最小。常用的是均方误差e k 2 如) j 最小准则,为了得到 使e k2 0 ) j 最小的q ,可将e k 2 0 ) j 对各个系数求偏导,并令其结果为零。 曼掣g 生翊= - 2 e 瞎o b o j ) l :ol s ,p( 2 5 ) 将式( 2 - 4 ) 代入得: p ,( ,) 一q r ( ,一_ ) = 0 1 ,p ( 2 - 6 i = 1 式中,r = 占b o b o 一州是s o ) 的自相关序列。 令最小均方误差为j 下向预测误差功率e ,即: e ,= 屋 2 ( n 虬。= e s b ) ( s g ) 一喜矗,s ( n t ) c z 一, 西北工业大学硕士学位论文第二章语音信号的线性预测分析 结合式( 2 5 ) 可得: :r ( o ) 一芝”( f ) ( 2 - 8 ) i = l 假设信号s d ) 是由一个零均值、单位方差的自噪声序列“0 ) 激励h 0 ) 产生 的,设其信号模型为: 日g ) :( 2 - 9 ) l 一口 j = l 则可得: 足”o ) :5 0 ) 一兰群。o f ) ( 2 - 1 0 ) ,;1 将式( 2 1 0 ) 两边乘以j o 一_ ,) ( 1 蔓,蔓p ) ,再求均值,可得: k e l 如墨白一- ,) 】= 五 ( s 。) 一孚口如一r ) ) s o 一- ,) c z t , 由于“0 ) 和s 0 一力不相关,即e 匦g 砖0 一期= o ,得 ,o ) 一4 ,o f ) = 0 1 纠p ( 2 1 2 ) 再对式( 2 1 0 ) 两边乘以5 0 ) 并求均值,等式左边 e 嘶g b 。) 】= d 肋g 触如) + 曼i = l 咖。一z ) = 世2 等式右边 e ( s 。) 一巷口。一z 墨g 刁 = r ( o ) 一善订;,( f ) 所以 ( 2 1 3 ) f 2 - 1 4 ) , k 2 = r ( 0 ) 一口巾) ( 2 1 5 ) 忙1 比较式( 2 6 ) 、( 2 8 ) 和式( 2 1 2 ) 、( 2 1 5 ) 可知,预测系数和信号模型参数满足相 同的方程组,增益常数k 的平方等于征向预测误差功率e ,由此可得出下面结 论: 对于模型阶数p 已知的a r 过程序列,当按均方误差最小准则设计线性预 测滤波器时,我们可以预先设置预测误差滤波器的阶数p = p ,则预测滤波器系 9 西北1 二业大学硕 :学1 :i ) = 论文 第二章诰音信号的线性预测分析 数就为信号模型对应的参数,即a ,= 口殛= 1 p ) 。 2 3 语音信号的线性预测分析 语音信号的线性预测( l p ) 分析的基本原理是根据人的发声特点来建立语音 产生的数学模型。人发声有清音和浊音之分,清音无基音,呈现与白噪声类似的 平坦频谱,所以可用白噪声作为清音的激励;浊音则有振动的基本频率( 基音1 , 故可用具有一定基音频率的脉冲源作为激励;而人的声管相当于一个时变的数字 滤波器,对不同的激励产生不同的响应,形成特定声音的输出,如图2 3 所示。 基音胤期 刖= 吉粥= 善 ,。 若分母的阶数足够高,则日( z ) 能够近似用一个全极点模型i 秘不- - : 酢卜忑2 南 ( 2 。7 ) 1 一q z l 4 v 7 s o ) = ( 玫0 ) + q s 0 一f ) ( 2 1 8 ) h , j - f 司里此周期性脉冲的值非常小( 零值) 。由于采用均方预测误差最小准则来使预 銎 h 葑r叫l ;譬 鬻万 氢斟 西北工业大学硕十学位论文 第二章语音信号的线性预测分析 盾,因此,无论是清音还是浊音,都符合上面的条件,所以可以用线性预测分析 的方法对语音信号迸行分祈。 在此模型中,增益g 、基音周期、清音浊音开关的位置以及日( z ) 都是随时 间变化的,但由于发生器官的愤性,它们的改变非常缓慢,对r h ( z ) ,在1 0 3 0 m s 的时间间隔内可以认为是保持不变的,因此语音的短时分析帧长一般取为2 0 m s 左右,对于激励源参数,大部分情况下这一结论也是正确的。 在实践中,这个二元激励的模型是有局限性的。首先,此模型建立了一个参 数随时间缓慢变化的结构,即所谓的“短时”平稳概念,“准稳”的原理对于塞音这 样的暂音此模型欠佳。其次,模型将语音信号截然分为受周期脉冲激励和噪声激 励两种情况,这与实际情况并不完全符合,将清浊音开关换为叠加号更为合理, 这样激励信号可以是上述两种激励相叠加,这更加符合实际情况,而且,此模型 的传输函数不包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中 是包含有限零点的,也受到限制。最后,浊擦音不是简单的浊音和清音的叠加, 它的发音是很复杂的过程,此模型不能给出模拟。尽管如此,此模型仍能合成出 较满意的语音,它一直是分析语音的最重要的基础。 2 4l e v i n s o n d u r b i n 递推算法 线性预测分析分析的关键是求解下面的方程组: rf f r u ) 一艺a , r ( j 一扣0 8 1 。 ls ,p ( 2 1 9 ) i e ,= r ( o ) 一a i r ( i ) l1 = 1 由于语音信号是时变的,但又是缓交的,所以只有在一个短时段中可以认为 是平稳的,即任何语音信号的数字化处理技术必然是建立在短时的基础上的。因 此对语音信号的l p 分析也必定是一种短时分析,这就是说,只能利用一短段语 音来估计其模型参数。为进行短时分析,可以采用两种方案,第一种是对个长 的语音序列s o ) 用窗函数国o ) 相乘,形成加窗语音0 ) ,然后对其进行l p 分析, 只要限定窗的长度便可以保证分析的短时性,由此导出的方法称为自相关法。第 二种方法不是对5 ( ”) 加窗,而是限定求解自相关序列表达式中的取和间隔为一个 短时段,由此导出的方法称为自协方差法。 在自相关方法中,用加窗语音序列代替原语音序列必然会引入误差,从频域 的角度来看,为了减少加窗的影响,由协) 应选为海明窗等优选窗形,从另一个角 西北工业大学硕七学位论文第二章语音信号的线性预测分析 度看,用加窗语音来进行线性预测分析时,在j 。0 ) 的起端和末端必然会引入较 大的误差,但当远远大于p 时,具有较大误差的段落在整个语音段中的所占 的比例很小,所以用自相关算法得到的参数估计是比较准确的,相反,当和p 可相比拟时,误差段所占的比例很大,估计误差必然很大。 自协方差法的优点是不存在自相关算法中出现的很大的预测误差情况,因 此,当与p 可比拟时,它给出的参数估计值要比自相关法精确的多,但是, 当远远大于p 时,自协方差法的误差小的优点就不再突出了,而自相关算法 的高效递推成了突出优点,所以在语音信号处理中大部分情况下采用的是自相关 法。 自相关法主要包括l e v i n s o n - d u r b i n 递推算法、l a t t i c e 递推算法、s c h u r 递推 算法等高效递推算法。实际中最常用的是l e v i n s o n - d u r b i n 递推算法,它的运算 步骤为: - l - i ( 1 ) k o ) = s 。g + ,墨。0 ) f = 0 ,p ( 2 ) e 0 = k ( o ) ( 3 ) ,= 乇( 1 ) 乇( o ) ( 4 ) d 1 = k 1 ( 5 ) e ,= ( 1 一毒? k ( 6 ) i = 2 c ,t = 。( f ) 一茗口? 。k ( f 一- ,) 屈 ( 7 ) t 。= io ( f ) 一口? 。k ( f 一圳e j t i ( 8 ) 口p = t ( 9 ) 辞? = 口一七,口蹿 1 ,_ i - 1 ( 1 0 ) e ,= ( 1 一七? 远一。 ( 1 1 ) m p ? 若为真,则令i = i + 1 ,并转入( 7 ) 继续运行。 若为假,则所求的结果为d 。= 口 1 i p 。 西北工业大学硕士学位论文 第三章码激励线性预测编码 第三章码激励线性预测编码( c e l p ) 3 1 矢量量化 矢量量化技术( v q ) 是一种既能高效压缩数码率,又能保证语音质量的编码方 法,它不但能用于波形编码,而且还能用于各种模型的和非模型参数编码,还可 用于图像等信号的压缩编码中。它的基本原理是:将若干个幅度连续取值的采样 信号构成一个矢量,然后用若干个离散的数字值来表示该矢量,从而压缩了数据。 所以,这是一种高效的数据压缩技术。在采样速率低于l k b s 的情况下,采用矢 量量化技术表示的波形是非常有效的,在低速率语音编译码中,矢量量化起着很 重要的作用。矢量量化的原理如图3 1 所示。 图3 1 矢量量化原理框图 特征矢量形成部分的作用是每输入一帧长为的语音采样k ,s :,s 。l ,输 出一与之相对应的特征矢量x ,设其维数为世,则x = i x 。,x :,h i 。世可以等 于,也可以不等于,最简单的情况是k = n ,这时,工,= s ,( i = 1 ,2 ,) 。 x 也可是对一帧语音进行变换分析后得到的矢量,这时k 远远小于m 在具体应 用中选用哪种特征矢量应根据系统所要达到的目标来确定。系统中有两个相同的 码本,每个码本包含m 个码矢f j _ 1 ,2 ,m ) ,每个码矢是一个k 维矢量( 维 数与x 相同1 。v q 编码器的运算原理是根据输入矢量x 从编码器码本中搜索一 个与之相应的矢量y f ,其输出,即等于此矢量的下标,一般称为索引。j 是一个 数字,因而可以通过任何数字信道传送或数字存储介质来存储,如果不引入误差, 则从信道接收端收到或从存储介质中取出的信号仍然是,v q 洋码器的运行原 理是根据,从译码器码本中选出具有相应下标的的码矢作为输出y ,对于单片编 译码器,可以只用一个码本。v q 的任务就是在给定r 条件下,使x 和y 之间 l3 【惹k 嚣! , k ,如,l 匕e 卫兰纠 l 毒一一第2 级l 立一要i 生一霎f x = 巧+ _ 厂如一厂矗1 西北工业大学硕士学位论文 第三章码激励线性预测编码 的运算量以及码本存储容量,都分别从m ,m 。减少到m + m :。但是它的级数 多,性能的改进迅速趋于饱和。 3 2 分析合成法 在低于1 6 k b s 的编码速率下,由于能用于残差信号编码的比特数较少,若对 残差信号进行直接的量化,并且使余量信号与它的量化值之问的误差达到最小, 只有采用分析合成法( a b s ) 来求得残差信号的编码量化值,才能使得重建语音 与原始语音的误差最小。 分析合成法首先假设信号能够用某种形式表示,也就是要有利于时域或频域 观测,然后,假设产生信号的模型的理论形式,这个模型由一些参数控制,改变 这些参数就能够产生此信号的不同观测信号。要使所表示的模型和真正的信号模 型有同样的形式,能够使用一个试探或误差程序,根据一定的误差准则来调整模 型参数,来找到一组参数,使它所产生的合成信号能够以最小误差与真正的信号 相匹配,此时的模型参数就可以认为是真 i = = 信号的参数。 3 3 知觉加权 由于量化噪声的谱一般是平坦的,或者说是具有白噪声的特性,因此在共振 峰区域会产生很高的信嗓比,但是在共振峰之间及信号谱幅度低的地方,信噪比 就很差。由于听觉的掩蔽效应,即共振蜂处的噪声褶对于能量较低的频段的噪声 而言不宜察觉,在任何频率上太高的信噪比都是一个浪费。最好是将噪声功率在 不同频率上重新分配。知觉加权滤波器就是利用人类听觉系统的频域掩蔽效应进 行噪声谱形变,对共振峰频域进行去加重处理,使这些区域的噪声功率增加,其 它区域的噪声功率减少。由于共振峰附近的语音信号能量较强,因此,这些噪声 被语音信号所掩蔽,人耳感觉不到。这样尽管使信噪比有所下降,但是适当设计 噪声谱形状时,合成语音质量就会较高。知觉加权滤波器的传输函数为: 或 矿g ) l - s 口,:z 一 l 一q 扎z 1 ( 3 1 a ) 西北工业大学硕士学位论文 第三章码激励线性预测编码 ( 3 - l b ) 式中,知觉加权因子,、n 和y :用来控制共振峰区域的去加重,并不改变 共振峰的中心频率,而是扩展共振峰的频带,控制共振峰处的误差信号能量。 3 4 码激励线性预测编码 码激励线性预测( c o d ee x c i t e dl i n e a rp r e d i c t i o n ,c e l p ) 编码是一种综合了线 性预测、矢量量化、知觉加权、分析合成法( a b s ) 等技术的混合编码方法,它 不使用两个状态( 有声无声) 的模型来寻找滤波器的输入激励信号,而是企图寻找 一种激励信号,使得用这种信号激励产生的波形尽可能接近于原始话音的波形。 在目前常用的c e l p 模型中,激励信号来自两个方面:自适应码本f 又称长时基 音预测器) 和随机码本。自适应码本被用来描述语音信号的周期性( 基音信息) 。固 定的随机码本则被用来逼近语音信号经过短时和长时预测后的线性预测余量信 号。c e l p 编码算法将预测误差看作纠错信号,将余量合成矢量,然后从自适应 码本和随机码本中搜索出的最佳激励矢量乘以各自的最佳增益后相加,便可锝到 激励x ) 作为c e l p 激励信号源来纠正线性预测模型中的不精确度。它一方面被 用来更新自适应码本,另一方面则被输入到合成滤波器1 a ( z l 以得到合成语音 ;( n ) 。j ( 聆) 与原始语音s o ) 的误差通过知觉加权滤波器矿( z ) 后可得到知觉加权误 差信号s 。( ,1 ) ,使( n ) 均方误差为最小的激励矢量就是最佳激励矢量,c e l p 编 码原理见图3 3 所示。 l 曛姜卜叫戮w 篙( z j f 方误差ff 波器 f 图33 c e l p 编码原理图 短时预测滤波器( s t p f ) 就是l p 共振峰合成滤波器,它用来表征语音信号的 包络信息,它的传输函数为: 赫 咐 硒北工业大学硕十学位论文 第三章码激励线性预测编码 11 羽2 珏p 万 。2 a ( z ) 为短时预测误差滤波器的系统函数,d ,( i = 1 ,p ) 为l p 预测系数。 长时预测滤波器( l t p ) 用于描述语音信号谱的精密结构,它的传输函数为: 一:l r 1 礼 尸( z )1 一口z 吐 、。7 其中,口为基音增益,三为基音周期。 c e l p 的解码过程已经包含在编码过程中。在解码时,在接收端用存储的同 样码本根据收到的索引从自适应码本和随机码本中找出最佳码矢量,分别乘以各 自的最佳增益并相加,可以得到激励信号x ( 玎) ,将x ( 一) 输入到合成滤波器1 ,一( = ) , 便可得到合成语音信号j ( ”) ,然后再通过后置处理以增强音质。可以看出,搜索 最佳激励矢量是通过综合出重建语音信号进行的。固定码本采用不同的结构形 式,就构成不同类型的c e l p ,例如采用代数码本、多脉冲码本、矢量和码本的 c e l p 分别称为a c e l p 、m p c e l p 和v s e l p 编码。 码矢长短一般与予帧的长短有关,码本的大小与占用存储空间大小及搜索时 间长短有关,其中固定码本是原来设计好的,在机器里固有的,而自适应码本是 在a - b s 分析过程中不断更新的,也就是说最初一片空白,用知觉加权误差减去 固定码矢后,填充或更新自适应码本,一般都采用二码本激励c e l p 方案。 3 4 1c e l p 码本搜索 c e l p 码本搜索包括固定码本搜索和自适应码本搜索。二者搜索过程在本质 上是一致的,不同之处在于码本结构和目标矢量的差别。为了减少计算量,一般 采用两级码本顺序搜索的方法。第一级自适应码本搜索的目标矢量是知觉加权 l p 残差信号,第二级随机码本搜索的目标矢量是知觉加权l p 残差信号减去自适 应码本搜索得到的最佳码矢量去激励知觉加权滤波器的输出信号。c e l p 编码器 的计算量主要是对码本中最佳码矢量及幅度的搜索。 令l 表示子帧长度,s 和s 和p 是上维列矢量,分别表示原始语音信号、合 成语音信号和加权误差信号。令v 表示正在搜索的激励矢量,i 表示码本中码矢 量的标号,若码本中总共有个码矢量,则可记为j ,i = 1 ,2 ,。若函表 示第i 个码矢量的增益,则激励矢量可写作: y ( ) = x ( | ) ( 3 - 4 ) 7 里j ! 工业大学硕士学位论文 第三章码激励线性预测编码 = e ! = = = e l = ! ! ! = = 自口e 自= e = _ l e e ! = e = z 自= ! ! = = = z = b = = =:| ! 日和w 是l 维矩阵,它们的第,行元素分别由l p 滤波器和知觉加权滤 波器对单位冲激响应d 0 一,) 的截断冲激响应组成。合成语音j 可以表示为激励 信号与l p 滤波器冲激响应的卷积加上它的零输入响应j ( “, 鲋= 雪p ) + 0 + p 归,i - i - n ( 3 - 5 ) 式中是自适应码矢,第一次搜索时为零矢量, 自适应激励矢量。 加权误差信号口( 。) 为: e ( k b 一炒 若用g 0 ) 表示搜索的目标矢量,则p o ) 为: 第二次搜索时是经过幅度调整的 ( 3 6 ) p ( 。) = b j ( 。) ,矿一u h w ( 3 - 7 ) 将式( 3 5 ) 和式( 3 7 ) 带入式( 3 6 ) ,可得: f ) =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论