




已阅读5页,还剩91页未读, 继续免费阅读
(信号与信息处理专业论文)8kbits+csacelp语音编码算法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文先介绍了语音编码的发展情况,之后详细地论述了c s a c e l p 算 法,即8 k b i t s 的共轭结构代数码激励线性预测编码的完整结构和算法,对 包括预处理、线性预测分析和量化( 加窗和自相关计算、l e v i n s o n - d u r b i n 算法、l p 到l s p 的转换、l s p 系数的量化、l s p 系数的内插、l s p 到l p 的转换) ,感觉加权、开环基音分析、冲激响应计算、目标信号的计算、 自适应码书的搜索( 自适应码书矢量的产生、延迟码字的计算) 、固定码 书的构造和搜索、增益的量化( 增益预测、用于增益量化的码书搜索、用 于增益量化的码字计算) 、存储器更新,语音合成后的处理等各模块的功 能和理论基础作了细致分析。并对涉及到的语音处理的关键技术,如线性 预测、l p c 与l s p 的转换、矢量量化、基音分析等技术作了深入研究。 用标准c 语言仿真实现了该算法,计算了m o s 分值,女声:4 1 8 0 4 9 7 , 男声:4 1 9 9 7 8 2 ,并在相同的测试语句中加入噪声进行测试,含噪语句通 过该编解码器,输出的合成语音用主、客观评价标准评价,与原始不含噪 语音效果差别不大,平均m o s 分值为:女声4 1 3 7 5 ,男声4 1 6 6 8 ,说明 该算法是优秀的编解码算法。 此外,特别就c s a c e l p 算法中的l s p 量化方面作了深入的研究, 尝试了几种不同的量化方法:( 1 ) 改变分裂式矢量量化的维数组合,原算 法中第二级残差量化时用了两段式分裂量化法,将l o 维矢量分裂为两个 5 维矢量。本研究中,通过实验发现3 维7 维的分法效果最好。( 2 ) 进行 了码书优化。对l s p 参数量化中的第一级码书的1 2 8 个码字的使用频率 进行了统计试验,选用了1 2 8 个码字中使用频率高的1 1 2 个码字作为新码 书,语音质量基本不变但降低了码书搜索的复杂度。 关键词:语音编码、c s a c e l p 、矢量量化、l s f 亢熏疆z 夫学甄童沧文 _ _ - _ _ - _ _ _ - _ - _ - _ - _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - 一 a b s t r a c t t h i sp a p e rd e s c d b e st h e8 k b i t ss p e e c hc o d i n ga l g o r i t h mw h i c h h a sb e e n s t a n d a r d i z e d b y i t u - t i n1 9 9 6 t h e a l g o r i t h m i sb a s e do n a c o n j u g a t e - s t r u c t u r ea l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ( c s a c e l p ) c o d i n gt e c h n i q u ea n d u s e s1o r r i sr 8 0s a m p l e sa ta n8k h z s a m p l er a t e ) s p e e c h f r a m e s t i l i sc o d e rw i l lb eu s e df o rt h ef u t u r ep u b l i cl a n dm o b i l e t e l e c o m m u n i c a t i o ns y s t e ma n dw i l lb es u i t a b l ef o rp e r s o n a lc o m m u n i c a t i o n s e r v i c e t h ec o d e rd e l i v e r s t o l l q u a l i t ys p e e c hr e q u i v a l e n t t o3 2 k b i t s a d p c m ) f o r m o s t o p e r a t i n gc o n d i t i o n s t h ec o d e ro p e r a t e so ns p e e c hf r a m e s o f1 0 m s ,c o m p u t e st h el o n g t e r mp r e d i c t o rc o e f f i c i e n t s ,a n do p e r a t e si na l l a n a l y s i s - b y s y n t h e s i sl o o pt of i n dt h ee x c i t a t i o nv e c t o rt h a tm i n i m i z e st h e p e r c e p t u a l l yw e i g h t e d e r r o rs i g n a l i nt h i s p a p e r , t h ec o d e rs t r u c t u r e i s d e s c r i b e d ,t h ea l g o r i t h ma b o u t c s a c e l pi sd i s c u s s e d ,a n di t sc e n t r a la s p e c t sa r ea n a l y z e di nd e t a i l t o a c h i e v eh i 曲- q u a l i t ys p e e c ha n dr e a l - t i m ei m p l e m e n t a t i o n , c s - a c e l ph a s b e e nr e v i s e d b y n o v e ls c h e m e s e f f i c i e n t p i t c ha n d c o d e b o o ks e a r c h s t r a t e g i e s , a l o n gw i t he f f i c i e n tq u a n t i z a t i o np r o c e d u r e s ,h a v eb e e nd e v e l o p e dt oa c h i e v e t o l lq u a l i t ye n c o d e ds p e e c h l s p p a r a m e t e r sa r eq u a n f i z e db ym u l t i - s t a g ev q w i t hf o u r t h - o r d e ri n t e r f r a m em a p r e d i c t i o n t h i ss c h e m eh a sl i t t l es p e c t r u m d i s t o r t i o n ,e v e ni ft h et w ot y p e so fs p e e c hh a v em a n yv a r i a t i o n so fl s p p a r a m e t e r s m o r e o v e r ,c o m p u t a t i o n a lc o m p l e x i t y f o r i m p l e m e n t a t i o n i s r e d u c e di na d a p t i v ea n d f i x e d s h a p ec o d e b o o k sw i t h o u td e g r a d i n gt h eq u a l i t y m u l t i 。s t a g es e l e c t i o ni sa d o p t e di nt h ea d a p t i v ec o d e b o o k ;t h i ss e l e c t i o nu s e sa - 玎 查! 竺三查! 竺苎兰苎一 t r u n c 剐【c d i m p u l s er e s p o n s e i m p r o v e d p r e s e l e c t i o n i s p r o p o s e d i nt h e f i x e d s h a d ec o d e b o o k s u b j e c t i v et e s t i n g i n d i c a t e st h a t t h e q u a l i t y o f c s o a c e l pi se q u i v a l e n tt ot h a to ft h e3 2 k b i f f sa d a p t i v ed i f f e r e n t i a lp u l s e c o d em o d u l a t i o n ( a d p c m ) u n d e re l r o r - f l e ec o n d i t i o n sa n di to u t p e r f o r m s g 7 2 6u n d e re r r o rc o n d i t i o n i nt h i s p a p e r ,s t a n d a r dc i s a d o p t e di n r e a l i z a t i o no ft h ea l g o r i t h m , p r e s e n t sp r o g r a ms t r a t e g i e sa n ds t e p so f a l g o r i t h mo f e a c hm o d u l e t h ec o d e r a n dd e c o d e ri st e s t e db yu t t e r a n c e sw i t hn o i s e t h er e s u l t sa r es a t i s f y i n g m o r e o v e r , t h ep a p e rs t u d i e st h eq u a n t i z a t i o no fl s pa n dt r i e s s o m eo t h e r m e a n st oq u a n t i z et h el s p p a r a m e t e r w ea d o p t t h em e a n sa sf o l l o w s :f i r s t w e c h a n g et h es p l i t t i n g d i m e n s i o no ft h es e c o n dg r a d ec o d e b o o kw h i c hw a s s p l i t t e di n t od o u b l ef i v ed i m e n s i o n b yt e s t i n g ,w ef i n dab e t t e rs p l i t t i n gw a y s e c o n d ,w eo p t i m i z et h ec o d e b o o ka n dc h o i c eap a r to f t h ec o d e w o r dw h i c hi s u s e dm o s t e f f i c i e n t l y t h e r e s u l ti sn o t d e g r a d e d t o om u c hw h i l et h e c o m p l e x i t yi sr e d u c e d a tt h ee n do f t h ep a p e rt h ed e v e l o p m e n t p r o s p e c to f c s a c e l pa n d s p e e c hc o d i n g a r ed e s c r i b e d k e yw o r d s :s p e e c hc o d i n g ,c s - a c e l p , v e c t o rq u a n t i z a t i o n ,c o d e b o o k 1 1 i 一 查苎竺三查竺! 兰竺苎 - _ _ p _ _ _ _ - _ 一一 第一章绪论 1 1 本课题研究的意义 语音编码的目的是压缩语音信号的数字表示而使表达这些信息所需 的比特数最小。随着信息社会的高速发展,频率资源变得愈加宝贵,因此 压缩通信系统的传输带宽就成为人们追求的目标,语音编码在这一过程中 担当着重要的角色i l 】。目前科研人员已通过两个途径研究这一课题,其一 是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫 兹带宽所传送的比特数;其二是压缩信源编码的比特率,例如标准p c m 编码,对3 4 k h z 频带信号需用6 4 k b p s 编码比特率传送,而压缩这一比特 率显然可以提高信道传送的话路数。这对任何频率资源有限的传输环境来 说,无疑是极为重要的,尤其是在无线通信技术决定今后通信发展命运的 今天更显得重要。实际上,压缩语音编码比特率与话音存储、语音识别及 语音合成等技术都直接相关。 语音编码技术的进展对通信新业务的发展有极为明显的影响,例如伊 电话业务、实时长途翻译业务、交换机的人工智能接口等。因此,国际电 信联盟( 1 t 【7 ) 第1 5 组提出了许多急需制订的话音编码标准的建议,以推 动通信网的发展。由于v i s i 的发展,实现这一技术的代价已从在昂贵的 信道中采用,发展到一般信道中都可接受的水平,因此,编码技术日益受 到重视。数字移动通信和个人通信( p c n ) 是深受人们重视的通信手段,其 重要问题之一是压缩语音编码速率,形成面向对象的语音编码技术。 语音编码技术不仅受到研究部门、应用部门的重视,而且推动了标准 的制订,因为标准是工业生产的一个重要前提,对通信体制的确定有很大 影响。目前,关于低速率语音编码的算法发展较快,它可应用的范围也相 1 查苎兰三查! 竺三兰三 一一 当广泛,人们将从中获得极大的效益。这些对推动各种通信标准及网络的 建设都十分重要。 语音技术已逐渐应用于电信的声讯信息服务领域和互联网消息收发 方面,因此,将语音技术与网络进行完美的结合具有强大的生命力。随着 多媒体和通讯的发展,数字语音压缩编码技术的应用也将越来越广。 1 2 语音编码技术的发展概况 语音编码技术的研究开始于3 0 年代d u d d l e y 发明声码器n l o 尤其是 最近2 0 年来,语音编码取得了突飞猛进的发展。语音编码方法,按传统 的观点可分为三类:波形编码、参数编码( 声码器) 和混合编码。波形编 码即针对语音波形进行编码,尽量保持输入波形不变,即恢复的语音信号 基本上与输入的语音信号波形相同。这类编码方法将语音信号作为一般的 波形信号进行处理,具有适应能力强、算法简单、易于实现、语音质量好 等优点,缺点是编码速率高。它们在1 6 6 4 k b i t s 的数码率上能给出高的 编码质量,当编码率进一步降低时,其性能会很快下降。国际电报电话咨 询委员会c c i t t ( 现已并入国际电信联盟r r u ) 于1 9 7 2 年制定的g 7 1 1 6 4 k b w s 的脉冲编码调制f p c m ) t 3 和1 t u 在1 9 8 4 年公布的g 7 2 13 2 k b i t s 自适应差分脉冲编码调制( a d p c m ) 编码器【4 】标准等都属于这一类编码器。 参数编码是以语音信号产生的数学模型为基础,先对语音信号进行分析, 提取出其参数,对参数进行编码,在解码后由这些参数重新合成出语音信 号,这种编码方法称为语音信号的分析合成方法。由于编码这些参数需要 较少的比特数,因此这种方法具有编码速率低的优点,可以达到2 4 k b i t s 或更低的速率,但语音音质差,而且对噪声较敏感。这种编码称作“声码 器技术”。美国政府1 9 8 0 年公布的2 4 k b i t s 线性预测编码算法l p c 1 0 u 就是采用的这种方法,共振峰声码器、通道声码器、余弦声码器都属于此 类。混合编码是上述两类方法的有机结合,它基于语音产生模型的假定并 采用了分析合成技术,但同时它又利用了语音时间波形信息,增强了重建 语音的自然度,使得语音质量有明显提高,其代价是编码速率相应上升, 一般在1 6 。2 4 k b i f f s 之间,其中的主要技术称之为“分析合成法”。根据这 种方法进行编码的有1 9 8 2 年b i s h n us a t a l 和j o e lr r e m d e 提出的多脉 冲激励线性预测编码( m p l p c ) ,码率在9 6 - 1 6 k b i t s 范围内,1 9 8 5 年e d f d e p r e t t e r e 和p e t e ri q o o n 首先提出的规则脉冲激励语音编码( r p e u ) , 1 9 8 5 年,m a n f r e d & s c h r o e d e r 和b i s h n us a r a l 提出了用矢量量化技术对 激励信号进行编码的码激励线性预测编码( c e l p ) ,在4 8 k b i t s - 1 6 k b i t s 范 围内可获得质量相当高的合成语音f 2 】。近年来码激励线性预测( c e l p ) 编码 作为一种优秀的中、低速率方案得到了很好的重视和研究,在降低复杂度、 增强c e l p 性能、提高语音质量等方面取得了许多新的进展。1 9 8 9 年, m o t o r o l a 的8 k b i t s 矢量和激励线性预测编码( v s e l p ) 成为北美第一种数字 蜂窝移动通信网的语音编码标准,与美国政府标准4 8 k b i t sc e l p 语音编 码器基本相同。1 6 k b i t s 的低延迟码激励线性预测( l d c e l p ) 编码已于 1 9 9 2 年标准化为u t 建议g 7 2 8 。美国政府制定了f s 1 0 1 64 8 k b i t s c e l p 保密电话网的标准之后,提出了制定半速率2 4 k b i t s 声码器的新课 题【2 】。c e l p 编码方案在4 - 1 6 k b i t s 速率上取得了很大成功,但是,当速 率低于4 k b i t s 时,编码器性能会很快下降。于是,在现代数字通信中, 为提高信道利用率,如何用尽可能少的比特数来对语音信号进行编码已越 来越受到重视。这种编码方案目前主要有正弦变换( s t c ) 编码,多带激励 ( m b e ) 编码,波形内插 d 编码,混合激励线性预测( m e l p ) 编码等方案”, 而且在1 2 0 0 b i t s 以下的极低速率语音编码也有广泛的应用前景和吸引力。 总之,低码率和高质量将是语音编码今后研究的主要方向。 c s - a c e l p 是r r u - t 通过的最新的基于c e l p 的编码算法。它是由加 一 查! 竺苎查竺竺! 竺苎 -_。_-_w_-_-一 拿大s h e r b r o o k e 大学、法国电信、日本n n t 、美国a 1 & t 联合提出,称 为“使用共轭结构代数码激励线性预测的8 k b i t s 语音编码器” ,经过专 家组3 年多卓有成效的工作,最终于1 9 9 5 年1 1 月通过【4 ”。其主要应用 有:个人移动通信低c ,n 数字卫星系统,包括陆地移动卫星通信, 海事卫星通信,一般航空卫星通信,稀路由和s c p c 卫星通信系统高质 量数字移动卫星通信,d c m e ( d i g i t a lc i r c u i tm u l 卸l i c a t i o ne q u i p m e n 0 , 存储检索,分组语音和数字租用信道等 2 2 1 1 。从立题开始,s g l 5 就对 8 k b i t s 语音编码规定了很高的技术指标要求。由于这一算法具有良好的语 音通信质量,适中的复杂度和对不同应用的适应性,并采用特殊的码本结 构简化码本查找,将成为今后一种主要的语音编码算法。 1 3 语音信号处理技术简介 语音信号是随时问面变化的一维信号,它所占据的频率范围可达 1 0 k h z 以上,但是对语音清晰度和可懂度有明显影响的成分,最高频率约 为5 7 k h z ,通常我们认为语音信号的频率范围为2 0 0 h z 一3 4 0 0 h z 。语音信 号的处理方法很多,常用的有: ( 1 ) 短时时域处理技术; ( 2 ) 短时频谱分析技术; ( 3 ) 线性预测技术; ( 4 ) 矢量量化技术。 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与 发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢 的多,因此语音信号常常可假定为短时平稳的,即在1 0 。2 0 m s 这样的时间 段内,其频率特征和某些物理特征参量可近似地看作是不变的。基于此, 就可以将语音信号分成一些相继的短段( 称为帧) 进行处理。这就是所谓 一 奎! 兰苎至竺里主兰苎 一一一 的短时处理技术【3 】。 短时时域处理主要是计算语音的短时能量、短时平均幅度、短时平均 过零率和短时自相关函数。都是在这种短时平稳假定下从时域来分析的一 些物理参量u 1 。这种时间依赖处理的基本手段,一般是用一个长度有限的 窗序列 w ( m ) ) 截取一段语音信号来进行分析,并让这个窗滑动以便分析任 一时刻附近的信号,其一般式为: q 。= r 【石( m ) 】w o m ) ( 1 1 ) m = 一 其中t 【】表示某种运算, 工) 为输入信号序列。几种常用的时间依赖 处理方法是: 当r f 工( 研) 】为工2 ( 研) 时,q 相应于短时能量; 当玎x ( m ) 】ds g n x ( m ) 一s g n x ( m 1 ) l ,幺就是短时平均过零率; 当丁【算( m ) 】为算( 哟工( m + ) 时,幺相应于短时自相关函数。 这些计算都是以语音信号的时间波形为基础的。短时时域处理方法的主要 优点是直观、简单,处理结果能够描述语音的某些重要特性,因而在实际 中获得了广泛的应用。例如,清浊音的区分、语音起止点的判断、浊音基 音频率的估计等,都常应用短时时域处理方法。 短时频域处理主要是对各个短段语音信号进行频谱分析,因而又叫做 短时傅里叶分析。短时傅里叶分析是分析缓慢时变频谱的一种简便方法, 在语音分析中已经得到广泛应用。其方法是,先将语音信号分成短段,再 将各短段进行傅里叶变换。各语音段可以认为是从各个不同的平稳信号波 形中截取出来的,各段语音的短时频谱就是各个平稳信号波形的频谱的近 似。 线性预测是语音处理中的核心技术,它在语音识别、合成、编码、说 查! 竺三查! 竺苎兰苎 - _ _ _ _ _ _ - _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ 一一 话人识别等方面都得到了成功的应用。有的专家认为,近2 0 年中语音处 理技术的飞速发展与以线性预测为中心的信号处理技术是分不开的。线性 预测又叫线性预测分析,更常称为线性预测编码,简写为l p c 。语音的线 性预测,其基本思想是:语音信号的每个取样值,可以用它过去的若干个 取样值的加权和( 线性组合) 来表示;各加权系数的确定原则是使预测误 差的均方值最小( 即遵循所谓最小均方误差准则。预测误差定义为真实 取样值与预测值之差。如果利用过去p 个取样值来进行预测,称为p 阶线 性预测 1 3 , 1 5 , 1 8 】o 一组语音参数可以对应于一种语音信号频谱。将这样的参数组看成为 一个矢量,不仅在数学上非常自然,而且在主观上有明确的物理意义。这 可以说是语音信号的矢量表示。为了使这种表示更加有效,常常采用矢量 量化技术。矢量量化将在后面章节中详细说明。 1 4 论文完成工作 一、对c s - a c e l p 语音编码算法采用标准c 语言仿真实现。 二、对c s a c e l p 语音编码算法采用含噪语音进行测试,在相同的 测试语句中分别加入3 d b 和5 d b 的噪声,含噪语句通过该编解码器,输 出的合成语音用主、客观评价标准评价,与原始不含噪语音效果差别不大, 说明该算法是优秀的编解码算法。 三、本文重点研究了线谱对参数的求解和量化过程,给出了l p c 参 数到线谱对( l s p ) 参数的详细推导过程;此外,对算法中的l s p 的量化给 出了说明,并对这部分提出了不同的实现方案。 首先,改变分裂式矢量量化的维数组合,原算法中第二级残差量化时 用了两段式分裂量化法,将1 0 维矢量分裂为两个5 维矢量。本实验中, 也采用了两段量化法但改变了维数组合,将1 0 维矢量先后分裂为多种不 同的维数组合进行测试,得到3 维7 维和7 维3 维的组合方法效果最好。 其次,进行了码书优化。对l s p 参数量化中的第一级码书的1 2 8 个 码字的使用频率进行了统计试验,输入男女声长短句共1 0 0 句,对每一语 句做了码字使用频率统计特性曲线,根据统计结果,我们先后选用了1 2 8 个码字中使用频率高的9 6 个码字和1 1 2 个码字进行试验,而将其它使用 频率低的码字舍去不用,获得了较好的效果,结果将在论文中分析说明。 四、最后,文章对今后的研究工作做出了说明,提出了连接式分裂 矢量量化方法,将用这种方法进行码书训练和统计。之后,在d s p 上实 时实现和进行4 k b i t s 编码算法的尝试。 1 5 本论文的组织 第一章简要介绍了语音编码的发展;第二章介绍了码激励线性预测编 码器模型,并在其中给出了自适应码书和代数码书搜索算法的原理;第三 章讲解了l s p 参数的概念及推导过程,详细讲述了线谱对参数的三个性 质并加以证明;第四章分别给出了标准算法的编码器和解码器各个部分的 详细说明;第五章给出了模拟实验结果,并就线谱对量化方面提出与算法 中不同的思路并进行了实现,提出了8 k b i t sc s a c e l p 编码器的发展方 向,和今后要继续进行的工作。 最后在结束语中进行了全部论文的总结。 一 查! ! 苎查竺竺三兰查一 _ _ - _ _ _ _ _ _ _ _ _ _ _ _ - _ _ 一一 第二章码激励线性预测编码器 2 1 码激励线性预测语音编码模型简介 这种模型的框图如图2 1 所示,其基本思想就是利用几乎是自的信号 激励两个时变的线性递归滤波器,每个滤波器反馈环路上有一个预测器, 其中一个是长时预测器( 或基音预测器) p ( z ) ,用来产生浊音语音的音 调结构( 谱的细致结构) ,另一个是短时预测器f ( z ) ,用来恢复语音的短 时谱包络。这种模型来源于它的逆过程,也就是说,( z ) 用于去除语音 信号的近样点冗余度,e ( z ) 用于去除语音信号的远样点冗余度,经过两 级预测得到的归一化残差信号近似服从标准正态分布。该模型的激励信号 通常从高斯白噪声序列构成的码书中选取,所以称为码激励线性预测 ( c e ip 吨o d e e x c i t e dl i n e a rp r e d i c t i o n ) 模型【6 】o 图2 1c e l p 编码器模型 查墨! 苎查! ! 三兰兰 _ _ 一一 一般的,短时预测器传递函数表示为: f ( z ) = z “ ( 2 1 ) 其中,p 为预测器系数,为预测器阶数,一般介于8 1 6 :艺n 。在接收 端,短时合成滤波器的传递函数为 肌) = 丽1i = 击 ( 2 2 ) 其中a ( z ) = 1 一,( z ) 是前面讨论的现行预测误差滤波器。 基音预测器的传递函数为 p ( z ) = e 3 , z 一“ ( 2 3 ) 式中,m 为基音延迟,卢f 为基音预测器系数。通常,m 随系数届一起修 正,修正速率通常比短时预测器系数高,一般每隔5 1 0 m s 修正一次。, 通常取0 或1 ,j = o g 对应于一阶基音预测器,= 1 时,对应于三阶基音 预测器。基音合成滤波器的传递函数为 叫z ) 5 高豸 q 4 为了最佳匹配原始语音信号,c e l p 编码模型需要频繁地修正时变滤 波器参数和激励参数。系统的分析过程是按帧分序进行的,即首先确定时 变滤波器的参数,然后确定固定激励参数。分析帧的长度和修正速率决定 了编码方案的比特率。上述编码方案的基本步骤如下: ( 1 ) 初始化短时合成滤波器和基音合成滤波器历史( 通常初始化为零 值或低电平随机噪声) o ( 2 ) 缓存一帧语音信号,然后对这帧语音信号进行线性预测分析,确 查苎竺苎查竺竺兰竺苎 - _ _ _ _ _ 一一。一 定一组l p c 系数。 ( 3 ) 利用已经确定的l p c 系数和线性预测误差滤波器a ( z ) ,计算未量 化的残差信号。需要注意的是,该步骤对于闭环基音搜索是不必要的。 ( 4 ) 为了有效的确定激励参数,将l p c 帧分为几个子帧。 ( 5 ) 对于每个子帧:首先,用开环方法或闭环方法确定基音预测滤波 器参数,一旦确定了基音预测器参数,则将基音合成滤波器和短时合成滤 波器组合在一起形成一个级联的滤波器。其次,用激励码书中的某一个矢 量去激励这个级联滤波器,得到合成语音;( n ) ,再计算合成语音j ( ,1 ) 和原 始语音s ( n ) 之间的误差e ( n ) ,经感觉特性进行加权后,选取均方误差最小 的激励矢童作为最佳矢量。 ( 6 ) 借助于滤波器的初始记忆内容,将最佳激励信号通过级联滤波器 产生合成语音。 ( 7 ) 对每个子帧重复( 2 ) 到( 6 ) 步。 值得注意的是,在上述c e l p 语音编码方案中,基音预测器对产生高 质量的浊音语音发挥着十分重要的作用,这是因为浊音语音被表征为由基 音周期分隔的样点间大量相关的准周期信号。而短时预测器在很大程度上 排除了近样点间的相关,得到的短时预测残差信号是主要由基音尖峰信号 构成的低密度准周期信号,如果没有基音预测器,光靠随机码书是不能有 效地产生类似于短时预测残差信号的准周期激励信号。上述的模型激励参 数优化过程使用的是感性加权均方误差最小准则,而未使用普通的均方误 差最小准则。这是因为在低比特速率,每个语音样点平均分配的比特数一 般要小于1 ,这就使得准确匹配语音波形变的十分困难。所以,原始语音 信号和重建语音信号之间的均方误差缺少意义和充分性,这就要求所使用 的误差准则应该和人类听觉特性相一致。尽管人们在不断开展有关听觉特 查! ! 苎查竺! 三兰三 _ 一一一 性的研究工作,但迄今为止还没有一个满意的误差准则问世。目前流行的 方法是在基于合成分析的编码的方案中使用由a t a l 建议的感觉加权滤波 器,其传递函数为: 。1 一z 。 叭加蒜2 参i = l 咐 n l 情况:此时6 0 “ ( n ) = s r ( u 一1 - n ) 0 u n 一1 ,6 0 “1 4 7 由此可以得到激励矢量和感觉加权滤波器的冲激响应 ( ,1 ) 的卷积递推关 系为: x ( n ) - - a c ( v ) ( n ) 向( n k ) 2 荟泓- 1 叫顺舻”l _ n n - 1 ( 2 1 8 )t 2 u 、7 = s r ( u - 1 ) h ( n ) + s r ( u - 1 1 一k ) h ( n i 一七) = s r ( u d h ) + _ l ( n 一1 ) 毛( o ) = s r ( u - d h ( o ) n = 0 ( 2 1 9 ) 由式( 2 1 8 ) 和( 2 1 9 ) 可知,对于“= 6 1 1 4 7 ,计算每个屯即) 仅需n 次乘法。 ( 2 ) 当2 0 s u 6 0 时,即激音延迟小于激励帧长时,自适应码书的输 出矢量需要用到当前子帧的激励信号,而当前子帧的激励信号目前还是未 知的,因此需要对自适应码书进行一定的扩展,即对n 0 的a c w ( n ) 预 先赋值,一般采用自适应码书元素复制的方法,即令第h 个码矢量a c 的 第厅个元素为 a c ”( ,1 ) = s r ( u 一1 一n “) o “n 一12 0 - u - 5 9 其中,符号表示求余。这时用上述类似方法推导卷积地推关系如下: 太属理工大葶觋富圮x 毛( n ) = a c 埘( 砟) ( ,z k ) = s r ( u 一1 一k u ) h ( n 一七) :艘 一1 ) ( 玎) + 窆豫似一1 一七“( ,l d 2 2 0 = s r ( u - 1 ) h ( n ) + s r ( u 一1 一( + 1 ) “) j l ( ,l 一1 一七) 由上知,下面两个公式成立: 屯( o ) = s r ( u - 1 ) ,l = o ( 2 2 1 ) 丘( ,1 ) = s r ( u 一1 ) ( ,z ) + - l ( n 一1 ) 0 ,z u ( 2 2 2 ) 当“n n 一1 ,由式( 2 2 0 ) 继续推导,有: 吒( n ) = 职( “一1 ) ( n ) + s r ( u - 1 - ( k + 1 ) u ) h ( n 一1 一七) + i = o s r ( u - 1 - ( k + 1 ) u ) h ( n 一1 一七) k * * u - i = s r ( 炉1 ) 坳) + 荟跚沪1 - “) 枷铆。以) + ( 2 2 3 ) t 1 0、。, s r ( u - 1 - ( m + u ) u ) h ( n m 一“ m | 0 = s r ( u 一1 ) ( ,1 ) + 屯( 咒一) + s r ( u 一1 - ( k + 1 ) u ) h ( n l - k ) 由因为当“n s n 一1 时,有下列关系: 一一苎! 竺苎查竺! 主兰苎 无一l 仞一1 ) = 艘 一2 一七( “一d ) h ( n 一1 一) = s r ( u 一2 一( “一1 ) 坼( n 一1 女) + s r ( u - 2 一( m + “一1 ) ( “一1 ) ( n 一,l 一“) ”_ 0 r 2 2 4 ) 2 = s r ( u 一2 一( 七+ 1 ) “冲( n 一1 一七) + 隙( “一2 一,”( “一1 ) ) ( 月一m 一“) = , s r ( u - 2 一( 七+ 1 ) “( n 一1 一七) + 屯一l ( n 一“) 即 s r ( u - 2 一( 七十1 ) “冲一1 一七) = 毛1 一1 ) + 气一l 铆“) ( 2 2 5 ) 这时,式( 2 2 4 ) 变为: 毛( 甩) = s r ( u - 1 ) h ( n ) + x - l ( 订一1 ) + 屯( ,l 一“) 一气一l ( ,l 一“) “n n 一1 ( 2 2 6 ) 综上所述得基音延迟小于激励长度时,屯( n ) 的递推关系如下: k ( o ) = s r ( u - 1 ) , n = 0 x五。(nn):=sr(u一-11)hh(nn)+工x。_11(nn一-11)sr(u ) + 。 “ “ ( 2 2 7 ) i 屯( n ) =一1 ) h ( n ) + 毛- l ( n 1 ) + 【吒( n 一“) 一屯_ ( n 一“) “n n 一1 由式( 2 2 7 ) 可知,计算全部屯( n ) 仅需( j v + 1 ) ,2 + ( 6 0 一2 1 ) ( 一1 ) 次乘 法,而硬性卷积则需( 6 0 2 0 ) x n ( n + i ) 1 2 次乘法。当n - - - 6 0 时,前者只 需4 1 3 1 个操作,而后者则需7 3 2 0 0 个操作,可见递推快速算法所需的计 算量是硬性卷积法的l 1 8 。 一 查! 竺苎查! ! ! 竺兰 一一 一 2 3 2 分数延时自适应码书搜索算法 整数延迟自适应码书实际上是一个一阶长时基音预测器,它的最佳延 时“。所表示的语音基音周期为= “。,工,其中工为语音信号的采样 率。由于“。为整数,它所能表示的基音周期的最高精度为t = v l ( 一个 样点精度,当,f = 8 k - z 时,t = 1 2 5 u s ) ,而比这再高的精度就无法表示 了。实际语音基音周期的精度要比丁高很多,这在一定程度上影响了基音 预测器的性能,从而影响了最后合成语音的质量,尤其对于基音频率比较 高的女声和童声,由于基音检测误差比较大,基音预测器的增益比较低, 给固定码书激励信号的匹配带来困难,使最后合成语音中的量化噪声比较 大 1 7 , 1 9 。 为了提高基音预测的准确性,更好地逼近语音实际的基音周期,目前 主要采取两种措施:一是增加长时基音预测器的阶数;二是采用分数延时 自适应码书。但由于增加长时基音预测器的阶数需要增加较多的比特来对 预测器的系数进行量化,所以在低比特率语音编码中,通常采用分数延时 自适应码书,它只需增加较少的比特数就可以有效地提高基音预测器的性 能,使合成语音的质量得到改善。自适应码书中,分数延迟码矢量是通过 整数倍内插来获得的。 2 4 代数码书搜索算法简介 代数码书是一个具有一定代数结构的随机码书,它是固定码书的 种,能够根据语音的不同状态和实际编码速率调整其结构和比特分配,从 而保证随机码矢量具有一定的准周期性和一定的随机性,起到了对浊音段 和过渡语音质量改善的作用。另外,代数码书无需存储,可以有效减少语 兀腮堰 兀平憾= 忙x _ _ _ - _ _ _ _ - 一一一一 一 音编码算法程序和数据的存储量。因此,它是目前比较流行的一种码书结 构 2 2 , 2 3 。 在代数码书中,每个随机码矢量c ,最多只能有也个非零脉冲,在 c s a c e l p 算法中n c = 4 ,这m 个非零脉冲幅度和位置的取值都要受到 一定的限制,以满足代数结构和比特分配要求。若设墨和镌为第 i ( i = o ,1 ,n c 一1 ) 个非零脉冲的幅度和位置,则丑的取值可以是一个定值 ( + 1 或1 ) ,也可以是一个变值( 1 ) ,而似的取值则具有一定代数结构, 它的第t 个取值现幢,可以表示为: m i = 扣虬+ c 心i = 0 ,1 ,c - 1 其中,以为相邻非零脉冲的最小问隔,当菲零脉冲的位置超出了激励帧 长的范围时,表示该非零脉冲实际上并不存在。因此,随机码矢量c “中 非零脉冲的个数可以取小于等于札的任何整数。 将式( 2 5 ) 中的互相关项和能量项表示为: n - i c = x o ( n ) t i ( n ) ( 2 2 8 ) = 。 - 1 占= 0 2 ( 胆) ( 2 2 9 ) 划 其中0 ( ,z ) 为随机码书在标号为j 时的输出码矢量q 通过加权合成滤波器 日。( z ) 的零状态响应( 巳7 与日。( z ) 的零状态冲激响应矗( 厅) 的卷积) ,即 。( ,) f j ( n ) = q h ( n - k ) ,n = 0 ,1 ,n 一1 ( 2 3 0 ) 则随机码书搜索就是在随机码书中搜索出能使c 2 肛最大的码矢量q “, ,l :o 。1 ,l ,n 一1 。对于代数码书,随机码矢量q 一中最多只能有c 个非零 脉冲,即 j _ 羔邑6 ( n - m 。) , ,l = o ,l l ,一1( 2 3 i ) 将式( 2 3 0 ) ( 2 3 1 ) 带入式( 2 2 8 ) 和i ( 2 2 9 ) ,可以得到c 和e 的简化表达式为 札- 1 c = 置,( ) ( 2 3 2 ) n 也n 。- 2n 。一1 e = 芝妒( ,m j ) + 2 窆s 3 夕( ,m j ) ( 2 3 3 ) i - o f 种j = q + l 其中r ( f ) ,i = o ,1 ,l ,n 一1 为目标矢量( ,1 ) 与零状态冲激响应 ( n ) 的互相 关;妒( f ,) ,l ,j = 0 ,1 ,l ,n 一1 为零状态冲激响应j l ( n ) 的协方差矩阵,他 们的表达式分别为: n - i r ( f ) = x ;( n ) h ( n - i ) , i = o ,1 ,l ,n - 1 n - i 鳓j ) = h ( n i ) h ( n 一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度城市道路照明电工维护与升级合同
- 二零二五年度手机APP界面广告设计制作合同
- 高速公路路面铣刨、摊铺施工合同范本(2025年)
- 二零二五年度U盘采购及市场推广服务合同
- 二零二五年度茶楼茶叶及茶具批发采购合同范本
- 二零二五年度绿色建筑劳务施工合同模板
- 二零二五年度带花园二手房买卖预付款合同范本
- 2025版汽车借款抵押合同标准版
- 2025版电梯门套工程现场管理及监理合同
- 二零二五年餐饮业供应链金融服务合同示范
- 学院货物、服务采购询价表
- 期末复习放射物理与防护大专习题集
- 主通风机司机培训教材课件
- 《等腰三角形的性质》优秀课件
- 肺心病(课)课件
- 加油站打散油证明模板
- 中国烟草PPT模板
- c51e四门两盖耐久试验大纲
- 江苏省综合评标专家库题库
- 16竞品信息技术参数表
- 农作物品种试验技术规程玉米
评论
0/150
提交评论