![(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb1.gif)
![(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb2.gif)
![(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb3.gif)
![(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb4.gif)
![(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb/1eafcc87-38b3-4030-a1d3-e59d8c9a24fb5.gif)
已阅读5页,还剩59页未读, 继续免费阅读
(电路与系统专业论文)混合激励MVDR语音编码技术研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 随着通信技术的发展,语音作为人类交流信息的主要手段之一,在通信系统 中占据很重要的地位。由于语音编码速率和合成语音质量这对矛盾的存在,在对 编码速率要求比较严格的应用中,对语音的压缩编码的需求尤为迫切,中低速率 的语音编码也成为近年来人们关注的热点 如何准确的建立声道模型和激励模型成为中低速语音编码的关键。现在比较 流行的全极点声道模型的参数是通过线性预测( l p ) 方法来获得的,这种方法 并不能提供一个很准确的语音谱包络;另一方面,在中低速语音编码方法中,各 种激励各有所长,但都不能很好的描述所有类型的语音激励这些都导致在中低 编码速率下,合成语音质量难以进一步提高 在声道建模方面,线性预测方法建模谱包络的根本依据是最小均方准则,这 可以很好地解析共振峰频率,但是它过分强调共振峰频率处的能量,从而不能很 好地建模语音的短时谱包络,导致了谱包络在共振峰频率处会产生尖锐的曲线。 本文针对线性预测方法中存在的一些问题,引入了在数组处理中很常用的一种方 法一最小方差无失真响应方法,并在建模语音谱包络的性能方面与l p 方法进行 了比较。然后,在高阶最小方差无失真响应方法的基础上,讨论了缩减阶数的最 小方差无失真响应方法,并给出了最小方差无失真响应滤波器系数的计算方法 在激励模型方面,混合激励模型和码激励模型分别是参数编码领域和混合编 码领域的比较成功的模型。研究发现由于混合激励模型能够很好地提取浊音的基 音周期,并能良好的描述语音的基音周期波形,所以它具备很好的描述浊音激励 的能力:码激励模型是以匹配原始语音波形为目的,所以能够很好的描述清音的 激励。本文把这两种模型结合起来,充分利用了它们各自的优点。这里,对采用 c e m e 的混合激励模型和m v d r 方法的编解码器作了详细的设计,给出了编码 器中各种参数的计算方法和比特分配方案 最后,本文对上述方法进行了试验评价结果证实,最小方差无失真响应方 法在语音编码方面优于线性预测方法,设计的4 k b p s 编码器在主观听音方面略优 于4 8 k b p s 的码激励线性预测编码器 山东大学硕士学位论文 n 关键字:语音编码、混合激励、码激励、最小方差无失真响应 山东大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a t i o nt e c h n o l o g y , s p e e c hp l a y sa l li m p o r t a n tr o l ea so n c o ft h em a i nm e t h o d sf o re x c h a n g i n gi n f o r m a t i o ni nc o m m u n i c a t i o ns y s t e m s b e c a m eo ft h e c o n t r a d i c t i o nb e t w e c i ic o d i n gr a t ea n dq u a l i t yo fs y n t h e t i cs p e e c h t h en e e df o rb e t t e rc o d i n g m e t h o do fs p e e c hi si n c r e a s i n ge s p e c i a l l yw h e nt h eb a n d w i d t hi sl i m i t e d a sac m l s e q 咖t h e m e d i u m - l o wr a t es p e e c hc o d i n gh a sb e e np a i dm u c ha t t 酬o l li nr e c e n ty e a r s 1 1 豫a c c u r a t ed e s c r i p t i o no f l r a e km o d e la n de x c i t a t i o nm o d e li st h ek e yo f t h em e d i u m - l o w r a t es p e e c hc o d i n g h o w e v e rl h ep o p u l a ra l l - p o l e st r a c km o d e l sp a r a m e t e r s , w h i e l aa c a l c u l a t e d b yl pm e m o d c 柚n o tp r o v i d eav e r ya c c u r a t es p e e c hs p c c l r u me n v e l o p a n dm e d i u m - l o w r a t e s p e e c hc o d i n gm e t h o d sh a v ea d v a n t a g e sa n df l a w si nd e s c r i b i n ge x c i t a t i o n , a n dc 锄td e s c r i b ea l l k i n d so f s p e e c he x c i t a t i o np e r f e c t l y a l lo f t h o s eh a v el e dt ot h a tt h es y n t h e t i cs p e e c hq u a l i t yc a n t b ci m p r o v e df u l d l c i ri nm i d d l e - l o wr a t es p e e c hc o d i n g i nt r a c km o d e l i n g , t h i st h e s i sh a s 柚a l z c dt h eb a s eo fl pm e t h o dm o d e l i n gs p e e m l m e m , e l o p s , t l a em i n i m u mm e s q u a r er u l e t h i sr u l el e a d st ot h a tl p m e t h o dc 孤a n a l y z ef o r m a n t 。 f r e q u e n c yw e l l , b u to v o r - e m p h a s i z et h ep o w e fi n f o m a n n tf r e q u e n c y , s o s h o r t - t i m e $ p e c l t u m e n v e l o pc a l l tb em o d e l e dp e r f e c t l y , as h a x l , c o n t o u ra p p e a r si nf o r m a n tf r e q u e n c yo fs p e c l l u m e n v e l o p m o r e o v e r , b e c a u s e t h e r ea r es o m cp r o b l e m si nl pm e 廿l o d t h et h e s i sh a sd i s c u s s e da p o p u l a rm c t l l o di na r r a yp r o c e s s i n g m i n i m u mv a r i a n c e d i s t o r t i o r d e s sr e s p o m ca n d c o m p a r e dt h ep e r f o r m a n c e so f t h e t w om e t h o d si nm o d e l i n gs r i e c l a u me n v e l o p a l s oi nt h eb a s e o f t h em e t h o do f h i g h - o r d e rm i n i m u mv a r i a n c ed i s t o r t i o n l e s sr e s p o n s e ,h a sd i s c u s s e dt h em e t h o do f o r d e r - r e d u c e dm i n i m u mv a r i a n c ed i s t o r t i o n l e s sr e s p o n s ea n dt h ec a l c u l a t i o nm e t h o do fm i n i m u m v a r i a n c ed i s t o r t i o n l e s sr e s p o n s ec o e f f i c i e n t s h it h ep a r to fe x c i t a t i o nm o d e l s , t h i st h e s i sh a sa a l y z e dm i x e de x c i t a t i o nm o d e la n d c o d e - e x c i t e dm o d e l , w h i c ha ms u c c e s s f u lm o d e l si nt h ef i e l d so fp a r a m e t e rc o d i n ga n dm i x e d c o d i n g m i x e de x c i t a t i o nm o d e l 咖c b 硼t h ep i t c hb e t t e ra n dd e s c r i b et h ep i t c hw a v eb e 眠 s oi th a st h ec a p a b i l i t yo fd e s c r i b i n gt h ee x c i t a t i o no fs o n a n t c o d e m x e i t e dm o d e la i m sa t m a t c h i n go r i g i r l a l 孑呢s ot h ee x c i t a t i o no ft m v o i e e d b ed e s c r i b e db e t t e r , w h i c hm i x e d e x c i t a t i o nc ta c h i e v e t h i st h e s i sh a sc o m b i n e dt h et w om o d e l ,a n dd e s i g n e dt h ed e c o d e ri n l 山东大学硕士学位论文 d e t a i l ,w h i c ha d o p t sc e m eh y b r i de x c i t a t i o nm o d e la n dm v d rm e t h o d t h es o l u t i o n so f p a r a m e t e rc a l c u l a t i o na n d b i t sd i s t r i b u t i o nh a v ea l s ob e e nd i s c u s dh e r e i nt h ee n d , t h i st h e s i se v a l u a t e sl h ea b o v em e t h o d sb ye x p e r i m e n t t h er e s u l t sa r et h a t m i n i m u mv a r i a n c ed i s t o r t i o n l e s sr e s p o n s em e t h o dh a sb e t t e rp e r f o r m a n c et h a nl pm e t h o d ,a n dt h e 4 k b p sc o d e rp r o p o s e di nt h i st h e s i si sb e t t 日t h a n4 8 k b p sc o d e - e x c i t e dl pc o d e rb y e a r 1 v k e y w o r d s :s p e e c hc o d i n g 、m i x e de x c i t a t i o n 、c o d e - e x c i t e d 、m i n i m u mv a r i a n c ed i s t o r t i o n l e s s 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名:日期:兰! 芝! ! 王互厂 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本 学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:堕导师签名:潍日 期:鲨坚! 厂 山东大学硕士学位论文 1 1 引言 第一章绪论 在信息社会里,通信与政治、经济以及人们的日常生活都是密切相关的。人 们希望在任何时候、任何地点与任何人进行通信计算机技术、通信技术和多媒 体技术的发展使这种想法成为可能语音是人们交流信息的重要手段,用数字化 的方法进行语音的传送、存储、识别、合成等构成了目前数字化通信网中最重要、 最基本的组成部分之一也正因为信息化社会的高速发展,频率资源也就显得更 加宝贵。因此,压缩语音信号的传输带宽一直是人们追求的目标贝尔实验室的 h o m e rd u d l e y 于1 9 3 9 年发明了第一个声码裂”,从此语音压缩编码技术进入了 一个新的时代近十年来,语音压缩编码技术更是得到了突飞猛进的发展,也成 为了国际标准化工作中较为活跃的领域之一 c c i t t 已经制订了几个国际化的语音编码标准,这些标准规范并推动了语 音编码的研究,但这些标准的编码速率都比较高( 最低的g 7 2 3 标准,5 3 k b p s ) , 从而可以看出中低速率的语音编码方法还不成熟。一方面低速率的语音编码语音 质量不尽人意;另一方面,在一些应用中( 如短波信道、水声信道等) 又迫切的 需要低速率的语音编码,所以国际上很多的机构已经把。4 k b p s 速率以下的语音 压缩编码”作为未来几年的研究重点。 1 2 语音编码速率压缩的依据 压缩的本质就是发现冗余,充分识别冗余,并在可恢复的条件下去除冗余。 事实证明,语音中存在很大的冗余,而语音压缩编码的主要任务就是要去除这些 冗余。这主要包括语音信号本身的冗余和相对冗余,相对冗余也就是相对于人耳 的冗余,也就是我们把入耳不容易感知的信号也作为一种冗余 语音信号本身的冗余包括五个方面: 1 ) 信号本身的相关性很强,这表现为语音短时谱的不平坦性 2 ) 浊音信号的准周期性 l 山东大学硕士学位论文 3 ) 声道形状的缓变特性 4 ) 声道模型形式的已知性 5 1 幅度分布的不均匀性 其中3 ) 为语音编码分帧处理的理论基础,而4 ) 则解释了参数编码比波形编 码在压缩编码速率方面做的好的原因,这是因为声道模型的形式在编码器和解码 器两方都是已知的,所以能更好的剔除模型的形式也就能更好的压缩编码速率。 相对的冗余主要来自于人耳听觉的掩蔽效应一个强音可以抑制一个弱 音的听觉,这也就说明一些被强音抑制的弱音也就变成了冗余。这主要被用于对 编码噪声的频谱形状更改、后滤波技术以及子带编码技术中 1 3 语音编码综述 语音编码是与通信网密切相关的,要解决信息的传输效率,就要考虑两个方 面:首先,提高信道的传输能力,也就是单位带宽传输的码的个数;其次,就要 对信源的编码速率进行压缩。这里主要介绍语音这种特殊信源的编码速率的压缩 方法。 1 3 1 语音编码方法的分类 语音编码方法可分为:波形编码、参数编码和混合编码 3 1 。 波形编码力求使得重构语音波形与原始语音波形相一致它基本不考虑语音 信号的特性以及它的产生机理,只是产生与原始波形接近的波形。因此,它的重 构语音的质量很好,而且也可以用于其他信号的编码,具有比较好的抗干扰能力。 也正因为没有考虑语音的特性,波形编码很难把编码速率降低到1 6 k b p s 以下, 如果编码速率小于1 6 k b p s ,重构语音的质量会急剧的降低。p c m 编码就是最简 单的波形编码,这种方法只是对输入语音进行采样和量化,根据量化方法的不同, 编码速率一般控制在6 4 k b r ,s 9 6 k b p s 。p c m 编码普遍应用在世界各地的公共开 关电话网络( p s t n ) 电话中另外,典型的波形编码还有d p c m 和a d p c m 等, 它们可以把编码速率降低到3 2 k b p s 甚至1 6 k b p s 2 山东大学硕士学位论文 参数编码是从语音信号的产生机理出发,构造语音信号的模型,并提取相对 于模型的特征参数来描述语音信号,对模型参数或其预测值进行编码,称为参数 编码,也叫模型编码在解码器端,根据编码的特征参数来重构语音,类似于一 个重新“发声”的过程,而特征参数则是用来控制发声的模型来发什么语音参 数编码能够把编码速率降低到很低的值,可达到o 8 k b p s 但是,参数编码产生 的语音清晰度和自然度不是很好,经常有金属声音和蜂鸣声。而且,由于算法比 较复杂,所以需要的存储单元比较多,实时实现比较困难,但是随着d s p 技术 的迅猛发展,这也已经不是问题。参数编码过分的依赖语音的产生模型,所以对 噪声比较敏感,在具有背景噪声的情况下,重构的语音会进一步恶化。现在非常 流行的共振峰声码器、线性预测( l p ) 声码器都是典型的参数编码的例子。 混合编码则是集中了上述两种编码方式的优点,它们继承了波形编码语音质 , 一 。 量高和参数编码的编码速率低的特点,这类语音编码方式既充分考虑了语音的特 性和产生机理,又不失去原始语音的波形信息,在4 8 9 6 k b p s 的编码速率上可 以取得很好的语音质量。典型的混合编码方法有多脉冲激励线性预测编码 ( m p l p c ) 、码激励线性预测编码( c e l p ) 、规则脉冲激励线性预测编码 ( r p e l p c ) 等。 根据编码速率不同又可分为:高速率编码、中速率编码、低速率编码具体 划分为如图1 1 所示 2 0 0 勰 钉 们i ( x - 图卜1 语音编码速率划分 1 3 2 语音编码的评价标准 评价语音编码器的标准主要包括:编码速率、重构语音质量、算法复杂度、 编解码延迟四个方面p 】f 4 】,下面我们分别加以讨论。 山东大学硕士学位论文 1 编码速率 编码速率是指被编码的信源所占的带宽,它的大小也体现了编码器对要传输 的数据的压缩比例。在语音编码中,可以使用每秒语音所需要的比特数i 来表示, 单位为“b s ”。同时,也可以使用每个样点所需要的比特数r 来衡量,单位为“b p ” 二者之间可以通过采样频率z 联系起来,它们之间的关系为: 1 = r + 正 ( 1 - 1 ) 2 重构语音质量 重构语音质量是衡量语音编码好坏的很重要的标准,在很多的应用中都是最 受人关注的。主要通过主观和客观两个方面来评定。 客观的评定方法主要是信噪比,具体可分为分段信噪比、频域加权信噪比以 及非均方误差信噪比等。信噪比定义为信号与噪声的方差的比,用公式可以表示 为: s n r ( d s ) :1 0 1 0 9 - ) ( 1 2 ) o : 而在以参数编码为主的低速率编码中,因为它不是以重构原始语音的波形为 目的的,所以无法以波形作为评价标准,从而主观的评价显得更加重要。常用的 主观评价方法有:平均意见得分( m o s ) 、判断韵字测试( d r t ) 、判断满意度测 量( d a m ) 等,其中最常用的是m o s 。m o s 采用五级评分标准,优、良、可 接受、差、坏分别对应5 、4 、3 、2 、1 分通常如果m o s 得分能达到3 5 则可 以满足通信的需求了 3 算法复杂度 算法复杂度通常包括运算复杂度和内存的要求。其中运算复杂度通常使用每 秒钟的指令数来衡量,单位为m i p s ( 每秒百万条指令) 4 编解码延迟 编解码延迟包括算法延迟和计算延迟,算法延迟主要是由所采取的算法决 定,它主要指的是缓存语音样点而造成的延迟;而计算延迟指的是进行运算所需 4 山东大学硕士学位论文 要的时间编解码延迟对通信系统是很重要的,在公用电话网中,语音编解码的 延迟一般不超过5 l o m s 1 4 参数编码中的声道建模及线性预测( l p ) 方法 1 4 1 全极点声道模型 一个简单的语音产生模型,如图1 2 所示p 】其中,j ( 吣为离散语音信号, p ( n ) 为激励信号,v 0 ) 为声道的零输入响应 图1 2 语音信号模型 在时域,j ( 力表现为p ( 功和v ( n ) 的卷积,而在离散频域,s ( 力= 矿( 力e ( 力。 在参数语音编码中,要根据语音信号j ( m 提取e ( 功和“功,这是一个解卷积的问 题。通常采用有模型的解卷积方法来提取e ( 田和,( 帕,先对声道建立一个全极点 模型,然后确定其参数,从而得到y ( z ) 。而根据s ( z ) 2 矿( z ) e ( 力可以得出e 0 ) 采用全极点模型建模声道的原因如下: 1 参数容易计算 2 由于无法知道输入,所以无法确定零点,导致无法使用零极点模型 3 声道模型在不考虑鼻音和擦音情况下,就是一个全极点模型 这样,我们可以把矿( 力表示为: m ,2 器2 面g 2 而g ( 1 3 ) 在给声道定义了全极点模型之后,需要利用已知的s ( 一) 对p 个模型参数q 进 山东大学硕士学位论文 行估计,比较流行的估计方法是线性预测( l p ) 的方法。 1 4 2 声道模型参数的l p 估计方法 l p 方法的基本思想是使用过去的p 个样点值的线性组合来预测当前的样点 值,也就是 ;:圭q 咖一0 贫。( 1 q 预测误差为: 占( 撑) :s ( 力一j ( 刀) :s 一妻q j ( 万一0 j - l ( 1 5 ) 在l p 方法中,采用最小均方准则来确定p 个预测系数q ,这p 个系数也对 应于式( 1 。3 ) 中的p 个模型参数。通过s ( ”) 的均方值吼= 研占2 ( 靠) 】来衡量预测的质 量,吒的值与预测系数有关,要确定一组系数使得吒最小这些预测系数可以 通过l e v i n s o n - d u r b i n 算法f 3 】来迭代得出。 l p 方法诞生伊始,因其使用的l e v i n s o n - d u r b i n 算法的简单性、对各种语音 类型的适应性以及可以应用矢量量化,从而在语音处理领域拥有很大的影响力 尽管这种方法很流行,但也有其局限性基于l p 的方法使得全极点滤波器对清 音和低基音周期的浊音都工作的很好。然而,很多的研究者发现它对于中、高基 音周期的浊音,不能很好的建模。特别是,l p 方法不能随着模型阶数的提高而 持续改善谱包络的性能,相反,在超过一定的界限之后,再增加阶数会恶化谱包 纠1 9 ) 2 0 l ,这也被认为不是好的谱估计方法的特性。s h e r m a n 和l o u 也注意到l p 方法更适合找到噪声中的谐波频率位置,而不是谐波的能量【2 l 】。我们将在第二章 具体讨论l p 方法的局限性,并给出了一种新的声道模型参数估计方法。 1 5 基于l p 方法的低速率编码中的激励建模方法 6 2 0 世纪7 0 年代,基于二元激励线性预测编码方法的美国l p c l o 声码器是 山东大学硕士学位论文 低速率语音编码的开始和典型代表,可以说是基于l p 的编码方法的始祖l p c 最初用于军事,其较好的可懂度和良好的保密性能使得它能满足当时军事上的应 用要求。之后,低速编码引起了人们的极大关注,这主要是人们对l p c 的语音 质量不是很满意最终,人们发现原始l p c 简单的二元激励模型是其语音质量 低的根本原因,所以人们在肯定l p 方法的同时对激励的建模提出了很多的改进 方案。 1 5 1 二元激励模型 在这种编码方法中,用一个全极点模型来建模声道,模型参数是通过线性预 测的方法来得到的;激励用二元激励来建模,即使用随机序列来作为清音的激励, 使用周期脉冲串来作为浊音的激励所以这个声码器需要提取的参数是全极点滤 波器的系数、基音周期p 、清浊音判决以及语音的增益。美国的线性预测编码器 l p c 1 0 就是二元激励编码的典型代表 二元激励编码是基于l p 方法的参数编码的开始,通过这种方法可以得到可 懂的语音,但是它抗噪声能力、自然度和清晰度比较差这是因为二元激励过于 简单,在一些语音段既非浊音段也非清音段,可能是过渡段或者在某个频带是清 音另一些频带是浊音,但是在这种模型下又不得不将其分为清音或浊音,所以肯 定会增加这段语音的清音成分或浊音成分,从而引入噪声或者金属声、蜂鸣声等。 为了克服这些问题,人们相继提出了以线性预测模型和分析合成法( a b s ) 为基础的很多编码的方法,典型的代表是多脉冲线性预测【6 l 、码激励线性预测啊、 混合激励线性预测i t 6 1 等。 1 5 2 基于分析合成法( a b s ) 的激励模型 分析合成法是通过闭环分析来确定所采用的激励模型的参数,它的基本思想 是通过比较激励模型中不同参数所产生的合成语音与原始语音的差距来确定最 优的模型参数。这种方法的典型代表是a t a l 和r e m e d e 提出的多脉冲线性预测编 码( m p l p c ) 和a t a l 和s c h r o e d e r 提出的码激励线性预测编码( c e i j ) 7 山东大学硕士学位论文 多脉冲线性预测编码是使用不同位置和不同幅度的脉冲组合来建模激励,通 过分析合成法来确定脉冲的位置和幅度组合而码激励线性预测编码则是使用码 本中的码矢量来作为激励,通过分析合成法来确定所采用的码矢量的序号。在本 文第三章也对码激励线性预测方法进行了讨论,并在此基础上进行了改进。这类 基于分析合成法的方法可以在中低速率获得较好的语音,但是其计算量大、算法 复杂等问题也限制了这类方法的一些应用。 1 5 3 混合激励| 1 5 - 1 6 l 模型 混合激励声码器针对l p c 模型中存在的缺陷做了有针对性的改进。由于l p c 对激励信号的描述过于简单,在混合激励线性预测( m e l p ) 模型中采用了周期 脉冲和白噪声的混合作为激励。而且,针对于帧内基音周期的时变特性,把语音 分为浊音、清音和抖动浊音,对于抖动浊音采用了非周期的脉冲激励;针对二元 激励l p c 忽略了激励信号的形状信息,在m e l p 中对激励信号的傅立叶谱的幅 度进行了编码而且,m e l p 还加入了脉冲散布滤波器和自适应谱增强滤波器来 提高语音质量 m e l p 所做的改进在相当大的程度上改善了原有l p c 参数模型的激励源构 造,消除了l p c 合成语音中有时出现的机械的或蜂鸣的音调噪声,增强了抗背 景噪声的能力。美国联邦标准f t r l 0 2 4 m e l p 算法在低编码速率的情况下可以获 得不错的语音质量。 1 6 本文主要内容 本文分别针对产生语音的声道模型和激励模型进行了研究。第二章在分析了 现在比较流行的获取声道全极点模型的线性预测方法的局限性的基础上,讨论了 最小方差无失真响应( m ) r ) 的方法来得到声道全极点模型,并对m v d r 方 法的性能进行了讨论第三章主要讨论了如何描述激励模型,将能够很好的建模 浊音激励的m e 激励模型和能够很好的建模清音激励的c e 激励模型二者相结 合,对语音进行判别,根据语音帧类别的不同,使用不同的激励模型来进行编码。 第四章对4 k b p s 编解码器进行了设计。第五章对试验结果进行了分析和比较。 山东大学硕士学位论文 第二章声道的全极点建模 2 1 线性预测( l p ) 分析方法的局限性 我们可以使用一系列周期信号的和来代表浊音信号,也就是 l “( m = g c o s ( 勋+ 丸) k = l ( 2 - 1 ) 这里2 2 矾,石是语音的基音频率,g 是谐波幅度,l 是谐波的数目, 并且= m ,2 厶j ,z 是采样频率,一般是8 l 【h z ,在本文中如果不特别说明则 采样率也为8 k h z 。这样一个浊音信号由l 个谐波或者说由2 l 个指数的和组成, 分别是在基音频率的正的和负的倍数处。通过这个语音的模型,浊音信号有自相 关序列: k ( m ) = 争k = l 巨2 c o 嗍 ( 2 - 2 ) k 1 2 功率谱如式( 2 3 ) ,该式显示在七频率处具有能量r 驰,= 喜z 石譬阪州c 一纠协。, 如果说话者有较低的基频,他们的谐波间隔就比较小,从而有较大的谐 波数目l ,而高基音的说话者也就具有小的l 因为高基音的说话者在给定的频 率范围内有较少的谐波,提供了有限的谐波信息,从而建模谱包络就更困难,也 就需要在全极点参数估计上多注意。 建模语音的l p 包络的局限性可以通过验证它所基于的m s e 准则来揭示 预测误差忍是滤波器彳( z ) 的输出,它等于 = 去舭1 2 s ( o n ) d o y ( 2 4 ) 9 山东大学硕士学位论文 到 把式( 2 - 3 ) 代入,并假设l p 滤波器是实的,并且有对称的频率响应。可以得 只= 争幽2 i 爿( e ,蚶) 1 2 l p 的基本思想就是通过l p 逆滤波器来抵消输入信号的主要谐波来使得式 ( 2 - 5 ) 中的心最小,我们可以看到l p 是如何使得 最小的。 k 阶l p 滤波器一( z ) 可以写成彳( :) = r e ( 1 一b l z - i 的形式,如果 b l = p ”,2 l 一 ,则对于0 3 1 ,= l 一k, 4 0 嘶) = l 一岛x 0 细) 一= 1 一e 细( e 4 ) 一= 0 。也就是说,对于式( 2 5 ) o e n p e , 在a ( z ) 的阶数k 2 l 的时候,可以有足够多的零点来抵消输入的所有谐波,从 而= o 。当只= o 时,1 卜4 ( p ”) l ,7 = 一1 量变成无穷大,也就是滤波器的谱 在输入的各个谐波频率处能量为无穷大 从上面我们所讨论的,我们可以看出,l p 逆滤波器的零点可以很准确的解 析出浊音谐波频率的位置,但是这不是谱包络建模的根本,谱包络建模更关心谐 波频率处的能量,而不是解析谐波位置,l p 恰恰与此原则相反,它在准确解析 了谐波频率位置的同时,也使得谐波频率处的能量无穷大,不给出谐波频率临近 能量的任何指示;而且随着滤波器阶数的增高,使得滤波器有更多的零点来抵消 输入的谐波,从而乃逐渐趋近于0 ,而谱也变的越来越尖锐,n n i 器i i a ( z ) 的 极点也越来越靠近单位圆,如果把l p 方法用于语音处理,上述的情况在合成语 音中体现为有金属声等问题,人们已经开始认识到这个问题,采用l p 谱极点的 带宽扩展方法来减少l p 谱的轮廓的尖锐性1 2 3 】。 我们可以从图2 1 看出,对同一帧语音的l p 谱包络建模,当阶数从1 0 变为 1 8 的时候,我们可以看到l p 谱包络在谐波频率处变得尖锐,在高频范围的谐波 频率处,这种尖锐更加明显,而且还可以看出l p 滤波器的极点更加靠近单位圆。 这样就证明了我们上面对l p 模型的频率分折 1 0 山东大学硕士学位论文 图2 - 1 同一帧语音的1 0 阶l p 谱( 左) 和1 8 阶l p 谱( 右) 相同的阶数1 8 ,不同频率语音帧的l p 建模情况如图2 - 2 所示,我们可以看 出随着频率的增高,l p 谱包络不能很好的匹配语音谱,轮廓也变的越来越尖锐, 特别是在对语音最重要的第一个和第二个谐波频率处这种变尖锐的问题尤为明 显。 图2 - 2 不同频率的1 8 阶l p 建模 山东大学硕士学位论文 2 2 语音的m v d r 建模 上面我们讨论了l p c 存在的一些局限性,为了解决基于l p 的谱包络估计的 方法的缺点,我们使用m v d r 谱方法来建模语音。m v d r 方法是在数组处理中 很流行的一种方法。在对语音建模方面,相对于l p 方法过分强调解析谐波位置, 而使得各个谐波频率处有过高的能量,m v d r 建模方法更着重于精确的估计语 音谱的能量,使得m v d r 谱包络能和语音谱更匹配。 2 2 i m v d r 方法原理 在m v d r 谱估计方法中,首先使用特殊设计的f m 滤波器岛( 刀) 来对信号进 行滤波,在滤波器输出端计算输出信号的能量从而决定在频率q 处的能量。在 m 阶的f i r 滤波器啊( 一) 设计中首先要满足: q ( p 。竹) = 啊( 七弦州= l “ 【2 。6 ) 这个条件被称为无失真条件。可以写作v t ( 鳓) 啊= i ,这里 v ( 珊) = 【l ,e ”,e 伽,e 舯) r ,而啊= ,啊,】i 。也就是,在关心的频 率卿处的频率响应具有单位增益。 其次,对无失真滤波器啊( 川,在满足无失真条件的情况下,要最小化它的输 出的能量,也就是: 嚼n 矽+ - 啊,满足v ”( q ) 啊一 ( 2 7 ) 这里+ l 是输入信号的( m + 1 ) 叫+ 1 ) 维的t o c p l i t z 自相关矩阵 这个限制最优问题的解是 2 4 1 2 s l : 吩= 磊谶 山东大学硕士学位论文 最后,要对岛( 疗) 的输出信号进行能量估计。无失真滤波器在卿处的冲击响 应用啊( 甩) 来表示,信号能量谱为s 0 ( 国) ,则其m v d r : p m v ( c o , ) = 瓦1 ,加1 2 ( 扩) d 国 这里f o ( 奶表示m v d r 功率谱。无失真条件保证m ) r 无失真滤波器啊( 力 使得由频率q 组成的输入信号可以无失真的通过,而输出能量的最小化保证在 信号中其余频率分量可以得到有效的抑制这个相互制约的最优限制是m v d r 方法的关键,这个特点也就克服了l p 方法只能解析谐波位置而不能很好的估计 谐波频率处包络能量的问题,也让它能够更好的建模语音 2 2 2 m v d r 谱系数的计算 从上面的讨论,我们可以得出m v d r 方法中必须为每个q 设计一个单独的 啊( 帕,但是,我们可以像l p 方法一样计算一个m v i ) r 滤波器的参数表示 m 阶m v d r 谱可以写为。 驴1 2 研1 。 下面我们要计算功率谱的系数“( 七) ,我们首先来看一下功率谱的自相关表 嘭( ) = 瓦而1 我们可以得出1 3 6 l 曲岫( 一i ) ( 七) = 砒。 t m r ( o 。- t ) ( 2 1 1 ) ( 2 - 1 2 ) 山东大学硕士学位论文 根据g o h b e r g s e m e n c i i i 公式,t o e p l i 乜矩阵吼的逆矩阵的值可以计算为: 聪2 专t - - 0 气麻旷“以忡 ,这里七乩而且驴1 ( 2 - 1 3 ) l 1 ,7 1 、 这里口叫为德宾算法第n 次迭代后得到的l p 系数,也就是最后我们得到的 代入式( 2 1 2 ) 得 1n kltn t | = 古口一矗一一古+ 一一乱,k o 1 。1 f 。4 ( 2 - 1 4 ) 根据推导出a 1 ”的德宾算法,我们可以将式( 2 1 4 ) 整理为: ”( 七) = 古( + l 一七- 2 f ) q ,。口o ,七o 。 o ( 2 1 5 ) 而对于七 m ,将零填入此列,巧变为带状的。 给定一个矩阵巧,它的c h o l e s k y9 角翠j 区回- w ( + 1 ) 。( + 1 ) 单位下三角 矩阵“,“的对角线元素可以构成一个单位对角阵,和一个( + 1 ) 。( + 1 ) 对 山东大学硕士学位论文 角矩阵啊,满足方程 巧= l m ,巧 ( 2 - 2 1 ) b a u e r 指,当k - - + 一,反序的“的最后行的上脚元素趋向式( 2 - 1 8 ) 中三( 力 多项式的系数,而,的第( + 1 ) 元素趋向于,;我们可以使用近似公式 曰( 力* 正mo ( ) z 4 _ _ _ _ _ _ _ _ _ i - 0 ( 2 2 2 ) c h 。l e s k y 分解实现如下,用吃表示的对角线元素,乃和厶分别表示巧和 “的元素,我们从计算和“的第一列开始: 每次计算得到一列: 当然,对于i a - - - m :春j 毛2 a ( i d ,其它情况巧为零,我们应用于式 ( 2 2 5 ) ,我们可以看到 1 6 岛= o , i m ,j m ,厶的第i 行的第一个元素等于零。因此,可以限制计算,在式 山东大学硕士学位论文 ( 2 - 2 5 ) 中i = l m i n ( m , r ) 和式( 2 - 2 8 ) i - _ ,+ l m i n ( j + m ,) 计算每次完成一个固定的n ,或对增加的n 重复直到满足某个收敛判别标 准;在后一种情况,可以使用c h o l e s k y 矩阵的嵌套性质以减少计算时间 嵌套性质在于,由于巧+ - 可以从巧通过附加一行和一列得到,由此得出结论 仅通过附加一行到“可计算k “, 附加一行到r 可计算,“ 如此,给定嘭,= o ”和岛,扣o ”m 积( o ,一m ) s _ ,剑,对 j = m a x ( o , n + m 一1 ) 一2 1 ,我们有: 2 2 3 2 b a u e r 方法的性能 1 不同基音频率的浊音的l p 和m v d r 谱性能比较 基音频率为1 3 6 h z 、1 9 0 i i z 、2 4 2 h z 的浊音帧( 每帧包括1 6 0 个样点) 的l p 谱和m v d r 谱如图2 3 所示通过比较发现对不同的基音频率的浊音,m v d r 谱都要比l p 谱更加的平滑,很大程度上减少了共振峰频率处谱包络过分尖锐的 现象,因此能更好的匹配浊音谱 2 同一帧语音的不同阶数的l p 和l v l v d r 谱性能比较 一帧基音频率为2 2 4 h z 的浊音的2 0 阶和3 0 阶的l p 和m v d r 谱如图2 - 4 所示通过比较我们发现,2 0 阶和3 0 阶的m v d r 谱都要比l p 谱平滑,能更好 的逼进浊音的谱;而且可以看出随着阶数的增加l p 谱在共振峰频率处更加尖锐, 而m v d r 谱的性能则能随着阶数的增加而改善 1 7 山东大学硕士学位论文 ! 脚酬 4 。1 0 蒜k 鼍= m , i 4 。1 器搴,器器。r 口蝻一i ! 蚰j 豫 意广1 莳赢- 茹i 曼t _ 高j r _ 蔚高之 青锺宰2 a t l p 蕾3 晡音臻事2 她u v 嗍蛾 r。1。1 j 恻j m t 意广1 f 高未t 高葛r 1 莳二矗 图2 - 3 不同基音频率浊音的l p 和m v d r 谱( 上:基音频率为1 3 6 h z ,中:基音频率 为1 9 0 h z ,下:基音频率为2 4 2 h z ) 图2 4 基音频率为2 2 4 h z 的浊音的2 0 阶、3 0 阶l p 和帅r 谱比较 3 浊音数据库的l p 和m v d r 对数谱失真的比较 这里讨论m v d r 对一个浊音数据库中的浊音帧的整体性能。试验中采用的 数据库包括3 2 0 帧浊音,每帧1 6 0 样点,我们对整个数据库中的每一帧浊音分别 求其l p 和m v d p 对数谱失真,然后再求平均。我们可以从图2 5 看到随着阶数 的增加m v d r 谱的对数失真是呈下降趋势的,而l p 的对数失真趋于平稳甚至 有增加的趋势。由此可见,虽然l p 谱能够在低阶很好的匹配浊音谱,但是随着 阶数的增加,特别是到1 2 阶以上,其对浊音谱的匹配能力增加微弱,而且呈下 山东大学硕士学位论文 降的趋势;m v d r 方法可以在高阶提供优于同阶的l p 谱的包络,更精确的对声 道模型建模。 图2 - 5l p 和m v d r 对数谱失真比较 4 清音谱的l p 和m v d r 建模性能比较 由于清音可以建模为白噪声激励全极点模型,所以它的谱不同于浊音的谱, 它的谱更加的平滑,能量分布更加均匀。2 0 阶和3 0 阶的l p 、m v d r 谱如图2 - 6 所示,从图中可以看出m v d r 谱包络也能很好的匹配清音的谱 图2 - 6 清音的l p 和m v d r 谱性能比较 1 9 山东大学硕士学位论文 2 2 4 低阶m v d r 建模 从上面可以看到,m v d r 谱估计方法可以提供一个很好的谱包络,但是这 种方法的最大限制就是需要很高的阶数才能提供精确的谱包络,为了解决这个问 题,人们提出了几个基于m v d r 框架的有效低阶数全极点方法。如缩减阶数 m v d r ( r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年婴幼儿保育实践与理论预测题详解
- 抗爆墙施工方案
- 造价整体方案模板范本
- 巫溪超市石膏板施工方案
- 歌唱二小放牛郎教学设计-2025-2026学年小学音乐人音版五线谱北京五年级上册-人音版(五线谱)(北京)
- 写施工方案举个例子
- 2025年XX金融公司风险管理项目经理竞聘面试指南模拟题与答案解析
- 5.1 等式与方程 说课稿 -2024-2025学年冀教版七年级数学上册
- Unit2 Colours (教学设计)-2023-2024学年人教PEP版英语三年级上册
- 甘肃省武威市2025年-2026年小学六年级数学期末考试(上,下学期)试卷及答案
- 电力营销考试题库
- 护理专业实训室设备管理制度
- TB-T 3356-2021铁路隧道锚杆-PDF解密
- 2024届陕西省渭南市临渭区小升初语文重难点模拟卷含答案
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 配电自动化终端缺陷处理
- 《电力系统治安反恐防范要求 第4部分:风力发电企业》
- 小区物业接管方案
- 《生产部月报模板》课件
- 骨质疏松性骨折应对策略骨折联络服务研究进展及应用探讨
- 公差配合课件
评论
0/150
提交评论