![(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/14/568105a8-0520-4e94-8ae4-b791a76f4181/568105a8-0520-4e94-8ae4-b791a76f41811.gif)
![(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/14/568105a8-0520-4e94-8ae4-b791a76f4181/568105a8-0520-4e94-8ae4-b791a76f41812.gif)
![(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/14/568105a8-0520-4e94-8ae4-b791a76f4181/568105a8-0520-4e94-8ae4-b791a76f41813.gif)
![(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/14/568105a8-0520-4e94-8ae4-b791a76f4181/568105a8-0520-4e94-8ae4-b791a76f41814.gif)
![(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/14/568105a8-0520-4e94-8ae4-b791a76f4181/568105a8-0520-4e94-8ae4-b791a76f41815.gif)
已阅读5页,还剩51页未读, 继续免费阅读
(电路与系统专业论文)语音特征波形的非负矩阵分解研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 针对目前传统的特征波形( c h a r a c t e r i s t i cw a v e f o 加,c w ) 分解方法很难在 分解精度、计算复杂度、延时这三个指标上达到统一的缺点,本实验室已经有人 提出利用非负矩阵分解( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f ) ,来分解c w , 并且产生了基于非负矩阵分解的波形内插( 、v e f o 啪i n e r p o l a t i o nb a s e do n n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f w i ) 编码器,但是原n m f w i 模型存在收 敛速度慢,基矩阵不够稀疏等缺点,模型还不够成熟,有一些待改进的地方。 本文在此基础上针对n m f w i 语音编码模型和相位合成等关键技术进行了深 入的研究,提出了一系列改进算法,并最终提出了2 k b p s 改进型n m f w i 语音编 码方法。本文的改进主要体现为如下几方面: 一、采用基于k l 散度的n i f 方法分解c w ,与原方法相比,绝对误差下降 了约l 3 ,计算复杂度也大大降低; 二、提出了一种收敛速度更快的基矢量m e l 刻度分带初始化方法,得到的基 矩阵更稀疏,冗余度更低,与原方法相比,更符合语音的感知特性; 三、为了降低计算复杂度,按照基音周期的统计分布将c w 分为6 类,在绝 对误差没有降低的情况下,平均收敛速度提高了3 0 ; 四、提出了两种分解阶数的计算方法,增强了原来实验方案的理论基础,得 到了更加合理的分解阶数,降低了计算复杂度,而绝对误差没有明显提高; 五、提出了一种相位谱的混合自回归合成方法,将相位谱分解为随机相位和 固定相位的加权和,与原n m f - w i 模型采用固定相位合成的方法相比,有效改善 了合成语音有很强蜂鸣声的缺点,提高了合成语音的自然度; 六、开发出一套改进型2 k b sn m 卜w i 低复杂度语音编码方法,在c w 分解模 块,复杂度下降了1 0 m o p s ,语音质量比原n m f w i 编码器高,与采用4 b i t 散布 矢量量化相位谱的2 1 6 k b s n m f w i 语音编码器的语音质量相当。 关键词:语音处理;波形内插:特征波形;非负矩阵分解 北京工业大学t 学硕士学位论文 a b s tr a c t t h et r a d i t i o n a lc h a r a c t e r i s t i cw a v e f o 咖( c w ) d e c o m p o s i t i o ni sd i 伍c u l tt 0 a c h i e v eh i g ha c c u r a c y ,i o wc o m p l e x i 秒a n dl o wd e l a y o u r l a b o r a t o 拶h a sp r o p o s e da c wd e c o m p o z a t i o nm e t h o du s i n gn o n n e g a t i v em a t r i xf 如t o r i z a t i o n ( n m f ) ,a n d d e s i g n e daw a v e f o mi n t e r p o i a t i o n( w i ) c o d e rb a s e do nn m f h o w e v e r ,t h i sc o d e r h a ss o m es h o r t c o m i n g s ,s u c ha ss l o wc o n v e r g e n c e 锄di e s ss p a r s eb a s i sm a t r i x ,w h i c h i sn o tp e i r f e c ti nt h em o d e l ,s ot h e r ea r es o m ea s p e c t st ob ei m p r o v e d b a s e do ne x i s t e dr e s e a r c hw o r k s ,t h i st h e s i sf o c u s e so nk e yt e c h n i q u e si nw i c o d e r b a s e do nn m f ( n m f w i ) a n dp h a s es y n t h e s i s ,a n dp r o p o s e ss o m ei m p r o v e d a l g o r i t h m s f i n a l l y ,a ni m p r o v e dn m f w 1w i t hl o w c o m p l e x i t y i sp r e s e n t e d t h e m a i nr e s e a r c hr e s u l t sa r ea sf 0 n o w s : 1 n m fb a s e do nk u l l b a c k - l e i b i e rd i v e 唱e n c et od e c o m p o s ec ww a sp r o p o s e d , a b s o l u t ee r r o rd e c r e a s e db ya b o u t1 3 ,c o m p u t a t i o n a lc o m p l e x i t ) ,i s 伊e a t l yr c d u c e d 2 m e ls c a l eb a n d p a r t i t i o n i n gi n i t i a l i z a t i o nu s e df o rb a s i sv e c t o r sw a sp r o p o s e d , w h i c hh a sf a s t e rc o n v e r g e n c e t h eb a s i sm a t r i xi ss p a r s e r ,i o w e rr e d u n d a n c y w h i c h a c c o r dw i t ht h ep e r c e p t r u lp r o p e r t i e so fv o i c ec o m p a r e dw i t ht h eo r i g i n a im e t h o d 3 t br e d u c ec o m p u t a t i o n a lc o m p i e x i t y ,c w sw e r ec l a s s i 6 e di n t os i xb a s e do n p i t c hd i s 仃i b u t i o n c o n v e r g e n c es p e e di s i n c r e a s e db y3 0 ,a b s o i u t ee n _ o ri sn o t i n c r e a s e d 4 t w on e wm e t h o d st oc o m p u t ef a c t o r i z a t i o nr a n kw e r ep r o p o s e d ,w h i c h e n h a n c e dt h et h e o r e t i c a lf o u n d a t i o n m o r er e a s o n a b i ef a c t o r i z a t i o nr a n kw a sg o t , c o m p u t a t i o n a lc o m p l e x i s i t yi sd e c r e a s e da n d a b s o l u t ee ri sn o ti n c r e a s e d 5 m 氐da u t o r e g r e s s i v em o d e lf o rc o n s t m c t i o no fp h a s ew a sp r o p o s e d ,w h i c h d i v i d e st h ep h a s et ot h ew e i g h t e df i x e da n dr a n d o mp h a s e i ti m p r o v e ss h o r t c o m i n g s o fs y n t h e t i cv o i c eh a v i n gs t r o n gf e n g m i n ga n di m p r o v e st h en a t u r a l n e s s 6 f i n a l l y ,ai o wc o m p l e x i t yn m f - w is p e e c hc o d i n ga t2 k b sw a sd e v e l o p e d i n c wf i a c t o r i z a t i o n ,c o m p u t a t i o n a lc o m p l e x i 毋d r o p p e db ylom o p s s p e e c hq u a l i 够i s h i g h e r ,a n de q u v i l e n tt ot h e2 16 k b sn m f w iu s i n g 4 b i tp h a s ev q k e y w o r d s :s p e e c hp r o c e s s i n g ;w a v e f o r mi n t e 印o l a t i o n ;c h a r a c t e r i s t i cw a v e f o m ; n o n n e g a t i v em a t r i xf a c t o r i z a t i o n - n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 日期:翌星:牛翌 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:三缒导师签名 日期:噬笙丝 第l 章绪论 第1 章绪论 1 1 语音压缩编码的意义 通信技术发展日新月异,各种通信新技术不断应用到日常生活中,改变着 人们的沟通方式。语音的数字通信以其良好的性能得到了长足的发展,语音的数 字通信与模拟通信相比,有更好的效率和性能。语音数字化的最简单的方法是直 接对语音信号进行模数转换,只要满足一定的采样率并且有足够的比特数进行 量化,就能够得到高质量的数字语音。通常此时语音的数据量非常大,不便于进 行传输和存储处理,往往要进行压缩,以减少语音信号的传输速率或存储量,语 音压缩编码技术应运而生。数字语音编码或语音压缩编码就是压缩语音信号的数 字表示,从而使表达这些信号所需的比特数最小的算法。 在语音压缩编码中,传输码率也称为数码率或编码速率,表示传输每秒钟语 音信号所需要的比特数。当然,我们希望传输码率越小越好,重建语音的质量越 高越好。但是两者之间是一个矛盾,如何折衷考虑找到最优的结合点是语音编码 的任务。 随着信息社会的发展和实际应用的需求,语音编码技术也在不断的发展。 其中降低语音编码的速率,对数字通信技术的发展具有重大的意义:在存储方面, 降低比特率可以降低系统对存储设备容量的要求;在传输方面,降低比特率可以 带来较低的传输带宽、功率和存储容量,因此它是人们始终追求的目标。虽然目 前光纤传输介质提供了相对宽的带宽,但压缩技术仍然是通信中的关键技术。这 是因为无线通信和卫星通信中的需求仍在增加暖1 。 针对语音压缩编码而涌现出的多种实际应用,例如第三代无线通信网络和 低地面轨道系统等,都在不断促进着语音编码向低速率发展。低比特率语音技术 是满足日益增长的数字无线通信需求的关键因素。欧美、日本等国家一直在努力 通过降低语音编码速率来扩大移动通信的容量担1 。我国现有电话网络也还需要长 期的改造,目前许多话音应用仍然依赖于低速率语音编码技术。此外,未来趋势 是电话网、数据网、因特网三网合一,语音和数据在一条传输线上混合传送。目 前发展迅速的v o i p ( v o i c eo v e ri p ) 就是利用i p 网络实现语音通信的一种先 进通信手段,是基于i p 网络的语音传输技术口1 。此外,低速率语音编码在语音 存储方面也有广泛的应用前景。综上所述,低速率的语音编码技术一直是重要的 研究课题。 北京工业大学1 二学硕士学位论文 1 2 语音编码的基本属性 在不同的应用环境下,我们需要不同的语音编码器。如何评判一个语音编码 器在应用中的性能呢? 主要从以下四个语音编码的基本属性考虑:语音质量、编 码速率、算法复杂度和延时。这四个基本属性即相互关联又相互矛盾,在不同的 应用环境下要折衷考虑这四个基本属性。例如:在保密通信中,为了保证通信保 密性,需要用最少的比特表达最多的信息,这就希望编码速率要尽量低,其它三 个基本属性只要达到基本要求即可;在网络通信中,为了满足通话需要,希望延 时尽量小甚至零时延,而且语音质量要尽量高,那么其它两个基本属性就不能再 苛求。总之,语音编码研究的基本问题就是在给定编码速率的条件下,尽可能好 的重建语音质量,并保证尽可能小的编码延时和算法复杂度。 1 2 1 语音质量 重建语音信号的质量是语音编码器的重要属性之一。我们总是希望重建语音 信号与输入语音信号越接近越好。但是如何评价语音质量是一个很困难的问题, 至今还没有找到一种客观的评价方法能很好地将各种语音编码器的质量和输入 语音信号联系起来j 。 语音编码质量的评价方法分为两类:客观评价方法和主观评价方法1 4 】。客观 评价法建立在重建语音波形与输入语音波形匹配的基础上,用客观测量的手段来 评定语音编码质量,但它并不能反应人耳主观听觉的感知特点。 主观评价法是根据人们主观听觉对语音质量进行评价,可能重建语音波形与 输入语音波形表面上可以看出差别,但是入耳却昕不出来。一般,低速率编码采 用主观评价法。 1 2 2 编码速率 语音编码采用编码速率来表示对语音信号的压缩程度,即编码器每秒所用的 比特信息,单位是比特秒( b s ) 。编码速率越大则压缩程度越小。 通常语音质量与编码速率成正比,即编码速率越高,语音质量越好。语音编 码从传输速率的角度可以划分为5 大类:高速率( 3 2 k b p s 以上) 、中高速率 ( 1 6 k b p s 3 2 k b p s ) 、中速率( 4 8k b p p l 6 k b p s ) 、低速率( 1 2 k b p s 4 8 k b p s ) 和极低速率( 1 2 k b p s 以下) 。当语音编码速率比较低时,编码器对语音的压缩比 较严重,语音质量相对差,可能引入一些金属声、蜂鸣声或噪声,语音质量从低 到高的排列是:合成质量,通信质量,长话质量和广播质量。 第l 章绪论 1 2 3 算法复杂度 语音编解码算法的复杂度分为时间复杂度和空间复杂度,时间复杂度用每秒 执行的基本计算操作次数来估算,即用m o p s ( 每秒百万次操作) 来表示。空间 复杂度通常用千字( k w o r d s ) 或千字节( k b ) 来表示。算法复杂度与计算机硬件 的实现密切相关,目前,许多语音编解码算法都采用d s p 芯片来实现。算法复 杂度越高,所需的d s p 芯片的速度就越快,存储区容量就越大,成本也就越高。 所以,为了减低成本,需要尽量减小算法复杂度。 1 2 4 延时 在语音通信系统中,延时是一项评价语音编解码器的重要性能指标【4 1 。如果 在通信系统中延时过长,用户就会明显感觉到话音滞后、停顿或者通话不连续, 给用户带来很大不便。为了保证正常通话,当总延时很大时,一般采用回波抵消 和回声抑制等方法。 1 3 低速率语音编码 早在2 0 世纪3 0 年代末期,语音编码技术的研究就已经开始。而近十几年来, 在数字通信和计算机技术的强力推动下,语音编码技术得到广泛的应用,由此形 成了比较完善的理论和技术体系。具体表现为,当今世界上存在着数量众多的语 音编码的国际标准和地区性标准,并且该领域已成为国际标准化工作中最为活跃 的研究领域之一。最早提出的语音编码标准是数码率为6 4 k b p s 的p c m 波形编 码器【5 1 ,而在2 0 世纪9 0 年代出现了很多被广泛使用的语音编码国际标准,例如: q 7 2 3 1 、g 7 2 9 、m p e g l m p e g 4 等。 语音编码从传输速率的角度可以划分为5 大类,编码速率在1 2 k b s q 8 k b s 之间的称为低速率语音编码,下面介绍几种常用的低速率语音编码模型。 1 3 1 多带激励语音模型 1 9 8 8 年,美国麻省理工学院( m i t ) 林肯实验室提出了多带激励( m u i t i b a n d e x c i t a t i o nc o d i n g ,m b e ) 语音编码方案。m b e 编码器是一个不用预测残差的完 全的参数语音编码器。与传统声码器相比,主要差别在于激励信号的表示方法不 同。它没有采用二元激励模型,而是按照基音各谐波频率,将每帧语音谱划分为 不同的频带,对每个频带作清浊判决,然后根据各频带是清音还是浊音,在解 码端使用不同的激励信号产生器合成信号,最后将各频带信号相加产生全频带合 成语音【6 1 。在2 似8k b p s 速率上能合成出质量比传统声码器好得多的语音,具 有较好的自然度和容忍背景噪声的能力【5 j 。 北京丁业大学t 学硕士学位论文 1 3 2 混合激励线性预测模型 混合激励线性预测( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ,m e l p ) 编码器是由 亚特兰大佐治亚州理工学院的a v :m e c r e e 博士提出川。它在传统的二元激励l p c 模型的基础上进行改进,采用了混合激励、非周期脉冲、脉冲散度和自适应谱滤 波四项新技术,产生了更自然的语音,同时对背景噪声也具有坚韧性。另外, m e l p 计算负载小,可用现有的d s p 实时实现,功率消耗低,具有可移植性【l 】o 1 3 3 正弦变换编码模型 最早的正弦编码器( s i n u s o i d a lt r a n s f o r i t lc o d i n g ,s t c ) 由美国麻省理工学 院的林肯实验室发明【引。s t c 基于分析合成系统,用一组幅度、频率和相位表 征的正弦波的叠加作为激励信号,这些参数可以用一个简单的峰值检出算法从短 时傅立叶变换中推出。当s t c 用于低速率语音编码时,正弦波的频率被限制在 基音频率的整数倍上,分析端仅传输正弦波的幅度信息,相位信息在合成端采用 最小相位模型生成,这样可有效的降低编码速率。正弦模型方法对于低速率语音 编码是一个主要的趋势【l 】。 1 3 4 波形内插编码模型 1 9 9 1 年瑞典皇家理工学院的k l e i j n 教授提出了典型波形内插( p r o t o t y p e w a v e f 0 咖i n t e r p o i a t i o n ,p w i ) 语音编码算法【引。p w i 以慢渐变的基音周期波形 为基础,从激励信号中每隔2 0 m p 3 0 m s 提取一个基音周期作为典型波形编码输 出,在合成端通过线性插值得到其它基音周期段的激励信号,合成的激励信号通 过线性预测合成滤波器得到重建语音。p w i 在3 o 4 0 k b p s 可获得好的重建语音 质量,但它仅适用于浊音语音,清音语音还需用其他方法( 如c e l p ) 来编码。 为了改进编码系统,k i e i i n 教授又提出了特征波形( c w ) 分解语音编码算法, 称为波形内插( w a v e f o r mi n t e r - p o i a t i o n ,w i ) 语音编码算法。该方法将语音信号 表示为在残差域渐变的特征波形,用f i r 低通滤波器将c w 分解为慢渐变波形 ( s l o w l ye v o l v i n gw a v e f o n n ,s e w ) 和快渐变波形( r a p i d l ye v o i v i n gw a v e f o 咖, r e w ) ,对这两种波形分别编码。该方法避免了清浊判决带来的影响,适用于所 有语音段【l ,9 ,l0 1 。 1 4 传统的特征波形分解方法 1 4 1f i r 低通滤波 这种方法是传统w i 算法中特征波形分解采用的方法,在给定相位下,沿时 第1 章绪论 间轴进行傅立叶变换,可以得到一个特征波形的渐变频率谱,在这个渐变谱中, 浊音语音的绝大多数能量都集中在2 0 h z 以下,因此特征波形的分解可以通过简 单的线性滤波来实现【9 】: “( f ,) 一二维波形表面; :凸 “艇( f ,矽) 一一快渐变波形表面; ” 甜距( ,矽) 一一慢渐变波形表面 办。p ( 朋) m 低通滤波器单位脉冲响应 则 材( f ,) = 材胜( f ,妒) + “距( f ,) ( f ,矿) :兰办( 聊眺。,矽) 1 一l 这种方法简单容易实现,但低通滤波需要额外的一帧延时:另外滤波器系数 太少,造成较长的过渡带,对于浊音语音影响并不是很大,而对于清音语音分解 后的s e w 的能量可能偏大,造成低频噪声。 1 4 2 小波分解 在波形内插语音编码算法中,针对特征波形分解,文献【1 6 】提出了一种基音 同步小波变换分解( p s w t ) 的方法。在渐变域通过正交镜像滤波器组来实现基 音同步小波变换分解特征波形,得到一系列不同分辨率的波形表面。因为不同波 形表面具有不同的感知特性,根据编码速率等的需要,对不同波形表面参数进行 不同的编码、量化方案,实现灵活、高效的编解码处理。p s w t 三层分解是比较 常用的小波分解方法。 为了保证良好的分解、重建性能,必须采用正交或双正交小波,正交小波的 优点是设计简单,但缺少对称性,具有非线性相位。最后,从双正交样条小波系 中选择了f i r 双正交小波函数,具有对称性和线性相位引。 小波分解比传统的w 1 分解方法在参数量化上提供了多分辨率特性,可以满 足多种质量期望的需求。小波分解通过滤波器组实现,随着分解级数的增加,分 解精度增加,但是延时也加大,单级分解需要7 个样点延时,更高阶的双正交小 波基需要更高的延时。 1 4 3 奇异值分解 设彳掣”p 0 ) ,彳彳的特征值为a 五4 4 + l = = 丸= 0 ,则 称q = 石( ,= l ,2 ,刀) 为a 的奇异值,存在m 阶酉矩阵u 和n 阶酉矩阵v ,使 北京工业大学t 学硕士学位论文 得c ,彳矿:f ,0 1 其中,= 讲昭( q ,盯2 ,q ) ,而q ( f = l ,2 ,) 为a 的 l oo 非零奇异值,将上式改写为彳:u f , o1 y 称之为a 的奇异值分解【朋。 l oo 文献【5 】提出了一种基于奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 的特征波形分解方法,减少了算法的延时,提高了分解精度。首先,为了降低计 算复杂度,将c w 的幅度谱分块处理,分成基本矩阵、过渡矩阵和补充矩阵。其 次,对基本矩阵进行s v d ,按照编码比特数的要求由近似矩阵表示;对过渡矩 阵采用离散余弦变换( d c t ) 近似表示;对补充矩阵通过计算各列均值粗糙表示。 奇异值分解方法不需要额外的延时,且由不同个数的奇异值可以多尺度的重 构波形表面,但对矩阵分解的计算复杂度较高,不太适于实时处理。 1 5 研究内容和目标 本文针对现有实验室用n m f 来分解波形内插语音编码器中的特征波形的幅 度谱中存在的问题,结合语音感知特性改进现有n m f w i 编码器模型。本文工 作的开展是以课题组的前期研究成果1 8 ,2 4 ,4 5 ,4 6 1 为基础的。其中,前期研究成果包 括:首次提出将非负矩阵分解应用到特征波形分解中,并建立了基于非负矩阵分 解的特征波形分解模型,去掉了传统w i 编码器中特征波形的对齐模块,对c w 按照其最大子帧基音周期进行分类,提出了分带初始化思想,并对编码矩阵采取 分裂式矩阵量化。这些前期的成果为本文的深入研究提供了丰富的理论依据和实 验数据。 本文的研究目的是在原有n m f w i 模型的基础上,改进模型,使模型的语 音质量不下降,但复杂度远远降低。 本文的研究工作是在北京市教委科技发展项目、国家自然科学基金和北京市 自然科学基金的资助下开展的。围绕着基金项目的课题要求,本文所做的主要研 究内容如下: 1 通过阅读国内外文献,了解波形内插语音编码和非负矩阵分解的发展现 状,并深入理解和掌握波形内插的基本思想和非负矩阵分解的基本原理,编解码 器的原理以及各参数的量化方法。 2 实验多种非负矩阵分解及其改进算法,通过分析比较,找到适合语音特征 波形的非负矩阵分解方法。 3 实验多种非负矩阵分解的初始化方法,并且针对语音特征波形的特点提出 了一种基于m e l 刻度的分带初始化算法。 4 考虑语音的基音周期的分布规律,提出对语音特征波形进行不均匀分类。 第l 章绪论 5 在非负矩阵分解中,采用多种方法解决分解阶数的选择问题。 6 针对原n m f w i 编码器采用固定相位合成方法,合成语音引入了蜂鸣声 的缺点,本文分别从传输相位和不传输相位两个方面入手,研究了相位的重建问 题。 7 基于上述改进技术,提出了一种2 k b s 低复杂度语音编码算法,并与 2 1 6 k b s 相位散布量化的n m f w i 语音编码算法进行比较。 1 6 论文结构 本文将主要介绍对n m f w i 编码算法中关键技术的研究和相位的合成方法。 第一章是全文的绪论,主要介绍了语音压缩编码的意义,语音编码的主要属性, 低速率语音编码模型,传统特征波形分解方法和本文的研究内容和目标。 第二章介绍了课题组前期的研究成果,基于非负矩阵分解的c w 分解方法, 分别从非负矩阵分解的背景、基本原理和参数选择方面入手。 第三章是本文的重点,介绍了模型中的一些关键技术。 第四章介绍了编码矩阵的量化和相位的合成方法。 第五章整合前几章的主要研究成果,给出了2 k b p sn m f w i 编码器整体结构 以及算法的性能评价;最后进行全文总结和对未来研究的展望。 第2 章基于非负矩阵分解的c w 分解 第2 章基于非负矩阵分解的c w 分解 波形内插( w a v e f o r n li n t e r p o l a t i o n ,w i ) 语音编码模型作为当今最具潜力的 低速率语音编码方案之一,因其良好的性能,越来越受到人们的重视i lj 。波形内 插语音编码算法根据语音信号的特点,通过采样与内插保证了语音的周期性和连 续性,得到了较高质量的重建语音。特征波形分解是波形内插编码算法中的核心 部分,特征波形分解的好坏直接影响整个编码器的性能。因此改进特征波形的分 解方法是改善w i 编码模型的关键。 2 1 背景概述 自从瑞典皇家理工学院的w b k l e i j n 博士分别于1 9 9 1 年和1 9 9 4 年,先后 提出原型波形内插【i i - 1 3 】和特征波形内插【1 4 - 1 5 1 语音编码方案以来,比较有效的特征 波形分解方法主要有以下三种:线性相位低通滤波、小波分解、奇异值分解,在 第一章已有介绍,现对其优缺点进行比较,如表2 一l 。 表2 。l 特征波形的传统分解方法优缺点比较表 分解方法优点缺点 分解精度差 线性相位低通滤波分解简单相关性没有完全去除 有1 帧延时 分解与量化的复杂度高 小波分解多分辨率分析 延时比较大 完全去除分量间相关性 奇异值分解计算复杂度过高 可升级性 从表2 一l 容易看到,传统的分解方法很难在分解精度、计算复杂度、延时这 三个指标上达到统一,为此本实验室已经有人【l8 】提出了一种新的c w 分解方法一 一非负矩阵分解( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f ) ,并且,在此基础上 提出了基于非负矩阵分解的波形内插( n m f w i ) 编码器。 非负矩阵分解是一种基于“局部构成整体”思想的分解方澍1 9 五0 1 。n m f 最初 是由d d l e e 和h s s e u n g 两位科学家于1 9 9 9 年在一篇题为“l e a m i n gt h ep a n s o f o b j e c t sb yn o n n e g a t i v em a t r i xf a c t o r i z a t i o n 的文章中提出来的。这篇论文以 生理学和心理学为研究背景,以数学推演为研究手段,首先引述了此前生理学家 和心理学家的一个重要科学发现,即人类大脑对于事物的感知是基于“部分 ( p a r t s ) ”而非“整体”的。然后在此背景下提出了一个重要的研究课题,即如 何通过机器学习来模拟人类大脑找到事物的“p a r t s ”。l e e 和s e u n g 在文中提出 了一套算法,即非负矩阵分解,并通过实验发现了人脸图像的局部结构以及文本 北京工业大学工学硕士学位论文 内容的语义要素【l 引。 非负矩阵分解是一种新的矩阵分解方法,它是通过使误差函数最小,寻找两 个低秩的非负矩阵,将一个高维的非负矩阵分解为两个低维非负矩阵的乘积的形 式,从而达到数据压缩的目的。自从标准n m f 算法提出以来,针对标准n m f 客观 存在的缺点,学者提出了许多改进算法,这些算法选择的代价函数不同,从而对 基矩阵和编码矩阵的迭代算法就不一样。l in 【2 1 】提出了投影倾斜边界限制最优算 法,此算法在计算复杂度上具有竞争力,并且比标准n m f 算法的乘法迭代更新有 更好的收敛性能。g o n z a l e z 和z h a n g 【2 2 】提出改进内部梯度下降法,来提高标准 n m f 算法的收敛速度。z d u n e k 和c i c h o c k i 【2 3 】提出利用准牛顿最优算法,来更新 基矩阵和编码矩阵,出现的负值用一个极小的正值代替,此算法提高了收敛速度, 但是以增加每步迭代的计算时间作为代价。 非负矩阵分解已成功地应用于图像处理,生物医学工程和化学工程等领域, 但是还没有学者把n m f 技术成功地应用于语音压缩编码。所以如何将n m f 方法结 合语音感知特性,应用到语音编码中,并且产生令人满意的语音质量就成了一个 极具挑战性的研究课题。本实验室首次尝试将其用于波形内插编码器的特征波形 分解模块【2 4 1 ,下面对其原理进行较详细的介绍。 2 2 非负矩阵分解的基本原理 2 2 1 基本思想 非负矩阵分解的基本思想是:对于任意给定的一个非负矩阵,n m f 算法能 够找到两个非负矩阵,使这两个矩阵的乘积近似等于给定的矩阵。由于分解前后 的矩阵中仅包含非负的元素,因此,原矩阵中的列向量可以解释为对左矩阵中所 有列向量的加权和,而权系数为右矩阵中对应的列向量中的元素,分解的左矩阵 称为基矩阵( b a s i sm a t r i x ) ,右矩阵称为编码矩阵( c o d i n gm a t r i x ) 。 n m f 可以用下面的公式简单表示:已知非负矩阵v ,寻找适当的非负矩阵 w 和h ,使其满足: v w h( 2 1 ) 其中,v 为给定的,2 维数据向量的集合v 尺”,掰为数据样本个数,w 为基矩 阵w r ”7 ,列矢量称为基矢量,表征数据集的基本特征,整个数据集合v 都是 由这些基矢量线性组合而成,组合系数是对应的编码矩阵h 仨尺州”,它的列向量 称为编码矢量,为分解阶数,为了达到数据压缩的目的,d d l e e 和h s s e u n g 【1 9 】 建议厂的选取满足( 肌+ ,? ) , 所以,这样分解后的矩阵w 和h 的维数都将小于原矩 第2 章基于非负矩阵分解的c w 分解 阵v 。 2 2 2 代价函数 为了评价非负矩阵分解的性能,首先需要定义一个评价n m f 分解好坏的测 度,也叫代价函数( 也称“目标函数”) ,即待分解的矩阵与分解后得到的两个矩 阵的乘积的相似程度,l e e 和s e u n g 提出了两种代价函数【j 9 j 。 代价函数l :欧氏距离 i v w h 0 2 2 吾( v 扩一( w h ) ) z ( 2 2 ) 当且仅当v = w h 时,上式为零。 代价函数2 :k l 散度 , v、 以w f 州2 护0 8 商一w 洲 j 协3 , 类似的,当且仅当v = w h 时,上式为零。 非负矩阵分解可以视为一个优化问题,代价函数是输入矩阵与基矩阵和编码 矩阵的乘积之差,n m f 的目标就是寻找使代价函数最小的基矩阵和编码矩阵。 2 2 3 迭代规则 在w 和h 矩阵非负的条件下,最小化0 v w h i l 2 或者d ( v0 w h ) ,得到两种迭 代规则。基于欧氏距离最小化l l v w h i l 2 的非负矩阵分解( n o n n e g a t i v em a t r i x f a c t o r i z a t i o nb a s e do ne u c l i d e a nd i s t a n c e ,e 小心仃) 算法和基于k l 散度最小化 d ( v0w h ) 的非负矩阵分解( n o n n e g a t i v e m a t r i xf a c t o r i z a t i o nb a s e do n k u i i b a c k l e i b i e rd i v e r g e n c e ,k n m f ) 算法的迭代规则如下: 规则l :基于9 v w h 0 2 的迭代规则: f w lf 7 1 h 掣掣随 随 。4 、 ,口尉 、 ,硒 规则2 :基于d ( v0w h ) 的迭代规则: h 卜k 型婴w 一,娑娼 ( 2 _ 5 ) 掣掣。以职巩 一 北京工业大学工学硕士学位论文 文献 2 0 证明了这两个迭代规则的收敛性。 2 3 特征波形的非负矩阵分解 在w i 语音编码器中,残差信号通过傅氏级数表示得到非负的幅度谱,特征 波形沿相位轴展开、沿时间轴渐变,一维残差信号转变成非负的二维特征波形幅 度谱矩阵,即满足非负矩阵分解的非负矩阵条件。 2 3 1 幅度谱矩阵的n m f 表示 假设处理以埘维的c w 幅度谱矩阵,用。,表示,该幅度谱矩阵的各个元素 都是非负值,表示为v 2 0 ,对矩阵k 。进行线性分解,用下式表示: v j 朋w :,h ,小( 2 6 ) 其中,为基矩阵,h ,m 为编码矩阵,为分解阶数,非负矩阵分解要求基矩 阵和编码矩阵也都非负,即w oh o 。如果假设1 ,和| i l ,分别是矩阵w 和h 所对 应的列向量,则公式( 2 6 ) 还可以表示为:v ,z w ,因为c w 幅度谱矩阵的每 ,j 一个列向量表示一个c w 的幅度谱,也就是说,每一个c w 的幅度谱可近似的看成 基矩阵的列矢量的非负线性组合,组合系数是厅;的分量,即每一个c w 的幅度谱 可近似的看成基矢量的非负线性组合,组合系数是编码矢量。除了非负性之外, n m f 还有一个更加直观的解释,即w 的每一列都在某种程度上表示一个局部特 征,称其为“基”,对于c w 的n m f 分解来说,每一个c w 的幅度谱都是由基矢量 加性组成。这就是n m f 的直观的“局部构成整体 的概念。 2 3 2c w 的分类 在波形内插语音编码器中,特征波形的长度随着基音周期的变化而变化,基 音周期的长度范围是2 0 1 2 0 ,相应地,特征波形的维数在1 0 6 0 之间变化。为 了提高分解精度,必须将c w 进行分类,在原n m f w i 模型n 8 1 中,根据基音周期将 特征波形分为9 类。 具体的特征波形分类方法为:首先取该帧特征波形1 0 个子帧的最大基音周 期,然后前8 类以步长值为1 0 来划分,即把最大子帧基音周期在2 0 至3 0 之间的特 征波形分为第l 类,最大子帧基音周期在3 0 至4 0 之间的c w 分为第2 类,依此类推。 第2 章基于非负矩阵分解的c w 分解 最后把最大子帧基音周期在1 0 0 至1 2 0 之间的c w 分为第9 类。分类的结果如表2 2 。 这种将c w 进行均匀分类的方法没有考虑到语音信号的基音周期的分布特点, 结果对某些基音周期的区域处理效果好一些,而对一些基音周期密集区域的语音 信号的处理较差,所以,应充分考虑语音信号的特点,并对其高效压缩。 表2 2c w 分类表 第l 类第2 类第3 类 2 0 p i t c h 3 03 0 p i t c h 4 04 0 p i t c h 5 0 第4 类第5 类第6 类 5 0 p i t c h 6 06 0 p i t c h 7 07 0 三驴i t c h 8 0 第7 类第8 类第9 类 8 0 p i t c h 9 09 0 p i t c h l o o1 0 0 p i t c h 5 1 2 0 2 3 3 初始化 d d l e e 和h s s e u n g 两位科学家在提出非负矩阵分解算法时,采用的是 随机初始化的方法,即:将编码矩阵和基矩阵都随机化为小于1 的非负值。然后, 通过迭代,得到满足条件的基矩阵。 文献 1 8 从语音频谱的“部分”概念入手,提出了基矢量的分带初始化的思 想,但是这种分带方法是均匀分带。具体来说就是基矢量在一个特定的频带内( 以 下称其为“有效频带”) 初始化为随机的正数,而其他的频带都初始化为零值。 另外,各基矢量的有效频带的带宽都基本相等,并且相邻基矢量的有效频带相互 叠接。这种均匀分带初始化方法考虑到了c w 幅度谱的谐波特性,但是均匀分带 没有充分考虑c w 幅度谱在各个频带的分布规律,例如,语音信号的低频携带更 多的可懂度信息,而高频主要携带语音信号的音色信息,在低速率语音编码中, 由于比特数有限,应着重考虑c w 幅度谱的低频。 2 3 4 分解阶数的选择 非负矩阵分解是一种矩阵降维的方法,但是维数降到多少才合适呢? 既可以 达到分解精度的要求,计算复杂度又不会太大。这就是一个分解阶数的选择问题。 l e e 和s e u n g 在文献 1 9 中建议分解阶数尹应该按照( 聊+ 拧) r 掰挖的原则来选 取,其中刀,历依次是待分解矩阵的行、列维数。 文献 1 8 给出了c w 平均“重建误差”随着分解阶数增长的变化曲线,如图2 1 所示,采用的非负矩阵分解算法为e n m f ,初始化算法为随机初始化,这里的“重 建误差 就是( 2 2 ) 式所示的欧氏距离。从图中可以看出,重建误差与分解阶 数基本呈线性关系,重建误差随着分解阶数的增加而减小。根据实际分解精度的 需要,可以选取不同的分解阶数。对n m f w i 模型而言,分解阶数越大,得到的编 北京工业大学工学硕士学位论文 码矩阵越大,计算复杂度越高。在折衷考虑分解精度和计算复杂度的影响后,选 取分解阶数为1 6 。但是这种确定分解阶数的方法从实验而来,缺乏理论依据。 2 4 本章小结 分辩阶截 图2 1 不同分解阶数的c w 平均重建误差【1 8 】 本章主要对课题组已有的研究成果进行介绍,首先,简要介绍了非负矩阵分 解的背景,然后,对l e e 和s e u n g 提出的标准非负矩阵分解,从基本原理、代价 函数、迭代规则等方面进行了较详细的介绍,最后,对于影响语音特征波形的非 负矩阵分解的因素,例如:分解阶数、c w 分类和初始化等进行分析,发现了一 些改善n m f w i 编码性能的问题,为后面章节针对性的算法改进奠定了基础。 第3 章非负矩阵分鳃c w 的关键技术 3 1 概述 第3 章非负矩阵分解c w 的关键技术 目前,利用矩阵分解来解决实际问题的方法很多,例如:主分量分析( p r i n c i p a i c o m p o n e n t sa n a l y s i s ,p c a ) ,独立分量分析( i n d e p e n d e n tc o m p o n e n t sa n a l y s i s , i c a ) ,奇异值分解等,这些都是一些经典的方法。在所有这些方法中,输入矩 阵被分解为两个低秩矩阵乘积的形式,通过编码分解的小矩阵来表示输入矩阵, 达到数据压缩的目的。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出版业的生产流程管理考核试卷
- 锡冶炼中的废物资源化考核试卷
- 金属制品在建筑D打印中的材料研发考核试卷
- 防晒伞结构与性能考核试卷
- 妇产科手术麻醉
- 卫生间空间功能自我分析
- 医院民生实事工作专题汇报
- 诊断学基础:肝脏疾病
- 麻醉科业务培训体系
- 传染病预防控制体系构建
- 2022年江西南昌高新技术产业开发区人民检察院聘用制检察辅助人员招聘考试真题
- 小学安全隐患排查表
- 测控电路课程设计报告-信号采集调理电路的设计【完整版】
- 银行业法律法规与综合能力经济基础知识课
- 套管开窗侧钻技术
- 2023-2024学年山西省长治市小学语文五年级期末模考题详细参考答案解析
- 淘宝客服销售技巧-客户分析
- 现代物流管理(第三版-钱廷仙)课件3.物流成本核算特点与内容
- 混凝土结构下册第章钢筋混凝土框架结构设计
- 江西师范大学师范类教育心理学期末考试答案
- 小区燃气壁挂炉采购及安装合同
评论
0/150
提交评论