(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf_第1页
(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf_第2页
(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf_第3页
(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf_第4页
(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机科学与技术专业论文)基于npc和改进的mfcc鲁棒语音特征提取研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h er e s e a r c ho fr o b u s ts p e e c hf e a t u r e se x t r a c t i o nb a s e do nn p c a n di m p r o v e dm f c c b y h ul i a n b s ( h u n a nu n i v e r s i t y ) 2 0 0 7 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g l n c o m p u t e rs c i e n c ea n dt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r p r o f e s s o rz h a 0h u a n m a y ,2 0 1 1 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:娟 日期:叫1 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密i 、,l 。 ( 请在以上相应方框内打“v ”) 作者签名: 导师签名: 镧好 专乞 日期:砂l1 年t - 7 , 9 一日 日期:加,f 年上月弦日 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 摘要 语音识别在实验室环境中已取得了令人满意的效果,但当运用到实际环境时 却往往出现识别率显著下降的情况,如何提高噪声环境下的语音识别鲁棒性是当 今语音识别研究中最为重要的问题。本文针对语音识别前端处理中的鲁棒性语音 特征提取技术展开研究,分别从时域和频域两个方面出发,并结合人类发声特点 和人耳听觉特性对已有的特征进行改进,提出了两种具有较好鲁棒性的语音特征 提取方法。 首先,本文提出采用神经网络进行非线性预测的时域特征提取方法,针对神 经网络预测存在大量待估计参数的问题,通过线性预测方法中的最小均方误差原 理,减少了估计参数的数目,实现了鲁棒性较高的特征提取。实验表明,在多种 信噪比下,与线性预测编码系数( l i n e a rp r e d i c t i v ec o d i n g ,l p c ) 和梅尔频率倒谱 系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,m f c c ) 特征相比有更好的鲁棒性。 其次,针对传统m f c c 的离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ,d c t ) 在 语音信息表达方面存在的缺陷,采用具有更好表征能力的独立成分分析法 ( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 对离散余弦变换进行替换,提出了一种新 的特征提取方法。实验表明,新的提取方法显著增强了改进后特征对语音特性的 表达能力,在相同信噪比下比传统m f c c 特征具有更好的鲁棒性;同时,为减少 识别中出现的插入错误,引入了h e r m a n s k y 提出的相对谱滤波技术,实验结果表 明,与传统m f c c 及i c a 改进的m f c c 相比,结合相对谱滤波技术的新方法显 著减少了插入错误,且保持较高的词识别率;与传统感知线性预测( p e r c e p t u a l l i n e a rp r e d i c t i v e ,p l p ) 及相对谱滤波改进的p l p 相比,词识别率提升很多且去除 插入错误的词识别率相差很小。 关键词:语音特征提取;非线性预测:b p 神经网络;i c a 变换;r a s t a 滤波 硕上学位论文 i i a b s t r a c t s p e e c hr e o g n i t i o nh a sa c h i e v e ds a t i s f a c t o r yr e s u l t si nl a b o r a t o r y ,h o w e v e r ,w h e n a p p l i e dt ot h er e a l i t yw o r l d ,i t sr e c o g n i t i o nr a t eo f t e nd e c l i n e sd r a s t i c a l l y h o wt o i m p r o v e t h er o b u s t n e s so f s p e e c hr e c o g n i t i o ns y s t e m ,u n d e r d i f f e r e n tn o i s e e n v i r o n m e n t s ,i so n eo ft h em o s ti m p o r t a n ti s s u e s i nt h er e s e a r c ho n s p e e c h r e c o g n i t o n t h i sp a p e rm a i n l yf o c u s e do nt h er o b u s t n e s so ft h ef r o n t e n dp r o c e s s i n g i ns p e e c hr e c o g n t i o n s p e e c hf e a t u r e se x t r a c t i o n t h r o u g ha n a l y z i n gt h ee x s i s t e d f e a t u r e sf r o mb o t ht h et i m ea n df r e q u e n c yd o m a i n ,a n dc o m b i n i n gw i t ht h e c h a r a c t e r i s t i c so ft h eh u m a nv o i c ea n d a u d i t o r yp r o p e r t i e s ,t w o k i n d sf e a t u r e e x t r a c t i o nm e t h o d sw e r ep r o p o s e dw h i c hp o s s e s sb e t t e rr o b u s t n e s s f i r s t l y ,an e wn o n l i n e a rf e a t u r ee x t r a c t i o nm e t h o dw h i c ha d o p t e da c c u r a c y a r t i f i c i a ln e u r a ln e t w o r ki n s t e a do ft r a d i t i o n a ll i n e a rp r e d i c t i o nm e t h o dw a sp r o p o s e d u s i n gt h et h e o r yo fm i n i m u mm e a ns q u a r e de r r o rt h a ti su s e db yal i n e a rp r e d i c t i o n m e t h o d ,t h es u mo ft ob ee s t i m a t e dp a r a m e t e r sw h i c hw a sv e r yl a r g ei nt h ea r t i f i c i a l n e u r a ln e t w o r kr e d u c e s g r e a t l y a n d h i g h e r r o b u s t n e s si sa c h i e v e d e x t r a c t i o n e x p e r i m e n t ss h o wt h a t ,i nd i f f e r e n tn o i s el e v e l ,t h en e wf e a t u r eh a sb e t t e rr o b u s t n e s s t h a nl i n e a rp r e d i c t i v e c o d i n g ( l p c ) a n dm e l f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ( m f c c ) s e c o n d l y ,f o rt h ed i s c r e t ec o s i n et r a n s f o r m ( d c t ) ,w h i c hi sas t a g eo ff e a t u r e s e x t r a c t i o nf o rt r a d i t i o n a lm f c c ,i sd e f e c t i v ei nr e p r e s e n t i n gv o i c ei n f o r m a t i o n ,an e w f e a t u r ee x t r a c t i o nm e t h o du s i n gi n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) m e t h o dw h i c h p o s s e s s e ss t r o n ga b i l i t yi nr e p r e s e n t i n gs p e e c hc h a r a c t e r i s t i c si n s t e a do fd i s c r e t e c o s i n et r a n s f o r mw a sp r o p o s e d t h et e s tr e s u l t ss h o wt h a t ,u n d e rt h es a m es i g n a lt o n o i s er a t i o ( s n r ) l e v e l ,t h ef e a t u r ee x t r a c t e dm e t h o du s i n gt h en e wm e t h o da c h i e v e s b e t t e rr o b u s t n e s st h a nt h a to ft h et r a d i t i o n a lm f c cm e t h o d f u r t h e rm o r e ,i no r d e rt o r e d u c et h ei n s e r t i o n e r r o ri n s p e e c hr e c o g n i t i o n ,t h e r e l a t i v es p e c t r a ( r a s t a ) f i l t e r i n gt e c h n o l o g yp r o p o s e db yh e r m a n s k y :w a si n t r o d u c e d t h et e s tr e s u l t ss h o w t h a t ,c o m p a r e d w i t ht h et r a d i t i o n a lm f c ca n dm f c c i m p r o v e db y i c a t r a n s f o r m a t i o n ,t h en e wm e t h o dw h i c hc o m b i n ei c at r a n s f o r m a t i o nw i t hr a s t a t e c h n i q u e ,n o to n l yr e d u c e sm o r ei n s e r t i o ne r r o r s ,b u ta l s oh a sl i t t l ei m p a c to nt h e w o r d sr e c o g n i t i o nr a t e ;c o m p a r e dw i t hp l pa n dp l pi m p r o v e db yr a s t af i l t e r i n g , t h en e wm e t h o da c h i e v e sh i g h e rw o r d sr e c o g n i t i o nr a t ew i t hl i t t l ed e c l i n ei nt h e 1 i i 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 i n s e r t i o ne r r o r s k e yw o r d s :s p e e c hf e a t u r ee x t r a c t i o n ;n o n l i n e a rp r e d i c t i o n ;b p a r t i f i c i a ln e u r a l n e t w o r k ;i n d e p e n d e n tc o m p o n e n ta n a l y s i st r a n s f o r m ;r e l a t i v es p e c t r a f i l t e r i n g 硕十学位论文 目录 摘要i i a b s t r a c t i i i 插图索引v i i 附表索引i - - - - - - - - - - - - - - - - - - - v i i i 第1 章绪论1 1 1 选题背景及研究意义。1 1 2 特征提取的国内外研究现状2 1 2 1 国外研究现状2 1 2 2 国内研究现状3 1 3 主要内容及结构安排4 1 3 1 主要内容4 1 3 2 文章结构:4 第2 章语音特征提取综述6 2 1 基于发声系统的特征提取6 2 1 1 线性预测编码系数6 2 2 基于听觉效应的特征提取9 2 2 1 梅尔频率倒谱系数:9 2 2 2 感知线性预测系数1 0 2 3 实验测试平台1 2 2 3 1 实验软硬件条件o :1 2 2 3 2 语音特征测评平台搭建1 2 2 4 小结。1 3 第3 章基于非线性预测的语音特征提取。1 4 3 1 人工神经网络的基础1 4 3 1 1b p 神经网络原理j 1 5 3 1 2b p 神经网络的缺陷。1 7 3 2 基于b p 神经网络的n p c 特征提取1 8 3 2 1 线性预测模型的缺陷1 8 3 2 2 基于神经网络的非线性预测1 9 3 2 3n p c 模型结构。1 9 3 2 4n p c 特征提取过程2 2 v 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 i l l l 3 3 实验方案与结果分析2 3 3 3 1n p c 特征提取实现方案2 3 3 3 2n p c 特征的鲁棒性评测2 5 3 4n p c 特征的特点2 8 3 5 小结。2 8 第4 章基于i c a 改进m f c c 的特征提取。2 9 4 1i c a 基础知识一2 9 4 1 1i c a 的严格数学定义j 2 9 4 1 2i c a 存在的问题2 9 4 1 3i c - a 模型中的独立3 0 4 1 4i c a 估计原理3 1 4 1 5 非高斯性度量函数。3 2 4 2f a s t l c a 方法估计l c a 模型3 4 4 2 1f a s t l c a 算法的预处理3 5 4 2 2f a s t i c a 算法的后处理。3 6 4 2 3f a s t i c a 算法3 7 4 3f a s t l c a 算法改进m f c c 特征3 7 4 3 1 传统m f c c 的缺陷。3 7 4 3 2f a s t l c a 算法带来的问题3 8 4 3 3 统一解混矩阵的i c a 变换3 9 4 3 4 对数能量和特征差分补充特征4 0 4 3 5 相对谱滤波技术4 1 4 3 6i c a 特征提取过程4 1 4 4 实验方案与结果分析:4 2 4 4 1i c a 特征提取方案4 2 4 4 2i c a 改进m f c c 的鲁棒性评测4 4 4 ! ;刀、 ;占4 8 结论4 9 参考文献:5 1 致谢5 5 附录a ( 攻读学位期间发表的学术论文) 5 6 附录b ( 攻读学位期间参与的科研项目) 。5 7 v i 硕上学位论文 插图索引 图2 1 语音信号的生成模型6 图2 2 频率与梅尔频率关系1 0 图2 3p l p 特征提取流程一1 2 图3 1 人工神经元1 4 图3 2 激励函数:。1 4 图3 3 三层前馈神经网络一1 5 图3 4 二元非线性函数的多极值点现象1 8 图3 5b p 神经网络结构1 9 图3 6n p c 特征提取过程2 3 图3 7n p c 特征提取结构2 4 图3 8n p c 模型训练过程2 4 图3 9 不同信噪比语音对应的神经网络2 6 图3 1 0 三种特征的词识别率2 7 图3 1 1 三种特征平均识别率2 8 图4 1i c a 分离对数m e l 滤波向量3 8 图4 2 统一解混矩阵获取4 0 图4 3i c a 变换获取语音特征4 0 图4 4 结合i c a 变换和r a s t a 滤波的m f c c 提取过程4 2 图4 5i c a 改进m f c c 特征提取方案4 3 图4 6 六种特征词识别率4 5 图4 7 六种特征去除插入错误词识别率4 6 图4 8 六种特征句子识别率4 6 图4 9 六种特征平均识别率4 7 图4 1 01 0 d b 以上各特征鲁棒性比对4 7 图4 1 11 0 d b 及以下各特征鲁棒性比对4 8 , v 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 附表索引 表3 1n p c 、l p c 和m f c c 的特征比较2 6 表4 1i c a + r a + m f c c 特征比较4 4 v m 基于n i c 和改进的m f c c 鲁棒语音特征提取研究 1 1 选题背景及研究意义 第1 章绪论 语音识别是实现人机交互的一项重要技术。所谓语音识别,就是通过机器将 人类的语音信号转换为文本输出或者命令执行。在近几十年研究中,识别的模型 取得了重要进展,上世纪7 0 年代,由日本学者板仓( i t a k u r a ) 和斋藤( s a k o e ) 提出了 著名的动态时间规整算法( d y n a m i ct i m ew a r p i n g ,d t w ) i 。这是一种非常好的 利用模版匹配进行语音识别的算法,几乎完美的解决了孤立词语音识别时的说话 速度不均的难题,使得语音识别研究进入了一个高潮。但对与非特定人和连续大 词汇量语音识别来说,这一方法失去了效果和效率,因为不同的说话人具有各自 的特点,相同的语句由不同的人说出来存在很大的区别,单纯用模板匹配的d t w 算法进行识别难于辨识,d t w 的所有计算过程均在识别时进行,这对大词汇量识 别的实时性带来不小的困难。为了解决非特定人识别和连续大词汇量识别问题, b a u m 等人建立了隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 理论,随后卡内 基梅隆大学的b a k e r 和i b m 的j e l i n k 等人将这种模型应用到语音识别中。h m m 将识别分为训练和识别两个阶段,使得识别阶段的计算量大大降低,且采用最大 概率输出的原则使得非特定人识别成为可能。 在实验室环境下h m m 等方法应用到大词汇量连续语音识别接近于完美,但 当处于实际环境中,因为复杂环境下各种噪声的严重干扰,使得语音识别的准确 度急剧下降。因此,如何提高语音识别在实际应用中的鲁棒性已成为目前研究的 一个热点和难点。 提高语音识别鲁棒性的途径主要有在三个方面:模型补偿、语音增强及鲁棒 性特征提取。华南理工大学韦岗团队对模型补偿的研究较多,且取得了不错的成 果,例如将单边自相关序列的方法应用到模型补偿中【2 】;在语音增强方面也有非 常多的研究,很多不同的方法被陆续提出来了,比如早期的谱减法1 3 j ,近些年来 的m m s e 方法【4 5 】,以及基于自适应滤波( 如小波分析) 等;在鲁棒性特征提取方面 进行的研究主要是通过对人类发声系统和人耳听觉效应的模拟来进行研究,比较 有代表性的特征提取方法是基于发声系统的线性预测系数( l i n e a rp r e d i c t i v e c o d i n g ,l p c ) 和基于人耳听觉效应的梅尔频率倒谱系数( m e l f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ,m f c c ) 的特征等。 目前语音增强的研究集中于前面提到的几个传统的方法,且这些方法的研究 已经比较成熟。模型补偿一般与识别系统后端相关,其研究的起点比较高,方法 硕t :学位论文 非常复杂,需要很深厚的信号分析等相关理论。对鲁棒性特征提取的研究相对较 少,而特征提取是语音识别前端处理的最后阶段,也是最关键的阶段,特征向量 选取的好坏直接影响到语音识别的效果,故本文选择鲁棒性特征提取作为研究方 向。 本课题来源于湖南省自然科学基金重点项目“基于嵌入式平台的自动语音识 别系统前端处理关键技术研究”( 1 0 j j 2 0 4 6 ) 。 1 2 特征提取的国内外研究现状 : 从上世纪8 0 年代开始,鲁棒性语音特征提取就备受关注,一些研究者致力于 鲁棒的语音特征研究,并取得一定的成果。 1 2 1 国外研究现状 国外对语音特征的研究一直很热,比如最早的l p c 特征,日本学者板仓最先 将维纳提出的线性预测方法应用到语音信号分析并得出l p c 特征,它是一种基于 人类发声系统模型的特征,该特征采用语音短时稳定性和采样点线性相关的假设, 并基于最小均方误差准则求解线性方程组获得,l p c 不仅可应用于语音识别,对 于语音编码和语音合成都有广泛应用。上世纪8 0 年代,特征提取研究开始摆脱发 声原理的线性预测模型朝着基于人耳听觉效应特性的方向发展,d a v i s 和 m e r m e l s t e i n 提出了m f c c 引,该特征基于人耳听觉效应,且这种特征不同于从时 域出发的线性预测系数,它是从频域方向进行发掘,将快速傅立叶变换引入了语 音信号处理中,语音特征从此慢慢集中于对人耳听觉效应的研究。上世纪9 0 年代, 美国语音研究大师h e r m a n s k y 提出了著名的感知线性预测( p e r c e p t u a ll i n e a r p r e d i c t i v e ,p l p ) 7 】,这是一种具有较高鲁棒性的语音特征,后来h e r m a n s k y 将一 种高效的滤波技术应用到感知线性预测特征中,使该特征的鲁棒性得到进一步提 升。m f c c 和p l p 都是通过对听觉频域上的处理来提取模仿人耳听觉效应的特征, 虽然两者的听域刻度有一定区别,但更大的区别在于m f c c 完全从谱分析角度进 行计算,而p l p 是利用一些时域预测原理进行计算。 m f c c 在后来的发展中有很多改进,在特征补偿方面,对倒谱系数通过计算 差分的方法捕获动态特征,并将差分作为m f c c 的补偿。对m f c c 特征提取过程 中的谱估计也提出过一些新的方法,m u r t h i 和r a o 将c a p o n 的最小无失真响应方 法应用到m f c c 的谱估计中,提出了采用最小无失真响应谱( m i n i m u mv a r i a n c e d i s t o r t i o n l e s sr e s p o n s e ,m v d r ) 替代传统采用傅立叶变换的功率谱【8 】,最小无失真 响应谱与传统的谱估计区别在于它要求设计一个满足无失真约束条件的f i r 滤波 器,使得指定频率的信号能无失真通过而其它频率信号会被最大程度的削弱,这 样的特点使得它能有效的去除加性噪音,并让正常的语音信号无失真的通过。在 2 基于n p c 和改进的m f c c 鲁捧语音特征提取研究 增强谱鲁棒性方面,澳大利亚格里菲斯大学的p a l i w a l 教授根据物理学上质心的 定义得出子带频率的质,心( s u b b a n ds p e c t r a lc e n t r o i d ,s s c ) ,并采用它对传统的功 率谱进行改进【引,因为s s c 在某种意义上代表了频谱中频峰的位置,且位于频峰 处的频谱一般具有较高的能量,对噪声有较好的鲁棒性能,若采用增强频峰处的 信号抑制并非频峰处的信号的方式将有利于整个特征鲁棒性的提高。对特征提取 的离散余弦变换方面,离散余弦变换缺陷是没有获得数据本身的相关信息,而是 采用一种固定的模式对信号进行处理,后来h e r m a n s k y 等人提出了采用数据驱动 ( d a t ad r i v e n ) 方式的特征提取研究【l o ,1 1 l ,后来有更人将独立成分分析等方法应用到 语音特征提取中来改进特征鲁棒性【1 2 l 。在谱分解方面,日本的i s h i z u k a 和n a k a t a n i 对语音子带的周期信息进行研究i ”l ,将语音功率谱产生子带谱分解为周期和准周 期的信号,在进行初步特征提取后再进行特征融合,实验结果显示出他们在降低 语音识别的错误率方面获得了很大的成功。 因为梅尔倒谱系数和感知线性预测等特征的广泛应用,使得人们几乎忽略了 传统的时域特征提取方法,但最近却兴起了时间序列分析的高潮,因为人们过于 重视频域的特征提取研究,以至于抛弃了语音中的一些重要特性,比如语音的非 线性特征,而时域特征能够挖掘语音的非线性特性,2 0 0 6 年法国的z a n u y 等人提 出了一种对传统线性预测编码进行改进的非线性预测编码技术1 1 4 , 1 5 】,他们主要是 利用目前广泛运用的神经网络对传统模型进行非线性预测,进而获得语音数据的 非线性特征。 1 2 2 国内研究现状 国内对语音特征提取进行研究的高校和机构主要有清华大学、北京大学、中 国科技大学、东北大学、山东大学、国立台湾大学和台湾中央研究院等院校和科 研机构。清华大学的郑方团队在语音特征提取方面跟踪格里菲斯大学p a i i w a l 教 授的s s c 研究方向,在此基础上进行一些改进,将前端特征提取和后端的隐马尔 可夫识别模型相结合进行研究i l6 1 。北京大学的甄斌等人开展了将h e r m a n s k y 用于 感知线性预测系数中的相对谱( r e l a t i v es p e c t r a l ,r a s t a ) 滤波技术运用到梅尔倒 谱频域【1 7 l ,并获得了一定的成功。中科大龙潜等人在谱估计方面开展深入研究, 他们借鉴国外m v d r 在语音谱估计方面的研究,提出了最小无失真响应谱和调制 谱滤波相结合的技术1 1 8 j 。东北大学的王安娜等人侧重于数据驱动在语音特征提取 中的应用,主要针对m f c c 数据驱动中主成份分析和线性判别分析的比较研究 【”l 。山东大学的刘琚等人则在m f c c 的离散余弦变换部分进行相关研究,首次将 独立成分分析法( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 引入到语音特征提取中 1 2 0 , 2 1 】。国立台湾大学及台湾中央研究院的j e i h w e i hh u a n g 和l i n s h a nl e e 在数据 驱动方面作了不少的研究( 2 2 , 2 3 l ,比较分析了线性判别分析和主成分分析用于数据 3 硕一 :学位论文 驱动特征提取时的鲁棒性。 1 3 主要内容及结构安排 1 3 1 主要内容 本文从时域和频域两方面对语音特征提取展开研究。从时域方面采用神经网 络的非线性预测方法,从频域方面则采用独立成分分析法分别对鲁棒语音特征提 取进行研究。非线性预测法是对传统基于线性预测的特征提取进行改进,采用神 经网络的非线性预测功能来捕获语音固有的非线性特性,从而达到提高语音特征 鲁棒性的目的。独立成分分析法则是对基准m f c c 提取过程中的离散余弦变换部 分进行替换,用独立成分分析法替换有缺陷的离散余弦变换,最终获得改进后具 有更高识别率的m f c c 特征。 开展研究过程中的相关工作: ( 1 ) 运用m a t l a b 工具编程实现了语音信号的预处理,包括语音信号的采集和 量化、语音预加重、语音信号的加窗和分帧处理、语音的短时能量和短时过零率、 语音的基音周期检测等内容; ( 2 ) 为采用神经网络对n p c 模型进行研究,学习了b p 神经网络知识,掌握 了m a t l a b 中b p 神经网络工具的计算流程,并结合实验要求对神经网络的计算流 程作了适当修改; ( 3 ) 认真分析了芬兰赫尔辛基理工大学h y v a r i n e n 教授提出的快速独立成分 分析法,并将这一方法运用到m f c c 的提取过程中;了解了俄勒冈大学教授 h e r m a n s k y 提出的p l p 方法及在这一方法中的相对谱滤波技术,并将相对谱滤波 技术运用到m f c c 特征提取中; ( 4 ) 掌握了由剑桥大学开发的语音识别工具h t k 使用方法,使用混合高斯模 型改进了以前单高斯模型方法,增强了识别的效果,运用h t k 工具搭建了一个 语音特征的识别效果评测平台。 1 3 2 文章结构 全文共分五部分,各章的主要内容为: 第1 章介绍了鲁棒性语音特征提取的研究背景与意义,鲁棒性特征提取的国 内外研究现状以及文章结构和内容; 第2 章分别对传统l p c 特征提取和基准m f c c 特征提取的原理与方法进行 了阐述及讨论,同时描述了p l p 特征的计算过程,着重分析了l p c 的特征提取 过程; 第3 章介绍了人工神经网络的原理及其在n p c 语音模型中的运用,采用参 4 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 数调整和参数编码的两阶段法实现了对语音特征的提取,在实验部分,通过实验 结果的比对表明了采用非线性预测编码比经典的l p c 及m f c c 特征有更好的鲁 棒性; 第4 章介绍了i c a 的相关概念和原理,描述了f a s t l c a 算法的计算流程, 提出了采用统一解混矩阵的方法改进m f c c 提取的方法,并结合差分补偿和相对 谱滤波进一步提高了识别的效果,实验结果表明该特征相比经典特征具有更强的 鲁棒性: 在最后结论部分,对全文进行了一个总结,并对未来语音特征提取方向进行 展望。 5 硕上学位论文 第2 章语音特征提取综述 本章主要介绍了一些经典的语音特征提取方法及评估语音特征鲁棒性的测试 平台。鲁棒语音特征提取方法主要有两大类:一类是基于人类发声系统的特征提 取,另一类是基于人耳听觉效应的语音特征提取,下面分别予以介绍。 2 1 基于发声系统的特征提取 2 1 1 线性预测编码系数 线性预测编码方法原理是基于人类发声器官的特点,是从时域入手对语音特 性进行捕捉。语音是一种随时间变化的信号,在短时间内可以认为它是一种近似 稳定的。人类的发声系统可以初略细分成许多前后相连的声管,而由肺部发出的 高速气流通过冲击声道壁腔产生声波,并由声带震动对声波的频率进行调节,气 流冲击产生的声波通过声管的作用进行滤波,最后由口腔辐射出来。由于声道和 声带等器官不可能在短时间内快速变化,所以可以认为是短时稳定的。采用信号 分析的方法需忽略一些因素,通常可以建立一个全极点预测模型来对发声系统进 行一个声管模型的建模,理论上一段声管对应l p c 模型的一个极点,但极点的个 数和声音的采样频率也有关系,在采样率高的时候,需要的极点较多,反之则少。 语音信号的产生如图2 1 所示,从中可以看出清音和浊音的关键体现在声带是否 震动,从而影响周期脉冲。 周期脉冲 声门脉冲 浊音 人a 发生器模型_ ky , 清浊音开关 声道模型辐射模型 j l 随机噪声 。人入 发生器 ! 。苦: 图2 1 语音信号的生成模型 由语音信号建立的线性预测模型,可推导出l p c 特征的计算方法。对于一个 线性预测编码系统,假设采样点万的输出为s q ) ,则可用前p 个输出信号 s ( n 一1 ) ,s 0 - 2 ) ,s o p ) 的线性组合来近似表示s ( n ) : s 0 ) 一口1 s ( n 一1 ) + 口2 s o 一2 ) + + 口p s o p ) ( 2 1 ) 6 基于n p c 和改进的m f c c 鲁棒语音特征提取研究 对上式右边加入一项,使得左右两边完全相等: s ( 刀) 一叩( 万一后) + 6 u ( n ) ( 2 2 ) 其中a u ( n ) 是- 个归一化冲击响应与增益系数的乘积,g 为增益系数,u ( n ) 为冲击 响应。式( 2 2 ) 可以通过变换映射到z 域 s ( z ) 一罗a t z - k s o ) + a u ( z ) ( 2 3 ) 传输函数为: 。 聃器。万1 。丽1 仁4 , 声管模型与辐射模型的级联就是传输系统h d ) ,它是一个短时稳定的滤波系 统,由p 个参数口。,口:,口p 的级联声管系统确定,因为发声的过程中声管系统会随 时间的变化而变化,所以这些参数也是变化的。短时间内可以认为这些参数是稳 定不变的,因此,可以用过去样本点来预测当前样本点的近似值,这种预测只能 当作一个估计,可采用;仰) 表示 勘) ;罗a k s ( n 一七) ( 2 5 ) 建立模型是需要利用实际的信号来估计模型的参数,但信号是客观存在的, 不可避免的会受到环境噪声的影响,因此存在内在的不准确性,但通常忽略这些 因素。模型参数p 比较难确定,因为每个发声个体存在差异使p 值不好把握,一 般p 的参考范围为8 1 4 。这都决定对整个的参数估计只是一个近似过程。由式 ( 2 5 ) ,可得实际值s o ) 与预测值童o ) 的误差 p o ) ;s o ) 一童伽) 一s o ) 一s o 一七) ( 2 6 ) 对式( 2 6 ) 可采用误差值的均方误差最小化原则来得到对模型参数的估计,并 得到误差的传输函数 4 ( z ) 一。e s ( ( z z ) ) = i - ,薹口t z i 对一帧语音内的短时平均预测误差最小化来获得模型的参数, 测误差定义为 砷2 叫。”2 叫似小舡5 0 卅) 2 ( 2 7 ) 此处将平均预 为使得e e 2 0 ) 最小,按数学上求极值的原理对a 。求偏导,且使其为零 7 ( 2 8 ) 硕上学位论文 e p o ) 一蔓a k s ( n 一七) 扣( 刀- j ) 一o ,j t 1 ,p ( 2 9 ) 届 对每个a 。都求取偏导,可以得到p 个方程和p 个未知数,解出这p 个未知参 数就得到了所需的特征,对参数求解就是让预测误差占与前p 个样本点内积为零 时,能获得最好的预测系数。对于从第n 个采样点起始的个采样点的一帧语音, 为便于表示,记语音信号采样点为s n ,对具体的某个采样点,用s 。 ) 表示。 & 伽) = s ( n + m ) ( 2 1 0 ) 则可定义一个相关函数垂。( 七,) 。 西。 ,) 一e 晶( 坍- k ) s ( 朋一) ( 2 1 1 ) 式( 2 9 ) 可变形为 西。 ,) 一m 。( j ,o ) ,j - 1 , ,p ( 2 1 2 ) 硒 线性预测的目的是利用一帧语音的所有信号求出各a 。的值,一般用高斯消元 法等方法解出来,但因为式( 2 1 2 ) d 0 涉及的矩阵较为特殊并且方程左右两边存在一 定关联性,在数字信号处理中有更高效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论