(电路与系统专业论文)基于支持向量机的稳健语音识别技术研究.pdf_第1页
(电路与系统专业论文)基于支持向量机的稳健语音识别技术研究.pdf_第2页
(电路与系统专业论文)基于支持向量机的稳健语音识别技术研究.pdf_第3页
(电路与系统专业论文)基于支持向量机的稳健语音识别技术研究.pdf_第4页
(电路与系统专业论文)基于支持向量机的稳健语音识别技术研究.pdf_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于支持向量机的稳健语音识别技术研究1 ) 2 ) 摘要 语音识别技术从上世纪5 0 年代开始到现在已经有了巨大的进展,人们迫切地希望把它推 向广泛的实用领域,使其真正的从实验室走进日常生活。稳健语音识别技术是语音识别走向实 用化的关键,它以提高语音识别系统对各种干扰因素的稳健性和白适应能力为目的,是目前语 音识别技术研究领域的一个热点和难点。 本文系统地介绍了支持向量机理论及其在语音识别领域的应用,分析了结构风险最小化和 支持向量思想在稳健语音识别技术中的应用前景。然后以基于隐马尔可夫模型的连续语音识别 系统作为研究平台,研究了一系列基于支持向量机理论的稳健语音识别技术。其中,支持向量 机理论的应用,为稳健语音识别技术的研究提供了新的方法和思路。 首先,本文研究了噪声环境下稳健性端点检测问题,因为准确地检测语音信号的端点有利 于提高语音识别系统的识别正确率和识别速度。目前噪声环境下的语音端点检测仍然是一个未 解决的问题。利用单类支持向量机的无监督学习能力和良好的推广能力,本文提出了一种基于 单类支持向量机的实时端点检测算法。该算法采用了一个双层决策机制,第一层采用支持向量 机对多特征进行综合,描述了: 作环境中的噪声特性,并输出相应的决策值,第二层应用一个 五状态自动机对结果进行平滑和修正。实验表明,该算法通过单类支持向量机模型提高了端点 检测的稳健性,在平稳噪声条件下简单有效。为进一步提高端点检测算法在非平稳噪声环境下 的性能,本文又提出了相应的白适应算法。该算法引入了支持向量机的在线训练模式,一旦检 测到语音信号中的噪声段,就用此噪声数据更新支持向量机的训练集,然后通过快速的在线训 练算法获得新的单类支持向量机。实验结果表明,此白适应端点检测算法对于缓变的非平稳噪 声环境具有较好的稳健性。 其次,本文对小波阈值降噪算法进行了研究。小波阈值降噪算法是一种非线性的语音增强 算法,特别适合用于处理语音等非平稳信号。本文首先分析了分解层数对小波阈值降噪算法性 能的影响,证明了算法在不同噪声条件下都将存在一个最优的小波分解层数,使得算法获得最 佳的降噪性能。然后采用支持向量机对小波系数的特征进行建模,提出了自适应的小波阈值降 1 上海市科委重点基础研究项目( 0 1 j c l 4 0 3 3 ) “汉语语音识别中关键技术的研究”资助 2 美国贝尔实验室( 上海) 资助 i 申请上海交通大学博士学位论文 f | 噪算法。该算法根据小波系数的奇异谱分析,采用支持向量机进行判决,从而获得最优的小波 分解层数。实验结果表明,在采用相同阈值估计的情况下,本文提出的自适应小波阈值降噪算 法比采用固定分解层数的此类算法性能更优,它为解决小波阈值降噪算法中分解层数的选择问 题提供了新的思路。 , 然后,本文研究了快速说话人自适应技术,提出了一种新的快速说话人自适应算法一支持 说话人权重。该算法巧妙利用了支持向量机理论中关于支持向量的思想,通过支持说话人的选 择,将参数空间限定在支持说话人空间中,使得待估计的自适应参数很少,适于自适应数据较 少的情况,并能有效地降低自适应所需的存储量。同时,支持说话人的选择也使算法获得了分 布离散度较小的初始模型,可提高自适应性能。大词汇量连续语音识别的实验结果表明,在自 适应数据很少的情况下,该自适应算法取得了较其他算法更好的自适应效果,是一种有效的快 速说话人自适应算法。此外,本文还将m a p 参数估计和a a p 参数估计方法引入到支持说话人 权重算法中,提出了m a p s s w 和a a p s s w 两种改进算法。其中a a p s s w 结合了最大后验 概率和区别性训练,实现了自适应参数的快速区别性估计。该算法不仅考虑了观察序列与其本 身模型的相似度,而且也考虑了观察序列与其他模型的区别性,因此能进一步提高自适应性能。 最后,为提高语音识别系统中拒识算法的性能,本文提出了基于稳健支持向量机的多置信 度信息综合方法。语音拒识的目的是为了对识别结果进行确认,拒绝不正确的识别结果和词表 外发音( 0 0 v ) ,以降低语音识别系统的误识率,提高系统的稳健性。本文将支持向量机应用 于多置信度信息综合,获得了比神经网络综合方法更优的性能,然后针对支持向量机对训练集 中噪声数据敏感的缺陷,提出采用r s v m 进行信息综合。实验结果表明,r s v m 通过改善支 持向量机的稳健性,能有效地提高拒识算法的性能。随后本文根据r s v m 的原理,提出了一 种改进的稳健型支持向量机一一s v d d r s v m ,它采用一种基于支持向量数据描述的松弛因子 函数模型,可进一步提高支持向量机的稳健性。基于多置信度综合的拒识实验表明, s v d d r s v m 能使拒识性能得到明显提高,优于采用神经网络和传统支持向量机的拒识算法。 关键词:语音识别,稳健性,支持向量机,端点检测,语音增强,说话人自适应,置信度, 0 0 v 拒识 i i _ 乙 r e s e a r c ho nr o b u s ts p e e c hr e c o g n i t i o n t e c h n o l o g yb a s e do ns u p p o r tv e c t o rm a c h i n e a b s t r a c t g r e a ta c h i e v e m e n th a sb e e nm a d ei nt h ef i e l do fs p e e c hr e c o g n i t i o nt e c h n o l o g yd a t e db a c kt o 1 9 5 0 st i l ln o w t h ep e o p l eu 唱e n t l yh o p ep u s h e st h i st e c h n o l o g yt ot h ew i d e s p r e a dp r a c t i c a ld o m a i n a n d1 e t si te n t e rt h er e a lw o r l df r o mt h el a b o r a t o r y t h er o b u s ts p e e c hr e c o g n i t i o nt e c h n o l o g y ,w h i c h f o c u s e so nm er o b u s t n e s sa n da d a p t a f i o na b i l i t yt of h ee n v i r o n m e n t a lv a f i a “o n s ,i st h ek e yf o ra s r s y s t e m st op r a c t i c a la p p l i c a t i o n s i th a sb e c o m eah o t s p o ta n dad i i 五c u l t yi np r e s e n tr e s e a r c ha r e ao f a s r i nt h i sd i s s e r t a t i o n ,w ef i r s ts t u d i e dt h et h e o r ) ro fs u p p o r tv e c t o rm a c h i n e ( s v m ) a n di t s a p p l i c a t i o ni ns p e e c hr e c o g n i t i o n t h ei d e ao fs t r u c t u r a lr i s km i n i m i z a t i o n ( s r m ) a n ds u p p o r tv e c t o r i n t h i st h e o 巧h a sg r e a ta p p l i c a t i o np r o s p e c tf o rr o b u s ts p e e c hr e c o g n i t i o n t e c h n 0 1 0 9 y o nt h e p l a t f o 珊o fc o n t i n u o u ss p e e c hr e c o g n “i o nu s i n gh m m s ,as e r i e so fr o b u s ta l g o r i t h m sb a s e do ns v m a r ep r o p o s e d t h et h e o r yo fs v m p r o v i d e san e wm e t h o da n di d e af o rr o b u s ts p e e c hr e c o g n i t i o n e n d p o i n td e t e c t i o nc a ni m p r o v et h ep e r | o n n a n c eo fa s rs y s t e m si nt e 姗so fr e c o g n i t i o n a c c u r a c ya n ds p e e d o np r e s e n t ,e n d p o i n td e t e c t i o ni nn o i s ye n v i r o n m e n t si ss t i l la nu n s o l v e d p r o b l e m u s i n gt h eu n s u p e i s e dl e a m i n ga b i l i t ya n dg o o dg e n e r a l i z a t i o no fo n e c l a s ss v m ,w ef i r s t p r o p o s e dar o b u s te n d p o i n td e t e c t i o na l g o “t h m t h i sa l g o r i t h mi sb a s e do nao n e c l a s ss v ma n d u s e sa 觚。一l e v e ld e c i s i o n m a k i n gs t r a t e g y i nt h ef i r s tl e v e l ,t h eo n e c l a s ss v mc o m b i n e st h e m u l t i p l ef e a l u r e s o fe n d p o i n id e t e c t j o nt o d e s c r i b et h ec h a r a c t e r i s t j c so fb a c 蚝r o u n dn o i s ea n d o u t p u t sad e c i s i o nr e s u l t t h e nad e c i s i o nl o g i cb a s e do naf i v e - s t a t ea u t o m a t i o ni su s e dt os m o o t h a n dr e v i s et h i sr e s u l ti nt h es e c o n dl e v e l t l l l ee x p e r i m e n t ss h o wt h eo n e c l a s ss v m m o d e l sc a n i m p r o v et h er o b u s t n e s so fe n d p o i n td e t e c t i o ni ns t a t i o n a r yn o i s ye n v i r o n m e n t se f l e c t i v e l y 1 no r d e rt o d e t e c tt h es p e e c he n d p o i n ti 1 1t h en o n s t a t i o n a r yn o i s ye n v i r o n m e n f sc o n e c t l y ;t h ea d a p t i v ea l g o r j t h m i sp r o p o s e d i ti n t r o d u c e st h eo n 一1 i n et r a i n i n gm o d ei n t oo n e c l a s ss v m 0 n c et h en o i s es e g m e n ti s d e t e c t e d ,t h en o i s ed a t ai su s e dt ou p d a t et h et r a i n i n gs e ta n dan e wo n e - c l a s ss v m i so b t a i n e db yi a s t i i i 申请上海交通大学博士学位论文 o n l i n et r a i n i n g t h ee x p e r i m e n t a lr e s u l t si n d i c a i et h i sa d a p t i v e e n d p o i n td e t e c t i o na l g o r i t h mi s e f l e c t i v ei nt h es i t u a t i o no fn o n s t a t i o n a r yn o i s ew i t h s l o wv a r i a t i o n w a v e l e td e - n o i s i n g ,w h i c hi san o n l i n e a rs p e e c he n h a n c e m e n ta l g o r i t h m ,i sv e r ys u i t a b l ef o r n o n s t a t i o n a r ys i g n a l ss u c ha ss p e e c h 1 nt h i s d i s s e r t a c i o n , w ef i r s t a n a l y z e dt h ei n n u e n c e o f d e c o m p o s i t i o nl e v e l t ow a v e l e td e n o i s i n gp e 湘珊a n c e i ti sp m v e dt h a tt h eo p t i m a ld e c o m p o s i t i o n l e v e li sa l w a y se x i s t e n ta td i f f e r e n tn o i s ec o n d i t i o n st om a k et h ed e n o i s i n ga l g o r i t h ma c h i e v eb e s t r e s u l t s t 1 l e nan o v e la d a p t i v ew a v e l e tt h r e s h 0 1 d i n ga l g o r i t h m ,w h i c hu s e sas v mt om o d e lt h e c h a r a c t e r i s t i c so fw a v e l e tc o e 伍c i e n t s ,i sp r o p o s e d t h ea l g o r i t h mc a r r i e so u tas i n g u l a rs p e c t r i l m a n a l y s i s ( s s a ) o nw a v e l e tc o e 伍c i e n t sa n da d a p t i v e l ys e l e c t st h eo p t i m a ld e c o m p o s i t i o nl e v e lb ya s v m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h en e wa l g o “t h mo u t p e d b n n so t h e rw a v e l e t - b a s e dd e n o i s i n g a l g o “t h m su s i n gf i x e d l e v e ld e c o m p o s i t i o nw h e nt h e i rt h r e s h o l d sa r es a m e i tp r o v i d e san o v e l i d e a f b rd e c o m p o s i t i o n1 e v e ls e l e c t i o ni nw a v e l e td e n o i s i n g f a s ts p e a k e ra d a p t a t i o nt e c h n o l o g yi sa l s or e s e a r c h e di n t h i sd i s s e r t a t i o n an o v e lf a s ts p e a k e r a d a p t a t i o na l g o r i t h m ,s u p p o r ts p e a k e rw 宅i g h t i n g ( s s 、聊,i sp r o p o s e d t h ea l g o r i t h mu t i l i z e sas m a r t w a yb a s e do ns u p p o r tv e c t o r so fs v m t os e l e c ts u p p o r ts p e a k e r sa sas p e c i f i cr e f e r e n c es p e a k e r s u b s e t ,a n dh i g h l yc o n s t r a i n st h ea d a p t e dm o d e lt ob e1 0 c a t e di nt h em o d e ls p a c eo ft h es e l e c i e d s p e a k e r s t h u st h ea d a p t a t i o np a r a m e t e r st ob ee s t i m a t e da r eg r e a t l yr e d u c e d t h i si sa na d v a n t a g e f o rv e r ys m a l la m o u n t so fa d a p t a t i o nd a t aa n dl o w e “n gt h em e m o r yc o s t m o r e o v e r ,t h es u p p o r t s p e a k e rs e l e c t i o ni ns s wc a ni m p r o v et h ea d a p t a t i o np e r f o n n a n c eo b v i o u s l yb e c a u s et h ei n i t j a l r e f e r e n c em o d e l sw i t hl e s s i n t e 卜s p e a k e r v a r i a t i o na r eu s e d e x p e r i m e n t a l r e s u l t sf o ra l a 唱e - v o c a b u l a r yt a s ks h o wt h a t t h i sm e t h o d i s v e r ye f f - e c t i v e i n f a s ts p e a k e ra d a p t a t i o n a n d o u t p e r f b 姗so t h e rm e t h o d sf o rt i n ya m o u n t so fa d a p t a t i o nd a t a s u b s e q u e n t l y m oi m p r o v e d a l g o r i t h m s ,m a p s s wa n dp u p s s w ;a r ea l s op r o p o s e d b yi n t r o d u c i n gt h em a pa n da a p e s t i m a t i o ni n t os s wi n d i v i d u a l l y a a p s s wc a na c h i e v eaf a s td i s c r i m i n a t i v ee s t i m a t i o no f a d a p i a t i o np a r a m e t e r sb yc o m b i n i n gt h em - 气pa n dd i s c r i l n i n a t i v et r a i n i n g 7 i h ea l g o “t h mc o n c e m s n o to n l yt h es i m i l a r i t yb e t w e e nt h eo b s e a t i o nd a t aa n di t sc o r r e c tm o d e l sb u ta l s ot h ed i s c r i m i n a t i o n b e t w e e nt h eo b s e a t i o na n do t h e ri n c o r r e c tm o d e l s t h e r e f o r e ,t h ea d 印i a t i o np e m m a n c ec a nb e i m p r o v e dm u c hm o r ei na a p s s w t l l l er e s e a r c ho nr e j e c t i o na l g o r i t h mo fa s rs y s t e mi sa i m e dt ov e r i f yt h er e c o g n i t i o nr e s u l t sa n d i v j l r e j e c tt h em i s r e c o g n i t i o i l o u t 。o f - v o c a b u l a r y ( o o v ) w o r d sr e l i a b l y i ti sb e n e f i tt or e d u c i n gt h e r e c o g n i t i o ne h o rr a t ea n db o o s t i n gu pt h er o b u s t n e s si na p p l i c a t 扣n f i r s t l y ,w ed of e a s i b i l i t ys t u d yo n t h ec o m b i n a t i o no fm u l t i p l ec o n f i d e n c em e a s u r e sb a s e do ns v mf o r0 0 v r e j e c t i o n c o m p a r e dw i t h n e u r a ln e t w o r k s ,w h i c hi s u s u a n yu s e df o rc o m b i n a t i o n ,s v mc a no b t a i nb e t t e rp e d b n i l a n c ei n r e j e c t i o na l g o r i t h m c o n s i d e r i n gs v mi ss e n s i t i v et on o i s ed a t aa n do u t l i e ri i li t st r a i n i n gs e t ,t h e r o b u s ts v m ( r s v m ) i su t i l i z e dt oc o m b i n et h ec o n f i d e n c em e a s u r e s e x p e r i m e n t a lr e s u l t ss h o w r s v mc a ne 骶c t i v e l yi m p r o v et h ep e 血咖a n c eo fr e j e c t i o na l g o r i t h mb ya m e n d i n gt h er o b u s t n e s s o fs v m f u r t h e 姗o r e ,an e wt y p eo fs v mt h a ti sn a m e da ss v d d - r s v mi sa l s op r 叩o s e di nt h e d i s s e r t a t i o na c c o r d i n gt ot h ep r i n c i p l eo fr s v m i td e s i g n san e wf u n c t i o nf o r t h er e l a x a t i o nf a c t o r b a s e do ns u p p o r tv 色c t o rd a t ad e s c r i p t i o n ( s v d d ) m e t h o da n dc a ni m p r o v et h er o b u s t n e s so f r s v mf u r t h e r t h ee x p e r i m e n t so n0 0 v r e j e c t i o ni n d i c a t et h a tt h er e j e c t i o na l g o r i t h mb a s e do n s v d d r s v mc a no b t a i nb e t t e rp e r f o n n a n c et h a no t h e r a l g o r i t h m su s i n gn - e u r a ln e t w o r k s a n d o r i 百n a is v m k e yw o r d s :s p e e c hr e c o g n i t i o n ,r o b u s t n e s s ,s u p p o nv e c t o rm a c h i i l e ,e n d p o i n td e t e c t i o n , s p e e c he i l l l 柚c e m e n t ,s p e a k e ra d a p t a c i o n ,c o n f i d e n c em e a s u r e ,0 0 vr e j e c c j o n v 、 申请上海交通大学博士学位论文 ! ! 竺皇! ! ! ! ! 苎苎! ! ! ! ! 竺! ! ! ! ! ! 竺! ! 竺! ! ! ! ! ! 苎! ! ! ! ! 竺苎! ! 竺! ! ! ! ! ! ! ! ! ! ! ! ! ! 竺! ! ! ! ! ! ! ! ! ! ! ! 竺! ! ! 苎! ! ! ! ! ! ! 曼 a a p a n n a s r c d h m m c m c m l d p d t d t w e d e m e r m e v g m e r g p d h m m l p c l p c c l v c s r m a p m c e m f c c m l m l l r m m l 0 0 v p c a q p r s w r s v m s a s d s i s m o s r m s s a s s w s v s v d s v d d 英文缩略语表 a g g r e g a i eap o s t e r i o r 累积后验概率 a n i f i c i a ln e u r a ln e m o r k s人工神经网络 a u t o m a t i cs p e e c hr e c o g n i t i o n 自动语音识别 c o n t i n u o u sd e n s i t vh m m连续密度h m m 模型 c o 倘d e n c em e a s u r e置信度 c o n d i t i o n a lm a x i m u ml i k e l i h o o d条件最大似然 d y n a m i cp r o g r a m m i n g 动态规划 d i s c t i m i n a t i v et r a i n i n g区别性训练 d y n a m i ct i m ew a r p i n g 动态时间规整 e n d p o i n td e t e c t i o n端点检测 e x p e c t a t i o nm a x i m u m 期望最大算法 e m p i r i c a lr i s km j n i m i z a t i o n经验风险最小化 e i g e n v o i c e特征语音 g e n e r a l i z e dm i n i m u me o rr a t e一般化最小错误率 g e n e r a l i z e dp r o b a b i l i s t i cd e c e n t 泛化概率下降 h i d d e nm a r k o vm o d e l 隐马尔可夫模型 l i n e a rp r e d i c t i o nc o d i i l g 线性预测编码 l i n e a rp r e d i c t i o nc e p s t m mc o e 伍c i e n t 线性预测倒谱系数 l a 玛ev o c a b u l a r ) ,c o n t i n u o u ss p e e c hr e c o g n i t i o n 大词汇量连续语音识别 m a x i m u map o s t e r i o r最大后验概率估计 m i n i i i l u mc l a s s i f i c a t i o ne o r最小分类误差 m e l f k q u e n c yc e p s t r a lc o e 蚯c i e n t s美尔刻度倒谱系数 m a x i m u ml i k e l i h o o d最大似然 m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n 最大似然线性回归 m a x i m u mm u t u a li n f o 册a t i o n最大互信息 0 u t o f - v o c a b u l a r 、, 词表外 p r i n c i p a lc o m p o n e n ta j l a l y s i s 主成份分析 q u a d r a t i cp r o g r a 舢【i l i n g二次型规划 r e f e r e n c es p e a k e rw b i 曲t i n g 参考说话人权重 r o b u s ts u p p o r tv e c t o rm a c h i n e稳健支持向量机 s p e a k e ra d a p t a t i o n 说话人自适应 s p e a k e rd 印e n d e n t 特定说话人 s p e a k e ri n d e p e n d e n t 非特定说话人 s e q u e n t i a lm i n i m a l0 p t i m i z a t i o n 序列最小优化 s t r i l c t u r a ir i s km i n i i i l i z a t i o n 结构风险最小化 s i n g u l a rs p e c t r u ma n a l y s i s 奇异谱分析 s u p p o r ts p e a k e rw 色i g h t i n g 支持说话人权重 s u p p o nv e c t o r 支持向量 s i n g u l a rv a l u ed e c o i n p o s i t i o n 奇异值分解 s u p p o r tv e c t o rd a t ad e s c r i p t i o n 支持向量数据描述 一二一 英文缩略语表 s v m v f s u p p o r tv e c t o rm a c h i n e 、,o i c ea c t i v i t yd e t e c t i o n v 1 1 支持向量机 语音活动检测 附件四 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:蔗铁 日期:。归易年1 月- 7 日 ? 附件五 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上方框内打“ ) 学位论文作者签名:蔗铁 日期:如6 年f 月7 日 艚撕繇粒 日期:僻夥日 第一章绪论 1 1 自动语音识别技术概述 第一章绪论 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个 分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到 人的体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人 与机器进行自然语言的交互。作为一种智能人机交互技术,语音与键盘、鼠标等输入相比,是 最自然的输入方式。 语音识别技术不仅在军事上有着十分广泛的应用,而且有着广阔的民用市场。用语音实现 计算机输入、通过语音进行公共数据库的检索和查询、i n t e m e t 或其他网络的语音访问、各种 带语音识别技术的应用终端、家用电器的语音控制、用语音来进行身份确认和安全措施等等, 这些都等待着语音识别技术能够尽早地转化成应用成果。人们预计,未来1 0 年内,语音识别 技术将进入工业、家电、通信、汽车、电子、医疗、家庭服务、消费电子产品等各个领域。 由于语音识别技术具有广阔的应用前景,因此从上世纪五十年代开始,这一技术就引起了 人们的重视【1 _ 2 】。在初始发展期中,b e u 实验室的d a v i s 等人在1 9 5 5 年利用共振峰特征研制出 了世界上第一台原始语音识别系统【引。1 9 5 9 年,美国l i n c o l n 实验室的r o 唱i e 和f o 略i e 首次采 用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始 4 1 。在上世纪六十年代到七十年代的早期研究中,语音识别主要停留在小词汇量、特定人 ( s p e a k e r d e p e n d e n t ,s d ) 和孤立词识别的阶段,采用的识别方法主要是简单的模式匹配法。 这一期间最主要的两项技术是动态规划( d y n a m i cp r o g r a m m i n g ,d p ) 技术【5 】和线性预测编码 ( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 技术 6 1 ,其中动态规划技术主要用于解决发音长度易变的问题, 在它的基础上日本学者s a k o e 和c h i b a 提出了动态时间弯曲( d y n a m i ct i m ew a r p i n g ,d t ) 算 法【7 1 ,在特定人语音识别中获得了广泛的应用。 在上世纪8 0 年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人 ( s p e a k e ri n d e p e n d e n t ,s i ) 连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模 型方法。该期间最重要的成果是隐马尔可夫模型( h m m ) 吲在语音识别中的应用,它被广泛用 t队n哺f 申请上海交通大学博士学位论文 于非特定人、大词汇量、连续语音识别系统中,如c a m e g i e m e l l o n 大学的著名的s p h i n x 系 统【9 】o 另一种统计模型方法一神经网络也成为了新兴的语音识别方法 1 0 】,虽然这种方法具有高 度的学习联想能力和较强的静态模式识别能力,但也存在着时序分辨力差、大型网络训练困难 等缺陷。相对于神经网络方法,h m m 更具有优势。此外,也有一些研究人员采用神经网络实 现语音音素的处理或识别后,再运用h m m 进行较大语音单位的识别,这种结合神经网络和 。 h m m 的语音识别方法也取得了一定的效果【1 1 d 2 1 。 从上世纪九十年代以来,随着语音识别各方面问题的逐个解决,语音识别中最困难的非特 定人大词汇量连续语音识别已经达到了较高的性能,并逐渐从实验室走向实际应用。例如美国 c a m e 舀e m e l l o n 大学的s p h i n x 系列系统,m 1 1 的s u m m i t 系统,i b m 的a 、v ,0 i c e ( 、v b i c et y p e 的中文版本) ,m i c r o s o f t 的w h i s p e r 等等,这些系统代表着目前语音识别的最高水平。在应用 领域,语音识别技术的另一发展趋势是向以语音技术为核心的综合应用发展,产生了特定环境 下特定知识领域的语音识别系统【1 3 】,例如d a r p a 1 4 】计划中的航班旅行和信息查询系统 ( a t i s ) ,m i t 的v o y a g e r 、j u p i t e r 系统。 我国语音研究工作起步于上世纪5 0 年代,经过几十年的发展,我国语音识别技术的研究 水平已经基本上与国外同步,并在汉语语音识别技术上还有着自己的特点与优势,达到了国际 先进水平 “。1 翻。特别是从1 9 8 7 年开始执行8 6 3 计划后,国家8 6 3 智能计算机主题专家组 为语音识别研究立项,对汉语语音识别的发展起了巨大的推动作用。从1 9 9 1 年开始,国家8 6 3 智能计算机主题专家组每一至两年举行一次全国性的语音识别系统测试,汉语语音识别研 究已经走上组织化的道路。台湾也在汉语听写机研究方面加大了研究力度,一些大学和研究机 构开发出大词汇量非特定人连续汉语语音识别演示系统。同时,汉语语音识别也受到一些跨国 公司的重视,国外i b m 、m o t o r 0 1 a 、a p p l e 、m i c r o s o f t 、i n t e l 等公司相继投入到汉语语音识别 系统的开发中,并在中国建立了专门的语音识别研究组,开发汉语语音产品。 近年来,随着一些快速动态搜索算法、搜索策略、丢弃策略等一些新方法的提出,随着子 词模型、语法模型、词法模型的进一步改进,语音识别系统的识别速度、识别率、可靠度得到 了较大的提高。如在大词汇量非特定人实验中,c a m e g i e m e l l o n 大学的s p h i n x l i 系统【1 7 】的词 识别率达到了9 7 ;而在小词汇量非特定人连续语音识别方面,贝尔实验室的p i 。加d 系统的 词识别率更是达到了9 8 3 。虽然现有的这些语音识别系统在实验室环境能达到很高的识别率, 但在语音识别技术从各个不同的突破口进行应用和产业化的过程中,新的问题也凸现出来,成 为了目前研究的重点。这些问题包括方言和口音问题、背景噪声问题和口语问题,这三大问题 2 第一章绪论 是目前语音识别技术应用中对识别率影响最大的三个音素。首先,方言和口音会降低语音识别 率,这对于拥有八大方言区域的汉语来说,应用的难度将更大,目前受母语口音影响普通话 ( m a n d a r i ni n n u e n c e db vn a t i v ed i a l e c t ) 的识别正成为汉语语音识别中一个急需要完成的大项 目。其次,背景噪声也是问题之一。在人多的公共场合,巨大的背景噪声对语音识别的影响非 常显著,即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪声。这些背景噪声的存 在将破坏语音信号的频谱,掩盖掉部分或全部的语音信号,使得语音识别率急剧下降。研究如 何把原始语音从背景噪声中分离出来,这将会使语音识别系统具有很强的适应性。最后,口语 问题也是实用化的关键问题,它既涉及到自然语言处理,又与声学相关。在用户以跟人交谈的 方式输入语音时,自然发音方式存在发音不清晰、音联现象严重、说话速率变化极大、以及各 种不流畅音素( 如犹豫、停顿、更正等) ,这使得系统识别率明显下降

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论