(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf_第1页
(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf_第2页
(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf_第3页
(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf_第4页
(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf_第5页
已阅读5页,还剩110页未读 继续免费阅读

(信号与信息处理专业论文)声学模型区分性训练及其在lvcsr系统的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 声学模型区分性训练是近年来语音识别领域的研究热点之一,它已经成为 当今主流的语音识别系统,尤其是大词汇量连续语音识别l v c s r 系统中最重要 的模型训练手段之一。本文主要针对声学模型区分性训练及其在l v c s r 系统中 的应用问题进行较深入的研究和讨论。另外,本文对语音识别系统的另一个重 要模块置信度判决也有所涉猎。 首先,本文提出了一种新颖的、称为“受限线性搜索”c l s 的优化算 法,该算法用于语音识别区分性训练中的c d h m m 模型参数更新。c l s 方 法可以用于区分性训练统一准则框架下各种区分性准则的模型更新,包 括m m i 、m c e 、m w e m p e 等。在该方法中,h m m 的区分性训练问题首先被定 义为一个受限优化问题,并且直接使用模型间的k l d 度量来定量的描述所定义 的模型间限制。接着,基于简单的线性搜索思想,我们发现在将该模型限制转化 为二次函数形式后,可以很容易获得模型更新参数的闭式解。c l s 方法可以用于 优化c d h m m 模型中的各种参数,包括高斯均值、协方差矩阵、权重等。 接着,本文对我们此前提出的称为“信任区域”( t r u s tr e g i o n ) 的区分性 训练模型参数更新方法进行了进一步理论分析和扩展。t r u s tr e g i o n 方法通 过将m m i 区分性训练问题转变为一个优化理论中可参考的标准问题,从而 准确高效的求取待优化函数的全局最优点。在引入上述模型间限制的前提 下,t r u s tr e g i o n 方法可以对区分性训练中的辅助函数进行完美的优化。然而, 在区分性训练中对辅助函数的最优化无法保证对原始目标函数的优化。因此 我们通过对t r u s tr e g i o n 问题的深入理论分析,提出构造一种称为“有界信任区 域”( b o u n d e dt r u s tr e g i o n ) 的新辅助函数。该辅助函数仍然是目标函数的有效估 计,更重要的是,在满足模型间限制的前提下,该辅助函数是原始目标函数的下 界。这个优良品质可以确保对该辅助函数的最优化也能够带来对目标函数的优 化。另外,这里构造的新辅助函数仍然可以直接使用标准的t r u s tr e g i o n 方法来 解决,从而可以快速求取全局最优点。实验表明基于b o u n d e dt r u s tr e g i o n 的方 法超越了传统的e b w 算法和原始t r u s tr e g i o n 方法。 第三,本文还针对实际的l v c s r 系统中存在的若干问题进行了探讨,包括 处理海量训练语料时的计算能力问题和由此导致的效率瓶颈,以及区分性训练 中普遍存在的推广性问题等。在此基础上,我们分别结合基于w f s t 解码器生成 的具有优良品质的词图,和传统的基于h t k 计算区分性训练相关统计量的工具, 搭建了一套用于区分性训练的新流程。该流程相对于传统完全基于h t k 流程的 i 摘要 区分性训练,不仅在训练效率上得到了极大的优化,在识别性能上也有一定的提 升。 最后,本文在语音识别系统的重要模块之一置信度判决c m 方向进行了 相关工作。我们首先基于语音识别系统的输出定义了所谓的“目标区域”和“非 目标区域”,并分别针对不同的区域选择合适的置信度判决方法。我们尝试发 掘“非目标区域”中的额外信息,以期对传统只基于“目标区域”进行c m 计算的 方法起到补充作用。实验结果表明,基于“非目标区域”的置信度对基于“目标 区域”的置信度有很好的补充作用。接下来,我们又进一步利用贝叶斯信息准则 对“非目标区域”中所吸收的语音边界进行定位,基于定位后的置信度取得了更 多的性能提升。 关键词:区分性训练,声学模型,大词汇量连续语音识别,受限线性搜索,有界 信任区域,置信度判决 a b s t r a c t a b s t r a c t i np a s tf e wd e c a d e s ,d i s c r i m i n a t i v et r a i n i n g ( d t ) h a sb e e nav e r ya c t i v er e s e a r c ha r e a i na u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) d i s c r i m i n a t i v et r a i n i n go fa c o u s t i cm o d e lh a s b e c o m eo n eo ft h em o s ti m p o r t a n tt r a i n i n gm e t h o d sf o rs t a t e - - o f - t h e - - a r ts p e e c hr e c o g n i - t i o ns y s t e m s ,e s p e c i a l l yf o rl a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n ( l v c s r ) s y s t e m s t h i st h e s i sf o c u s e so nd i s c r i m i n a t i v et r a i n i n go fa c o u s t i cm o d e la n d i t sa p p l i c a t i o ni nl v c s rt a s k s i ta l s oc o v e r sa n o t h e ri m p o r t a n tm o d u l ei ns p e e c hr e c o g n i t i o n , c o n f i d e n c em e a s u r e ( c m ) f i r s t l y ,t h i st h e s i sp r o p o s e san o v e lo p t i m i z a t i o na l g o r i t h mc a l l e dc o n s t r a i n e dl i n e s e a r c h ( c l s ) f o rd i s c r i m i n a t i v et r a i n i n g ( d t ) o fg a u s s i a nm i x t u r ec d h m m i ns p e e c h r e c o g n i t i o n t h ec l sm e t h o di sf o r m u l a t e du n d e rag e n e r a lf r a m e w o r kf o ro p t i m i z i n ga n yd i s c r i m i n a t i v eo b j e c t i v ef u n c t i o n si n c l u d i n gm m i ,m c e ,m p e m w e ,e t c i n t h i sm e t h o d ,d i s c r i m i n a t i v et r a i n i n go fh m mi sf i r s tc a s ta sac o n s t r a i n e do p t i m i z a t i o np r o b l e m ,w h e r ek u l l b a c k l e i b l e rd i v e r g e n c e ( k l d ) b e t w e e nm o d e l si se x p l i c i t l y i m p o s e da sac o n s t r a i n td u r i n go p t i m i z a t i o n b a s e du p o nt h ei d e ao fl i n es e a r c h ,w e s h o wt h a tas i m p l ef o r m u l ao fh m m p a r a m e t e r sc a nb ef o u n db yc o n s t r a i n i n gt h e k l db e t w e e nh m mo ft w os u c c e s s i v ei t e r a t i o n si na nq u a d r a t i cf o r m t h ep r o p o s e d c l sm e t h o dc a nb ea p p l i e dt oo p t i m i z ea l lm o d e lp a r a m e t e r si ng a u s s i a nm i x t u r e c d h m m s ,i n c l u d i n gm e a n s ,c o v a r i a n c e s ,a n dm i x t u r ew e i g h t s s e c o n d l y , b a s e do nt h et h e o r e t i c a la n a l y s i so fo r i g i n a lt r u s tr e g i o n ( t r ) b a s e d o p t i m i z a t i o nm e t h o dw eh a v ep r o p o s e db e f o r e ,t h i st h e s i sp r o p o s e san e wm e t h o d t o c o n s t r u c ta l la u x i l i a r yf u n c t i o nf o rt h ed i s c r i m i n a t i v et r a i n i n go fh m m si ns p e e c h r e c o g n i t i o n i no r i g i n a lt r u s tr e g i o nm e t h o d ,t h em m i b a s e dd i s c r i m i n a t i v et r a i n 。 i n gi st r e a t e da sas t a n d a r dt r u s tr e g i o np r o b l e mi no p t i m i z a t i o nt h e o r y a n d t h eg l o b a l o p t i m u mo f t h i sp r o b l e mc a nb eo b t a i n e de f f i c i e n t l y h o w e v e r , o p t i m i z i n gt h ea u x i l i a r y f u n c t i o nc a n n o tg u a r a n t e ei n c r e a s i n go fo r i g i n a lo b j e c t i v ef u n c t i o n t h ep r o p o s e dn e w a u x i l i a r yf u n c t i o ns t i l ls e lv e sa saf i r s t o r d e ra p p r o x i m a t i o no ft h eo r i g i n a lo b j e c t i v e f u n c t i o nb u tm o r ei m p o r t a n t l yi tr e m a i n sa sal o w e rb o u n do ft h eo r i g i n a lo b j e c t i v e f u n c t i o na sw e l l d u et oi t sl o w e r - b o u n dp r o p e r t y , t h ef o u n do p t i m a lp o i n ti st h e o r e t - i c a l l yg u a r a n t e e dt oi n c r e a s et h eo r i g i n a ld i s c r i m i n a t i v eo b j e c t i v ef u n c t i o n f u r t h e r - m o r e ,t h et rm e t h o dc a na l s ob ea p p l i e dt of i n dt h eg l o b a l l yo p t i m a lp o i n to ft h en e w a u x i l i a r yf u n c t i o n t h ep r o p o s e db o u n d e dt r u s tr e g i o nm e t h o d sh a v e b e e ni n v e s t i g a t e d i a b s t r a c t o ns e v e r a ll v c s rt a s k sa n de x p e r i m e n t a lr e s u l t ss h o wt h a tt h eb o u n d e dt rm e t h o d b a s e do nt h en e wa u x i l i a r yf u n c t i o no u t p e r f o r m sb o t ht h ec o n v e n t i o n a le b wm e t h o d a n dt h eo r i g i n a lt rm e t h o db a s e do nt h e o l da u x i l i a r yf u n c t i o n t h i r d l y , t h i st h e s i si n v e s t i g a t es e v e r a lp r a c t i c a lp r o b l e m si nl v c s rs y s t e m s , e g ,c o m p u t i n ga b i l i t ya n de f f i c i e n c yp r o b l e m si nd i s c r i m i n a t i v et r a i n i n go fh m m si n s p e e c hr e c o g n i t i o n ,g e n e r a l i z a t i o np r o b l e mi nl v c s rs y s t e m w ep r o p o s et ob u i l da n o v e lp r o c e d u r eo fd i s c r i m i n a t i v et r a i n i n gi nl v c s r s y s t e m s ,b yc o m b i n i n gt h ew o r d g r a p hg e n e r a t e du s i n gw f s t b a s e dd e c o d e ra n dc a l c u l a t i n gt o o l sf r o mh t k w h e n c o n d u c t i n gd i s c r i m i n a t i v et r a i n i n gu n d e rt h i sn e wp r o c e d u r e ,n o to n l yt h ee f f i c i e n c yi s s i g n i f i c a n t l yi m p r o v e d ,w ea l s oa c h i e v eb e t t e rr e c o g n i t i o np e r f o r m a n c e l a s t l y , i nt h i st h e s i s ,a p p r o p r i a t ec o n f i d e n c em e a s u r e s ( c m s ) a r ei n v e s t i g a t e df o r m a n d a r i nc o m m a n dw o r dr e c o g n i t i o n ,b o t hi nt h e8 0 一c a l l e dt a r g e tr e g i o na n dn o n t a r g e tr e g i o n ,r e s p e c t i v e l y h e r et h et a r g e tr e g i o nr e f e r st ot h er e c o g n i z e ds p e e c hp a r t o fc o m m a n dw o r dw h i l et h en o n t a r g e tr e g i o nr e f e r st ot h er e c o g n i z e ds i l e n c ep a r t i t s h o w st h a te x p l o i t i n ge x t r ai n f o r m a t i o ni nt h en o n - t a r g e tr e g i o nc a ne 能c t i v e l yc o m p l e m e n tt h et r a d i t i o n a lc mw h i c h u s u a l l yf o c u so nt h et a r g e tr e g i o n f u r t h e r m o r e ,w h e n a n a l y z i n gt h en o n t a r g e tr e g i o ni nam o r et h e o r e t i c a lw a y , w h e r eb a y e s i a ni n f o r m a t i o n c r i t e r i o n ( b i c ) i se m p l o y e dt ol o c a t em o r ep r e c i s eb o u n d a r yi nt h en o n t a r g e tr e g i o n , e v e nm o r ei m p r o v e m e n ti sa c h i e v e d k e y w o r d s :d i s c r i m i n a t i v et r a i n i n g ,a c o u s t i cm o d e l ,l v c s r ,c o n s t r a i n e dl i n e s e a r c h ,b o u n d e dt r u s tr e g i o n ,c o n f i d e n c em e a s u r e i v 英文缩写及主要符号对照表 口 6 ( ) d ( “) 厂 朋 ( ) p ( ) q r 尺 最s t ,t w ,w o ,o 7 a 。a p c r 2 ( 王j a m a s r b i c b t r c e r c l s c m c 池 c s r d e t d p d t d t w e b w 英文缩写及主要符号对照表 h m m 状态转移概率 混合高斯概率密度函数 模型间k l d 度量 区分性训练准则 模型空间 高斯概率密度函数 概率 辅助函数 训练集语料序号及语料总数 状态及状态序列 时刻及总时间 词及词序列 观测序列或某具体观测向量 后验概率( 占有率) 声学模型参数 高斯概率密度函数均值及均值向量 高斯概率密度函数方差及协方差矩阵 混合高斯权重 a c o u s t i cm o d e l ,声学模型 a u t o m a t i cs p e e c hr e c o g n i t i o n ,自动语音识别 b a y e s i a n i n f o r m a t i o nc r i t e r i o n ,贝叶斯信息准则 b o u n d e dt r u s tr e g i o n ,有界信任区域 c h a r a c t e re r r o rr a t e ,汉字错误率 c o n s u a i n e dl i n es e a r c h ,受限线性搜索 c o n f i d e n c em e a s u r e ,置信度判决 c o n d i t i o n a lm a x i m u ml i k e l i h o o d ,条件最大似然( 准则) c o n t i n u o u ss p e e c hr e c o g n i t i o n ,连续语音识别 d e t e c t i o ne r r o rt r a d e o f f ,检测错误权衡 d y n a m i cp r o g r a m m i n g ,动态规划 d i s c r i m i n a t i v et r a i n i n g ,区分性训练 d y n a m i ct i m ew a r p i n g ,动态时间规整 e x t e n d e db a u m w e l c h ( a l g o r i t h m ) ,扩展b a u m w e l c h ( 算法) l x 英文缩写及主要符号对照表 e e r e m f a r f b f r r g e r g m m g p d g s h l d a h m m h t k k l d l d a l m l p l r t l v c s r m a p m c e m f c c m l e 。l r 删i m p e n 帆 0 0 v p c a p l p q c q p t r u v w e r e q u a le r r o rr a t e ,等错误率 e x p e c t a t i o n m a x i m i z a t i o n ( a l g o r i t h m ) ,期望最大化( 算法) f a l s ea l a r m ( a c c e p t a n c e ) r a t e ,错误接受率 f o r w a r d b a c k w a r d ( a l g o r i t h m ) ,前后向( 算法) f a l s er e j e c t i o nr a t e ,错误拒绝率 g r a p he r r o rr a t e ,词图错误率 g a u s s i a nm i x t u r em o d e l ,高斯混合模型 g e n e r a l i z e dp r o b a b i l i t yd e s c e n t ,广义概率下降 g a u s s i a ns e l e c t i o n ( a l g o r i t h m ) ,高斯选择( 算法) h e t e r o s c e d a s t i cl i n e a rd i s c r i m i n a n ta n a l y s i s ,异方差线性判别分 析 h i d d e nm a r k o vm o d e l ,隐马尔科夫模型 h i d d e nm a r k o vt o o l k i t ,隐马尔科夫模型工具包 k u u b a c k l e i b l e rd i v e r g e n c e ,k l 度量 l i n e a rd i s c r i m i n a n ta n a l y s i s ,线性判别分析 l a n g u a g em o d e l ,语言模型 l i n e a rp r e d i c t i o n ,线性预测 l i k e l i h o o dr a t i ot e s t i n g ,似然比检验 l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n ,大词汇量连续 语音识别 m a x i m u m a p o s t e d o r i ,最大后验概率( 准则) m i n i m u mc l a s s i f i c a t i o ne r r o r ,最小分类错误( 准则) m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,梅尔频率倒谱系数 m a x i m u ml i k e l i h o o de s t i m a t i o n ,最大似然估计( 准则) m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ,最大似然线性回归 m a x i m u mm u t u a li n f o r m a t i o n ,最大互信息量( 准则) m i n i m u mp h o n ee r r o r ,最小音素错误( 准则) m i n i m u mw o r de r r o r ,最小词错误( 准则) o u t o f - v o c a b u l a r y ( w o r d ) ,集外( 词) p r i n c i p a lc o m p o n e n ta n a l y s i s ,主分量分析 p e r c e p t u a ll i n e a rp r e d i c t i o n ( c o e f f i c i e n t s ) ,感知线性预测( 系数) q u a d r a t i cc o n s t r a i n e dq u a d r a t i cp r o g r a m m i n g ,二次限制下的二 次规划 t r u s tr e g i o n ,信任区域 u t t e r a n c ev c r i f i c a t i o n ,语句确认 w o r de r r o rr a t e ,词错误率 x 英文缩写及主要符号对照表 w f s t w p p w e i g h t e df i n i t es t a t et r a n s d u c e r ,带权有限状态机 w o r dp o s t e r i o rp r o b a b i l i t y ,词后验概率 插图索弓 图1 1 图2 1 图2 2 图2 3 图4 。1 图4 2 图4 3 图4 4 图4 5 图4 6 图5 1 图5 2 图5 3 图5 4 图5 5 图6 1 图6 2 图6 3 图6 4 图6 5 图7 1 图7 2 插图索引 语音识别系统的主要模块5 隐马尔科夫模型h m m 示意图1 1 前向概率与后向概率的图示1 6 不同建模单元的h m m 拓扑结构比较1 9 使用c l s 方法最大化目标函数时各种情况的图示 ( o :) ,模型原始点;口:疋模型关键点;a := 似,) ,模型最优 点( 实际更新点) ;一:目标函数厂的等高线;:限制范围( a p 有效 区域) ;卜:搜索方向;扣:梯度方向) 4 3 基于c l s 更新高斯权重的图示4 7 t i d i g i t s 数据库上基于m m i 准则的各种优化方法性能比较4 9 r m 数据库上基于m m i 准则的各种优化方法性能比较5 0 e v a l 2 0 0 0 测试集上基于m m i 准则的各种优化方法性能比较( m i n i t r a i n j l 练集) 5 1 e v a l 2 0 0 0 澳9 试集上基于m m i 准则的各种优化方法性能比 较( h 5 t r a i n 0 0 劫l l 练集) 5 2 基于b o u n d e dt r u s tr e g i o n 的参数优化算法图示6 5 w s j 0 任务上基于各种参数优化方法的m m i 目标函数比较= 2 0 ) 7 0 w s j 0 任务上基于各种参数优化方法的m m i 目标函数比较g o = 5 0 ) 7 1 w s j 0 任务上基于各种参数优化方法的m m i 目标函数比较g o = 2 0 ,口= 0 。1 ) 7 2 s w i t c h b o a r d 任务上基于各参数优化算法的m m i 目标函数比较g o = l 0 0 0 ,口= 0 7 ) 7 3 基于h t k 的声学模型区分性训练流程7 7 基于w f s t 词图及h t k 统计量计算模块的声学模型区分性训练新 流程7 9 w s j 0 任务上基于不同区分性训练流程的识别性能比较8 l s w i t c h b o a r d 子集上基于不同区分性训练流程的识别性能比较8 2 s w i t c h b o a r d 全集上基于新区分性训练流程的识别性能8 3 命令词识别系统中“目标区域”和“非目标区域 的图示8 7 d b l 和d b 2 数据库上不同配置系统的d e t 曲线9 3 表格索引 表2 1 表2 2 表2 3 表2 4 表3 1 表4 1 表4 2 表4 3 表4 4 表4 5 表4 6 表4 7 表4 8 表4 9 表5 1 表5 2 表5 3 表6 1 表6 。2 表7 1 表7 2 表7 3 表格索引 前向算法描述1 3 v i t e r b i 算法描述1 3 后向算法描述1 6 h m m 模型参数更新算法描述1 8 区分性训练统一准则框架下的目标函数参数2 9 各种情形下c l s 算法的闭式解4 4 更新高斯均值时的c l s 条件和解答4 5 更新高斯方差时的c l s 条件和解答4 6 更新高斯权重时的c l s 条件和解答4 7 各语音识别任务的实验配置4 8 t i d i g i t s 数据库上基于m m i 和m d 准则的各种优化方法的性能比较4 9 r m 数据库上基于m m i 准则和m p e 准则的各种优化方法性能比较5 0 s w i t c h b o a r d 数据库上基于m m i 准则和m p e 准则的各种优化方法性 能比较5 2 8 6 3 中文数据库7 0 0 句测试集性能( c e r ,) 5 3 标准t r u s t r e g i o n i h j 题解法5 7 w s j 0 和s w i t c h b o a r d 语音识别任务的实验配置6 9 w s j 0 和s w i t c h b o a r d 任务上基于各种参数优化算法的识别性能7 3 w s j 0 任务上基于h d e c o d e 和w f s t 解码器所生成词图的比较8 0 s w i t c h b o a r d 子集上基于h d e c o d e 和w f s t 解码器所生成词图的比较8 2 d b l 和d b 2 的命令词识别结果9 l d b i 乘i d b 2 数据库上仅基于非目标区域的置信度性能比较9 2 d b l 和d b 2 数据库上基于不同配置融合后的置信度性能比较9 2 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:麟 签字日期:卫刽垒型兰丝 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 妲么开口保密( 年) 作者签名l 盔:i 萃l 导师签名: 签字日期:驰地= = 签字日期: 2 乜:兰:! ! 第1 章绪论 第1 章绪论 语音是人与人之间最自然、最方便的交流方式之一。从人类发明计算机开 始,到计算机已经和我们生活息息相关的今天,能用语音来和计算机进行朋友式 便捷无阻的“交流”一直是人们一个美好的梦想。其实这不仅仅是一个梦想,相 对于人类主要通过键盘与鼠标来和计算机进行交互的传统方式,这更是科学技 术的重大革新。可喜的是,伴随着语音识别、语音合成、语言理解等多项关键技 术的飞速发展,人类已经在追求这个梦想的道路上跨出了坚实的步伐。在这些关 键技术当中,语音识别技术,又称为自动语音识蔓j l j ( a u t o m a t i cs p e e c hr e c o g n i t i o n , a s r ) ,无疑是最重要、最具有挑战性的核心技术之一。语音识别的目标就是将 人类的语音转换为计算机可读的文本、命令等内容,给计算机戴上“耳朵”。 语音识别技术是一门复杂的多学科交叉技术,覆盖了信号处理、模式识别、 概率论、信息论、声学、生理学、语言学及人工智能等多个领域。而语音识别技 术同样可用于语音拨号、语音导航、文档检索等多个方向,另外,通过与机器翻 译、语音合成等其他关键技术的结合,可以构建出多语种自动翻译等更加复杂 的应用模式。可以说,语音识别技术对人类社会的智能化发展正贡献着不可忽 视的力量。下面我们首先简要回顾一下语音识别技术发展的历史f l 】。 1 1 语音识别简史 早在计算机发明之前,人类就开始了对自动语音识别的初步设想,例如早期 的声码器即可视为语音识别和语音合成技术的雏形。而1 9 2 0 年代生产的“r a d i o r e x ”玩具狗可能是最早的语音识别器【2 】。真正意义上最早基于计算机实现的语 音识别系统是由a t & t 的贝尔实验室在2 0 世纪五十年代发明的a u d r e y 语音识别 系统【3 】,在该系统中,研究人员通过模拟元器件来提取语音中的元音共振峰频 率变化信息,并实现了对十个孤立英文数字的识别。到了五十年代末,伦敦学院 的d e n e s 率先将统计语法加入到语音识别中1 4 l ,用于建立一个识别元音和辅音的 音素识别器。同年,m i t 林肯实验室的研究人员研制出针对特定环境下1 0 个元音 的非特定人识别器【5 1 。 在2 0 世纪六十年代,出现了三个对后续语音识别研究产生深远影响的研究 内容。第一,前苏联人v m t s y u k 提出了基于动态规划算法( d y n a m i cp r o g r a m m i n g 。 d p ) 的动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 算法【6 】,用于解决不同长度 语音句子间的对齐问题。第二,r c a 实验室为了解决语音事件在时间尺度上的 不均匀性,在可靠检测语音内容边界的基础上,发展出一套时间规整的基本 1 第1 章绪论 方法,从而显著降低了识别计算得分时的可变性【7 】。第三项研究工作是卡耐基 梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ,c m u ) 的研究者r e d d y 进行的,他开始尝试 基于动态音素跟踪的方法来进行连续语音识另l j ( c o n t i n u o u ss p e e c hr e c o g n i t i o n c s r ) 的工作【8 1 ,该工作对此后c m u 长期在语音识别领域保持世界领先水平奠 定了一定基础。在这个十年中,日本的几个实验室为了解决计算机运算能力较 差的问题,还制作了专门针对语音识别的专用硬件设备,例如日本r r l ( r a t i o r e s e a r c hl a b ) 的元音识别器【9 】、东京大学的音素识别器b o 、n e c ( n i p p o ne l e c t r i c c o m p a n y ) 的数字识别器【l l l 等。 进入七十年代以后,随着美国国防部高级研究计划署( d e f e n s ea d v a n c e d r e s e a r c hp r o j e c t sa g e n c y , d a r p a ) 提出并推动的语音理解研究计划( s p e e c hu n d e r s t a n d i n gr e s e a r c h ,s u r ) 1 2 】的全面展开,不仅全面推动了语音识别技术的发 展,更重要的是将工业界和学术界等众多研究机构吸引到了语音识别的研究中 来。这其中包括c m u 的h e a r s a y 系统【1 3 】和h a r p y 系统1 1 4 1 、b b n 的h w i m 系统【1 2 1 、 贝尔实验室面向电信系统语音识别的研究,以及i b m 针对大词汇量语音识别 任务研究而形成的面向听写机的t a n g o n 系统等【1 5 】。在语音识别技术发展方 面,l p c 等语音特征参数提取方法【1 6 】、模式识别思想【1 7 】、动态规划方法【1 8 】和线 性预测【1 9 】等基础研究的进步,使得简单的孤立词识别渐渐成为实际可用的任 务。 语音识别在二十世纪八十年代的研究重点逐渐由孤立词识别向连续语音识 别扩展。针对连接词识别的需求,研究者提出各种连续词序列匹配的算法,包 括贝尔实验室提出的层建法 2 0 1 以及帧同步层建法【2 1 1 、n e c 提出的两层动态规 划方法 2 2 1 等。在此时期的一个重大突破是语音识别开始由简单的基于模版匹配 的方法向基于统计概率模型的框架转变,该框架在当今众多实用化语音识别系 统中依然采用。伴随着统计建模框架的发展,隐马尔科夫模型( h i d d e nm a r k o v m o d e l ,h m m ) 的理论逐渐趋于完善并用于实际系统中 2 3 - 2 5 。除此之外,各方向 技术点也全面推进:在语言模型方面,基于n g r a m 语言模型的提出,对大词汇 量连续语音识别( l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n ,l v c s r ) 起到了 不可或缺的作用幽;在声学特征提取方面,倒谱系数的提出,以及简单但有效 的一阶二阶差分系数【2 7 1 的加入,成为此后语音系统最常使用的经典特征之一; 神经网络也被引入语音识别领域并从理论上和模式分类方法联系在一起进行分 析 2 8 , 2 9 1 。此外,在整个8 0 年代,d a r p a 继续保持对语音识别的支持和推动,在该 阶段中,d a r p a 提出了一仰c s r 系统的研究目标:在一个千词数据库管理任 务上提高语音识别的正确率。在这样的大环境下,来自多个知名机构的语音识 别系统应运而生,这其中包括c m u 的s p h i n x 系统【3 0 3 1 1 、s r i ( s t a n f o r dr e s e a r c h i n s t i t u t e ) 的d e c i p h e r 系统f 3 2 1 、b b n 的b y b l o s 系统【3 3 】等。这些日渐成熟的语 2 第1 章绪论 音识别系统都在不断推动着语音识别技术的发展。 进入九十年代,d a r p a 继续加大对语音识别的投入,并逐步扩大到各种应 用领域的语音识别任务。在此期间,d a r p a 提出的任务包括针对自然语音识别 处理的航空旅行信息检索服务( a i rt r a v e li n f o r m a t i o ns e r v i c e ,a t s ) ,以及分别 针对广播新闻和电话语音的较高难度的语音转写任务。在d a r p a 及美国国家 标准和技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y , n i s t ) 的大力推 进下,推出了包括海军资源管理( r e s o u r c em a n a g e m e n t ,r m ) 、华尔街日报( w a l l s t r e e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论