




已阅读5页,还剩67页未读, 继续免费阅读
(信号与信息处理专业论文)区分性训练和区分性自适应在自动语音识别声学模型优化中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着基于统计模型的模式分类理论不断发展完善,自动语音识别技术近年 来取得了长足的进步。区分性训练已经成为自动语音识别中声学模型训练和参 数优化的标配方法之一。除了被用作声学模型参数更新优化的指导准则,还可 将其与传统的线性回归、最大后验概率等自适应方法相结合,扩展为区分性自 适应方法;另外特征端的区分性线性变换方法也已被提出并在一些实际的声音 转写系统上得到了应用。本文将围绕以上内容进行讨论。 首先,本文第一章会对自动语音识别技术发展历程做一概括总结。接下来 在第二章中将对传统的最大似然准则、各区分性训练准则用于声学模型参数i ) i i 练优化更新的方法进行说明和比较,并给出它们在中英文多个数据库多种任务 上的性能对比,在各测试任务上至少相对1 5 以上的最优性能提升结果进一步 验证了区分性训练准则对声学模型参数优化显著的有效性。 其次,本文第三章在对传统自适应方法做一简要回顾的基础上,将详细讨论 区分性训练准则与传统自适应方法相结合的区分性线性回归( d t - l r ) 及区分性 最大后验概率( d t - m a p ) 的推导和实现,提出了全新的基于m w c e 准则的区分性 自适应方法( m w c e l r 和m w c e m a p ) ,并首次将d t - l r 和d t - m a p 组合用于声 学模型自适应优化。同时还分别给出它们在大词汇量中文连续语音识别任务和 英文单词拼写识别任务集上的测试性能对比。从中可以看到相比于基于最大似 然准则的自适应,区分性自适应方法可以获得进一步的识别性能改善,这也为使 用自适应方法调整模型参数提供了一种全新的有效选择。 最后,本文详细讨论将区分性训练准则扩展到前端特征变换的一种有 效尝试一最小音素错误准则指导下的线性特征变换方法f e a t u r em i n i m u mp h o n e e r r o r ( f m p e ) 的原理,并且在h t k i 具包基础上完成了相应功能模块的实现。这 种方法进一步扩展了区分性训练准则的应用范围,是对区分性训练准则指导下 声学模型参数优化的一种有益补充。从实验结果对比中可以看到,将区分性训 练准则用于指导进行特征线性变换也同样能够取得良好的效果。以上内容会在 本文的第四章进行介绍。 关键词:自动语音识别声学模型区分性训练自适应区分性特征变换 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ea u t o m a t i cs p e e c hr e c o g n i t i o nt e c h n o l o g yw h i c h i sb a s e do nt h es t a t i s t i c a lp a t t e r nr e c o g n i t i o nt h e o r i e s ,r e m a r k a b l ep r o g r e s sh a sb e e n a c h i e v e di nr e c e n ty e a r s d i s c r i m i n a t i v et r a i n i n gh a sb e c o m eo n eo ft h es t a n d a r dc o n f i g u r a t i o nm e t h o d s f o rt h es t a t e o f - t h e - a r ta c o u s t i cm o d e l i n ga n dp a r a m e t e r so p t i m i z a t i o n b e y o n dt h a t , t h e s ed tc r i t e r i ah a v ea l s ob e e na d o p t e dt oc o m b i n ew i t ho t h e ra d a p t a t i o ns t r a t e g i e s , s u c ha sl i n e a rr e g r e s s i o n ( l r ) a n dm a x i m u ma p o s t e r i o r ( m a p ) a l lt h e s em e t h o d s h a v eb e e na p p l i e di ns o m er e a ls y s t e m s ,t h ev a l i d i t yo ft h e mh a sb e e np r o v e dt ob e u s e f u lb yt h ee x c i t i n gi m p r o v e m e n t sr e s u l t s t h es t r a t e g yo fd tb a s e dl i n e a rt r a n s f o r m b e i n ga p p l i e di nt h ef e a t u r ee n dh a sa l s ob e e ni m p r o v e dt ob eu s e f u l a l lt h ed e t a i lo f t h e s et e c h n o l o g i e si sd e s c r i b e di nt h i st h e s i s f i r s t l y , t h i st h e s i sg i v e sa no v e r v i e wa n ds u m m a r y o nt h ed e v e l o p m e n th i s t o r yo f a s ri nc h a p t e ro n e i nt h es e c o n dc h a p t e r ,t h et r a d i t i o n a la c o u s t i cm o d e l i n gs t r a t e g i e s , s u c ha sm a x i m u ml i k e l i h o o de s t i m a t i o n ( m l e ) ,d i f f e r e n td i s c r i m i n a t i v et r a i n i n gc r i t e r i a ( d t ) a n ds o m eu p d a t i n gm e t h o d so fa c o u s t i cm o d e lp a r a m e t e r sa r ei n t r o d u c e d s e p e r a t e l y t h ee f f e c t i v e n e s so fd ti so b v i o u s l yp r e s e n t e di no u re x p e r i m e n t s w e c o m p a r e dt h er e s u l t so nm u l t i p l ec h i n e s ea n de n g l i s hr e c o g n i t i o nt a s k sw h i c hs h a r e s d i f f e r e n tr e c o g n i t i o nt y p e s ,t h er e l a t i v ep e r f o r m a n c ei m p r o v e m e n t sa r ea l la b o v e1 5 s e c o n d l y , t h et r a d i t i o n a la d a p t a t i o nm e t h o d sa r eb r i e f l yr e v i e w e di nt h et h i r dc h a p t e ro ft h i st h e s i s t h en e w a d a p t a t i o ns t r a t e g i e sw h i c hc o m b i n e t h ed i s c r i m i n a t i v et r a i n - i n gc r i t e r i aw i t ht h et r a d i t i o n a la d a p t a t i o no n e sa r ei n t r o d u c e di nd e t a i l t h e ya r el i n e a r r e g r e s s i o nw i t hd i s c r i m i n a t i v et r a i n i n g ( d t - l r ) a n dm a x i m u map o s t e r i o r iw i t hd i s c r i m i n a t i v et r a i n i n g ( d t - m a p ) ,w ee x p a n dt h e mw i t ht h em w c ec r i t e r i o nc r e a t i v e l y a n db o t ho fd t - l ra n dd t - m a pa r ec o m b i n e dt o g e t h e rt ob ea d o p t e df o ra d a p t a t i o n i nt h i st h e s i s t h ee x p e r i m e n t a lr e s u l t so nb o t hc h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n t a s k sa n de n g l i s hs p e l l i n gt a s k sa r ec o m p a r e di nd e t a i l f r o mt h ee x p e r i m e n t a lr e s u l t s , i ti so b v i o u s l yt h a tt h ed tb a s e da d a p t a t i o ns t r a t e g i e so u t p e r f o r mt h et r a d i t i o n a lm l e b a s e do n e sa n dt h e yc o u l db en e we f f e c t i v ec h o i c et ob ea p p l i e df o ra d a p t a t i o n f i n a l l y ,t h ee x p a n da p p l i c a t i o no ft h ed i s c r i m i n a t i v et r a i n i n gc r i t e r i af o rt h el e a - t u r ee n d sl i n e a rt r a n s f o r mm e t h o d f e a t u r em i n i m u mp h o n ee r r o r ( f m p e ) w h i c hi s s t r i c t l yi n t r o d u c e di nc h a p t e rf o u r t h i sa l g o r i t h mi sr e a l i z e db a s e do nh t ki n d e p e n - i i d e n t l ya n di ti sau s e f u ls u p p l e m e n to ft h et r a d i t i o n a ld tc r i t e r i af o rt h eu p d a t i n go f a c o u s t i cm o d e lp a r a m e t e r s f r o mt h ee x p e r i m e n t a lr e s u l t s ,s o m ef a v o r a b l e i m p r o v e m e n t sh a v ea l s ob e e na c h i e v e d i ti sv e r yo b v i o u s l yt h a tt h em p ec r i t e r i o nc o u l dn o t o n l yb eu s e f u lo nt h em o d e lp a r a m e t e r so p t i m i z a t i o nb u ta l s oo nt h ef e a t u r ee n d sr e f i n e m e n t k e y w o r d s :a u t o m a t i cs p e e c hr e c o g n i t i o na c o u s t i cm o d e l i n gd i s c r i m i n a t i v et r a i n i n g a d a p t a t i o n d i s c r i m i n a t i v ef e a t u r et r a n s f o r m i i i 插图索引 插图索引 图1 1语音识别系统的组成框图3 图1 2m f c c 特征提取流程4 图1 3声学模型与语音对应关系5 图1 4词图示例7 图2 1表示上证综指日常波动的马尔科夫链9 图2 2表示上证综指所处趋势的h m m 模型1 0 图2 ,3前向算法示意图1 1 图2 4后向算法示意图1 2 图2 5维特比解码回溯示意图1 3 图2 6e m 算法参数估计示意图1 4 图2 7区分性训练准则概览1 8 图2 。8辅助函数图解2 0 图2 9“正确句子集合”m 俘的示意图。包括图中标为深黑色的三条句 子,即句子、m ,以及肌佻。2 6 图2 1 0 “错误句子集合”m 也的示意图。包括图中标为深黑色的两条句 子,即句子肌肌鹏以及肌肌职2 6 图2 1 1h i k 工具框架下的m l e 准则模型训练流程2 8 图2 1 2h t k 工具框架下的区分性模型训练流程2 9 图2 1 3 渐进式区分。 生( p r o g r e s s i v ed t ) j i i 练流程图一3 1 图2 1 4m m i 渐进式区分性训练在t i m i t 数据库上的结果3 l 图2 1 5m m i 渐进式区分性训练在w s j on o v 9 25 k 词测试集上的识别结果3 2 图3 1m a p 更新模型参数3 7 图3 2自适应模型训练流程4 3 图4 1f m p e 实现流程4 9 图4 2f m p e 高维特征向量的生成5 0 图4 3f m p e 高维特征向量生成的简化方式5 0 图4 4f m p e 实验流程5 3 图4 5f m p e 在w s j o 数据库上的识别结果1 5 4 表格索引 表2 1 表2 2 表2 3 表2 4 表2 5 表3 1 表3 2 表3 3 表3 4 表3 5 表4 1 表4 2 表4 3 表格索引 各区分性准则在w s j 0n o v 9 25 k 词测试集上的识别结果,词错误 率( w o r de r r o rr a t e ,w e r ) 和相对m l e 基线性能提升( ) 2 9 渐进式m m i 训练在t i m i t 数据库上的测试结果( p e r ) 3 l 渐进式m m i 训练在w s j 0n o v 9 25 k 词测试集上的识别结果( w e r ) 3 2 中文大词汇量连续语音识别性能比较( c h a r a c t e re r r o r r a t e ,c e r 和相对基线模型性能提升) 3 4 中文电话命令词识别任务测试结果( s e r ) 和相对基线模型性能提 升( ) 3 4 m l e 基线模型和区分性训练各准则模型在8 6 3 自适应测试集上的 性能比较4 4 在8 6 3 自适应测试集上区分性自适应结果比较( 基线模型为m l e 准 则训练) 4 4 在8 6 3 自适应测试集上区分性自适应结果比较( 基线模型为对应区 分性训练) 4 4 在清华桌面数据库( 广州地区) 测试集上的自适应结果对比( 基线模 型为m l e 准则训练) 4 5 在清华桌面数据库( 广州地区) 测试集上的自适应结果对l t ( 基线模 型为对应区分性训练准则训练) 4 6 f m p e 在w s j 0 数据库上的识别结果2 5 5 f m p e 在w s j 0 数据库上的识别结果3 5 5 f m p e 在w s j 0 数据库上的识别结果4 5 6 6 1 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:壁笪 珥年月三日 第1 章绪论 第1 章绪论 1 1背景简述 科学创造进步,技术改变生活。随着近代电子信息通信产业的快速蓬勃发 展,多年前科幻作品中勾勒的众多梦幻场景正在人们的生活中一一呈现。而当 我们享受着这些技术所带来便利的时候,如何能够让手边各式各样功能多样化、 装置迷你化的电子产品更方便地被使用,就成了我们所追求的下一个目标。 自然的语音交流是人们相互沟通最为便捷的一种途径,如果能使人与机 器进行流畅的语音交流,必然会有效提高用户使用体验,同时也会让更多的人 愿意和容易使用各种电子类消费产品。这种顺畅的人机交流模式是人们长久 以来的愿望,而真正要实现它,则依赖于包括自动语音识另l j ( a u t o m a t i cs p e e c h r e c o g n i t i o n ) 、语音理解( s p e e c hu n d e r s t a n d i n g ) 、语音合成( s p e e c hs y n t h e s i s ) 等诸 多关键技术的综合应用。自动语音识别技术作为重要的核心技术之一,其功能就 是让机器完成将信息从语音到文本的转换,并保证在此过程中正确理解信息含 义。这涉及到多学科知识的交叉融合,包括了声学、生理学、心理学、信号处理、 模式识别、人工智能、信息论、语言学以及计算机科学等不同学科的相关领域。 早在一百多年前,人类便开始了对电与声的孜孜追求。1 8 7 6 年贝尔发明的 电话首次实现了利用声电、电声转换技术进行远距离通信,这项技术也很大程 度上哺育和见证了美国电话和电报公司( a t & d 这家百年老店的出生与茁壮成 长。然而直到1 9 5 2 年a t & t 旗下的贝尔实验室才首次成功地在模拟元器件的基础 上根据语音第一、二共振峰位置提取特征的方法完成了能够识别十个英文数字 的实验装置【l 】1 。 到了上世纪七十年代后,美国国防部先进技术研究项目管理局( d e f e n s e a d v a n c e dr e s e a r c hp r o j e c t sa g e n c 5d a r p a ) 资助多家著名研究机构进行庞大的 语音理解系统的研究,这一段时期为语音识别技术发展的良好开端,同时伴随 着拥有大规模集成电路技术的计算机问世,使得更快速高效的计算方式成为 可能。这期间使用的主流技术有:基于动态规划技术的动态时间规整( d y n a m i c t i m ew a r p i n g ,d t w ) 方法【2 】,它主要解决了语音模板与语音实例之间的对齐问 题,将语音识别的研究从硬件研制拉入到计算机模拟实验的新时代;线性预 测编码( l i n e a rp r e d i c t i v ec o d i n g ,l p c ) 对信息压缩和特征提取也有重要的推动作 用,它使得采用基音等特征进行语音识别成为可能【3 】;l i n d a 、b u z o 、g r a y 等人 提出的矢量量化以及l b g 聚类算法【4 】也在语音识别等模式分类领域得到了广 1 第1 章绪论 泛的应用;上述这些技术很大程度上奠定了现代语音识别技术发展的基础。更 为重要和具有划时代意义的是,i b m 的贾里尼克( f r e dj e l i n e k ) 和卡耐基梅隆大 学( c a r n e g i em e l l o nu n i v e r s i t y , c m u ) 的贝克夫妇( j i ma n dj a n e tb a k e r ) 分别独立地 提出使用隐含马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 来进行语音识别,其错 误率相比人工智能和模式匹配等方法降低了三倍( 从3 0 至u 1 0 ) 1 5 1 6 1 。同时,包 括c m u 的h a r p y 系统 7 1 、h e a r s a y 系统【8 】、b b n 的h w i m 系统1 9 、i b m 面向听写机 的研究和贝尔实验室面向电信业务的语音识别研究等实际系统也都在这一时期 一一问世。 进入上世纪八九十年代以后,自动语音识别的相关研究取得了重大进 展,h m m 统计模型理论进一步成熟完善【l o 】,大词汇量连续语音识别( l a r g e v o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n 。l v c s r ) 系统的研发逐渐成为主流趋 势,包括李开复在c m u 时研制成功的第一个针对非特定人的大词汇量语 音识别系统s p h i n x 系统1 1 1 1 ,i b m 的识别率可以达到9 4 6 篚j t a n g o r a 2 0 系统【1 2 1 , 在1 9 9 7 年i b m 也推出了针对汉语听写产品v i a v o i c e 。与此同时,隐马尔科夫模型 工具包( h i d d e nm a r k o vt o o l l d t ,h t k ) 1 3 1 等软件的推出以及公开化,使得对自动 语音识别研究的门槛大大降低,从而进一步掀起了这一领域研究的热潮。 在新千年到来之后,d a r p a 全球自动语言开发计j i l j ( g l o b a la u t o n o m o u s l a n g u a g ee x p l o i t a t i o n 。g a l e ) 的提出,使得业已存在及正在逐渐成熟的各项语音 识别技术得到了空前的整合 1 4 1 1 5 1 。更多新颖的技术也逐渐出现在各类商用产品 中:例如在媒体影音领域自动转写( a u t o m a t i ct r a n s c r i p t i o n ) 生成对应字幕( c l o s e d c a p t i o n ) 的应用日益增多,比如尝试以非监督方式进行声学模型训练,从大量 语料中选取较为可靠的片段用于训练,以省去人工标注的资源开销1 1 6 1 ;或是以 发音确认的技术辅助判决人工标注是否完全正确,利用信心度评估( c o n f i d e n c e m e a s u r e ) 对自动转写语料进行筛选,选取标注正确的语料用于非监督训练等【1 7 1 , 这些技术都是自动语音识别核心技术的实际应用形式。另一方面,n u a n c e 公司 的各类识别系统产品已经可支持超过2 0 种语言的各类识别任务,为语音产业树 立了模范的标杆;微软的v i s t a 操作系统以及o f f i c e 办公处理软件也加入了语音 识别和语音合成等功能模块;g o g g l e 在2 0 0 8 年1 1 月推出了专门针对i p h o n e 用户 使用的基于语音识别和搜索技术的免费移动搜索软件g o g g l em o b i l ef o ri p h o n c , 使用它用户可以在任意地方得到诸如“最近的星巴克咖啡在哪里? ( 目前仅限英 文) 此类问题的快速解答,使得无用户可视界面( u n v i s i b l eu s e ri n t e r f a c e ) 的快 速搜索模式成为可能;在2 0 0 9 年3 月苹果也发布了搭载支持1 4 种语种的语音功能 模块v o i c eo v e r 的新一代m p 3 产品“会说话的领带夹 i p o ds h u f f l e5 。伴随着个 人无线网络通讯终端的更新换代以及高速无线宽带接入技术的平民化应用,搭 载语音识别、语音合成、机器翻译等技术的无线网络搜索技术已成为现阶段以 2 第1 章绪论 帅扣取 _ 1 r 别结果输出 。 型磁卟 扣u t l t 蠹型h 图1 1语音识别系统的组成框图 及未来一段时间的研究热点,自动语音识别乃至整个语音相关产业迎来新的发 展机会。 1 2 自动语音识别系统构成 目前使用最为广泛的语音识别技术是以统计模型为基础的,其出发点非常 直观,从众多备选词( 语句) 中寻找最接近待测目标的那一个出来。因而整个过程 可以被处理为一个搜索问题,在给定一段待测语音信号的基础上,找到与其相似 度最大的对应文本。用数学式表示为: w = a r g m a x p ( w10 ) ( 1 一1 ) 上式中0 = 1 0 1 , 0 2 ,0 r ) 为待测语音信号的观测值,w 是所有备选词集合, p ( wl0 ) 是在给定观测值0 的情况下为实际发音词序的后验概率,如果用贝 叶斯公式将其展开可以得到: p ( wi 。) = p ( o 矿iw)p(w)(1-2) 其中,p ( ol 聊是词序产生观测值0 的似然值( l i k e l i h o o d ) ,表征了语音特征 向量与不同备选词的相似程度,这个概率值一般可以通过预先设定的概率分布 或模型进行统计,并将其称为声学模型( a c o u s t i cm o d e l ,a m ) ,通常使用h m m 对 其建模。尸( 忉为词序列发生的先验概率( p r i o rp r o b a b i l i t y ) ,表征了词序列 在整个备选词集合中出现的概率,此部分被称为语言模型( l a n g u a g em o d e l ,l m ) 。 上式中分母的p ( o ) 项是观测值0 的先验概率值,对求解最优词序列没有影响, 因而对最优词序列矿的求解可以重新写为: w = a r g m a x p ( oi p ( 聊 ( 1 3 ) 上式表示根据最大后验概率( m a x i m u map o s t e d o r i ,m a p ) t l s 搜索解码方法求解 最优词序解。 第1 章绪论 回 图1 2m f c c 特征提取流程 声学模型、语言模型、解码搜索模块再加上输入模型前端的特征提取模块 便构成了整个语音识别系统( 图1 1 ) 。 1 2 1 特征提取模块 特征提取的目的在于将一段采集得到的语音信号转化为计算机能够处理 的语音特征向量序列( s p e e c hf e a t u r ev e c t o rs e q u e n c e ) 形式。在这个过程中我们 希望得到的特征向量能够符合或类似于人耳的听觉感知特性,并在一定程度 上能够起到增强语音信号抑制非语音信号的作用,常用的方法如梅尔域频率 倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,m f c c ) t 1 9 】,其提取流程如图( 1 2 ) 所 示。感知线性预测编码( p e r c e p t u a ll i n e a rp r e d i c t i o nc o e f f i c i e n t s ,p l p ) t 2 0 】等;同时 还能保证提取得到的特征有较强的辨识性和区分性能力,这一部分常用的 方法为线性判别分析( l i n e a rd i s c r i m i n a n ta n a l y s i s ,l d a ) t 2 1 1 ,异方差线性判别 分析( h e t e r o s c e d a s t i cl i n e a rd i s c r i m i n a n ta n a l y s i s ,h l d a ) t 2 2 】;另外具有较强的 区别于噪音以及信道等影响的鲁棒性也非常的重要,主要包括倒谱平均消 去( c e p s t r a lm e a ns u b t r a c t i o n ,c m s ) t 2 3 】以及倒谱正规化方法( c e p s t r a ln o r m a l i z a - t i o n 。c n ) 1 2 4 1 等。 1 2 2 声学模型 隐马尔科夫模型现在被最广泛的用于语音识别的声学模型建模,它是一套 以参数表示,描述随机过程统计特征的概率模型,由马尔科夫链演变而来。连 续语音片段经过特征提取后转换得到的特征矢量序列非常适宜用h m m 对其进 行观察和状态转移描述,同时h m m 也可以按照每个状态中的观测概率的不同估 计方式分为离散型、半连续性、连续型三种;目前a s r 系统中大多都使用连续 型h m m 进行建模,其中的每个状态也分别由多高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g m m ) 模拟特征向量的概率分布情况。这样,初始概率分布、状态转移概 率分布、观测概率分布就组成了h m m 的三元参数组。在图( 1 3 ) 中简要说明了声 学特征序列与h m m 声学模型间的对应关系。 4 第1 章绪论 ke j 母川 瓜 na 当圆錾昌 i s l |8 s 2 0_ s 3 i讥 吣 l ,l | f 叽 j帅 岘 制 ;i 第1 章绪论 法( t r a n s f o r m b a s e da d a p t a t i o n ) ,主要有估计模型变换矩阵( t r a n s f o r mm a t r i x ) 的 声学模型空间( m o d e ls p a c e ) 自适应方法f 3 0 】1 3 1 1 ,这种方法提出回归类( r e g r e s s i o n c l a s s ) 酐j 概念,使同一类中的模型参数共享数据训练得到变换矩阵并对模型参数 进行变换的线性回归方法( l i n e a rr e g r e s s i o n ,l r ) ;而特征空间( f e a t u r es p a c e ) 的自 适应方法【3 2 j 在一定程度上也可以转化为模型空间的变换 3 3 1 。本文将详细讨论各 种基本区分性训练方法,以及它们与模型空间自适应方法的结合,并且在本文中 所涉及的自适应方法均在有参考文本监督下进行。 1 2 3 语言模型 最基本朴素的语言模型就是n 连词模型( 包含n 个词的序列在文本中出现的 概率) ,其最先由信息论之父香农( s h a n n o n ) 提出,它被用于解决“在给定一个字 母序列的情况下下一个字母最有可能是什么? ”的问题。由于其简洁和有效的特 性,已经发展成为自然语言处理中解决分词等关键问题的有效手段,这对于语音 识别、机器韶译、手写识别、拼写纠错、信息检索等都有重要意义。自动语音识 别中用到语言模型正是借用了自然语言处理的很多成功经验而基于统计方式得 到。假定w = f w l ,w 2 ,w n ) 的词序列产生的概率为p ( 1 【:i ,) ,利用n 1 阶马尔科夫 模型的假设,即假设词w f 的产生只与前n 1 个词有关,则有: 占二 烈聊= p ( w l ,w 2 ,w n ) = ilp ( w ifw i ,w 2 ,w i - 1 ) l lp ( w ii + 1 ,w i - 1 ) 各f各 l ( 1 4 ) 除了n = 1 的单词模型( u n i g r a m ) 之外,最为常用的有n = 2 的双连词模 型( b i g r a m ) ,n = 3 的三连词模型( t r i g r a m ) 。随着数据的不断积累和计算机运 算速度的提升四连词模型( q u a d r i g r a m ) 以及五连词模型( q u i n t a - g r a m ) 也已经出 现并被使用。可以看到随着语言模型阶次的提高,其精细和准确程度也相应增 加,但这在具体使用和运算中也会加大系统开销。并且在训练语言模型中也会 同样遇到数据稀疏的问题,导致某些词组合的样本出现概率为o ,可以采用一些 平滑算法进行处理【3 4 】【3 5 】。 1 2 4 解码器 解码过程是将前面几步中提取得到特征向量经由声学模型相似度计算和语 言模型路径搜寻后找到最符合输入语音词序列输出的过程。如式( 1 3 ) 所示,声 学模型相似度计算是利用声学模型参数去估计某个音素产生当前这段语音的可 能性,也就是找到对于当前的观测向量d 序列找出最大的以fo ) 对应的驴, 语言模型路径搜索过程需要结合语言模型使用动态规划中的维特比解码( v i t e r b i d e c o d i n g ) 3 6 搜索方法,找到一条最佳路径词序列。另一方面,由于搜索空间会 6 第1 章绪论 疫情影响 图1 4 词图示例 随着词序列的长度呈指数增长,因而在搜索过程中还需要由搜索路径进行裁 剪( p r u n i n g ) 去淘汰概率较低的路径,降低运算的复杂度和内存开销,提高搜索效 率。对于一些时间异步的搜索算法,通常可以通过先使用简单模型快速得到一 些候选,再在后续过程中使用更精细模型重新打分的方式进行。初次解码可以 保留n b e s t 歹u 表【3 7 】【3 8 】或词图( w o r dg r a p h ,l a t t i c e ) 形式【3 9 】,其具有形式简洁的优 点,这种能够保留更多竞争空间信息的特性在区分性训练中就显得尤为重要,如 图( 1 4 ) 所示,给出了一个词图的示例。 1 3 本文的主要内容和组织结构 本文主要讨论自动语音识别中声学模型区分性训练以及将自适应的各种方 法与区分性训练相结合的相关问题。文中涉及的主要内容和创新点主要包括:传 统区分性训练准则在多种不同任务和数据库上的测试、渐进式的区分性训练的 讨论;使用将传统m c e 准则细化到词一级的新准贝u m w c e 与线性回归准则、最 大后验概率相结合的区分性自适应方法,以及其与其它各种区分性自适应方法 的比较:区分性训练准则在特征变换方面的实例f m p e 等内容。 本文第2 章介绍h m m 声学模型的最大似然准则以及区分性训练准则的训练 优化方法,同时也会比较区分性训练准则在中英文各个数据库以及不同任务上 的识别性能,渐进式区分性训练等内容;第3 章主要介绍区分性自适应的内容, 包括模型空间的d t - l r ,d t - m a p 以及它们进行不同组合搭配的自适应方法比较 等;第4 章主要介绍特征空间变换的一个区分性训练准则方法f m p e ,用以进行 特征端区分性线性变换;第5 章为全文的总结与展望。 7 第2 章基于h m m 的声学模型训练及参数优化方法 第2 章基于h m m 的声学模型训练及参数优化方法 2 1h m m 模型基本理论 现今主流的语音识别技术都采用了基于统计的方法,只有在合理的统计模 型基础之上建模才能训练得到合理描述语音特征分布的声学模型。其困难就在 于如何描述语音时长不等、随机分布等多变性的特点。作为具有双重随机过程 的有限状态机,隐马尔科夫模型也就自然能够对多变的语音观察序列有很强的 表达能力,另外简洁的数学形式和易于处理的特点使得其被广泛应用于语音识 别领域。 2 。1 1h m m 白o 概念和数学定义 马尔科夫链描述了一个最小记忆系统:在时刻t ,观测事件所处状态瓯必定 处在马尔科夫链个状态中的一个( 1 & ) ,并且其进入当前状态的概率仅 与前一时刻所处状态有关:p ( s fis o ,s l ,s t - 1 ) = p ( s fis t - 1 ) 。下面我们以证券市 场中上证综指每天的波动为例来说明马尔科夫链的定义。如图( 2 1 ) 所示,假设当 前交易日相对于前一天由“上涨”、“下跌 、“持平”三种状态标示,上证综指每 日的波动情况就可以用这三种状态的跳转来表示。所用到的参数为状态转移矩 阵a 和初始概率分布7 1 : f 0 6 o 20 2 1 a = l _ lo 5 o 3 o 2 l 【o 4 9 1 0 5 j ( 2 1 ) o 51 、。 7 r = 1 - i l io 2l l o 3j 其中a l j = p ( s 产jis t - i = d 表示状态跳转概率,为从状态f 转移至状态j 发生的 概率,乃= p ( s o = 力表示初始概率,表示在起始时事件处于状态f 的概率。这样 可以算出连续5 日都为上涨的概率为:p = 0 5x ( o 6 ) 4 = 0 0 6 5 。 h m m 模型是由随机过程中的马尔科夫链演变而来,它可以通过参数的形 式描述语音这类随机过程的统计特性。在h m m 中,存在有双重随机过程:第一 层次是模型内各个状态间的转移,第二层次是各状态对应的输出,这个是可以 被观察到的而前者则是“隐藏 起来不能被外界直接观测到。仍以上证综指为 r 第2 章基于h m m 的声学模型训练及参数优化方法 b 恢引 亿2 , 7 1 i = 1 ,7 1 i 芝o ( 2 - 3 ) 叼= p ( 轳jl 踮l = f ) ,叼o ,叼= 1 ( 2 - 4 ) 第2 章基于h m m 的声学模型训练及参数优化方法 在语音识别中通常选用连续型h m m ,这样b i ( o ,) 通常被定义为混合高斯密 度函数形式: m - = 稍ev l 训c i m 蘅e x p 一乏1 ( 。一p 拥) r y 石l m ( o - i z i m ) ( 2 - 6 ) 其中,c 拥是状态f 中第m 个混合高斯成分的权重,并且c m 0 ,mc f m = 1 ,d 是观测向量o 的维数,弘拥和概则分别为均值向量及协方差矩阵。 从上述定义可以看到,h m m 所描述的随机序列与有限状态的一阶马尔科夫 链具有相似之处,即通过初始分布、状态转移概率矩阵来描述有限长随机序列 的统计特性。其主要差别在于:在马尔科夫链中,每个观察样本可以确定到归 属于有限状态机的某个状态,而在h m m 中,仅通过观察样本并不能确定相应时 刻阿v i m 所处的状态,而仅仅能够得到处在每个状态的概率值,这种双重随机过 程恰好适合用于描述语音发音的过程并能极大降低声学模型参数的数量,从而 使参数估计、解码等问题复杂度大大降低,方便声学模型训练工作。 印嘲 0 5 图2 2 表示上证综指所处趋势的h m m 模型 2 1 2h m m 应用中的三个基本问题 采用h m m 进行语音识别建模,真正使用到语音识别系统中还需要解决三个 基本问题:首先,如何有效的计算在给定模型参数= ( 7 r ,a ,b ) 的情况下产生观 测序列0 的概率p ( ol ) ,这也被称为评估问题;其次如何选择最优的状态序 列s = k ,町) 描述对应的输入观测序列0 ,这样我们才能对其进行解码找出 其下所隐藏的状态转移过程,这也被称为解码问题;最后如何调整模型参数, 能够使得p ( oi ) 达到最大,这也被称为训练问题。上述三个问题是否能够很好 的被解决,决定了最终所得到声学模型的性能。下面逐一对其进行求解说明。 1 0 第2 章基于h m m 的声学模型训练及参数优化方法 2 1 2 1评估问题 假设观测序列0 = ( 0 l ,0 2 ,0 7 】按一定的概率对应状态序列s = i j ls 2 s t l ,穷举所有可能出现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业银行2025酒泉市秋招笔试综合模拟题库及答案
- 邮储银行2025楚雄彝族自治州秋招笔试综合模拟题库及答案
- 邮储银行2025黔东南苗族侗族自治州秋招笔试价值观测评题专练及答案
- 2025年3D打印的医疗设备制造
- 2025年3D打印的3D打印技术
- 建设银行2025博尔塔拉蒙古自治州秋招群面模拟题及高分话术
- 交通银行2025衡水市秋招笔试综合模拟题库及答案
- 农业银行2025驻马店市秋招笔试创新题型专练及答案
- 邮储银行2025秋招无领导小组面试案例库江西地区
- 农业银行2025淮南市秋招笔试专业知识题专练及答案
- GB/T 31341-2014节能评估技术导则
- GB/T 29114-2012燃气轮机液体燃料
- GB/T 24218.3-2010纺织品非织造布试验方法第3部分:断裂强力和断裂伸长率的测定(条样法)
- GB/T 18690.1-2009农业灌溉设备微灌用过滤器第1部分:术语、定义和分类
- GB/T 12470-2018埋弧焊用热强钢实心焊丝、药芯焊丝和焊丝-焊剂组合分类要求
- GB/T 10799-2008硬质泡沫塑料开孔和闭孔体积百分率的测定
- GA/T 1193-2014人身损害误工期、护理期、营养期评定规范
- FCI测试试题附答案
- 博微配电网工程设计软件
- 教育科研:教师职业成长的阶梯课件
- C语言程序设计案例教程-完整版ppt全套教学教程(最新)
评论
0/150
提交评论