




已阅读5页,还剩60页未读, 继续免费阅读
(机械电子工程专业论文)汉语连续语音识别及其在移动机器人导航中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 论文题目:汉语连续语音识别及其在移动机器人导航中的应用 学科专业:机械电子工程 研究生:马萧签名: 指导教师:傅卫平教授签名: 摘要 汉语连续语音识别的研究已经进行了十多年,取得了一定的成果,但仍然有许多重大 的技术问题亟待解决。首先,声学模型的鲁棒性和准确性有待进一步提高,需要深入研究 语境相关的声学建模,特别是汉语三音予模型;其次,当训练和识别的环境由于信道和背 景噪声的不同或者说话人自身原因而导致系统识别率下降,需要我们深入研究自适应的方 法;最后,我们还需要研究技术的可移植性,即如何将识别结果二次利用,以期加快新领 域的研究速度。本文的主要研究工作围绕这些关键技术问题展开。 首先,研究了基于决策树的三音子建模技术。针对汉语语音识别,我们研究了决策树 建模中必须解决的几个主要问题,包括汉语基本建模单元的选择、问题集的设计原则、决 策树建模复杂度的优化。在建模单元的选择中,本文在比较以往汉语语音识别中用到的建 模单元的基础上,提出了新的建模方法,该方法使用将六个零声母附加到标准声韵母序列 的新的声韵母集合作为识别基元,并根据这种识别基元结合语音学和语言学的先验知识设 计了问题集,利用基于决策树的状态共享策略建立上下文相关三元声韵母模型。在用基于 h t k i 具构建的识别系统上进行实验,结果表明,新的声韵母基元与标准声韵母相比, 识别性能有了很大提高。 其次,在说话人自适应模块中比较了最大后验概率( m a p ) 算法和最大似然线性回 归( m l l r ) 算法各自的优缺点,提出一种优化的自适应方法。这种方法综合了m a p 的渐 进性和m l l r 的快速性,在语音识别系统运行过程中逐渐调整系统参数,不断使用新的数 据来自适应。经实验论证表明,优化的自适应算法性能较之以往的自适应算法识别效果更 好。 最后,通过使用a t k 工具,在m i c r o s o f tv i s u a ls t u d i o n e t 环境下编写应用程序,将识 别的结果存储在一个变量中,继而用识别结果来导航一个移动机器人的行走。导航实验证 明,本文的语音识别系统应用是成功的,并且识别率可以达n 8 5 以上。 关键词:汉语连续语音识别;声学模型;h t k :说话人自适应;a 1 x ;移动机器人导航 a b 汛a c t t i t l e :r e s e a c ho nm a d a r i nc o n t i n u o u s s p e e c hr e c o g n i t i o n a n da p p u c a t i o nl nm o b i l er o b o t sw i t hi t m a j o r :m a c h i n e r ye l e c t r o n i ce n g i n e e r i n g n a m e :m ax i a o s u p e r v i s o r :p r o f w e i p i n gf u a b s t r a c t l s i g n a t u r e :丛丛幽 s i g n a t u r e :臣噍肖 m a n d a r i nc o n t i n u o u ss p e e c hr e c o g n i t i o nh a sb e e nd o n ef o rm o r et h a n1 0y e a r s a l t h o u g h s o m ea c h i e v e m e n t sh a v eb e e no b t a i n e d ,m a n ys i g n i f i c a n ta n dd i f f i c u l tp r o b l e m sa r en o ty e t s o l v e d f i r s t l y , t h ec o n t e x t d e p e n d e n ta c o u s t i cm o d e l i n gm u s tb ep a i dt om o r ea t t e n t i o na n d e f f o r t st of u r t h g ri m p r o v ei t sr o b u s t n e s sa n da c c u r a c y , e s p e c i a l l yt om a n d a r i nt r i p h o n e m o d e l i n g s e c o n d l y ,b e c a u s eo ft h ed i f f e r e n tc h a n n e la n dy a w po rs p e a k e r sr e a s o n s ,s y s t e m r e c o g n i t i o nr a t ew a sd e p r e s s e d t h e ni tn e e d su st ol u c u b r a t eo nt h er e s e a r c ho fa d a p t a t i o n f i n a l l y , w ea l s on e e ds t i i d yt h ep o r t a b i l i t yo f t h et e c h n o l o g i e st os h o r t e nt h ec o s to ft i m ew i t h t h er e s e a r c hi nn e wa r e a s m yt h e s i si sm a i n l yt os o l v et h ea b o v ep r o b l e m s f i r s t l y , w es t l l d yt h ec o n t e x te f f e c t so nm a n d a r i ns p e e c hr e c o g n i t i o na n dt h ed e c i s i o nt r e e b a s e dt r i p h o n ea c o u s t i cm o d e l i n g w ed i s c u s so w f a c e dp r o b l e m si nt h ed e c i s i o nt r e eb a s e d m a n d a r i nt r i p h o n em o d e l i n g , i n c l u d i n gt h es e l e c t i o no fm a n d a r i nb a s ep h o n eu n i t s ,t h e c r i t e r i o nt od e s i g nt h ec o n t e x t r e l a t e dq u e s t i o n s ,a n dt h ec o m p l e x i t yo p t i m i z a t i o no nd e c i s i o n t r e e t h et h e s i sa d v a n c en e wb a s ep h o n eu n i t sw h i c ha d d6i n i t i a l f i n a lt os t a n d a r di n i t i a l f i n a l s e t s t h ee x p e r i m e n to fr e c o g n i t i o ns y s t e mo nh t kr e s u l t ss h o wt h a tt h ep e r f o r m a n c eo fn e w s y s t e mi si m p r o v e ds o m u c h t h et h e s i sc o m p a r e sm a x i m u map o s t e r i o r i t ya l g o r i t h mw i t hm a x i m u ml i k e l y h o o d l i n e a rr e g r e s s i o na l g o r i t h mi ns p e a k e ra d a p t a t i o nm o d u l ea n da d v a n c 嚣ab e t t e rm e t h o dw h i c h c o m b i n e st h es t r i n g e n d om a pa n df a s tm l u r - a n da d a p tw i t hn e wd a t ao nr e a lt i m e b yt h e r e s u l t so f e x p e r i m e n t ,t h eo p t i m i z e da d a p t a t i o na l g o r i t h mi sb e t t e rt h a no l do n e s f i n a l l y , w r i t eaa p p l i c a t i o nu n d e rm i c r o s o f tv i s u a ls t u d i o n e tb yu s i n ga t kt o o l k i t , t h e ns a v et h er e c o g n i z i n gr e s u l t st oav a r i a b l ew h i c hu s e dt oc o n t r o lt h et h r e a dd i r e c t i o nf o ra r o b o t e x p e r i m e n t a t i o no ft h en a v i g a t i o ns y s t e mm a k eo u tt h a tt h i sr e c o g n i t i o ns y s t e m i s s u c c e s s f u la n dr e c o g n i z i n gr a t er e a c h8 5 k e yw o r d s :m a n d a r i nc o n t i n u o u ss p e e c hr e c o g n i t i o n ; a c o u s t i c sm o d e l ;h t k : s p e a k e r a d a p t a t i o n :a t k ;n a v i g a t i o no f m o b i l er o b o t s 独创性声明 秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学位论文是我个 人在导师指导下进行的研究工作及取得的成果。尽我所知,除特别加以标注和致谢的地 方外,论文中不包含其他人的研究成果。与我一同工作的同志对本文所论述的工作和成 果的任何贡献均已在论文中作了明确的说明并已致谢。 本论文及其相关资料若有不实之处,由本人承担一切相关责任 粼:当轧例月呷日 学位论文使用授权声明 、矿 本人当盈在导师的指导下创作完成毕业论文。本人已通过论文的答辩,并 l 已经在西安理工大学申请博士硕士学位。本人作为学位论文著作权拥有者,同意授权 西安理工大学拥有学位论文的部分使用权,即:1 ) 已获学位的研究生按学校规定提交 印刷版和电子版学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的 学位论文,可以将学位论文的全部或部分内容编人有关数据库进行检索;2 ) 为教学和 科研目的,学校可以将公开的学位论文或解密后的学位论文作为资料在图书馆、资料室 等场所或在校园网上供校内师生阅读、浏览。 本人学位论文全部或部分内容的公布( 包括刊登) 授权西安理工大学研究生部办 理。 ( 保密的学位论文在解密后,适用本授权说明) 论文作者签名:遍导师签名:茎埠。7 年每月叮日 第一章绪论 1 绪论 大家可能都看过未来战士系列电影, 友一样进行自由交谈,也像我们一样有思维, 电影中所描述的机器人可以跟我们人类像朋 能学习,甚至有喜怒哀乐。当然,这系列的 电影被称为科幻电影,那么在现实生活中,这有可能成为我们身边发生的真事吗? 从科学的角度来讲,人和机器之间的交流是一门涉及面很广的交叉学科,与计算机通 信、语音信号处理、自动语音识别、自然声学理解以及神经生理学和人工智能都有着密切 的关系。计算机技术、模式识别、信号处理和声学技术的发展,以及通讯和因特网把相距 万里的人们紧密联系在一起,我们进入了前所未有的信息社会,也为语音识别这一领域的 发展提供了契机。然而,我们和计算机的沟通仍处在比较初级的阶段,依然需要依靠键盘、 鼠标等辅助设备和它交流,而不是用我们灵活掌握的语言。解决这个问题,就需要依靠语 音识别技术和自然语言理解技术。经过多年的努力研究,终于有了一些成果,在一定范围 内计算机已经可以理解我们的语言,能用简单的语句与我们交流。 在本章中,我们主要讨论语音识别基本概念、目前的发展状况以及存在的问题,提出 本文要研究的主要内容等。 1 1 研究背景及意义 1 1 1 语音识别概念的提出 语言是人类特有的功能,是相互传递信息最重要也是最基本的手段。而计算机分析语 音信号的目的是为了方便有效的提取并表示语音信号所携带的信息,这种方法所需要的准 确度是由语音中特定的信息决定的。根据所分析参数的类型,语音信号分析可以分为时域 和频域以及倒谱域处理技术。从语音信号的时域或者频域波形中,人们通过计算机试图分 析出这段信号所表达的含义和措辞,情感或者情绪信息,以及说话人的语言种类等等。 语音信号所传达的信息丰富,通常我们定义的语音识别是指计算机将人类的语音信号 “翻译”成表达相应语言的文字序列。这里的“翻译”是指在一个有限的集合里面确定待识别 目标,也就是事先已经预知所有可能性选择,在这些可能性选择中找出一个最优组合。 语音识别离我们如此之近,几乎任何人都可以从自己的体验对一个语音识别系统的性 能做出直观的评价,即使是初次接触它也不难提出朴素的语音识别方案。直观的想法,可 以比较两个语音,例如测试语音和参考语音的时域波形的相关度来实现。其实,从研究的 角度来说,语音识别任务的基本要素包括“1 :如何选取语音识别的特征;如何从语音信息 中去除无关紧要的冗余信息而提取出有价值的信息;采用什么样的算法来识别;怎样评判 语音识别的有效性和j 下确率等等。一个成功的语音识别系统,需要考虑语音特征参数的有 效性和适应性、算法的复杂度、各层知识的构建、系统的可移植性和扩展性等各方面的问 西安理工大学硕士学位论文 题。 语音识别技术不仅能用于计算机的人机交互,而且在许多领域都有广阔的应用前景。 比如驾驶员在高速行驶的汽车内语音电话拨号,或者盲人对一些机器发出指令等等,都需 要用到语音识别系统。随着信息产业和互连网的快速发展,对语音识别的需求也更加迫切。 比如实时查询股票交易信息、车站票务、旅游动态信息等。用传统的声讯技术根本无法满 足要求,只有用语音技术才能实现这些大数据量信息的动态查询。另外,虚拟现实技术是 今后发展的新热点。语音、图像与互联网技术相结合,造就虚拟现实的新一代多媒体。总 之,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应用领 域,它正在形成一个新兴的产业。 1 1 2 语音识别研究的历史和现状 语音识别的研究可以追溯n - - 十世纪五十年代,当时大多采用共振峰分析的方法, 1 9 5 2 年,b e l l 实验室开发了一个特定人的孤立数字语音识别系统“;m i t 实验室建立了 能识别1 0 个元音的非特定人识别器”1 。 六十年代,语音识别技术提出了动态规划和线性预测分析技术,解决了语音信号的产 生模型问题。这时期,日本的东京无线电研究实验室、京都大学和n e c 实验室都制作了 能够进行语音识别的专用硬件。 七十年代,线性预测编码方法( l p c ) 应用至q 语音识别中并用来提取语音的谱特征参 数t t i j 并沿用至今;动态时间规整( d t w ) 技术日渐成熟,它比较有效的解决了语音信 号不等长匹配的问题。模式识别技术也开始在语音识别系统中得到初步应用。这阶段,m 实验室开创了应用统计方法解决语音识别的问题1 8 , 9 1 。在美国国防部a r p a 计划支持下, 研究人员开发了h a p p y 、h e a r s a y - 2 等语音识别系统。b e l l 实验室也开始进行了研究 完成真正非特定人的识别系统“”。 到了八十年代,连续语音识别成为研究的重点。矢量量化技术( v q ) 、隐马尔可夫模 型( h m m ) 和人工神经元网络在语音识别中成功应用。1 9 8 8 年c m u 建立了一个9 9 7 个 词汇的非特定人连续语音识别系统s p h i n x 1 1 - 1 4 。由于隐马尔可夫模型结构简洁、训练识 别算法完善以及计算量小等优点,在这阶段乃至当代已经成为语音识别研究的主流技术 1 6 l o 近年来,语音识别技术得到了各方面的推动,获得更深入而广泛的研究,并逐步从实 验室走向市场。它的潜在应用领域从检索交通状况、航班信息到推理交通路线、旅游计划 等,直至能够支持多语音和多媒体界面,其目的是使人们可以用最自然、最常用的交流方 式与计算机对话。m r r 实验室研究了一个可以通过电话或者i n t e m e t 对其进行访问查询的 对话系统,它几乎能同时回答英语、西班牙语和汉语的提问。进入二十一世纪,m m 公 司推出了v i a v o i c e 系列产品和语音软件开发工具,它可以使计算机“听懂”人类的语言, 2 第一章绪论 通过语音输入完成寻找字母、敲击键盘、按下鼠标等一系列动作1 1 7 | 0 在连续语音识别系统领域,清华大学电子工程系早在1 9 9 5 年就推出了大词汇量、非 特定人、连续语音识别的演示系统;中科院自动化所在1 9 9 6 年推出了类似的演示系统; 台湾大学在1 9 9 5 年实现了大词汇量连续语音识别的演示系统。可以肯定,国内语音识别 的研究水平已经基本达到国际先进水平。1 9 9 8 年4 月,在第五届全国汉字识别、语音识 别与合成系统及自然语言处理系统评测中,清华大学电子工程系王作英教授为核心的语音 识别实验室开发的连续语音识别系统t h e e s p 再度蝉联冠军,它对于限定1 9 9 3 、1 9 9 4 年 人民日报语料的语音数据,字正确率超过了9 3 9 。目前,中科院自动化研究所国家 模式识别重点实验室在国家自然科学基金、中国科学院特别是国家“8 6 3 ”高技术研究发 展计划的支持下,研制成功了基于多项核心技术和方法创新的语音识别应用系统,这些科 研成果广泛地应用于不同场合的人机交互,包括“”: 1 声控拨号系统:可以在普通电话机上申请该特殊服务,就能口呼该人名字而直接拨号。 该识别核心可以在程控交换机上实现,也可在终端电话机上实现。 2 语音导航系统:该系统在笔记本电脑上实现了基于内置麦克风的中距离语音控制,人 离麦克风可以达0 5 半至l 米之远,而且可以有效地拒绝命令以外的语音和噪音。该技术 可以替代遥控器实现对家用电器的直接语音控制。 3 m a n d a r i nb a r :提供了特定人或非特定人、词组模式的外挂语音输入方法,其输入结果 可直接进入n o t e p a d ,w r i t e 或w o r d 等通用编辑器,系统词汇量超过6 万个,而新的用户 只需要朗读1 2 0 0 个词组发音作为训练。在输入过程中,系统输入提供1 1 0 个识别结果 候选,若正确结果为首选,只需继续输入,否则需键选确认。对常见文本类型,首选识别 准确率超过9 0 该系统为用户提供了一种经济、灵活的词组语音输入方式。 4 m a n d a r i nd i c t a t o r :提供了非特定人、连续语音的输入方式,系统自带一个编辑器。用 户在启动录音键后,可以不等识别结果出来而无等待地朗读进行篇章段落输入。用户可通 过剪裁板将最终识别器的识别结果拷贝到其它通用编辑器中。本模块用户不需训练,可直 接使用。经自适应后,识别率更高。对常见文本类型,字准确率可达9 5 该系统代表了 语音识别的国际一流水平,可用于快速自然的汉字输入。 5 汉语语音人机对话系统l o d e s t a r :提供了一个面向复杂问题求解的人机语音对话原型 系统。原型系统以旅游信息咨询为应用背景,用户可以用自然口语进行询问,计算机则在 识别并加以理解的基础上,以文字、图形、图象和声音等多种媒体进行响应。通过词表和 任务替换,本系统可以方便地转化为其它应用背景的应用系统。系统识别准确率超过9 5 , 系统正确的响应率超过9 0 。 虽然这些让我们看到了汉语语音识别的尖端发展成果,但其中仍然有许多重大的技术 问题亟待解决。首先,如何建立好的声学模型,使它的鲁棒性和准确性进一步提高,这就 需要深入研究语境相关的声学建模,特别是汉语三音子模型;其次,当把语境相关的三音 子模型应用到识别系统时,如何充分发挥高精度模型的作用,这就需要研究更有效的搜索 西安理工大学硕士学位论文 和解码算法以及提高搜索速度的各项技术;最后,如何把语音识别技术更好的得到应用, 更好的转化成产业,这就需要研究这一技术的可移植性,加快新领域的研究速度。只有解 决了这些问题,我们才能把汉语语音识别的研究推向一个新的高度,才能把汉语语音识别 技术推向市场,将我们的研究服务于社会。 1 2 语音识别关键技术的最新研究 大词汇量非特定人连续语音识别涉及的技术非常全面,基本涵盖了语音识别中所用到 的全部关键技术,目前,国内外一些尖端的语音识别软件几乎都用到了下列技术: 前端参数化 前端参数化包括采样量化、预加重处理、加窗和特征提取四个步骤。主要是为了提高 特征参数对说话人、环境以及信道的鲁棒性。提取到的语音信号特征的质量将直接影响整 个系统对语音变异性的适应能力,这在非特定人识别系统中至关重要。目前多数的特征提 取方法采用的是基于快速傅立叶变换的m e l 倒谱特征提取。 声学建模 声学模型的准确性直接影响系统的识别精度和性能,所以改进声学建模的方法也是研 究重点。其中一种方法是提高语音数据库脚本的适应性和多样性,使语音库尽可能覆盖所 有可能的声学和语言现象;另一种方法是采用分类建模或者语音相关建模,如双音子、三 音子模型等来提高模型的准确性。目前,在大词汇量连续语音识别系统中,三音子模型已 经得到广泛应用,其中汉语连续语音识别系统中多数采用上下文相关的三元声韵母建模, m m 的v i a v o i e e 就采用这种方法进行声学建模“”。中科院自动化研究所的语音识别软件 使用的是声调和韵母联合建模方法隐藏式的带调三音子模型伽1 ,并取得了良好的识别精 度。 语言建模 语言建模是为了在语音识别过程中有效的结合语法和语义知识,减少搜索范围,提高 剪裁的准确性,大大降低误识率。语音模型的优劣直接影响到识别系统的性能。目前的语 音识别系统所用的语言模型分为基于规则的语言模型和基于统计的语言模型,m m 和中 科院都使用的是基于统计的语音模型,该种方法不需要对训练语料进行结构标注,完全用 统计的方法来训练语言模型,因此很容易进行不同领域的模型转换。其中最具代表性的是 n - g r a m 语言模型。 搜索算法 搜索算法是从各种可能的音子模型状态序列形成的网络中找出最优的词序列。目前, 典型的搜索技术有宽度优先搜索算法和深度优先搜索算法,大部分连续语音识别系统常用 基于v i t e r b i 算法的宽度优先算法。该种方法具有较高的计算效率,易于结合多层的不同 只是约束搜索空间。但同时,进行全范围搜索时,对那些可能性很小的路径的搜索优化将 4 第一章绪论 浪费很大一部分计算资源。 说话人自适应 自适应是指将识别系统中的一些模型参数随新的训练数据做调整,可以分为声学模型 自适应和语言模型自适应。声学模型自适应利用很少的语音数据学习某个人的发音特点, 把非特定人声学模型转换成特定人声学模型,从而降低了误识率。目前较常用的自适应技 术有最大线性回归算法( m u 且) 和最大后验概率准则( m a p ) 算法,目前这两种算法是 研究的热点。语言模型自适应主要针对任务特性和识别系统应用领域的变化,应用语言模 型自适应技术把通用的语言模型转化成专业领域的语言模型,不仅可以大幅度降低误识 率,而且会提高系统的识别速度,这种自适应技术针对性很强,普遍适应性较差。目前大 多数的识别系统都使用了声学模型的自适应技术。 1 3 本文主要研究内容及论文安排 本人所作课题的目的就是建立一个汉语连续语音识别器,并将该识别器应用在一个移 动机器人方向导航系统中,即将识别结果“驱动”移动机器人的行走。要实现此目的,需 要完成的研究内容除了包括语音识别中的一般技术,如语音的预处理和特征提取、搜索算 法、语言模型建模外,还着重深入研究了语料库的建立方法、声学模型的建立和优化以及 自适应算法的比较和优化。最后,又重点研究了语音识别系统的可移植性,将识别系统的 识别结果通过接口程序连接到驱动模块中。由此文本分为以下几个章节: 第一章即为绪论,简要地介绍语音识别技术研究的背景和意义,分析语音识别的关键 技术以及国内外的研究现状。 第二章论述语音识别的基本原理,h m m 的基本概念,探讨h m m 识别基元的选取准 则,以及识别中涉及到的一般的搜索策略。 第三章介绍本文所构建的汉语连续语音识别系统的层次模型结构。对声学模型建模的 优化算法进行详细深入的研究,提出一种新的汉语连续语音识别基元。最后对语言模型的 建立,以及识别的详细算法做一介绍。 第四章在第三章最后一节的基础上,深入研究自适应算法的理论,比较m a p 算法和 m l l r 算法的优缺点,并研究提出一个改进优化的自适应算法。 第五章着重研究识别结果的可移植性,应用程序的编写以及驱动移动机器人模块的实 验基础构建。将汉语连续语音识别系统与移动机器人运动控制系统集成,并通过实验验证 接口程序的正确性。 第六章是对本论文的一个总结,概括在所做工作中的收获和体会,提出了语音识别今 后的发展方向,以及对今后要开展工作的一个展望。 西安理工大学硕士学位论文 2 汉语连续语音识别的基本原理 语音识别一般可以分为两个大的部分,第一部分是建立声学模型以及进行文法分析的 语言模型,也就是在语音识别中所谓的“训练”或者“学习”部分;第二个部分是根据识 别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法 所要求的语音特征参数,按照一定的准则和测度来寻找一条最佳序列,通过判决得出最优 识别结果。图2 1 给出了语音识别系统的一般结构框架图。本章主要介绍了连续语音识别 中的声学模型和识别算法的基本原理,其中声学模型中详细论述了隐马尔可夫的基本理论 以及模型的训练算法。 语音信号 k l 山咋一 图2 - 1 语音识别的一般结构框架 f i g 2 - lt h em a i nf l a m eo f s p e e c hr e c o g n i t i o n 2 1 隐马尔可夫模型 剐结果 语音信号是短时平稳信号,可以表示为一个有序的时间序列o = ( d l ,0 2 9 a9 0 r ) 。多 年的研究和试验证明,隐马尔可夫模型是将它描述成统计数学模型的有效工具2 “。 2 1 1 隐马尔可夫的基本概念 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的基本理论由b a u m 等学者在6 0 年代后期提出,7 0 年代初期c m u 的b a k e r 和m m 的j e l i n e k 等将它应用于语音信号处理 2 2 1 。语音是由人的发音器官产生的,在说话的时候,声门处的气流冲击声带产生振动, 然后通过声道的调制变成声音。声道的变化决定了语音信号的非平稳随机特性。声学信号 的下一个时刻的状况可以看成仅与当前状况有关,与以i ; 的历史无关。因此可以用一个一 6 第二章汉语连续语音识别的基本原理 阶马尔可夫过程来描述语音信号。对于观察者来说,只能观测到语音信号的状态输出而无 法直接观测到马尔可夫过程的内部状态序列以及其转移过程。 h m m 分为一阶模型和二阶、三阶等等高阶模型,在语音识别中常用的是一阶隐马尔 可夫模型。同高阶相比,一阶模型参数少,训练、解码的计算量都比较少,更重要的是它 也可以提供很高的准确度。本文语音识别系统中声学模型就是基于一阶h m m 的。 根据以上论述,我们可以设有一个马尔可夫过程,它有n 个状态,t 个时刻,某个 时刻t 只能处于这n 个状态中的某一个状态,那么任意时刻t 所处的状态为儡。我们可以 这样定义隐马尔可夫模型:一个隐马可夫模型包括三个参数( a ,b ,曲,其中: a = ) ,a 。,= p ( 吼= _ ,i 吼一l = f ) i = i - n :其中的a 。,表示从状态i 转移到状态,的 概率; b = 6 ,( d f ) ,6 ,( d f ) = p ( o t ig f = ) ,j = l n ,t = 1 n :其中b j ( o t ) 表示在状态i 时随机变量o 的概率密度分布函数。 厅= 互) ,以= p ( 吼= f ) ,f = 1 n :其中互表示初始状态处于i 的概率。 根据以上定义,隐马尔可夫模型可以被描述为一个拓扑结构,它由节点和路径组成。 每一个节点表示一个状态,各个状态之间可以任意跳转。图2 2 是一个隐马尔可夫的有限 状态图。 图2 2 隐马尔可夫模型拓扑结构不意图 f i g 2 2h m mt o p o l o g yc o n f i g u r a t i o n 上图中一个圆圈节点表示一个状态,每一条弧线表示一种可能的路径跳转。模型的参数有 状态集s = 1 ,2 ,n ( n 表示模型的状态数,如上图的n = 5 ) ,初始化参数,状态 转移概率和某一状态时的概率密度分布函数。分别对应上文提到的万、a 和b 。本文中所 用到的概率密度函数都是混合高斯密度函数,记为 b , k = c , k n ( u 。扩) ( 2 1 ) 式中 地,y i j ) - 寿唧h 渺一铲 ( 2 2 ) 式中,q 表示每个高斯的加权系数,u t k 表示均值, ,表示方差矩阵。 7 西安理工大学硕士学位论文 2 2 2 隐马尔可夫模型的三个基本问题 为了将h m m 应用于实际,还需要解决一系列关键技术。这些技术可以归纳为以下三 个方面: 1 给定观察序列玉和模型五= ( 一,b ,力,计算p ( 0 1 2 ) 。这是评估问题,也就是给定模型和输 出观察序列,如何计算从模型生成观察序列的概率。也可以把它看作是评估一个模型和给 定观察输出序列的匹配程度。后一种观点是非常有用的。可以用来在一系列候选对象中选 取最佳的匹配。 2 给定观察序列0 = q 0 2 一研和模型五= ( 彳,b , z t ) ,求在某种有意义的情况下最优的相关状 态序列q = q l q 2 4 r 。这个问题可以理解为对输出观察的最佳“解释”,它试阻揭示模型的 隐藏部分,比如说查找“正确”的状态序列。必须弄清楚的就是几乎所有的退化模型都没 有所谓“正确”的状态序列。所以在应用中,通常都使用一个优化策略来最大可能的解决 这个问题。关于这个问题的应用有研究模型的结构,查找连续语音识别中最优的状态序列, 或者计算单独状态的平均统计数据等等。 3 如何调整模型参数a = ( 一,b ,r ) ,使得p ( o i a ) 最大? 这是模型的训练问题,它试图优化 模型的参数来最佳的描述一个给定的观察序列是如何得来的。 解决评估问题的经典算法有前向算法和后向算法,解决第二个问题的有v i t e r b i 搜索 算法,解决最后一个训练问题的算法有b a u m - - w e l c h 算法,下面将对这几个经典算法做 一个详细的描述。 a 前向算法嘲 问题l 是计算在给定模型旯的条件下,产生观测序列0 的概率,即求,吲乃。给定模 型兄产生某一状态序列q = 吼,氆, ,q r = ( f ) ) 的概率为: i i l p ( o l :t ) 2 乃2 a q r c g ( 2 3 ) 式中g l 是初始状态,是初始状态嘶的概率,呜。牡是从初始状态啦转移到t = 2 时的状态g : 的概率。 在该状态序列q = 哂,呸,毋焉舻 条件和模型已经给定的情况下,产生观 测序列d = q ,呸,q ) 的概率为: r e ( o i ,丑) = ( q ) 如) ( = 兀( n ) ( 2 4 ) 忙i 式中吃 ) 是状态留产生观测o r 的概率,即 ( q ) = p ( o r i 外,a ) ( 2 5 ) 状态序列q 的观测序列0 同时发生的联合概率为上二概率之积,即 r 第二章汉语连续语音识别的基本原理 p ( o i q , ) = p ( 0 i q ,2 ) p ( q i ) 将所有可能状态序列所对应的( 2 6 ) 式联合概率求和, 测序列0 的概率,即 e ( oi 五) = p ( o ,qia ) t | l q ( 2 6 ) 便得到给定模型五条件下产生观 ( 2 7 ) 将( 2 6 ) 式、( 2 4 ) 式和( 2 3 ) 式代入上式后得到 e ( 0 1 2 ) = 气( 0 i ) 气 ) 气乞,( 0 0 ( 2 8 ) 自m m 该式可以解释如下:初始( t _ 1 ) 状态为q ,的概率是。,在这个状态下以概率( d 1 ) 产生 输出符号;在t = 2 时,以概率d 。:使状态从吼转移到g :,同时以概率娩) 产生输出符号 。这一过程从上述方式一直继续下去,知道完成最后一次转移并输出最有一个符号为 止( t = t ) 。 按照定义来计算p ( o l 五) 需要用( 2 t - - 1 ) n 7 次乘法和7 一1 次加法,尽似的可以认 为计算需要的次数为2 t 7 。即使在n 和t 都很小的情况下,运算量也十分巨大。因此, 需要寻求高效的算法。而前向和后向算法就是一种高效算法。 定义i j 向变量a t ( i ) : q ( f ) = p ( q ,d 2 ,o r ;q , = si 五) ( 2 9 ) 这就是说,前向变量q ( 1 ) 是指在给定模型五的条件下,产生t 以前的部分观测符合序列, 且t 时刻又处于状态墨的概率。前向变量q d 可按下列步骤进行迭代计算: ( i ) 初始化: a t ( i ) = 互也( 0 1 ) ,1 9 剑 ( 2 ) 迭代计算: n 屈( f ) = l 属( d1 6 ( d ,+ 。) 玩。u ) f = t 一1 ,? 一2 ,l ,l t s t 一1 i j n l f lj ( 3 ) 最后计算 p ( o i a ) = o r ,( f ) ( 2 1 0 ) ( 2 1 1 ) ( 2 1 2 ) 第一步是把前向变量初始化为状态s 和初始观测d 1 的联合概率。 第二步迭代计算是前向算法的核心部分。可以用图2 3 加以说明。不管t 时刻模型处 在哪个状态( n 个可能状态的任何一个) ,它都会以一定概率在t + l 时刻转移到状态s ,去。 因此,在时刻t + l 处于状态s ;的概率应该等于t 时刻各种可能状态转移到s ,的概率之和。 由于a t + 。( ,) 是观测到符号序列 q ,q ,哜 ,而且t 时刻又处于状态s 这一联合事 件发生的概率,于是乘积q ( f ) 口。表示观测到符号序列 q ,q ,q ) ,而且由t 时刻 9 西安理工大学硕士学位论文 的状态墨转移到什l 时刻的状态s ,这一联合事件发生的概率。将这些乘积对时刻所有n 个可能状态求和,便得出观测到符号序列 q ,q ,o r ) 且在什l 时刻处于状态s ,的 概率。一旦完成以上计算且已知状态s ,容易得出,将求和结果乘以6 f ( ) 即可得到q + 。u ) 。 ( 2 1 1 ) 式是对所有状态s ;来计算的,对任一给定t 都要这样做,所以迭代计算是对 t = l ,2 ,t 一1 进行的。 第三步,将最后一次迭代计算的结果q ( 1 ) 对f 求和,便得到p ( o i 旯) 。因为根据前向 变量的定义( 2 7 ) 式,有 q = p ( q ,0 2 ,q ;呸= 写l a ) ( 2 1 3 ) 所以,将所有唧( f ) 对i 求和便得到p ( o 旯) 。 考虑( 2 1 1 ) 式所需的计算量。经过计算,不难看出计算q 的计算量大约是2 r 比起按定义直接计算的2 t n 7 ,前向算法已经把计算量减少到了非常低的水平。因此格型 结构为基础的前向算法可以大大减少运算量。 置 屯 q ( dq ( - ,) 图2 - 3 前向变量计算示意图 f i g 2 3f o r w a r dv a r i a b l ec a l c u l a t i o ns k e t c hm a p b 后向算法 和前向算法类似,可以得到另一种相似的算法即后向算法“1 ,它的计算过程如图2 4 。 前向算法和后向算法统称为前向后向算法。为了推导后向算法,首先定义后向变量 屈( f ) : 屈( f ) = 1 , 1 f n ( 2 1 4 ) 它是指在已经给定模型五和t 时刻处于状态墨的条件下,产生部分观测序列 d f 。d f + 2 ,研 的概率。后向变量也可以用迭代算法进行计算,步骤如下: ( 1 ) 初始化: ( 2 ) 迭代计算: 1 0 屏( i ) = 1 ,l i 以o i 力意义上来说,模型a 比2 更有可能,即找到了一个新模型, 观测序列更有可能从这个新的模型产生出来。 以上述方法为基础,如果不断地用a 代替五,并重复上述重估计算,那么就能够改善 由模型观测到o 的概率,直到达到某个极限点为止。这一重估过程地最后结果成为隐马 尔可夫模型地最大似然估计。 2 2 声学模型建模基元 声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。建立声学 模型的目的是为了后面识别中寻找语音的特征矢量序列和每个发音模型之间的最优序列。 声学模型的设计和语言发音特点密切相关。而选取什么样的声学模型建模基元是建立声学 模型的关键。 连续的语音信号都由一些基本的语音单元组成,这些基本的语音单元可以是句子、词 组、词、音节、子音节( s u b ,s y l l a b l e ) 或者音子,那么选择什么样的语音单元作声学模型的 建模单元呢? 这要由具体的应用( 如词汇量的大小、语音库的多少、要求的性能等客观因 素) 来定。一般来讲,应该保证所选择的建模单元满足如下条件:1 ) 鲁棒性:每一个模 型都有足够的样本来估算模型参数;2 ) 一致性:建模单元应该稳定,在不同的条件下声 学特性变化比较小。鲁棒性和一致性是相互矛盾的,为了保持建模单元的一致性,希望建 模单元大一些,如音节的稳定性要比子音节或者音子高。但建模单元增大会造成模型数量 增加,从而使模型的鲁棒性降低。而为了提高鲁棒性,总希望模型的数目少些,需要小一 些的建模单元,而建模单元变小又会使得它在连续语音中的变化增大,影响模模型单元的 稳定性。 对于具体的研究对象,一般要在二者之间折中。一般来说,对于中小词表识别,建模 单元可以大一些( 如词组、词和音节) ;而对于大词表识别,则可以选择子音节或者音素 作建模单元。在连续语音中,由于协同发音的影响,建模单元在不同上下文中的实现有时 会有很大不同。为提高模型的准确性,就需要考虑上下文对建模单元的影响。在声学模型 的研究中,上下文相关的建模单元( 如双音子、三音子:一个建模单元被称为一个音子) 逐渐受到重视,成为目前声学模型建模单元的主流”。本文就使用了上下文相关的三元 声韵母作为识别基元,这将在第3 4 节做深入研究。 在建模单元选定之后,连续语音可以看作是由建模单元级联而成的序列。由于语音的 西安理工大学硕士学位论文 变化丰富,单元之间可能的连接有很多种,因而我们可以将连续语音的声学模型表示成是 一个图。我们以汉语大词汇量连续语音识别( 声韵母作为建模单元) 为例来说明这个问题, 假设有句子“我是学生( w os h i x u es h e n g ) ”,因为静音可能出现在音节之间、句 首或句尾,所以这句话的声学模型拓扑结构如图2 7 所示,其中节点表示相应的声韵母 和静音h m m 模型( s i l ) ,每个节点代表一个建模单元,建模单元级联而成的序列构成 h m m 。 2 3 搜索算法 图2 - 7 句子模型 f i g 2 - 7s g n t c n c em o d e l 连续语音识别系统实质是利用各种知识,包括声学和语言学知识的表示和学习,如特 征提取和优化、声学模型的训练、语法和语义知识的表示和学习等来判断输入语音的文本 含义,即对语音进行解码。如何能准确高效地从许多可能的结果中找出最有可能的词序列, 这就是搜索算法要解决的问题。 搜索算法从广义上可以分为宽度优先搜索算法和深度优先搜索算法啪。宽度优先算 法并行搜索各条路径,以v i t e r b i 搜索算法为代表;深度搜索算法如时间帧异步的堆栈搜索 算法和a 算法,这两种算法又称启发式搜索,因为它们使用了将来的知识做启发信息来 引导搜索“”。另外,搜索算法还可以分为一次通过( o n e - - p a s s ) 搜索算法和多次通过( m u l t i p 勰s ) 搜索算法器1 。多次搜索算法采用逐步求精的搜索策略,先用简单的声学模型和 语言模型进行快速搜索,得到最有可能的结果,然后再使用复杂的声学模型和语言模型在 这些结果中搜索最优结果。本文使用的是v i t e r b i 搜索算法,这将在第3 6 节做详细论述。 2 4 本章小结 本章简要介绍了连续语音识别中的几个问题:语音信号的数学描述,重点介绍了隐马 尔可夫的基本理论以及模型的训练识别算法:接着介绍了声学模型建模基元选取的一些基 本原则和语音单元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期末校园安全教育表
- 2025年中国青铜金面人头像数据监测研究报告
- 2025年辅警招聘考试试题库带答案
- 2025干部任前廉政知识考试题库及答案
- 景区安全培训课件内容
- 政策影响分析-第2篇-洞察及研究
- 医疗服务可及性改善-洞察及研究
- 数据安全培训通知课件
- 收费站防风安全培训课件
- 宿州市历年村干部考试试题及答案
- ISO 15609-1 金属材料焊接工艺规程及评定-焊接工艺规范中文版
- 人居环境科学市公开课一等奖省赛课微课金奖课件
- 高级电工证考试题库电工考试题库
- 2023译林版新教材高中英语选择性必修第一册同步练习-Unit 1 Food matters
- 糖尿病足中医辩证治疗
- 脑膜瘤的护理诊断与护理措施
- 铝合金门窗安装流程
- T-ZJFS 010-2024 银行业金融机构转型贷款实施规范
- 高职应用语文教程(第二版)课件 1《老子》三章
- 药物临床试验突发事件应急预案
- 施工升降机安装拆卸安全教育
评论
0/150
提交评论