(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf_第1页
(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf_第2页
(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf_第3页
(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf_第4页
(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(模式识别与智能系统专业论文)语音及字符识别中若干问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音和字符识勖中若干问题的研究 摘要 摘要 字符识别和语音识别是模式识别中的两个重要领域。本文就这两个领域的某 些问题做了一些研究。 语音识别方面:本文通过对语言模型、声学模型和识别器的研究构筑了一个 基于h m m 的大词汇量非特定人的汉语连续语音识别系统,该系统具有很强的可 移植性、实时性和较好的识别效果。 字符识别方面:主要是对手写数字训练样本的挑选和e 1 3 b 码可信度这两个 方面的研究。 本文对训练样本进行了分类,给出了边界样本的定义,同时指出适当的添加 边界样本到训练样本中对识别器性能的提高是有益的。同时本文给出一个规则, 让计算机根据这个规则来自动的挑选训练样本,并且调整训练样本的分布。通过 在银行票据o c r 系统中的实际应用,证明这种方法是有效的。 另外,本文提出一种新的字符识别结果可信度的测定方法。该方法以各候选 字的相对邻近度为基础定义了一种新的测定可信度的相对尺度,并将这种方法应 用于e 1 3 b 码识别系统,通过在银行票据o c r 系统中的实际应用,证明了这种方 法的有效性。 【关键词】 语音识别,h m m ,隐马尔可夫,训练,样本挑选,可信度 语音和字符识翻中若干闯题的研究摘要 a b s t r a c t b o t h s p e e c hr e c o g n i t i o n a n dc h a r a c t e rr e c o g n i t i o na r e i m p o r t a n td o m a i n so fp a t t e r n r e c o g n i t i o n ,t h e s et w od o m a i n sh a v eal o to fa s p e c t sc o r r e l a t e da n dc a nu s ef o rr e f e r e n c ef o r e a c ho t h e r i nt h i sd i s s e r t a t i o n ,s o m ea s p e c t so f t h e s et w od o m a i n sa r es t u d i e d s p e e c hr e c o g n i t i o na s p e c t :i n r e c e n ts t u d yo f l a r g ev o c a b u l a r ys p e a k e ri n d e p e n d e n t c o n t i n u o u ss p e e c hr e c o g n i t i o ni st h eh o t s p o ta n dn o d u so fr e c e n tr e s e a r c ho ns p e e c h r e c o g n i t i o n i n t h i sd i s s e r t a t i o na l a r g ev o c a b u l a r ys p e a k e ri n d e p e n d e n t c h i n e s e c o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mi sd e s i g n e dt h r o u g ht h er e s e a r c ho fa c o u s t i c m o d e l ,l a n g u a g em o d e la n dr e c o g n i z e r ,t h es y s t e mp o s s e s s e st h es p e c i a l i t yo fh i g h l y t r a n s p l a n t i n ga n d r e a lt i m e c h a r a c t e rr e c o g n i t i o na s p e c t :s a m p l es e l e c t i n ga n dr e l i a b i l i t yo fe 1 3 bc o d ea r e c h i e f l y r e s e a r c h e d i nt h i sd i s s e r t a t i o n ,am e t h o do f s a m p l ec l a s s i l y i n ga n d t h ed e f i n i t i o no f b o u n d a r y s a m p l ea r ep r o p o s e d a n dh o w t ou s ec o m p u t e r a u t o m a t i c a l l ym o d i f yt h ed i s t r i b u t i o n o f s a m p l e st oe n h a n c e t h ep e r f o r m a n c eo f r e c o g n i t i o ns y s t e mi sa l s or e s e a r c h e d c o u n t i n gt h er e l i a b i l i t yo f r e s u l ti st h el a s ts t e po fr e c o g n i t i o n g o o dr e l i a b i l i t yw i l l m a k et h e p e r f o r m a n c e o f r e c o g n i t i o ns y s t e mb e a e li n t h i sd i s s e r t a t i o nan e w m e t h o do f m e a s u r i n gt h er e l i a b i l i t yo f e l 3 bc o d er e c o g n i t i o nr e s u l t si sp r o p o s e d ,i n t h i sm e t h o dan e wr e l a t i v ec r i t e r i o ni sd e f i n e db a s e do ne a c hc a n d i d a t ec h a r a c t e r ,s r e l a t i v en e i g h b o r i n gd e g r e e ,a n dt h eg o o de f f e c ti sg a i n e dt h r o u g hm a n y e x p e r i m e n t s k e y w o r d s s p e e c hr e c o g n i t i o n ,h m m ,t r a i n i n g ,s a m p l es e l e c t i n g ,r e l i a b i l i t y 语音和字符识粕中善f 阀题的研究第一章概述 第一章概述 1 1 引言 人类很早就开始致力于开发能代替人工作的机器,而且历史已经证明这些机 器能够帮助人们完成大量的体力劳动。随着计算机技术的发展,用机器来替代人 类完成大量的脑力劳动也成为可能。在过去的大约半个世纪里,各种各样的电脑 从能够战胜国际象棋世界冠军到能够理解人的语言纷纷开发成功,似乎 表明计算机已经可以与人类智能媲美了。 然而,到目前为止,计算机依然不能像人类那样非常准确的识别字符以及语 音。当然,经过多年的探索及实践,在字符和语音的机器识别领域已经取得了许 多进步,但少有人会说计算机已经可以像人一样去识别字符和语音了。尽管如此, 人们仍然致力于开发能比拟人类精确识别能力的技术,这就是模式识别技术。模 式识别所关心的就是如何让计算机具有广泛的认知能力,而文字识别与语音识别 则是模式识别中的两个重要领域,而且相互之间并不孤立,因此在语音识别和文 字识别的研究过程中,有很多相通的东西,可以相互借鉴,对于促进文字识别、 语音识别,甚至于模式识别的发展,都具有重要的意义。 1 2 研究的历史与现状 1 2 1 语音识别研究的历史与现状 关于语音识别的第一篇论文是1 9 5 2 年美国贝尔实验室发表的关于孤立数字 识别系统的研究论文。接着美国的r c a 研究所进行了单音节识别系统的研究。在 非特定人语音识别方面的尝试,是1 9 5 9 年美国m i t 研制的元音识别装置。 到六十年代中后期,语音识别作为一个重要的研究课题而展开,并且逐步取 得实质性的进展。这是因为一方面计算机产业的发展提出了使用的要求,同时又 提供了实现复杂算法的软硬件环境:另一方面数字信号处理的理论和算法在那个 时代取得飞跃的进展,如快速傅里叶变换( f f t ) 、倒谱计算、线性预测分析( l p c ) 、 数字滤波等。日本学者板仓( i t a k u r a ) 将动态规戈4 ( d p ) 的概念用于解决孤立 字识别时说话速度不均匀的问题,提出了著名的动态时间弯曲算法( d t w ) 。 早期的语音识别系统都是按照简单的模板匹配原理工作的特定人,小词汇 表,孤立词识别系统。d t w 算法克服了说话人语速不均匀造成的时间伸缩变化的 影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种简 单的机制则有些力不胜任。例如,由于词汇表的扩大和孤立词语音识别转向连续 语音识别,无法象孤立词识别那样以词作为基本识别单元。如果采用音节或者音 素作为识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望 语音和字符识翱中若干阚题的研究 第一章概逑 所选的识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下 文中变化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个 困难是连续发音时的各个音素以及音节之间的边界不能象孤立字那样可以明确 划定。此外,发音人不特定的语音识别( 非特定人语音识别) 还存在更大的困难。 这是由于不同人说同一个音素音节时,声学特征有很大的差异。这使得语音识别, 特别是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。 从8 0 年代以来,逐渐使用以隐马尔可夫模型( h m m ) 为代表的基于统计模型 的方法来代替以前的模板匹配的方法。以前只在i b m 、c m u 等少数研究机构使用 嗍方法,到8 0 年代中期才开始广泛使用。美国的1 0 0 0 单词规模的d a r p a 研究 项目在很大程度上推动了语音识别的研究。以此为契机,s r i 、m i t 、c m u 、b b n 等展开激烈竞争,并且取得许多非常重要的研究成果。在美国,8 0 年代末期由 c m u 推出的s p h i n x 系统,率先突破了语音识别中非特定人、连续语音、大词汇 量三大难题,被世界公认为语音识别技术发展中的一个里程碑。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位 超过了几十个:如清华大学、中科院自动化所、声学所、北京邮电大学。它 们结合汉语语音学和语言学的特点,在基础理论、模型和实用系统等方面作了大 量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研究也具有较高水 平,它们研制成功了一个实时汉语语音听写机g o l d e n m a n d a r i n 。在我国盼“八 五”计划和“8 6 3 ”计划中,汉语语音识别的研究得到了大力支持,强有力地推 动了汉语语音识别研究的发展。 尽管语音识别研究工作已经取得了一定的进展,但是目前的技术水平依然不 高。因此,特别需要在以下几个方面进行深入研究: 1 自然口语语音识别 以i b m 的v i a v o i c e 为代表的“朗读”式语音识别技术已经取得了令人满意 的效果。但是在实际的使用环境中,更多、更自然的人机交互方式是“自然口语” 语音,例如:各种信息查询服务系统、自动翻译系统。“自然口语”语音有如下 特点:1 、语法规则灵活多变( f l e x i b i l i t y ) ;2 、其中包含大量非语音现象,如: 语音插入、犹豫、咳嗽、咂嘴等:3 、同一语音受背景声学环境、上下文语境 ( c o n t e x t ) 、说话人口音等因素的影响而产生“发音变形”( p r o n u n c i a t i o n v a r i a b i l i t y ) 。因此,口语语音识别的关键技术在于:l 、为非语音现象和发音 变形建立相应的声学模型;2 、建立描述口语内在随机性的语法网络或统计语言 模型。 2 使用更好的方法去除电话和周围环境噪音等影响 在实际应用中,语音识别系统往往是在比较复杂的声学环境下使用,即存在 语音和字符识聚孛若干蛔赶的研究 蒋一章概述 各种背景噪声和由说话人、语音通道、说话方式等导致的语音变形,此时其性能 显著下降,因此提高系统的鲁棒性是语音识别实用化的关键技术。目前常用的技 术有:采用具有抗噪特性的特征、麦克风阵列、语音增强和针对噪声的模型补偿 或自适应等。虽然这些方法都取得了明显的效果,但还有进一步提高的余地,因 此还需要寻找更好的方法去除环境噪声等的影响。 3 支持多种语言的语音识别技术 目前的语音识别技术在语音模型和语言模型等方面都是非常依赖具体语言 的。随着越来越多的语音识别应用投放到市场上,开发支持多种语言 ( m u l t i _ l i n g u a l i t y ) 的语音识别技术也显得非常重要,因为每当开发一种新的应 用服务都需要对若干种语言进行大量的修改将是十分昂贵和耗时的。 4 有关人性因素( h u m a nf a c t o r s ) 的研究 在语音识别产品中还应当考虑一些人性因素,如:友好的界面设计、易用性、 智能的提示响应以及错误恢复等,合理地加入人性因素可以提高语音识别系统的 友好性和灵活性,缩小实验室应用和实际应用之间的性能差距。 1 2 2 字符识别研究的历史与现状 在当今社会,每天都有数以亿计的手写和印刷字符需要识别和处理,并且随 着现代信息交流的不断加强和计算机应用的不断普及,这种需求逐年猛增。邮电 通信、新闻出版、办公自动化等等,都需要将手写或印刷的字符转变为电子化信 息,以便能够更加快捷地进行信息处理和交流。这就要求人们对字符的机器识别 进行广泛而深入的研究,找出实际有效的解决方法。 字符识别是随着模式识别在6 0 年代初的迅速发展脱颖而出的。它包含的范围 很广,从汉字到数字到英文字符无一不是字符识别研究的对象。上世纪8 0 年代末 以来,字符识别的研究更趋活跃,各种思想、方法乃至体系不断涌现,特别是在 结构匹配、松弛计算以及人工智能的应用等方面取得了长足的发展。近年来,神 经网络和支撑向量机在字符识别中的应用也成为研究的热点。 目前,随着字符识别研究的深入发展,实验系统逐渐成熟,实用化研究成为 一个普遍关注的问题。无论是识别范围还是识别性能,都趋向于实用化的研究。 目前,已经开发出了较高水平的o c r 技术、笔输入技术和笔迹鉴别技术。o c r 是指通过扫描仪将印刷或书写在纸面上的字符输入到系统后进行识别。现在,随 着社会信息化程度的提高,邮政、银行、税务、图书馆等行业对o c r 提出了更多 的要求,产生了巨大的市场空间,也成为目前字符自动识别实用化研究的热点之 语音秘字符识鼬中若干商题的研究 第一章概述 1 3 主要研究内容与取得的成果 本文主要由三部分组成,分别为:基于h m m 的语音识别系统、在基于h m m 的手写数字识别系统中怎样利用边界样本来改善训练效果和银行票据o c r 系统 中有关磁码的可信度研究,下面简单的介绍一下这几方面的工作。 1 3 1 基于h m m 的语音识别系统 通过语音相互传递信息是人类最重要的基本功能之一。语言是人类最重要、 最有效、最常用和最方便的交换信息的形式。随着计算机科学和应用的飞速发展, 语音技术已日益广泛地应用于实际中。现在语音技术己经成为众多信息领域应用 的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个。 语音技术包括语音识别、说话人的鉴别和确认、语音合成、语音编码等。 其中最具有挑战性和最富有应用前景的为语音识别技术。现在孤立词识别技术已 经日益成熟,逐步达到实用的水平,大词汇量连续语音识别是研究的重点。 目前,国内语音识别的研究热点一般都是整个识别体系中的某一个具体环 节的实现及其性能的提高,而整个识别体系的构建和集成方面并没有引起足够的 关注。事实上,具体环节的改善是需要识别系统来体现的,因此一个完善的、容 易操作的识别系统是十分必要的。本文的主要目的是实现一个完整有效的识别系 统,为后续的研究工作提供一个好的实验平台。 要建立一个大词汇量连续语音识别系统,需要构筑高精度的声学模型、高 精度的语言模型以及高效的识别器。目前,世界上有很多科研机构在从事这些方 面的研究,并且取得了比较显著的成果,开发出了一些成熟的算法和先进的工具。 为了站在一个比较高的起点上构建识别系统,我们将这些成熟的算法综合起来, 并根据汉语的特点加以改造,以此来搭建我们自己的系统。 整个系统是基于统计识别原理的隐马尔可夫连续语音识别系统。声学模型 是用h t k ( 佥1 桥大学开发) 对8 6 3 语音数据库中8 2 个话者的4 2 6 4 0 旬语音进行训练 后得到的,分为m o n o p h o n e 和t r i p h o n e 两个模型。语言模型是用c m u c a mt o o l k i t 对9 9 年的人民日报全年的语料进行分析得到的词的二元语法( b i g r a m ) 模型,分 词采用最大长度匹配法。识别器采用的是日本京都大学开发的j u l i u s 识别引擎, 该识别引擎是日语识别引擎,并不完全适用于汉语识别系统,经过多次的实验和 探索,改进了识别引擎的输出程序,一些参数以及搜索范围,并将改进后的识别 器和声学模型、语言模型结合起来一起构成了一个大词汇量的非特定人的汉语连 续语音识别系统。整个系统对声韵母的识别率可以达到8 0 5 6 ,初步达到实用 水平,为将来的研究工作打下了一个良好的基础。 语音和宇拇识确中若干峨题的研究嚣一章概述 1 3 2 边界样本在手写数字训练中的应用 金融票据o c r 系统中的小写金额识别部分采用了多分类器组合的方法,一 种是基于神经网络的分类器,另外一种是基于h m m 的分类器。本文在基于h m m 的手写数字识别器的基础上讨论边界样本对训练结果的影响。 训练的第一步就是挑选样本,训练样本的选择直接影响着分类器性能的好 坏。一直以来,训练样本的挑选都是由人来完成的,这不仅需要耗费大量的人力 和时间,而且挑选样本的时候没有一个客观的标准,不同的人选择的样本差异比 较明显。同时,人们在挑选训练样本的时候总是挑选那些有代表性的,噪声污染 小的样本,这样就导致样本过于集中,识别时区分度过高,整体识别率下降。 为了解决这个问题,本文提出让计算机来挑选训练样本。当然,这种挑选并 不是无序的,是在一定的规则下完成。从性质上说,样本可以分为好样本、坏样 本和边界样本( 介于好样本和坏样本之间的样本) 。通过多次实验,发现对一个 实际的识别系统来说,当好的训练样本的数量达到一定值的时候,适当的添加边 界样本作为训练样本会比较明显的提高识别器的性能。在文中提出了一个挑选边 界样本的计算公式,同时对好样本也作了定量的分析,这样计算机就可以根据这 个客观的准则来挑选好样本和边界样本了。通过实验,发现采用这种挑选训练样 本的方法后,识别系统的整体识别率提高了1 1 ,效果显著。 这种挑选样本的方法具有通用性,可以不考虑具体的识别系统采用的是怎样 的模型,因此可以在不同的识别平台上得到推广。 1 3 3 银行票据o c r 系统中有关磁码的可信度研究 o c r ( o p t i c a lc h a r a c t e r r e c o g n i t i o n ) 的概念诞生于1 9 2 9 年,第一个o c r 软 件是在1 9 5 7 年开发的e r a ( e l e c t r i cr e a d i n g a u t o m a t i o n ) 。经过几十年的发展, o c r 技术已经趋于成熟,出现了很多o c r 产品,简单可分为通用o c r 和专用 o c r 。通用o c r 原则上可以处理任意文本( 目前主要是印刷) ,而专用o c r 主要 处理表格、票据等,由于专用o c r 一般处理的对象是小字符集,因此专用o c r 系统可以处理手写字符,并具有较高的识别精度和实际应用的针对性,因而引起 了广大o c r 研究者的注意,并开发出一些专用o c r 产品,如基于手写数字o c r 的邮件自动分拣系统、手写表格数据自动录入系统等。1 9 9 9 年,北京邮电大学 模式识别实验室和山东中创公司达成协议,共同研究开发一套金融票据o c r 系 统,并于2 0 0 2 年成功申请了国家8 6 3 重点项目( 2 0 0 1 a a l l 4 0 8 0 ) 。 金融票据o c r 系统主要完成银行票据( 支票、存款单、取款单等) 的稽核工作, 即通过o c r 技术识别票据上的大小写金额以及日期,检查票面的合法性( 大小写 是否一致,日期是否过期等) 。目前,这些工作都是人工进行的,金融票据o c r 系统的开发,目的在于减少甚至完全替代这种重复性的人工操作。 语音和字符识韵中若干蠲题的研究第一章概述 目前,已经取得了较好的性能,对一万张银行实际支票的测试表明,在整票 拒识率 3 0 ( 自动处理率大于7 0 ) 的条件下,整票误识率 o 0 0 1 ( 小于手工 处理的差错率) ,已经达到实用的水平。 磁码也称e 1 3 b 码,是金融票据o c r 系统中的个字识别域,它一般是由计 算机打印在对公票据的最下方,如下图所示。它是由账号、开户银行号以及金额 数目等组成,可以看到它是由0 到9 十个阿拉伯数字和另外四个特殊字符组成, 这四个特殊的字符主要是用来区分不同的区域的,比方说将金额与账号分开。由 于它是由电脑打印上去的机器字,所以识别难度并不大,整体的识别率很高,因 此它的主要作用是用来提供一个比对标准:将识别出来的账号和金额等与磁码相 对应区域的数字作比较。如果相一致,则认为识别正确,否则认为账号、金额识 别有误,由此可以看出一般情况下是默认e 1 3 b 码是正确的。 以往是以拒识率为代价来换取高的识别率,这不失为一条实用化的途径。但 是,拒票太多意味着识别器的效率不离,实用价值有限。这样一来对e 1 3 b 码的 可信度的研究就变得极为重要了,要做到保证尽可能高的识别率的前提下,尽可 能的减少拒识。 本文主要是在采用基于距离的分类器的情况下,针对e 1 3 b 码的特点,提出 了一种新的可信度的计算方法,这种可信度计算方法是基于候选字相对距离的, 在文中还讨论了三种不同的候选字相对距离的计算方法,并且通过实验检验了可 信度计算方法。在整体识别率基本保持稳定的情况下,拒识率从2 8 下降为 4 2 。证明了这种方法的有效性。 可信度计算是一个很有价值的研究领域,它是我们评估一个系统优劣的重要 标准之一,而且适用范围很广泛,不仅在模式识别领域,在其他的工程领域内都 得到普遍的应用。本文提出的方法具有相当的普遍性,对其他领域也有一定的借 鉴意义。 1 4 文章结构 第一章概述性的讨论了语音及字符识别历史和现状,并对所作的课题进行 了简要地阐述。 第二章介绍了隐马尔科夫h m m ( h i d d e nm a r k o vm o d e l ) 的基本原理和算法。 第三张搭建了一个大词汇量,非特定人的汉语连续语音识别系统,并初步 测试了识别性能。 第四章讨论了在基于h 州模型的小写数字识别系统中,让机器自动挑选样 语音和字符识鄹孛若干国题的研究 第一章概述 本,并且能够调整样本分布,提高识别性能。 第五章介绍了可信度的概念、定义,并且讨论了在e 1 3 b 码的识别系统中怎 样通过设定可信度和阂值来满足系统的要求,达到更好的识别效果。 第六章总结与展望。 语音和字符识韵中若于问题的研究第二章h m m 的基本露理及在模式识翻串的直角 第二章h m m 的基本原理及在 模式识别中的应用 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) ,是一种典型的统计信 号处理方法。其基本理论是在1 9 7 0 年前后由b a u m 等人建立起来的,随后由c m u 的b a k e r 和i b m 的j e l i n e k 等人将其应用到语音识别中。在8 0 年代中期,由于 b e l l 实验室r a b i n e r 等人对h m m 的深入浅出的介绍,才逐渐使h m m 为世界各 国从事语音处理的研究人员所了解和熟悉,进而成为一个研究热点。目前,h m m 己广泛应用于信号处理的各个领域。 由表1 1 可见,h m m 的应用是及其广泛的,特别是在语音处理领域、生物 学领域、文字识别领域的应用最为广泛。本章将主要讨论h m m 的基本理论以及 在语音识别和文字识别中的应用。 表1 - 1 常见的应用领域 领域语音生物文字信号通信气候控制声学经济 处理识别处理 学学 文章数 1 2 93 72 72 22 01 5 7443 百分比 4 8 1 31 3 8 11 0 0 78 2 17 4 65 6 02 6 l1 4 91 4 81 1 2 2 1h m m 的基本理论 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) ,是种典型的统计信 号处理方法。其基本理论是在1 9 7 0 年前后由b a u m 等人建立起来的,随后由c m u 的b a k e r 和i b m 的j e l i n e k 等人将其应用到语音识别中。在8 0 年代中期,由于 b e l l 实验室r a b i n e r 等人对h m m 的深入浅出的介绍,才逐渐使h m m 为世界各 国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。目前, h m m 己广泛应用于信号处理的各个领域。 2 1 1 h m m 定义 设有一个马尔可夫过程,它有n 个状态,t 个时刻,某个时刻t 只能处于这 n 个状态中的某一个状态,那么任意时刻t 所处的状态q ,就取决于初始概率分布 万。( 式2 - 1 ) 和状态转移概率a 。( 式2 2 ) 。 万= p ( q 1 = f l i = 1 ( 2 1 ) a = p ( q ,= j iq 1 = f ) ,i = 1 ,j = 1 ,r = 1 t ( 2 - 2 ) 另外,在任意时刻t 所处的状态口,是隐藏在系统内部的,不为外界所见的, 外界只能得到系统在该状态下的一个观测值o ,而观测值o ,是由状态q ,决定的, 语音和字符识剐中苦干阃题的研究第二章h m m 的基本聚理及在模式识瓤中的直角 其概率表示为: b j ( o t ) = p ( o ,iq ,= ) ,j = l ,扛1 一t ( 2 3 ) 可见,这是一个双重的随机过程,其中之一是m o r k o v 过程,它描述状态的 转移,另一个随机过程描述状态和观测值之间的统计对应关系,对外界来说,不 自2 直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,因此称之 为“隐”马尔可夫过程。我们用符号 = ( 4 ,b ,z ) 来描述一个具有n 个状态的 h m m ,其中a = 口。 。表示状态转移概率矩阵,b = b j ( o ,) m 表示观测值概率 矩阵,即输出概率矩阵,7 = 协,) 为初始状态分布。 图2 1 给出一个h m m 的示意图。图2 1 中,上半部分给出一个具有6 个状 态的m o r k o v 过程,每个圆表示个状态,大圆即状态2 5 表示中间状态,小圆 即状态1 和状态6 分别表示入口状态和出口状态,从圆到圆的有向弧表示状态间 的转移概率a 。出口状态没有状态转移概率。图2 1 下半部分描述状态和观测值 之间的统计对应关系,在每个中间状态,由所处状态和观测矢量确定其输出概率 b ( o ,) ,入口和出口状态与中间状态不同,是一种虚状态,它不仅没有输出概率, 而且也不占有实际的时刻,即对于时刻t ,如果处于入口状态,则在时间上对应 于t a t 时刻,如果处于出口状态,则对应于f + 出,出表示一段表示非常短的 时延。 a 2 2a 3 3a 4 4a 5 s o b s e r v a t i o nn s e q i l e n c eii o l 口 0 2 口 。3 口 0 4 口 0 5 口 q 图2 - 1 隐马尔可夫模型 为了便于理解,我们给出h m m 对语音信号产生的描述。语音是由人的发音 器官产生的,在说话的时候,声门处气流冲击声带产生振动,然后通过声道的调 语音和字符识鼬中若干阃题的研究第二章h m m 的基本乐理及在模式识鼬中的虚甩 制变成声音。声道的变化决定了语音信号的非平稳随机特性。声道的下一时刻的 状态可以看成仅与当前状况有关,与以前的历史无关,因此可以看作是一个一阶 马尔可夫过程。对于外界来说,只能观测到语音信号的状态输出而无法直接观测 到马尔可夫过程的内部状态序列及其转移过程,也就是说我们看不到声道的变 化,只能听到语音这一观测值,而语音是由声道所处状态决定的。 2 1 2h m m 的三个基本问题 将h m m 应用于模式识别中,需要解决三个基本问题: 1 求值问题( e v a l u a t i o np r o b l e m ) 。对于给定的观测序列0 = ( 0 0 0 ,) 和 模型兄= ( a ,b ,万) ,计算由模型五产生观测序列0 概率p ( o l 旯) 。常用的算 法有v i t e r b i 算法和前向后向算法。 2 译码问题( d e c o d i n g p r o b l e m ) 。对于给定的观测序列0 = ( 0 i ,0 2 ,0 r ) 和模 型五= ( a ,b ,7 r ) ,求模型五对应于观测序列0 的最佳状态序列 q + = q ? ,q ;,即寻找使p ( o i 旯) 达到最大时,0 所对应的状态序列。一 般采用v i t e r b i 算法求解。 3 学习问题( l e a r n i n gp r o b l e m ) 。对于给定的观测序列0 = ( 0 i ,0 2 ,0 r ) ,如 何修正模型丑参数,使得模型五产生观测序列0 的概率p ( o l 五) 最大。一 般采用b a u m w e l c h 算法。 2 2h m m 的类型 2 2 1 状态转移的拓扑结构 h m m 模型的状态转移可以具有不同的拓扑结构,从而使状态转移矩阵a 具 有不同的特性,进而也影响到模型的复杂度。下面给出四种常见的结构类型。 a 全连结b 并行由左至右 8 笛8 8 & 垦拶 c 左至右无跳转d 左至右有跳转 图2 - 2 状态转移的拓扑结构 话音和字待识飘串若干词鞋的研究薰二章h m m 的基本啜理及在模式识确中的应用 图2 - 2 ( a ) 所示的是全连结结构,它允许从任一状态向所有状态转移,状态转 移矩阵a 的每个元素都可能为非零,起始和终止状态也是可以任选的。图2 2 ( b ) 给出有两条并行支路的拓扑结构,这种结构比全连结结构要简单一些,适宜处理 同一个模式具有不同表现形式( 如同一个语音单位可能出现音变现象) 的情况。图 2 - 2 ( c ) 、( d ) 给出两种最简单最常用的拓扑结构,左至右无跳转和左至右有跳转结 构,允许跳转意味着某些状态可能被吸收和删除,它们的a 矩阵都比较稀疏。 在实际应用中,为了便于准确描述模式的状态变化以及构筑更为复杂的模型,常 常采用一些拓扑结构的混合。如图2 2 所示的拓扑结构,由于引入非发射的入口 状态和出口状态,中间状态的转移是左至右有跳转的,而入口状态只能转出,出 口状态只能到达,这种结构在将一些h m m 连结成一个h m m 序列时将很方便, 此时只需将相邻前一个h m m 的出口状态和后一个h m m 的入口状态相连结即 可。 2 2 2 输出概率b ,( o ,) 根据输出概率b ,( 0 ,) 的不同,h m m 可以分为d h m m ( 离散h m m ) 、c h m m ( 连 续h m m ) 和s c h m m ( 半连续h m m ) 。 1 d h m m 观测矢量o t 具有离散概率分布,它只能取有限多个离散分布的矢量中的某 个。用标号k 表示这些离散矢量,k = l - m ,m 为矢量总数,即码本的容量。如果 观测矢量o ,具有连续概率分布,则在训练和识别时,都需要采用v q ( 矢量量化) 技术将0 ,离散化,设圪( r ) 表示t 时刻的观测值0 ,对应的标号为k ,则输出概率 b j ( 。,) 可写作6 * 。 b m = p ( k ( r ) iq ,= ,) ,j = l n ,k = l 膨( 2 - 4 ) :l b 肚= 1 , j = l n( 2 - 5 ) d h m m 中模型参数的重估可以采用b a u m w e l c h 算法,重估公式如下: 元= 在t = l 时刻,处于状态i 的期望次数( 出现频率)( 2 - 6 ) 一所有观有观测矢量中从龋移到状态,的期望次数 ,1 、 。 所有观有观测矢量中处态i 的期望次数 、。 所有观测矢量中处于状态,且观测值必吒的期望次数 ” 所有观测矢量中处于状态,的期望次数 、 。 2 ,c h m m d h m m 需要对观测值进行矢量量化( v q ) ,v q 会带来一定的误差,而且v q 码本的生成与h m m 的训练是分离的,因而d h m m 的精度不高。而c h m m 采 语音和宇格识飘中若干确毯的研究第二章h m m 的基本飘理强在模式识韶中的应黾 用连续概率密度函数来描述观测矢量,从而提高了模型的精度。 在c h m m 中,通常采用混合高斯概率密度函数来描述观测矢量,此时,输 出概率b ,( o ,) 计算公式如式2 - 9 所示。 b j ( d 。) = c n ( o ,川,) ( 2 - 9 ) 这里,m 为混合度数,c 。是第m 个混合高斯密度函数的加权系数,且c ,卅满 足式2 1 0 。是均值为。协方差为。的多变量高斯分布函数( 式2 - 1 1 ) 。 _ :。c = 1 ,0 ,j = 1 n ,m = 1 m ( 2 - l o ) 脚,) 2 丽l p 一如剐 ( 2 _ 1 1 ) p 为观测矢量o 的维数。 c h m m 的模型参数的重估可以采用b a u m w e l c h 算法和采用分段k 均值算 法。初始状态概率、状态转移概率矩阵与d h m m 相同,输出概率的估计转化为 估计混合高斯密度函数的加权系数、均值和协方差矩阵。 3 s c h m m c h m m 采用连续概率密度函数,提高了模型的描述精度,但计算量很大,于 是h u a n g 等人提出了性能介于c h m m 和d h m m 之间的s c h m m 。s c h m m 可 以视为c h m m 中概率密度函数的聚类或d h m m 中矢量量化的细化。在s c h m m 中,输出概率函数如式2 1 2 所示。 b j ( 口f ) = :,厂( o ,iv o , ) b ,( 搬) ( 2 m ) 其中,m 为码本大小,为码本中第m 个码字。b j ( m ) 为第j 个状态第m 个 码字出现的概率。f ( o ,1k ,) 为矢量量化的概率,采用高斯概率密度函数。 对于式2 1 2 ,如果定义: m 胍) 也姒q 塞 弘,s , s c h m m 则转化为d h m m 。如果一个模型的一个状态仅与码本中几个码字 构成映射。s c h m m 则转化为c h m m 。 2 3h m m 的一些经典算法 h m m 理论在实际工作中的成功应用,除了h m m 理论本身的特点之外,更 在于研究人员设计了有效的模型训练以及识别算法。下面给出一些本文要用到的 一些算法,主要是在一维c h m m 中的训练和识别算法,并采用带有入口和出口 状态的左至右状态转移模型,如图2 1 所示。为了便于描述,将一些符号的含义 语音和字符识韵中若干问魏的研究兰g - - 章h m m 的基本原理及在模式识勋中的直胃 列举如下 憎 , o 0 口“ c l m 雒i m ( ,删 几 r r 状态数 混合分量个数 观测矢量个数( 一个观测序列中的) 一个观测序列 在时刻t 的观测矢量,t = l t 从状态i 到状态i 的转移概率 在状态i 下第m 个混合分量的加权系数 状态j 的第m 个混合分量的均值矢量 状态i 的第m 个混合分量的协方差矩阵 定义h m m 的全部参数的集合 观测序列数( 训练样本数) 第r 个观测序列( 训练样本) ,常作为其它变量的下标 q一个嵌入式训练序列中模型的个数 q第q 个模型,常作为其它变量的下标,表示不同模型的参数 2 3 1 前向后向算法 这个算法是用来求解求值问题的,即对于给定的观测序列o = ( 。,o :,o t ) 和 模型丑= ( a ,b ,;r e ) ,计算由模型旯产生观测序列0 概率p ( o i 五) 。 1 前向算法: 定义前向概率为 口,( ,) = p ( 0 1 0 2 0 :,x 。= j 五) ,= 1 一丁,j = 1 ( 2 - 1 4 ) 初始化 r 1,= 1 口t 舻t a l j b j ( 0 1 ) l :, 2 递归 口) 一虬( 矿卜b j ( o t ) ,2 t - t ,2 j n 一1 ( 2 - 1 6 ) i = 2 终止 昕( ) = p ( o 0 2 o ri 旯) = p ( o ld 2 。o ,x ,= i i 兄) = 口r ( 旷口。 i = 2i = 1 ( 2 - 1 7 ) p ( o i 五) = a r ( n ) ( 2 - 18 ) 2 后向算法 首先定义后向概率: 语音鞫字符识韵中若干阃题的研究第二章h m m 酶基本躁理驶在模式识韵中的直角 屈( i ) = p ( d f o t + 2 0 rlx ,= f ,a ) ( 2 1 9 ) 初始化: 岛( f ) = a , 1 i n( 2 2 0 ) 递归: ,( f ) :笠1kf 。( ,) 6 ,( 。) l 1 f 丁,2 f 一1 ( 2 2 1 ) 终止: 届( 1 ) = 口o b 加,) 月) ( 2 - 2 2 ) p ( o l 五) = 屈( 1 ) ( 2 - 2 3 ) 3 嵌入式训练 为了完成一个识别任务,需要采用各个模式的样本训练出各自的h m m 参数。 每个模式的训练样本,可能是孤立的,也可能是连续的或者是连接的,如在数字 语音识别中,训练样本可以是单个的数字,也可以是连接的数字,即数字串。对 于不同的训练样本,训练算法也有所不同,分别称为孤立单元训练( i s o l a t e d u n i tt r a i n i n g ) 和嵌入式训练( e m b e d d e dt r a i n i n g ) 。孤立单元训练采用的是孤 立的样本,各个模式的模型训练是可分离的,可以分多次来完成的。嵌入式训练 采用的样本是连续的或连接的,每个样本可能包含多个模式的样本单元,所有模 式的模型训练是一次完成的。 上面给出了在孤立单元训练中采用的前向后向算法,下面将给出嵌入式训练 中的前向后向算法。 a 前向算法: f1臼= 1 卵( 1 卜协( 1 ) n 藏一。圣它 口f ( ,) = 口f ( 1 ) 口0 巧( d 1 ) 口f ( 。) = 竺1 口啦 、1 0 g = 1 州1 ) 2 1 蜗( 虬。卅飞1 ) q - i 羹它 口? ( ,) = b 阳) + 等1 口撕) 刮蟹( 。,) 口八q 。vg ,一厶。n ;q 2 - 1 口? ( f ) d 盘。 b 后向算法 语音和字符识鼬中若干蝇毯韵研究第= 章h m m 的基本露理及在模式识鼬中的直再 i 1 q = q f l ;! ( n q ) 2 + - ( 州) 口蹦。其它 群( ) = 吼群( 扎) 群( 1 ) = 竺1 口z 筇( 听) 群( f t t f l ? ( n q ) = k ,) + 茹( 蛾嚣 f l q ( j ) = 蝙。所( 虬) + 。n q - i a ;6 7 ( d f + ) 职( f ) f l , q ( 1 ) = 竺1 口。卵( d 。) 刀( f ) c 总的概率 p ( o i a ) = 口,p ( ) = ? ( 1 ) 2 3 2v i t e r b i 算法 v i t e b i 算法常常用来解决求值问题和译码问题,对于给定的观测序列 0 = ( d ,0 :,o t ) 和模型 = ( 4 ,b ,丌) ,求模型五对应于观测序列0 的最佳状态序 列x = x i ,x ;,即寻找使p ( o i 旯) 达到最大时,0 所对应的状态序列。 定义函数4 ( f ) 表示在时刻t 状态i 下,部分观测序列( d 。,0 :,0 ,) 的局部最 佳得分。 4 ( f ) = ,罂a x ,p 陇,x 2 ,一m 置= f ,0 1 ,。2 ,d fi 五j i t 2 ,一i 初始化: 删,= 1 0 9 k ,l ,篡 y ( f ) = 0 递归: 艿。( ,) = 琶罾p 。( f ) + 1 。g a fj + 1 。g b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论