(概率论与数理统计专业论文)基于驻留时间的隐马氏模型的建立及算法研究.pdf_第1页
(概率论与数理统计专业论文)基于驻留时间的隐马氏模型的建立及算法研究.pdf_第2页
(概率论与数理统计专业论文)基于驻留时间的隐马氏模型的建立及算法研究.pdf_第3页
(概率论与数理统计专业论文)基于驻留时间的隐马氏模型的建立及算法研究.pdf_第4页
(概率论与数理统计专业论文)基于驻留时间的隐马氏模型的建立及算法研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 摘要 隐马氏模型( h i d d e nm a r k o vm o d e l s ) 是一类统计模型,简称h m m 。它包括 一个不被直接观测的马尔可夫过程和一个与之相关的可观测过程。隐马氏模型需 要解决三个问题:学习问题、识别问题和解码问题,对这三个问题的回答构成了 隐马氏模型的理论。其中,参数估计是学习问题的核心。 在目前用于语音识别的隐马氏模型中,由于对模型的刻画不够精确,故而在 识别过程会产生一些大的误差。特别在说话人识别当中,由于给出的模型不够精 确,可能会无法识别出真正的说话者。在许多实际工程应用如语音密码防盗等问 题中,这样的识别误差会带来巨大的损失。因此,将隐马氏模型进一步精细化也 就成为了正确识别的重要前提。 本文从语音识别的实际背景入手,针对两点进行研究:( 1 ) 模型状态的驻留 时间对于观测特征概率的影响;( 2 ) 语音识别中的帧相关问题。本文中建立了两 类新的隐马氏模型m d h m m ( m o d i f i e dd i s c r e t eh m m ) 和m c h m m ( m o d i f i e d c o n t i n u o u sh m m ) ,在新模型的转移概率和特征概率中都加入了驻留时间并建立 了新的模型参数,新模型不但很好地利用了驻留时间这一重要信息,并且利用带 驻留时间的转移弧产生输出观测特征值进行识别研究,既有效的考虑了帧相关问 题,又降低了运算过程的复杂性。 本文在m d h m m 模型下给出了一种经过改进后的v i t e r b i 算法来进行汉语的 字词识别问题。还讨论了两种新模型m d h m m 和m c h m m 的参数重估计算法, 并进行了相应的模拟实验,从理论和实验结果论证了新模型的精确性和优越性。 关键词:隐马氏模型e m 算法v i t e r b i 算法极大似然估计递归估计 状态驻留时间状态转移弧输出 第l 更 h i d d e nm a r l ( o vm o d e l sfh m m ) a r cs t a t i s t i cm o d e l s e a c hm o d e lc o n s i s t so fa h i d d e nm a r k o vp r o c e s sa n da no b s e r v a t i o n p r o c e s s t h e r ea r et h r e ep r o b l e m sn e e d e d t ob es o l v e db yu s i n gh i d d e nm a r k o vm o d e l s w h i c ha r e t r a i n i n g , d e c o d i n ga n d r e c o g n i z i n g t h ea n s w e r sf o rt h o s et h r e ep r o b l e m sc o n s i s to ft h et h e o r yo fh i d d e n m a r k o vm o d e l s p a r a m e t e re s t i m a t i o ni st h ec o r ep r o b l e mo ft h et r a i n i n gp r o c e s s p r e s e n t l y , i nh m ma p p l i e di ns p e e c hr e c o g n i t i o n ,s o m ee r r o ro f t e ng e n e r a t ei n t h ep r o c e s sb e c a u s et h ec h a r a c t e r so ft h em o d e l sa r en o tq u i t ea c c u r a t e e s p e c i a l l yi n s p e a k e rr e c o g n i t i o n ,a st h eh m mp r e s e n t e da r en o tv e r ya c c u r a t e ,t h et r u es p e a k e r m a y b e c a nn o tb er e c o g n i z e d t h o s er e c o g n i t i o ne r r o r sw i l lb r i n gg r e a tl o s si nm a n y a c t u a lp r o j e c t ss u c ha ss p e e c h p a s s w o r dg u a r d s o ,f u r t h e ra c c u r a c y o fh m mb e c o m e a n i m p o r t a n tp r e c o n d i t i o n f o rc o r r e c tr e c o g n i t i o n a i m i n g a tt h et w o p r o b l e m si ns p e e c hr e c o g n i t i o n ,w h i c ha r c ,( 1 ) t 1 l ec o n n e c t i o n b e t w e e ns t a t ed u r a t i o na n do b s e r r e dc h a r a c t e rv e c t o r ;( 2 ) t h ed e p e n d e n tp r o b l e mo f f r a m e si ns p e e c hr e c o g n i t i o n t w ok i n d so fn e wm o d e l sm d h m m ( m o d i f i e dd i s c r e t e h m m ) a n dm c h m m ( m o d i f i e dc o n t i n u o u sh m m ) a r e s e tu pj nt 1 1 i sp a p e r , i nw h i c h s t a t ed u r a t i o ni sc o n s i d e r e di nb o t ht r a n s i t i o np r o b a b i l i t ya n dc h a r a c t e r p r o b a b i l i t ya n d n e wm o d e lp a r a m e t e r sa r em a d e ,n o to n l yd ot h et w on e wm o d c i sm a k eu s eo ft h e i m p o r t a n ti n f o r m a t i o n “s t a t ed u r a t i o n ”b u ta l s od os p e e c hr e c o g n i t i o nw i t ho b s e r v e d c h a r a c t e rv e c t o rw h i c ho n t p u tb ys t a t et r a n s i t i o n a r ca d d e ds t a t ed u r a t i o n t h i s c o n s i d e r st h ef r a m ed e p e n d e n c ye f f e c t i v e l y , a n dr e d u c e st h ec o m p l e x i t yi no p e r a t i o n am o d i f i e dv i t e r b i a l g o r i t h m i s a p p l i e d t o r e c o g n i t i o n i nt h i s p a p e r n e p a r a m e t e rr e e s t i m a t i o na l g o r i t h m so fm d h m m a n dm c h m ma r ea l s od i s c u s s e d a n dr e l a t i v e l ys i m u l a t i o n so ft i l et w om o d e l sa r em a d e i nt h e o r i e sa n ds i m u l a t i o n s w h i c hp r e s e n tt h ea c c u r a c ya n ds u p e r i o r i t yo ft h o s eh m m s k e yw o r d s :h m m e ma l g o r i t h mv i t e r b ia l g o r i t h mm l e r e c u r s i v e e s t i m a t i o ns t a t ed u r a t i o ns t a t et r a n s i t i o n - a r co u t p u t 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:基王壁蟹盟回鲍睦旦韪搓型的建:童丞篡洼监窥 学位论文作者签名:晖脓气v日期:p 。4 年“月谗日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王壁蟹盟闽鲍睦墨基搓型尥建童区簋洼监壅 学位论文作者签名 晦怍 作者指导教师签名:基垒 日期:噜年“月曙日 日期: o 口忙年乒月,扩甘 国防科学技术大学研究生院学位论文 图表目录 图1 2 1 语音识别系统的框架图 图2 2 1 前向变量示意图 图2 2 2 后向变量示意图 图3 2 1 基于驻留时间的从左至右无跳转3 状态模型 图4 2 1 两个不同说话人发数字“8 ”语音的时频波形图 图4 2 2 同一说话入发数字“4 ”语速不同时的时频波形图 表2 1 1h m m 定义说明 表2 2 1h m m 参数( 转移概率和初始概率) 表2 2 2h m m 参数( 特征分布) 表3 2 1 参数迭代结果 表4 2 1 对说话人确认的测试结果( 误识率) 第i i 页 o m n 卯 勰 o j 挖 缸 勰 国防科学技术大学研究生院学位论文 第一章绪论 隐马氏模型( h i d d e nm a x k o vm o d e l s ) 是一类统计模型,简称h m m 。其经 典理论由l e b a u m 等在六十年代末七十年代初给出。特别是8 0 年代初 r r a b i n e r 和e j e l i n e k 等人将隐马氏模型弓i 入语音识烈中。他们把h m m 与矢 量量化( v e c t o rq u a n t i z a t i o n ,v q ) 结合起来,用于与人无关的孤立词识别,并 获得成功。h m m 给语音识别带来的新希望很快就被认识到了,而且随着语音识 别研究工作的深入,h m m 语音识别方法越来越受到人们的重视,对h m m 进 行了用于特征连续分布、混合分布、连接词、连续语音、句子等几乎是全方位的 研究,而且取得了令人鼓舞的成绩。利用h m m 建立的最有代表性的系统就是 美国卡内基一梅隆大学的s p h i n x 系统、英国剑桥大学的h m mt o o l k i t 系统。 h m m 语音识别模型和算法已成为当今国际上的主流技术。目前,它还广泛应用 于基因关联分析和基因识别、文字识别、人脸识别、指纹识剐、图象处理和目标 跟踪等方面。 1 1 隐马氏模型的研究背景及意义 继曼哈顿原子弹计划,阿波罗登月计划之后,美国于1 9 9 0 年投资3 0 亿美元, 启动了第三个国家计划即人类基因组计划:在2 0 0 5 年之前完成人类基因组3 0 亿对碱基的测序。由于人类基因组计划对人类未来生活的各个方面密切相关,因 此目前许多国家都投入大量的资金进行了人类基因组计划中的部分工作,由此推 动了各种计算技术在生物学科中的应用,产生了“计算生物学”这门交叉学科。 隐马氏模型就是其中最突出的技术之一,它在生物统计、基因关联分析和基因识 别等方面都有成功的应用【l j 。基因检测是后基因处理( 测定序列各片断的含义) 中的首要问题。目前已经有很多基因检测的软件,虽然要达到实际应用尚存在不 少阊题,但是已经取得了重要的研究进展训。其中,g e n s c a n 是一个很好的软件, 它的核心技术就是隐马氏模型。文献【3 l 给出了h m m 在基因测序及后基因处理 中应用的具体例子。 h m m 是一个不完全数据的统计模型,它包括一个不被直接观测的马尔可夫 过程和一个与之相关的观测过程。h m m 需要解决三个问题:学习问题、识别问 题和解码问题,对这三个问题的回答构成了h m m 理论。学习的目的是通过对样 本集的统计计算来调整模型参数使得对每一个模式找到一组最适合样本集的参 数。调整模型参数的过程也就是参数估计问题。h m m 参数估计主要包括极大似 然估计f m u 已) 和递归估计两种类型。b a u m 和e a g o n 等在文献【4 】中发展了e m 算 法并把它应用到一般隐马氏模型中。此算法实际上是一种近似极大似然估计的估 计方法;b a u m 和p e t r i e 在文献 5 中给出了极大似然估计的捆合性及渐进正态性 等方面的一些结果。文献 6 在将文献 5 中的条件减弱的情况下也得到了相同的 结果:文献 7 8 分别在1 9 9 1 年和1 9 9 3 年讨论了h m m 的递归估计。文献 9 第1 页 国防科学技术大学研究生院学位论文 在文献 7 8 的基础上,基于 k 的m 维分布。给出一个在适当条件下收敛到与 此分布密切相关k - l 距离的稳定点集合的递归估计,并且讨论了递归估计收敛 到真参数的条件及此递归估计的渐进正态性。作为极大似然估计的类特殊情 形,文献 9 给出了一类在一般条件下具有相合性和渐进正态性的极大样条数据 似然估计( m s d l e ) ,并且证明了它与极大似然估计法一样有效。 隐马氏模型在连续变化行为的建模方面是极为有用的,例如在语音识别中的 应用,并且已经证明它在语音识别中由很成功的应用,目前在语音识别中主要用 到的就是这种方法。概言之,就是从声学一语音层直到句法层,将全部语音的统 计知识容纳在一个统计的h m m 框架之内。可以举出8 0 年代美国在语音识别方 面进行的一些重大研究项目,其中包括a t & t 公司b e l l 实验室以l r r a b i n e r 为 首的研究组在语音识别和语音响应( v o i c er e s p o n s e ) 等方面做的工作,i b m 公司 以e j e l i n e k 为首的研究组在语音打字机所做的工作以及a r p a 重新制定的一项 新五年研究规划,这项规划称为d a r p a 规划,执行期为t 9 8 5 至1 9 8 9 年。所有 这些研究都采取以h m m 为基本框架的统计途径。此外,遵循此方法者还可以举 出欧、美、日以及中国的许多重要研究集团。虽然这一方法还有不少缺陷有待改 进,但是其巨大成果是过去的研究无法比拟的,它将语音识别的研究和实施纳入 了一个系统的、易于在计算机上实现的框架之中,h m m 算法是被公认的一个描 述语音过程的最好模型,从而显示了这一新模型的生命力和在这一研究领域内的 领先水平。 1 2 语音识别的发展研究状况 1 语音识别的发展历史 语音识别的研究工作大约开始于5 0 年代,当时a t & tb e l l 实验室实现了第 一个可识别十个英文数字的语音识别系统a u d r y 系统。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出 了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号 产生模型的问题,对语音识别的发展产生了深远影响。 7 0 年代,语音识别领域取得了突破。在理论上,i j p 技术得到进一步发展, 动态时间归正技术( d t w ) 基本成熟,特别是提出了矢量贯化( v q 和隐马尔 可夫模型( h m m ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的 特定人孤立语音识别系统。 8 0 年代,语音识别研究进步走向深入,其显著特征是h m m 模型和人工 神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模 型工程化,从而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别 系统,性能相当。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走 向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n t r 等 著名公司都为语音识别系统的实用化开发研究投以巨资。 第2 页 国防科学技术大学研究生院学位论文 2 语音识别系统的框架 一个典型语音识别系统的实现过程如图1 所示。 图1 1 语音识别系统的框架图 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方 面。此外,还涉及到语音识别单元的选取。 其中模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质 特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一 个模型获得最佳匹配。 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术 ( d r w ) 、隐马尔可夫模型( h m m ) 。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决 了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良 好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被h m m 模型替 代。h m m 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过 程共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态的 m a r k o v 链,另一个是与m a r k o v 链的每一状态相关联的观察矢量的随机过程( 可 观测的) 。隐蔽m a r k o v 链的特征要靠可观测到的信号特征揭示。这样,语音等 时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的 变化由隐蔽m a r k o v 链的转移概率描述。 3 我国语音识别研究的发展现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从 实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算 机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的 研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优 势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与 中科院自动化研究所模式识别国家重点实验室。 目前,由清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特 第3 页 国防科学技术大学研究生院学位论文 定人汉语数码串连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的识别结果 之一,其性能已经接近实用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识 别系统的识别率达到9 8 7 3 ,前三选识别率达9 9 9 6 ;并且可以识别普通 话与四川话两种语言,达到实用要求。 2 0 0 0 年7 月在北京自然博物馆瓤开设的动物展馆中展出的具有语音识别口 语对话功能“熊猫”,采用了我国自行研发的非特定人连续语音识别系统,在展览 馆这样高噪声的环境下,该识别系统的识别率也超过了9 8 ,达到实用要求。 通过该系统观众与“熊猫”自然对话可以了解熊猫的生活习惯、生理结构等信息, 其形式生动、活泼,吸弓 了大量的学生与参观者。 4 语音识别中还应着重解决的问题e j ( 1 ) h m m 模型的精细化。这里指更好地改进模型结构,研究更好的h m m 算法。 ( 2 ) 在语音识别中充分应用一切可利用的信息。如音节和词的持续时间,说 话的环境等等。 ( 3 ) 人工神经网络的应用。 ( 4 ) 语音识别的r o b u s t 性。 ( 5 ) 说话人自适应和说话人聚类。 1 3 本文的工作与安排 本文主要针对前一节给出的语音识别中还应着重解决的问题( 1 ) 和( 2 ) ,讨论 了考虑状态驻留时间的隐马氏模型在语音识别中的重要性及相关应用。研究工作 与安排如下: 第一章介绍了隐马氏模型的研究背景、现状及意义。 第二章介绍了隐马氏模型的模型定义以及模型的识别、解码和学习问题,包 括研究这三个问题需要的基本算法。 第三章建立了一个基于状态驻留时间并由转移弧产生输出的隐马氏模型 ( m d h m m ) ,提出了进行有效识别的一种改进后的v i t e r b i 算法,重点研究了这 种算法的实现途径,以及模型参数的重估计算法及具体运算实例。 第四章针对参考文献 1 0 中提出的连续h m m ,对观测特征分布加入状态驻 留时问后给出了一个新的模型( m c h m m ) ,文中给出了这种模型的参数重估计算 法及模拟实验。 最后对本课题的研究做出总结,并指出尚需解决的问题。 本文的主要仓4 新点: ( 1 ) 本文建立了经改进后的基于状态驻留时间的离散型隐马氏模型 ( m d h m m ) 和连续型隐马氏模型( m c h m m ) ;在以往的考虑驻留时间的隐马 氏模型中,都只在转移概率中考虑了驻留时间,事实上状态驻留时间的长短主要 第4 页 国防科学技术大学研究生院学协论文 通过可观测的特征值表现出来,因此本文在特征概率中也加入了驻留时间因素; 同时模型还研究了语音帧间相关性,简化了算法。 ( 2 ) 对于m d h m m 和m c h m m 模型,分别给出了它们的参数估计,并进行 了仿真运算。模型给出了新的前后向变量并研究了其递推算法,在此基础上推导 出了模型的参数重估公式,通过仿真实验获得了较为满意的结果。 ( 3 ) m c h m m 的研究有一定的困难,绝大多数文献对连续型隐马氏模型 c h m m 的描述中,通常会用到下式 p 舻一y i a ) - e v ( x 一工) h p 。( ) ,) 很显然该式在数学中是不严格的。本文研究的改进后的连续型隐马氏模型 m c h m m 是在严格的数学意义下建立的,并就具体的正态分布给出了参数的估 计算法。 国防科学技术大学研究生院学位论文 第二章隐马氏模型简介d l 本章我们首先引出隐马氏链模型的基本定义,然后给出组成隐马氏链理论的 三大基本问题,并给出相应的算法,包括概率计算的前向、后向算法、解码( 状 态确定) 的v i t e r b i 算法和参数估计的b a u m w e l c h 公式。 2 1 隐马氏模型定义 1 模型的描述 给出一个通俗易懂的假设来描述隐马氏模型的意义。 假设某一时刻只有一种疾病,且只依赖于上一时刻疾病,一种疾病只有一种 症状,且只依赖于当时的疾病。 症状( 观察值) :发烧,咳嗽,咽喉肿痛,流涕 疾病( 状态值1 :感冒,肺炎,扁桃体炎 转移概率:从一种疾病转变到另一种疾病的概率 输出概率:某一疾病呈现出某一症状的概率 初始分布:初始疾病的概率 解码问题:某人症状为:咳嗽一咽喉痛一流涕一发烧 请问:其疾病转化的最大可能性如何? 定义2 1 马氏链d j 随机过程j 一( x 。,t 一1 ,2 ,) x ,e s 一缸,2 ,n ,其中 s 为状态空间,如果 e ( x ,一l x ,q 一- l x f _ 2 一x r - 2 ,x l 一) - e ( x ,- x , l x h x t 一1 ) ( 2 1 1 ) 则随机过程为( 单步) 马氏链。 对于时齐随机过程,即上式不随时间f 变化,理论表明其完全由转移概率矩 阵a = ( n ;,) 。,及初始分布万一k ;) 所确定,其中 a l 一e ( x f + l 一肛。一f ) ,口f o ,n # 一1 1 s i ,j s n j 一| p ( x 。一f k 乩艺曩一1 ( 2 1 2 ) ( 2 1 3 ) 定义2 2 隐马氏模型【1 】隐马氏模型是由两个随机过程 工,) 组成,其中 x ,) 是一个观测不到的有限状态( 设状态空间为s 一位2 , ) 马氏链( 或马 氏随机场) ,而且它的转移矩阵( 函数) 也可能是不知道的,这个链称为状态链。 第6 页 一 国防科学技术大学研究生院学位论文 而亿) 是可以观测到的,称为观钡4 链。 状态过程的马氏性可以是多步,也可以是单步的。这完全由实际问题决定, 一般情况是,多步马氏性需要更多的参数来描述。相应地模型也具有更大的灵活 性。观测过程和状态过程是相关的,这种相关性用概率描述就是:对任意f ,条 件概率p “一y ,f z 。一x t ,z ,一而,k 一。一y 。,k y ,) 是已知的,对具体的问 题往往需要不同复杂程度的相互关系要求。最简单的为: 黑j y r i x it ,- x t 。, - 畎”k - 咄一尚训y l (2-14)p a ( r ;y ,i x 。一x 。) 、一7 将p 一y ,l x 。一) 简记为虬( y ,) 。 t 为观测样本的帧序号,x ;( x l - ,x r ) ,y 一( k ,耳) ,工t0 1 ,坼) , y - ( y 1 ,y f ) ,_ ) ,。扣1 ,v ,1 s ts n 。由此得出: p c - y ,盖一xi a ) - 万。b x i ( 3 ,k ,:。4 * ,。b x ,( y r ) ( 2 1 5 ) 注通过表达式( 1 ) 我们可看出h m m 的含义是:状态链与观测链的联合分布 是由一系列简单转移与条件概率的乘积表达的。未知状态链与测量到的观测链一 起,就构成了隐马氏模型。这里“隐”的含义是说状态链是隐藏起来的。又由于 参数组五一仍,a ,矗) 完全确定了状态链与观测链的联合统计规律,所以我们通常 就用a 代表一个隐马氏模型。 表2 1 1t i m m 定义说明 t123t 观察量y y 1 y 2 y 3 y r 隐状态算 工1x 2屯x r 两者关系 也( y 。) b x :( ) ,:)k ( ) ,:) k ( ) ,) 2 h m m 的主要应用方面 1 1 在已知参数组 一协,爿,占) 条件下,根据观测到的 k :七m ) ,利用b a y e s 原则来估计x 。,即取使得对应的观测值0 :七sm ) 有最大概率的隐状态薯作为 x 。的估计,通常我们只知道一组观测链 k :足s m ) 的样本。 第7 页 国防科学技术大学研究生院学位论文 隐马氏模型在应用中将主要解决以下几个问题: ( 1 ) 由:七s m ) 出发,估计哪个模型a - p ,a ,b ) 出现的可能性最大,称 为识别问题。 ( 2 ) e h 佩:ks m 及模型 一缸,a ,b ) 出发,估计x ,称为解码问题。 ( 3 ) 由 硭。:ks m 出发,估计模型a 一,a ,口) 称为学习问题。 事实上,识别问题只要先学习,再由 k :k m 选取概率达至4 最大的模型 即可。在实际问题中,这三个问题有时并不能完全分开,在另些时候也并不需 要全部解决这三个问题,例如,在语音识别或手写体汉字或数字的脱机识别中, 我们只需解决( 1 ) 与( 3 ) ,这相当于将一个“标准的”语音音素或一个“标准的” 手写体汉字“学习成”一个隐马氏模型( 即把它与一个或几个隐马氏模型( 特 定的参数组) 对应起来,眺便把该模型作为这个音素或手写体字的代表模板) , 这称为学习问题;而进一步用这些模板中的最合适者,作为对于一个需要识别的 音素或手写字的分类归属,就称为运转问题。为了确定到底归入哪个模板最合适, 就要在合理的距离或准距离下优化,相对熵就是其中一个常用的准距离。 注一般地,r 还可以是连续型随机变量,记石,l 工。的条件下,z 的分布密 度为l ( y ,) ,则五一o ,a ,( y 。) ) 。 2 2 语音识别中h m m 的三大问题和基本算法 一个以h m m 为统一框架的汉语语音识别系统中音素为最基本的识别单位。 音素就是一个汉字按照拼音时所用的各种拼音单位,即汉语拼音中的声母或韵 母。因此可以将声韵母确定为语音识别的最基本单位在隐马氏模型中对应于模 型的一个状态m 。 一个语音段( 由声韵母构成) 可以用一串特征矢量( 可以观测到的,指语音 的语谱特征) 表示,语音识别中通常用k 表示一帧语音的特征矢量,z 是一个连 续型随机变量:而如果把矢量进行矢量量化( 一种极其重要的信号压缩方法) , 每一个矢量用一个编码符号代表,这就交成了观察符号序列了,x 成为离散型随 机变量。目前常用于语音识别中的离散型隐马氏模型( d h m m ) 和连续型隐马 氏模型( c h m m ) 就是由于f 的不同而划分的m j 。 ( 1 ) 在d h m m 情况下,观测序列为符号序列, 第8 页 国骑科学技术大学研究生院学位论文 b 一侈j i ,- 1 , 2 ,n ;k 一1 2 ,m 它满足6 ,睡) ;1 其中肘为编码符号集中符号总数,在用矢量量化编码时,m 就是码本大小。 ( 2 ) 在c h m m 情况下,观测序列为矢量序列,丑就是个分布函数的集合, 其中y 为观察矢量空间的任一矢量,b j 是分布密度函数, b , t y ,) 一 ( ) 匆 它满足,b 。b 一1 其中q 是矢量y 的分布空间。 1 识别问题【l ,3 ”l 给定一个观测量序列) ,一( _ ) ,1 ”,y ,) ,一个首要的问题是计算其在某个模型 a ,何,a ,丑) 下的概率p ( y y 陋) ( 已经事先给定可列个模型) ,以这个概率来衡 量其在不同模型下的相似度,并按照b a y e s 统计原则,取a ,a r g m a x p ( y 一_ ) ,i ) 为识别结果认为样本) ,出自于模型f ,因为这个模型的可能性最大。 设工一b 1 ,坼l yt ( y l 一,y ,) ,按h m m 的意义,易知 p 伍一x 陋) 一石,n 。:n ,一。 ( 2 2 t 1 ) p ( y - y 防- 五a ) - b x ( _ ) ,。) b x , ( _ ) ,。 ( 2 2 2 ) p ( y y 陋) 一p ( y y 陋一工,a 列墨一x 陋) ;,昝沁如。舢,) 2 2 3 上面的公式中要对状态的所有可能组合进行求和,因而是指数级复杂度u j 的。前向算法和后向算法给出了计算p ( y ,y 恤) 的多项式级复杂度 1 】的计算方法。 2 解码问题 已知a ,加,a ,b ) ,对一个观测过程y 一“,耳) 要求相应的隐马氏过程 国防科学技术大学研究生院学位论文 x 一暇l - ,x ,) 。选取原则:取x + 为 石+ a a r g ,a x p ( x t x i y y ,a ) = a r g ,m a x ! ! ;i 掣,已知模型a jj l 置yi 几, 及观测y y ,求状态x 由假设容易算出 p ( 】,一y 陋一工一g 1 ,白l a ) 一6 。( y ,1 k ( y ,) 尸( y - y ,x - x l x ) 一石。( y 。k ,。4 。b 。( _ ) ,) ( 2 2 4 ) p 一y l a ) 一b 。( y 。k 。棚。,k ( y ,) - g l ,一 ( 一) 前同耍量 对于is ts t 及观测样值y 。y ,令 口。( f ) 一p 一y 。,i y t , x ,- z ,一j i ) ( 依赖) ,) 递推公式: 口。+ 。( f ) 一p e - y ,e 。一y ,。,z ,+ 。- f i a ) - q ( ,k b ,乩) 假设状态集合s 一礼2 ,3 ,t 一4 ,有 0 0 0 图2 2 if f g l 句变l l t a 3 ( 1 ) 示意图 注图中连线表示状态间的转移。 计算p 一y l a ) 的前向算法( f o r w a r d a l g o r i t h m ) 1 初始化:a 。( i ) 一石。6 l ) ( 2 2 7 ) z 迭代: 口m 。) - ( 莩a ,( ,b 一岛( y ,+ t ) ) ,r - ,一,r 一 ( z 2 s ) 、, 第1 0 页 国防科学技术大学研究生院学位论文 3 结果:p ( y = y 陋) 一坼( i ) ( 2 2 9 ) ( 二) 后向变量 同理令展( f ) 。p + 。y 。,耳一y ,i x ,= x tt f ,a ) ( 2 2 1 0 ) 递推公式 局( f ) 一p 位+ 1 4 儿l - ,耳= y ,x 。- j t x ,一f , ) ,乙,- j j b j 叫1 同样假设状态集合s 礼2 ,鸯,t 一4 ,有 o 0 0 图2 2 2 后向变量岛( 2 ) 示意图 注图中连线表示状态间的转移。 有如下的后向算法( b a c k w a r da l g q i r i t h m ) 1 初始化:岛( f ) - 1 2 迭代:f i r ( i ) 一厉+ - ( ,k b 乩l f | l ,1 ,r 一1 3 结果:尸( y y 陋) 一展( f k ;阢( _ ) ,一) 佗2 1 2 ) f 2 2 1 3 ) r 2 2 1 4 ) 这两种算法的计算量为r l 2 阶【1 】的。 ( - - - ) 解码估计状态x 令n ( f ) 一p ( x ,一f r y ,a ) 胁。p ( y - 葡y , x , 两- i x ) 4f a , ( ) 丽f i t ( i ) 叫5 ) ( 1 ) 单点状态最优原则即在每一时刻,求最可能的状态:即如果i 满足 国防科学技术大学研究生院学位论文 n ( f ) _ m 。a 。x y r ( f ) ,则取x t 2 i 。单点状态最优的长处在于简单易算,但是它存在 显见的缺点,由于它没有考虑到前后两个状态的制约关系,因此得到的状态序列 完全有可能不存在。基于这种原因,考虑路径最优的原则就是很自然的了。 ( 2 ) 路径( 轨道) 最优原则这是基于整体性考虑的方法,令 6 t ( f ) 。一m a x p ( x ,;f ,x 】一x ,置一1 一t - 】,x - y 1 ,z - 只)( 2 2 1 6 ) 则6 。( f ) 一阢t y 。) m a x ( 6 ,( j 如。) ,实际计算程序可以用如下的v i t e r b i 算法。 , v i t e r b i 算法 设置初值: 6 l ( f ) 一万;6 i x 妒。a ) 。0( 2 2 1 7 ) d ,+ l o ) 一b i 。+ 1 ) m a x ( 6 ,( ,) 口a ) 递推公式: ( 2 2 1 8 ) 妒,( j ) 一i :6 ,1 ( i ) d 。f m a x 每- 】f ) 4 口 。 最终结果:p o iy 陋) 一m 婶如( f )( 2 2 1 9 ) 设有一个隐马氏模型,有四个状态岱,s 。,s ,s 。) ,五种观测以。吒,匕,k ,k ) , 各参数设置如下 表2 2 1h m m 参数( 转移概率与初始概率) 目标5 , 目标5 2目标s 3 目标s s 0 10 2o 3o 4 s , 0 2o 3o 3o 2 s 3 0 40 1o 1o 4 s 。 o 30 30 3o 1 初概率0 2o 3o 3o 。2 表2 2 2h m m 参数( 特征分布) k吒圪k s 1 0 10 1 50 2 50 3o 2 s 2 0 3o 20 10 2o 2 s 3 0 2o 3o 1o 10 3 s 4 0 10 10 30 30 2 第1 2 页 国防科学技术大学研究生院学位论文 若已知观测序列y 一,嵋,k ,吒) ,那么对应的状态序列z 是什么? 我们 用v i t e r b i 算法给出答案。 ( 1 ) t2 0 6 i ( 1 ) 一4 8 6 :( 1 ) 一8 1 6 :( 1 ) 一1 1 7 6 ;( 1 ) - 7 7 8 d 淞) 一9 0 d i ( 2 ) 置5 4 6 i ( 2 ) 一1 6 2 d :( 2 ) t 5 8 3 6 ;( 2 ) 一5 8 3 8 1 ( 3 ) ;8 0 6 :( 3 ) 一8 1 8 3 ( 3 ) 一1 6 2 6 1 ( 3 ) 一2 1 3 6 ;( 3 ) ,1 0 5 8 1 ( 4 ) 一1 0 6 i ( 4 ) 一3 2 d i ( 4 ) 一9 7 2 6 :( 4 ) 一9 7 2 6 :( 4 ) 一9 3 3 其中6 沌) - 6 ,( i ) x 1 0 “1 ,最后得出状态序列为x ( s f l ,s 。s ,s ,) 。 3 学习问题:由观测y y 估计模型参数a u j 学习的目的是通过对学习样本集的统计计算,调整模型的参数,对每个模式 找到一组最适合样本集的参数。在极大似然意义下,即为互一a r g m a x p f f y l 五) , 或多观测量的互一a r g m a x p ( y ( 0 一y ( 1 ) ,y 怔) 一y ( 阢) , ( 1 ) 状态链已知时用频率作参数估计 设在此状态链样本中,记从状态f 到状态j 转移的频数为a o ,则o d 的估计可 取屯。叫著鸣。同样记从状态到同一时刻的观测。转移的频数为岛则的 估计可取岛一b o 。由于状态链是经过估计得到的,因此不修正地使用频 率估计会增加误差。 ( 2 ) 状态链未知时的参数估计方法 第1 3 页 由于参数a 与隐马氏链的状态x 都是未知的,要从前面的关系式( 2 ) 得到 的p p :y 恤) 或p ( y ( 1 ) 一) ,( ”,y ( ) _ ) ,( 。恤) 的优化很困难。一种解决问题的方法 是借助于模型参数的模型状态之间的交叉验证,轮番优化参数五和隐状态,即先 给定某个初始参数a o ,估计出对应这组参数的最可能状态;再在当前的状态下 重新估计参数a ,又在新的参数下重估计模型的状态,如此循环直至某个收敛条 件满足为止。b a u m w e l c h 算法( 或e m 算法) 就是对这一问题的两种比较简单 易行的逐次逼近算法,即先粗略地给出某一初始参数九,再由样本逐次对参数 修正,使之逐次逼近样本,如何修正模型参数的问题。 设模型的初步参数集合a 一仁,a ,b ,且读入样本的观测序列 y 一( y 1 一,y 。) ,若令 考r ( f ,) _ p 伍tix”,。,y。y,a)。黼gk22。, h 0 ) 。p 伍,。f | y y a ) 孚逝盟 ( 2 2 2 1 ) 。 三q ( f 。( f ) 其中q ( f l 岛( f ) 分别为前向概率和后向概率,按照概率意义,邑( f ,j ) 表示在f 时刻发生状态转移( f j ) 的概率。相应的n ( f ) - p 伍,一i p 一) ,a ) - 耋彰( f ,j ) 为 f 时刻状态为f 的概率。t - 1 y ,( f ) 为整个观测序列中从状态f 出发的概率。 。t - 1 茧o ,j ) 为整个观测序列中状态转( f - j ) 的频率。由极大似然原则,可以想 藏一o 一1 对状态为f 的频率 状态转移一j 的频率 。蕊磊孺顶面菊瓣 铷) 一型鬻攀 国防科学技术大学研究生院学位论文 用前向概率和后向概率表示即为 玎一 垫e ( 篇y 裂( 1 )一y 恤) “ 铲一x i l a 一 p 留咄,。) 反任) 一 窆p ( y 咄置m 舭b 【y t ) t - 1 一 妻毋咄弘咖) 酗( f ) 国防科学技术大学研究生院学位论文 第三章基于驻留时间的离散型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论