(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于ubm的发音质量评价系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t t h i s p a p e r i n v e s t i g a t e s a s y s te m w h i c h c a n a s s e s s t h e p r o n u n c i a t i o n q u a l i t y o f e n g li s h s p o k e n b y c h i n e s e s p e a k e r s . b a s e d o n t h e s p e e c h r e c o g n i t i o n t e c h n o l o g y , t h e s y s t e m is d e s i g n e d t o m i m i c t h e s c o r i n g m e c h a n i s m s o f h u m a n e x p e r t s a n d g iv e t h e f e e d b a c k t o t h e s p e a k e r s o n t h e p ro n u n c i a t i o n q u a li ty . a n o v e l s c o r i n g a l g o r i t h m i s p r e s e n t e d , w h i c h i n t r o d u c e s t h e u n i v e r s a l b a c k g r o u n d m o d e l s ( u b 均 f o r a u t o m a t ic p r o n u n c i a t io n a s s e s s m e n t . t h e a l g o r i t h m w a s e v a l u a t e d b y u s i n g a c o r p u s o f n o n - n a t i v e s p e e c h . t h e e x p e r i m e n t a l r e s u l t s b a s e d o n t h e h t k t o o l k i t s h o w t h a t t h e a p p ro a c h o u r中 e r f o r m s 。 山 。a s s e s s m e n t a l g o r i t h m s o n c o r r e l a t i o n s w i t h e x p e r t s c o r e s a t t h e s e n t e n c e l e v e l . t o p u t t h e s y s t e m i n t o p r a c t i c a l a p p li c a t i o n , w e r e a l i z e t h e p r o n u n c ia t i o n a s s e s s m e n t s y s t e m b y v c 6 .0 . t h r e e m a c h i n e s c o r e s a r e u s e d a s p r e d i c t o r s o f t h e p ro n u n c i a t i o n q u a li ty , w h i c h a r e h mm l o g - l i k e l i h o o d s c o r e s , s e g m e n t d u r a t i o n s c o re s , a n d l o g - l i k e l i h o o d r a t i o s c o r e s b a s e d o n u b m . a n d t h e y a r e c o m b in e d 勿 l i n e a r re g r e s s i o n t o o b t a i n a b e t t e r p r e d i c t i o n o f t h e o v e r a ll p r o n u n c i a t i o n q u a li ty . k e y wo r d s : u n i v e r s a l b a c k g r o u n d m o d e l s ( u b 劝, p r o n u n c i a t i o n a s s e s s m e n t , s p e e c h r e c o g n i t i o n 南开大学学位论文版权使用授权书 本人完全了 解南开大学关于收集、保存、使用学 位论文的 规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门 或者机构送交论文的复印件和电 子版; 在不以 赢利为目 的的 前 提下, 学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 竺 竿 警b. lj-, - ,79 )_ * - a ,),r- - 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: w t 学 位论文作者签名: k a 解密时间: 澎 洲 沪年月 各密级的最长保密年限及书写格式规定如下: ( 最长5 年,可少于5 年) ( 最长 1 0年,可少于 1 0 年) 最长 2 0年,可少于 2 0年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中己经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 己公开发表或者没有公开发表的 作品的内 容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均已 在文中以明确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 列 年 和 第一章引言 第一章引言 在语言学习与 教 学中, 反 馈占 有独特的 地位 1 1 。 一 方 面, 它 联系着学习者的 语言输入与输出,它不仅是学习者与他人进行言语交互活动时不可缺少的环节, 同时也影响着言语交互活动的 结构与质量,因而,反馈的类型和使用特点在一 定 程度上决定着学习 者通过言 语交互活动学习语言的 可能 性; 另一方面,它与 学习者的注意、情感、动机等认知、心理因素有着密切的关系,进而影响语言 学习与教学的效率。 在课堂教学中, 教师是一 个有效的反馈源,能 够很 快并准确地评定学习者 发音的水平。由于师资的缺乏和教学手段的落后, 大多数学习者只能依赖于自 身的感知能力去判断自 身发音和标准发音之间的区别, 这对语言学习来说是远 远不够的。随着计算机技术的迅速发展,一种称之为计算机辅助语言学习的技 术 应运 而生 2 3 1 。 传 统 的 计 算 机 辅 助 语言学 习 系 统 主 要 关 注 语 言 的 文 字应 用能 力 ( 即读和写)和语音理解能力 ( 即听力)的训练。相对而言,却很少关注语言 的口头表达能力 ( 即说的能力) 的训练。近年来,随着语音识别技术的进步, 人 们开 始 研究计 算 机 辅 助 发 音 训 练( c o m p u t e r - a i d e d p r o n u n c ia ti o n t r a in in g , 简 称c a p t )的技术。通过利用c a p t 系统,学习者就可以 随时获得对自身发音的 有效的反馈,包括分值或等级等简洁直观的形式,图谱或口 形等具体形象的形 式,以及直接的指导性建议。这些反馈信息集中了 人类发音专家的知识,不会 对学习者产生误导。 c a p t 系统是一个多学科综合的产物, 可以 看作是语音识别技术在语言学习 领域的 应用2 3 1 。 从二 十 世纪 九 十 年 代初开 始, 随 着 语音 识 别 技术 的 成熟 和发展, 一些科研机构一直致力于研究c a p t 系统。 美国的s r i , c m u 、 英国的剑桥大学、 日本的一些大学以及国内的香港理工大学和清华大学等皆不断有论文发表。而 且,一些机构也发布了 成熟的基于语音识别技术的c a p t 系统和工具。例如s r i 的w e b g r a d e r ,这款软件支持法语和英语,它是一款基于w e b 的多语言发音联系 工具: 还有, c m u 研制的 f l u e n c y , 它支持 英语学习 , 侧重 于 检 查和 纠正 学习 者 发音的韵律问题等等。 第一章引言 第一节 语音识别技术 所谓的语音识别技术是指利用计算机自 动识别语音的技术,通俗的讲就是 让机器听懂人说的话,即在各种情况下,能够准确的识别出语音的内容,从而 根据语音信息执行人的各种意图。 1 . 1 . 1 语音识别的签本情况 2 0 世纪5 0 年代初,是语音识别技术的萌芽阶段。1 9 5 2 年k . h . d a v i s 等人 在a t 而非特定人识别是指系统可以 识 别所有人。 相比 而言, 特定人语音识别系统实 现较简单,识别率较高,但没有 通用性;而非特定人语音识别系统通用性好,但构建系统难度较大,识别率相 对于特定人语音识别系统要低。但是由 于其通用性,因此更适用于实际应用。 非特定人语音识别系统的实用化将会有很高的 经济价值和深远的社会意义。 从词汇量的多少看可以分为大词汇量、中词汇量和小词汇量。所谓词汇量 是指语音识别系统中所包含的能识别的词汇的多少。词汇量的多少没有严格的 标准, 一般来说低于1 0 0 个词的语音识别系统属于小词汇量识别系统, 高于1 0 0 0 个词的属于大词汇量识别系统,介于二者之间的为中词汇量识别系统。随着词 汇量的增加,各词汇之间的混淆程度会随之增加,系统实现的复杂程度增大, 识别率也会降低。 从发音的 方式看可以分为孤立词识别、 连接词识别、连续语音识别 3种方 式。所谓孤立词识别是指输入语音时, 每次只含有一个词汇。由于每次只输入 一个词汇,因 此不会出 现词汇之间的混淆, 其识别率很高。 这种系统一般用于 某些特定的命令控制系统中, 如语音控制小车、智能家居系统等。 连接词识别 是指输入的语音包含连续的几个词汇。由 于出现了 词汇间的混淆,因此这种系 统要比 孤立词识别系统难度大,识别率也相对较低些.连续语音识别是指用户 以自 然语速输入语音,系统进行识别。由于自 然语言的随意性,以及连续词汇 之间的偕同发 音等问 题使得设计这种识别系统难度增大许多,因此连续语音识 别系统目 前还出于实验研究阶段。 从识别的方法上看有模板匹配法和统计模型法等.所谓模板匹配是指将不 同的语音转换成不同的 模板, 识别时将待识别的语音模板与参考模板进行相似 性度量的识别方法。这种方法一般用于小词汇量、孤立词语音识别系统中。而 统计模型法是指以隐马尔可夫模型为基础的一类识别方法,这种方法既可以用 于小词汇量、 孤立词语音识别系统, 也可以 用于大词汇量连续语音识别系统中, 因此是目 前主流的语音识别方法。除了上述方法外,还有基于人工神经网络 ( a rt i fi c i a l n e u r a l n e t w o r k . a n n ) 等方 法的 识别 技术. 第一章引言 1 . 1 . 4 语音识别的主要方法 语音识别方法从发展过程来看主要经历了下面的三种典型的识别方法,分 别是基于模板匹配的动态时间规整 ( d t w) 算法、基于统计模型的隐马尔可夫 方法和基于人工神经网络的方法。下面对这三种方法进行详细的介绍。 1 动态时间规整 动态时间规整算法是为了 解决传统的模板匹配方法中匹配时时长不等的问 题而提出的。 传统的模板匹配方法与语音识别的原理 ( 图1 . 1 ) 基本一致,主要不同之处 在于模式库的表示。在基于模板匹配的方法中,原始语音经过训练产生一系列 的 特征模板, 存储于特征模板库中, 识别过程实质上是一个距离的相似性计算 问题。 在语音信号处理技术中,语音信号是按帧处理的,要计算两个模板之间 的距离,则需要计算这两个模板中每一帧语音的距离。当m= n时, 可以直接 计算每个对应帧的距离然后求和即可。但是由于人们说话时随机性很强,即使 是同一个人说同一个词, 其发音的时长等特征也是不同的, 而d t w算法即可有 效 的 将 不同 时 长的 语 音模板映 射 到相同 的 长度上 再进 行后 续处理 a e l j e l 图1 .2 给 出了d t w算 法 的 示 意 图 , 网 格 中 的 每 一 个点 ( i , i表 示 参 考 模 板 中 i 帧与待识别模板中 第j 帧相交, 且这两帧的 距离为: d (t ( i) , 及 溯= y- v d 一 ; ) , ( 1 . 1 ) , t ( i ) = l t l, t 2 , . . . , t d i , r ( l ) = r i, r h , . . ., r d 分别 表示 语音帧t ( i ) 和r ( j ) 对应的 第中 的式 特 征 矢 量 , d 为 特 征 矢 量 的 维 数。 d t w 算 法 就 要 在 点( 1 , 1 ) 和 点 ( n , m ) 之 间 寻 找 一 条通过相交点的路径使得路径经过的所有点对应的距离之和最小。为了阻止盲 目 搜索, 规定搜索路径的斜率介于【 1 / 2 , 2 1 之间, 到 点 ( n , m ) 是 一 条 单 调 递 增 的 路 径 。 m 个 而 且 搜 索 得 到 的 路 径 从 点 ( 1 , i ) ( n, b t ) ,/ 辜 - 一三 一 一今 _ 毛 . i n 拼 一尸 一 卜一 汀 一 ( 仙_一一 人一 、一 卜 一 于 -一 行 一 图1 .2 d t w算法的示意图 第一章引言 d t w算法简单有效, 对于 特定人孤立词的语音识别 系统识别率较高, 普遍 用于一些小词汇量的命令控制系统中, 但是普通的d t w算法对端点检测要求较 高,在噪音环境下识别效果 较差。 d t w算法出 现之后, 针对d t w算法,很多 人做了多方面的改进, 但是由 于算法本身的特点,在连续语音识别中的效果很 不好,从而出现了以统计模型为基础的隐马尔可夫方法。 d t w和模板匹配技术的 缺点是只对特定人语音识别 有较好的识别性能, 并 且在使用前需要对所有词条进行训练。 2隐马尔可夫模型 隐马尔可夫模型 ( h m m) 是2 0 世纪8 0 年代用于语音识别领域的一种基于 统计模型的方法,该方法在实验环境中基本解决了较大词汇量连续语音识别问 题,成为目 前主要的 语音识别方 法19 1 0 1n 模型是语音信号时 变特征的有参表示 法。形象地说, h m m可以 分成两个部分, 一个是隐蔽的m a r k o v 链,产生的输 出为状态序列, 另一个是与m a r k o v 链的每个状态相关联的 观察矢量的随机过程, 产生的输出为观察值序列。 隐蔽的ma r k o v 链的特征要靠可观测到的信号特征揭 示。 这样,时变的语音信号 某一 段的特征就由 对应状态观测序列的随机过程描 述,而信号随时间的变化由 隐蔽的 ma r k o v链的转移概率描述。模型参数包括 h a m拓扑结构、 状态转移概率以及描述观察序列的随机函数。 按照随机函数的 特点, 10 1 v 1m模型可以 分为离散隐马尔可夫模型( d i s c r e te h i d d e n ma r k o v mo d e l , d h mm) ,半连续隐马尔可夫模型 ( s e m i - c o n t i n u o u s h i d d e n ma r k o v m o d e l , s c h mm )以及连续隐马尔可夫模型 ( c o n t i n u o u s h i d d e n m a r k o v mo d e l , c h mm ) 。一般来说,连续h m m要比离散h m m效果好。 h mm的训练和识别 都已经研究出比 较有效的算 法, 并且不断的被完善,以提高其鲁棒性。 本文所 描述的发音质量评价系统使用的 就是隐马尔可夫模型。由 于隐马尔可夫模型的 重要性,在本文的第二章将会对隐马尔可夫模型做更详细的描述。 通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中 的各种突发情况。 因 此, h m m算法具有良 好的识别性能 和抗噪 性能。 基于h t m u l 技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模 型的建立需要依赖一个较大的语音库。这在实际工作中占 有很大的工作量。且 模型所需要的存储量和匹配计算 ( 包括特征矢量的输出 概率计算)的运算量相 对较大。 第一章引言 3人工神经网络 人工神经网络 ( a n n )是2 0 世纪8 0 年代被重新应用到语音识别领域的一 种方法,a n n具有自 适应性、并行性、非线性、 鲁棒性、容错性和学习性等特 点, 再次 将其 用 于 语 音识 别领域后取得了 一 些 成果 (5 (6 1 m 9 . a n n用于 语音识 别 领域需要解决以 下问题, 一是让a n n具有反映语音时变特性的能力, 二是解决 语音时长变化与网 络中固定的输入节点之间的矛盾, 三是解决大的a n n学习时 间过长的问 题, 四 是要解决在语音识别系统中 识别元的大小问题. h m m和a n n 各有特点, 在实验中得到的识别率相差不大。 近年来有学者将二者有机结合用 于语音识别领域,取得了一定的效果。 第二节 发音质a评价系统 语音识别技术是研究c a p t 系统的关键之处, 但它并不完全适合发音学习, 需要做很多 改 进.目 前 在 这方面的 研究主要 集中 在以 下几 个方面 10 ) , 1 )寻找反映发音质量的性能指标, 主要集中在对超发音段的研究, 包括一 段发音的语调、重音、语速和韵律等; 2 )检测和纠正给定的音素级发音错误: 3 )寻找更合理的评分机制; 4 )研究c a p t 系统的性能 评测手段; 5 )针对非母语问题的自 适应技术。 其中,发音质量评价技术可以说是基于语音识别技术的 c a p t系统的最基 本和核心的部分。 发音质量评价技术能够对学习者的发音进行评价,并给予反 馈,因而学习者可以 通过反馈来检查自己的学习结果。理想的发音质量评价系 统不仅能够对发音段 ( 指一段发音的单个音素) 进行评价,还应该能对超发音 段 ( 如英语的重 音, 汉语的音调) , 单词的发音, 句子中 词与词之间的协同 发音, 句子的语速和流利程度等进行评价。同时,理想的发音质量评价系统应具有较 高的可靠性,得到的结果应与人类专家的评分具有较高一致性,不会对学习者 产生误导;而且该结果应反映学习者进行某种语言发音的能力,而不是追求与 标准发音人个体之间的最佳相似性。 目前,评价发音质量的方法己有很多。比较通用的有:对发音段进行评价 的对数似然度打分 ( h m m l o g - l i k e l i h o o d s c o r e s ) 、对数后验概率打分 第一章引言 ( l o g - p o s t e ri o r p ro b a b i l i t y s c o re s ) 等; 对 超 音 段 进行评价的 方 法 有段时 长打分 ( s e g m e n t d u r a t io n s c o r e s ) 、 语 速打分 ( t u n in g s c o r e s ) 等。 所 有 这些分 数一 般 都是以 标 准发 音为 参 考模板, 进行 各 种有 效的 相 似 性计算来获 得 u i 1 t3 1 。 在 得到 机 器评分后,通常是通过把它与专家组的评分结果做一致性和可靠性的测试来评 价发音评价系统的性能。 第三节 本文的主要内 容和组织结构 本文构建了一个衡量中国人英语发音质量的自 动评分系统。在该系统中实 现了常见的衡量发音质量的算法。为了进一步提高机器评分与专家评分的一致 性,本文提出了一种新的发音质量评价算法,将全局背景模型 ( u n i v e r s a l b a c k g r o u n d m o d e l , 简称u b m) 应用到 发 音 质 量 评价系统中。 实 验证明, 在实 验室自 行采集的非母语测试语音库上, 新的算法取得了优于其它算法的结果。 本文的主要内容和组织结构如下: 第一章引言主要介绍语音识别技术的发展、基本原理和方法,并简要介绍 了发音质量评价系统的发展状况。 第二章主要介绍了发音质量评价系统中所使用的重要技术理论基础隐 马尔可夫模型。 第三章详细叙述了常见的发音质量评价算法和基于全局背景模型的发音质 量评价算法的基本思想和实现方式。 第四章叙述了 对中国人英语发音质量评价系统的整体设计过程,并按系统 流程,对不同阶段的关键技术作了 详细介绍。 第五章介绍了本系统实验平台的搭建过程以及实验结果,并对实脸数据进 行了分析。 第六章对本文进行了全面的总结,讨论了 本系统存在的问题,并对以后的 改进方向进行了展望。 第二章 隐马尔可夫模型 第二章隐马尔可夫模型 一般来说, 目 前的发音质量评价系统按照其所使用的语音识别技术主要可以 分为两类。一类是基于特征比较的评分方法。它通过对比 参考标准语音与学习 者的发音来评价一段语音的质量,一般采用动态时间规整 ( d t w) 技术实现。 另一类是基于声学模型的评分方法。 通过语音识别技术切割出计算发音质量所 需要的单元 ( 如英语中的音素) ,再将其与训练好的声学模型进行比较并根据评 分机制进行评价。这种方式主要基于隐马尔可夫模型 ( hi m m) 技术实现。由于 h u m在非特定人连续语音识别方面的优越性, 第二类方法更能客观准确地评价 发音质量。所以,我们将用一章的篇幅来介绍发音质量评价系统中所使用的重 要技术理论基础隐马尔可夫模型. 经典的隐 马尔可夫模型 ( h o) 是一种基于统计信号模型, 是目 前 最为成功、 应用最广的一种模型,目 前见到的各种具有优良 性能的语音识别系统几乎都采 用了这种模型。自 这种模型出现以来,人们不断深入地对它进行研究,已 经形 成了完整的理论框架。自8 0 年代人们把它应用于语音信号处理后, 就广泛的应 用于语音识别系统建模, 这种方法到现在还是语音识别技术的主流。 下面将详 细介绍语音信号f m m 模型的物理含义,建模及其在发音评分方面的应用。 第一节隐马尔可夫模型的定义 2 . 1 . 1 马尔科夫链 设 有 一 个 系统, 它 在 任何 时间 可以 认 为 处 在n 个不同 状 态s t, 凡 , , 凡中 的 某 个状态下。在均匀划分的时间间隔上,系统的状态按一组概率发生改变 ( 包括 停留 在原 状态) , 这组概率 值和状态有 关。 状态改 变的 时刻表 示为t = 1 , 2 , 3 , - ; 在时 间t 的 状 态 表示 为q , . 一 般来 说 , 为了 描 述 这 样一 个 系 统 , 就 要 求 指 定当 前 时间t 的 状态以 及所有以 前的 状态。 对于离散一阶马尔科夫链这种特殊情况, 其 概率 描述 简化为 只需要 指定当 前状态 和前 一 时刻的 状态 就够了 7 s (4 , 即 p 。 二 s j l q ,- , = s q ,-z = s k , .一p q , 二 s , lq ,_, = s j ( 2 .1 , 如果将时间起点定为t = 1 ,那么在以后每个时刻t 该系统所处的状态以概率 方式取决于初始状态概率矢量刀和状态转移概率矩阵a。刀是一个n维行矢 第二章 隐马尔可夫模型 量 , 即 刀= ( )r i . t z , 二 、 )r n ) , 它 的 每 一 个 分 量)r , 表 示9 , 等 于s , 的 概 率 , 这 可以 用 下式表述: j r i = p 9 1 = s i l , 1 5 i 5 n 矩 阵a 是 一 个n x n 维 方 阵 , 它 的 每 一 个 元素 用a y 表 示, ( 2 . 2 ) 它是己知相邻两个时 刻 中 前 一 时 刻 的 状 态 为 s i 的 条 件 下 后 一 时 刻 状 态 为 凡 的 概 率 。 a y 其具有以下性质: = p ; 二 s , i; 一 : 一 s , , i s i, j s n 可表示如下: ( 2 . 3 ) a y 2 0 y, a y = 1 j - 1 ( 2 . 4 ) 上述随机过程的输出是一组状态, 每个状态各发生在某个时刻而且各对应于 一个可观测的物理事件,因此可以用来描述一些简单的统计模型。 2 . 1 . 2 h m m 的物理含义 在马尔科夫链的基本知识被提出后, 人们就意识到它可能是描述时变信号的 有效方法。 然而, 直到隐式马 尔科夫模型( h i d d e n m a r k o v m o d e l s , 简称为h mm) 参数最优化估计方法被解决后, 它才被广泛地应用于语音识别的各个领域。 h w是一个双重的随机过程,一个是通过观测得到的观察序列,另一个是产 生这些观察值序列的状态发生器之间的转移,而这些状态发生器相对于观测者 而言 是 不可见的,因 此 称这 样的 双随 机 过程为“ 隐” 马尔 可夫 模型 n s l 1 语音信号是通过声源经声道处理而产生的。其中,人的声道特性可划分为 有限个特性平稳的部分或状态,而每个状态对声音信号作用并产生的短时信号 取决于该处的声道物理参量或语音概率分布。如果将声道特性的变化用 h m m的 状态转移概率来描述; 某一声道特性产生短时语音信号观察值的概率分布用h m m 状态的生成概率表征,则h m m 模型就能有效地用于描述时变语音信号。 l i m m 很好地表征了 语音信号整体上的时变非平稳性和局部的短时平稳性, 在 语音识别领域获得了广泛应用。 2 . 1 . 3 h m m 的定义 一 个 隐 马 尔 科 夫 模 型 有 下 列 参 数 来 决 定 i从 1 ) n - 模 型 中 状 态 的 数目 . 状 态 的 集 合 表 示 为 s = ss z , . . ., s n , 而, 时 第二章 隐马尔 可夫模型 刻的状态表示为q , . 2 ) m观测符号 数。每个状态可能 输出的 观测符号的数目。观测符号 集 合 表 示 为 v = 卜 , v 2 ,. ., v m 卜 3 ) t - 观测符号序列的 长度。 隐马尔科夫模型 产生的 观测符号序列表示 为 0 = 00 2 , . . . ,o r 卜其 长 度t 以 时 钟 周 期 为 单 位 4 ) a状态转移概率分布。 这是由 状态转移概率构成的一个矩阵。 其元 素 % 是 指 在 时 刻 状 态 为 s i , 而 在 + 1 时 刻 转 移 到 状 态 凡的 概 率 , 即 a = , ,% 一 p 9 ,+ . = s lg , = s , , 1 5 i ,j 5 n ( 2 .5 ) 5 ) b 状 态 s i 的 观 测 符 号 概 率 分 布 。 它 是 状 态 s i 的 观 测 符 号 概 率 构 成 的 一 个 矩 阵 , 其 元 素 b , 幻是 指 状 态 s i 输 出 观 测 符 号 、 的 概 率 , 时 刻 处 于 状 态 s i b 。即: 一 b , ( k ) ) ,b , ( k ) 二 p v , a t !, = s , ( 2 . 6 ) 1 5 j 5 n , 1 5 k 5 m 6 ) 1 7 初始状态分布。 它是指t = 1 时 ( 初始时 刻) 处于某个状态的概 率。即: 1 7 = n , 卜 ) r , = p 9 , 二 s , , 1 5 i 5 n ( 2 .7 ) 由以上讨论可以看出,为了完整的描述一个隐马尔科夫模型,应当指定参 数n和m, 观测符号, 三个概率分布a,b 和ii。 实际 上, 这些参数之间有一 定联系 ( 例如a, b 确定后也意味着n和m己指定) , 所以为方便起见,常将 隐 马 尔 科 夫 模 型 及 其 参 数 表 示 为 a = ( a , b , i i ) e 第二节 隐马尔可夫模型的三个基本问题 2 . 2 . 1 三个基本问题的 提出 前节给出了隐马尔可夫模型的形式,为了将其应用于实际,必须解决如下 三个基本问 题6 7 1(1 2 1 , 1 )已 知 观 测 序 列 0 = 00 2 , 二 、 拜 和 模 型 .1 = ( 4 + 8 ) , 如 何 有 效 地 计 算 在 给 定 模 型 a 条 件 下 产 生 观 测 序 列 o 的( 条 件 ) 概 率 尸 ( 0 1劝? 2 )已 知 观 测 序 列 0 = 0 l ,0 2 , . . ., o t 和 模 型 a = ( a , b , 1y ) , 如 何 选 择 相 应 的 在某种意义上最佳的 ( 能最好地解释观测序列的) 状态序列? 第二章 隐马尔 可夫 模型 3 )如 何 调 整 模 型 参 数 ( a , b , 1 7 ) 以 使 条 件 概 率 p ( o l劝最 大 ? 第一个问题是识别问题,即己知模型和一个观测序列,如何快速有效的计 算观察值序列的输出 概率问题。为了解决这个问题,前人已经研究出了“ 前向 一后向”算法。 第二个问题是最佳状态问题,即己知模型和一个观测序列,如何有效的选 择 一 个 产 生 这 一 观 察 序 列 的 最 佳 状 态 序 列 q = g ,q 2 ,二 , q r 卜即 计 算 出 模 型 产 生 这一观察值序列时最有可能经过的路径。尽管在隐马尔可夫模型中,不可以 得 出确切的状态序列,但通常认为,概率最大的路径是最有可能经过的路径,即 最佳的状态序列路径,所以在实际应用中, 可以用概率最大的路径代替不可求 的确切的状态序列路径。目 前,解决这个问 题的最好方案时v i t e r b i 算法。 第三个问 题是模型参数最优化问题,即调整模型参数,以使模型能最好地 描述一个给定的观测序列。 求解这个问 题过程就是 10 u m 训练过程。对大多数 应用来说,训练问题是 h n i m 的一个关键问 题。 通过训练自 适应调整模型参数 使之适应于训练序列并最优化,从而得到实际应用中最好的模型。这个问题在 三个问题中最难,因为没有解析法可用来求解最大似然模型,所以只能使用迭 代法毋m u m - w e l c h算法) 或使用最佳梯度法。 下面将介绍经典的b a u m - w e l c h算 法。 2 . 2 . 2 “ 前向 一后向”算法 , 从 定 义 出 发 计 算 p ( o l劝, 可 得 下 式 【819 1 2 1 . p ( o ia ) = ep ( o lq , a ) p ( g la ) =y_ - % 6 w ( 0 . ) 0 a . b q, ( 0 2 ) % m . . .b , ( o 1 ) 0 v w ( 2 . 8 ) g wz p. 式 中 , q , 是 初 始 状 态 , 气是 初 始 状 态 为 q : 的 概 率 , 气 * 是 从 初 始 状 态 q , 转 移 到 t = 2 时 的 状 态 q 2 的 概 率 , 气 ( q ) 是 状 态 g , 产 生 观 测 q 的 概 率 。 显 然 , 按 公 式( 2 .8 ) 计 算 p ( o i劝 是 不 现 实 的 , 因 为 它 的 计 算 量 相 当 大 。 为 了有效地解决这个问题,引入了前向 变量和后向 变量来简化运算。 首先介绍前向算法,定义前向变量为: a , ( 2 ) 二 以 0 , , 0 2 1 ., 0q , = s 劝( 2 .9 ) 其 含义 是 指 在 给定 模型a 的 条 件下 , 产 生t 以 前 的 部 分 观 测 序列 ( 包 括o , 在内 ) 1 0 1 , 0 2 . . . , 0 1 , 且 , 时 刻 又 处 于 状 态 s , 的 概 率 。 前 向 变 量 a , ( l ) 可 按 下 列 步 骤 进 行 第二章隐马尔可夫模型 迭代计算: 1 )初始 化 a , ( i) = ,r b , ( 0 . ) 2 )迭代计算 15i 5n ( 2. 1 0) . n. 1、_ a , ( j ) = l丢 a ,(i) a. b , (o ,) 1 5 t 5 t 一 ,1 5 j 5 n ( 2 . 1 1 ) 3 )最后 计算 p ( o ia ) = y a r ( i) ( 2 . 1 2 ) 第 一 步 是 将 前 向 变 量 初 始 化 为 状 态s , 和 初始 观 测o , 的 联 合 概 率; 第 二 步 迭 代 计算是前向算法的核心部分,可用图 2 . 1 来加以说明。不管t 时刻模型处在哪个 状 态( n 种 可 能 状 态的 任一 个) , 它 都 会以 一 定 概 率 在t + l 时 刻 转 移 到 状 态s i 去 因 此, 在t + l 时 刻 处 于 状 态s i 的 概 率 应 该 等 于 时 刻 各 种 可 能 状 态 转 移 到 s i 的 概 率 之 和。 然 后, 将 求 和结 果 乘 以 b , ( o,) 即 可 得 到 a ,. , ( j ) : 第 三 步 是 将 最 后一 次 迭 代 计 算 的 结 果 a r ( i) 对 , 求 和 , 根 据 前 向 变 量 的 定 义 , 便 得 到 尸 ( 口 劝 马 , 51凡凡:!翻 t t +l a ( t ) a , ( j ) 图2 . 1前向变量计算示意图 t t +l a ( i ) a :+ : ( j ) 图2 . 2后向 变量计 算示意图 与上述类似的 讨论, 可以得到另 一种 相似的 算法即后向算法。 为了 推导后向 算 法, 首 先 需 要 定 义后 向 变 ra w 8 9 1 121 : 9 1 ( t ) = p (o r+ ,0 ,. , , . . ,0 , 19 , = s a ) ( 2 . 1 3 ) 其 含义 是 指 在已 经 给定 模 型又 和t 时 刻 处 于 状 态s , 的 条 件 下 , 产 生 部 分 观 测 序 列 o ,+ o ,十 z , . ., o r 的 概 率。 后 向 变 量也 可以 用 迭 代 算 法 进行 计 算 , 步 骤 如 下 : 1 ) 初始化 y t ( i 2 )迭代计算 第二章 隐 马尔 可夫模型 1 5i 9 ,。 二 s , 10 1 , 0 2 , . ., 0 1 网 ( 2. 2 1) 即8 ( ) 指在, 时刻,沿着一条路径抵达状态s , ,并生成观察序列 o 1, 0 2 , ., o r 的 最 大 概 率 9 1 (i ) 可 用 迭 代 法 进 行 计 算 : 5 ,.1( i ) = ,(i) 0 y bf (o ,*1) ( 2. 2 2) 为了实际找到这个状态序列,需要跟踪使上式最大的参数变化的轨迹 ( 对 每个t 和j ) , 即为了 能够得到 最优的 状态序列, 在求解过程中, 对每一个时刻和 状态, 需要 保留使得上式中最大 化条件得以 满足的 上一刻的状态。可以 借助阵 列 v , u ) 来 做 到 这 一 点, 完 整 的 算 法 如 下 所 述 8191 12 1 . 1 )初始化 6 1 ( i ) = ) r b , ( o , ) 1 5 i 5 n ( 2 .2 3 ) v % ( 1 ) = 0 ( 2 .2 4 ) 2 )迭代计算 s , ( j ) = 盟 8 ,- 1 ( i) a b , ( o ,) 2 5 t 5 t ,1 5 j 5 n w , (j ) = a g e a,_1(i) a y z s r s t ,l s j1svsv n ( 2 .2 5 ) ( 2 .2 6 ) 3 )最后计算 , = 1m a x s , ( i )j = a r g m a x s , (i) l19 s n ( 2 . 2 7 ) ( 2 . 2 8) 4 )状态序列回 溯 9 , = v, t. l ( 9 ,. 1 ) t = t - 1 , t - 2 , , 1 ( 2 .2 9 ) 这样我们就可以求出各个时刻系统所处的状态, 得到一条唯一的最佳状态转 移路径,使得观测 序列的 概率最 大。 第二章 隐马尔可夫模型 2 . 2 . 4 b a u m - w e i c h 算法 问 题3 是 调 整 模 型 参 数 , , b , n ) , 使 观 测 序 列 在 给 定 模 型 条 件 下 的 发 生 概 率最大。这是三个问题中 最困难的一个问题。目 前尚 无解决这个问题的解析方 法。实际上, 给定任何有限 观测序列作为训练数据, 没有一种最佳方法能估计 模型参数。 但是, 可以 利用迭代处理方法( 如b a u m - w e lc h 算法, 期望值修正法) 来 选 择 a = ( a , b ,n ) 以 使 得 p ( o l劝 局 部 最 大 为 了 说 明 隐 马 尔 可 夫 模 型 参 数 的 重 估 方 法 , 首 先 定 义 , ( i, 力 19 10 2 1 , , ( i , i ) = p ( 9 , = s n 4 ,, 一s , 10 , r ) ( 2 .3 0 ) 其含义 是指在给定 模 型和 观测 序 列条 件下, 在t 时 刻处 于 状态况 , 而在t + 1 时刻 处 于 状 态 凡 的 概 率 为 了 计 算 这 个 联 合 时 间 的 概 率 , 用 图 2 .3 来 说 明 运 算 顺 序 。 根 据 前向 变 量 和 后向 变 量 的 定 义 , s , ( 1 , 力可以 写 成 下 列 形 式 : t 一1t +1 t +2 图2 .3 说明 , ( i , 力计 算的 示 意 图 j i , i ) = a , ( i ) 0 o b i ( 0 ,+ , ) ,0 ,+ , ( j ) p ( 0 i.1 ) 二 二 q , (t) a vb, (0 ,+.) ,6,+, (1 )n n 艺 艺 a , ( i ) a . 气 ( 0 ,+ , ) ,6 ,+ , ( i ) ( 2 . 3 1 ) , _ , , . , 前 面曾 把r , ( i ) 定 义 为 在 给 定 观 测 序 列 和 模 型 条 件 下 , 在 , 时 刻 处 于 状 态s , 的 概 率 。 因 此 , 将; , 0 , j ) 对 i 求 和 便 可 等 到 r , ( i ) , 即 r , ( i) = 艺 , 0 1 j ) ( 2 . 3 2 ) 如 果 将r , ( i ) 对 时 间 t 求 和( t 从1 到t 一 1 ) , 将 得 到 一 个 量 , 这 个 量 可 解 释 从 第二章隐马尔可夫模型 状 态 s , 进 行 转 移 的 次 数 的 期 望 值。 类 似 地 , 将 mi , j ) 对 时 间 , 求 和( , 从1 到 t - 1 ) , 可 以 得 到 从 状 态 况 转 移 到 状 态 凡 的 期 望 值 : 即 艺y , ( i ) = e x p e c t e d n u m b e r o f t r a n s it io n s fr o m s , 艺 , ( i , j ) = e x p e c t e d n u m b e r of tr a n s i t io n s fr o m s , to s , 利用上面的公式, 可以 得到一种重估隐马尔可夫模型参数的方法, 其计算 公式如下: 1 )在时 间t = 1 处 于 状态s , 的次 数( 频率) 的 期 望 值 if , = y , ( ) ( 2 .3 3 ) 2 )从 状 态 s , 转 移 到 状 态 s j 的 期 望 数 与 状 态 s , 转 移 的 期 望 数 的 比 值 ( 2 . 3 4 ) 3 )在 状 态 凡 观 测 到 符 号 v t 的 次 数 的 期 望 值 与 处 于 凡 的 次 数 的 期 望 值 的 比 值 r _、 i n w 4 ., b , ( k j = 二 j t ( 2 . 3 5 ) 艺y , ( j ) 总 结 的 说 , h m m的 参 数a = ( a , b , 1 7 ) 求 取 过 程 为 : 选 取 一 个 初 始 的 模 型 二 ( a , b , 1 7 ) ; 根 据 观 测 序 列 , 由 重 估 公 式 得 到 一 组 新 参 数 ( 万 , 万 , 厅 ) , 从 而 得 到 一 个 新 的 模 型 a 如 果 p ( o i习 p ( o i.1 ) , 则 用 i 替 代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论