下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、5.1概述 5.2隐马尔科夫模型的引入 5.3隐马尔科夫模型的定义 5.4隐马尔科夫模型的基本算法 5.5隐马尔科夫模型的各种结构类型 5.6隐马尔科夫模型的一些实际问题,第5章 隐马尔科夫模型,5.1 概述,隐马尔可夫模型(HMM),作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用。由于Bell实验室Rabiner等人在80年代中期对HMM的深入浅出的介绍,使HMM为世界各国从事语音信号处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。近几十年来,隐马尔可夫模型技术无论在理论上或是在实践上都有了许多进展。其基本理论和各种实用算法是现代语音识别等的重要基础之一。,5.
2、2隐马尔科夫模型的引入,HMM是一个输出符号序列的统计模型,具有N个状态 ,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知道),所以称为隐藏的马尔可夫模型。,一个简单的三状态HMM的例子,假设有一个实际的物理过程,产生了一个可观察的序列。在这种情况下,建立一个模型来描述这个序列的特征是非常重要的。如果在分析的区间内,信号是非时变的或平稳的,那么使用众所周知的线性模型来描述该信号就可以了。例
3、如,语音信号在短时间(约1030ms)内认为是平稳的,所以,在一段短时间内,就可以用一个全零点模型或极零点模型来描述它,这就是线性预测(LPC)模型。但整体来讲,语音信号是时变的,所以用模型表示时,其参数也是时变的。但是语音信号是慢时变信号,所以,简单的考虑方法是:在较短的时间内用线性模型参数来表示,然后,再将许多线性模型在时间上串接起来,这就是马尔可夫链(Markov链)。Markov链虽然可以描述时变信号,但不是最佳的和最有效的。,而HMM的出现,既解决了用短时模型描述平稳段的信号,又解决了每个短时平稳段是如何转变到下一个短时平稳段的。HMM是由两个随机过程组成,一个随机过程描述状态和观察
4、值之间的统计对应关系的,它解决了用短时模型描述平稳段的信号的问题;由于实际问题比Markov链模型所描述的更为复杂,观察到的事件并不是如Markov链模型中与状态一一对应,所以HMM 通过另一组概率分布相联系的状态的转移统计对应关系来描述每个短时平稳段是如何转变到下一个短时平稳段的。 语音识别的最大困难之一就是如何对语音的发音速率及声学变化建立模型。随着HMM被引入到语音识别领域中,这一棘手问题得到了较圆满地解决。HMM很好的描述了语音信号的整体非平稳性和局部平稳性,是一种较为理想的语音信号模型。,5.3隐马尔科夫模型的定义,离散Markov过程 Markov链是Markov 随机过程的特殊情
5、况,即Markov链是状态和时间参数都离散的Markov过程。 设在时刻t的随机变量用 、其观察值用 表示,则如果当 的前提下, 的概率是如下式所示,则称其为n阶Markov过程,特别地,当如下式成立时,则称其为1阶Markov过程,又叫单纯Markov过程。 系统在任一时刻所处的状态只与此时刻的前一时刻所处的状态有关。而且,为了处理问题方便,我们只考虑式(5-4)右边的概率与时间无关的情况,即: 同时满足: 这里 是当时刻t从状态i在时刻t+1到状态j的转移概率,当这个转移概率是与时间无关的常数时,又叫 是具有常数转移概率的Markov过程。另外, 表示t存在时,从状态i到状态j的转移是可能
6、的。对于任意的i,j都有 则这个Markov过程,是正则Markov过程。,隐Markov模型 HMM类似于一阶Markov过程。不同点是HMM是一个双内嵌式随机过程。正如在前一小节所介绍的一样,HMM是由两个随机过程组成,一个是状态转移序列,它对应着一个单纯Markov过程。另一个是每次转移时输出的符号组成的符号序列。在语音识别用HMM中,相邻符号之间是不相关的(这当然不符合语音信号的实际情况,这也是HMM的一个缺点,对此,已经有许多改进的HMM被提出)。这二个随机过程,其中一个随机过程是不可观测的,只能通过另一个随机过程的输出观察序列观测。设状态转移序列为 ,输出的符号序列为 ,则在单纯M
7、arkov过程和相邻符号之间是不相关的假设下(即 和 之间转移时的输出观察值 和其他转移之间无关),有下式成立:,因为是隐Markov模型,把所有可能的状态转移序列都考虑进去,则有: 这就是上面我们计算输出符号序列aab的输出概率时所用的方法。,HMM的基本元素 根据以上的分析,对于语音识别用HMM可以用下面六个模型参数来定义,即: :模型中状态的有限集合,即模型由几个状态组成。设有N 个状态, 。记t时刻模型所处状态为 ,显然 。在球与缸的实验中的缸就相当于状态。 :输出的观测值符号的集合,即每个状态对应的可能的观察值数目。记 个观察值为 ,记t时刻观察到的观察值为 ,其中 。在球与缸实验中
8、所选彩球的颜色就是观察值。,:状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即: 其中 是从状态 到状态 转移时的转移概率, 且有 , 。在球与缸实验中,它指描述每次在当前选取得缸的条件下选取下一个缸的概率。,:输出观测值概率的集合。 ,其中 是从状态 到状态 转移时观测值符号的输出概率。即缸中球的颜色 出现的概率。根据B可将HMM分为连续型和离散型HMM等。 :系统初始状态概率的集合, : 表示初始状态是 的概率,即, 在球与缸实验中,它指开始时选取某个缸的概率。 :系统终了状态的集合。 这里需要说明的是,严格地说Markov模型是没有终了状态的概念的,只是在语音识别里用的Mar
9、kov模型要设定终了状态。,5.4 隐马尔可夫模型的基本算法,前向后向算法 前向-后向算法(Forward-Backward,简称为F-B算法)是用来计算给定一个观察值序列 以及一个模型 时,由模型M产生出O的概率 的。 前向算法 前向算法即按输出观察值序列的时间,从前向后递推计算输出概率。 可有下面的递推公式计算得到:,(1)初始化 , (2)递推公式 ( ; ) (3)最后结果 后向算法 与前向算法类似,后向算法即按输出观察值序列的时间,从后向前递推计算输出概率的方法。 可由下面的递推公式计算得到: (1)初始化 , (2)递推公式 ( ; ) (3)最后结果,维特比(Viterbi)算法
10、 Viterbi算法解决了给定一个观察值序列 和一个模型 时,在最佳的意义上确定一个状态序列 的问题。 Viterbi算法可以叙述如下: (1)初始化 , (2)递推公式 ( ; ) (3)最后结果 在这个递推公式中,每一次使 最大的状态组成的状态序列就是所求的最佳状态序列。,Baum-Welch 算法 这个算法实际上是解决HMM训练的,即HMM参数估计问题的。或者说,给定一个观察值序列 ,该算法能确定一个 ,使 最大。Baum-Welch算法利用递归的思想,使 局部放大,最后得到优化的模型参数 。,下面给出利用Baum-Welch算法进行HMM训练具体步骤: 1)适当地选择和的初始值。一般情
11、况下可以按如下方式设定: a)给予从状态转移出去的每条弧相等的转移概率 b)给予每一个输出观察符号相等的输出概率初始值 = 并且每条弧上给予相同的输出概率距阵; 2)给定一个(训练)观察值符号序列 ,由初始模型计算等,并且,由上述重估公式,计算 和 ; 3)再给定一个(训练)观察值符号序列 ,把前一次 的和作为初始模型计算 等,由上述重估公式,重新计算 和 ; 4)如此反复,直到 和 收敛为止;,5.5 隐马尔可夫模型的各种结构类型,按照HMM的状态转移概率矩阵(参数)分类 各态历经型或遍历型HMM(Ergodic HMM) :严格的讲,所谓的遍历模型就是经过有限步的转移后,系统能达到任何一个
12、状态。即系统从一个状态允许转移到任何一个状态。在某些应用系统中,常遇到的是一步遍历模型,即经过一步跳转,系统可达到任何一个状态。这样的HMM的状态转移矩阵中的每一个元素均为大于零的数,没有零元素。显然,各态历经型HMM不符合时间顺序的要求,因为它可以回到以前到过的状态,所以只能用于不要求时间顺序的语音信号处理,如:与文本无关的说话人识别等。,从左到右型HMM(Left-to-Right HMM):所谓的从左到右模型,就是指随着时间的增加,状态的转移只能是从左到右进行或停留在原来的状态,而不能出现返回到以前状态的情况,即从编号高的状态(如第状态)到编号低的状态(如第n-1或n-2等等状态)跳转的
13、情况(这实际上是一个时序的问题,因为按照时间顺序,总是从编号低的状态向编号高的状态转移)。因此,其状态转移矩阵具有如下的形式,它是一个上三角矩阵,而表示终止状态的最后一行除了最后一个元素外全为零(当终止状态没有自转移时,则最后一行全为零)。,另外从状态转移结构上HMM还有其他的一些变体,如由图5-5(c)所示的由两条并行的从左到右模型组成的HMM,又称为HMM网络。它不是一般的情况,是由标准模型组合的变体,用于特殊的应用场合。这种模型较复杂,所以性能一般要比单个左右模型要好。,按照HMM的输出概率分布(B参数)分类 离散HMM(DHMM):离散HMM就是上面一直在介绍的HMM。在这种HMM中,
14、每一个状态的输出概率是按观察字符离散分布的,每一次转移时状态输出的字符,是从一个有限的离散字符集中按照一定的离散概率分布选出的。在语音信号处理中,经过特征分析后,语音信号先被分割成若干帧,每帧求取一个特征参数向量,即每帧是用一个特征参数向量表示的。此时若要使用离散HMM,则需要将语音特征参数向量的时间序列进行矢量量化,通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式。,连续型HMM(Continuous HMM,简称为CHMM):在连续HMM中,由于可以输出的是连续值,不是有限的,所以不能用矩阵表示输出概率,而要改用概率密度函数来表示。即用 表示:在 和 之间观察矢量的
15、输出概率。这里 称为参数 的概率密度分布函数,输出 的概率可以通过 计算出来。 一般用高斯概率密度函数,由于 是多维矢量所以要用多元高斯概率密度函数,根据协方差矩阵是全协方差矩阵还是对角协方差矩阵,可以把连续HMM分成全协方差矩阵CHMM和对角协方差矩阵CHMM。 另一方面,由于在实际的语音信号处理系统中,往往用一个高斯概率密度函数不足以表示语音参数的输出概率分布,所以一种常用于语音信号处理的概率密度函数,称之为“高斯元混合密度”,即用多个高斯概率分布的加权组合来表示输出概率密度函数。 连续混合密度HMM为多个正态分布线性相加的HMM系统,当M值较大(如M为4或5)时,系统的识别率较高,但其运
16、算量较大。另一方面,每个模型中每个状态的概率密度由M个正态分布函数叠加而成,它比前者有更多的自由度,因而逼近实际分布的效果更好一些,这样识别效果也会更佳,随着词汇量的增加,这一优点更加突出,因而,对一些大词汇量的与说话人无关的语音识别系统,连续混合密度HMM受到重视。,半连续型HMM(Semi-Continuous HMM:简称为SCHMM):离散HMM的模型参数少,对训练数据量要求不高,而且离散HMM的计算量较少,易于实时实现,但是离散HMM的缺点是识别精度不高。连续型HMM虽然不使用离散概率分布不需要对输入信号进行量化,从而提高了识别率,但这是以运算量的增加为代价的,而且连续型HMM尤其是
17、连续混合密度HMM的模型参数教多,训练数据不够时训练的模型精度较低。为了结合这两种模型的优点,弥补这两种模型的缺点。人们提出了半连续型HMM,它的输出概率的形式如下式所示: 这样,对于离散HMM,半连续型HMM用多个正态分布线性相加作为概率密度函数弥补了离散分布的误差;对于连续型HMM,半连续型HMM用多个各状态共有的正态分布线性相加作为概率密度函数弥补了参数数量多,计算量大的缺陷。,其他一些特殊的HMM的形式 空转移(Null Transitions):在这种类型的HMM中,系统的输出是与转移弧相联系的,允许不产生输出的转移,即从一个状态转移到其他状态时,无观察符号(或矢量)输出。这样的转移
18、称为空转移。在连续语音识别系统中,单词或语句的HMM都是由基元HMM的连接形成的,一般在连接时,一个基元HMM的终止状态和一个基元HMM的初始状态相连接,这种连接产生的转移弧就是空转移,如图5-6所示。所以在大词汇连续语音识别系统中大量使用了这种模型。,基元HMM的连接,参数捆绑(Parameter tieing) :参数捆绑的基本思想是在HMM的不同状态转移弧的参数之间建立一定的关系,使得不同状态转移弧使用相同的参数,其目的就是使模型中的独立的状态参数减少,从而使得参数估计变得较为简单。参数捆绑是解决训练数据不足问题的重要方法,因为模型的参数越多,则需要的训练数据数量就越大,否则训练出的模型
19、精度就不够。所以可以通过参数捆绑来降低模型参数数量,减少对训练数据量的压力。参数捆绑常用于两个或多个状态的输出观察向量的概率密度分布近似相同的情况,提取的语音特征参数可以认为在这些状态转移弧上符合相同的分布。实际上,在如图5-7所示的连续型HMM中,一个状态的自转移弧和互转移弧的参数必须进行参数捆绑,因为,对于一个训练参数的时间序列,实际上互转移弧上只通过了一帧的语音数据,而用一帧的语音数据估计正态分布概率密度函数是不可能的。,具有参数捆绑的连续型HMM,5.6 隐马尔可夫模型的一些实际问题,下溢问题 在计算HMM的三个问题时,需要计算前向变量 和后向变量 ,他们是通过递归运算求得的,例如在
20、Viterbi算法中,计算前向变量所用的递归公式如下: 在上式中, 和 项均为小于的1数(甚至远小于1),因此在实际运算中, 较 要小,随着t的增加, 就有明显得降低,最后,该变量变得非常小,以致会超出计算动态范围的下限,即使采用双精度运算,当t相当大时,几乎所有的 都趋向于0,后向变量 的计算也有类似的情况,这就是计算中的下溢问题。因此,在进行相关计算时,必须加入定标过程。,参数的初始化问题 从理论上而言,基于标准ML(Maximum Likelihood Method,简称为ML法)判据的Baum-Welch前后向重估训练算法能够给出似然函数的局部最大点,一个关键的问题是如何恰当地选择HM
21、M的初始参数,使局部最大值尽量的接近全局最优点。此外,好的初值选择还可以保证达到收敛所需的迭代次数最小,即计算效率较高。初始概率和状态转移系数矩阵的初值较易确定。由迭代算法可知,如果任何一个参数的初值定为0,那么以后的迭代运算中恒为零。因此,通常对这两组参数的初值设置为均匀分布之值或非零的随机数,据有关文献介绍, 和 的初值设置对识别率的影响不是太大。 参数B的初值设置较其它两组参数的设置更至关重要也更困难。对离散型HMM等较简单的情况,B的设置较容易,可以采取均匀的或随机的设置每一字符出现的概率初值。在连续分布HMM的B中,包含的参数越多越复杂,则参数初值的设置对于迭代计算的结果越至关重要,
22、一种较简单的B初值的设置方法是用手工对输入的语音进行状态划分并统计出相应的概率分布作为初值,这适合于较小的语音单位。对于较大的语音单位,目前普遍采用分段K-均值算法,该算法的基本思想和计算流程如图5-8所示。,用分段K-均值算法求模型的参数初值,提高HMM描述语音动态特性的能力 为了保证HMM计算的有效性和训练的可实现性,基本的HMM模型本身隐含了以下三个假设: 假设1:状态转移概率与观察序列无关,且时不变; 假设2:状态观察概率密度函数与过去状态无关; 假设3:状态观察概率密度函数与过去观察无关。 由于语音是发音系统连续变化所产生的,具有很强的相关性,以上基本HMM的假设无疑是不合理的。因此,虽然隐马尔可夫模型是现在最流行的语音识别模型,然而基本型的HMM采用状态输出独立假设是它的一个固有的缺陷。它影响了HMM描述语音信号时间上帧间相关动态特性的能力。,为了弥补这一缺陷,最早人们采用的方法是在利用语音静态参数 的同时,增加如下式(5-63)所示的语音的动态特性参数,即以时刻t(帧)为中心, (帧)为幅度的线性回归系数 : 然而这些扩展都没有从根本上解决HMM假设的不合理性,因而其对识别性能的改进也必然是有限的。因此,基于语音段的统计建模方法正是在此基础上于八十年代末、九十年代初应运而生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年黄山市徽州区中小学编制教师招聘考试参考试题及答案详解
- 2026年河北省唐山市中小学编制教师招聘笔试参考试题及答案详解
- 2026年上海市宝山区中小学编制教师招聘笔试参考题库及答案详解
- 2026年南京市雨花台区中小学编制教师招聘考试参考题库及答案详解
- 2026年白银市白银区中小学编制教师招聘考试参考试题及答案详解
- 2026年贵港市港北区中小学编制教师招聘考试备考试题及答案详解
- 2025年亳州市谯城区中小学编制教师招聘笔试试题及答案详解
- 2025年郑州市上街区事业编单位人员招聘笔试试题及答案详解
- 2026年阜新市海州区中小学编制教师招聘考试备考试题及答案详解
- 2025年鸡西市梨树区中小学编制教师招聘考试试题及答案详解
- 风电场道路分包合同
- 铁路运输智能调度系统
- 国家职业技能标准-农业技术员
- 网络安全设备巡检记录表
- 家政服务员(母婴护理员)(三级/高级工)理论知识试题及答案
- 非接触支付2024年商业支付的新趋势
- 职业生涯发展展示 (修改)
- 防喷器的试压操作培训课件
- MAG焊具体工艺参数
- 湖北小学生诗词大赛备考试题库400题(三四年级适用)
- 普通诊所污水、污物、粪便处理方案 及周边环境情况说明
评论
0/150
提交评论