(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf_第1页
(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf_第2页
(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf_第3页
(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf_第4页
(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf_第5页
已阅读5页,还剩123页未读 继续免费阅读

(通信与信息系统专业论文)隐含马尔可夫模型扩展研究及其在语音识别中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学博士学位论文 摘要 隐含马尔可夫模型( h i d d e nm a r k o vm o d e l 瑚v r m ) 是一种处理序列 数据的统计模型,在语音识别,手写体识别,分子生物学,经济分析 等领域都有广泛应用,其中在语音识别领域应用最为成功,现在世界 上绝大部分的语音识别系统大都建立在h m m 基础之上的。但是, h m m 理论本身还远末完善,有许多待改进的地方。本文针对i - i m i v l 的不足,主要从以下几个方面对h m m 进行改进: 1 1h m m 中最主要的缺陷是观测矢量间的条件独立性假设,即假 设给定对应状态后,各观测矢量间相互独立。在这种假设下,当前观 测矢量的上下文用当前状态来表达,观测矢量间的依赖关系完全由位 于底层的马尔可夫过程状态间的依赖关系来表达。在实际应用中,由 于各方面的限制( 如计算量、训练数据量等) ,需要作一系列的简化, 这时,h m m 状态表达能力有限,并不能完全表达上下文中的信息。 解决这个问题的传统方法是在观测数据间加入额外的依赖关系,以弥 补状态表达能力的不足。g f h m m ( g e n e r a l i z e df u z z yh i d d e nm a r k o v m o d e l ) 是h m m 的一种扩展,它放松经典h m m 中概率测度间的可 加性约束,从而减弱了h m 条件独立性假设。该方法是一种与传统 改进方法完全不同的改进方法,它将模糊积分与模糊测度引入到 h m m 中,在不增加任何参数的情况下,可以提高h m m 的性能,但 它引入模糊积分与模糊测度等非线性操作,导致参数训练公式不容易 推导,很难在原有g f h m m 理论框架中进一步扩展以充分利用引入 模糊积分与模糊测度的优点。本文建立了g f h m m 与概率理论框架 下的i o h m m ( i n p u t o u t p u th i d d e nm a r k o vm o d e l ) l 司的部分统一性。从 i o h m m 的角度出发,可以较容易对g f h m m 进行扩充,使传统解决 方法与g f h m m 所采用的方法结合起来,充分利用二者的优点。在 这种部分统一视点基础之上,提出一种称之为万一i o h i v i m 的模型,它 用占序列取代g f h m m 中使用的口序列作为i o h m m 的输入序列,使 模型更适于实现v i t e r b i 算法。此外,在这种部分统一视点基础之上, 还提出了一种模糊条件输出i o i - i m m ,它结合了g f h m m 与传统加入 额外依赖关系方法的优点,使观测矢量间条件独立性假设得到改善。 2 ) 本文还利用h m m 的状态层信息来改进h m m 。因目前大多数 h m m 应用都是根据经验事先指定h m m 的拓扑结构,其每一个状态 都代表一定的实际意义。通常的识别方法选取使观测矢量序列具有最 大似然值的模型作为识别结果的模型,这种方法并没有考虑在给定拓 n 扑结构下每个状态的意义。本文通过利用在“正确”模型与“混淆” 模型下,各状态层变量时变特性有较大差别这一特点,来利用h l v l m 状态层信息。采用的具体方法是计算状态层变量沿时间轨迹交叉点 数,这种交叉点数在“正确”模型与“混淆”模型下有不同的分布, 在识别过程加入一个后处理过程以利用这种额外的信息。这种方法增 加的参数与运算量都很少,但能使h m l v i 的误识率降低5 1 0 。 3 ) 本文还研究了一类特特殊的序列数据建模问题。在实际中,很 多观测到的数据由多种原因或是多个因素产生的数据混合而成的,本 文提出了用因子化高斯混合来取代高斯混合作为删输出密度函 数,对其初始化方法,参数估计方法进行了讨论。该方法有参数少、 能够反映数据产生原因的特点。仿真实验显示因子化高斯混合m o 能够对由多个因素产生的序列数据更为恰当的建模,将其应用于语音 识别中,可以减轻由于训练数据不足而导致的过匹配问题。 关键词:隐含马尔可夫模型;模糊测度;模糊积分;条件独立假设; m 孙4 状态层信息;状态后验概率;当前状态概率;高斯混合模型 因子化高斯混合模型; 北京邮电大学博士学位论文 a b s t r a c t h m 玉i s ( h i d d e nm a r k o vm o d e l s ) a r eat y p eo fs t a t i s t i c a lm o d e lt h a tcanb e u s e dt om o d e ls e q u e n t i md a t ae f f e c t i v e l ya n dh a v eb e e na p p l i e dt oa 、i d er a n g eo f f i e l ds u c ha s s p e e c hr e c o g n i t i o n ,h a n d w r i t i n gr e c o g n i t i o n ,m o l e c u l a rb i o l o g y , e c o n o m i ca n a l y s i s h m m sa r em o s ts u c c e s s f u li ns p e e c hr e c o g n i t i o na n dn o wa l m o s t a l lt h es t a t e o f - t h e a r ta u t o m a t i cs p e e c hr e c o g n i t i o ns y s t e m si nt h ew o r l da r eb a s e do n h m m s h o w e v e r , t h et h e o r yo fh m mi sf a rf r o mc o m p l e t ea n dn e e d sf u r t h e rr e s e a r c h w o r k t h i st h e s i sa i m st oi n v e s t i g a t i n gh m mi nf o l l o w i n ga s p e c t : 11o n eo ft h em a i nl i m i t a t i o n so fh m mi st h ec o n d i t i o n a li n d e p e n d e n c e a s s u m p t i o n ,i e ,g i v e nt h ec o r r e s p o n d i n gs t a t e s ,a l lt h eo b s e r v a t i o nd a t aa r e i n d e p e n d e n t l yd i s t r i b u t e d u n d e rt h i sa s s u m p t i o n ,a l lt h ec o n t e x t u a li n f o r m a t i o no fa n o b s e r v a t i o ni sc o m p r e s s e da n dr e p r e s e n t e db yi t sc o r r e s p o n d i n gh i d d e ns t a t e t h e d e p e n d e n c e se x i s t i n gi nt h es u c c e s s i v eo b s e r v a t i o n sa r er e p r e s e n t e db yt h eu n d e r l y i n g m a r k o vc h a i n s + h o w e v e r , d u et ot h el i m i t e dn u m b e ro fh i d d e ns t a t e si nr e a l a p p l i c a t i o n ,t h eh i d d e ns t a t e sa r eo f t e no v e r b u r d e n e da n dr e s u l ti n a l li n a c c u r a t e p r o b a b i l i s t i cm o d e l 1 1 1 et r a d i t i o n a lm a i nm e t h o d so v e r c o m i n gt h i sp r o b l e mo f t e n u t i l i z ea d d i t i o n a l d e p e n d e n c e b e t w e e nt h e a d j a c e n t o b s e r v a t i o n s an o v e i g f h m m ( g e n e r a l i z e df u z z yh i d d e nm a r k o vm o d e l ) i n t r o d u c et h ef u z z yi n t e g r a la n d f u z z ym e a s u r ei n t ot h eh m mf r a m e w o r kt or e l a xt 1 1 ea d d i t i v ec o n s t r a i n t sa n dt h u s r e l a xt h ec o n d i t i o n a li n d e p e n d e n c ea s s u m p t i o nr e q u i r e db yp r o b a b i l i s t i cm e a s u r e n l i si sac o m p l e t e l yd i f f e r e n tw a yc o m p a r e dw i t ht r a d i t i o n a lm e t h o d st h a ta i mt o r e l a x i n gt h ec o n d i t i o n a li n d e p e n d e n c ea s s u m p t i o n h o w e v e r , t h e r ei sac o m p u t a t i o n a l d i 衢c u l t ) , f o rt h eg e n e r a l i z e dm o d e ld u et ot h ei n t r o d u c t i o no ft h en o n 1 i n e a rf u z z y m e a s u r ea n df u z z ) , i n t e g r a l t 1 1 i st h e s i sp r e s e n t sap a r t i a lu n i f i c a t i o nf o rg f h m ma n d i o h m m b a s e do nt h i sp a r t i a lu n i f i c a t i o n ,6 - i o h m mi sp r o p o s e da n dt h e ni s a p p l i e dt os p e e c hr e c o g n i t i o n f u r t h e r m o r e ,f u z z yc o n d i t i o n a lo u t p u ti o h m mw h o p o s s e s s e st h em e r i t so fg f h m l v la n dt r a d i t i o n a lc o n d i t i o n a lg a u s s i a nh m mi sa l s o i n v e s t i g a t e d 2 ) t h i st h e s i sa l s op r o p o s eam e t h o dt h a tu t i l i z et h et o p o l o g yi n f o r m a t i o nt o i m p r o v et h ed i s c r i m i n a t i v ea b i l i t yo ft h eh m m i nm o s th m m - b a s e da p p l i c a t i o n s t h e t o p o l o g yo fh m m i ss e l e c t e db a s e do nt h ep r i o rk n o w l e d g ea n dt h u st h eh i d d e ns t a t e v a r i a b l ei sa s s o c i a t e dw i t l lap a r t i c u l a rm e a n i n g t h et r a d i t i o n a lr e c o g n i t i o np r o c e s s c h o o s e st h em o d e lt h a th a st h em a x i m i z a t i o nl i k e l i h o o dv a l u ea st h er e c o g n i z e dm o d e l h o w e v e r t h em e a n i n ga s s o c i a t e dw i t h 也eh i d d e ns t a t ei sn o tc o n s i d e r e d w es h o w t h a tt h es t a t i s t i c a lp r o p e r t i e so ft h es t a t e l e v e lv a i l a b l e so nt h ec o r r e c ta n dt h e c o n f u s e dh m ma r ev e r yd i f f e r e n t c o n s i d e r i n gt h i sd i f f e r e n c e ,w eu s em en u m b e ro f 北京邮电大学博士学位论文 i n t e r s e c t i o np o i n t so ft h es t a t e - l e v e lv a r i a b l e sa n di n t r o d u c eap o s t e r i o rp r o c e s s o r u t i l i z i n gs t a t e l e v e li n f o r m a t i o ni nr e c o g n i t i o np r o c e s s t h ee x p e r i m e n t ss h o wt h e p r o p o s e dm e t h o db r i n g s5 - - 10 e r r o rr e d u c t i o nr a t e ,w i t ho n l yf e wa d d t i o n a l p a r a m e t e r sa n dn e g l i g i b l ei n c r e m e n t a lc o m p u t a t i o n s 3 ) w ea l s op r e s e n taf a c t o r i a lr e p r e s e n t a t i o no fg a u s s i a nm i x t u r em o d e l sf o r o b s e r v a t i o nd e n s i t i e si nh i d d e nm a r k o vm o d e l st om o d e lt h em u l t i c a u s e do r m u l t i f a c t o r e ds e q u e n t i a ld a t a t h ef a c t o r e dg a u s s i a nm i x t u r eh a sf e w e rp a r a m e t e r s t h a ng a n s s i a nm i x t u r em o d e l sw i t ht h es a m en u m b e ro fm i x t u r e s e x p e r i m e n t ss h o w t h a tt h ep r o p o s e dm o d e li sa b l et oo v e r c o m et h eo v e r f i t t n gp r o b l e mw h e ns u f f i c i e n t t r a i n i n gs a m p l e sa r en o ta v a i l a b l ea n dm o r ei m p o r t a n tc a nr e f l e c tt h eu n d e r l y i n g r e a s o n st h a tg e n e r a t et h ed a t a ,w eh a v ea p p l i e di tt os p e e c hr e c o g n i t i o nt or e l a xt h e o v e r f i t t i n gp r o b l e m k e y w o r d s :h m m ;f u z z ym e a s u r e ;f u z z yi n t e g r a l ;c o n d i t i o n a li n d e p e n d e n c e a s s u m p t i o n ;t o p o l o g ys t r u c t u r e ;s t a t ep o s t e r i o rp r o b a b i l i t y ;c u r r e n ts t a t ep r o b a b i l i t y ; g a u s s i a nm i x t u r em o d e l ;f a c t o r e dg a u s s i a nm i x t u r em o d e l ; v 北京邮电大学博士学位论文 全文图形目录 图2 1 源信息通过噪声信道5 图2 2 熵,条件熵,互信息,条件互信息间关系6 图2 3 语音产生及语音被感知的过程口j 7 图24 语音波形信号及其各段对应的标注” 8 图2 5 面向特定任务语音识别系统【5 】9 图2 6 语音识别过程h 2 j 1 0 图2 7 离散马尔可夫过程( n = 4 k 1 2 图2 8h m m 的有限状态自动机视点和观测变量1 6 图2 9h m m 的时间片( 3 i m e - s l i c e ) 视点1 6 图2 1 0 h m m 的d b n 视点1 7 图2 1 1 前向变量与后向变量的计算1 9 图2 1 2 v i t e r b i 算法示意图2 0 图2 1 3 单词格形图示例2 6 图2 1 4 m m i 参数估计过程2 7 图21 5 判决树状态绑定示意图l ”2 8 图2 1 6 孤立词识别系统3 0 图2 1 7 连续语音识别中由h m m 构成的网络3 1 图2 1 8 堆栈解码时异步扩展示意图3 3 图21 9 不同单词所对应的结尾帧3 3 图31 子带特征矢量条件互信息pj 4 4 图32m f c c 特征矢量条件互信息【2 ”4 5 图3 3 相邻矢量加入帧间依赖关系的h m m 4 5 图3 , 4t - i m m 各状态对应语谱图l 】7 】4 7 图3 5 b m m 中变量依赖关系1 2 ”5 0 图3 6 简化后的p h m m 条件依赖关系5 0 图4 1s u g e n o 积分与c h o q u e t 积分的计算5 6 图4 2 条件模糊测度卯 图5 ,1 n p u t o u t p u t h m m 的动态贝叶斯表示6 4 图5 2 h m m 噪声信道表示6 5 图5 3 对h m m 改进的传统方法一6 5 图5 41 0 h m m 对h m m 的改进6 5 图5 5 实验所使用h m m 拓扑结构7 1 图5 6 音素识别静态网络示例7 3 图5 7 典型l o gg a m m a 。轨迹8 1 图5 _ 8 非典型l o gg a m m a 轨迹8 1 图5 9 音素”a a ”l o gg a m m a 轨迹不同交叉点直方图8 3 图s 1 0 音素”a ”的l o g a l p h a 去均值后轨迹图8 6 图5 1 1 非典型l o ga l p h a 去均值后轨迹图8 7 图5 1 2 音素”a a ”l o g a l p h a 益线交叉点数直方图8 7 图6 1 三条马尔可夫链的因子马尔可夫模型9 9 图6 2 一个状态带有混合模型与多个子状态带有单个分量等价1 0 0 图6 3 因子子状态叉积形成复杂状态1 0 1 北京邮电大学博士学位论文 图6 4 两种h m m 训练过程对数似然值变化衄线。1 0 7 图6 5 高斯混合密度与因子高斯混合密度函数示意图1 0 8 图7 1 有3 个交叉点的非典型相对l o g a l p h a 轨迹1 1 3 x 北京邮电大学博士学位论文 全文用表目录 表2 ,1 人与机器在语言层与声学层识别性能比较3 4 表2 2 声学模型和语言模型对识别性能的影响一3 4 表2 3t i m i t 语音数据库组成3 6 表2 4 t i m i t6 2 音子标注一3 7 表2 5t i m i t 聚类后3 9 音素标注3 7 表5 1 实验使用的参数7 l 表5 2 孤立音素识别结果7 l 表5 3 ( 1 ) h m m ;( 2 ) t t - i o i - i m m ;( 3 ) 万一i o h v i m 性能比较7 2 表5 4 t i m i t 各音素最长与最短帧数7 4 表5 5 连续语音识别结果( 单音素模型) 7 4 表5 6 连续语音识别结果( 三音素模型) 7 5 表5 7 条件观测密度i o h m m 识别性能7 9 表5 8 模糊条件高斯连续语音识别结果( 单音素模型) 7 9 表5 9 模糊条件高斯连续语音识别结果( 三音素模型) 7 9 表5 1 0 三个状态g a m m a 轨迹交叉点统计一8 4 表5 1 1 ”a a ”音素的三个状态l o g a l p h a 值8 5 表5 1 2 误判为”a a ”的某个音素l o g a l p h a 值8 6 表5 13 三个状态a l f a 轨迹交叉数8 8 表5 1 4 三个状态d e l t a 值交叉次数9 1 表5 1 5 三种方法识别性能比较9 l 表5 1 6 三种方法各音素识别性能及对应调节因子仃值9 2 表5 1 7 利用状态层信息连续语音识别结果( 单音素模型) 9 3 表5 1 8 利用状态层信息连续语音识别结果( - - 音素模型) 9 4 表5 1 9 m m i 方法( 单音素模型) 识别结果一9 4 表5 2 0 m m i 方法( 三音子模型) 识别结果9 4 表6 1 三种模型在n 与m 取不值时性能比较1 0 7 表6 2 两种模型音素划分结果比较1 0 9 表6 3 训练集数据量对识别正确率影响1 0 9 表6 4 两种模型连续语音识别结果比较1 1 0 表6 5 训练集数据量对语音识别性能影响110 x l 型! 查塑兰兰垡墼 ! ! ! ! 1 7 5 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所j = 日,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与蝥龉若有不实之处,本人承担一切相关责任。 本人签名j 瓣俨晚上盟! l 江一 关于论文使用授权的说明 学位沧文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可咀允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 非保密论文 本八笔名: 导师签名: 于保密范围,适用本授权书。 日期;趔! :i :i z 日期:诬【:l t j i 北京邮电大学博士学位论文 1 1 项目背景 第1 章绪论 本文作者从2 0 0 1 入学开始介入语音信号处理、统计模式识别、语音识别基 础理论研究,从2 0 0 2 年3 月份至2 0 0 4 年9 月份参与香港城市大学媒体技术研 究中心( r e s e a r c hc e n t r ef o rm e d i at e c h n o l o g yr c m t ) 项目主动媒体系统 a m s ( a c t i v em e d i as y s t e m ) 的开发与研究,该项目在香港城市大学本部与香港 城大珠海研发中心同时进行,由香港r e s e a r c hg r a n t sc o u n c i l ( r g c 编号 c i t y u h k # 9 0 4 0 6 9 0 - 8 7 3 ) ,s t r a t e g i cd e v e l o p m e n t g r a n t ( s d g编号 # 7 0 1 0 0 2 3 8 7 3 ) ,a p p l i e d r e s e a r c h g r a n t ( 编号:# 9 6 4 0 0 0 2 8 7 3 ) ,r c m t ( 编 号:# 9 3 6 0 0 8 0 8 7 3 ) 共同支持。a m s 在播放数字媒体时根据观众的手势、面部 及人眼方向、语言,分析并判断观众的兴趣点,将观众感兴趣的内容呈现出来, 是一种媒体与人工智能相结合的技术,可应用于数字媒体广告,趣味公园等。 本文作者负责a m s 里语音识别部分开发与研究工作。在已掌握的语音识别理 论知识基础之上,参与应用项目使作者对目前语音识别基础理论及其不足之处 理解得更为深刻,对如何提高语音识别的精确性与鲁棒性产生浓厚兴趣。在香 港城市大学媒体技术研究中心教授与北邮指导教师的帮助下,我的研究课题定 为语音识别中基础理论h m m 扩展及其在语音识别中的应用研究。 1 2 本文研究内容 隐含马尔可夫模型( h i d d e nm a r k o vm o d e lh m m ) 是一种可用于处理序列数 据的统计模型,在语音识别,手写体识别,分子生物学,股票市场分析等领域 都有广泛应用,其中在语音识别领域的应用中最为成功,现在世界上绝大部分 的语音识别的产品大都建立在h m m 基础之上的。h m m 本身还有许多不完善 的地方,h m m 扩展可以针对这些不完善的地方展开。本文着重解决下以三方 面的的问题: 由于计算的需要或是h m m 本身的特性,h m m 作了很多假设,其中两种假 设1 ) 给定当前状态,当前观测矢量独立于其它观测矢量;2 ) 当前状态只与前 一个状态有关,而与更前面的状态无关,与实际数据不符,其中第2 个假设也 称马尔可夫性。许多h m m 变种已经被提出,以克服h m m 假设的不精确性。 如何在不增加大量参数和计算复杂性情况下,能够克服或减弱这几个假设,提 高h m m 的描述能力与分辨能力,一直是一个研究的热点。本文将传统改进方 法与模糊测度、模糊积分理论结合起来,达到在不增加大量参数和计算复杂性 情况下增加h m m 描述能力与分辨能力的目的。 其次本文还利用h v i m 的状态层信息来改进h m m 。因目前大多数h m m 应 北京邮电大学博士学位论文 用都是根据经验事先指定h m m 的拓扑结构,每一个状态都代表一定的实际意 义,而通常的识别方法是先求观测矢量序列在每一个h m m 下的似然值,然后 选择晟大似然值所对应的h m m 作为识别出的模型,该i - i m m 对应的文字标记 ( 1 a b e l ) 就是所识别的结果。这种识别方法并没有考虑在给定拓扑结构下每个状 态的意义。从统计角度看,“正确”模型与“混淆”模型状态层变量的时变特性 很不相同,利用这种不同的特性就可以提高h m m 模型的分辨能力。 本文还来研究一类特殊的序列数据建模问题。在实际中,很多观测到的数 据由多种原因或是多个因素的产生的数据混合而成的,如由多个人同时说话产 生的语音信号,以及由噪声与语音的混合语声信号。对这类信号,近来产生了 一种因子化的学习方法,力图用较少的参数来表达这类信号,解释各因素贡献 的大小。本文将这种因子化学习方法引入到序列数据的处理中,提出了一种因 子化高斯混合h m m 。 1 3 论文结构 第一章绪论,介绍了项目背景以及研究内容。 第二章介绍了信息论基本内容,语音识别基本方法,分析了m 心4 的特性, 包括h m m 定义以及h m m 中的需要解决的3 个基本问题,分析了h m m 的不 足之处。介绍了前向后向算法、e m 算法、m m i 算法,v i t e r b i 算法,堆栈解码 算法。介绍了h m m 如何应用于语音识别,包括孤立词识别与连续语音识别。 对于本论文实验所使用的识别基础系统与语音数据库作了概括介绍。 第三章介绍了已有文献对h m m 改进的主要方法,包括加入动态特征矢量 法,条件高斯法,分段模型法等,并分析了这些方法的不足之处。 第四章介绍了模糊测度,模糊积分理论,以及它们和传统概率测度的关系。 介绍了广义模糊隐含马尔可夫模型( g f h m m ) ,给出了g f h m m 的参数估计 方法,以及和传统h m m 的关系,为第五章内容做准备。 第五章将g f h m m 与i o h m m 进行了部分统一,在这种部分统一的基础上 提出了一种新的h m m 改进方法;详细介绍了如何利用状态层信息;将所提的 方法应用于孤立音素识别与连续语音识别,并进行了理论分析与总结。 第六章提出了在h m m 中用因子化的高斯混合分布来取代高斯混合分布, 并对其初始化方法、参数估计方法进行了讨论。因子化的高斯混合分布能够对 由多种因素产生的数据更为恰当的建模,能够反映产生数据的原因。 第七章结束语总结了本论文所作的主要贡献,以及进一步研究的方向。 北京邮电大学博士学位论文 第2 章隐含马尔可夫模型及语音识别 2 1 语音识别的发展 现代语音识别从7 0 年代发展起来,这期间最具代表性的工作是线性预测编 码方法和动态时间规整技术( d y n a m i ct i m ew a r p ) 2 】 6 3 】,它有效的解决了语 音的特征提取和不等长匹配问题,研究特点以孤立词语音识别为主,通常把孤 立词作为一个整体来建立模型,对特定人孤立词语音识别非常有效。8 0 年代, 隐含马尔可夫模型( h m m ) 和神经元n 络( a n n ) 等相继被用于语音识别,其显 著特征是从模板匹配技术转向基于统计模型技术。h m m 理论是1 9 7 0 年前后 b a u m 等人建立起来的【2 5 1 1 2 6 1 ,随后由c m u 的b a k e r 和i b m 的j e l i n e k 等人将其 应用到语音识别中,并逐渐成为研究的热点。此后,连接词识别系统,连续语 音识别系统相继出现,其中c m u 的非特定人连续语音识别系统s p h i n x 具有 里程碑意义1 ”】。9 0 年代以来,语音识别逐渐由实验室走向实用化,出现了一 些实用系统,如i b m 的v i av o i c e 等。但是,现在的语音识别技术远未达到能 殄在任意环境中识别出不限定主题、非特定人的话语内容。现在,一些学校和 机构已推出了源码公开的系统,如c m u 的s p h i n x i l 3 】,剑桥大学的h r i k 【2 2 】 等,为语音识别的研究提供了很好的基础平台,使语音识别的研究变得更加广 泛和深入。 2 2 贝叶斯决策理论 统计识别方法根源于贝叶斯决策理论,该理论将一个划分任务或识别任务 转化成对某个数据分布的参数化估计。设工是关于观测值的一个随机变量,观 测值由包含k 个分类的信息源发出,一个模式划分器的任务就是将观测值x 归 类于k 个分类中的个。记足个分类为e ,i = 1 ,2 ,k 。e ( x ,) 表示z 与c 的联合概率分布,实际应用中假定模式划分器的设计者已知该联合概率分布的 形式,换句话说,设计者已知道信息源所有特征。从该联合概率分布可求出边 缘和条件概率分布。贝叶斯决策理论用下列方式决定观测值属于哪一个分类: c ( x ) = ci fp c fi x ) = m a x e c jl 彳) j 该式是一种最大后验概率法( m a x i m u map o s t e f i o r im a p ) ,后验概率值p ( c 。ixl 并没有给出,只能从训练数据里估计得到,这样它将一个划分或识别任务转化 成对某个数据分布的估计。这种方法导致的判断错误率称为贝叶斯风险,误判 为分类c 的错误率为: 北京邮电大学博士学位论文 丑( c i x ) - - e p ( c - ,i x ) , = 1 - e ( c , l x ) 也称风险函数,贝叶斯风险是最小判断错误率【5 0 1 ,模式划分器总体风险为 r = i r ( c ( x ) i z ) 尸( x ) 出。 只要联合概率分布e ( x ,c 1 形式足够精确,并且训练数据足够充分,最大后验 概率法( m a p ) 是一种最佳划分方法。 p ( c 1 1 可被重写为 p ( et x ) :型坐婴盟 、 e ( x ) 其中尸( ) 不是分类索引i 的函数,对划分不起作用,可以省掉。p f c j l 是一个 先验概率,在语音识别中跟语言模型有关口2 1 ,为了简单起见,我们假设尸( c ) 己 知。这样,为求出后验概率p ( c fl ) 只需求出e ( x i e ) 就行了。 最大后验概率法( m a p ) 有几个待解决的问题。首先,为便于处理,e ( x ,g 1 须有一参数化形式,模式划分器的设计者须决定该参数化形式。实际中,这是 一个很困难的问题。参数化形式的选择既要考虑到数学上的易处理性,又要考 虑和真实数据分布的一致性。这在实际中不可能完全作到,意味着m a p 方法 不可能真正得到实现,贝叶斯风险是不可能达到的一种错误率;其次,对于给 定的参数化形式,其具体的参数还得从训练数据中估计得到,因而需要找到一 种好的参数估计方法,该方法应具有稳定和高效的特性;第三,为了得到可靠 的参数估计,需要大量的已知分类标注的训练数据。通常训练数据越充足,参 数估计会越好。不过,大量训练数据的收集和标注意味着大量的资源和精细的 劳动,对语音识别而言更是如此,当训练数据不充分时,参数估计的质量就不 能得到保证。这三个问题指出了统计模式识别中的一个事实:尽管贝叶斯决策 在理论上能给出最佳结果,但在实际中采用的方法不可能求出真正最大后验概 率,因而得不到最佳结果。所以实际中往往采用一些变通的方法。 2 , 3 信息论基础 因本文要用到信息论的知识,这里对信息论的要点作一下概括,有关信息 论的详细介绍可以参阅文献 3 。 设是一个随机变量, x = x 表示随机变量z 取值为x 这一事件,该事件 产生的概率为p z = x ,或用更简洁的表示方法表示为p f z 。通常,p f x 越 小,表示事件f x = x j 越令人意想不到。随机变量x 的每一个取值事件都会带 来一定的信息,表示信息量的大小可以用概率来表示,罕见事件带来的信息量 大,因它是不可预知的,而常见事件带来的信息量就小,因它是可预知的。信 息论里用一l o g ( p x j ) 表示信息量的大小,随机变量x 带来的平均信息量的大小 北京邮电大学博士学位论文 用 日( ) = p ( x ) l o g ( p ( x ) ) 来表示,该值称为随机变量x 的熵,连续随机变量的熵也可以类似定义。 如果随机变量z 被认为是向外发送文本消息的信息源,每个文本消息用字 母表里的字母表示,每个字母按不同的概率出现,每个字母用二进制数字符串 唯一表示,如用哈夫曼编码( h u f 狞n a n ) 表示,那么,h ( x ) 就代表二进制串表示 的平均最小长度。 设y 也是一随机变量,并与x 相关。如果已知事件 y = y 出现,该事件会 根据条件概率函数p ( x i y ) 影响事件 并= x ) 出现的概率。一l o g ( p ( x l y ) ) 可以 被用来度量给定y 的情况下,事件f x = x 1 所提供的信息。给定y 后随机变量 条件熵定义为: h ( x 1 】,) = 一p ( x ,y ) l o g ( p ( x y ) ) 。 量 ,。s 南山s 南刊。s 帮乩s 端 可坠看作事件 z = x 在给定事件 y = y 之前与之后所提供信息之差,互信息 ( m u t u a li n f o r m a t i o nm i ) 就是所有x ,y 上这种差值的均值量,定义为 舭i y ) 。善px , y ) l o g 书熬j 。y,、“,、, 如果x 被看作是一个信息源,信息通过一个噪声信道后,观测者得到的是y , 那么y 包含有关于x 的信息,如图2 1 所示,变量y 包含变量x 的均值信息是互 信息。 互卜臣乎 图2 1 源信息通过噪声信道 如果z 也是一随机变量,量 。g 南山g 高曲s 揣 可以看作在给定事件 z = z 情况下,给定事件 】,= y 之前与之后事件 = x 所提供信息之差,条件互信息就是这种差值的均值量,定义为 凇;即) 5 委舢一l o g 揣 j ,j ; ,、一l 。,、,l 。, 北京邮电大学博士学位论文 条件互信息也可以用下式表达: ,( z ;y l z ) = i ( x ;r l z = z ) p ( z ) 其中 啦了1z _ z ) - 善px , y 旧1 0 9 揣i :, ,、,、,l 。, 表示给定事件 z = z ) 后,x 与y 间的条件互信息。条件互信息度量在给定条件 下,两随机变量间的统计依赖关系。 熵,条件熵,互信息,条件互信息可以用数学上的维恩 蛩( v e n nd i a g r a m s 、 来表示,如图2 2 所示。各个量之间存在着相互关系,有一些关系可以从维恩 图中直接观测得到,如: i ( x ;y ) = h ( ) 一h ( xr ) = 日( y ) 一h ( y ix ) = 日( ) + h ( 】,) 一u ( x ,y ) l ( x ;r ,z ) = ,( z ;y ) + i ( x ;z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论