(计算机应用技术专业论文)语音识别算法研究及实现.pdf_第1页
(计算机应用技术专业论文)语音识别算法研究及实现.pdf_第2页
(计算机应用技术专业论文)语音识别算法研究及实现.pdf_第3页
(计算机应用技术专业论文)语音识别算法研究及实现.pdf_第4页
(计算机应用技术专业论文)语音识别算法研究及实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)语音识别算法研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d i s s e r t a t i o nf o rm a s t e rd e g r e e ,2 010 s c h o o lc o d e :10 2 6 9 n o :5 1 0 7 1 2 0 1 0 5 4 e a s tc h i n an o r m a l u n i v e r s i t y s p e e c hr e c o g n i t i o n a l g o r i t h ma n d i m p l e m e n t a t i o n d e p a r t m e n t : q 望璎丛曼! s 曼i 星塾q 曼垦塾亟! 曼曼h 坠q ! q g y m a j o r t u t o r: s t u d e n t: j i n h u ax u j u n h u it u a p r i l ,2 0 1 0 一掣嬲燃 华东师范大学学位论文原创性声明 表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中 作了明确说明并表示谢意。 导下 所有 作者签名:滥盗 日期:砷年6 月日 华东师范大学学位论文著作权使用声明 门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版; 允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位 论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题 和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文 母, 于年月开解密,解密后适用上述授权。 ( 、) 2 不保密,适用上述授权。 导师签名篮塑本人签名 徐锄辱 栌年6 月日 宰“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密 委员会审定过的学位论文( 需附获批的华东师范大学研究生申请学位论 文“涉密”审批表方为有效) ,未经上述部门审定的学位论文均为公开 学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权) 。 o r i g i n a li t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o r t h em a s t e r sd e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y ,1w a r r a n tt h a tt h i s t h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v e b e e nf i g u r e do u tb ym e a n yo ft h er e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k , p a t e n t ,s t a t u t o r yr i g h t ,o rp r o p r i e t yr i g h to fo t h e r sh a v eb e e n e x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h eg e f e r e n c e ss e c t i o na tt h e e n do ft h i st h e s i s s i g n a t u r e :途纽雪d a t e :兰! 壁:笪! ! c o p y r i g h tn o t i c e ih e r e i na g r e et h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e sf r e e l y a v a il a b l ef o ri n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h e t h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i np a r t i c u l a r ,s t o r i n g t h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ,a sw e l la sc o m p i l i n g a n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s ,c o n s i s t e n tw i t h f a i ru s e 6 a sp r e s c r i b e di nt h ec o p y r i g h tl a wo ft h ep e o p l e sr e p u b li c o fc h i n a s i g n a t u r e : 涂俊辉硕士学位论文答辩委员会成员名单 姓名职称单位备注 王薪伟 勐教授年泵师范大学i 爝犰糸 主席 , f 诵葑庆研究灵 犀乐师范大学尹鳞锄哧 甓晦蜂别缀授华剁币范穴誊讨鸯耙系 华东师范人学硕_ i j 学位论文摘要 摘要 通常意义上,我们所说的语音识别指的是将语音信号转换成文字的一个过 程1 。语音识别作为模式识别领域中一个重要的研究方向,其重要性不言而喻。 语音识别技术的发展可以使得人们与计算机等设备能更方便的进行交互。其最 基本的应用就是实现语音输入。语音输入可以代替键盘的功能,提高输入速度, 也节省人们宝贵的时问。此外还可能将语音识别技术用来控制某些机器,汽车, 飞机,手机等。 本文对语音识别的一些基本理论及算法进行了一些研究和实验。首先在第 二章对语音信号的处理及特征提取进行了介绍,简要的介绍了两种常见的特征 提取方法,并且比较了两种特征在用于孤立词的识别时性能的差异。接下来讨 论了基于隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 的语音识别算法。在利用隐马 尔可夫模型进行孤立词识别的基础上,尝试将该模型用于英文连续词的语音识 别。该部分内容中介绍了一个连续语音识别系统的构成,讨论了对声学建模单 元的选取,模型参数的改进,识别算法以及统计语言模型的使用,并且介绍了一 个语音识别工具h t k 。利用该工具在一个大词汇量非特定人的连续语音数据库 t i m i t 上进行相关的实验。 关键词:语音识别,h m m ,隐马尔可夫模型,h t k , t i m i t 华东师范大学硕j 二学位论文a b s t r a c t a b s t r a c t g e n e r a l l ys p e a k i n g ,s p e e c hr e c o g n i t i o ni sap r o c e s s ,t h r o u g hw h i c ht h es p e e c h s i g n a li sc o n v e r t e di n t ot e x t i tg o e sw i t h o u ts a y i n gt h a tt h er e s e a r c ho ns p e e c h r e c o g n i t i o ni so fg r e a ts i g n i f i c a n c e ,a si t so n eo ft h ei m p o r t a n tr e s e a r c hf i e l d si n p a r e r nr e c o g n i t i o na n dh a sl o t so fa p p l i c a t i o n f o re x a m p l e ,i tw i l lf a c i l i t a t e h u m a n si n t e r a c t i o nw i t ht h em a c h i n e s v o i c ec a nb eu s e da sa ni n p u tm e t h o d ,a n d i tw i l ls a v ep e o p l e st i m ea n de f f o r tw h e nt h e ya r ei n p u t t i n gt e x to nac o m p u t e r b e s i d e s ,s p e e c hr e c o g n i t i o nc a na l s ob eu s e dt o c o n t r o ls o m em a c h i n e s ,l i k e a u t o m o b i l e s ,a i r p l a n e so rm o b i l ep h o n e s t h i st h e s i si n t r o d u c e ss o m et h e o r i e sa b o u ts p e e c hr e c o g n i t i o na n da l s op r e s e n t s t h er e s u l t so fs o m ee x p e r i m e n t so fi m p r o v i n gt h es p e e c hr e c o g n i t i o na l g o r i t h m s i n c h a p t e r2w ed e s c r i b et h ep r o c e s s i n go ft h es p e e c hs i g n a la n dt h ef e a t u r ee x t r a c t i o n w em a i n l yf o c u so nt w ot y p e so ff e a t u r e sa n dm a k ec o m p a r i s o nb e t w e e n t h e mw h e n w ea r ec a r r y i n go u tt h ee x p e r i m e n to fi s o l a t e d w o r ds p e e c hr e c o g n i t i o n a n di nt h e n e x tc h a p t e r , w em o v eo nt ot h eh i d d e nm a r k o vm o d e la n di t sa p p l i c a t i o ni ns p e e c h ,r e c o g n i t i o n a f t e rt h eb a s i ci n t r o d u c t i o no ft h i sm a t h e m a t i cm o d e l ,w et r yt ou s e i ti n i s o l a t e d w o r ds p e e c hr e c o g n i t i o n a n dt h e nw ec o n t i n u ew i t ht h ec o n t i n u o u ss p e e c h r e c o g n i t i o nu s i n gh i d d e nm a r k o vm o d e l t h es t r u c t u r eo fac o n t i n u o u ss p e e c h r e c o g n i t i o ns y s t e mi si n t r o d u c e da n dw ea l s od i s c u s ss e v e r a lt o p i c sl i k e ,h o wt o s e l e c tt h es p e e c hu n i t ,h o wt oi m p r o v et h ep a r a m e t e r so ft h eh i d d e nm a r k o vm o d e l at o o l b o xc a l l e dh t ka n das p e e c hd a t a b a s et i m i ta r ei n t r o d u c e da n dt h e nt h e y a r eu s e dt oc a r r yo u tt h ee x p e r i m e n t so fl a r g ev o c a b u l a r ys p e a k e r - i n d e p e n d e n t c o n t i n u o u ss p e e c hr e c o g n i t i o n k e y w o r d :s p e e c hr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ,h t k ,t i m i t 华东师范人学硕十学位论文目录 目习芑 第l 章绪论1 1 1 研究背景及意义1 1 2 语音识别的分类2 1 3 国内外研究历史及现状3 1 4 本文研究内容及组织结构3 第2 章语音信号的预处理及特征提取5 2 1 语音信号的预处理5 2 2 基丁发音模型的特征线性预测系数一l p c 系数6 2 3 基于滤波器组的r e e l 倒谱系数m f c c 系数8 2 4 本章小结8 第3 章隐马尔可夫模型原理9 3 1 马尔可夫链理论及隐马尔可夫模型9 3 1 1 马尔可夫链9 3 1 2 隐马尔可夫模型l o 3 2 隐马尔可夫模型的几个问题1 0 3 2 1 关于问题l 的求解1 3 3 2 2 关于问题2 的求解1 5 3 2 3 关于问题3 的求解1 6 3 2 4 隐马尔可夫模型在实际应用中的问题1 8 3 3 隐马尔可夫模型的几种分类2 l 3 4 本章小结2 3 第4 章基于隐马尔可夫模型的孤立词识别2 4 4 1 端点检测2 4 4 2 用隐马尔可夫模型进行小词汇量的孤立词的识别2 8 4 2 1 模型的训练2 9 4 3 实验及结果分析3 l 4 4 本章小结3 1 第s 章基于隐马尔可夫模型的连续语音识别3 2 5 1 连续语音识别的系统构成3 2 5 1 1 数据的预处理及特征提取3 2 5 1 2 首先是确定用隐马尔可夫模型对什么样的声学单元进行建模3 3 5 1 3 声学模型的训练3 3 5 1 4 识别网络3 7 5 1 5 搜索与解码3 9 5 2 实验用的语音数据库4 0 5 3 实验使用的j :具4 l 5 4 实验过程4 1 5 4 1 特征提取4 2 5 4 2 语言模型的建立4 2 5 4 3 识别网络的建立4 3 5 4 4 声学模型的训练4 4 5 4 5 初步的识别结果及其评估4 4 f # 东师范大学硕- i j 学位论文 目录 5 4 6 模型的改进和优化4 4 5 4 6 1 三音素单元建模4 4 5 4 6 2 对三音素模犁的参数进行聚类并且绑定4 5 5 4 6 3 增加模型中的高斯混合数目4 7 第6 章总结及展望一4 8 6 1 论文总结4 8 6 2 工作展望4 8 致谢4 9 附 录攻读硕士学位期间参与的项目及发表的学术论文5 0 参考文献5 3 华东师范大学硕r i :学位论文第l 章绪论 1 1 研究背景及意义 第1 章绪论 语言是人们用来进行同常交流,传递信息最为有效的一种工具。声音中包含 着各种各样的信息。由于大自然的进化,人类可以轻易地提取出语音信号中的各 种有用信息。 然而随着社会的发展和进步,人们除了相互之间要进行交流之外,还会大量 地接触到各种机器设备。如何让这些由计算机控制的机器也能听懂人类的语言, 成为了一项很有意义并且很具挑战性的研究课题。而语音识别的研究就是为了达 到这样的目的。 语音识别涉及多个学科,包括:模式识别,信号处理,数理统计,语言学, 等等。 ,耻! :( 蚕、伶 :u 曼、登 说话人识别 说话人识别也就是根据一段未知的语音来判断说话者是谁。而语音信号 中的文字内容则并不重要。这种语音识别就可以用来做身份的认证。 说话内容的识别 说话内容的识别就是本文所要研究的内容。 此外说话内容的识别又可以根据不同的标准划分成好几类 根据要识别的语音信号中的词是连续的还是词与词之间有明显间隔 的可分为:连续词的语音识别和孤立词的语音识别。 根据识别任务中词汇量的大小有可分为 a ) 小词汇量:词汇量小于1 0 0 b ) 中词汇量:词汇量在1 0 0 和1 0 0 0 之间 2 # 东师范人学硕j :学位论文第1 章绪论 c ) 大词汇量大于1 0 0 0 d ) 无限词汇量识别任务中的词可能是任何词 根据待识别的语音信号是有某个特定人发出的还是不确定的某个人 发出的,又可分为 a ) 特定人的语音识别:所有被识别的语句均有某个特定的人产生 b ) 非特定人的语音识别:待识别的语句不确定是由谁产生 通常来说,词汇量越大识别难度越大,连续词的识别比孤立词的识别难度大, 非特定人的识别比特定人的识别难度大。 1 3 国内外研究历史及现状 语音识别的研究有了几十年的发展。最早的语音识别系统可以追溯n 5 0 年代 的贝尔实验室,他们第一个开发出了一个孤立词的数字识别系统口3 。此后在7 0 年 代语音识别技术有了进一步的发展,其中线性预测编码( l p c ) 3 及动态规划 ( d t w ) 昂1 技术的使用,很好的解决了模板匹配中碰到的模板与待识别语音时间上 长度不一致的问题,显著地提高了识别率。 此前的语音识别主要采用模板匹配的方法,多用于进行孤立词的识别。在8 0 年代以后,随着一些新的算法如:二层动态规划算法哺3 等的提出,把研究重点转 向了连续语音识别。随着r a b i n e r 等人将隐马尔可夫模型盯3 引入到语音识别领域, 使得基于隐马尔可夫模型的语音识别研究成为之后的研究重点。 此后不少的公司,学校,科研机构都有研发出自己的语音识别系统,如c m u 的s p h i n x 系统,i b m 的v i a v o i c e 等。 我国的语音识别研究开始的比较晚。但是近年来发展也很快。我国的8 6 3 计 划还为语音识别研究专门立项。我国的一些研究机构,如清华大学电子工程系及 中科院声学所都有在语音识别方面取得不错的成果。 1 4 本文研究内容及组织结构 本文主要的研究内容有:语音信号的特征提取及不同特征对识别结果的影 响;在一个大词汇量非特定人的英文连续语音识别任务中,讨论了如何用隐马尔 可夫模型对语音信号建模,包括建模单元的选取,模型参数的优化。其中包括了, 3 华东师范大学硕:t 学位论文 第l 章绪论 使用三音素模型,对不同模型的某些状念之间进行绑定,增加高斯混合数目等方 法,提高了最终的识别率。最后对目前的研究做出总结,并分析目前存在的问题, 指出今后的研究方向。 这一节主要介绍本论文主要内容。具体内容的组织如下: 第一章阐述了课题研究的背景及意义、介绍了国内外研究现状、分析了课题 研究的目的、概要描述了课题的主要工作以及论文组织结构; 第二章主要介绍了语音信号的预处理及特征提取。 第三章介绍了隐马尔可夫模型的理论。包括隐马尔可夫模型中的三个基本问 题,以及如何将其应用到语音识别中来。 第四章主要介绍了基于隐马尔可夫模型的孤立词识别,并且用不同的特征进 行实验,比较其性能的差异。 第五章介绍了如何用隐马尔可夫模型进行连续语音识别。其中包括了连续语 音识别系统的构成。隐马尔可夫模型参数的设置及优化。 第六章是总结及展望。这部分主要对目自订的研究作了总结,并提出了今后的 研究方向。 4 华东师范人学硕_ :学位论文 第2 章语青信目的预处理及特征提取 第2 章语音信号的预处理及特征提取 在介绍语音信号的处理之前有必要说明一下一个语音识别系统的基本构 成。其结构如图2 1 所示。 图2 1 一个语音识别系统的组成 首先我们得到的是经过采样的原始语音信号。原始信号经过一个语音信号前 端处理系统,得到我们所需要的语音特征。其目的是为了压缩原始的语音数据, 提取出有代表性的特征用来做后续的识别。之后有两个过程,在识别系统的建立 阶段,则是利用训练样本的特征建立模板,或者用来训练模型的参数,得到已训 练好的模板或者统计模型【8 】。在识别阶段时,将测试样本的特征经过分类器分类。 该分类器利用原来训练好的模板或模型判断出未知样本是属于哪一类,得出识别 好的结果。 2 1 语音信号的预处理 语音信号的预处理包括以下几个过程: 预加重 分帧 加窗 预加重的目的是为了提高语音信号中的高频成分,语音信号的高频分量幅 度比较低,为了提高高频分量的作用,有必要将其提升使得整个信号的频谱比 较平坦。此外还能抑制随机噪声。其方法是将原始信号通过一个高通滤波器。 一般使用一阶数字滤波器。其传递函数为: h ( z ) = 1 一妇一1 5 华东师范大学硕 :学位论文第2 章语酱信吁的预处理及特征提取 在时域内它可表示为y ( t ) = x ( t ) 一k 木x ( f 1 )( k 一般取接近1 的值,如 0 9 8 ) 语音信号在较长的一段时间内来看变化很快,是一种非平稳过程。但是如 果取其中的很短的一段来看,其变化较小。可以将其中很短的一段信号看成是 比较稳定的信号。因此通常将一段较长的语音信号分成很多帧,每帧大约时长 为1 5 到3 0 毫秒。并且为了使连续的两帧之间变化不至于太大。分帧时会使得 两帧之间有个重叠,一般每帧会有帧长的一半是和下帧重叠的。 由于分帧的作用,使原本的信号变成一段一段的,这就相当于是对原始的 信号在时域内加上了一个矩形窗。时域内与矩形窗相乘也就相当于频域内信号 频谱与矩形窗的傅旱叶变换进行卷积。这会在一定程度上改变原始信号的频谱。 为此在分帧之后会对每一帧做一个加窗的处理。 通常使用汉明窗 y ( ,z ) = o 5 4 一o 4 6 c 。s ( 2 凳兰半) ) 少( 疗) 2 2 基于发音模型的特征:线性预测系数- l p c 系数 在语音识别中会有多种特征,其中一种就是基于发音模型的l p c 系数。 这种特征提取方法中将人类的发音系统用一个数学模型束表示。在短时内对应 于某段语音信号的发音系统相对来说是确定不变的,而该模型的系数则可用来 描述在该段很短的时间内的发音系统,也即可作为相应的语音信号的特征。 人类的发音系统大致可用以下的模型来表示n 1 : 甚骨擎眠 图2 2 发音系统模型 语音信号可看作是傲励信号激励一个线性系统h ( z ) 而产生的输出, 6 。仁东师范大学硕j j 学位论文 第2 章语音信号的预处理及特征提取 h ( z ) 可用一个全极点模型表示h ( z ) = _ 一 ( a ,a 。,为l p c 1 - 艺a k z 一 系数:p 为系统的阶数) 。 h ( z ) 又可表示为: h ( z ) :s ( z ) u ( z ) :1 ( 1 一圭口。z t ) 其中,s ( z ) 为输出语音信号的z 变换,u ( z ) 为激励信号的z 变换。这样,系统 传递函数h ( z ) 可写成差分7 髟式s ( ,2 ) :圭以。s ( ,z 一七) + h ( 咒) 。 现定义一个线性预测编码器: 预测误差表示为 i ( 甩) :兰以。s ( 行一尼) e :p :( 朋) :zc s ( ,z ) 一i ( 聊) z :ze s ( 川) 一羔口。s ( m 一足) : 为使预测误差最小,令瞩o a ,= o ( i = 1 , 2 p ) 可得到一个方程组圭吼。( f ,尼) :。( f ,o ) 其中。( f ,尼) = s 。( m - i ) s 。( 朋- k ) 对于方程组圭口。( f ,尼) :。( f ,o ) 有多种解法,如d u r b i n 递推算法,格 形算法和s c h u r 递推算法,都可得到一组系数- - )a ,a 2 ,。 7 华东师范大学硕:t 学位论文第2 章语音信呼的预处理及特征提取 在得出l p c 系数之后还可以根据一个递推公式得出l p c c 系数,它是线性预 测数在倒谱中的表示。 2 3 基于滤波器组的m e l 倒谱系数1 i d f c c 系数 另一种特征是考虑了人耳的听觉特性的特征参数,将频谱转化为基于m e l 频 标的非线性频谱,然后转换到倒谱域上。这需要在计算之前先在语音的频谱范 围内设置若干个带通滤波器h m ( n ) ( 三角滤波器) ( m = o ,m 1 ;n = o ,n 2 1 。m 为滤波器个数,n 为一帧语音信号的点数) 每个滤波器具有三角形特性, 其中心频率为f m ,它们在m e l 频率轴上是均匀分布的。在线性频率上,当m 较小时相邻的f i n 间隔很小,随着m 的增加相邻的f m 间隔逐渐拉开。m e l 频率 和线性频率的转换关系如下式: 蒯= 觑( + 志 焉 计算过程为,首先对信号进行傅罩叶变换得到其频谱,然后求其频谱的幅 度的平方也即能量。然后将其经过一组上述设计好的带通滤波器,即将频谱幅 度取平方后将其与滤波器的参数在每个频率点相乘然后求和,每个滤波器有个 输出值,有n 个滤波器的话就有n 个系数,然后对这些滤波器的输出做离散余 弦变换,即可得到一组m f c c 系数。这就是我们所要提取的特征参数。 2 4 本章小结 本章主要对语音信号的预处理及特征提取做了介绍。首先从发音模型出发引 出了一种基于发音模型的线性预测系数的特征。另外还介绍了一种基于滤波器组 的m f c c 系数。本文在后面的实验中将会对两者性能的差异进行比较。 华东师范大学硕i :学位论义第3 章隐马尔叮人模型原理 第3 章隐马尔可夫模型原理 隐马尔可夫模型是一种统计模型,隐马尔可夫过程本身是一个双重随机过 程。最早是在六七十年代由人们提出,现在己被广泛的应用在语音识别的研究当 中。本章将从最基本的马可夫过程,然后再引出隐马尔可夫过程。并且介绍了隐 马尔可夫理论中的三个主要问题的解决,以及他们如何应用到语音识别的研究当 中。 3 1 马尔可夫链理论及隐马尔可夫模型 3 1 1 马尔可夫链 马尔可夫链理论最早是由俄国数学家a n d r e ia m a r k o v ( 1 8 5 6 1 9 2 2 ) 提 出的该模型中有这样的一些假定。 a ) 存在一个离散的时间序列t = o ,t = l b ) 在每个时刻t ,系统只能处于唯一一个状态q 。 c ) 下一个时刻所处的状态是随机出现的 d ) 当前状态q 。只与前面相邻的一个状态q 。一。有关,与其他状态无关。 公式可表示为: h q ,= s iq ,_ l = s i ,q f - 2 = s k , = p q ,= tlq ,- 1 = 墨】 图3 1 一个不同时刻状态转换的过程 9 华东师范大学硕i - 学位论文第3 章隐马尔可犬模型原理 如图3 1 所示, s 1 ,s 2 ,s 3 为系统可能所处的状态集合。从某个状态i 转移 到另外一个状态j 的概率为a m 如图3 1 中的a a 州a 。:等,该概率称为状态 转移概率。状态转移概率有这样的性质 a i j 0 v i ,j ya i i :1 v i l v j = l 系统从时刻0 到时刻t 会经历一系列的状态,这样就可以得到一个状态序列 q o q 。q :q 弘q ,。这样的一个状态序列就称为马可夫链。并且这样的一个过程是可 以观测的,观测值即为每一时刻系统所处的状态q 。 3 1 2 隐马尔可夫模型 假设有这样的一个过程,人们在每一时刻所能观测到的东西不是状态本身, 而是由和状态相关的一个随机过程决定的一个值。这样一来就有两个随机过程 了。某一时刻处于什么样的状态由一个随机过程决定,某个状态下能产生什么 样的观测值由另外一个随机过程决定。这样就是我们所说的隐马尔可夫过程。 之所以说是“隐藏的,是因为我们只能看到观测值,决定系统处于什么状态 的那个随机过程是我们观测不到的。 这样的一个过程可以用一下的一个例子来解释n 0 。 罾粤瞳乡 ”、 i “、i i 一一”。、l u r 釉lu r n2 _ _ 一- - _ _ _ - _ _ - 一 p ( r e o |l p ( b l u f , ) - b d 2 | p ( g r e e n ) b t t 3 l p ( y e l l o w ) 。扫h i p l 符o l b 蕾 p t 霉t - u b z ( 2 p | g r i n ) # b 2 ( 3 ) p t v f l l o w ) ,t ) a t 4 | p r f , o i b x ( 1 l p i b l u ) 2 l p l g r e f , n ) - b 05 , p y f l l o w ) - 玲4 l p ( o r a n g e ) b ,_ lp ( o r a n g e ) - b 私- l p | o r a n g e i - 毫i l - 0 l g r e e n g r e i n b l u e r o 。y e l 蝴,r f , 0 。b l u f , 假设有n 个碗,每个碗中都装有红绿蓝黄等共m 种花色的球。从每个碗中 随机取出一个球,该球的颜色为红,绿,蓝的概率和所取的那个碗有关。 1 0 o # 东师范人学硕j 二学位论文第3 章隐马尔可夫模型原理 最丌始时刻0 时,我们决定从某个碗i 中抓一个球。取出的球的颜色为观 测值。下一时刻,根据某个随机过程,决定从碗j 中抓一个球,而这个球为某 种颜色的概率是和当前这个碗有关的。这样我们可以看出,某个随机过程决定 了一系列的选择碗的顺序,然后和每个碗有一组特定的概率,决定了从当前碗 中取出各种不同颜色的概率,也就是决定了产生某个观测值的概率。 我们回到一般的情况,不同的碗可以被看成是不同的状态,不同颜色的球 可以看成是不同的观测值。我们同样可以把a 。记为从状态i 转移到状态j 的 概率,把在状态j 产生观测值d ,的概率记为b j ( o ,) 。 3 2 隐马尔可夫模型的几个问题呓加 上述的例子使得我们对隐马尔可夫模型有了一个初步的认识。并且可以看 出,可以描述上述例子的隐马尔科夫模型中有以下的一些参数: a ) n ,即所有的状态数目。每一时刻系统可能处于这n 个状态中的某一个。 b ) m ,观测值的数目,每一时刻可能观测到得值共有m 种。 c ) a ;状态转移概率,即系统从状态i 转移到状态j 的概率。 d ) b 。( k ) 即在状态j 时观测到观测值k 的概率。 e ) 初始状态分布万= 万-万,= p q 1 = j f 】1 f n 。 为了方便通常使用以下的符号来描述一个隐马尔可夫模型的所有参数 z = ( 彳,b ,万) 其中a 为状态转移概率矩阵,b 为观测值概率矩阵,万为初始状态 概率分布。 如果给定一个隐马尔可夫模型,在一段时间t 内我们就可以用它来产生一 个观测值序列。0 = ( d 1 0 2 0 3 o r ) 。其过程为: 1 首先,时间t = l 。根据初试状态分布7 确定初始状态q ,= t 。 2 根据状态j 下,产生不同观测值的概率b ,( k ) 得到0 。= k 。 华东师范人学硕i :学位论文第3 章隐马尔可夫模型原理 3 根据状态转移概率a 转移到下一个状态j 。 4 时间t = t + 1 如果t = t 返回第2 步,否则停止这个过程。 在有了隐马尔可夫模型的一些基本定义后,为了将陔模型用于实际应用,会有 以下三个要解决的实际问题。 问题l :在给定观测序列o = ( o i 0 2 0 3 q ) 和模型参数五= ( 彳,b ,万) 的条件下, 如何计算由该模型观测到观测序列o = ( q 0 2 0 3 o ,) 的概率p ( oi 旯) ? 问题2 :给定一个观测序列0 = ( o i 0 2 0 3 o r ) 和一个模型五,如果决定最佳的 状态序列q = ( g l q :q 3 q r ) ( 即:使得这个状态序列下产生给定观测序列的概 率最大? 问题3 :在给定观测序列o = ( 0 1 0 2 0 3 o r ) 的前提下,如何设定模型的参数 五= ( 彳,b ,刀) ? 使得该模型产生给定观测序列o = ( 0 ,0 2 0 3 o r ) 的概率最大? 3 2 1 关于问题1 的求解 问题l 可以称为估计问题。该问题可以解决某个模型产生给定的观测序列 的概率。换一个角度看,如果有多个模型,我们对每个模型都可以计算其产生 该给定观测序列的概率,这样以来我们可以判断比较出一个最佳的模型。 对于这个问题的求解,最直接的方法就是列举出所有的n 个状态序列q 然后将 每个状态序列产生改给定观测序列的概率相加,便得到了改模型产生该观测序 列的概率。公式可表示为 p ( oi 旯) = p ( og ,五) p ( gi 旯) = 万。( q ) 口鲴:乞:( q ) 口秆一竹,( 0 0 a l l qa l l qm q ;z q r 但是这种方法的计算量太大,总共需要2 t - 1 个乘法,n t 个加法。如果t 的 值较大,这样的计算量是不现实的。 因此常采用“前向后向算法”的方法。 1 2 华东师范人学硕上学位论文第3 章隐马尔可大模型原理 首先定义前向变量:口,( f ) = 尸( d 1 0 :q ,q ,= f 五) 它表示模型旯下,在时刻 t ,观测事件为d f ,状态为i 的概率( o 。表示一个从o i 到o ;的观测序列 d ,= o i 0 2 o f - i o f ) 时刻 q ( z t ) t + 1 q + ( ) = 口,( f ) a 。】色( d m ) i = 1 + ,( ) = p ( o 。0 2 0 川,q 川= ji 力) 图3 3 前向算法 如图3 3 所示由t 时刻的前向变量,我们可以推出t + 1 时刻的前向变量: + ,( ) = 够( f ) 包( d 川) i = 1 然后再根据初始状态,我们就可以递推求解终止时刻t 时的前向变量 初始: 口l ( f ) = 万f 包( d 1 ) ( 1 i ) 递归公式: 口,+ l ( ) = q ( f ) b j ( o ,+ 1 ) ,l p ( oi 兄)也就是说新的模型更有可能产生给定的观测序列。因此, 我们重复上面的重估过程,直到达到了某个迭代终止的条件。最后的结果我们 就做为对问题3 的解,也就是最终训练好了的模型。 3 2 4 隐马尔可夫模型在实际应用中的问题 1 前向变量,后向变量在计算时出现的数据下溢问题 2 多观测序列问题 1 数据下溢问题:根据前向后向变量的定义 ( f ) = p ( 0 1 0 2 0 ,g ,= fl 咒) ,屈( f ) = p ( o f + 1 0 ,+ 2 0 7 iq ,= f ,兄) 将前向变量表示为多项的乘积,有口,( f ) = 哥以觚+ 。娶,( q ) 其中的每一项都是小于1 的,随着t 的增加,前向变量可能会小于计算机 7 一l7 所能表达的最小值。同样的后向变量也可表示为f i t ( i ) = f i 口+ 1 ) 兀钆( q ) 在计 算的过程中可能也会出现类似的问题。 所以在计算时会采用下面的方法来回避数据下溢的问题 我们引入一个系数c 。,把c 。作为一个比例系数来对所有的前向变量扩大。 并且用( f ) 作为一个中间变量来计算,扩大后的前向变量。具体过程如下: a )t = 1 时, 占,( f ) = 口。( f ) ,然后令c 为c ,= 士 ( f ) i = 1 嘲叫稚) 拍2 嚣 令( f ) = c l 幸q ( f )口l ( f ) = 苷坐l ( 1 ) 华东师范人学硕:l :学位论文第3 章隐马尔可犬模型原理 b ) 当2 0v f , 图3 5 任意状态可达的模型 左右模型 该模型中状态转移只能是从左向右转移,而不能从右边的状态转移到左边, 比如说总状态1 转移到状态2 之后,就不能再转移回状态1 。这种情况下,状 态转移概率矩阵只有右上角大于0 ,左下角都为零 即口扩= 0v i 清音 静音段。 短时过零率:清音 元音 静音段。 _ _ _ - _ _ _ _ 彤 _ 蚺挑瀛 nr n n 图4 2 汉字”四”的短时过零率 i 太 、 i 肌 _ u 、 k 6 ) 05 0 0 图4 3 汉字”四”的短时幅度 因此在确定语音信号的起始点时,可以利用短时幅度和短时过零率这两个 参数在不同时段的特性。首先可以通过短时幅度,大致的确定一个起点。方法 是根据经验确定一个短时幅度的阈值,当一帧信号的短时幅度超过这个阈值时, 我们认为就进入语音段了。然后由于一个汉字的开始部分可能是清音,我们利 用短时过零率这个参数,同样根据经验设定一个短时过零率的阈值。( 在该阈 值之上的认为是清音部分,在阈值以下的是元音部分或者是静音部分) 往已确 柏 筠 馏 o 2mn毫111joc协 华东师范大学硕士学位论文 第四章摧于隐马尔可犬模型的孤证词识别 认的元音帧之前看,检查他们的短时过零率。若短时过零率在阈值以上的则认 为改帧属于清音段,语音的起始点移至改帧,这样直至某帧的短时过零率低于 阈值。这样就找出了语音的起始点。 同样对于结束点,也可以类似的进行。首先还是利用短时幅度这个参数。 当短时幅度低于短时幅度的阈值时。我们认为语音信号可能结束了。此时检查 改帧的短时过零率。若短时过零率高于短时过零率的阈值,则此帧仍然属于语 音帧。然后继续检查下一帧的短时过零率,直至某帧的短时过零率低于短时过 零率的阂值。此时语音信号的结束点就找出来了。 其过程可如下表示。 图4 4 端点检测的过程。 这样的一种检测方法在实验中发现,大部分情况下时可以检测出语音信号 的起始点的。但是有时候也会碰到问题。对于某些字发音的检测,可能会出现 一个字被分成好几段,或者是静音段中的某个很短的噪音也被当做语音段。 这样一来就有必要对上面的步骤做适当的改进了。具体做法可以如下。 f # 东师范人学硕。f :学位论文第p u 章摹十隐马尔可火模型的孤市词识别 在用短时幅度确定语音信号的时候,另外再增加一个参数记为s t a t e 其初 始值设为o 。在检测语音信号开始点的时候,当某帧的短时幅度超过短时幅度 阈值的时候,将s t a t e 的值加1 。然后继续检测下一帧的短时幅度。若其值仍 超过短时幅度阈值,s t a t e 再加1 ,直至某帧,s t a t e 的值大于某个固定值( 本 实验中设为5 ) 时,我们才认为已经真正进入了语音段,而不是某个很短的噪 音。然后再返回第一个短时幅度超过阈值的那一帧。再利用短时过零率,往前 寻找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论