(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf_第1页
(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf_第2页
(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf_第3页
(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf_第4页
(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(信号与信息处理专业论文)基于模糊理论的关键词识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, - 寸 i c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo f m e n g am e t h o do f k e y w o r dr e c o g n i t i o nb a s e do n f theoryuzza1i a e o r c a n d i d a t e :w a n gw e n s h u s u p e r v is o r:a s s o ci a t ep r o f c h e nl i w e i a c a d e m i cd e g r e ea p p li e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a li t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g d a t eo fs u b mis si o n :d e c e m b e r ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :石鼠抓 日期: 2 口岛年月罗日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数 据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编 本学位论文,可以公布论文的全部内容。同时本人保证毕业后结 合学位论文研究课题再撰写的论文一律注明作者第一署名单位 为哈尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 囚往授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :硝妹 e tg h : 2 0 p 年即e t 导师( 签字) : 伶予 弘一年3 月we 1 哈尔滨t 稃大学硕十学位论文 摘要 关键词识别是从一段连续的语音流当中识别出特定的一个或若干个关键 词的技术,是连续语音识别的一个分支。关键词识别技术相对于连续语音识 别来说具有耗时短、准确率高等特点,在很多领域具有广泛的应用前景,越 来越受到人们的重视。 本文主要面向汉语小词汇量的基于隐马尔可夫模型的关键词技术。由于 关键词识别不受说话人及说话方式的限制,往往在一段连续的语音流中出现 若干与关键词发音相近的易混淆的非关键词,或者关键词之间的发音相似, 使系统的识别率下降得很快。针对这样的问题,本文采用自行录制的语音, 从对语音信号的预处理丌始,采用短时平均能量法和短时平均幅度法对语音 信号的始点与木点进行粗判,去除语音信号的无声段。提取1 0 维m f c c 倒 谱系数及其一阶差分参数作为特征矢量,对关键词和词表外词采用连续隐马 尔可夫模型进行建模。训练阶段,采用b a u m w e l c h 算法进行重估迭代。在 关键词检出阶段,采用帧同步v i t e r b i 搜索算法,得到若干候选关键词。 在关键词确认阶段,为了避免与关键词发音相似的非关键词取代真正的 关键词及因为反词模型的选取不够完善而引起的误识,在确认之前采用模糊 c 均值聚类的方法,引入隶属度原则,以关键词模型和反词模型为聚类中心, 对候选关键词进行聚类,根据隶属矩阵确认候选关键词隶属于哪一类,将聚 类在反词模型周围的候选拒识掉,在确认阶段,采用聚类后得到的更具代表 性的反词模型,应用似然准则对关键词进行最后的确认。另外,还对关键词 混淆网络进行了研究与实验,并作为与引入模糊理论的关键词识别的对比实 验。实验表明,引入模糊聚类后,整个系统的识别率有了明显的提高,说明 了算法的有效性。针对聚类过程中产生远离聚类中心的野点的问题,使用了 一种改进的模糊c 均值聚类方法,使聚类的效果更好更准确。 关键词:关键词识别;隐马尔可夫模型;模糊c 均值聚类;反词模型;混淆网 络 哈尔滨t 程人学硕十学位论文 a b s t r a c t k e y w o r dr e c o g n i t i o n ,w h i c hi su s e dt oi d e n t i f yo n eo rm o r es p e c i f i c k e y w o r d sf r o mac o n t i n u o u ss p e e c hs t r e a m ,i sab r a n c ho fc o n t i n u o u ss p e e c h r e c o g n i t i o na n di sa ni m p o r t a n tr e s e a r c hd i r e c t i o ni ns p e e c hs i g n a lp r o c e s s i n g k e y w o r dr e c o g n i t i o nh a ss o m em e r i t s r e l a t i v e l y t oc o n t i n u o u s s p e e c h r e c o g n i t i o n ,s u c ha ss h o r tt i m e - c o n s u m i n ga n dh i g ha c c u m c y t h et e c h n o l o g yi s p a i dm o r ea n dm o r ea t t e n t i o nw i t haw i d er a n g eo fa p p l i c a t i o n si nm a n ya r e a s i nt h i sp a p e r , t h ec h i n e s es m a l lv o c a b u l a r yo fk e y w o r d sb a s e do nh i d d e n m a r k o vm o d e lt e c h n o l o g yi so r i e n t e d d u et ot h eu n r e s t r i c to fs p e a k e ra n d s p e a k i n gm e t h o d ,an u m b e ro fc o n f u s i n gs i m i l a rt ot h en o n k e y w o r d so r k e y w o r d ss i m i l a r i t yb e t w e e np r o n u n c i a t i o n so f t e na p p e a ri nac o n t i n u o u ss t r e a m o fs p e e c h ,t h es y s t e mi d e n t i f i c a t i o nr a t eh a s d r o p p e dr a p i d l y s e l f - r e c o r d e dv o i c e i su s e di n t h i sp a p e r w i t hr e g a r dt os u c hp r o b l e m s ,f r o mt h eb e g i n n i n go f p r e t r e a t m e n to fv o i c es i g n a l s ,s h o r tt i m ea v e r a g ee n e r g ym e t h o da n ds h o r tt i m e a v e r a g em a g n i t u d ea r ea d o p t e dt oe s t i m a t et h es t a r t i n gp o i n ta n dt h ee n dp o i n to f t h es p e e c hs i g n a li no r d e rt or e m o v et h es i l e n tv o i c es i g n a ls e g m e n t c o n t i n u o u s h i d d e nm a r k o vm o d e la r eu s e dt oe s t a b l i s hm o d e l sf o r k e y w o r d sa n d n o n - k e y w o r d sw h i c hi s n e e d e dt oe x t r a c tl0 d i m e n s i o n a lm f c cc e p s t r m c o e f t i c i e n t sa n di t sf i r s t o r d e rd i f f e r e n t i a lp a r a m e t e r sa sf e a t u r ev e c t o r s i nt h e p h a s eo ft r a i n i n g ,b a u m w e l c ha l g o r i t h mi su s e df o ri t e r a t i v er e v a l u a t i o n i nt h e d e t e c t i o np h a s eo fk e y w o r d s s p o t t i n g ,f r a m es y n c h r o n o u s v i t e r b is e a r c h a l g o r i t h mi sa d o p t e d i no r d e rt ot r u l yc o n t a i nt h ek e y w o r de n t e r e d ,an u m b e ro f c a n d i d a t ek e y w o r d sa r eo f t e ns e l e c t e d i nt h e s t a g eo fk e y w o r d sc o n f i r m a t i o n , af u z z yc - m e a n sc l u s t e r i n g a l g o r i t h mi si n t r o d u c e di no r d e rt oa v o i dt h a tk e y w o r d sa r er e p l a c e db yt h e n o n k e y w o r d sw h i c hs o u n ds i m i l a rt ot h et r u co n e sa n dt h a tt h ea n t i k e y w o r d s a l en o ts e l e c t e dp e r f e c t l yc a u s i n gt h er e c o g n i t i o nr a t ed r o p p e d t h em e m b e r s h i p p r i n c i p l ei si n t r o d u c e d t a k i n gk e y w o r dm o d e l sa n da n t i - k e y w o r dm o d e l sf o r 囊 童 哈尔滨r 程大学硕十学位论文 c l u s t e rc e n t e r s t h ec a n d i d a t ek e y w o r d sr e q u i r e dt o c l u s t e r t h ec a n d i d a t e k e y w o r d sa r ec o n f i r m e dt oi t so w nc a t e g o r ya c c o r d i n gt ot h er e s u l to fc l u s t e r i n g t h ec a n d i d a t eo n e sw h i c hi sc l u s t e r e da r o u n dt h ea n t i k e y w o d sa r er e f u s e df i r s t a tt h ec o n f i r m a t i o ns t a g e ,t h ea p p l i c a t i o no ft h ek e y w o r d sl i k e l i h o o dr u l ea r e u s e df o rf i n a lc o n f i r m a t i o n i na d d i t i o n ,t h er e s e a r c ha n de x p e r i m e n t so f k e y w o r d sc o n f u s i n gn e t w o r ka r es t u d i e do n ,a n da r ec o m p a r e dw i t hk e y w o r d r e c o g n i t i o nb a s e do nf u z z yt h e o r y e x p e r i m e n t ss h o wt h a t t h er e c o g n i t i o nr a t e i n c r e a s e dm a r k e d l yi nt h ee n t i r es y s t e mb e c a u s eo ft h ei n t r o d u c t i o no ff u z z y c l u s t e r i n g ,i n d i c a t i n gt h ee f f e c t i v e n e s so ft h ea l g o r i t h m i nt h ep r o c e s s ,t h e c l u s t e r i n go ft h ew i l da w a yf r o mt h ec l u s t e rc e n t e rp o i n to ft h ep r o b l e mo f t e n g e n e r a t e a ni m p r o v e df u z z yc m e a n sc l u s t e r i n gm e t h o di su s e dt om a k eb e t t e r a n dm o r ea c c u r a t ec l u s t e r i n gr e s u l t s k e yw o r d s :k e y w o r dr e c o g n i t i o n ;h i d d e n m a r k o vm o d e l ;f u z z yc 。m e a n s a l g o r i t h m ;a n t i k c y w o r dm o d e l ;c o n f u s i o nn e t w o r k 哈尔滨t 程大学硕+ 学何论文 目录 第1 章绪论1 1 1 课题背景1 1 2 关键词识别的研究意义2 1 3 关键词识别的国内外研究现状4 1 4 关键词检测的性能评价标准5 1 5 本论文的研究内容及结构安排6 第2 章隐马尔可夫模型8 2 1h m m 的引入8 2 2h m m 的基本概念和原理。9 2 3h m m 的三个基本问题1 0 2 4 本章小结15 第3 章基于h m m 的关键词识别基本原理16 3 1 基于h m m 的关键词识别的基本框架1 6 3 2 预处理17 3 2 1 语音信号的数字化1 7 3 2 2 语音信号的预处理1 7 3 3 特征参数提取1 9 3 3 1 语音信号的数学模型1 9 3 3 2 语音信号的特征提取2 0 3 4 声学模型的建立2 6 3 4 1 识别基元的选择。2 6 3 4 2 声学建模2 7 3 4 3 解码2 9 3 5 关键词检出3 0 3 5 1 垃圾模型- 3 0 3 5 2 基于垃圾模型的关键词检出3 0 3 6 关键词的确认3 l 哈尔滨t 程大学硕+ 学位论文 3 7 本章小结3 3 第4 章混淆网络在关键词识别中的应用3 4 4 1 混淆网络的概念。3 4 4 2 关键词混淆网络的概念。3 6 4 3 关键词混淆网络具体实现3 7 4 4 关键词确认4 0 4 5 实验结果及分析4 0 4 5 1 实验的软硬件环境。4 0 4 5 2 语音数据库的构成4 1 4 5 3 实验结果与分析4 1 4 6 本章小结4 2 第5 章模糊聚类在关键词识别中的应用4 3 5 1 模糊理论的引入4 3 5 2 模糊理论概述4 4 5 3 模糊聚类4 5 5 4 模糊c 均值聚类算法4 5 5 4 1 模糊模式识别的隶属度原则4 5 5 4 2 模糊c 均值聚类算法。4 7 5 5 模糊聚类在关键词识别中的应用5 2 5 5 1 模糊c 均值聚类在关键词识别中的应用5 2 5 5 2 一种改进的模糊c 均值聚类应用于关键词识别中5 3 5 6 实验结果与分析。5 4 5 7 本章小结5 8 结论6 0 参考文献6 2 攻读硕士学位期间发表的论文和取得的科研成果6 8 致 射6 9 哈尔滨下稗大学硕十学位论文 1 1 课题背景 第1 章绪论 在人类发展的历史长河中,人们最擅长的便是用语言来表达对事物的 看法和认识,一直以来,声音语言都是人类最为普遍使用也是最有效的相 互沟通和交流的方式。同时语言也是人类所独有的区别于其他动物的功能, 是人类历史不断进步与发展的一种标志。所以语音信号成为了人与人之间 交流和沟通的最重要的介质。也f 因为如此,对于语言的学习已经是人们 不可避免的- i 1 必修课。而随着信息时代的到来,人与人之间的直接交流 已不能满足人们的需求,现在人们所追求的是让机器具备对各种语音信息 的处理能力,使其可以和人类具备同样的听、说,读、写能力,还可以根 据语音的提示或者命令,不受时间和地点的限制,做出各种各样的反应。 如果这一切都能实现,那么人类的生活又将会是一次革命性的飞跃。 随着科技的不断发展与进步,让机器能够听懂人说话已经不再是电影 中的片段,实现人机交互也不再是天方夜谭。自动语音识别技术的发展为 人机交互提供了可靠的理论依据。语音识别本身包括了语音学、声学、统 计学、信息理论与计算机学科、数字信号处理技术和模式识别理论等学科, 以研究声学和语音学为基础,将多个研究领域相结合,各领域所取得的丰 硕成果为语音识别的发展提供了强有力的保障。为了实现人机沟通,就要 在二者之间建起一座桥梁以实现他们之间的沟通,即需要人类向机器中输 入相应的程序和指令,使人类语言能够转化成可供机器理解和分析的数据 指令,然后做出相应的反应。 经过了多年的发展,现阶段语音识别技术已经取得了阶段性的胜利, 能够在很多领域中达到很好的效果。然而,在人们自然的交谈之中,不会 总是遵循语法规则,由于不同人的说话习惯或有语义表达不完整或发音模 , 哈尔滨t 程大学硕十学位论文 糊不清等现象产生。同时,在某些特定的场合或领域之中,并不一定要完 全听清楚对方所说的每一个句子,而只需听懂一些重要的、关键性的词语 就能够大概理解说话人所要表达的中心含义。关键词识别( k w s ) 的主要任 务就是要在一段连续的语音中找出有用的词,即只从大段的语音流中筛选 出用户最想知道的有用信息,而不必识别出说话人的所有句子。可以看出, 关键词识别具有一些人的智能并降低了对识别系统的要求。从语音流中仅 仅识别某一个或几个关键词显然要比识别整个句子容易很多,同时还不会 对句子的含义产生扭曲。正是基于上述优势,关键词识别技术已经成为处 理自然语言、实现人机语音交互的最有效的手段之一,并成为语音识别领 域的另一个研究热点,目前已经具有了一些特有的技术和算法,但尚无完 备的系统出现,有待于进一步研究和发展。 1 2 关键词识别的研究意义 关键词识别技术具有着广泛的应用前景。图1 1 列举了一些典型的应用 领域。 1 ) 国防监听。9 1 l 事件之后,各国政府都对国防监听引起了足够的重 视。传统的国防监听方式必然需要耗费大量的时间和人力,关键词识别技 术的出现正好解决了这样的问题,可以通过监控关键词识别器来同夜监测 电话录音系统,既可以节省人力,还能够保证高性能、全方位的实时监控。 2 ) 语音信箱的消息分类。最典型的应用便是电话自动应答系统。当接 收到语音信息时,按不同的关键词进行分类,其实质就是主题分类或主题 确认。 3 ) 命令控制。利用关键词检测系统,用户可以通过控制智能家电,利 用语音菜单来命令家电所要做的动作。在通信业高速发展的今天,通过语 音来实现按键的功能可以实现手机体积的进一步微型化。 哈尔滨t 程人学硕+ 学何论文 图l - l 芙键词识别的典犁应刚领域 4 ) 命令控制。利用关键词检测系统,用户可以通过控制智能家电,利 用语音菜单来命令家电所要做的动作。在通信业高速发展的今天,通过语 音来实现按键的功能可以实现手机体积的进一步微型化。 5 ) 按内容检索。这个技术对数字媒体和数字图书馆具有变革式的意 义。随着信息的存储越来越简单化,存储量问题已得到了有效的解决,人 工检索却给人们带来了巨大的麻烦。将关键词识别技术应用于此,根据所 列出的一组关键词,把所有相关的领域的存储语音挑选出来。当检索者通 过语音命令给出关键词时,语音信息就能够非常自然地进行按内容检索i l i 。 6 ) 对话系统。人们所追求的目标是能够直接进行人与机器之间的交流 和信息咨询。从目前的研究情况来看,让计算机听懂人说的话便不再是电 影当中出现的桥段。很多研究人员对对话系统的研究都产生了浓厚的兴趣 并倾注了大量的心血。 7 ) 话题跟踪。把某一话题的核心内容作为关键词来检测交互双方所说 话题是否转换以及双方的话题领域属于哪些方面等问题,可以使用不同的 规则来判断不同领域的问题。 8 ) 数据查询。使用者们想要在互联网络上检测出自己感兴趣的音频文 档,必须花费大量的时间和精力进行人工检索。关键词识别的应用使得使 用者们从这项繁杂的工作中解脱出来,能够快速、轻松、准确地对自己所 关心的数据进行查询。 哈尔滨下程大学硕十学位论文 除此之外,关键词识别在信用卡认证、智能大楼等领域都有重要的应 用。可以说所有语音识别的应用都与关键词识别技术有着千丝万缕的联系。 关键词识别技术研究是一个非常有研究价值和现实意义的工作。 1 3 关键词识别的国内外研究现状 最早对关键词识别的研究是在美国军方的战场检测系统,而1 9 7 3 年 b r i d l e 的文章出现了“给定词”的识别的概念,由此,关键词识别技术拉开 序幕。“关键词”的提法出现在c h r i s t i a n s e n 等的文章中,研究中使用信号 的l p c 对4 个比较简单的词和1 0 个阿拉伯数字进行检测查询,取得了比较 好的识别效烈2 1 。2 0 世纪8 0 年代后,关键词识别的研究飞速发展,a t & t 的b e l l 实验室的研究人员利用隐马尔可夫模型( h m m ) 实现了5 个电话 用语的k w s 系统,标志着k w s 的崛起【6 i 。r o h l i c e k 等人研究连续h m m 建模问题,并应用于非特定人的k w s 中,为k w s 系统提供了可靠的性能 评价标准【7 1 。m a r t i n 等人用d e t 曲线来检测系统性能,取得良好效果【8 1 。 2 0 世纪9 0 年代以后,关键词识别技术进入了快速发展时期,剑桥大学 将关键词技术应用在内容检索中,以此来得到语音短信中的重要信息,检 出的准确率高达9 0 。此时采用单一的方式建模已不能满足关键词识别技 术的发展要求,研究人员已经着手于将各种不同的模式识别方法相互结合, 以改善识别效果,如采用基于人工神经网络的方法实现语音识别i i o i 。另外, 还有将支持向量机相结合的方法等1 1 2 】,之所以将上述方法结合目的就是为 了对h m m 方法进行补充,对于识别技术的改善具有指导意义,但目前并 无稳定的系统出现,还有待于进一步有研究。 国内对关键词识别研究起步较晚,直到9 0 年代以来,有些研究机构参 与其中,在h m m 的算法上进行了很多改进。郑方教授提出了中心距离连 续概率模型【1 3 i 。吴旭辉采用特征空间轨迹移动匹配法对关键词进行检测, 获得了很好的效果 1 4 1 。袁长海把关键词捕捉、分布式语音识别和网页浏览 4 哈尔滨工程大学硕十学位论文 器紧密联系在在一起,实现了一个中文语音网页浏览器【3 卯。郝杰提出的关 键词的后验可信测度将声学层分数和统计语言模型分数相结合,使关键词 识别率高于8 8 【”】。严斌峰在他的研究中实现了一个包含多重任务的口语 对话系统p 6 】。俞一彪利用关键词检测技术实现了一个旅游信息查询系统【3 7 】。 近几年来随着技术的发展,逐渐产生了网格( w o r dl a t t i c e ) 形式的语音 解码策略,网格结构以文本的形式保存多个候选结果,从而减小了后续工 作的难度。陈一宁在大词表环境下对n b e s t 音节格关键词识别的检出进行 了详细的研究【3 引。张鹏远针对广播新闻语音,将基于音素网格的置信度计 算方法和基于声学模型的置信度融合,提高了置信度效果f 3 9 1 。为了进一步 简化数据处理和存储的结构,m a n g u 又提出了混淆网络结构1 4 0 l ,这种线性 的结构比网格结构更加简单和易于处理。近几年来,混淆网络受到了人们 极大的关注,目前已广泛应用于语音识别当中,关键词混淆网络的方法也 已经成为重要研究方向。在文献【4 6 】中,针对仿生模式识别建模方法中落在 交叠区域样本点无法判断的问题,引入模糊理论来解决类间交叠问题。本 文则针对h m m 建模过程中产生的易混淆词影响识别率的问题来引入模糊 c 均值聚类算法,从而提高识别率。 1 4 关键词检测的性能评价标准 美国的国家安全局( n s a ,n a t i o n a ls e c u r i t ya g e n c y ) 提出过一个简单的 协议用来解决关键词检出的性能评价问题,内容如下:若x 是假想命中的 关键词而y 是正确的关键词,如果x 的中间帧落在y 的边界之内,则称x 的时序是可解的1 3 2 l 。a t & t 的b e l l 实验室依据这个协议,做了如下的定义 1 5 9 1 : 1 )如果x 的时序是可接受的并且x 等于y ,则x 是识别正确的; 2 )如果x 的时序是可接受的并且x 不等于y ,则x 是识别错误的; 3 )其他所有情况下,称x 是一个虚警( f a l s ea l a r m ) 且y 被漏识( a m i s s ) 。 5 哈尔滨t 程大学硕十学位论文 根据上面的定义能够知道,衡量一个关键词检测系统的优劣程度,可 以从两项指标来判剧3 3 1 : 1 )优度指数f o m ( f i g u r eo f m e r i t ) 或检出率( d e t e c t i o nr a t e ) :指正确确 认的关键词数量与所测语音中总关键词数的百分比值,即: 检出率= 蒜黧燃枷。 2 )虚警率f a r ( f a l s ea l a r mr a t e ) :用平均每个关键词在一小时内被虚 报了多少次来衡量,记做f a h k w ,用公式表示为: 虚警率= 丽蒜嚣慕鬻罴瓢 x 1 0 0 从定义中可以看出,如果一项被提高,另一项必然要被牺牲掉。因此, 可以将f o m 和f a r 合并在同一个坐标系中,以便于能够综合评价一个系 统的优劣程度,二者之间的相对变化形成一条r o c 曲线( r e c e i v e r o p e r a t i n gc u r v e ) ,一个识别系统的两项指标可以选在r o c 曲线上的任何一 个点,这个点被称之为操作点( o p e r a t i o np o i n t ) ! 1 。对于一个关键词识别系 统来说,显然不能只看其中的一个方面,而是需要令f a r 较低,同时f o m 较高,这时才能保证系统的性能安全、可靠。 1 5 本论文的研究内容及结构安排 本论文共分5 章,其中包括本章的绪论部分,整个内容结构安排如下: 第1 章简单概述了关键词识别的课题背景、研究意义,关键词识别的 具体应用、发展历史和现状及其性能评价标准等。 第2 章简述了隐马尔可夫模型的概念、原理,提出h m m 经常遇到的 三个基本问题并给出解决办法。 第3 章详细讨论了关键词识别的相关技术。包括语音的预处理、特征 参数提取、声学层模型、语言学模型和关键词搜索及关键词确认。 第4 章介绍混淆网络的概念,并将混淆网络应用于关键词识别当中, 6 哈尔滨下程大学硕十学位论文 进行实验,得到实验结果,目的是为了和第5 章的实验结果进行对比。 第5 章引入模糊理论,详细介绍模糊聚类算法,为了解决发音相近关 键词间易混淆的问题,将模糊聚类算法应用于关键词识别中。为了进一步 改善聚类效果,将一种改进的模糊c 均值聚类算法结合进来,以提高识别率。 对实验结果进行分析说明。以第4 章的关键词混淆网络作为对比实验,实 验表明,模糊聚类算法对于改善系统的识别率具有可行性。 最后是结论,对论文所做工作进行总结,提出所做课题的不足之处与 改进方向,并对进一步的研究提出几点建议。 哈尔滨t 程大学硕十学位论文 第2 章隐马尔可夫模型 隐马尔可夫模型是由马尔可夫链演变而来的,是一种统计信号模型, 用来描述随机过程的概率。将近一个世纪以前,人们就对马尔可夫链进行 了研究。随着理论的不断深入,到2 0 世纪6 0 年代,h m m 的理论基本成型。 到7 0 年代末8 0 年代初,h m m 已经被应用于对语音信号的处理之后,随后 的几年此模型已经成为了解决语音信号问题的重要手段,直到现在,已经 被广泛应用于语音方面的各个领域。 2 1h m m 的引入 隐马尔可夫过程一方面用来描述非平稳信号的观察值与状态之间的短 时平稳段的统计对应关系( 信号的瞬态特征,可直接观n n ) ;另一方面的实 质就是马尔可夫链,描述的是每个短时平稳段是如何向下一平稳段过渡的 6 h 。正是基于这样的双重随机过程,从观察者的角度来看,只能看到观察 值,因此被称作隐马尔可夫过程。 人的语言过程可以理解为上述这样一种双重随机过程,语音特征变化 的表现实际上就是从一个状态到另一个状态的转移,这种状态的转移也同 样具有随机性,根据上面对h m m 的概述可以看出,h m m 刚好可以有效地 描述语音信号的短时平稳信号段的参数问题。同时,已经有大量的实验证 明,将h m m 应用于语音处理之中是十分行之有效的方法,它的确可以非 常精确地描述语音信号的产生过程。现如今,h m m 已经成为各国研究人员 所公认的处理语音信号问题的重要手段。 h m m 是一种统计模型,它描述的是一个输出符号序列,具有个不 同的状态,根据状态转移概率来确定从一个状态转移到哪一个状态,至于 转移后的输出符号,则要取决于转移时的输出概率。 8 哈尔滨工程大学硕士学位论文 2 2h m m 的基本概念和原理 一个h m m 可以由下列参数描述: 0 ) n :h m m 的状态数。将个状态记为b ,0 n ,t 时刻m a r k o v 链 所处状态为吼,可以看出q ,( b9 e 9 钆) 。h m m 中状态数是不能被观察到 的,是隐藏起来的,而在实际应用中却有着确切的物理含义。 ( 2 ) m :表示各状态中能够观察到的符号个数。观察符号可表示为 v = v l9 ,2 ,v m ) ,观察序列为o = 0 1d 2 ,o r ,其中o ,为集合v 中的一 种观察符号,丁为观察序列长度。 ( 3 ) 万:万= 万l 一,万 ,称为初始状态概率分布,其中 乃= p ( q l = 只) ,l f n( 2 1 ) ( 4 ) 彳:状态转移概率矩阵,a = ( ) 胍,其中 a 盯= p ( q ,“= p ,lq ,= q ) ,1sf ,歹n ( 2 - 2 ) ( 5 ) b :观察值概率矩阵,b = ( 6 庸) 枷,其中 b j , = p ( o ,= 唯iq f = 秒,) ,l ,n ,1 k m ( 2 - 3 ) 根据上面的描述,一个h m m 可以记作 五= ( ,m ,万,a ,b ) 或简写为 旯= ( 万,a ,b ) ( 2 - 4 ) 由此可以将h m m 分为两部分,一部分是m a r k o v 链,由万和彳描述, 得到状态输出序列,另一部分是随机过程,由b 来描述,得到的输出是观 察值序列,如图2 1 所示。丁为观察值时间长度。 m a r k o v 链i 研,9 2 ,办 仞,彳) i状态序列 随机过程 ( 功 图2 1h m m 组成示意图 9 d l ,呸,o r 观察值序列 哈尔滨t 程大学硕十学位论文 2 3h m m 的三个基本问题 在h m m 的应用过程中,经常会遇到三个最基本的问题,只有解决了 这些问题才能在h m m 的应用中取得很好的效果,这三个基本问题分别是: 1 ) 识别问题:已知观测序列o = o l ,0 2 , - - - 07 ) 和模型旯= ( 万,彳,b ) ,快 速有效地计算由名产生o 的概率e ( oa ) 称为识别问题,常采用的方法是前 向后向算法。 2 ) 译码问题:即找到与给定观察序列相对应的最佳状态序列,在识别 和训练中都要有译码的过程。译码过程可以这样来表述:给定观察序列 o = 0 1d 2 ,o r 和模型兄= ( 万,a ,b ) ,要求出名对应于d 的最佳状态序列 q = g i ,q j ,即找出当e ( oi 旯) 达到最大时,o 所对应的状态序列。其本 质就是要找到使概率能够达到最大的最佳路径,一般使用v i t e r b i 搜索算法 来进行求解。 3 ) 训练问题:对模型参数进行重新估计的过程,给定观察序列 o = o id :,o r ) ,通过某种算法不断调整模型五的参数,使兄产生d 的概 率p ( o i 五) 达到最大,现在普遍采用的是b a u m w e l c h 算法。 下面分别介绍解决上述问题的有效算法。 1 ) 前向后向算法 根据定义求概率p ( ola ) 的方法如下: p ( oi 五) = p ( oig ,2 ) p ( qi 五) = 万吼b 舶( d 。m b q :( d :) 口秆一。秆,( d r ) ( 2 - 5 ) q l q 2 + q t 显然,应用于实际中时,这种方法的计算量是人们所不能接受的,按 照上面的式子来计算e ( oi 五) 是不容易实现的。为了使计算量控制在可接受 的范围内,引入前向概率和后向概率来简化计算。它们的递推公式如下。 a ) 前向过程 1 0 哈尔溟t 程大学硕十学位论文 对于已知的观察矢量序列,考察f 时刻。用,时刻以前出现的观察矢量 序列0 i ,d 2 ,o t l 的概率来推算出时刻f 出现d i ,d 2 ,0 r _ l ,0 ,的概率,称之为 前向概率。同样可以用0 1 + 2d ,+ 3 ,0 7 去推算o l + l0 m ,0 ,的概率,称为后 向概率。相应地,把出现整个观察矢量序列0 = 0 1 , 0 :,0 ,) 的概率e ( oi 旯) 称之为整体概率。 用口,( ) 来表示前向概率,其意义为:假设f 时刻处于状态- ,下,己经 得到前l 一1 个观察矢量d l ,d :,o t 一。的情况下,又观察到q 的概率。 定义前向概率: 口,( ) = 尸( q ,0 2 9o q ,z = i 名) ,f = l 丁,= 1 ( 2 - 6 ) 初始化: l1,= 1 u 卜1 仉b ( d 1 ): n ( 2 - 7 ) 递归: 口,( ) = o f 卜l ( f ) 口口】b j ( d ,) , 2 t t , 2 n 一1 ( 2 - 8 ) 终止: 口r ( ) = 尸( d l ,0 2 ,o r ,x 7 = il 五) = 口嗣口w( 2 - 9 ) p ( oi 兄) = 口7 ( ) ( 2 - 1 0 ) b ) 后向过程 后向概率用屈( f ) 表示,其意义为系统在,时刻处于f 状态下,己经存在 从f + 2n t 时刻的观察矢量d f + 2 ,d f + 3 ,0 7 _ 的情况下,又出现d f + i 的概率。 定义后向概率: 屈( f ) = 尸( q + l ,q + 2 ,o ri 置= f ,旯)( 2 1 1 ) 初始化: 屏( f ) = a w , l , ( 2 1 2 ) 递归: 哈尔滨t 程大学硕十学位论文 屈( f ) = h 尼+ l ( j ) b j ( o ,+ ) 】, 1 _ , t ,2 i n - 1 ( 2 1 3 ) = 2 终止: _ 一i 屈( 1 ) = 一b 弘。) 岛( 1 ) ( 2 - 1 4 ) j = 2 p ( oi 旯) = 届( 1 ) ( 2 - 1 5 ) 得到前向概率和后向概率之后,整个观察矢量序列o = 0 19 d :,0 ,) 的 整体概率p ( oi 五) 可以表示为: p ( oi 五) = 口,( ) 屏( m t = 1 t ( 2 1 6 ) = 1 2 ) v i t e r b i 算法 h m m 系统有这样一个特点,假设外界观察到的矢量序列为o ,在其系 统内部与之相对应的状态序列9 并不唯一,而这些并不唯一的状态序列g 产 生o 的概率却有着巨大的差异,在实际的应用中,我们常常只关注最佳的状 态序列。产生最佳状态序列实质上就是根据系统的输出o 找出概率最大的状 态序列q ,使得g 产生o 的可能性达到最大 2 0 1 ,即选取某个最佳准则来决定 状念的转移。v i t e r b i 算法体现了整体特性,采用如下最佳准则。 定义函数4 ( f ) : 4 ( f ) = m a xp q 1 9 2 吼- l ,q ,= f ,0 l ,0 2 ,0 ,i 允】( 2 - 1 7 ) q i q 2 一啪一i 即在r 时刻对应状态f ,使模型元沿状态序列锄,g :,q ,) 运动产生观察序列 0 1d :,0 ,) 的概率最大,可以得到4 ( j ) 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论