(信号与信息处理专业论文)声学模型的研究及在关键词识别系统中的应用.pdf_第1页
(信号与信息处理专业论文)声学模型的研究及在关键词识别系统中的应用.pdf_第2页
(信号与信息处理专业论文)声学模型的研究及在关键词识别系统中的应用.pdf_第3页
(信号与信息处理专业论文)声学模型的研究及在关键词识别系统中的应用.pdf_第4页
(信号与信息处理专业论文)声学模型的研究及在关键词识别系统中的应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声学模型的研究及在关键词识别系统中的应用 摘要 语音识别技术近年来高速发展,有着广阔的应用前景。让机器听 懂人说话,甚至实现与人的交流是人类一直以来梦寐以求的愿望。现 在语音识别技术的研究工作主要集中在大词汇量连续语音识别的范 畴,但是对汉语而言,在提高系统识别率和系统鲁棒性方面都有大量 的工作要做,这仍然是个任重而道远的任务。 本文首先介绍了在语音识别中广泛应用的隐马尔可夫模型的基 本理论。同时为了将该模型引入到语音识别的实际应用,讨论了它的 三个主要问题和主要算法。 接着介绍了本文中普通话数字声学模型所使用的语料库和训练 环境,分析了普通话数字的声学特点并研究了其训练方法。更详细分 析了普通话数字的识别难点和声学模型缺陷。针对连续数字识别的难 点从标注和模型自身两个方面提出相应的模型优化办法来对其改进。 获得大量的实验数据后,对实验结果进行了总结和分析,肯定了模型 训练优化方法的有效性。 随后对汉语普通话的声学特点进行了详细介绍,分析了音素, 音节,声韵母等不同基本单位作为识别基元的优劣,并对关键词识别 系统进行了介绍,对于两种不同结构的关键词系统进行了比较分析。 为了改善关键词系统的拒识性能,训练出关键词反词模型,并获得了 竞争词似然度测试结果,对两者进行了比较和分析。 最后对本篇论文所做的工作进行了总结和展望。 关键字:语音识别连续数字声学模型反词模型关键词检测 r e s e a r c ho nt h ea c o u s t i cm o d e l s a n di m p l e m e n t l 0 no nt h ek e y w o r d r e c o g n i t l 0 ns y s t b m a b s t r a ( 了 r e c e n t l y ,s p e e c hr e c 0 印i t i o n 白e c h n i q u e sh a v eb e e nd e v e l o p i n ga ta h i 曲s p e c d 柚dw i l lb ei m p l e m e n t e di nm o r ea n dm o r ef i e l d si i lf l l t i l r c t o l e tt h em a c h i n eu n d e r s t a n dw h a t st h eh u m a nb e i n gt a l “n ga b o u t ,e v e nt o c o m m u n i c a t cw i t hp e o p l ei st h eb i g g e s td r c a mo fu sf o ral o n gt i m e n o w m o s to ft h er c s e a r c hi ns p e e c hr e c o g n i i i o ni s 胁s e do nt h el a 曙e i c a b u l a r yc o n t i i l u o u ss p e e c h 砥脚g n i t i o ns y s t e ma n da c h i e v e sm u c h i i n p r o v e m e n t ,b u tf o rt h em a n d a r i nr e c o g n i t i o n ,t h e r ea r es t i l ll o t so f w o r l 【st od ow i t ht h ea 伽m c ya n dm b l l s ti nt h er e c o g n i t i o ns y s t e m i t s s t i i la t o u g h t a s k t h i sp a p e ri i l t r o d u c e dt h e h i s t o 巧锄da c t u a l n y o fm es p e e c h f c c o g l l i t i o nt e c h n o l o g y ,a n dm eb a s i ct l l e o r i e so ft h es p e e c hr e c o g n i t i o n , i n d u d i n gs p e e c hs i g n a lp r o c e s s i n g ,a c o u s t i c sf e a t u r ee x t r a c t i n g ,h m m 觚ds oo n 。f u r t h e ri n o r e ,t h r e em a i np r o b l e m sa n dm a i na d t h m e t i ca r e e x p l a i n e d t h e nt h e 舰i n i n gc o f p u sa n de n v i m n m e n t so fm em a n d a r i nd i g i t a c o u s t i cm o d e l sa r cd i s p l a y e d ,a l s ow ed i s c u s s e dt h ec h a r a c t e r i s t i c so ft h e 脚n d a r i nd i g i t sa n dl i s t e dt h et r a i n i n gm e a s u r e s a f t e f 觚a 1 ) ,z e dt h e d i f f i c u l t i e sa n dm ed e f e c t so ft h em o d e l s ,w ei m p r o v e dt h em o d e l sb o t h 矗d mt h el a b e l ss i d ea n dt h em o d e l ss i d e w ba l s of r o tac o n c l u s i o na n d d i dt h e 蛐a l y s i sf r o mt h ee x p e r i m e n t sd a t a a n e ft h a t ,t h em 柚d a f i na c o u s t i cm o d e l sa r ed i s c u s s e d t h e n 柚a l y z e dt h ep h o n e ,t h es y l i a b l ea n dt h ei n i t i a l f i i l a l ,a n dak e y w o r d s r e c o g n i t i o ns y s t e m w a si m p o r t e d a n e r a n a l y z e d t h ed i f f e r e n c e s b e 旧e e nt h em od i 骶r e n ts t m c t l l r e so ft h ek e y w o r d sr e c o g i l i t i o ns y s t e m s , t h ea n t i m o d e l sw a st m i n e da n di m p l e m e n t e di nt h ek e ) w o r d sr e c o g n i t i o n s y s t e m t h er e s u l t so ft h ea n t i - m o d e i sw e r ec o m p a f e dt 0 t h et e s t i n g r e s u l t so ft h ec o m p e t i t i o ns e tw o r d s ac o n d u s i o na b o u tt h a tw a sm a d ei n n l ee n d k e yw o r d s : s p e e c hr e c o g i l i t i o n ,c o n t i n u o u sd i g i ta c o u s t i cm o d e l s , a n t i m o d e l s ,k e y w o r d sd e t e c t i o n 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盔! 丛 日期:丝翌:丝! z 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:盆噍日期;丝2 :垒! ! 兰 导师签名:2 4 互 日期: 兰! 12 :兰! ! ! i 。 北京螗电人学硕士论文 声学模型的研究及在关键词识剐系统中的庶用 第一章绪论 1 1 本课题研究的目的和意义 语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十大重要的科技发展技术 之一。作为一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术, 它与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。而这一技 术的应用已经逐步发展为一个具有竞争性的新兴高技术产业。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文 本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走 向市场。人们预计,未来1 0 年内,语音识别技术将进入工业、家电,通信、汽 车电子,医疗、家庭服务、消费电子产品等各个领域。 然而尽管目前语音识别技术已经有了突破性的进展,但是要真正完成一个能 够处理自然语言、同时又不受领域限制的语音识别系统,就现有的技术水平来说 还是非常困难的。目前,只能对识别系统的应用领域加以限制,针对某些特殊的 需要设计语音识别系统,即特定领域的对话系统。对话系统是解决自然或者口语 语言理解的有效途径。 大部分对话系统的语音识别部分都是通过关键词技术实现的。在这种系统中 面对的是人们日常生活中的口语,与听写机的语言相比发音随意很多。这样对一 些不合语法的句子,甚至有不流利、重复、修改、内容不完整等复杂的口语现象, 都可以通过关键词检测而识别出整个句子的主题意思,从而对说话人的语音做出 响应。 无论是普通语音识别系统,还是关键词识别系统、说话人识别系统,声学模 型都是其识别技术的基础,识男q 过程也就是待识别语音与既有声学模型的比较和 匹配过程。所以声学模型对语音识别有着极为重要的意义。一套好的声学模型不 但能极大地提高特定环境下的系统识别性能,也能够提高系统稳健性,能够应用 到各种不同的噪声环境下,适应不同的说话人。 本文根据踟的模型训练工具集进行了训练环境的系统搭建,对其中的算 法进行了优化。并对中文连续数字声学模型和数量( 数字单位) 声学模型进行了 细化研究,探索出大量独特的模型改进方法,并做了大量分析以提高整体系统识 别性能。包括:针对普通话数字的声学特点,提出音节、音素混合模型、基于说 苎塞l ! ! 叁兰堡! :堡墨苎堂堡呈堕坐! ! 丝鱼茎壁型望型至竺! 塑坚旦 话人语速快慢的模型、增加重复数字模型、位置相关模型等等。对于这些模型都 做了大量的实验并得出详细的比较结果。 本文同时对关键词识别系统进行了研究,在声学层面上研究关键词识别系统 的改良方式,提高拒识性能,训练出反词模型并在关键词识别系统中进行了实际 的比较和应用。 1 2 语音识别简介 1 2 1 语音识别研究的历史与现状 关于语音识别的第一篇论文是1 9 5 2 年美国贝尔实验室d a v i s 等人利用共振 峰特征识别孤立数字的研究论文。随后,1 9 5 6 年美国的r c a 实验室的0 l s o n 等 人进行了单音节识别系统的研究。在非特定人语音识别方面的尝试,是1 9 5 9 年 美国m r rl i n c o l n 实验室的r o r 西e 和f o 画e 研制的元音识别装置。同时,在英国 的u n i v e f s i t y c o l l e g c i i l e n 一锄d ,f r y 等人建立了一个英语音素识别器。在他们的 研究中,第一次使用了统计语法信息来辅助语音识别【1 】。 到六、七十年代,语音识别作为一个重要的研究课题而展开,并且逐步取得 了实质性的进展,一系列的罩程碑式的基础性突破为今后语音识别的发展奠定了 基础。在语音学方面,瑞典人f a n t 发表了著名的博士论文语音产生的声学理 论;人们还对人耳的听觉生理和心理方面进行了研究,提出了临界频带理论。 在信号处理方面,线性预测编码( l i n e 盯p r e d i c t i o nc 0 d i n 吕i j p q 技术在7 0 年代被 日本学者n a k u m 成功地应用于语音识别【2 】,成为迄今为止最为有效的语音特征 参数之一;前苏联科学家v i n t s y u k 在6 0 年代将动态规划( d y n a m i cp m 擎a m m i n g , d p i 应用于模式识别,成为语音识别方法的重要基础:而日本学者s a k o e 和c h i b a 提出了动态时间伸缩( d y n 姗i c 币m ew j r p i n g d n n 算法,成为第一种通用的语音 识别算法,在特定人语音识别中获得了广泛的应用。 早期的语音识别系统都是按照简单的模板匹配原理工作的特定人,小词汇 表孤立词识别系统。叩算法克服了说话人速度不均匀造成的时间伸缩变化 的影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种 简单的机制则有些力不胜任,例如词汇表的扩大,孤立词语音识别转向连续语音 识别无法像孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为 识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望所选的 识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下文中变 北京邮电人学硕上论文声学模型的研究及在关键词识别系统中的席用 化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个困难是 连续发音时的各个音素以及音节之间的边界不能像孤立词那样可以明确划定。此 外,发音人不特定的语音识别( 非特定人语音识别) 还存在更大的困难。这是由于 不同人说同一个音素或音节时,声学特征有很大的差异。这使得语音识别,特别 是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。 八十年代以后,逐渐使用以隐马尔可夫模型( h i d d e nm a r k o vm o d c l ,h m m ) 为代表的基于统计模型的方法1 3 】来代替以前的模板匹配的方法。以前只在i b m 、 c m u 等少数研究机构使用h m m 方法,到八十年代中后期开始在语音识别领域 中广泛使用。美国的1 0 0 0 单词规模的d a r p a 研究项目在很大程度上推动了语 音识别的研究。以此为契机,s r i 、m r r 、c m u 、b b n 等展开激烈竞争,并且取 得许多非常重要的研究成果。在美国,八十年代末期由c m u 推出的s p h i n x 系 统【4 1 ,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,被世 界公认为语音识别技术发展中的一个里程碑。八十年代中后期,人工神经网络也 成为了新兴的语音识别方法【5 】。 九十年代以来,随着语音识别各方面问题的逐个解决,语音识别中最困难的 非特定人、大词汇量、连续语音识别已经达到了较高的性能。各研究机构推出的,t 识别系统包括:i b m 公司的v i a 、确c c 系统,m i c r o s o f t 的w h i s p e r 系统等。还有 剑桥大学开发h m m 工具包h 1 x 【6 】,它已经成为研究人员研究语音识别的重要 工具。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位 超过了几十个:如清华大学、中科院自动化所、声学所、哈尔滨工业大学、北京 邮电大学等。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用系 统等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研 究也具有较高水平,其中以u n s h 孤i j e e 教授主持的研究小组最为出色,它们研 制成功了一个实时汉语语音昕写机一g o l d 锄m a n d 州n 。在我国的“八五”计划和 “8 6 3 ”计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语语 音识别研究的发展。特别值得一提的是m m 公司开发的v i a 、,o i c c 汉语语音识别软 件,它代表了汉语语音识别较高水平。系统具有如下优点:l 、非特定人、大词 汇量、连续语音识别系统,每分钟可以输入1 5 0 字以上。2 、高识别率,最高识别 率达9 5 ,平均识别率达8 5 。3 、强大的词组学习功能,系统自定词组3 2 0 0 0 个, 根据用户需要可添加2 8 0 0 0 个词组或短语。4 、强大的用户口音学习功能,只需让 用户训练5 0 句话,就能完全适应带口音的用户。5 、自适应功能,只要把识别错 误修改过来,便可以自动学习,不断适应用户的口音和词语。 北京邮i 乜人学顾l 。论文 声学模型的研究及相:关键训识别系统中的j ”,用 1 2 2 语音识别系统的分类 对于语音识别系统,较为普遍的分类如下: 1 从识别的词汇量来分: 每个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词 条。通常,词条越多,则相似的词越多,这样其误识率也相应增加:此外, 随着词数增加,搜索运算使计算丁f 销迅速增加。因此词的数量越多,则系统 实现越困难。词汇表的大致划分标准是,词数少于1 0 0 时,称为小词汇表; 1 0 0 至5 0 0 称为中词汇表;超过5 0 0 时称为大词汇表。 2 从识别的基本单元来分: 语音识别按系统的识别对象可分为孤立词、连接词和连续语音三种方式。 孤立词识别是指对说话人每次只说一个字、一个词组或一条命令这样的孤立 词进行识别,其中的词组或命令在词汇表中都作一个独立的词条;连接词识别 一般特指对十个数字( 0 9 ) 连接而成的多位数字的识别,有时还可加上少量的 操作指令,这时词汇表只由这十个数字及少数指令构成;连续语音识别是对 说话人以日常自然的方式讲述而进行的识别。这三种方式,其识别困难是依 次递增的。 3 从识别对象来分 语音识别系统可以是只针对一个用户的,例如个人专用的语音打字机, 这称为特定人工作方式( s d ,s p e a k c fd e p e n d e n t ) :系统若是针对任何人的, 则称为非特定人方式( s i ,s p e a l 【e fi n d e p c n d e n t ) ,电话和数据检索系统中所用 的识别器即属这种情况。显然,后者的实现难度较前者大得多。 1 2 3 语音识别技术的应用领域与前景 语音识别技术的应用从大的方面来分可分为三个方面:桌面应用、网络电 话系统应用和w 曲应用。桌面应用是指集成于桌面的应用软件,例如市场上现 已出现的一些用于p c 机的语音输入、语音识别的软件。网络,电话系统应用是指 把语音技术与远程信息查询、处理、生成等相结合的软件。w 曲应用是把语音技 术与w 曲应用结合起来的软件,例如可运用语音技术开发语音浏览器、网上交 谈室等。语音识别技术与各个领域结合为开发商提供了自由发展广阔的天地,高 速增长的市场又为开发商带来了无数商机和优势。在这里,仅列举一些典型的应 用领域以供参考。 北京邮电大学硕士论文 声学模型的研究及在关键词识别系统中的麻用 语音听写机:可以用口述代替键盘,实现文字输入并且打印输出,这是人们 长久以来的一个迫切愿望。这对于办公自动化将带来革命性的变化( 用机器秘 书代替人类秘书) 。由于汉语计算机输入的特殊性,汉语语音听写机的重要性 尤其突出。一方面,它使人机接口更加友好和自然;但更重要的是,它可以 促进计算机应用在中国的普及。 在通信工程中的应用:世界各大通信公司如美国盯& t 公司,日本盯公 司都一直长期致力于语音识别的研究,因为它在通信的各个领域都有着广泛 的应用。例如手机语音拨号、股市查询、信用卡认证等问题。在通信方面, 一项更加雄心勃勃的计划是实现两种语言之刚的直接交流,即通过“语音识 别机器翻译一语音合成”技术将一种语言直接转换成为另外一种语言。目 前有一些欧美及日本的研究组织正在开发这个领域的产品。 数据库检索:政府部门、银行、金融机构、军事指挥所和工业管理部门无不 需要对庞大的数据库进行频繁的检索和查询,其中很多是通过电话来进行 的。通过自然语言直接检索数据库可以免除大量操作人员的重复劳动,既经 济又快速。 语音命令控制:在很多场合下,由于手脚已被占用进行其它动作或照明不足 无法进行操作时,登须用语音发出指令,例如驾驶员在高速行驶的汽车中拨 打电话。另一方面,随着第三代移动通信技术的发展,个人智能终端体积越 来越小,通过按键进行控制越来越不方便,语音命令控制是十分理想、便利 的人机接口方式。 此外语音识别显然还会给失明者带来很大的方便。近几十年来语音识别的研 究开发工作逐渐开展,并取得初步成果。尤其最近一二十年,各国都进行了大量 研究,并且美国、日本、欧洲居领先地位。国内研究相对起步较晚,但是也取得 不少成果。 1 2 4 语音识别的难点和所面临的挑战 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上 说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。最近几年来, 语音识别技术得到了突飞猛进的发展,在某些领域已经进入了实用化的阶段,特 别在c t i 领域、在呼叫中心中得到了应用。语音识别技术要迎来更广阔的应用 和长远的发展,就必须要很好的解决下面的关键问题。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采 集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另 些皇塑! 叁堂堡! :堡皇皇兰堡型塑! ! ! ! 丝鱼茎壁型堡型墨竺! 塑! ! :旦 外一个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,例如声音变 高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词 汇量连续语音识别中是非常重要的。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需 要解决,识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中 去除诸如“啊”、“唉”等语音,获得真j 下待识别的语音部分) 等等技术细节 要解决。为了解决这些问题,研究人员提出了各种各样的方法,如自适应训 练,基于最大互信息准则( m m i ) 和最小区别信息准则( m d i ) 的区别训练 和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应 用人工神经元网络所有这些努力都取得了一定成绩。 1 3 课题的主要内容和研究成果 首先,是基于m 工具的声学模型训练环境的搭建。包括文件系统结构的 建立,原始语料,标注文件的整理,h n 【原始工具的界面化和改进等等 本文中,连续数字和数字单位的基本声学单元主要采用了整词的音节模型, 关键词识别系统的声学模型和反词模型主要采用了声韵母模型。 第二,连续数字和数字单位声学模型的研究。 对普通话连续数字的声学特性进行了分析,提出了几个难点和要点。并对症 下药地从语料库标注的改进和模型自身对这些问题进行解决。标注改善方面提出 循环式自动标注,依赖于训练集的自动标注,依赖于说话人的自动标注等等,模 型改善方面提出状态数修改方法,根据识别测试结果训练出位置相关模型,速度 相关模型等等,较大程度改善系统识别性能。 第三,反词模型在关键词识别系统中的应用。 对普通话的声学特性进行了分析,对音素,音节和声韵母等识别基元的选择 进行了优劣分析;对关键词识别系统进行了系统分析,对两种构造结构进行了比 较;训练出反词模型并实际应用到关键词识别系统,并对实验结果进行了比较。 北京邮电人学硕上论文 声学模型的研究及在关键词识别系统中的应用 1 4 论文结构和内容 第一章为绪论。首先引出课题背景,回顾语音识别技术的发展历史和现状, 介绍语音识别技术的应用领域和前景,最后概述了本课题的主要内容和研究成 果。 第二章为语音识别理论基础。介绍了语音识别的基本原理、语音信号特性和 特征提取等。还介绍了隐马尔可夫模型( h m m ) 及其在语音识别中的应用。包括 洲的基本概念与原理、删模型的三个基本问题及关键算法,以及 删在语音 识别系统中的应用等。 第三章论述普通话连续数字模型和数字单位模型的改进。首先分析了数字和 数字单位的声学特性,然后介绍语料库情况和训练环境设计情况在此基础上, 对连续数字模型和数字单位模型进行改进。 第四章研究了反词模型及在关键词识别系统中的应用。介绍了普通话的声学 特点,识别基元的选择和优劣,关键词识别系统的结构特点以及反词模型在此系 统中的应用情况。 第五章为总结和展望。对完成论文所做的工作进行了总结,指明的现有工作 的不足和今后可以加强的研究方向。 北京邮屯人学硕l :论文声学模型的研究及朽关键诃识别系统中的脚用 第二章声学模型及关键词技术理论基础 语音识别的历史可以追溯到2 0 世纪5 0 年代。1 9 5 2 年a r & tb e l l 实验室的 kh d a v i s 等人利用带通滤波器进行语音频谱的分析和匹配,并成功用于对1 0 个英文数字的识别,识别率达到9 8 。1 9 6 0 年p d e n e s 等研制成功第一个计算 机语音识别系统,同年g t 提出了语音产生的声源滤波器模型,对语音 识别工作起到了巨大的推动作用。 2 0 世纪6 0 年代末、7 0 年代初线性预测( l i n e a rp r e d i c t i o l l l p ) 技术和动态 时自j 归整算法( d y n 锄i c 币m ew a r p i n 岛d 1 w ) 被成功引入到语音信号处理中, 有效地解决了语音的特征提取和不定长匹配的动态时问对准问题。此时期的研究 以孤立字语音识别为主。 2 0 世纪8 0 年代语音识别研究进一步走向深入,其研究重点是连接词语音识 别,用于连接词识别的分层构筑技术( 1 c v e lb u i i d i n g ) 得到发展。另一个重要的 发展是语音识别算法从模式匹配技术发展到基于统计模型的技术。其间,美国 c m u 大学的j kb a k e r 等人将隐马尔可夫模型( h i d d e nm a r k o vm o d e i h m m ) 应用到语音识别领域,在语音识别中获得极大的成功,成为语音识别的主要方法。 h m m 模型的研究使大词汇量连续语音识别系统的开发成为可能。1 9 8 8 年, 美国c m u 大学用v q ( v c c t o rq u a m i z a t i o n ) m m m 方法实现了9 9 7 个词的非特 定人连续语音识别系统,其后,连续语音识别技术获得长足的发展。 近年来,人工神经网络( a r t i t i c i a ln e 啪1n e 时o r ka n n ) 以及支持向量机 ( s u p p o f tv c c t o rm a c h i n e ,s v m ) 由于其较强的自适应性和自学习能力而获得了 普遍的重视,并在语音识别中获得了成功的应用。 随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发 达国家如美国、日本、韩国以及m m 、a p p l e 、a t t 、n t t 等著名公司都为语 音识别系统的实用化开发研究投以巨资。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位超 过了几十个:如清华大学、中科院自动化所、声学所、哈尔滨工业大学、北京邮 电大学等。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用系统 等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研究 也具有较高水平,其中以i j n - s h a i li 肪教授主持的研究小组最为出色,它们研制 成功了一个实时汉语语音听写机一g o l d e nm a n d a r i n 。在我国的“八五”计划和 。8 6 3 ”计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语语 北京邮l 乜丈学硕上论文声学模型的研究及在关键诃识别系统中的戍用 音识别研究的发展。 2 1 隐马尔可夫模型 隐马尔可夫模型( h j d d e nm a r k o vm o d e l ,简称h m m ) ,是一种典型的统计信 号处理方法。其基本理论是在1 9 7 0 年前后由b 卸m 等人建立起来的,随后由c m u 的b a k 盯和l b m 的j e l i n e k 等人将其应用到语音识别中。在8 0 年代中期,由于 b c l l 实验室r a b i n e r 等人对h m m 的深入浅出的介绍,才逐渐使h m m 为世界各 国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。目前, 许多成功的语音识别系统都是基于h m m 。 2 1 1h 栅基本概念与原理 隐马尔可夫模型( h m m ) 之所以能够成功,是因为它是一个双重随机模型, 很好地描述了语音信号整体上的非平稳性和局部的平稳性。隐马尔可夫模型的状 态和模型的输出不是一一对应,状态不为外界所见,即状态是隐含的,而输出序 列是外界可以看到的。h m m 是双重的随机过程:首先是基本随机过程,是m a r k o v 链,有转移矩阵描述;进一步,在某个状态下的输出是随机取值,是输出与状 态联系( 按概率) 的过程。 离散时域有限状态自动机是一个简单的马尔可夫模型,在任何一个离散的时 刻,自动机只能处于有限多个状态中的一个,而且以某种概率由当前状态想任意 状态跳转。 假如自动机允许出现的有限状态有种,状态用1 一表示。在时刻t 自动 机所处的状态用儡来表示,呸只能取个状态中的一个。每个状态下可能的输 出值的为d 一 d 】,d 2 ,d 。 ,其中m 为可能的输出值的个数。 自动机初始化时可能位于个状态中的任何一个,其初始状态分布为: 乃一以鼋l - f ) ,f 一1 ( 2 - 1 ) 系统在当前状态可以以某种概率向任意的状态跳转。假如系统f 时刻在f 状 态下,则下一时刻( f + 1 时刻) 转移到,状态的可能性,用概率o i 来表示。所有的 概率o ,一1 ,2 ,) 形成一个矩阵,称之为状态转移概率矩阵,用4 来表示, 有: 口目一尸佃。- ,i 吼一l f ) f * 1 一,一1 一,f l r ( 2 2 ) 显然a 一 口 f ,一1 成立。 另外,在任意时劾f 所处的状态吼是隐藏在系统内部的,不为外界所见的, ! ! 室! ! ! ! ! ! ! 生兰堡! :堡兰苎竺堡呈堕竺! 塑丝! ! :墨壁型堡型至竺主塑坐旦 外界只能得到系统在该状态f 的个观测值d ,面观测值d ,是由状态吼决定的, 其概率表示为: 6 ,( d f ) 暑p ( q l 吼毒,) ,= 1 ,f ;1 r ( 2 - 3 ) 可见,这是一个双重的随机过程,其中之一是m o r k o v 过程,它描述状态的 转移,另一个随机过程描述状;冬和观测值之间的统计对应关系,对外界来说,不 能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,因此称之 为“隐”马尔可夫过程。我们用符号a = 似,口,石) 来描述一个具有个状态的 h m m ,其中4 一p # 。,表示状态转移概率矩阵,口- 6 j ( d i ) r 表示观测值概率 矩阵,即输出概率矩阵,石一协;) 为初始状态分布。 图2 1 给出一个h m m 的示意图。 麓嚣口口口口口口 o l0 2o 0 40 5t ) 6 图2 1隐马尔可夫模型 图2 1 中,上半部分给出一个具有6 个状态的m o d 【o v 过程,每个圆表示一 个状态,大圆即状态2 5 表示中间状态,小圆即状态1 和状态6 分别表示入口状 态和出口状态,从圆到圆的有向弧表示状态问的转移概率4 出口状态没有状 态转移概率。图2 1 下半部分描述状态和观测值之间的统计对应关系,在每个中 间状态,由所处状态和观测矢量确定其输出概率6 ,( d f ) ,入口和出口状态与中间 状态不同,是一种虚状态,它不仅没有输出概率,而且也不占有实际的时刻,即 对于时刻t ,如果处于入口状态,则在时间上对应于f 一血时刻,如果处于出口状 态,则对应于f + 出,出表示一段表示非常短的时延。 语音是由人的发音器官产生的,在说话的时候,声门处气流冲击声带产生 振动,然后通过声道的调制变成声音。声道的变化决定了语音信号的非平稳随机 特性。声道的下一时刻的状态可以看成仅与当前状况有关,与以前的历史无关, 因此可以看作是一个一阶马尔可夫过程。对于外界来说,只能观测到语音信号的 状态输出而无法直接观测到马尔可夫过程的内部状态序列及其转移过程,也就是 说我们看不到声道的变化,只能听到语音这一观测值,而语音是由声道所处状态 北京邮电人学硕 论文声学模型的研究及在关键词识刖系统中的应用 决定的。 2 1 2h 栅模型的三个基本问题及关键算法 h m m 应用中最主要的是要解决三个基本问题【1 7 1 。 a ) 识别问题:对于给定的观测序列d 一( d 。,0 2 ,- 叼,) 和模型a 一口,曰,石) ,计算 由模型a 产生观测序列d 概率尸( d i a ) 。常用的算法有前向后向算法。 b ) 译码问题:识别和训练中都会有译码问题。对于给定的观测序列 d 一( d ,o :,d ,) 和模型a 一,口,石) ,求模型a 对应于观测序列d 的最佳状 态序列q - q :,q ;,即寻找使p ( d i 五) 达到最大时,d 所对应的状态序列。 一般采用v i t e f b i 算法求解。 c ) 训练问题:对于给定的观测序列o = ( d l ,d :,) ,如何修正模型a 参数,使 得模型a 产生观测序列d 的概率p ( d i a ) 最大。一般采用b a u m w b l c h 算法。 下面分别介绍跟解决上述问题有关的一些算法。 1 前向过程 对于已经确定某个观察矢量序列,考察f 时刻。用f 时刻以前出现的观察矢 量序列的概率来推算到当前时刻f 时出现某个观察值的概率,即用出现d i d :。q 。 的概率来推算出现d 把。q l d ,的概率,定义为前向概率。同样用q + 2 0 f + ,珥去推算 q + l d f 。吩的概率,称之为后向概率。相应地,把出现整个观察矢量序列 d 一( d i ,口:,d ,) 地概率p ( d i a ) 称之为整体概率。 前向概率用q ( ,) 表示,其意义为:系统在f 时刻处于,状态下,已经出现前 f 一1 个观察矢量d 】口2 。q 一,的情况下,又观察到q 的概率。 定义前向概率为; 口,( ,) 一p ( d 。d 2 z i ,z ,一,i a ) f 一1 一r ,一1 ( 2 4 ) 初始化: 州萨i 知。篡 递归: q ( ,) 一荟h 慨】哳( d ,) ,2 sf s 丁,2 s ,s 川 终止: 一l芹 口r ( ) 。荟p ( d l d 2 q ,鼍i a ) 5 善叶( f ( 2 忉 北京邮i u 人学硕h 仑文 声学模型的埘彳t 发n :关键训识别系统中的腑用 p ( d i a ) = 口,( ) 2 后向过程 后向概率用屈( f ) 表示,其意义为:系统在f 时刻处于f 状态下,已经存在从 f + 2 到r 时刻的观察矢量q + 移。吩的情况下,又出现d f + 。的概率。 定义后向概率: 屈( f ) t p ( o l + 。,d ,+ :qi 置一f , ) ( 2 - 9 ) 初始化: 屏( f ) 一4 e , 1 ( f ( 2 - l o ) 递归: p ,( f ) | 篆h 卢一( 伽,( d i + ,) 】,1 f r ,2s 一1 ( 2 _ 1 1 ) 终止。 岛( 1 ) 2 荟石,6 ( d 1 ) 岛( 1 ) ( 2 - 1 2 ) p ( d i a ) 一反( 1 ) ( 2 1 3 ) 根据前向概率和后向概率定义就可以求整体概率,即出现整个观察矢量序列 d 一( d 。,d :,q ) 的概率p ( d i a ) 为: p ( o i 伊善嘶) 舢) f l 卜r ( 2 - 1 4 ) 3 v i t e r b i 算法 对于h m m 系统,外界观察到的某个矢量序列d 在系统内部其对应的状态序 列x 是不唯一的,但是不同的状态序列x 产生d 的可能性不一样。最佳状态序 列搜索的任务就是根据系统输出d 搜索最有可能的状态序列x ,使得该状态序列 产生d 的可能性达到最大【1 8 】。 定义函数哦( f ) : 4 0 ) 。置翌p 阮,z :,置一,墨。,d 1 ,d 2 ,d ll 刈 ( 2 1 5 ) 它表示在时刻f 状态f 下,部分观测序列( d l ,d :,d ,) 的局部最佳得分。另外, 北京邮i 乜人学硕l 二论文 声学模型的研究及在关键词识别系统中的应用 为了描述路径节点之间的递推关系,定义: 呶。( d a 玛9 缸 也“如# ) 其意义为妒,。( ,) 记录使哦( f ) 口。耿最大值的f 。 初始化: 、f 0 , ,一1 姒d 4 l o g m ( d 1 ) 】,1 1 m 妒l ( f ) 一o 递归: 4 ( ,) l 【4 - o ) + l 。g 】+ l o g 屯( q ) 识( ,) 。吣m 缸 4 一一( f ) + 1 0 9 】,l c f s r ,1 t f ,c 结束: p ( d i a ) - 6 ,( ) t m 野 6 ,( f ) + l o g h x ;一妒,( ) 一a r g m a x 【露o ) + l o g 口o 】 回溯: f 一妒。( j 二,) ,1 f z 4 盼i 舶i c h 算法 如何根据系统所给的若干输出口来确定模型a 一似,曰,石) ,即确定模型的三 个参数4 ,b ,石,对应于h m m 模型的训练问题,通常是使用b a u m - w e l c h 算法进 行参数的重复估计【1 9 】。 令皇a ,d 表示系统在f 时刻位于状态f 而在“1 时刻位于状态j 并产生观察 矢量序列d 的概率;令 o ) 表示系统在f 时刻位于状态f 并有观察矢量许了口的概 率,有: 毒a ,) - 只( f ,) 一p ( 置一f ,五+ 。- ,id l d 2 。j 珥,a ) q o p 。6 ,徊- ) 屈+ 。( ,) ( 2 2 3 ) 。币面广一 棚删) 。篓一需 则转移矩阵a 的重估公式如下: ( 2 - 撕 岣 叻 聊 柳 柳 挪 冯 p 弘 p p 弘 弘 陋 北京邮u 人学坝i 。论支声学模型的研究及以关键词识别系统中的应用 其中: p ,- 尸( d ,l a ) ,1 f ,l , 钆= 去砉 ( j ) m 州c 铲躲小川 ( 2 - 2 6 ) ( 2 - 2 7 ) c - 2 8 ) 定义e ( ,) 表示第r 个观测序列中,在时刻f ,状态,的占有概率( p m b a b i l i t y o f s t a t eo c c l l p a t i o n ) ;耳( ,m ) 表示第r 个观测序列中,在时刻f ,状态,的第坍个高 斯混合分量的占有概率。e ( j ) 、耳( l 研) 满足如下式: 耳( j ) ;p ( 五一,id r ,a ) t 堕擗= ! :i ;予:韭 其中1 j ( 2 - 2 9 ) 耳( l 胁) 一p ( 置- 以- m i 。,a ) ;! 堡铲耳( j ) 其中1 圄答圄 特征流 = 今 厅习 l 税蟹l i 按lll i j 龠 关键两 = 今 图2 6 语音处理模块结构示意图 解码器,郎搜索算法的实现部分,是语音处理模块的核心部分。负责根据特 征流和声学模型给出最佳的识别结果。 ! ! 室塑皇查兰竺! 堡兰皇兰堡里塑堕窒丝生茎堡塑堡墨! ! 至竺! 堕生旦 关键词识别系统比较常用的搜索结构主要有两种。一种是基于f i l l e r 的搜索 系统结构,如图2 7 ;一种是基于无f i l l c f 的搜索系统结构,如图2 8 。 基于f i n e r 的搜索结构,搜索过程大致分成了两个部分。第一部分从本质上 来说是一个连续语音的搜索。搜索的输入是语音特征,搜索的词表是所有关键词 加上所有f i l l c r 。搜索过程实际是对所有关键词和f i l i e r 进行连续语音识别的过 程。第二部分实际上是对第一部分搜索结果的一个确认过程。根据各种知识源计 算所得中间结果的置信度,最终根据计算得到的置信度,对中白j 结果识别出的关 键词做出接受或拒绝的判断。 基于无f i l l e r 的搜索结构,搜索过程大致分成了三个部分。第一部分是对语 音基元的搜索。所谓语音基元就是搜索过程中得到结果的基本单位。在汉语语音 中,一个音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论