(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf_第1页
(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf_第2页
(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf_第3页
(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf_第4页
(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)孤立词语音识别系统关键问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 孤立词语音识别系统关键问题的研究 摘要 作为人与人之间最自然的交流方式,语音操作方式显然也是人机交互时的最 佳选择之一。今天,语音识别系统正在不断地改变着我们的生活。随着嵌入式设 备的不断发展,终端设备的体积越来越小,操作要求更加简便。而利用孤立词语 音识别系统来进行操作命令的语音输入则是一个十分理想的人机接口方式,应用 前景非常广阔。 本文搭建了一个大词汇量、非特定人、动态词表的孤立词语音识别系统,词 表大小为6 0 0 词,包含了人名、地名、命令词、日常用语等各个方面的常用词语。 并以其作为实验平台,对孤立词语音识别系统中一些关键问题进行了深入系统的 研究。 本文深入研究了语音端点检测算法,在对当前常用的语音端点检测算法的分 析和实验基础上,提出了一种以短时能量为语音检测特征,具有良好抗噪音性能 的语音端点检测算法。实验证明,该算法计算简便、准确率高,特别适用于输入 语音较短孤立词语音识别系统中孤立词起止点的检测。另外,本文介绍了欧洲电 信标准学会( e t s i ) 分布式语音识别系统标准中提出的语音激活检测算法,并 根据该算法进行了噪声适应性改进。在此基础上还搭建了一个自动录音系统,该 系统可以自动检测输入语音的有无来判定录音的自动开始和结束,为实用语音识 别系统提供了良好的人机接口。 本文针对多数语音识别系统运算量大,难以保证实时识别的问题,从识别搜 索算法入手, 合分量预测、 实验表明,采用了这些方法后,系统的搜索过程的计算量减少了2 4 ,而且识 别性能没有下降。 关键字:语音识别语音端点检测语音激活检测局部距离估计特征系数重 排序 a bs t r a c t r e s e a r c ho ni m p o r t a n tp r o b l e m so f i s o l a t e d w o r ds p e e c hr e c o g n i t i o ns y s t e m a b s t r a c t a st h em o s tc o m f o r t a b l ec o m m u n i c a t i n gm e t h o db e t w e e nh u m a nb e i n g s ,s p e e c h m e t h o di so b v i o u s l yo n eo ft h eb e s tw a y si nm a n m a c h i n ei n t e r f a c e n o w a d a y s ,t h e s p e e c hr e c o g n i t i o ns y s t e m sa r em a k i n go u rl i v e sd i f f e r e n ta n dd i f f e r e n t a c c o m p a n i e d w i t ht h ed e v e l o p m e n to ft h ee m b e d d e ds y s t e mt e c h n o l o g y ,t h eu s e rd e v i c e sa r e b e c o m i n gs m a l l e ra n dt h eu s e r sr e q u i r em o r es i m p l ea n dc o n v e n i e n to p e r a t i o n t h e r e f o r e ,t h es p e e c hi n p u tm e t h o db a s e do ni s o l a t e d w o r ds p e e c hr e c o g n i t i o ns y s t e m i sav e r yg o o dc h o i c ef o rm a n m a c h i n ei n t e r f a c e a l lm e n t i o n e da b o v ew j1 lp r o v i d e t h ei s o l a t e d w o r ds p e e c hr e c o g n i t i o nab r i g h tf u t u r e t h i sp a p e ri n t r o d u c e dt h eh i s t o r ya n da c t u a l i t yo ft h es p e e c hr e c o g n i t i o n t e c h n o l o g y ,a n dt h eb a s i ct h e o r i e sr e l a t e dw i t hs p e e c hr e c o g n i t i o n ,i n c l u d i n gs p e e c h s i g n a lp r o c e s s i n g ,a c o u s t i c sf e a t u r ee x t r a c t i n g ,h m ma n ds oo n f u r t h e rm o r e ,a l a r g e v o c a b u l a r y ,s p e a k e r i n d e p e n d e n t ,d y n a m i c v o c a b u l a r yi s o l a t e d w o r ds p e e c h r e c o g n i t i o ns y s t e mi sb u i l ta st h eb a s e l i n es y s t e m t h ev o c a b u l a r yi sc o n s i s t i n go f 6 0 0w o r d s ,i n c l u d i n gp e r s o n n a m e ,p l a c e n a m e ,c o m m a n dw o r da n dd a i l yw o r d r e s e a r c h e si ns o r n ei m p o r t a n tp r o b l e m so fs p e e c hr e c o g n i t i o ns y s t e ma r ep r o p o s e do n t h i sb a s e l i n es y s t e m t h i st h e s i sr e s e a r c h e ss p e e c hp o i n td e t e c t i n ga r i t h m e t i c as p e e c hp o i n td e t e c t i n g a r i t h m e t i cb a s e do ns h o r t t i m ee n e r g yh a sb e e np r e s e n t e do nt h eb a s i so fa n a l y z i n g a n dt e s t i n gt h ec o l i l n l o na r i t b a n e t i co fs p e e c hp o i n td e t e c t i n g as e r i e so ft e s th a s p r o v e dt h ea r i t h m e t i cc o s tl e s sc o m p u t i n gr e s o u r c e s ,a n dp r o v i d eah i g ha c c u r a c y ,a n d p e r f o r mw e l li n n o i s ee n v i r o n m e n t o nt h eo t h e rh a n d ,av o i c ea c t i v e d e t e c t i n g a r i t l m a e t i c p u b l i s h e di n t h ed i s t r i b u t es p e e c hr e c o g n i t i o ns y s t e ms t a n d a r do ft h e e u nit e l e c o m m u n i c as t a n d a r d i z a t i o ni n s t i t u t e 。a l s o n t r o d u c e d nt h i spapereuropean1 e l e c o m m u n l c a t i o ni n s t i t u t e1 sa l s oi n t r o d u c e di nt h i sp a p e r s t a n d a r d l z a t l o n a na u t o m a t i cr e c o r d i n gs y s t e mh a sb e e nc o n s t r u c t e db a s e do nt h i sa r i t h m e t i c ,w h i c h a c h i e v e dt h ef u n c t i o no fd e t e c t i n gt h ei n p u ts p e e c ht o s t a r t i n ga n de n d i n gt h e a bs t r a c t r e c o r d i n ga u t o m a t i c a l l y t h er e c o r d i n gs y s t e mp r o v i d e sav e r yg o o dm a n m a c h i n e o i n t e r t a c et o ra p p l i e ds p e e c hr e c o g n l t l o ns y s t e m c o m m o ns p e e c hr e c o g n i t i o ns y s t e mu s u a l l yr e q u i r e sh u g ec o m p u t a t i o n ,a n d d i f f i c u l tt or e a l i z er e a l t i m er e c o g n i t i o n a i m i n gt oi m p r o v et h e s ep r o b l e m so fs p e e c h r e c o g n i t i o nt e c h n o l o g y ,t h i sp a p e rs t a r t sw i t hr e c o g n i t i o np r o c e s s ,p r e s e n t sas e r i o u s o fm e t h o d st os i m p l i f yt h er e c o g n i t i o np r o c e s sa n dr e d u c et h ec o m p u t a t i o n so ft h e s p e e c hr e c o g n i t i o ns y s t e m s u c ha ss e l e c t i n gt h eb e s tg a u s s i a nm i x e dd e n s i t y , p a r t i a l d i s t a n c ee v a l u a t i o n ,b e s tm i x t u r ep r e d i c t i o n ,a n df e a t u r ec o m p o n e n t sr e o r d e r i n g t h e t e s th a si m p r o v e dt h a tt h e c o m p u t a t i o n si nt h er e c o g n i t i o np r o c e s sh a v eb e e nr e d u c e d b y2 4 p e r c e n t sa f t e ru s i n gt h e s em e t h o d s ,a n dn o t et h a tt h e s em e t h o d sd o e sn o tc a u s e t h ed e c r e a s eo ft h es y s t e mp e r f o r m a n c e k e yw o r d ss p e e c hr e c o g n i t i o n ,s p e e c hp o i n td e t e c t i n g ,v o i c ea c t i v ed e t e c t i n g , p a r t i a ld i s t a n c ee v a l u a t i o n ,f e a t u r ec o m p o n e n t sr e o r d e r 、 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:玉垫呈墓 本人承担一切相关责任。 e t 期:p 理多、? 、? 少 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:兰缝 本人签名:土己 建) 导师签名: f i 期: 日期: 3 矾6j 了、20 枷万,了、a9 孤立词语音识别系统中关键问题的研究 第一章绪论 1 1 本课题研究的目的和意义 随着信息技术的飞跃发展,人们越来越多地感受到信息、网络技术所带来的 便利,而各种高新基础技术的发展也带动了服务质量的提高。为人们提供更方便、 更优质、更人性化的服务,成了科学技术发展的最根本的动力。语音识别技术也 因此得到了长足的发展,就孤立词语音识别系统而言,以往的特定人,小词汇量, 特定内容的系统已经不能适应越来越复杂的服务,孤立词语音识别系统正在向着 大词汇量,非特定人,非特定内容发展。 本文搭建了一个非特定人,非特定内容,词表大小为6 0 0 词的孤立词语音识 别系统。这种系统最大的优点就是便利性,即在系统开发完成之前就完成训练的 过程,使用户不必重新训练,并且系统的词表也可以随意的改变,而不影响用户 的正常使用。 在语音识别系统中,两个主要的研究课题就是如何增强系统的鲁棒性和如何 在保证系统性能的情况下简化搜索过程的计算。 本文也主要就上述两个方面进行了研究,首先提出了一种计算简便,鲁棒性 好的语音端点检测算法;进而又研究了一系列简化搜索过程计算的方法,包括选 取声学模型状态中的最佳高斯混合密度、特征向量局部距离估计、特征系数重排 序等。并以文中搭建的系统为基线系统进行了大量的实验、分析,来证明该方法 的有效性。 1 2 语音识别简介 1 2 1 语音识别研究的历史与现状 关于语音识别的第一篇论文是19 5 2 年美国贝尔实验室d a v i s 等人利用共振 峰特征识别孤立数字的研究论文。随后,19 5 6 年美国的r c a 实验室的o l s o n 等 人进行了单音节识别系统的研究。在非特定人语音识别方面的尝试,是1 9 5 9 年 美国m i tl i n c o l n 实验室的r o r g i e 和f o r g i e 研制的元音识别装置。同时,在英国 的u n i v e r s i t yc o l l e g ei ne n g l a n d ,f r y 等人建立了一个英语音素识别器。在他们的 孤立词语音识别系统中关键问题的研究 研究中,第一次使用了统计语法信息来辅助语音识别 1 。 到六、七十年代,语音识别作为一个重要的研究课题而展开,并且逐步取得 了实质性的进展,一系列的里程碑式的基础性突破为今后语音识别的发展奠定了 基础。在语音学方面,瑞典人f 砌发表了著名的博士论文语音产生的声学理 论;人们还对人耳的听觉生理和心理方面进行了研究,提出了临界频带理论。 在信号处理方面,线性预测编码( l i n e a rp r e d i c t i o nc o d i n g ,c p c ) 技术在7 0 年代被 同本学者i t a k u r a 成功地应用于语音识别 2 ,成为迄今为止最为有效的语音特征 参数之一;前苏联科学家v i n t s y u k 在6 0 年代将动态规j z f ( d y n a m i cp r o g r a m m i n g , d p ) 应用于模式识别,成为语音识别方法的重要基础:而日本学者s a k o e 和c h i b a 提出了动态时间伸缩( d y n a m i ct i m ew a r p i n g ,d t w ) 算法,成为第一种通用的语音 识别算法,在特定人语音识别中获得了广泛的应用。 早期的语音识别系统都是按照简单的模板匹配原理工作的特定人、小词汇 表、孤立词识别系统。d t w 算法克服了说话人速度不均匀造成的时间伸缩变化 的影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种 简单的机制则有些力不胜任,例如词汇表的扩大,孤立词语音识别转向连续语音 识别无法像孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为 识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望所选的 识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下文中变 化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个困难是 连续发音时的各个音素以及音节之间的边界不能像孤立词那样可以明确划定。此 外,发音人不特定的语音识力日u l l 7 司- - i f i - - 特定人语音识别) 还存在更大的困难。这是由于 不同人说同一个音素或音节时,声学特征有很大的差异。这使得语音识别,特别 是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。 八十年代以后,逐渐使用以隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 为代表的基于统计模型的方法 3 来代替以前的模板匹配的方法。以前只在i b m 、 c m u 等少数研究机构使用h m m 方法,到八十年代中后期丌始在语音识别领域 中广泛使用。美国的10 0 0 单词规模的d a r p a 研究项目在很大程度上推动了语 音识别的研究。以此为契机,s r l 、m i t 、c m u 、b b n 等展开激烈竞争,并且取 得许多非常重要的研究成果。在美国,八十年代末期由c m u 推出的s p h i n x 系 统 4 ,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,被世 界公认为语音识别技术发展中的一个里程碑。八十年代中后期,人工神经网络也 孤、) :词语音识别系统中关键问题的研究 成为了新兴的语音识别方法 5 。 九十年代以来,随着语音识别各方面问题的逐个解决,语音识别中最困难的 非特定人、大词汇量、连续语音识别已经达到了较高的性能。各研究机构推出的 识别系统包括:i b m 公司的v i a v o i c e 系统,m i c r o s o f t 的w h i s p e r 系统等。还有 剑桥大学开发h m m 工具包h t k 6 ,它已经成为研究人员研究语音识别的重要 工具。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位 超过了几十个:如清华大学、中科院自动化所、声学所、哈尔滨工业大学、北京 邮电大学等。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用系 统等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研 究也具有较高水平,其中以l i n s h a nl e e 教授主持的研究小组最为出色,它们研 制成功了一个实时汉语语音听写机- - g o l d e nm a n d a r i n 。在我国的“八五 计划和 “8 6 3 ”计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语语 音识别研究的发展。特别值得一提的是i b m 公司开发的v i a v o i c e 汉语语音识别软 件,它代表了汉语语音识别较高水平。系统具有如下优点:1 、非特定人、大词 汇量、连续语音识别系统,每分钟可以输入15 0 字以上。2 、高识别率,最高识别 率达9 5 ,平均识别率达8 5 。3 、强大的词组学习功能,系统自定词组3 2 0 0 0 个, 根据用户需要可添力 1 2 8 0 0 0 个词组或短语。4 、强大的用户口音学习功能,只需让 用户训练5 0 句话,就能完全适应带口音的用户。5 、自适应功能,只要把识别错 误修改过来,便可以自动学习,不断适应用户的口音和词语。 1 2 2 语音识别的分类 对于语音识别系统,较为普遍的分类如下: 1 从识别的词汇量来分: 每个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词 条。通常,词条越多,则相似的词越多,这样其误识率也相应增加;此外, 随着词数增加,搜索运算使计算开销迅速增加。因此词的数量越多,则系统 实现越困难。词汇表的大致划分标准是,词数少于10 0 时,称为小词汇表; 1 0 0 至5 0 0 称为中词汇表:超过5 0 0 时称为大词汇表。 2 从识别的基本单元来分: 孤立词语音识别系统中关键问题的研究 语音识别按系统的识别对象可分为孤立词、连接词和连续语音三种方式。 孤立词识别是指对说话人每次只说一个字、一个词组或一条命令这样的孤立 词进行识别,其中的词组或命令在词汇表中都作一个独立的词条;连接词识别 一般特指对十个数字( o 9 ) 连接而成的多位数字的识别,有时还可加上少量的 操作指令,这时词汇表只由这十个数字及少数指令构成;连续语音识别是对 说话人以日常自然的方式讲述而进行的识别。这三种方式,其识别困难是依 次递增的。 3 从识别对象来分 语音识别系统可以是只针对一个用户的j 例如个人专用的语音打字机, 这称为特定人工作方式( s d ,s p e a k e rd e p e n d e n t ) ;系统若是针对任何人的, 则称为非特定人方式( s i ,s p e a k e ri n d e p e n d e n t ) ,电话和数据检索系统中所用 的识别器即属这种情况。显然,后者的实现难度较前者大得多。 1 2 3 语音识别技术的应用领域与前景 语音识别技术的应用从大的方面来分可分为三个方面:桌面应用、网络电 话系统应用和w e b 应用。桌面应用是指集成于桌面的应用软件,例如市场上现 已出现的一些用于p c 机的语音输入、语音识别的软件o 网络电话系统应用是指 把语音技术与远程信息查询、处理、生成等相结合的软件。w e b 应用是把语音技 术与w e b 应月结合起来的软件,例如可运用语音技术开发语音浏览器、网上交 谈室等。语音识别技术与各个领域结合为开发商提供了自由发展广阔的天地,高 速增长的市场又为开发商带来了无数商机和优势。在这里,仅列举一些典型的应 用领域以供参考。 语音听写机:可以用口述代替键盘,实现文字输入并且打印输出,这是人们 长久以来的一个迫切愿望。这对于办公自动化将带来革命性的变化( 用机器秘 书代替人类秘书) 。由于汉语计算机输入的特殊性,汉语语音听写机的重要性 尤其突出。一方面,它使人机接口更加友好和自然;但更重要的是,它可以 促进计算机应用在中国的普及。 在通信工程中的应用:世界各大通信公司如美国a t & t 公司,日本n t t 公 司都一直长期致力于语音识别的研究,因为它在通信的各个领域都有着广泛 的应用。例如手机语音拨号、股市查询、信用卡认证等问题。在通信方面, 孤立词语音识别系统中关键问题的研究 一项更加雄心勃勃的计划是实现两种语言之间的直接交流,即通过“语音识 别一机器翻译一语音合成”技术将一种语言直接转换成为另外一种语言。目 前有一些欧美及日本的研究组织正在丌发这个领域的产品。 数据库检索:政府部门、银行、金融机构、军事指挥所和工业管理部门无不 需要对庞大的数据库进行频繁的检索和查询,其中很多是通过电话来进行 的。通过自然语言直接检索数据库可以免除大量操作人员的重复劳动,既经 济又快速。 语音命令控制:在很多场合下,由于手脚已被占用进行其它动作或照明不足 无法进行操作时,必须用语音发出指令,例如驾驶员在高速行驶的汽车中拨 打电话。另一方面,随着第三代移动通信技术的发展,个人智能终端体积越 来越小,通过按键进行控制越来越不方便,语音命令控制是十分理想、便利 的人机接口方式。 此外语音识别显然还会给失明者带来很大的方便。近几十年来语音识别的研 究开发工作逐渐开展,并取得初步成果。尤其最近一二十年,各国都进行了大量 研究,并且美国、日本、欧洲居领先地位。国内研究相对起步较晚,但是也取得 不少成果。 1 2 4 语音识别的难点和所面临的挑战 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上 说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。最近几年来, 语音识别技术得到了突飞猛进的发展,在某些领域已经进入了实用化的阶段,特 别在c t i 领域、在呼叫中心中得到了应用。语音识别技术要迎来更广阔的应用 和长远的发展,就必须要很好的解决下面的关键问题。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采 集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另 外一个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,例如声音变 高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词 孤立词语音识别系统中关键问题的研究 汇量连续语音识别中是非常重要的。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需 要解决,识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中 去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分) 等等技术细节 要解决。为了解决这些问题,研究人员提出了各种各样的方法,如自适应训 练,基于最大互信息准则( m m i ) 和最小区别信息准则( m d i ) 的区别训练 和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应 用人工神经元网络所有这些努力都取得了一定成绩。 l - 3 课题的主要内容和研究成果 首先,基于动态词表的孤立词语音识别系统的搭建。 系统包括对大量连续语音的训练、词典编辑、自动标注和多音字处理、词模 型的动态生成,以及语音信号处理和模式判决等模块。语音信号处理又包括端点 检测和特征提取等主要处理过程,模式判决是采用了逐条比较最大输出概率的方 法。本文中,基本声学单元分别采用了上下文无关的声韵母。 第二,端点检测算法的研究。 系统采用了一种基于短时能量的端点检测算法,该算法是基于“经验公式” 的端点检测算法 7 的改进,这种算法只采用了短时能量来确定语音检测的门限, 并在语音开始阶段对背景噪声的能量进行统计,根据背景噪声的大小来确定算法 的主要参数:另外本文还介绍了一种语音激活检测( v a d ) 算法,该算法是根据 欧洲电信标准学会( e t s i ) 的分布式语音识别系统标准中前端处理模块的v a d 算法改进而来,主要用于系统的录音阶段来判断用户的输入语音是否结束进而实 现录音的自动停止,极大的方便了用户的使用,而且在录音阶段就去掉了无声段, 节约了系统资源。 第三,系统搜索算法的改进。 根据孤立词语音识别系统的特点,本文采用了一系列方法来减少系统的计算 量,包括:选择最大的高斯混合分量来省去各高斯分量的对数求和过程:系统采 用的声学模型转移概率是相等的,都为o 5 ,所以可以去掉转移概率矩阵中的概 率相乘:在读取模型时将方差取倒数,计算概率时将除以方差改成乘以方差的倒 数,使除法运算转化为乘法运算:根据2 6 维m f c c 特征参数的重要程度不同, 即产生的失真不同,将特征进行重新排序,先训算“重要”的特征,可以免去计 孤。:词语音识别系统中关键问题的研究 算全部2 6 维参数。 1 4 论文结构和内容 第一章为绪论。首先引出课题背景,回顾语音识别技术的发展历史和现状, 介绍语音识别技术的应用领域和前景,最后概述了本课题的主要内容和研究成 田 刀 o 第二章为语音识别理论基础。介绍了语音识别的基本原理、语音信号特性和 特征提取等。还介绍了隐马尔可夫模型( h m m ) 及其在语音识别中的应用。包括 h m m 的基本概念与原理、h m m 模型的三个基本问题及关键算法,以及h m m 在语音 识别系统中的应用等。 第三章论述基于动态词表的孤立词语音识别引擎设计。首先提出系统功能要 求,然后论述系统的设计方案及其实现。在此基础上,搭建实验系统,特征参数 采用2 6 维m f c c ,声学模型采用h m m ,能实现对大小为6 0 0 的词表的识别。 第四章研究了端点检测算法。采用了一种基于短时能量的端点检测算法,能 够实现对于不同背景噪声下的语音文件进行准确的端点检测:并且介绍和改进了 欧洲电信标准学会采用的在线端点检测的方法。 第五章主要研究丁系统搜索算法的改进。利用选取最大高斯混合分量、简化 h m m 转移概率矩阵、特征参数重排序等方法来简化系统的搜索算法,在保证系统 识别率自06 苕提下大大降低了系统的计算量,为系统的实用化莫定丁7 基础。 第六章为总结与展望。 孤立词语音识别系统中关键问题的研究 第二章语音识别理论基础 语音识别是指利用计算机自动识别语音的技术,是语音信号处理学科的一个 分支。语音识别所涉及的学科领域相当广泛,如:信号处理、物理学( 声学) 、 模式识别、通信及信息理论、语言语音学、生理学、计算机科学( 研究软硬件算 法以便有效地实现用于识别系统中的各种方法) 、心理学等 8 。 本章将先简单介绍语音识别系统的通用结构、语音信号的特性和处理方法, 在最后部分详细说明语音信号的特征( m f c c ) 提取过程。这章是本课题的语音 信号处理理论基础部分。 2 1 语音识别系统模型 研究语音识别主要有三种方法:声学语音学方法、人工智能方法、模式识别 方法。经过大量研究和实践,基于模式识别的方法占据了主流,其性能也最好 9 】。 就像大多数模式识别系统一样,基于模式识别的语音识别系统有两个步骤语 音模式的训练和通过模式匹配来识别。“训练 阶段的任务是建立识别基本单元 的声学模型以及进行文法分析的语言模型等。“识别”阶段选择能够满足要求的 一种识别方法,采用语音分析方法提取出这种识别方法所要求的语音特征参数, 按照一定的准则和测度与系统模型进行比较,通过判决逻辑得出识别结果。 语音识别系统的通用结构见图2 1 10 。它主要包括预处理、特征提取、建 立参考模式库、相似性度量和后处理等模块。 图2 1语音识别基本原理结构图 1 预处理: 对输入的原始语音信号进行处理,滤除跟识别无关的信息,包括背景噪 声和前后静音段,即通过对语音信号的端点检测判断语音有效范围的开始和 结束位置,并进行语音的分帧及预加重等处理。 8 孤立词语音识别系统中关键问题的研究 2 特征提取: 提取反映信号特征的关键特征参数。语音识别系统常用的特征参数有幅 度、能量、过零率、线性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、线 谱对参数( l s p ) 、短时频谱、共振峰频率、m e l 频率倒谱系数( m f c c ) 等。 特征的选择和提取是系统构建的关键。 3 建立参考模式库: 在训练阶段,用训练集中的语音建立参考模式库( 可能为参考模板或者 模型等) ,或者对已在模式库中的参考模式做适应性修正。 4 相似性度量: 在识别阶段,将输入语音的特征矢量参数( 序列) 和参考模式库中的模 式进行相似性度量比较,将相似度最高的模式所属的类别作为识别的候选结 果输出( 可以是多个最优结果) 。 5 后处理: 对多个候选结果做处理,通过更多的知识( 例如语言模型、词法、句法 和语义信息等) 的约束,得到最终的识别结果。此模块为可选项。 2 2 语音声学特征提取 声学特征的提取与选择是语音识别的一个重要环节。语音信号中含有丰富的 信息,能否提取其有效信息,而去除对语音识别无关紧要的冗余信息,不管是对 语音识别效果,还是对计算量和建模的复杂度都非常重要。 声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷积的过 程,目的是使模式划分器能更好地划分。从信号提取的特征( 有效语音参数集) 参数集既要简洁紧凑,又要保留与识别有关的所有的信息,例如在非特定人的语 音识别系统中,要保留与词的共性有关的信息,同时要去除特定人的信息。从语 音信号帧提取特征时一般从以下三个方面建模: o 基于语音信号产生原理 t l l 基于语音感知原理 基于声道的特性 由于语音信号的时变特性,特征提取必须在- d , 段语音信号上进行。这一小 孤立词语音识别系统中关键问题的研究 段被认为是平稳的分析区间,称之为帧。帧与帧之间的偏移通常取帧长的1 3 到 1 2 。通过对信号的预加重提升高频,通过对信号的加窗处理消除短时语音段边 缘的影响。 2 2 1 时域特征分析 语音信号的时域特征参数主要有短时平均能量、短时平均幅度和短时平均过 零率等。这些参数不仅可以被当作特征参数使用,而且可以使用它们进行有效的 端点检n 11 。 1 第刀帧语音信号的短时平均能量: e = 专莩1 最( 矿 v ,一 ( 2 1 ) 其中是帧长,即一帧中采样点的个数。在比较安静的环境下静音段能量 要比语音段的能量大得多,而且计算和实现都比较方便,所以对语音信号进行端 点检测时常采用求信号的短时平均能量的方法。另外,短时平均能量也经常作为 特征参数使用。常被使用的是归一化的对数能量和其一阶( 或更高阶) 的差分能 且+ 里o 2 第门帧语音信号的短时平均过零率: z ,一= 瞰i ) - s i g n s , ,( i - i ) 其中符号函数定义如下: s i g n c x ,= f i ,薹二三吕 l 1 , “、。 l2 一j ) 这个变量表示一帧语音信号中波形穿过横轴( 零电平) 的次数。它可以用相邻 两个采样值改变符号的次数来计算。白噪声的过零率一般比语音信号的过零率 大,所以在语音信号的端点检测中,短时过零率也是经常使用的一个参数。 语音信号的时域特征参数虽然时域分析具有简单、运算量小、物理意义明确 等优点,但是不能很好的处理复杂的背景噪声,所以目前,语音的时域特征参数 大多用在预处理上,可以提高后处理的精确度和减少计算量。 孤立词语音识别系统中关键问题的研究 2 2 2 频域特征分析 常用的声学特征有线性预测系数l p c 、m e l 倒谱系数m f c c 等。 1 线性预测系数l p c : 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认 为系统的传递函数符合全极点数字滤波器的形式,从而门时刻的信号可以用前若 干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之 间达到均方差最小l m s ,即可得到线性预测系数l p c 。对l p c 的计算方法有自 相关法( 德宾d u r b i n 法) 、协方差法等等。计算上的快速有效保证了这一声学特 征的广泛使用。与l p c 这种预测参数模型类似的声学特征还有线谱对l s p 、反 射系数等等。 2 m e l 倒谱系数m f c c : 不同于l p c 等通过对人的发声机理的研究而得到的声学特征,m e l 倒谱系 数m f c c 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理 的研究发现,当两个频率相近的音调同时发出时,人只能听到_ 个音调。临界带 宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差 小于临界带宽时,人就会把两个音调听成一个,这称之为掩蔽效应。m e l 刻度是 对这一临界带宽的度量方法之一 12 。 求m e l 倒谱系数的方法是将时域信号做时频变换后,对其对数能量谱用依 照m e l 刻度分布的三角滤波器组做卷积,再对滤波器组的输出向量做离散余弦 变换( d c t ) 。这样得到的前维向量称为m f c c 。 本文中采用了m f c c ,将在这里详细介绍求m f c c 的过程。其过程如图2 3 所示。 图2 - 3m e l 频率倒谱系数( m f c c ) 提取过程 原始语音信号s ( n ) 经过分帧、预加重、加窗等处理,得到每个语音帧的时域 信号x ( n ) 。对输入的原始信号进行预加重,其目的是为了对语音的高频部分进行 加重,增加语音的高频分辨率,一般通过一个传递函数p ( z ) - - - 卜z 。1 的滤波器对 孤立词语酱识别系统中关键问题的研究 其加以滤波,其中为预加重系数,一般取值为o 9 5 ,o 9 7 或o 9 8 。假设在刀时 刻的语音采样值为x ( n ) ,则经过预加重处理后的结果为: y ( n ) = x ( n ) 一l x ( n 一1 ) ( 2 5 ) 语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其短时特 性,从而便于模型的建立。 然后将每帧信号用h a m m i n g 窗相乘,以减小语音帧起始和结束处的信号不 连续性,采用的h a m m i n g 窗函数为: 0 5 4 0 4 6c o sf ,丝1 ,o 刀一1 w h ( 刀) = l n l 7 ( 2 6 l o ,o t h e r w i s e 将时域信号x ( n ) 后补若干o 以形成长为的序列,然后经过离散傅立叶变换 ( d f t ) 后得到线性频谱x ( 尼) ,转换公式为: x ( 尼) = 三i 乒7 x ( 刀) 】;( o k ,刀n 1 ) ( 2 7 ) 在实际应用中,常常通过快速傅立叶变换( f f t ) 计算出x ( 七) 。 将线性频谱x ( 七) 通过m e l 频率滤波器组得到m e l 频谱,并通过对数能量的处 理,得到对数频谱s ( m ) 。 f i i t e r b a n k 厂厂j 丁广_ 厂厂广1 l r 图2 - 4通过m e l 频率滤波器组得到m e l 频率 每个滤波器具有三角形滤波特性,其中心频率为f ( m ) ,当m 值小时相邻 厂( 朋) 之间的间隔也小,随着m 的增加相邻f ( m ) 的间隔逐渐变大,如图2 - 4 所示。 孤立词语音识别系统中关键问题的研究 m e l 频率函数和其逆函数分别为: m e l ( f ) = 2 5 9 5 1 0 9 譬去) = 11 2 7 1 n ( 1 + 去) m e l 一( 6 ) = 7 0 0 ( e 一11 2 s 一1 ) 每个带通滤波器的中心频率为: ( 2 8 ) ( 2 9 ) 似) _ ( n 。) m e 一( 删舻聊,塑留掣) ( 2 - 1 0 ) 其中m 为三角滤波器的个数,o m m ,无、石为滤波器的频率应用范围 的最高频率和最低频率,为d f t ( 或f f t ) 窗宽,e 为采样频率。 每个带通滤波器的传递函数为: h 。,( 尼) = o ( 尼 ( 朋一1 ) ) 尼一f ( m 一1 ) f ( m r ,) - f ,( 、n 2 :1 ) ,7 2 1 尼7 7 2 ( o 7 7 2 m ) ( 2 - 1 1 ) 一( m 小挺m + 1 ) ) 。 。 为了使结果对噪声和谱估计误差有更好的鲁棒性,一般将上诉经过m e l 滤 波器组而得到的m e l 频谱取对数能量。则由线性频谱x ( k ) 到对数频谱s ( m ) 的总 传递函数为: v 一1 s ( 耽) = l n ( | x ( 尼) 1 2 乜,( 尼) ) ;( o 历 m ) ( 2 1 2 ) k = o 将对数频谱s ( m ) 经过离散余弦变换( d c t ) 变换到倒频谱域,即可得到m e l 频率倒谱系数( m f c c 参数) c ( 刀) : 咖,= 厝 m 一1 s ( 垅) c o s 肿= 1 ;( 0 ,7 2 m ) ( 2 1 3 ) 为了克服高阶倒谱系数太小,而变化范围大,做如下处理: c 叫砂 1 o + 扣n ,础 协 一、i_、一 小列一 + 肘 ,。,。一一 刀 一 万 一 孤屯涮语音识别系统中关键问题的研究 m f c c 、l p c 倒谱都是谱形状的度量,尽管已经通过归一化( n o r m a l i s a t i o n ) 消除了响度的变化,而强度的度量也是很重要的。响度的度量或者是使用从波形 ( w a v e f o r m ) 直接得到的标准化能量,或者是m f c c 中的c o 。现在广泛被采用 的表达方式包括对数能量的静态、一阶和二阶差分值。能量的归一化带来延迟( 非

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论