(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf_第1页
(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf_第2页
(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf_第3页
(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf_第4页
(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)语音识别技术在导航设备中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:随着我国车辆的迅速增加和公路交通网建设的增强,人们对车辆自身定位 及路况信息获取的需求变得日益迫切,而g p s 导航定位系统很好地满足了这一要 求。常用的g p s 导航系统需要手动输入目的地,引入语音识别技术后改变了该现 状。 作为人机交互的有效手段,语音识别技术的研究日渐成熟、实用。使用具备 语音识别技术的车载导航系统,驾驶者无需双手便可以与其交互,使得车载导航 定位更加方便、快捷。 本文即设计了一套应用于g p s 导航仪的语音识别系统。 首先,本文阐明了本课题的研究背景和意义,总结了语音识别系统的发展历 史及现状,介绍了车载g p s 导航系统,并在此基础上对语音识别技术在g p s 导航 系统中的应用进行了分析。 接着,本文介绍了语音识别原理的两部分内容:语音信号分析和识别方法。 语音信号分析包括语音信号预处理、语音信号的端点检测与特征提取,本文的端 点检测采用基于短时能量和短时平均过零率的双门限检测法,并选用了梅尔频率 倒谱参数作为特征参数;识别方法部分,本文介绍了隐马尔科夫模型和矢量量化 模型的原理和基本算法,并根据g p s 导航仪资源受限的特性,最终选择离散隐马 尔科夫模型作为本文的基本识别算法。 本文的主体部分是基于离散隐马尔科夫模型的语音识别系统的原理设计、功 能实现与性能分析。本文从语音数据读取、预处理、特征提取、码本设计、系统 实现五部分分析了系统的设计思路及流程,并在实验室环境下实现了系统功能。 接着,本文在导航仪实际应用环境下建立小型语音库,对语音识别系统的性能及 其在导航仪中应用的可行性进行测试分析,并根据车载语音识别导航系统对识别 的正确率、实时性、资源占用等方面的要求,通过对码本数量和离散隐马尔科夫 状态数选取的分析,最终确定本识别系统的码本容量和离散隐马尔科夫状态数。 本文最后对全文工作进行了总结,指出当前工作中的不足,为以后的研究工 作指明了努力方向。 本文共有图2 2 幅,表7 个,参考文献3 9 篇。 关键词:语音识别;端点检测;梅尔频率倒谱参数;矢量量化; 离散隐马尔科夫模型 分类号:t n 9 1 2 ;t p 3 9 1 a b s t r a c t a b s t r a c t :w i t ht h er a p i di n c r e a s eo f v e h i c l e s n u m b e ra n de n h a n c e m e n to f h i g h w a y n e t w o r ki n0 1 1 1 c o u n t r y , i tb e c o m e sm o r ea n dm o r eu r g e n tt ol o c a t eo n e so w n v e h i c l e s a n dk n o wa b o u tt h er o a ds t a t ei n f o r m a t i o n g p sn a v i g a t i o ns y s t e ms a t i s f i yt h i sr e q u e s t w e l l t h eg p sn a v i g a t i o ns y s t e mu s u a l l yn e e d sd r i v e r st oi n p u tt h ed e s t i n a t i o nw i t h t h e i rh a n d s ,a n ds p e e c hr e c o g n i t i o nt e c h n o l o g yc h a n g e st h i ss i t u a t i o n a sa l le f f e c t i v ei n t e r a c t i o nm e a s u r e sb e t w e e nm a na n dm a c h i n e , r e s e a r c ha b o u t s p e e c hr e c o g n i t i o nt e c h n o l o g yi sg e t t i n gm o r ea n dm o r em a t u r ea n dp r a c t i c a l w i t h s p e e c hr e c o g n i t i o nt e c h n o l o g ya p p l y i n gt on a v i g a t i o ns y s t e m s ,d r i v e r s 啪i n t e r a c tt oi t w i t h o u tt h e i rh a n d s ,w h i c hm a k e sn a v i g a t i o na n d p o s i t i o nm o r ec o n v e n i e n ta n df a s t e r as p e e c hr e c o g n i t i o ns y s t e ma p p l y i n gi ng p s n a v i g a t i o nd e v i c ei sd e s i g n e di nt h i s p a p e r t h er e s e a r c hb a c k g r o u n da n ds i g n i f i c a n c eo ft h i st o p i ca r ee x p o u n d e da tt h e b e g i n n i n go ft h ep a p e r t h e nt h es p e e c hr e c o g n i t i o ns y s t e ma n di t sd e v e l o p m e n ta n d p r e s e n ts i t u a t i o na r ei n t r o d u c e d a n di t sa p p l i c a t i o ni nt h eg p sn a v i g a t i o ns y s t e mi s a n a l y z e da tt h ee n do ft h i ss e c t i o n t h ee l e m e n t a r yt h e o r yo fs p e e c hr e c o g n i t i o ni si n t r o d u c e di nt w op a r t s ,v o i c e s i g n a la n a l y z i n ga n dr e c o g n i t i o nm e t h o d s v o i c es i g n a lp r e t r e a t m e n t , p r o n u n c i a t i o n v e r t e xe x a m i n a t i o na n df e a t u r ee x t r a c t i o na r ei n t r o d u c e di nt h ep a r to fv o i c es i g n a l a n a l y z i n g d o u b l et h r e s h o l de x a m i n a t i o nl a wb a s e do nt h es h o r t - t i m ee n e r g ya n dt h e s h o r t t i m ea v e r a g ez e r oc r o s s i n gr a t e sa r eu s e di nv e r t e xc h e c k u p a l s o ,m e lf r e q u e n c y c e p s t r u mc o e f f i c i e n tp a r a m e t e r sa r es e l e c t e da st h ec h a r a c t e r i s t i cp a r a m e t e r s t h e p r i n c i p l ea n dt h ep r i m a r ya l g o r i t h mo fh m m m o d e la n dv e c t o rq u a n t i z a t i o nm o d e la r e i n t r o d u c e di nt h ep a r to f r e c o g n i t i o nm e t h o d s d i s c r e t eh i d d e nm a r k o vm o d e li sc h o s e n a st h eb a s i cr e c o g n i t i o na l g o r i t h ma c c o r d i n gt ot h er e s o u r c e c o n s t r a i n e dc h a r a c t e r i s t i c o fg p s n a v i g a t i o ns y s t e m s y s t e md e s i g n i n g ,f u n c t i o ni m p l e m e n t a t i o na n dc a p a b i l i t ya n a l y z i n go ft h es p e e c h r e c o g n i t i o ns y s t e mw h i c hb a s e do nd i s c r e t eh i d d e nm a r k o vm o d e la r et h ep r i n c i p a l p a r to ft h i sp a p e r t h ed e s i g n i n gm e n t a l i t ya n dt h ef l o wo ft h i sp a p e ra r ei n t r o d u c e di n f i v ep a r t s ,r e a d i n go fp r o n u n c i a t i o nd a t a ,p r e t r e a t m e n t ,f e a t u r ee x t r a c t i o n ,v e c t o r q u a n t i z a t i o nd e s i g n i n ga n dd i s c r e t eh i d d e nm a r k o vm o d e lr e a l i z i n g t h e nt h ew h o l e s y s t e mi sr e a l i z e du n d e rl a bc i r c u m s t a n c e a f t e rt h a t ,as m a l l s c a l es p e e c hd a t a b a s ei s e s t a b l i s h e du n d e rt h ep r a c t i c a la p p l i c a t i o ne n v i r o n m e n to ft h en a v i g a t i o ns y s t e m p e r f o r m a n c eo fs p o e c hr e c o g n i t i o ns y s t e ma n df e a s m i l i t yo fs p e e c hr e c o g n i t i o ns y s t e m u s i n g i ng p sn a v i g a t i o ns y s t e ma l et e s t e da n da n a l y z e d a tl a s tt h ec a p a c i t yo f t h ec o d e a n dt h en u m b e ro fd i s c r e t eh i d d e nm a l k o vm o d e ls t a t ea r ed e t e r m i n e dc o n s i d e r i n gt h e r e q u i r e m e n t so fn a v i g a t i o ns y s t e mf o rc o r r e c tr a t e , r e a l - t i m e , r e s o u r c eo c c u p a t i o na n d s o o n f i n a l l y , t h ew h o l ea r t i c l ei ss u m m a r i z e da n dt h ei n a d e q u a c yo f t h ec u r r e n tw o r ki s p o i n t c do u t a l s o ,t h ed i r e c t i o nf o rf u t u r ew o r ki ss p e c i f i e da tt h ee n do f t h ep a p e r t h e r ea r e2 2f i g u r e s ,7t a b l e sa n d3 9r e f e r e n c e si na l li nt h i sa r t i c l e k e y w o r d s :s p e e c hr e c o g n i t i o n ;e n d - p o i n td e t e c t i o n ;m e lf r e q u e n c yc e p s t r u m c o e m d e n t ;v e c t o rq u a n t i z a t i o n ;d i s c r e t eh i d d e nm a l k o vm o d e l c l a s s n o :t n 9 1 2 ;t p 3 9 1 v 图 图l l 语音识别的发展历史2 图1 2 语音识别系统分类4 图2 1 语音信号产生模型。9 图2 2 矢量量化框图l6 图3 1 基于d h m m 的语音识别框图2 3 图3 2 语音信号原始波形2 6 图3 3 预处理后的语音信号波形2 7 图3 4 语音信号的短时能量和短时过零率2 8 图3 5 双门限端点检测流程图2 9 图3 - 6 端点检测波形3 0 图3 7m f c c 特征参数提取框图3l 图3 8l b g 算法流程图3 3 图3 - 9 无跳转自左至右模型( n = 6 ) 一3 4 图3 1 0 重估算法流程图3 5 图3 1 l 特征提取流程图一3 6 图4 1 录音示意图。3 8 图4 2 录音结束3 9 图4 - 3 录音播放3 9 图4 - 4z h n 6 0 0 s 导航仪系统结构4 1 图4 5 码本容量与平均识别率和平均识别时间的关系4 4 图4 6d h m m 状态数与平均识别率、平均识别时间的关系( 码本容量6 4 ) 4 5 图4 - 7d h m m 状态数与平均识别率、平均识别时间的关系( 码本容量1 2 8 ) 4 6 表 表3 1w a v 文件结构2 4 表3 2p c m 格式的w a v 文件头部信息2 5 表4 _ l 语音识别结果4 0 表4 2 码本容量与识别率、识别时间的关系4 4 表4 _ 3d h m m 状态数与识别率、识别时间的关系( 码本容量6 4 ) 。4 5 表4 4d h m m 状态数与识别率、识别时间的关系( 码本容量1 2 8 ) 4 6 表4 - 5 应用于导航仪的语音识别系统性能4 7 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 5 5 占月珥日 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:燃 签字日期: 岬年月中日 签主:二i 二烈日 签字日期:o 硝年月砷日 l 致谢 本论文的工作是在我的导师李兴华副教授的悉心指导下完成的,李老师严谨 的治学态度和科学的工作方法给了我极大的帮助和影响。两年来,李老师悉心指 导我完成实验室工作,在学习和生活上都给予我诸多关心和帮助,在此对李老师 表示衷心的感谢。 荆涛老师悉心指导我完成实验室的科研工作,在学习上和生活上都给予了我 很大的关心和鼓励,在此向荆老师表示诚挚的谢意。 霍炎博士对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心 的感谢。 在实验室工作及撰写论文期间,李云强、牛相潮、孙静等同学,张燕燕、张 超等同事对我论文中的研究工作给予了大力支持,田明星、夏州、胡卓等同学在 生活中给予我热情帮助,在此向他们表达我的感激之情。 另外也感谢我的家人,他们在物质和精神上都给予我极大的支持,正是他们 的理解和支持使我能够在学校专心完成我的学业。 最后,再一次对大家的帮助表示诚挚的谢意! 1 绪论 1 1 选题背景及意义 语音是人类最自然、最有效的交流方式。与机器自如交流,让计算机能理解 人所表达的意思,是人类自计算机诞生以来梦寐以求的想法。近年来,随着计算 机的微型化趋势与日增强,人们越来越迫切要求摆脱键盘的束缚,转向更加便捷 的人机交互方式,语音识别技术也就应运而生。 语音识别是一门交叉学科,它以语音为研究对象,是语音信号处理的一个重 要研究方向,同时也是模式识别的一个重要分支。语音识别技术与声学、语音学、 生理学、统计学和模式识别理论、信息理论与计算机学科、应用心理学、数字信 号处理技术等多个学科的研究领域有关,不同领域的研究成果都对语音识别的发 展做出了贡献,其最终目的就是让人与计算机能够进行自然语言通信【1 捌。 全球定位系统( g l o b a lp o s i t i o n i n gs y s t e m g p s ) 应用于导航定位是一个全新的 概念,利用此太空时代的科技,任何人都可以轻易地得到自己所在的具体位置、 行驶速度和时间。g p s 起初是由美国国防部开发用于军用的,在1 9 8 4 年g p s 系统 公开化,而后逐渐被用于民用,时至今日成为全球通用的g p s 系统,用于导航定 位、精密测量及标准时间等相关方面p 】。如今,g p s 导航仪已经成为普通驾车一族 的心爱配备,拥有了它,无论是在陌生的城市里,还是在密如蛛网的高速公路上, 驾车者都可以自由穿梭,无需担心找不到目的地。 普通的g p s 导航仪,需要依靠驾驶者的手动输入才能够确定目的地,再经过 计算和卫星捕捉之后给出合适的行驶路线,但是对于驾驶者而言,往往会在匆忙 上路后,边驾驶边输入,给安全驾驶造成诸多隐患。如果驾驶者在驾驶过程中不 需要双手脱离方向盘,只用语音便可操作导航仪,将会使导航过程更加便捷,这 也即使本文所做研究的最终目标。 德国2 0 0 2 年就开发出了车载语音识别导航系统,开创了汽车导航的新纪元【4 】, 随后美国、韩国等国家也纷纷着手相关方面的研究,并相继推出车载语音识别导 航系统。当前我国已经有多家公司推出具有良好导航定位功能的g p s 导航仪,但 鉴于国内的g p s 技术还比较基础,很多厂商都只处于尝试或探索阶段,所以当前 国内研究具有语音识别功能的g p s 导航仪的厂家少之又少,调查发现国内市场还 没有正规厂家真正推出该类产品。 本课题着眼于当前导航市场的最新需求,致力于推出具有语音识别功能的 g p s 导航仪,不仅可以大幅度提高导航仪的性能,而且填补了国内车载语音识别 导航系统的空白。因此,本课题的研究对于未来导航市场的发展具有十分重要的 意义。 1 2 语音识别系统介绍 1 2 1语音识别的发展历史 语音识别研究始于二十世纪5 0 年代,至今已经历了半个多世纪的蓬勃发展, 在此期间获得了巨大的进展【1 , 5 - s ,如图1 1 所示: 口语对话 流利语音 朗读语音 连接词 孤立词 1 9 6 01 9 7 0 1 9 8 01 9 9 02 0 0 0 图1 - 1 语音识别的发展历史 f i g u r el lh i s t o r yo fs p e e c hr e c o g n i t i o n 2 0 世纪5 0 年代,研究人员大都致力于探索声学语音学的基本概念。1 9 5 2 年a t & tb e l l 实验室实现了单一发音人孤立发音的基于十个英文数字的语音识别 系统,主要采用的方法是度量每个数字的元音音段的共振峰。1 9 5 9 年,英国 u n i v e r s i t yc o l l e g e 的研究人员尝试用谱分析和模板匹配方法构建了一种音素识别 器,用以识别4 个元音和9 个辅音。 6 0 年代,计算机技术的发展推动了语音识别理论与技术的发展。这一时期的 重要成果是提出了动态规划( d y n a m i cp r o g r a m m i n g , d p ) 和线性预测分析技术 ( l i n e a rp r e d i c t i o n ,l p ) ,其中后者较好地解决了语音信号产生的模型问题,对语音 2 识别产生了深远的影响。 7 0 年代,语音识别的研究取得了许多重要的具有里程碑意义的成果。比如像 线性预测编码技术( l i n e a rp r e d i c t i v ec o d i n g , l p c ) 的引入、动态时间规整技术 ( d y n a m i ct i m ew a r p i n g , d t w ) 的提出以及矢量量化( v e c t o rq u a n t i z a t i o n , v q ) 和隐 马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 理论的建立等 9 1 ,特别是在实践上,实 现了基于线性预测倒谱( l i n e a rp r e d i c t i v ec e p s t r a lc o d i n g , l p c c ) 和动态时间规整技 术的特定人孤立词语音识别系统。这一期间如i b m 等一些国际上知名的大公司也 加入到了语音识别技术的研发行列中来。 8 0 年代,随着对语音识别的研究进一步走向深入,特别是隐马尔科夫模型和 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 在语音识别中的成功应用,使得连续 语音成为研究重点,并出现了二层动态规划算法、分层构造算法等大量的连续语 音识别算法。需要特别提出的是在八十年代末期,美国推出了由c m u 实现的 s p h i n x 系纠5 1 。该系统率先突破了语音识别中非特定人、连续语音、大词汇量三 大难题,被世界公认为语音识别技术发展中的一个里程碑。 进入9 0 年代之后,随着计算机技术、电信应用技术的飞速发展以及社会各界 投入精力的增加,语音识别技术实用化进程得以大大加速。在语音识别应用方面, i b m 由于早在六、七十年代的前瞻性研究,率先推出了v i a v i o c e 语音识别系统, 它标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟;在嵌入式应用 方面,出现了可以语音拨号的手机、与人对话的智能玩具等;在商业服务方面, 出现了以语音识别、语音合成为核心技术的呼叫中,t l , ( c a l lc e n t e r ) 、语音门户网站等。 同时,语音识别技术研究方面,在细化模型的设计、参数提取和优化以及系统的 自适应等技术上也取得了一些关键性的进展。 我国语音识别技术的研究水平基本上与国外同步,在汉语语音识别的研究上 还有自己的特点与优势,并接近国际先进水平【9 】。我国开展语音识别研究的机构有 北京大学、中科院声学所、中科院自动化所、清华大学、北京交通大学等,其中 具有代表性的研究单位是清华大学电子工程系和中科院自动化研究所模式识别国 家重点实验室。 清华大学开发的连续语音识别系统t h e e s p ,汉字的识别率达到9 8 7 ,句子 识别率约为6 2 5 。清华大学电子工程系语音与专用芯片设计课题组,研发了非特 定人汉语数码串连续语音识别系统识别率达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长 数字串) 。在5 的拒识率的情况下系统的识别率可达到9 6 9 ( 不定长数字串) 和 9 8 7 ( 定长数字串) ,这是目前最好的识别结果之一,其性能己接近实用水平【1 0 1 。 中科院自动化所和所属的模式科技公司在2 0 0 2 年发布了他们共同推出的面向不同 计算平台和应用的“天语”中文语音系列产品p 舭e a s r ,结束了自1 9 9 8 年 3 以来语音识别产品一直由国外垄断的历史【1 1 , 1 2 。 1 2 2语音识别系统分类 语音识别是指让机器“听懂 人的指令,准确地识别出语音内容,从而根据 其信息,执行命令发出人的各种意图。 图l - 2 语音识别系统分类 f i g u r e1 2c l a s s i f i c a t i o no fs p e e c hr e c o g n i t i o ns y s t e m 如图1 2 所示,从不同的角度和要求出发,语音识别系统有三种分类方法【1 3 ,1 4 】: 1 根据说话者与识别系统的相关性,可以将语音识别系统分为两类: 特定人语音识别系统:对于特定某个人的语音进行识别; 非特定人语音识别系统:识别过程与说话人固定与否无关,通常要用大量不 同人的语音对识别系统进行训练。 特定人语音识别系统往往用于特殊的场合,而非特定人语音识别系统可以针 对不同的说话人工作,应用需求更广泛。 2 根据说话者的发音方式,可以将语音识别系统分为三类: 孤立词语音识别系统:说话者每次只说一个字、一个词或一条命令; 连接词语音识别系统:说话者以词或词组为发音单元向系统输入指令; 连续语音识别系统:指自然、流利的连续语音输入。 孤立词识别可以认为是语音识别的基础,后两者是在前者的基础上进行改进, 从而让识别者可以用日常自然的说话方式与机器进行交流。 3 根据识别系统的词汇量大小,也可以将语音识别系统分为三类: 小词汇量语音识别系统:通常包括几十个词的语音识别系统; 4 中等词汇量语音识别系统:通常包括几百个词到上千个词; 大词汇量语音识别系统:通常包括几千到几万个词。 一般而言,随着词汇量的增多,各词汇之间的混淆性增加,系统实现将变得 更加困难,同时识别率也会相应降低。 1 2 3语音识别基本方法 语音识别的基本方法有三种:基于语音学和声学的方法、模板匹配的方法以 及利用人工神经网络的方法【1 5 1 。 1 基于语音学和声学的方法 该方法起步较早,但由于其模型及语音知识过于复杂,当前仍然没有达到实 用的阶段。通常认为常用语言中存在有限个不同的语音基元,而且可以通过其语 音信号的频域或时域特性来区分。基于语音学和声学的方法分两步来实现: 分段和标号:语音信号按时间分成离散的段,每段对应一个或几个语音基元 的声学特性,然后根据相应声学特性对每个分段给出相近的语音标号; 得到词序列:根据第一步所得语音标号序列得到一个语音基元网格,从词典 得到有效的词序列,也可结合句子的文法和语义同时进行。 2 模板匹配的方法 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中, 要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种: 动态时间规整、隐马尔科夫理论和矢量量化技术。 ( 1 ) 动态时间规整 动态时间规整算法的思想就是把未知量均匀地升长或缩短,直到与参考模式 的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其 特征与模型特征对正。 ( 2 ) 隐马尔科夫法 h m m 是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双 重随机过程:一个是用具有有限状态数的m a r k o v 链来模拟语音信号统计特性变化 隐含的随机过程,另一个是与m a r k o v 链的每一个状态相关联的观测序列的随机过 程。前者通过后者表现出来,但前者的具体参数是不可测的。 ( 3 ) 矢量量化 矢量量化是一种重要的信号压缩方法。该方法将语音信号波形的k 个样点的 每一帧,或有k 个参数的每一参数帧,构成k 维空间中的一个矢量,然后对矢量 进行量化。量化时,将k 维无限空间划分为肼个区域边界,然后将输入矢量与 5 这些边界进行比较,并被量化为“距离最小的区域边界的中心矢量值。矢量量 化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的 失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运 算量,实现最大可能的平均信噪比。 3 神经网络的方法 人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动 的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力 和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时 间太长的缺点,目前仍处于实验探索阶段。 1 2 4语音识别的研究现状及发展前景 经过半个多世纪的研究,语音识别技术已经发展到了接近实用的阶段。但是, 语音识别要想进入成熟的实用阶段,还需要面对诸多的技术难题。 对于汉语语音识别系统而言,下述问题的出现,使得汉语言信息处理比西方 语言更为复杂和困难【1 6 j : 1 汉语的大字符集影响了汉字的快速输入; 2 汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问 题; 3 大量的同音字、词给汉语语音识别带来困难; 4 灵活自由的语言表述难以用汉语语言知识表示方法来表达。 此外,随着应用日渐广泛,语音识别技术还应注意在提高可靠性、扩大词汇 量、降低体积、降低成本等方面做出努力。 语音识别是一种赋能技术,现有的很多人机交互界面都可能通过补充语音识 别功能而得到改善,还可以塑造或创造一批新的机器和新的信息服务行业进入人 的生活。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易 很有趣味性的事,在许多“手忙”、“手不能用 、“手所不能及 、“懒得动手的 场景中,包括像驾驶室、一些危险的工业场合、远距离自动信息获取、家电控制 等方面,语音识别技术可能带动一系列崭新或具有更便捷功能的设备出现,更加 方便人的工作和生活。将语音识别与语言理解、文字翻译、语音合成进行系统创 新集成的语音同声翻译技术,可以用于突破不同语种的人说话交流的语言壁垒。 2 1 世纪是信息和网络的时代,i n t e m e t 、宽带i p 网、公用电话网、移动电话网 等把全球各地连接起来,巨大的信息资源能够通过网络在短时间内迅速扩散到全 球范围,几乎所有人与机器进行信息交互相关的需求和服务,例如自然口语对话、 6 信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上 实现。语音识别技术研究和应用的重要发展趋势是,让人在任何地方、任何时间、 对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资源和 现代化服务,人类将越来越多地体验到语音识别技术的便捷之处。 1 3 语音识别在导航系统中的应用 1 3 1车载g p s 导航系统 g p s 导航系统使用人造卫星提供的信息,为驾驶者或者乘客提供车辆所在位 置、行驶路线、行进速度、路况信息等数据。概括地讲,车载g p s 导航系统主要 为用户提供三方面的服务:引导服务、查询服务以及其他扩展服务【1 7 1 。 1 引导服务 车载g p s 导航系统可以在用户输入目的地之后为用户提供智能型的行程规 划,根据卫星提供信息来获知当前路况的信息以避开拥堵路段,在显示屏上显示 最优的路径。在车辆行进过程中,还可以显示车辆当前在地图上的位置、距离目 的地的距离、时速、弯道信息提醒等。 2 查询服务 查询城市内的道路、重要标志、路口等信息,以及标志地附近的宾馆、学校、 加油站、医院、停车场等设施。 3 其他扩展功能 包括路况信息查询、气象信息收听、电话拨打与接听、报时、紧急求助等功 能,依据具体导航设备而有所不同。 为实现上述功能,g p s 设备需要一个良好的人机交互界面。当前g p s 导航系 统的输入方法主要包括触摸屏手写、少量按键或者遥控器等,国外的部分生产厂 商也在尝试开发具备语音识别功能的导航仪,以代替传统的操作方式,让人机对 话变得更加方便、快捷。当前德国、韩国等国家已经推出了语音操控的g p s 导航 仪,但是在国内市场上仍然空白,这给本文的研究提出了很大的挑战。 1 3 2语音识别在导航系统中的应用 在车载g p s 导航系统中,运用语音识别技术可以进行如下操作: 1 命令输入 对针对导航仪各层界面的各种指令进行控制,将该型号导航仪中诸如开始菜 7 单、导航、游戏、音乐等模块及其子菜单名称纳入语音识别库,从而只需简单输 入指令就可以自如操作导航仪。 2 地名输入 针对每个城市的主要交通道路名称或者建筑物名称,在系统允许的前提下, 将此类名称纳入语音识别库中,直接可以进行识别。 3 连续数字串输入 针对每条道路上的号牌识别,或者是利用导航仪实现电话拨打与接听等功能 时,用以识别电话号码或呼叫对象。 4 附属设施查询 针对地图中的宾馆、加油站、学校、医院、停车场等设施进行查询。 当然,上述地名输入、连续数字串输入、附属设施查询等功能的实现是需要 语音识别系统与地图软件相绑定的,这对系统的容量及资源占用情况提出了更大 的挑战。本文主要是针对命令输入功能进行开发的。 1 4 本文结构安排 本文的组织结构安排如下: 第一章为绪论,简单介绍了本文的选题背景、研究目的及意义,简述了国内 外语音识别技术的发展历史、现状及存在问题,并简要介绍了本文的研究内容和 结构安排。 第二章主要介绍了语音识别的基本原理。首先从语音信号的预处理、端点检 测、特征参数提取等方面介绍了语音信号处理的基础知识。接着主要介绍了h m m 和v q 两种语音识别方法的识别原理和主要算法,并根据导航仪平台资源受限的 特点,确定d h m m 算法作为本系统的核心算法。 第三章是语音识别系统的设计与实现,主要包括w a v 语音文件读取、语音信 号预处理、特征提取、码本实现及h m m 的具体实现等部分。文章给出了各个部 分的主要算法设计情况,并在实验室环境下实现了系统功能。 第四章对语音识别系统在导航仪中的应用情况进行实验分析。在z h n 6 0 0 s 实 际应用环境中建立小型语音库,对识别系统的性能进行测试,并分析其在导航仪 中应用时的资源占用情况。最后,通过实验对比分析不同参数时语音识别系统的 性能,综合考虑导航仪平台在识别正确率、实时性等方面的要求,确定应用于 z i n 6 0 0 s 导航仪的语音识别系统的各项参数。 第五章是总结与展望,主要概括了本文所做的主要工作,提出当前工作中的 不足,为将来的工作指明了努力方向。 8 2 语音识别基本原理 语音信号分析与处理是语音识别的基础,本章对语音信号的产生机理、时域 处理、特征提取方法等进行了介绍,并在此基础上介绍了矢量量化和隐马尔科夫 模型两种语音识别方法。 2 1 语音信号产生机理 语音是由肺部的收缩压迫气流由支气管经过声门和声道引起音频震荡而产生 的。发音过程中声道各处的截面积取决于舌、唇、领以及小舌的位置。声道有三 类不同的激励方式,因而可以产生三类不同的声音:当气流通过声门时声带的张 力刚好使声带发生较低频率的张弛震荡,形成准周期性的空气脉冲,这些空气脉 冲激励声道,产生浊音;如果声道中某处面积很小,气流高速冲过此处时会产生 湍流,就会得到一种类似噪声的激励,这种方式对应于摩擦音或清音;如果声道 某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破剖1 8 】。 基因周期 幅 图2 1 语晋信号产生模型 f i g u r e2 - 1m o d e lo f s p e e c hs i g n a lg e n e r a t i o n 根据语音信号的产生机理,可以产生模拟语音信号的发生系统如图2 - 1 所示。 此过程可以用一个时变线性系统来模拟,语音信号可以看作是激励信号u g l 刀j 激 励一个线性系统日( z ) 而产生的输出,其中日g ) 是声道响应v ( z ) 与嘴唇辐射模型 尺( z ) 相级联而成,即: h ( z ) = y ( z ) 宰尺( z )( 2 1 ) 对于浊音来讲,可以把声门脉冲的影响也归并到传递函数中,即: 日( z ) = g g ) 幸矿( z ) 奉尺( z ) ( 2 - 2 l 9 这时,浊音信号可以看作是一个准周期性的脉冲串激励一个离散线性系统 何( z ) 而产生的输出,而清音信号是由一个白噪声序列激励一个线性系统而产生的 输出,而这个线性系统仅是由声道响应y ( z ) 和嘴唇辐射模型r ( z ) 相级联而成的。 浊音信号的产生过程受声门脉冲形状g g ) 、声道响应而) 和嘴唇辐射影响,g ) 的共同作用,可以等效为一个线性系统,称之为声道系统,即: 办o ) = 9 0 ) 宰七) 宰厂o ) ( 2 3 ) 相应的z 变换为式2 2 。 如果将激励信号看成是一个准周期性的万脉冲串,即: 如) = 8 ( n + r 肋) ( 2 - 4 ) 那么浊音信号就是两者的卷积结果,如式2 5 所示: x o ) = m ) h 。0 ) = h ,n + r 坳) ( 2 - 5 ) 相应地,清音产生过程所受到的声道响应“刀) 和嘴唇辐射影响,( 刀) 共同作用也 可以等效为一个线性系统: j i i 。( z ) = 如) 宰,g ) ( 2 6 ) 相应的z 变换为: h 。( z ) = y ( z ) 毒尺( z ) ( 2 - 7 ) 假设激励信号“g ) 为白噪声序列,则: 小) = h 。伽卜“0 )( 2 8 ) 2 2 语音信号预处理 语音信号的预处理过程主要包括预加重、分帧、加窗等。 1 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重操作。预加重的目 的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分 析。预加重可在a d 变换之后进行,用具有6 d b 倍频程的提升高频特性的预加重 数字滤波器实现,它一般是一阶的,即: h ( z j = 1 一z 叫 ( 2 9 ) 式中,值介于0 9 和1 之间,通常取0 9 8 或l 【1 9 1 。 2 分帧、加窗 语音信号的特性是随时间变化的,是一个非平稳过程。但是不同的语音是由 人的口腔肌肉运动构成声道的某种形状而产生的响应,而这种肌肉运动频率相对 1 0 于语音频率来说是相对缓慢的,所以,在一个短的时间范围内,语音信号的频谱 特征和某些物理特征参数都可以近似地看作是不变的。 因此,人们常常用“短时分析 来形容对语音信号的处理。即将语音分成一 段一段来分析,其中每一段称为“一帧 。一般而言语音信号在1 0 , - , 3 0 m s 之内保持 相对的平稳,因此帧长也在这个范围内取值,一般取2 0 m s 。前后两帧的交叠部分 称为帧移,帧移和帧长的比值一般取0 , 1 2 1 2 0 。 设原始的语音序列为4 - ) ,将其分帧等效于乘以幅度为l 的移动窗m 一臃) , 对语音信号的各短段进行处理,实际上就是对各短段进行某种变换。将该变换用 符号t 【】表示,它可以是线性的或者非线性的,可以是时不变的或者时变的,所有 各段经处理后便可以得到时间序列q : q = r 鼬一肌) 】 ( 2 一l o ) 当然当移动窗的幅度不是l 而是按一定的函数取值时,每帧语音都受到一定程 度的加权,同时也可以达到削弱每个语音帧两端的语音信号的效果。进行加窗处 理时最常用的三种窗函数是矩形窗、汉明窗( h a m m i n g ) 和汉宁窗( h a n n i n g ) ,其函数 表达式如下式所示: 矩形窗: 以) = 亿巍虬 ( 2 - 1 1 ) 汉明窗: 以) :舻以4 6 c o s b 州旺明巍虬 ( 2 1 2 ) 汉宁窗: m ) :舻一啦觚舡。朔巍虬 ( 2 - 1 3 ) 选择窗函数时,一般不但要考虑到窗函数的形状,还要考虑它的长度,即上式 中的l 。窗函数越宽,对信号的平滑作用就越明显,相反,窗函数过窄,则对信号 几乎没有任何的平滑作用。 本文所提到的三种窗函数中,矩形窗主瓣较窄,具有较高的频率分辨率,但其 具有较高的旁瓣,因而使基音的相邻谐波之间的相互干扰比较严重;汉宁窗的主 瓣较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论