




已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)基于sapi+51的智能语音控制系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着人们生活水平以及世界科技水平的不断提高,家用电器这种昔日的奢侈品已经成为现在的普及性消费品,进入了千千万万老百姓的家庭。传统的家电控制,都是人通过对控制板上的按键或开关进行操作,现有的智能家居系统,也只着重于控制台的整合方面,但是“按键开关”的机器界面却依然功能单一,不仅使用起来非常不便,而且也与“人性化”的设计初衷相去甚远。随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。语言,是人类最重要、最有效、最常用、最方便的信息交流手段,为了使人对机器的控制以及机器对人的反馈更为友善,语言理所当然的应该成为人机交流的重要媒介,而语音识别技术的出现和发展,使得这一切成为可能,必将对人类的生活方式产生深远的影响。基于上述构思,本文围绕智能语音控制展开论述,结合了语音识别技术、网络通信技术和嵌入式控制技术等当前比较热门的几项技术,在此基础上提出了一种可行的、普适的智能语音控制系统的设计思路及系统模型,提供了一种实现简便、通用性强、成本低廉的智能家电控制解决方案。在系统设计的过程中,本文引入了“模块化”这一设计思路:将系统按功能进行模块划分,各模块之间相互独立,同一模块的不同实现提供完全一致的接口。通过这样的设计,使得该系统能够适应更一般的应用场合。本文从智能家电控制领域的应用着手,同时将此解决方案推广应用到工业控制、办公自动化、车辆控制等广泛的领域。为了证实该系统设计的可行性,本文还介绍了一套能够独立正常运行的实验系统的设计过程,并对该实验系统的运行情况进行了测试,取得了令人满意的效果。最后,本文通过对人类自然语言的概念和特点的介绍,分析了机器对自然语言理解的特点和方法,提出了通过建立语言模型的方式协助机器理解自然语言的方案,并用实验系统对该方案的可行性进行厂验证。本文提出的智能语音控制系统解决方案,具有易实现、适用广及价格低等优势,必将带来较高的经济效益和社会效益。关键词:语音识别技术s a p i5 1网络通信技术嵌入式技术自然语言i ia b s t r a c ta sp e o p l e sl i v i n gc o n d i t i o n sb e c o m eb e t t e ra n dt h em o d e mt e c h n o l o g yi sa d v a n d n g ,h o m ee l e c t r o n i ca p p l i a n c e s0 m a ) ,w h i c hw e r ec v e rl u x u r i e s ,a r ep o p u l a re v e ni no r d i n a r yf a m i l i e sn o w a d a y s t r a d i t i o n a lh e ac o n t r o li sm o s t l yt h r o u g ho p e r a t i o no fb u t t o n so rs w i t c h e so nt h ec o n t r o lp a n e l s 。e x i s t i n gi n t e l l i g e n th o u s es y s t e m sf o c u s e do nt h ec o m b i n a t i o no fc o n s o l e so n l y , b u tt h eu s e ri n t e r f a c ei ss t i l li nt h e“b u t t o na n ds w i t c h ”s t y l e ,w h a ti n c o n v e n i e n c e st h eu s e r s ,a n di sj u s ta b o u to p p o s i l et ot h ed e s i g n i n gp u r p o s eo f “e a s y - g o i n g ”w i t ht h ed e v e l o p m e n to fm o d e ms c i e n c ea n dc o m p u t e rt e c h n o l o g y , p e o p l en e e dam o r ec o n v e n i e n ta n dm o r ec o m f o r t a b l ew a yt oc o m m u n i c a t ew i t hm a c h i n e s s p e e c hi st h em o s ti m p o r t a n t ,m o s te f f e c t i v ea n dm o s tc o n v e n i e n tc o m m u n i c a t i o nm e a n si ne v e r y d a yu s e i no r d e rt oc o n v e n i e n c et h ec o n t r o lt o w a r d sm a c h i n e sa n dt h e i rf e e d b a c k , s p e e c hs h o u l db et h ep r e f e r r e dm e d i u mo fc o m m u n i c a t i o nb e t w e e nt h eh u m a nb e i n g sa n dt h em a c h i n e s t h ea p p e a r a n c ea n dd e v e l o p m e n to fs p e e c hr e c o g n i t i o nt e c h n o l o g ym a d ea l lt h e s ec o u l db er e a l i z e d ,a n dm u s th a v eaf a r - r e a c h i n ge f f e c to np e o p l e sl i f es t y l e b a s e do na b o v ei d e a ,t h i sa r t i c l ed i s c u s s e ss o m er e l a t i v ep r o b l e m so fi n t e l l i g e n ts p e e c hc o n t r 0 1 b yc o m b i n i n gs o m eh o tt e c h n o l o g i e sl i k es p e e c hr e c o g n i t i o n ,n e t w o r k c o m m u n i c a t i o na n de m b e d d e ds y s t e m ,t h ea r t i c l eb r i n g so u tt h ed e s i g na n dm o d e lo faf e a s i b l ea n dg e n e r a lu t i l i t yi n t e l l i g e n ts p e e c hc o n t r o ls y s t e m ,p r o v i d i n gas o l u t i o no fi n t e l l i g e n th e ac o n t r o lw h i c hc o u l db ee a s i l yr e a l i z e d ,w i d e l yu s e da n dp r o d u c e da ta ne a s yr a t e i nt h ep r o c e s so fs y s t e md e s i g n i n g ,t h ea r t i c l ei m p o r t e dt h ec o n c e p to fm o d u l a r i z a t i o n ,w h i c hp r e d i c a t e sd i v i d i n gt h es y s t e mi n t om o d u l e sb yd i f f e r e n tf u n c t i o n s ,d i f f e r e n tm o d u l e sa r ei r r e l a t i v e ,a n dd i f f e r e n ti l lr e a l i z a t i o n so ft h es a m em o d u l ep r o v i d ei d e n t i c a li n t e r f a c e s n es y s t e mf i t si nal a r g e rr a n g eo fs i t u a t i o n st h r o u g ht h i sk i n do fd e s i g n 1 1 l ea r t i c l es p r e a dt h ea p p l i c a t i o n so ft h es y s t e mf r o mi n t e l l i g e n th e ac o n t r o lt oaw i d e rf i e l d ,l i k ei n d u s t r i a lc o n t r o l ,o f f i c ea u t o m a t i o n ,v e h i c l e sc o n t r o la n ds o o n 1 1 l ea r t i c l ei n t r o d u c e daw e l l - w o r k e ds a m p l es y s t e mt ot e s t i f yt i l ef e a s i b i l i t yo ft h ed e s i g n 1 n h es a m p l es y s t e mi se x a m i n e d a n dt h er e s u l t sa r es a t i s f y i n g i nt h ee n d ,t h ea r t i c l ep r e s e n t st h ec o n c e p ta n dc h a r a c t e r i s t i co fh u m a nb e i n g sn a t u r el a n g u a g e ,a n a l y s e st h ec h a r a c t e r i s t i ca n dm e a s u r e st oc o m p r e h e n dt h en a t u r el a n g u a g eb ym a c h i n e s b a s e do nt h ea n a l y s i s ,t h ea r t i c l eo f f e r sas c e n a r i ot h a te s t a b l i s h i n gl a n g u a g em o d e l st oh e l pm a c h i n e su n d e r s t a n dt h en a t u r el a n g u a g e n es a m p l es y s t e mv a l i d a t e dt h ef e a s i b i l i t yo ft h es c e n a r i o n es o l u t i o no fi n t e l l i g e n ts p e e c hc o n t r o ls y s t e mi n v e n t e di nt h i sa r t i c l eh a sm a n ya d v a n t a g e sl i k ef a c i l e ,m u l t i p u r p o s ea n di n e x p e n s i v e t h u s ,t h i st e c h n o l o g ym u s tl e a dt oe x c e l l e n te c o n o m i ca n ds o c i a lb e n e f i t s k e y w o r d s :s p e e c hr e c o g n i t i o nt e c h n o l o g ys a p i5 1n e t w o r k & c o m m u n i c a t i o nt e c h n o l o g ye m b e d d e ds y s t e mt e c h n o l o g yn a t u r el a n g u a g ei v西南财经大学学位论文原创性及知识产权声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本学位论文引起的法律结果完全由本人承担。本学位论文成果归西南财经大学所有。特此声明学位论文作者签名:贾百2 0 0 7 年1 月1 5 日第一章绪论1 1 课题研究背景随着人们生活水平以及世晃科技水平的不断提高,家用电器这种昔日的奢侈品已经成为现在的普及性消费品,进入了千千万万老百姓的家庭。然而,家庭内日益增多的家用电器在减轻了人们家务负担以及丰富了人们娱乐生活的同时,也带来了家电操作烦琐以及难以科学管理等问题。事实上,这些问题早已引起了一些欧美发达国家的研究人员的注意。自上世纪的7 0 年代起,美国、英国、法国、日本等国家的科学家与工程师就开始研究如何用一种统一的标准将家电产品组成一个网络,使网络内部的各种家电能够在一个安全、高效以及稳定的环境下进行工作。智能家电网络这个概念就是从这时起诞生的。智能家电是指将计算机技术、数字化技术以及信息技术应用于传统家电而产生的新一代家用电器。由智能家电组成,具有与外部网络( 如局域网、互联网等) 相互通信能力的网络系统就是智能家电网络。智能家电网络可分为控制网和信息网【1 1 。传统的家电控制,无论采用有线或无线的控制方式,都必须有一个相应的控制板,人对控制板上的按键或开关进行操作,从而实现对家用电器的控制。随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而人的直观感觉可以给人最直接的印象,获取信息速度也最快。在所有人类固有的感觉( 视觉、听觉、嗅觉、味觉和触觉) 中,最重要、最精细的信息源只有图像和语言两种。而且,语言是人类最重要、最有效、最常用、最方便的信息交流手段,这就很容易让入想到能否用自然语言代替传统的人机交互方式如按钮、开关等。控制论创始人维纳在1 9 5 0 年就曾指出:“通常,我们把语言仅仅看作人与人之间的通信手段,但是,要使人向机器、机器向人以及机器向机器讲话,那也是完全办得到的。”1 2 】1 2 国内外研究现状“智能家电网络”是“智能家庭网络”的一部分,而“智能家庭网络”是安装在“智能家居”中的一种通讯平台。国际上对智能家庭网络的研究起源于2 0 世纪7 0 年代,主要集中在发达国家,如美国、日本及欧洲的德国、英国和法国等【3 j 。此后,已经有不少的智能家庭网络系统面世,但是由于没有解决各系统之间的相互兼容性问题,因此网络标准在全球尚未统一。目前有多种产品作为既成标准共存:在美国,x - i o 系统已于7 0 年代后期进入市场,8 0 年代后,又有l o n w o r k s系统、c e b u s ( c o n s u m e re l e c t r o n i cb u s ) 、s m a r th o u s e 系统相继出现;在欧洲有e h s ( e u r o p e a nh o m es y s t e m ) 系统和e i b ( e u r o p e a ni n s t a l l a t i o nb u s ) 系统;而在日本则有h b s ( h o m eb u ss y s t e m ) 系统f 4 j 。我国对智能家庭网络的研究还刚刚起步,目前主要集中在一些分散的智能家庭控制子系统的研究【5 】。智能家居的概念从2 0 0 0 年进入中国,经过6 年的研发和推广,我国在智能家居技术领域与欧美国家的差距并不大,估计仅滞后2 3 年【6 l 。国内的一些著名家电制造商,如海尔、t c l 、联想等已经开始了对智能家电的研究,并且成功开发出了不少“概念式”的产品。这些概念性产品,有的是直接利用国外已经开发出的智能家庭网络总线标准,有的则是直接把以太网模式应用于智能家电网络中。不管是以上哪种类型的产品,它们都有一些共同的缺点:不同品牌甚至同一品牌不同时期生产的产品之间兼容性差,不能实现即插即用( p l u g p l a y ) :产品价格高昂,一般家庭难以接受;自主知识产权含量低,使产品的成本难以降低【1 】。在语音控制方面,目前语音控制技术应用最广泛的就是在家电方面的应用。如日本s o n y 公司声控汽车音响,美国j v c 公司k d - l x 5 0型声控盒( 车用) ,美国i n v o c a 全方位声音遥控器,意大利d e l o n g h i微波炉等都能用语音指令去执行各种操作。日本松下电器公司于2 0 0 1年1 2 月开始上市配备具有语音识别功能的3 6 英寸电视机,该产品中配各了麦克风遥控器,可用语言指令输入指令。语音控制技术不仅应用于家电控制,在通讯、娱乐、自动控制等方面都有着越来越广泛的应用【2 】。如智能玩具机器狗,日本的机器狗“爱宝”和英国的机器狗“威克”,都是基于语音控制的电子宠物,但造价不菲1 7 。i t 技术逐渐渗入人们的日常工作和生活,已经极大改变了人们的工作和生活条件,。并且还将在2 1 世纪得到更广泛的应用。尽管现阶段还存在着很多阻碍智能家电行业发展的因素,但智能家电和智能家电网络必将随着人民生活水平的不断提高和技术的发展而进入千家万户,将毫无争议地成为家电行业新的盈利支柱点,具有非常广阔的市场发展前景。1 3 课题研究意义和目的自第一次工业革命以来,机器的出现给人类的生活带来了很大的变化,它们的存在为人们带来了更为方便、舒适和高效的生活环境。为了使人对机器的控制以及机器对人的反馈更为友善,作为人们最直接、方便、自然的信息交流手段之一的语言理所当然的应该成为人机交流的重要媒介。相信经过研究者的不断努力,语音识别技术将对人类的生活方式产生深远的影响【2 】。近年来,随着社会和科学技术的发展,各种家用电器的功能越来越丰富,为人们提供的服务越来越多,人们对家用电器的依赖性也越来越强。快节奏的现代生活,铺天盖地的传媒广告将促进人们对功能更完善、款式更新颖的家电产品的追捧。每当一项新技术应用于某一种家电产品,必定引发一次对新产品购买的热潮并同时加速旧产品的淘汰。可以预见,科技含量的高低,将是决定家电产品能否在市场立足的关键因素之一,以往那种劳动密集型的家电企业生产模式在新时代里必将被知识密集型的新企业生产模式取代。智能家电虽然拥有非常光明的前景,但是现阶段却受制于生产成本过高、市场需求小。标准不统一等问题,发展速度缓慢。因此,要使智能家电产品能够真正进入普通家庭,在老百姓中得到普及以发挥其应有的作用,必须走一条循序渐进的道路:要从价格合理的产品做起,慢慢培养起一定的市场守间,最终实现理想中智能家电的发展目标【7 】o本课题的研究工作致力于提供一种实现简便、通用性强、成本低廉的智能家电控制解决方案,并选用语音指令作为人机交流的媒介。将此方案推广应用到工业控制、办公自动化、车辆控制等广泛的领域,必能获得较高的经济效益和社会效益。1 14 本课题主要工作和创新点1 4 1 本课题的主要工作本课题的目标为设计一款基于s a p i5 1 的智能语音控制系统,并制作出一件样品。为此设计目标所作的主要研究工作包括:( 1 ) 语音识别技术的综合研究,回顾语音识别技术的发展,分析语音识别技术的特点,指出了语音识别技术的应用广泛性。( 2 ) 语音识别模块s a p i5 1 的应用研究,分析s a p i5 1 语音识别模块的技术特点,掌握了使用s a p i5 1 开发语音应用程序的方法和步骤。( 3 ) a t 8 9 s 5 1 单片机和r s 2 3 2 接口标准的应用研究,实现了p c 机与单片机之间的串行通信。( 4 ) 网络传输协议的研究,对现有网络传输协议( 主要是握手协议) 的研究,制定并实现了新的网络传输协议,用于保障控制台与被控制端之间安全交互数据。( 5 ) 人类自然语言“关键字模糊查询”的分析研究,通过提取自然语言中的关键字,实现了控制指令的模糊查询。1 4 2 本课题的创新点在前人研究的基础上,本课题对以下几方面内容进行了原创性的设计:( 1 ) 提出了_ 种可行的、普适的智能语音控制系统的设计思路及系统模型。( 2 ) + 制定了新的网络传输协议,并定义了系统各个模块间的接口规范,使得该系统能够适应更一般的应用场合。( 3 ) 制作了一套能够独立萨常运行的实验系统,证实了该系统设计的可行性,同时也为该系统的开发和推广奠定了基础。1 5 本文篇章结构设计为了简明扼要地阐明本课题研究的主要内容,本文共分如下八童:第一章为绪论,介绍了本文研究的背景、研究现状和意义,概述了本文的主要工作和创新点。第二章简要介绍了语音识别技术的概念和常用方法。第三章阐述了智能语音控制系统的系统模型和模块划分,描述了设计样品实验系统的软硬件环境。第四章介绍了样品制作过程中语音识别模块的具体实现。,第五章介绍了样品制作过程中数据传输模块的具体实现。第六章介绍了样品制作过程中智能控制模块的具体实现。第七章简要介绍了自然语言的概念和自然语言理解技术,介绍了自然语言识别实验的具体实现。第八章统计了样品的实验结果,对本文的工作进行了总结并提出了今后研究工作开展的方向。第二章语音识别技术简介2 1语音识别技术的概念与分类语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。人类进入信息时代以后,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语音信息,这对于促进社会的发展具有十分重要的意义【2 】。语音识别技术是机器通过识别和理解把语音信号转换为相应的文本文件或命令的技术。语音识别技术是人机接口的一项重要内容,也是语音信号处理中非常重要的应用技术。语音识别技术的目的是应用信号处理及语言处理等技术让机器“听懂”人类的语言,这也是机器智能化的一个重要方面【7 l 。语音识别技术根据不同的需求可分为狭义的语音识别( s p e e c hr e c o g n i t i o n ) 和说话人识别( s p e a k e rr e c o g n i t i o n ) 。前者不区分不同说话人的发音差异( 如发声频率、说话习惯、口音等) ,而试图识别不同字或词的发音差异,从而实现从语音到文字的转换;后者试图提取不同说话人的语音特征,从而根据语音辨识说话人,因此后者又被称为基于语音的身份识别技术【8 】。在没有特别说明的情况下,本文中的“语音识别”是指前者,即从语音到文字的转换技术。作为专门的研究领域,语音识别技术又是一门交叉学科,它与数字信号处理、计算机科学、模式识别、语音学、生理学、心理学等诸多学科紧密相连,还涉及到通信和电子系统、信号和信息系统等具体应用领域,它的发展与计算机科学的发展相同步。语音识别技术的研究从产生到现在已经经历了将近五十年,识别的技术路线和系统分类多种多样。一般来说,语音识别技术按不同的角度有以下几种分类方法:。( 1 ) 从说话人的角度来看,可以分为特定人( s p e a k e rd e p e n d e n t )的语音识别和非特定人( s p e a k e ri n d e p e n d e n t ) 的语音识别:( 2 ) 从发音的连续程度来看,可以分为孤立字识别( i s o l a t ew o r dr e c o g n i t i o n ) 、连续字识别( c o n n e c t e dw o r dr e c o g n i t i o n ) 和连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ) ;( 3 ) 从识别词汇表的大小来看,可以分为小词汇( s m a l lv o c a b u l a r y ) 、中词汇( m i d d l ev o c a b u l a r y ) 大词汇( h r g ev o c a b u l a r y )的识别。当然,语音识别技术还可以根据技术的其他特点进行分类1 9 i 。2 2 语音识别技术的发展历程语音识别技术的研究工作大约开始于2 0 世纪的5 0 年代,这一时期主要探索和研究声学和语音学的基本概念和原理。1 9 5 2 年,贝尔实验室的d a v i s ,b i d d u l p h ,b a l a s h e k 开发了一个针对特定人的离散数字识别系统_ a r d r y 系统,该系统主要依赖于测量数字元音区域的共振波谱。6 0 年代,出现了语音识别技术方面的几种思想,这一时期的重要成果是提出了线性预测分析技术( l p :l i n e a rp r e d i c t i o n ) 和动态规划( d p :d y n a m i cp r o g r a m m i n g ) ,前者较好地解决了语音信号产生模型的问题,后者则有效地解决了不等长语音信号的匹配问题,对语音识别技术的发展产生了深远影响。7 0 年代,伴随自然语言理解的研究以及微电子技术的发展,语音识别技术领域取得了突破性成果。在理论上,线性预测分析技术得到进一步应用,动态时间弯折( d t w :d y n a m i ct i m ew a r p i n g ) 基本成熟,特别是提出了矢量量化( v q :v e c t o rq u a n t i z a t i o n ) 和隐马尔可夫模型( h m m :h i d d e nm a r k o vm o d e l ) 理论;在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识别系统。8 0 年代,语音识别技术研究进一步走向深入,其显著特征是h m m 模型和人工神经元网络( a n n :a r t i f i c i a ln e u r a ln e t w o r k s ) 在语音识别中的成功应用。语音识别算法从模式匹配技术转向基于统计模型技术。具有里程碑意义的事件是1 9 8 8 年美国卡耐基梅隆大学( c m u ) 基于v q h m m 开发的9 9 7 词非特定人连续语音识别系统s p h i n x 。9 0 年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。许多发达国家,如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、m i c r o s o f t 等著名公司都看好语音识别技术的应用前景,为语音识别系统的实用化投以巨资,语音识别技术实用化进程大大加速。i b m 公司率先推出的v i a v o i c e 标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。在嵌入式应用中,出现了可以语音拨号的手机、可与人对话的智能玩具;在商业服务中,出现了以语音识别、语音合成为核心技术的呼叫中心、语音门户网站等等。这时期的标志性成果是美国国防部的高级研究规划局( 删) 的d a r p a 计划下的i v c s r 系统,识别词汇量达到了6 万。2 1 世纪初期的研究成果主要集中于实现机器( 计算机) 的同声传译系统以及多环境背景下的英语语音识别技术。我国在语音识别技术研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学、东北大学、北京理工大学、上海交大、华中科技大学等科研机构和高校都在从事语音识别技术领域的研究和开发。国家8 6 3 计划智能计算机主题专家组为语音识别技术的研究专门立项,在汉语语音识别、汉语语音数据库建立、汉语语音学、听觉模型等基础研究方面取得了长足进展。目前,我国语音识别技术的研究已经进入到大词汇量、非特定人、连续语音识别的高级阶段,中国汉语语音识别产品进入市场时代为期不远【1 0 】。2 3 语音识别技术的基本原理语音识别技术本质上属于模式识别的范畴。根据模式识别的原理,将未知语音的模式与已知语音的参考模式逐一进行比较和分析,最佳匹配的参考模式被选择作为识别的结果。不同的语音识别系统,虽然实现的具体细节有所不同,但所采用的基本技术类似,一个典型的语音识别系统的原理框图如图2 1 所示。一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,首先都需要对输入的原始语音信号进行预处理,并进行特征提取。图2 1 语音识别系统南原理框图【1 0 l( 1 ) 预处理:包括预加重、反混叠滤波、模数转换、自动增益控制等处理过程,用以过滤掉其中不重要的信息如背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧以及实现语音信号的数字化等。( 2 ) 特征提取:对经过预处理的语音信号,要对其进行特征参数分析,该过程就是计算语音的声学参数,以便提取出能够反映语音信号本质的关键特征参数,形成特征矢量序列,从而降低维数以便于后续处理。反映短时谱包络的特征参数是语音识别中采用的主要特征参数,其中常用的有以下三种:线性预测系数( l p c ) :线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,因此以时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到l p c 系数。对l p c 的计算方法有自相关法( d u r b i n 法) 、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。与l p c 这种预测参数模型类似的声学特征还有线谱对l s p 、反射系数等。倒谱系数( c e p ) :利用同态处理方法,对语音信号求离散傅立叶变换d f r 后取对数,再求反变换i d f t 就可得到倒谱系数。实验表明,使用倒谱可以提高特征参数的稳定性。考虑到直接求倒谱的运算量太大,一般使用l p c 倒谱( l p c c e p ) 代替它。在获得滤波器的线性预测系数后,l p c c e p 可以用一个递推公式计算而得出。m c l 倒谱系数( m f c c ) :不同于l p c 等通过对人的发声机理的研究而得到的声学特征,m f c c 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一个令人的主观感觉发生突变的带宽边界:当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。m e l 刻度是对这一临界带宽的度量方法之一。m f c c 的计算首先用f f t 将时域信号转化成频域信号,之后对其对数能量谱用依照m e l 刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换d c t ,取前n 个系数。m f c c 最符合人耳的听觉特性,特别是在有噪声和频谱失真的情况下,能以更准确的特征来描述语音模型,提高识别精度l l 。( 3 ) 模型训练及模式匹配:在模型训练阶段,用户输入若干次训练语音,系统经过预处理和特征提取后得到特征矢量序列,然后通过特征建立训练语音的参考模式库,或者对已在模式库中的参考模式作适当修改。在模式匹配阶段,对输入语音的特征矢量序列与参考模式库进行相似性度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。语音识别所应用的模型训练及模式匹配技术主要有动态时间规整技术( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( a n n ) 。d t w 应用动态规划的方法解决了对语音信号特征参数序列进行比较时时长不等的问题,在孤立词、中小词汇量识别系统中有良好性能,系统开销小,识别速度快。h m m 是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变而来的。a n n是受动物神经系统的启发,利用大量简单单元互联而构成复杂系统,以便解决一些复杂模式识别与行为控制问题。( 4 ) 判决:语音识别的最后一步,也是系统识别效果的最终表现。对属于由输入语音信号计算而得到的钡4 度,根据若干准则及专家知识,判决选出中间候选结果中最好的结果,由识别系统输出。显然,最佳匹配结果的获得与特征的选择、参考模式的好坏、模式是否准确等都有直接的天系,这也是目前语音识别技术研究的一个难点。2 4 语音识别技术的应用与意义语音识别技术的任务是研究如果利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语义( 即语言含义) 。其学科基础及实际应用如图2 2 所示:图2 2 语音识别技术的学科基础及实际应用田语音识别技术具有广阔的应用前景。语音是人们最为熟悉也最为简单的一种交流方式,是人们询问问题、交换观点、分享经验、建立关系的最主要方式,人类通过语音来传递大量的信息。语音识别技术跨接在以语音为核心的人际网络和以数据为核心的机器网络之间,麦克风和电话成为了机器网络的信息终端,人们可以用自然语言交互的方式来访问机器网络。它使人们可以自由地以对话的d i a l o g 方式与机器和远程语音服务器交谈,以语音的方式命令机器为自己服务。语音具有其无与伦比的独特优势,而且语音比键盘和阅读更具有亲切感。当然,文字和图像依然很重要,将来会出现“多模式”的设备,既可以以文字和图像的方式,也可以以语音的方式进行操作,甚至可以混合图像和语音信息。而这正是语音识别技术带来的美好前景。2 5 本章小结本章介绍了语音识别技术的概念、分类及发展历程,分析了语音识别技术的实现原理,并在此基础上阐述了语音识别技术在现实生活中各个领域的广泛应用。第三章智能语音控制系统模型介绍3 1智能语音控制系统的硬件结构为了使我们的智能语音控制系统更具普适性,能够适应不同环境和场合的需求,我们对系统进行模块化的划分,各模块之间相互独立,同一模块的不同实现提供完全一致的接口。因此,如同“搭积木”一般,可将各模块方便拼接,构成一个完整可用的系统。系统的硬件结构框图如图3 1 所示。系统硬件结构主要由五个部分组成:语音输入模块、语音识别模块、数据传输模块、智能控制模块以及连接各模块的接口电路。语语智音一目块输“识一揍数据传输模块蓄入别_ 一n模。模块块图3 1 系统硬件结构框图3 1 。1 语音输入模块语音输入模块用于侦听用户语音信号输入,当检测到有语音信号输入时,将通知语音识别模块,并提交该语音信号以供系统识别。语音输入模块通常包括一个麦克风,同时也可对模块进行一些外围扩充,以提供一些有益的附加功能。( 1 ) 麦克风:麦克风按照电信号产生的原理,一般可分为动圈式麦克风和驻极体( 或电容式) 麦克风。麦克风的作用是以人声通过空气使震膜震动,通过切割磁力线( 动圈式) 或改变电容值( 电容式) ,产生随声音变化的电流,从而将声信号转变为电信号。( 2 ) 电话和移动电话:电话的出现已经有1 2 0 多年的历史,拥有成熟的技术及完善的电话网络。将电话和移动电话作为语音输入模块,引入智能语音控制系统,将非常有利于系统的远程控制。但电话网络的主要缺点是数据传输能力有限,信道质量较差,这些都阻碍了电话和移动电话成为系统的主要输入手段。( 3 ) w e b 语音应用:利用i n t e m e t 将系统与外部网络互连,是真正意义上的联网,由于充分利用了p c 的资源,所以具有强大的传输能力和应用功能。应用语音识别技术可以轻松建立丰富、廉价和高效的w e b 语音应用;同时,语音应用系统很容易发布,不再需要建立一个指定的专用语音服务器,可以放在i n t e m e t 上的任意一个地方,用户通过i n t e m e t ,可以像浏览网页一样方便地进行远程控制。从未来的发展来看,i n t e r a c t 也是电器组网远程控制的总趋势。3 1 ,2 语音识别模块语音识别模块是该智能语音控制系统的核心。针对不同的应用目的和平台,语音识别有多种实现途径。如用于语音玩具的只能识别较少数量孤立单词的简易专用语音识别芯片;面向嵌入式系统或设备,对系统资源要求不高的基于d s p 或其他m c u 的语音识别模块;支持多服务器和分布式语音识别的解决方案;基于p c 环境的语音识别系统等。( 1 ) 基于p c 环境的语音识别模块基于p c 环境的语音识别模块其优点在于功能强大、性能优异,现在比较成熟的有m i c r o s o f ts p e e c hs d k 、m mv i a v o i c es d k ,以及中科院自动化所推出的p a t t e ka s r p 2 0s d k 等,这些产品都具有许多共同特点,如识别率高,对环境噪声和口音的适应能力强;具有非特定人语音识别功能,适合不同性别和口音的普通话;接口丰富,便于二次开发,可有效缩短开发周期;抗干扰能力强;词表替换方便,且不需要重新采集语音数据训练模型等【1 2 】。基于p c 环境的语音识别模块识别率高,但不可移动,故它主要适用于对识别要求高而对移动性要求低的环境,如楼宇管理、工厂自动化控制等。( 2 ) 基于嵌入式环境的语音识别模块市面上现有的用于嵌入式环境的语音识别产品很多,如s e n s o r yi n c 的r s c 系列芯片。应用于消费类电子产品上的交互式语音集成芯片( r s c 1 0 0 1 6 4 t 、r s c 3 0 0 3 6 4 、r s c 4 x 以及r s c 6 x 等) 是一种高性能、低成本的8 位m c u 。所有这类芯片内部集成有a d c 、d a c 、r o m ( 除r s c 1 0 0 3 0 0 ) 、r a m 和麦克风的预放大电路,并拥有多种强大的功能:与说话人无关有关的语音识别、说话人确认、语音和音乐合成、录音和回放、快速数字拨号 s e t n o t i f y w i n d o w m e s s a g e ( mh w n d ,w m _ s p e a k e v e n t , o , 0 ) ;i f ( f a i l e d ( h r ) ) r e t u f l lh r ;设定触发通知消息的引擎消息c x ) n s tu l o n g l o n gu l l i n t e r e s t = s p f e l s p e is t a r ti n p u t _ s t r e a m ) is p f e i ( s p e le n d _ i n p u ts t r e a m ) ;h r = m _ c p v o i c e 一 s e t i n t e r e s t ( u l l i n t e r e s t ,u l l i n t e r e s t ) ;i f ( f a i l e d ( h r ) ) r e t u r nh r ;r e t u r nh r ;)通过调用i n i t i a l i z e s p e a k 0 函数初始化耶隅引擎后,即可使用s p e a k o i 函数播放合成语音。( 2 ) 初始化m c s r 引擎初始化m c s r 引擎的算法流程如图4 2 所示:图4 2 初始化m c s r l 擎的算法流张下面是初始化m c s r 引擎的关键代码:h r e s u i jc s p e e c h p r o c :i n i t i a l i z e ( c o n s tc h a r x m l ) h r e s u i th r = so k ;g , j 建m c s r 引擎的实例h r = m c p r e c o g n i z e r c o c r e a t e l n s t a n c e ( c l s i d _ s p l n p r o c r e c o g n i z e r ) ;i f r f a i l e d ( h r ) ) r e t u mh r ;g , j 建识别上下文h r = m _ c p r e c o g n i z e r c r e a t e r e c o c o n t e x t ( & m _ c p r e c o c o n t e x t ) ;i f ( f a i l e d ( h r ) ) r e t u l nh r ;创建s r 通知消息h r = m _ c p r e c o c o n t e x t s e t n o t i f y r w i n d o w m e s s a g e ( m _ h w n d ,w m _ r e c o e v e nt ,0 ,o ) ;i f ( f a i l e d ( h r ) ) r e t u r nh r ;,设定触发通知消息的引擎消息c o n s tu l o n g l o n gu l l i n t e r e s t = s p f e i ( s p e lr e c o g n i t i o n ) s p f e i ( s p e i _r u 5 er e c o g n i t i o n ) ;h r = mc p r e c o c o n t e x t - s e t i n t e r e s t ( u l l i n t e r e s t ,u l l i n t e r e s 0 ;i f ( f a i l e d ( h r ) ) r e t u r nh r ;使用默认的音频输入设备h r = s p c r e a t e d e f a u l t o b j e c t f r o m c a t e g o r y i d ( s p c a t _ a u d i o i n ,& m _ c p a u d i o ) ;i f r r u l e d ( h r ) ) r e t u r nh i ;仓u 建音频输入源h r = r a _ c p r e c o g n i z e r - s e t l n p u t ( m _ c p a u d i o ,t r u e ) ;i f ( f a i l e d ( h r )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网应用体验评估方法探讨
- 商业地产发展规则
- 真丝面料穿着规程
- 2025至2030农村养老保险行业市场发展前景及发展趋势与投资机会报告
- 2025至2030全球及中国室内叉车轮胎行业市场占有率及投资前景评估规划报告
- 国际结算制度
- 2025至2030便携式微型计算机行业项目调研及市场前景预测评估报告
- 小区管理纠纷调解程序
- 云平台并行计算部署手册
- 工控编程系统维护指南
- 2025贵州毕节市赫章县招聘城市社区工作者8人考试参考题库及答案解析
- 机械设计创新项目毕业报告模板
- 2025年辅警面试考试试题库目(答案+解析)
- 23G409先张法预应力混凝土管桩
- 全国计算机等级考试(二级)考试题库附完整答案(典优)
- 临床护理实践指南全本
- 拆墙协议书范本
- 下肢深静脉血栓及肺栓塞
- 河南省地图含市县地图矢量分层地图行政区划市县概况ppt模板
- 绩效管理全套ppt课件(完整版)
- 核电站安全ppt
评论
0/150
提交评论