(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf_第1页
(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf_第2页
(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf_第3页
(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf_第4页
(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(机械设计及理论专业论文)轮椅机器人语音识别、控制技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

轮椅机器人语音识别、控制技术的研究中文摘要轮椅机器人语音识别、控制技术的研究中文摘要从机器人的发展和国内外对语音识别技术的研究现状来看:把语音识别技术与机器人控制技术相结合,正成为目前研究的热点。特别是福利机器人的人机交互问题的研究,不但具有较好的理论意义,而且有较大的实用价值。比如:残疾人可以用简单的口令来控制机器人轮椅的运动等。尽管国内外对语音识别技术进行了大量研究工作,取得了很多成果,但总的来说,目前,在语音识别系统的实际应用中仍存在以下几个主要问题:( 1 ) 端点检测:任何一句话的单词之间一般是没有停顿的,这给全单词模型匹配带来了困难。研究表明,即使在安静环境下,语音识别系统一半以上的识别错误来自端点检测器。,( 2 ) 语音信息的变化较大:语音模式不仅对不同的讲话者是不同的,而且对于同一个讲话者也是不同的。( 3 ) 语音的模糊性:说话者在讲话时,不同的词语可能听起来很相似,要识别它们还必须根据上下文的发音和其它有关的词法和句法规则。尤其对于汉语语音识别,由于汉语同音字多、词汇丰富,说话人在表达不同的词语时,听起来却十分相似,由此造成语音识别难的问题也比其它语言的同类问题要严重。本课题是苏州大学机电学院智能轮椅机器人研究项目的重要组成部分,本文的研究目标是轮椅机器人语音控制系统的实现以及非特定人汉语孤立词识别算法的性能优化探讨,针对以上问题,本文探讨了如下几种解决方法:( 1 ) 提出了一种新的“双门限分步端点检测算法”,实验证明具有较高的检测精度和较好的通用性。( 2 ) 在分析了当今语音识别领域的主流技术一一动态时间规整( d y n a m i ct i m ew r a p i n g ,简称d t w ) 技术的缺陷后做出相应改进,提出了“结合放宽端点的监督式d t w ”算法。( 3 ) 针对汉语语音识别中的模糊音问题,在模式识别部分引入分级识别技术。中文摘要轮椅机器人语音识别、控制技术的研究本文以苏州大学机电智能研究室a s r 研究版机器人为平台,设计了机器人音控系统主程序、主程序与语音识别模块的接口程序,并通过该接口程序段调用所开发的非特定人语音识别模块,最终实现了对智能轮椅机器人的汉语语音控制。本文采用m e l 频率倒谱系数( m f c c ) 及其一阶、二阶差分分量作为语音信号的特征矢量建立系统,在对语音识别的各个组成部分进行改进和优化后,确定了语音信号预处理、端点检测算法、特征矢量的提取算法、“结合放宽端点的监督式d t w ”算法和“b g w & c t c ”聚类算法。并在上述基础上进行模型的训练和识别。在实验过程中比较了传统d t w 算法和“结合放宽端点的监督式d t w 算法”;“m 跚,和“b g w & c t c ”聚类算法的性能。结果表明:在用多个人的语音样本对系统训练和识别的情况下,本机器人语音控制系统取得了较好的效果;并且在实时语音识别部分引入的分级识别技术,有助于提高系统的实时性和分辨模式细节的能力。本文所建立并实现的语音识别系统既可用于对福利机器人的语音控制,又为将来要开发的更复杂的基于多传感器与多信息融合的智能机器人及非特定人语音识别芯片的核心算法奠定了基础。关键词:语音控制机器人人机交互i i作者:金晶指导教师:郭旭红r e s e a r c ho ns p e e c hr e c o g n i t i o na n ds p e e c hc o m m a n ds y s t e mb a s e do nw h e e l c h a i rr o b o ta b s t r a c tc o n c l u d e df r o mt h ed e v e l o p m e n to fr o b o ta n ds p e e c hr e c o g n i t i o nt e c h n o l o g y , t h er e s e a r c hc o m b i n e ds p e e c hr e c o g n i t i o nt e c h n o l o g ya n dr o b o tt e c h n o l o g yh a sb e e nf o c u s i ti sh u m a nc o m p u t e ri n t e r a c t i o nw h i c hi su s e do nw e l f a r er o b o tt h a ti st h i sk i n dw e l l k n i tp r a c t i c a lr e s e a r c h i th a sn o to n l yt h e o r e t i cs i g n i f i c a n c eb u ta l s ob i g g i s hp r a c t i c a lv a l u e f o re x a m p l e ,h a n d i c a p p e dc a l lc o m m a n dw h e e l c h a i rb yh i sv o i c e a l t h o u g hm a n yr e s e a r c hw o r kh a v eb e e nd o n eo ns p e e c hr e c o g n i t i o na n dh a v em a d eal o to f p r o g r e s s g e n e r a l l y , i tr e m a i n ss o m ef o l l o w i n gd i f f i c u l t i e si np r a c t i c a la p p l i c a t i o n :( i ) e x t r e m ep o i n td e t e c t i n g :u s u a l l y , s p e e c hs a m p l e r sa r ec o n t i n u a n t ,t h e r en op a u s eb e t w e e nw o r d s i tm a k e sm o d e lm a t c h i n ga i r , c u l t e v e ni nq u i e tc i r c u m s t a n c e ,m o r et h a n5 0 e r r o r sm a yc a u s e db ye x t r e m ep o i n td e t e c t i n gm o d e l ( 2 ) c h a n g e a b i l i t yo fs p e e c h :f o rs a m ew o r d ,d i f f e r e n tp e o p l eh a v ed i f f e r e n tp r o n u n c i a t i o n e v e no n ep e o p l ew i l lp r o n o u n c ed i f f e r e o t l ya tt w ot i m e s ( 3 ) i l l e g i b i l i t yo fs p e e c h :s o m ed i f f e r e n tw o r d ss o u n ds i m i l a re s p e c i a l l yi nc h i n e s e t h i sk i n do fi l l e g i b i l i t yo fs p e e c hr e q u i r ed e t a i lr e s o l v i n gp o w e rd u r i n gr e a l t i m es p e e c hr e c o g n i z em o d u l e f o rt h e s ep r o b l e m s ,t h i sp a p e rd i s c u s sf o l l o w i n gr e s o l v e n t s :( 1 ) t h i sp a p e rb r i n g sf o r w a r dan e wp r o c e s se x t r e m ep o i n td e t e c t i n ga r i t h m e t i cb a s e do nt w ok i n d ss p e e c hc h a r a c t e r s i t sf e a s i b i l i t yh a sb e e np r o v e db ye x p e r i m e n t s ( 2 ) a n a l y z i n gm a i nl i m i t a t i o n so fd t w , t h i sp a p e rb r i n g sf o r w a r d ”d t ww i t hc o b o u n d a r ya n dk n o w nq u a n t i t y ”i tc a nm a k eu pt r a d i t i o n a ld t w ss h o r t c o m i n g s ( 3 ) f o rs e t t l i n gt h ep r o b l e mc a u s e db yi l l e g i b i l i t yo fs p e e c h ,t h i sp 印e rb r i n g sf o r w a r dh i e r a r c h i c a ld i s c r i m i n a n c ea r i t h m e t i cd u r i n gr e a l t i m es p e e c hr e c o g n i z em o d u l e i tf o c u s e sd e t a i l sd i f f e r e n c e sa n di m p r o v e st h es y s t e m sr e c o g n i t i o nv e r a c i t ya n dr e s p o n d ss p e e d ue x p e r i m e n t sb a s eo ns u z h o uu n i v e r s i t yi n t e l l i g e n tm e c h a n i s ml a b sa s rr o b o ts y s t e m s y s t e ms o f ti n c l u d es p e e c hc o m m a n dm a i np r o g r a m ,i n t e r f a c ep r o g r a ma n ds p e e c hr e c o g n i z em o d u l ep r o g r a m m a i np r o g r a mc a l ls p e e c hr e c o g n i z em o d u l eb yi n t e r f a c ep r o g r a m s p e e c hr e c o g n i z em o d u l ei m p r o v et h ee a c hp a r t so ft r a d i t i o n a ls p e e c hr e c o g n i t i o ns y s t e m ,s e l e c ta p p r o p r i a t es p e e c hs i g n a lp r e t r e a t m e n ta r i t h m e t i c ,e x t r e m ep o i n td e t e c t i n ga r i t h m e t i ca n dc h a r a c t e rp i c k i n ga r i t h m e t i c i tc h o o s e sm e l f r e q u e n c yc e p s t r u mc o e f f i c e n t ( m f c c ) a n di t sd i f f e r e n c eo ff i r s to r d e ra n dd i f f e r e n c eo fs e c o n do r d e ra ss p e e c h sc h a r a c t e r st h e ni tt r a i n sa n dr e c o g n i z e ss p e e c hs a m p l e r su s i n g ”d t ww i t hc o b o a n d a r ya n dk n o w nq u a n t i t y a n d “b o w & c t c ”a r i t h m e t i c f i n a l l ye x p e r i m e n t ss h o w , s y s t e mi sf e a s i b l ei fw eu s e de n o u g hs p e e c hs a m p l e r st ob u i l dt e m p l a t ed a t ab a s e s y s t e mu s eh i e r a r c h i c a ld i s c r i m i n a n c ea r i t h m e t i cd u r i n gr e a l t i m es p e e c hr e c o g n i z em o d u l e nh e l p st oi m p r o v et h es y s t e m sv e r a c i t ya n dr e s p o n d ss p e e d t h i sp a p e r sa i mi st or e a l i z eaw h e e lc h a i rr o b o t ss p e e c hc o m m a n ds y s t e ma n do p t i m i z es p e e c hr e c o g n i t i o na r i t h m e t i co fi s o l a t e dw o r da n dn o n - s p e c i a lp e o p l e t h et e c h n i q u ed i s c u s s e di nt h i sp a p e rc a nb eu s e dn o to n l yi nw e l f a r er o b o tb u ta l s oi nm o r ec o m p l e xr o b o tb a s e d0 1 1m u l t i - s e n s o r sa n dm u l t i - i n p u ti n f o r m a t i o n i tl a y sf o u n d a t i o no fk e ya r i t h m e t i co f n o n - s p e c i a ip e o p l es p e e c hr e c o g n i t i o nc h i p k e yw o r d s :s p e e c hc o m m a n dw e l f a r er o b o th u m a nc o m p u t e ri n t e r a c t i o ni vw r i t t e nb yj i n j i n gs u p e r v i s e db yg u o x u h o n g苏州大学学位论文独创性声明及使用授权的声明学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名:生翌鱼e 1 期:垒! ! :至! 堕学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名导师签名虚渤日期:“、f 剪静日期:雄轮椅机器人语音识别、控制技术的研究第一章序苦笛一音席言一一1 1 课题来源目前,智能机器人己经成为机器人研究的热点,而民用福利机器人又是智能机器人的一个重要研究领域。据美国服务机器人联合会统计,美国大约有3 0 0 万残疾人,全世界5 0 亿人口中,每7 0 - 8 0 人就有1 人残疾。而中国残联的统计数据表明:全国约有各类残疾人总数5 1 6 4 万,占调查总人数的4 9 0 。目前,有限的医护人力资源根本不可能满足残疾人全日制护理的需要。而另一方面,残疾人也有凭自己的力量独立生活的要求。因此,用于帮助残疾人的福利机器人市场潜力巨大。美国、德国、瑞士、西班牙均投入较大经费用于此项研究。要使福利机器人真正走入人们生活的方方面面,满足人们日益增长的需求,就离不开高性能的语音识别系统。因为福利机器人面对的是家庭和服务业,其最佳工作方式是机器人按照人们最熟悉的、最常用的语音命令去完成指定的工作,并可进一步与人进行语言交流。因此,研究机器人的语音识别,开发实用的机器人语音识别、控制系统,对于福利机器人的普及与应用意义重大。有鉴于此,本论文试图从机器人语音识别、语音控制技术的研究入手,实现对轮椅机器人的汉语语音控制。1 2 语音控制机器人的发展和国内外的研究现状在智能机器人领域内,机器人视觉得到了广泛而深入的研究,成为智能机器人研究中最活跃的分支。比如日本s e c o m 公司开发的保证残疾者进食的就餐辅助机器人“m y s p o o n ( 我的勺子) ”;中国科学院自动化研究所最新研制的表情机器人“奄奄”和仿人型画像机器“贝奇”等,都综合运用了计算机视觉、人脸识别、高精度运动控制等尖端技术。相对说来,对机器人听觉的研究就略显不足,虽然也有一些人工智能产品可以与人进行短暂对话,比如爱尔兰媒体实验室制作的名为“人类”的新型机器人;以及上面提到的表情机器人“童童”等。但人机之间的信息交流大多还是通过键盘和显示器来实现的,语音这种人类最简单、最自然、最方便和最有效的信息交换方式,在机器人尤其是福利机器人上的应用还较少。显然结合机器人技术和语音识别技术,在机器人系统上增加语音接口,用语音代替键盘输入,并进行人机对话,不第一章序言轮椅机器人语音识别、控制技术的研究仅是机器人智能化的重要标志之一,而且对福利机器人具有很大的现实意义。语音控制机器人技术是语音识别技术在机器人控制领域的应用。因此,语音识别技术的研究与发展就决定了语音控制机器人技术的研究与发展。1 9 5 2 年,b e l l 实验室的d a v i d 等人成功研制了可识别十个英文数字的语音识别器a u d r y 系统,这是语音识别研究工作的真正开端。1 9 5 9 年,j w r o r g i e 和c d f o r g e采用数字计算机识别英文元音及孤立字,从此开始了计算机语音识别邮】。在6 0 年代,前苏联m a t i n 提出了语音结束点的端点检测,语音识别水平明显上升。v i n t s y u k 提出了动态编程,这一提法在以后的识别中不可或缺。7 0 年代,语音识别的大家i b m 公司和b e l l 实验室致力于不同的研究方向。j e l i n e k领导的i b m 的目的是设计一个语音打印机,能够将讲话者讲的内容转换成文字显示在屏幕和打印纸上;b e l l 实验室的研究方向是研制针对公众的语音电话服务,例如:语音拨号。8 0 年代统计方法的应用是识别算法的又一次飞跃,值得一提的是h i d d e nm a r k o vm o d e l ( h m m ) 。典型的做法是:以h m m 为统一框架,构筑识别系统模型。进入9 0 年代后,多媒体时代呼唤语音识别系统从实验室走向实用。许多著名的大公司如i b m 、苹果、a t t 和n t t 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在2 0 世纪9 0年代中后期实验室研究中得到不断的提高。目前具有代表性的语音识别方法主要有特征参数匹配法、隐马尔柯夫法和神经网络法【1 ”。特征参数匹配法是一种传统的模式识别方法,其要点是:在训练过程中从训练语句中提取出代表语音本质的特征参数( 模板参数) ;在识别过程中,从待识别语音信号中按同样的处理方法提取出语音参数。应用某种不变的测度( 如距离测度) ,寻求语音参数与模板参数之间的相似性,用似然函数进行判决。语音参数与模板参数的匹配是语音识别系统的核心,同一个音由不同的人发出或同一个人在不同时刻发出,不可能具有完全相同的时间长度,因此不能简单的把语音参数与模板参数匹配。日本学者板仓( h a k u r a ) 提出的动态规正技术( d y n a m i ct i m ew a r p i n g ,d t w ) ,采用一种最优化算法动态规整法,通过将待识别语音信号的轮椅机器人谮音识别、控制技术的研究第一章序言时间轴进行不均匀地扭曲和弯曲,使待测语音特征与模板特征对齐,并在两者之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失真,是成功解决模式匹配问题最早和最常用的方法。隐马尔柯夫模型( h m m ) 是一种参数表示的用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先贮存好的模式样本,且其识别过程中运用待识别语音序列与h m m 模型参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较为理想的语音识别模型。但它的训练过程比d t w 方法要复杂,需要较长的训练时间及识别时间,而且还需要较大的内存空间。神经网络( 砧q n ) 的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。目前用于语音识别研究的a n n 主要有:基于反向传播( b p ) 算法的多层感知机( m l p ) 神经网、基于k o h o r i c h 提出的仿生人类大脑皮层信息特征区形成的生理过程的特征映射( s 0 m ) 神经网络等,而具有良好的动态时变性能和结构的时延神经网络( t d n n ) 和良好的动态时间关联特性的循环神经网络( i 心附) 是研究热点。此外,为弥补单一技术的局限性,还有学者采用把几种方法组合起来的混合型模式识别法。国内外学者以这些方法为核心,做了大量的研究工作。姜天辰【7 】等对一般d t w 法作了改进,试图通过放宽端点限制得到更好的语音匹配;张焱、姜惠春【6 】等提出了隐马尔可夫模型和动态时间规正统一框架下广义模型,分析表明:广义模型更接近语音实际情况并具有很小的存储量;余小清等1 5 1 采用二阶差分耳蜗模型对语音信号进行特征参数提取,使用改进型d t w 算法识别,在小词汇量非特定人识别环境下获得了较高的识别率和较好的鲁棒性;杨华民等【4 】采用b p 神经网络完成了一个语音控制媒体播放系统。但总的来说,目前在语音识别、语音控制的应用研究中仍存在以下几个主要问题 8 , g j h :( 1 ) 语音信息的变化较大:语音模式不仅对不同的讲话者是不同的,而且对于同一个讲话者也是不同的。第一章序言轮椅机器人语音识别、控制技术的研究( 2 ) 端点检测:任何一句话的单词之间一般是没有停顿的,这给全单词模型匹配带来了困难。研究表明,即使在安静环境下,语音识别系统一半以上的识别错误来自端点监检器。而提高端点检测技术的关键在于寻找稳定的语音参数。( 3 ) 非特定入问题:非特定人语音识别是机器人走向实用化的一个重要方面,这也是目前语音识别的关键技术之一。就机器人的实际应用而言,某个机器人的使用用户范围是有限的,因此,在该范围内实现非特定人的语音识别成为目前研究实现的重点。( 4 ) 实时性:机器人的多数应用要求实时性。机器人在听懂语声后,还要执行、完成其他一系列动作,即机器人需要处理大量的数据,分配给听觉的时间是非常有限的,因而,提高实时性是机器人听觉的突出问题。( 5 ) 语音的模糊性:说话者在讲话时,不同的语词可能听起来很相似,要识别它们还必须根据上下文的发音和其它有关的词法和句法规则。尤其对于汉语语音识别,由于汉语同音字多、词汇丰富,说话人在表达不同的词语时,听起来却十分相似,由此造成语音识别难的问题也比其它语言的同类问题要严重。1 - 3 本文研究及重点及工作安排本课题通过对机器人技术和语音识别技术的学习,综合本研究对象的特点提出了一种新的应用于“小词汇量、孤立词、非特定人”场合的汉语语音识别方法。并把这种方法应用于轮椅机器人控制中,使轮椅机器人具有人机交互的功能,使用者可用简单的口令来控制轮椅机器人的运动。本文在结构上大致可分为3 个部分:轮椅机器人语音控制算法的理论基础( 第二章) ;轮椅机器人语音控制系统的设计( 第三章) ;实验测试及结果分析与总结( 第四章,第五章) 。由于能力和时间的限制,在本论文的研究中,不可能对智能轮椅的所有方面都有所涉及。本文主要的研究内容如下:( 1 ) 研究用于非特定人、小词汇量场合的语音识别方法及语音前端处理方法;( 2 ) 分析了动态时间规整( d t w ) 技术的四大缺陷并做出改进,提出一种“结合放宽端点的监督式d t w 算法”;4轮椅机器人语音识别、控制技术的研究第一章序言r 3 ) 探讨了目前常用的聚类方法m k m 法的潜在不合理性,以它的算法思想为基础,提出了一种新的b g w & c t c 模板训练方法。( 4 ) 针对汉语语音识别中的模糊音问题,在模式识别部分引入分级识别技术,提高系统分辨模式细节的能力,并有助于提高系统的实时识别能力。( 5 ) 完成智能轮椅机器人控制部分的软件程序编制;( 6 ) 完成智能轮椅机器人控制部分与语音识别部分接1 :3 程序设计;( 7 ) 完成智能轮椅机器人非特定人语音识别部分的算法设计及软件程序编制。1 4 本章小结本章简单介绍了语音识别、控制的发展状况、研究的难点、应用前景以及语音控制系统的特点,并提出了本课题的研究目标和下一步的工作任务。第二章轮椅机器人语音控制算法的理论基础轮椅机器人语音识别、控制技术的研究第二章轮椅机器人语音控制算法的理论基础2 1 语音信号的声学基础及产生模型在研究和分析各种语音识别和语音控制技术之前,必须了解有关语音信号的一些基本特性。为了在计算机上对语音信号进行数字处理,需要建立一个能精确描述语音产生过程和语音全部特征的数学模型,即根据语音产生的过程建立一个既实用又便于分析的语音信号模型,这是语音信号处理的基础。人的发音器官包括:肺、气管、喉( 包括声带) 、咽、鼻、口和唇。这些器官共同形成一条形状复杂的管道,其中喉的部分称为声门,从声门到嘴唇的呼气通道叫做声道。声道的形状主要由嘴唇、腭和舌头的位置来决定,由声道形状的不断变化,而发出不同的声音【。在发音过程中,肺部与相连的肌肉相当于声道系统的激励源。肺部收缩,压迫气流由气管冲击声门处的声带,当声带处于收紧状态时,流经气流使声带振动产生浊音,不伴随声带振动的音称为清音。当声带处于放松状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部位形成狭窄的收紧部位,当气流经过这个收紧点时会产生湍流,形成噪声型的声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音;另一种方式是声带处于松懈状态,利用舌头和关闭的声道,暂时阻止气流,当气流压力非常高时,突然放开舌和唇,气流被突然释放产生短暂的脉冲音。对应于声道闭紧点的不同位置和不同的声道形状,形成不同的爆破音。通过上面对发音器官和语音产生机理的分析,可以将语音生成系统分成三个部分:在声门( 声带) 以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道是声道,称为“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。激励模型、声道模型和辐射模型串联成完整的语音信号的数学模型。分别叙述如下:( 1 ) 激励模型研究证实:发不同的音时,激励的情况不同。这些不同大致可分为两大类:在发浊音时,气流通过绷紧的声带,对声带进行冲击而产生振动,使声门处形成准周期的脉冲串。声带的绷紧程度不同,振动的频率也不同,即基音频率不同。由于人的声带轮椅机器人语音识别、控制技术的研究第二章轮椅机器人语音控制算法的理论基础情况有所差异,因此具有不同的基音周期。应该注意的是,浊音不仅包括所有的元音,也包括一些浊辅音。这样,在发浊音时由声带的不断张开和关闭产生的脉冲波,类似于斜三角形的脉冲。此时的激励源就是一个以基音周期为周期的斜三角形的脉冲串。单个的斜三角形脉冲可以用式( 2 1 ) 表示为:g ( 胛) =牡。s ( ) c o s 卜oo nls 1 s 2( 2 - 1 )其他式中,1 为斜三角波上升部分的时间;2 为其下降部分的时间。如果将上述函数变换到频域,则可以看出,它相当于一个低通滤波器。因此通常将它表示成z 变换的全极点模型形式,见式( 2 2 ) :g ( z ) 2 瓦习矗荔2 。2 式中g 和g :都接近于1 。这样斜三角波可以看作是加权的单位脉冲经过上述的低通滤波器的输出。而单位脉冲可以表示为下面的z 变换形式,即e ( z ) 2 南( 2 - 3 )式中以是调节浊音的幅度或能量的参数。因此,整个浊音激励模型可表示为吣) - e g 2 南。商栖( 2 _ 。)在发清音时,声带处于松弛状态,不发生振动。气流通过声门直接进入声道,所有的清辅音都属于这种情况。无论是擦音还是塞音,声道都被阻碍形成湍流,所以激励信号相当于一个随机白噪声。实际上可以用均值为0 、均方差为1 ,并在时间或幅值上白色分布的序列来表示。( 2 ) 声道模型对于声道的数学模型目前最常见的有两种观点:一种是将声道看作是由多个不同截面积的声管串联而成的系统,称为“声管模型”。另一种是将声道视为一个谐振腔,第二章轮椅机器人语音控制算法的理论基础轮椅机器人语音识别、控制技术的研究共振峰就是这个腔体的谐振频率,从这个角度出发来描述声道的模型,即为“共振峰模型”。由于人耳听觉的柯蒂氏器官的毛细胞是按着频率感受来排列其位置的,所以共振峰模型很有效,经常被使用。实践表明:用前3 个共振峰来代表一个元音就足够了。对于较复杂的辅音或鼻音,大概要用5 个以上的共振峰才行。一般情况下,可以用一个如下式的全极点模型来刻画共振峰特性,即矿( z ) = 百二一( 2 - ! je a t z 一式中p 为全极点滤波器的阶数,一般在8 1 2 范围内取值。它的每一对极点对应一个共振峰。a ,为声道模型参数,它随声道的调音运动不断变化。由于声道的惯性使这些参数变化的速度受到限制。一般在l o m s 3 0 m s 的时间间隔内,认为这些声道参数保持不变,这也是语音信号短时分析的理论依据之一。对一些鼻音和摩擦音,声道传递函数中也包含一些零点。对于这种情况,可以在上式中引入若干个零点,但这时的模型将变得相对较复杂。这种情况也可以通过适当提高阶数,使得全极点模型可以更好地逼近具有零点的传递函数。( 3 ) 辐射模型声道的终端是口和唇。从声道输出的是速度波,而语音信号是声压波,两者的倒比称为辐射阻抗,可以用它来表示口唇的辐射效应,也包括头部的绕射效应等。从理论上推导这个阻抗是有困难的,但是如果认为口唇张开的面积远小于头部的表面积,则可以推导出如下辐射阻抗公式:z ( 砷= 而j e o l r ( 2 - 6 )式中r = 等,三= 参,这里的口是口唇张开的的开口半径,c 是声波的传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,研究表明,口唇端的辐射效应在高频段较为明显,而在低频段影响较小,因此可以用一个高通滤波器来表示辐射模型。如下所示:轮椅机器人语音识别、控制技术的研究第二章轮椅机器人语音控制算法的理论基础r ( z ) = 1 - r z “( 2 - 7 )其中系数,接近l 。在实际信号分析时,常采用这样的预加重技术。即在采样之后,插入一个一阶高通滤波器。在语音合成时再进行“去加重”处理,就可以恢复原来的语音。由上面所述,语音信号产生的完整模型可以用3 个子模型串联而成,其传递函数为:h ( z ) - - e ,( z ) y ( z ) x 盖( z )( 2 8 )这3 个模型分别与肺部的气流和声带共同作用形成的激励、声道的调音运动及嘴唇和鼻孔的辐射效应一一对应。它们之间的关系可以用图2 - i 表示。图2 - i 时间离散的语音信号生成模型号2 2 语音识别的基本原理和算法的选择2 2 1 语音识别的基本原理无论采用何种识别方案,孤立词语音识别系统都可以采用图2 - 2 所示的框图1 捌来表示,一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模块的功能。第二章轮椅机器人语音控制算法的理论基础轮椅机器人语音识别、控制技术的研究斟图2 - 2 语音识别系统的组成框图语音识别系统,除了包括核心的识别程序,还必须包括语音输入手段、参数分析、以及制作这些东西所需的工具。根据识别结果在实际环境下实现一定的应用,还必须考虑耐环境噪音技术,用户接口输入和输出技术等。因此,语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为语音信号的预处理部分、特征提取部分、模板训练部分以及实时语音识别等部分。识别预处理模块主要是对通过话筒或电话线路输入的语音信号进行数字化采样、预滤波、滤除掉其中的不重要的信息以及背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,经过语音分析部分变换成特征向量。特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数进行后续处理。对于非特定人语音识别系统,在训练阶段,系统经过上述预处理和特征提取模块从大量的语音数据中得到特征矢量参数集合,然后通过特征建模模块建立语音的参考模式库( 可能为参考模板或者模型等) ,或者对已在模式库中的参考模式作适应性修轮椅机器人语音识别、控制技术的研究第二章轮椅机器人语音控制算法的理论基础正。在识别阶段,将输入语音的特征矢量参数( 序列) 和参考模式库中的模式进行相似性度量,将相似度最高的模式所属的类别作为识别的中间候选结果输出。对于本文所研究的音控机器人系统,将把整个语音识别模块的最终输出结果直接传递给音控主程序( 见3 2 2 节语音控制机器人的算法实现) ,把识别结果转换成控制信号,控制应用部分的动作。2 2 2 语音识别算法的选择和确立当今语音识别技术的主流算法,有基于动态时间规整算法( d t w ) 的模板匹配法、基于参数模型的隐马尔可夫模型( h m m ) 的方法。此外,还有基于人工神经网络( a n n ) 的识别方法等【们。基于h m m 的方法主要用于大词汇量的语音识别系统,它需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间。日本学者板仓提出的动态时间规整算法( d t w ) 将动态规划( d p ) 算法的概念用于解决语音识别时的说话速度不均匀的难题,在连续语音识别中仍然是主流方法【“卦。虽然这种算法的运算量比较大,但技术上较简单,同时正确识别率也比较高。考虑到本文的研究对象是为残疾人服务的轮椅机器人,它的使用场合决定了它的语音识别系统应该是一个孤立词、中小词汇量的非特定人语音识别系统,同时综合考虑识别系统硬件平台的能力以及系统的可移植性、可扩展性,本文采用了目前常用的基于动态时间规整( d t w ) 的模板匹配方法。并对传统的d t w 算法、模板训练和模板匹配算法提出了多方面的改进,最终探索了一种新的“基于导师信息和双向动态时间规整的分层识别算法”。本文所进行的非特定人语音识别的研究。也是目前国内外语音识别研究的重点内容之一。2 3 语音信号的前端处理如前所述,任何语音识别系统都必须在前端录入语音,抽取其特征参数,供后端匹配或建立模板库。为了提取出高质量的语音特征参数,在抽取参数前,需要对待识别语音进行预处理,包括预滤波、采样、a d 变换、去直流、分帧等。本节主要叙述第二章轮椅机器人语音控制算法韵理论基础轮椅机器人语音识别、控制技术的研究语音信号预处理部分的内容【l 】。2 3 1 预滤波、采样、a i d 转换预滤波的目的有两个:( 1 ) 抑制输入信号各频域分量中频率超出f j 2 的所有分量够为采样频率) ,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上下截止频率分别是 和五,则对于绝大多数语音编译码器,j l = 3 4 0 0 h z ,f f 6 0 1 0 0 h z ,采样率f ,= s k h z ;而对于语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用于要求较高或很高的场合时, = 4 5 0 0 h z 或8 0 0 0 h z ,五= 6 0 h z ,f s = 1 0 k h z或2 0 k h z 。在本论文所研究的语音控制机器人的场合,经实验验证,可取j = 1 0 0 h z ,彳- - 4 5 0 0 h z ;采样率疗= 1 1 0 2 5 k h z 。语音信号经过预滤波和采样后,由1 6 位a d 变换器变换为二进制数字码。由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端约在8 0 0 h z 以上按6 d b 倍频程跌落,即6 d b o c t ( 2 倍频) 或2 0 d b d c c ( 1 0 倍频) ,所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重( p r e e m p h a s i s ) 处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。但预加重般是在语音信号数字化之后,在参数分析之前,在计算机里用具有6 d b o c t的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器,其传递函数为:日( z ) = l 一z 。( 2 9 )本论文中,“值取0 9 7 。由于语音在短时间范围内的物理特征与频谱特征近似不变,具有短时平稳特性,即语音信号的产生是一种准平稳过程,因此在进行过预加重数字滤波处理后,接下来轮椅机器人语音识别、控制技术的研究第二章轮椅机器人语音控制算法的理论基础就要进行加窗分帧处理。即将语音信号分段来分析。其中每一段称为一帧。帧的长度叫帧长。通常由于语音在l o 3 0 m s 之内是保持相对平稳的,因此帧长取为l o 3 0 m s ,分帧虽然可以采用连续分段的方法,但为了使帧与帧之间平滑过渡,保持其连续性,一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0 1 2 。本论文中帧长约取1 8 m s ,即每帧约有2 0 0 个语音采样,帧移为帧长的5 0 ,即取帧移为1 0 0 个采样点的长度,如图2 - 3 所示。第k 帧第k h 帧卜叫图2 3 帧长于帧移的示例分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数) 来卷积h ) ,从而形成加窗语音信号蜀( n ) = ( n ) “n ) 【”。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗,它们的表达式如下( 其中为帧长) :矩形窗) = 话。舅公( 2 - 1 0 )汉临嘶) :0 5 4 - 0 4 6 c o s ( 务o n _ n - 1,)1 0 其他窗函数( 而的选择,对于短时分析参数的特性影响很大。当窗口长度太大时,它等效于很窄的低通滤波器。不能真实反映语音信号的幅度变化;反之,若太小时,滤波器的通带变宽,短时能量随时间有急剧变化,不能得到平滑的能量函数。综合考虑窗函数的形状和长度,本论文选择了2 0 0 个采样点的长度的汉明窗。这样经过上述介绍的处理过程,语音信号就已被分割成一帧一帧的加过窗的短时信号,把每一个短时语音帧看作平稳的随机信号,利用数字信号处理技术来提取语音信号的特征。在进行处理时,按帧从数据区中取出数据,处理完后再取下一帧,等等。第二章轮椅机器人语音控制算法的理论基础轮椅机器人语音识别、控制技术的研究最后得到由每一帧参数组成的语音特征参数的时间序列。2 3 2 汉语语音的特征提取经过预处理后的语音信号,就要对其进行特征参数提取,这是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。抽取的语音特征应使得聚类运算时类内距离尽量小,类间距离尽量大。只有如此才能利用这些参数建立用于语音识别的模板或知识库。一般将语音信号的特征矢量分为两类:第一类为时域特征矢量,通常将一帧语音信号中的各个时域特征直接构成一个矢量;第二类为变换域特征矢量,即对一帧语音信号进行某种变换以后产生的相应的矢量。对于语音识别而言常用的特征参数有时域上的幅度( 或能量) 、平均过零率等:频域上的线性预测系数( l p c ) 、l p c 倒谱系数、共振峰频率、短时频谱等。其中m e l频率倒谱系数( m e l - - f r e q u e n c yc e p s t r u mc o e f f i c e m ,m f c c ) 由于反映了人耳的听觉特征,因而其性能及鲁棒性是所有参数中最好的。除了这些静态参数以外,上述参数随时间的变化反映了语音特征的动态特性,作为动态参数也常常被用于语音识别当中。提取的语音特征参数有时还要进行进一步变换处理,如正交变换、主元素分析、最大可分性变换等,以达到进一步的压缩处理,节省模式存储容量和识别运算量,提高识别性能的目的。识别参数的选择也与正识率及复杂度的矛盾有关。因为在通常情况下,参数中包含的信息越多,则分析或提取的复杂度也越大。本文提取了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论