（计算机应用技术专业论文）基于音频和视觉特征的语音端点检测.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：66 大小：2MB 积分：0 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

（计算机应用技术专业论文）基于音频和视觉特征的语音端点检测.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

陈庆利：基于语音和视觉特征摘要随着语音识别技术越来越广泛的应用，语音识别技术也受到越来越多的重视。语音识别技术在5 0 年来取得了很大进展，识别的正确率得到了很大的提高，使得语音识别技术在教育、电子商务、电话语音拨号、各种语音门户、语音玩具等领域的应用越来越广泛，并逐渐覆盖各个应用领域。语音端点检测技术是利用数字处理技术检测出语音信号中的各种段落的起始点和终点位置，其目的就是在复杂的带噪声环境下的声音信号中分辨出语音信号和非语音信号，它是语音识别中最关键的技术之一，其性能的优劣将直接影响到语音识别系统的正确率。传统的基于音频的语音识别技术是单一地关注声音信号的研究，这种只将音频信号作为研究对象的的晟大缺点就是系统的噪声鲁棒性差，特别是在强噪声环境下，这些语音系统的识别率会显著地降低，使得语音识别的应用受到很大的限制。同时，人类的语音过程不仅仅是声音信号的产生，它还伴随着与之相关的发声器官的视觉体现，其中又以唇形的变化最为重要。由于语音信号的这种特殊性，语音的音频信号和视觉信号之间必然存在内在的联系，语音信号的声学特征和视觉特征具有很好互补性和冗余性。因此将和语音信号相伴的语音视觉信息引入到语音端点检测将有助于语音识别率的提高，这也正是本文最大的贡献。第一章是绪论部分，介绍了语音端点检测的概念、基于音频的传统语音端点检测的弊病以及引入语音视觉特征的意义。第二章阐述了基于听觉特征的语音端点检测的过程以及语音端点检测的常用技术，并给出了一种时频和频域方差的语音端点检测算法，它能检测出语音端点的4 种状态：无语音状态、过渡状态、语音状态和结束状态，并给出了这4 种状态之间的转换关系。第三章介绍了引入语音视觉特征原因，并对人脸检测的算法作了一个概要性的描述，给出了现在常用的几种方法：特征组分析法、a s m 法以及线性子空间法。考虑了2 个对视觉信息有影响的主要的因素：光线和人的头部的运动，并给出了相应的解决办法。给出了嘴唇定位和提取的过程：r o i 定位、p c a 、l d a 提取，通过这些方法我们能从图像中检测到人脸，并定位到我们最需要的嘴唇信息。最后介绍了一种将前面的特征法和线性子空间法结合在一起的分段人脸特征检测算法分和法，并给出了详细的描述。第四章提出了基于视觉特征的3 种语音端点检测技术：基于图像的比较方法( 将图片中的嘴唇部分提取出来和无语音状态下的嘴唇图像进行比较，如果该图像和无语音状态的图像之间的不同像素点数在一个门限值以上，则认为这2 幅图片不一样，即说明该图像是处于语音状态) 、基于f a p 的方法( 检测出嘴唇的f a p 点，判断这些点与m p e g 4 中定义的f a p s i l e n c e 点是否相同，若相同，则表示是非语音状态，否则表示为语音状态和f a p 点距离的判断进行判断是否处于语音状态) 以及基于唇动函数的方法( 给出一个内外嘴唇函数，通过这个函数描述，判断嘴唇是否处于运动状态，若是则为语音状态，否则为无语音状态) ，并给出了这些方法的具体实现。第五提出了基于音频和视频融台的端点检测技术，讨论了基于音频和视频在不同噪声状态下各种技术的适用情况：当语音信号很强时，则以音频识别为主，辅助视觉检测；当噪声很强时，以视觉识别为主，辅助音频检测；当2 者相差不多时，同时结合2 者进行识别；详细讨论了各种可能出现的状态下的语音端点检测。做了以上分组实验，给出了具体的实验结果，实验表明基于音频和视频的联合语音端点检测技术有助于语音识别率的提高。第六章是全文的总结，给出了基于音频和视频的语音端点检测技术存在和问题和今后研究方向的探讨。关键词：语音识别，音，视语音识别，端点检测，音频特征，视觉特征，人脸检测，特征融合，人脸运动参数。 s u m m a r y w i t hm o r ea n dm o r eb e g i n sw i d e l yu s e di np e o p l e sd a i l yl i f e ，p e o p l ea l s oa t t a c k sg m a t i m p o r t a n c et os p e e c hr e c o g n i t i o n i nr e c e n t5 0y e a r s ，s p e e c hr e c o g n i t i o nh a sm a d eb i gp r o g r e s s ， e s p e c i a l l y h a s g o t t e nv e r yh i g ha c c u r a c y 1 t h a sb e e na p p l i e di nal o to ff i e l d ss u c ha s e d u c a t i o n ，c o n i n l e r c e ，t e l e p h o n ev o i c ed i a l i n g ，a n da l lk i n do fa u d i of i e l d s ，s o u n dt o ya n ds oo n i t w i l lu s e di na l lf i e l d sg r a d u a l l y t h eb a s i cf u n c t i o no fs p e e c hr e c o g n i t i o ni st od e t e c tt h ee n d p o i n to fs p e e c hb yd i g i t a l p r o c e s s i n gt e c h n o l o g y i t sg o a li st od i s t i n g u i s ht h ev o i c es i g n a la n dt h en o n - v o i c es i g n a lu n d e r t h e c o m p l e xn o i s ee n v k o n m e n t s i ti so n eo ft h em o s ti m p o r t a n tt e c h n o l o g yi ns p e e c hr e c o g n i t i o n , a n d i t sp e r f o r m a n c ew i l ld i r e c t l ya f f e c tt h es p e e c hr e c o g n i t i o na c c u r a c y t h et r a d i t i o n a ls p e e c h r e c o g n i t i o ns i m p l yp a y sa t t e n t i o nt ot h es o u n ds i g n a ls o l e l y , t h eb i g g e s tp r o b l e mi s t h a tt h e r o b u s t n e s si sv e r ys l o w , t h ea e c y r a c yo ft h e s er e c o g n i t i o ns y s t e mo b v i o u s l yr e d u c e sr a p i d l yu n d e r t h es t r o n gn o i s ee n v i r o n m e n t , a n dt h ea p p l i c a t i o no ft h es p e e c hr e c o g n i t i o nr e c e i v e sv e r yb i g r e s t r i c t i o n t h ep r o c e s so fp r o n u n c i a t i o nn o t o n l y a r i s e st h es o u n ds i g n a lp r o d u c t i o n ，b u ta l s o s i m u l t a n e o u s l yf o l l o w st h ev o c a l sm o v e m e n t ，e s p e c i a l l yt h el i p sm o v e m e n t ，t h e r e f o r et h e r ei s a i n e v i t a b l yi n n n e rc o n n e c t i o nb e t w e e nt h ea u d i os i n g n a la n d t h ev i d e os i n g n a lo fs p e e c h ，t h ea u d i o c h a r a c t e r i s t i ca n dt h ev i s u a lc h a r a c t e r i s t i ch a v ev e r yg o o dc o m p l e m e n t a r i t ya n dr e d u n d a n c y i tw i l l h e l pb o o s tt h ea c c u r a c yo fs p e e c hr e c o g n i t i o nu n d e rn o i s ee n v i r o n m e n t ，a n dt h i si st h eb i g g e s t c o n t r i b u t i o ni nt h i sa r t i c l e t h ec h a p t e r1i st h ee x o r d i u m 1 nt h i sc h a p t e r , w eg i v et h ec o n c e p t i o no fs p e e c he n d p o i n t d e t e c t i o n , t h ed i s a d v a n t a g eo ft r a d i t i o n a la u d i oe n d p o i n td e t e c t i o na n dt h es i g n i f i c a n c ew eu s e v i s u a lf e a t u r ei ns p e e c he n d p o i n td e t e c t i o n t h ec h a p t e r2d e s c r i b e st h et r a d i t i o n a le n d p o i n tt e c h o l o g yb a s e da u d i o ，a n d # v ea n a r i t h m e t i co fs p e e c he n d p o i n td e t e c t i o nb a s e do nt i m e - f r e q u e n c ya n df r e q n e n c y - d o m a i nm e t h o d w ec a nd e t e c t4s t a t e s ：n o - v o i c es t a t e ，t r a n s i t i o n a ls t a t e ，v o i c es t a t ea n de n d i n gs t a t e ，a n dd e s c r i b e c o n v e r s i o nr e l a t i o na m o n gt h e m i nc h a p t e r3 ，w ed e s c r i b e st h er e a s o n sw h yw ei n t r o d u c ev i s u a lf e a t u r ei n t os p e e c he n d p o i n t d e t e c t i o n ，a n dw ea l s od e s c r i b l e so u t l i n eo ff a c ed e c t e c t i o n a n dg i v ead e t a i l e dd e s c r i p t i o na b o u t t h e s ea r i t h m e t i c s ，s u c ha sc h a r a c t e r sg r o u pa n a l y s i s ，a c t i v es h a p em o d e l s ( a s mf o rs h o r t ) a n d l i n e a r i t ys u b s p a c em e t h o d w ea l s ot a k e2f a c t o r s ( i l l u m l n a t i o na n dm o v e m e n to fh e a d ) t h a t a f f e c t s t h ev i s u a lc h a r a c t e re x t r a c t i o ni n t oa c c o u n t a n dw ea l s op r e s e n tt h ea l g o r i t h m ，w h i c hc a nd e t e c t t h ef a c ef r o mv i d e op i c t u r e ，a n de x t r a c t l i p f r o mt h ep i c t u r e a n dt h el a s tw ep r e s e n ta a l g o r i t h m ( n a m e dd i v i s i o na n du n i t i o nm e t h o d ) b l a s e dc h a r a c t e rm e t h o da n dl i n c a r i t ys u b - s p a c e m e t h o d , a n dg i v ead e t a i l e dd e s c r i b t i o n i nc h a p t e r4 ，w eg i v e3m e t h o d st h a tc a nd e t e c tt h ee n d p o i n tf r o mt h ev i s u a lc h a r a c t e r ：p i c t u r e c o m p a r i s o nm e t h o d ( c o m p a r e2p i c t u r e sa n df i n dt h ed i f f e r e n td e g r e s so f2p i c t u r e s ) ；f a pm e t h o d ( f i n dt h ef a p a n dg i v et h es t a t e so ft h el i p ) a n dl i pm o v e m e n tf u n c t i o nm e t h o d ( g i v eaf u n c t i o nt h a t d e s c r i b e st h em o v e m e n to ft h el i p ) ，a n df i n a l l yg i v ed e t a i l e dd e s e r t i o na b o u tt h e mf o re a c h an u m b e ro fa u d i o - v i s u a lf u s i o ns c h e m e so ns t a t el e v e la r ed i s c u s s e di nc h a p t e r5 ，a n dw h e n t h en o i s ei ss l o ww ea c c o r dt h ea u d i oc h a r a c t e ra sm a i nf u n c t i o na n dw h e nt h en o i s ei sh i g h ，w e a c c o r dt h ev i s u a lc h a r a c t e ra sm a i nf u n c t i o n ，a n dw h e nt h e ya r es a m e ，w ec o m b i n et h e2m e t h o d s 关键词：语音识别，音，视语音识别，端点检测，音频特征，视觉特征，人脸检测，特征融合，人脸运动参数。 s u m m a r y w i t hm o r ea n dm o l eb e g i n gw i d e l yu s e di np e o p l e sd a i l yl i f e ，p e o p l ea l s oa t t a c k sg r e a t i m p o r t a n c et os p e e c hr e c o g n i t i o n i nr e c e n t5 0y e a r s , s p e e c hr e c o g n i t i o nh a sm a d eb i gp r o g r e s s , e s p e c i a l l y h a sg o t t e nv e r yh i g ha c c u r a c y 1 th a sb e e na p p e di nal o to ff i e l d ss u c ha s e d u c a t i o n , c o m m e r c e ，t e l e p h o n ev o i c ed i a l i n g ，a n da l lk i n do fa u d i of i e l d s ，s o u n dt o ya n ds oo n i t w i l lu s e di na l lf i e l d sg r a d u a l l y t h eb a s i cf u n c t i o n o fs p e e c hr e c o g n i t i o ni st od e t e c tt h ee n d p o i n to fs p e e c hb yd i g i t a l p r o c e s s i n gt e c h n o l o g y i t sg o a li st od i s t i n g u i s ht h ev o i c es i g n a la n dt h en o n - v o i c es i g n a lu n d e rt h e c o m p l e xn o i s ee n v i r o n m e n t s i ti so n eo ft h em o s ti m p o r t a n tt e c h n o l o g yi ns p e e c hr e c o g n i t i o n , a n d i t s p e r f o r m a n c ew i l ld i r e c t l y a f f e c tt h es p e e c hr e c o g n i t i o na c c u r a c y t h et r a d i t i o n a ls p e e c h r e c o g n i t i o ns i m p l yp a y sa t t e n t i o nt ot h es o u n ds i g n a ls o l e l y , t h eb i g g e s tp r o b l e mi st h a tt h e r o b u s t n e s si sv e r ys l o w , t h ea o c y r a c yo ft h e s er e c o g n i t i o ns y s t e mo b v i o u s l yr e d u c e sr a p i d l yu n d e r t h es t r o n gn o i s ee n v k o n m e n l a n dt h ea p p l i c a t i o no ft h es p e e c hr e c o g n i t i o nr e c e i v e sv e r yb i g r e s t r i c t i o n t h ep r o c e s so fp r o n u n c i a t i o nn o to n l ya r i s e st h es o u n ds i g n a lp r o d u c t i o n ，b u ta l s o s i m u l t a n e o u s l yf o l l o w st h ev o c a l sm o v e m e n t ，e s p e c i a l l yt h el i p sm o v e m e n t ，t h e r e f o r et h e r ei sa i n e v i t a b l yi n n n e rc o n n e c t i o nb e t w e e nt h ea u d i os i n g n a la n d t h ev i d e os i n g n a lo fs p e e c h ，t h ea u d i o c h a r a c t e r i s t i ca n dt h ev i s u a lc h a r a c t e r i s t i ch a v ev e r yg o o dc o m p l e m e n t a r i t ya n dr e d u n d a n c y i tw i l l h e l pb o o s tt h ea c c u r a c yo fs p e e c hr e c o g n i t i o nu n d e rn o i s ee n v i r o n m e n t ，a n dt h i si st h eb i g g e s t c o n t r i b u t i o ni nt h i sa r t i c l e t h ec h a p t e r1i st h ee x o r d i u m 1 nt h i sc h a p t e r , w eg i v et h ec o n c e p t i o no fs p e e c he n d p o i n t d e t e c t i o n , t h ed i s a d v a n t a g eo ft r a d i t i o n a la u d i oe n d p o i n td e t e c t i o na n dt h es i g n i f i c a n c ew eu s e v i s u a lf e a t u r ei ns p e e c he n d p o i n td e t e c t i o n t h ec h a p t e r2d e s c r i b e st h et r a d i t i o n a l e n d p o i n tt e c h o l o g yb a s e da u d i o ，a n dg i v e a n a r i t h m e t i co fs p e e c he n d p o i n td e t e c t i o nb a s e do nt i m e - f r e q u e n c ya n df r e q n e n c y - d o m a i nm e t h o d w ec a nd e t e c t4s t a t e s ：n o - v o i c es t a t e ，t r a n s i t i o n a ls t a t e ，v o i c es t a t ea n de n d i n gs t a t e , a n dd e s c r i b e c o n v e r s i o nr e l a t i o na m o n gt h e m i nc h a p t e r3 ，w ed e s c r i b e st h er e a s o n sw h yw ei n t r o d u c ev i s u a lf e a t u r ei n t os p e e c he n d p o i n t d e t e c t i o n ，a n dw ca l s od e s c r i b l e so u t l i n eo ff a c ed e c t e c t i o n a n dg i v ead e t a i l e dd e s c r i p t i o na b o u t t h e s ea r i t h m e t i c s ，s u c ha sc h a r a c t e r sg r o u pa n a l y s i s ，a c t i v es h a p em o d e l s ( a s mf o rs h o r t ) a n d l i n e a r i t ys u b s p a c em e t h o d w ea l s ot a k e2f a c t o r s ( i l l u m i n a t i o na n dm o v e m e n to fh e a d ) t h a ta f f e c t s t h ev i s u a lc h a r a c t e re x t r a c t i o ni n t oa c c o u n t a n dw ea l s op r e s e n tt h ea l g o r i t h m ，w h i c hc a nd e t e c t t h ef a c ef r o mv i d e op i c t u r e ，a n de x t r a c t l i p f r o mt h ep i c t u r e a n dt h el a s tw ep r e s e n ta a l g o r i t h m ( n a m e dd i v i s i o na n da n i t i o nm e t h o d ) b a s e dc h a r a c t e rm e t h o da n dl i n e a r i t ys u b s p a c e m e t h o d , a n d 西v cad e t a i l e dd e s c r i b t i o n i nc h a p t e r4 ，w eg i v e3m e t h o d st h a tc a nd e t e c tt h ee n d p o i n tf r o mt h ev i s u a lc h a r a c t e r ：p i c t u r e c o m p a r i s o nm e t h o d ( c o m p a r e2p i c t u r e sa n df i n dt h ed i f f e r e n td e g r e s so f2p i c t u r e s ) ；f a pm e t h o d ( f i n dt h ef a p a n dg i v et h es t a t e so ft h el i p ) a n dl i pm o v e m e n tf u n c t i o nm e t h o d ( g i v eaf u n c t i o nt h a t d e s c r i b e st h em o v e m e n to ft h el i p ) ，a n df i n a l l yg i v ed e t a i l e dd e s e r t i o na b o u tt h e mf o re a c h an u m b e ro fa u d i o - v i s u a lf u s i o ns c h e m e so ns t a t el e v e la r ed i s c u s s e di nc h a p t e r5 ，a n dw h e n t h en o i s ei ss l o ww ea c c o r dt h ea u d i oc h a r a c t e ra sm a i nf u n c t i o na n dw h e nt h en o i s ei sh i g h ，w e a c c o r dt h ev i s u a lc h a r a c t e ra sm a i nf u n c t i o n ，a n dw h e nt h e ya r cs a m e ，w ec o m b i n et h e2m e t h o d s i i 陈庆利：基于语音和视觉特征 t o g e t h e rt od e t e c tt h ee n d p o i n t a n dw ef i n db ye x p e r i m e n t st h a tt h ea c c u r a c yr a t ei sh i g h e rt h a n t h a to fa u d i oo rv i d e om e t h o ds i m p l y h c h a p t e r6 ，w eg i v eas u m m a r i z et ot h et h e s i s ，a n dp r e s e n ts o m ep r o b l e m so nt h ed i g “a l v o i c ee n d p o i n td e t e c t i o n , w h i c hr e m a i n st oh er e s o l v e d a n dl a s tw ep o i n to u ts o m ep o s s i b l e r e s e a r c hd i r e c t i o n si nt h ef u t u r e k e yw o r d s ：s p e e c hr e c o g n i t i o n ，a u d i o - v i s u a ls p e e c hr e c o g n i t i o n ，e n d p o i n td e t e c t i o n ，v i d e of e a t u r e ， v i s u a lf e a t u r e ，f a c er e c o g n i t i o n ，a u d i o - v i s u a lf u s i o n ，f a c i a la n i m a t i o np a r a m e t e r i i l 原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究在做出重要贡献的个人并口集体，均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。论文作者签名：酗日期： ! q q2 生旦关于学位论文使用授权的声明本人完全了解贵州大学有关保留、使用学位论文的规定，同意学校保留或向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅；本人授权贵州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名导师签名：翌塾日期：2 q q ) 生f 旦陈庆利：基于语音和视觉特征第一章绪论随着人类社会的进步和计算机技术的广泛应用，人类社会的信息交流方式发生了很大的变化，除了人与人之间的交流外还出现了人与电子产品之问的“交流” 即人机交流( 见图1 ) 。不管是人与人之间还是人机之问的交流，对人类自身而言，最方便，最直接、最有效的交流方式还是语音交流方式。说话方冬是兰塑堕恿煮照孽收听方图1 - 1 人与人之间、人与电子设备之间的语音交流过程要想使人能和计算机( 或其它电子设备) 或者是通过计算机或机器人实现不同语种的人能相互之间的进行语音交流，就必须让计算机或电子设备具有能“听懂”人的话语的能力。语音识别就是让计算机或电子设备具有这样的功能的技术。语音识别研究如何使机器能准确地“听懂”或识别出人的语音及其内容，以便满足人类各种各样的应用要求而产生的一种交叉性边缘学科。语音识别技术的基本思想是：由机器( 或语音识别软件) 分析出输入的语音信号的语音特征，然后将其与预先设计的文本数据库( 或模板) 进行比对，从中挑选出与收到的语音信号最相匹配的文本，然后按照预先设定的一些语法规则排列，从而实现从语音到文本的转变。如果得到的文本和人原来表达的意思相同或相近，那么我们就可以说，机器或识别软件完成了一次语音识别过程，语音识别的核心是识别率，而语音信号的端点检测是保证识别率的关键技术之一。 j j 语音端点检测语音端点检测指用数字处理技术来找出语音信号中的各种段落 ( 如音素、音节、字、词等) 的起始点和终点的位置，其目的就是在复杂的带噪声环境下的输入信号中将语音信号和非语音信号( 如背景噪声) 分离出来，它是语音识别获得准确的识别率的前提。在实际应用中，由于噪声环境的影响，给语音识别系统的稳定性带来严重的问题，使得语音识别系统在复杂的带噪声环境中的性能急剧下降。因此，带噪声语音端点检测结束是语音识别预处理中最关键的技术，只有准确地判定语音信号的端点才能正确地进行语音处理；其性能的优劣在很大程度上决定了语音识别率的高低。若语音信号的起始点和或结束点判断有误，会在语音信号的开头或结尾漏掉一些有用的数据，从而能影响部分或整个语音信号的完整性，不完整的信息会造成识别结果的部分或完全错误，从而使得系统的识别率降低；如果端点检测将背景噪声信号作为有效语音信号的开始或结束，造成识别结果的错误；或者是认为语音信号还没结束的继续无意义的识别。因此语音端点检测技术在语音识别中起着举足轻重的作用。 j 2 传统语音识别的缺点传统语音识别的核心是单一地关注声音信号的研究，这种只将声音信号作为研究对象的的最大缺点就是系统的噪声鲁棒性差，特别是在强噪声环境下，这些语音系统的识别率会显著地降低，造成系统的不可用性而实际的情况是人们说话时往往并不是处在一个非常安静的环境，外界环境噪声的干扰、其他人的插话；说话人在说话时经常会出现停顿、重复，发音不清等情况；并且还可能发出如“嗯”、“啊”、 “哦”等感叹音和鼻音；再考虑到方言、口音等的影响，所有的这一切对机器或识别软件都有会产生很大的负面影响，它们中任何一种情况的出现都会极大地影响语音识别系统的准确性。正是由于这种非确定的噪声环境对声音的扭曲和人类交谈的随意性的特点，使得在带噪声环境下语音识别准确率的提高困难重重，在很大程度上限制了语音识别的应用范围，因此提高语音识别在噪声环境下的识别问题是当前语音识别技术的研究重点和难点，而单一地关注声音的研究将不能很好地解决噪声鲁棒性问题。 j 3 视觉语音在实际的面对面的交谈中。听讲者除了关注讲话人的声音外，他或她同时也在观察对方的各种肢体语言变化，这些肢体语言包括口型的变化、面部表情的变化、手势和肢体动作等( 特别是嘴唇部分的变化) ，以求能更精确地理解对方所讲的内容；特别是在强噪声、声音嘈杂的环境中，人们更是需要依赖多源语音信息来进行交流。甚至在某些情况下，听话人不需要知道对方说的是什么，只通过对方的肢体语言就能知道对方在说什么，而这些都是只研究声音所不能达到的效果。在噪声干扰信号强的环境下，视觉信息能很好地弥补听话人因为噪声干扰或或因为自己精力不集中而造成漏听或错听的情况。同时由于视觉信息和听觉信息( 或音频信息) 之间具有较好的互补性。例如：用视觉去分辨一个人是在说b a 还是在说g a 要比用听觉上分辨要容易得多。因此我们有必要在基于音频信息的语音识别系统中( 特别是带噪声环境) 引入视频信息进行语音识别。视觉语音是指与语音相伴的可视发音器官的运动，由于语音信号都是由人的发音器官的运动产生的，因此语音信号和语音视觉之间必 2 陈庆利：基于语音和视觉特征然存在某种内在的联系陈永彬，1 9 9 1 王志明等，2 0 0 5 。许多科学实验表明，视觉语音可以帮助人们理解听觉语音，提高在噪声环境下的语音可懂度王志明等，2 0 0 5 ，帮助人们在强噪声环境下“听”清语音，因此在传统的基于声音的语音识别系统中引入语音视觉特征将有助于语音识别系统在噪声环境下的识别率的提高，使语音识别的应用范围和领域更加广泛。 1 4 引入视觉信息的意义语音端点检测是语音分析、语音合成和语音识别中的一个必要环节。尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率，但是在实际应用时由于噪声的引入和环境的改变通常会使系统性能显著下降。语音端点检测技术要走向实用，就必须克服鲁棒性问题，因此低信噪比噪声环境下的语音端点检测技术的意义非常重要。由于视觉信息和听觉信息( 或音频信息) 之间具有较好的互补性。我们有必要在基于音频信息的语音识别系统中( 特别是带噪声环境) 引入视觉信息来辅助进行语音识别，提高语音端点检测的准确性和语音识别的准确度。由此我们可以预见：在传统的、基于音频的语音识别系统中引入视频信息进行语音识别将有助于有3 个方面的好处：提高语音识别的准确率；由于视觉信息不受噪声环境干扰，因此能有效地增强语音识别系统的噪声鲁棒性；加入了视频信息的语音识别系统能使得语音识别应用的范围和领域更加广泛，使得相关学科( 如计算机游戏，计算机仿真、人形机器人等学科) 得到进一步的发展，具有重要的学术价值和实际价值。 j 5 本文贡献由于语音端点检测对语音识别的意义非常重要，因此检测到正确的语音端点就成为语音识别中重要的一环，传统的基于音频的语音端点检测方法只对语音音频信号的语音端点进行检测，使得端点检测方法在较强噪声环境下容易发生误检测，因此将和语音信号相伴的视觉语音信息引入到语音端点检测中来是本文最大的贡献。本文所做的工作包括：修正了一种基于音频的带噪声的语音端点检测技术，并将语音的状态由原来的2 种状态：起始状态和结束状态，提高到现在的4 种状态：无语音状态、过渡状态、语音状态和结束状态；并给出了这4 种状态的相互转换过程：提出了在语音视觉信息中检索语音端点技术的3 种方法：图像比较端点检测法；基于m p e g 一4 标准的f a p 检测法；基于唇动函数的端点检测法提出了基于音频和视频融合的语音检测端点的模型和算法，给出了音频和视频融合的特征级融合策略。 3 j 6 本文的结构安排本文的各章节安排如下：第二章：对基于音频的语音端点检测技术的原理及算法做一个综述；给出了部分基于音频的语音短点检测算法；提出了一种带噪声语音端点检测算法来检测出语音音频信息的端点信息，并给出了语音端点的 4 种状态以及它们之间的转换；第三章将详细讨论视觉信息的检测方法，给出了现在常用的几种方法；主要考虑对视觉信息影响的2 个主要因素：光线和头部运动，并给出了相应的解决办法。之后给出了嘴唇特征的提取方法；在最后介绍了一种将前面的特征法和线性子空间法结合在一起的分段人脸特征检测算法一一分和法第四章将讨论基于视觉特征的语音端点检测技术，给出了基于视觉特征的语音端点检测的3 种方法；基于比较的方法、基于m p e g 4 标准的f a p 方法和基于唇动函数的方法第五章讨论了基于音频和视频的联合语音端点检测技术，给出了听觉和视觉特征的特征级融合策略，详细讨论了各种可能出现的情况，并给出了实验进行验证。第六章将总结全文，展望将来的工作； 1 7 本章总结本章中，我们给出了语音端点检测的定义就是检测出语音信号中的各种段落的起始点和终点的位置，其目的就是在复杂的带噪声环境下的声音信号中分辨出语音信号和非语音信号。指出了传统基于音频的端点检测方法的弊病就是在强噪声环境下语音识别系统的性能会显著下降，使得语音识别的应用要求较高，不能很好地适用于任何情况；为此，提出了在传统基于音频检测的基础上增加语音视觉信息的语音端点检测方法一一基于语音音频和视觉特征的语音端点检测技术。 4 陈庆利：基于语音和视觉特征第二章基于听觉特征的语音端点检测语音的听觉特征反映了语音的节奏、韵律以及语音的频谱分布和变化规律等。语音的主要特征包括：短时能量、m f c c ( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n ) 系数、基音频率、分带短时能量、短时能量的均值和方差、m f c c 系数的均值和协方差、过零率的均值和方差等。基于听觉特征的语音端点检测就是研究和声音相关的的语音信号，而语音端点检测，就是语音的首尾判定，它是把一段语音定为有效语音段的粗判，是进一步进行有效语音段细判和字词分割的基础，在本章我们将详细讨论语音端点的检测的原理和算法。语音信号分析是语音处理的第一步，只有将语音信号分析成各种参数，才有可能用这些参数进行语音通信，才能建立用于语音合成

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于音频和视觉特征的语音端点检测.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于音频和视觉特征的语音端点检测.pdf

文档简介

温馨提示

最新文档

评论

相关文档