(光学工程专业论文)语音识别系统的研究.pdf_第1页
(光学工程专业论文)语音识别系统的研究.pdf_第2页
(光学工程专业论文)语音识别系统的研究.pdf_第3页
(光学工程专业论文)语音识别系统的研究.pdf_第4页
(光学工程专业论文)语音识别系统的研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要本文介绍了一个自主设计开发的语音识别系统的各个处理过程。系统算法采用m a t l a b 6 1 和v c + + 6 0 混合编程来实现的。具体的处理过程包括以下三个方面:1 、预处理,包括a d 变换、短时能量检测、过零率检测、语音信号的端点检测等;2 、特征提取,也就是对预处理后的信号运用语音分析方法,包括线性预测系数、共振峰检测、基音周期检测;3 、特征提取和语音匹配。本文对每一个环节都进行了深入的研究。在语音信号的预处理中,用短时能量和短时过零率两种参数对待测定人的语音进彳亍处理来准确的找到待分析的语音信号端点。对待识别人的语音信号在整个期间进行抽样和存储,用短时平均幅度来代替短时能量,参照平均幅度的轮廓粗略确定一个语音的端点,然后在结合过零率门限通过过零率准确的判断出语音的起始点和终止点。信号特征抽取是语音识别赖以进行的基础,我们深入的分析和研究了语音信号的各种特征,包括语音信号快速傅立叶变换、线性预测编码分析、声道共振峰分析、短时自相关分析、基音周期检测。同时结合本研究的应用是小规模库的语音锁的特点,本文抽取如下两个特征作为该系统识别匹配的特征参量矩阵,即由线性预测系数获得的共振峰数据和中央消波自相关法进行的基音周期构成的向量矩阵。特征匹配就是匹配特征向量矩阵。把提取的待识别的语音的特征向量与库语音对应的特征向量相匹配,如果特征向量里的特征全部能够被匹配,则认为这两个语音能够匹配,即为同一个人的声音信号;否则认为它们不匹配,为不同人的语音信号。本系统是系统是应用m a t l a b 和v c + + 混合编程实现的。利用m a t l a b 自身的编译器m c c 将m 文件转化为可执行文件和动态连接库( d l l 文件) 。在完全脱离m a t l a b 运行环境下通过设置v c 运行环境和参数把m a t l a b 和v c + 有效的结合起来,实现了系统运行的实时性,同时用能够使该系统真正的用于商业开发成为可能。本系统经过实验验证,结果令人非常满意。关键词:语音识别,过零率,短时能量,自相关,线性预测编码,基音周期a b s t r a c tt h et h e s i sh e r e i n a f t e rg i v e sy o uad e t a i l e di n t r o d u c t i o nt ot h ep r o c e s s m gp r o c e d u r e so fas p e e c hs i g n a l sr e c o g n i t i o ns y s t e mw h i c hi sd e s i g n e da n de x p l o i t e dh l d e p e n d e n t l y t h em i x e dp r o g r a m m i n go fm a t l a b 6 1a n dv c + + 6 0i sa p p l i e dt ot h i ss y s t e m a t i ca r i t h m e t i c 。t h es p e c i f i cp r o c e s s i n gp r o c e d u r e sa r ea sf o l l o w s :1 p r e t r e a t m e n ti n c l u d i n gt h ee x c h a n g eo fa d ,t h es h o r t t i m ee n e r g yd e t e c t i o n ,t h ez e r o c r o s s i n gr a t ed e t e c t i o n ,a n dt h es p e e c hs i g n a l s e n d p o i md e t e c t i o n ;2c h a r a c t e r i s t i c st a k i n gw h i c hi st oa p p l yt h ev o i c ea n a l y s i sm e t h o dt ot h es i g n a l sa f t e rp r e t r e a t m e r t t ,i n c l u d i n gl i n ep r e d i c t i o nc o d e ,t h ef o r m a n td e t e c t i o a ,a n dt h ep i t c hp e r i o dd e t e c t i o n ;3 c h a r a c t e r i s t i c st a k i n ga n dv o i c em a t c h i n g t h et h e s i sh e r e i n a f t e rh a sm a d ee m b e d d e dr e s e a r c ho i le v e r yt a c h em e n t i o n e da b o v e i nt h ep r e t r e a t m e n tt ot h es p e e c hs i g n a l s ,t w op a r a m e t e r s s h o r t t i m ee n e r g ya n ds h o r t - t i m ez e r o - - c r o s s i n gr a t e - - - a r ee m p l o y e dt od i s p o s eo ft h ev o i c eo ft h ep e r s o nt ob em e n s t t r a t e da n dt h e nt h ee n d p o i n to ft h es p e e c hs i g n a l sp e n d i n ga n a l y s i sc a nb ef o u n da c c u r a t e l y b ym e a n so fs a m p l i n ga n ds t o r i n gu pt h es p e e c hs i g n a l so ft h ep e r s o nt ob ei d e n t i f i e dd u r i n gt h ew h o l ep e r i o d ,r e p l a c i n gs h o r t t i m ee n e r g yw i t hs h o r t - t i m ea v e r a g es c o p e ,a s c e r t a i n i n ga ne n d p o i n to ft h es i g n a lr o u g h l ya c c o r d i n gt ot h eo u t l i n eo ft h ea v e r a g es c o p e ,a n dt h e nc o m b i n i n gi tw i t ht h et h r e s h o l dv a l u eo fz e r oc r o s s i n gr a t e ,t h eo r i g i n a t i n gp o i n ta n dt h et e r m i n a t i n gp o i n to ft h es p e e c hs i g n a l sc a nh eg o ta c c u r a t e l yd u et ot h ez e r o c r o s s i n gr a t e a st ot h ec h a r a c t e r i s t i c st a k i l l go fs p e e c hs i g n a l s b e c a u s ei ti st h eb a s i st oc o n t i n u et h ep r o c e d u r e so fd i s t i n g u i s h i n gv o i c e s ,ih a v ea n a l y s e di n d e p t ha n dd o n eg r e a tr e s e a r c ho nd i v e r s i f i e df e a t u r e so fs p e e c hs i g n a l s s u c ha st h ef f ro fs p e e c hs i g n a l s ,t h ea n a l y s i so fl i n ep r e d i c t i o nc o d i n g ,t h ea n a l y s i so fv o i c et r a c kf o r m a n t ,t h em a a l y s i so fs h o r t t i m ea u t o c o r r e l a t i o n ,a n dt h ed e t e c t i o no fp i t c hp e r i o d o na c c o u n tt h a tt h i sr e s e a r c hi sa p p l i e dt ot h ev o i c el o c ko fd a t a b a s ei nm i n i a t u r e ,iu t i l i z e dt h et w oc h a r a c t e r i s t i c sa st h ef e a t u r e sp a r a m e t e rm a t r i xt oi d e n t i f yt h em a t c ho ft h i ss y s t e m t h a ti st h ev e c t o rm a t r i xc o m p r i s e db yt h ef o r m a n td a t aa t t a i n e df r o mt h el i n ep r e d i c t i o nm o d u l u s ,a n dt h ep i t c hp e r i o da c h i e v e db ym e a n so fa u t o c o r r e l a t i o no ft h ew a v ec e n t e ra b s o r b e r t h ef e a t u r em a t c h i n gi st om a t c ht h ef e a t u r ev e c t o rm a t r i xj u s tc o m p a r i n gt h ee i g e n v e c t o ro ft h ev o i c ep e n d i n gi d e n t i f i c a t i o nw i t ht h a tc o r r e s p o n d i n gi nt h ed a t a b a s e ,i ft h e ym a t c he n t i r e l y , i tc a nb ed e t e r m i n e dt h a tt h et w ov o i c e sa r em a t c h i n ga n ds o ,t h e ya g et h es p e e c hs i g n a l sf r o mt h es a m ep e r s o n ;o t h e r w i s e ,t h ea n s w e ri sn e g a t i v e t h i ss v s t e i ne m p l o y st h em i x e dp r o g r a m m i n go fm a t l a ba n dv c + + f i l emi st r a i l s f o 咖e di n t oe x e c m a b kf i l ea n dd y n a m i cl i n kl i b r a r yb ym c c ,w h i c hi st h et r a n s l a t i n ga n de d i t i n gw a r eo fm a t l a b “s e l ea sar e s u k ap r o g r a mf u n c t i o n m gw h e l l vi n d e p e n d e n tf r o mm a t l a bi se n g e n d e r e d e f f e c t i v e l yc o m b i n i n gm a t l a ba n dv c + + b ys e t t i n gu pt h ef u n c t i o n i n gc i r c u m s t a n c e sa n dt h ep a r a m e t e ro fv c ,t h er e a lt i l l l en a t t i r eo ft h i ss y s t e mc a i lh er e a l i z e d ,m e a n w h i l e ,i tp r o v i d e sp o s s i b i l i t i e st ot h ec o m m e r c i a ld e v e l o p m e n to ft h i ss y s t e r t lt h es y s t e md e s c r i b e da b o v eh a sb e e nv a l i d a t e dt h r o u g hn u i n e r o u se x p e r i m e n t s ,a n dt h er e s u l ti ss a t i s f a c t o r ya n dm a t u r ee n o u g ht op u ti ti n t or e a lp r o d u c t i o n k e y v q o r d s :s p e e c hr e c o g m t i o n , z e , ;o c r o b s j = l l gr a t e ,s h o r t t l r l l ee n e r g ya u t o c o r r e l a t i o n ,l p c ,p i t c hp e r i o dm南开大学硕士生学位论文第一章概述1 1 语音识别的研究状况一、生物识别技术所谓生物识别技术,就是指通过计算机将人体所固有的行为特征或者生理特征收集并进行处理,来进行人体身份鉴定的技术。人体的生物特征具有“人人不同,终生不变,随身携带”的特点,生物特征分为行为特征和生理特征。行为特征是习惯使然,多为后天形成;而生理特征则与生俱来多位先天性的。行为特征有声音、签字等,生理特征有指纹、脸型、掌纹等。二、生物识别技术在当今世界中的意义在古代小的村庄或者部落众,每个人都相互认识,你很容易认出陌生人或者意识到外来的安全威胁。如今,在这个纷繁芜杂的世界中身份识别就不那么简单了。事实上,这项活动大多通过电子媒介实现。而这又有两条途径:一是基于个人所持有,如磁卡、身份证等。二是基于个人所知道的,如密码等。但是这两种途径都不安全,因为它们会被遗忘、丢失或者被用心不良的人偷窃、复制或者伪造,于是造成一些不必要的损失乃至对人民生活和安全造成巨大危害。现在最终解决方案就是利用人们的生物特征进行识别。而且采用生物特征进行识别的研究也在世界各国正在如火如荼的开展,而且有很多的生物识别的技术已经被人们开始引入商用,如i b m 研究开发的语音识别系统、同样的指纹的辨别是很早就被世界各国警方利用来破案来提供重要线索的一种技术。美国一年有上亿美元福利款被人用假冒的身份领取。根据m a s t e r c a r d 公司的估计每年大约有4 5 亿美元的信用卡诈骗案发生,其中就包括利用丢失和被盗的信用卡犯罪,如果销售场所可以准确的鉴别持卡人的身份就会大大减少这类诈骗案件发生。另外,由于使用盗窃的身份识另码( p i n ) ,造成的移动电话通信的损失高达数十亿美元。据估计,利用可靠的方法鉴定a t m 持卡人的身份,可以使全美国每年由于a t m 诈骗案件造成的损失减少3 亿美元,可靠的鉴别支票领款人可以减少上亿美元的冒领金额。随着网络的发展非法登陆计算机作案的案南开大学硕士生学位论文域方法中,本文基于线性预测理论采用线性预测编码( l p c ) 参数进行共振峰分析在时域中利用自相关函数进行基因周期的估值。1 2 语音识别系统结构本文设计是基于天津市光电子中心资助项目:互联网中语音、指纹混杂识别系统,该项目是研制用于互联网络中进入通信通道的识别系统由语音识别和指纹识别组成,并把这两种识别有效的融合起来,达到快速和高识别率的特点。由于是视、听两种信息的融合识别,因此对每种识别所需提取的特征要求放宽。两种信息并联处理,提高了速度。此外本研究的应用是小规模库的语音锁( 2 0 人库) ,用下面两个特征就可以达到语音识别和匹配。抽取的特征是:由线性预测系数获得的共振峰数据特征、中央消波自相关法得到的基音周期。所以本文所研究的系统与其他语音识别系统相比具有其自身的特点,选取有效的数目稍少的特征以减少运算量,提高识别速度,经过与指纹识别结合后达到快速和高识别率的特点。我们所研究的语音识别系统分为四大部分:语音信号的采集和预处理,语音信号的分析和特征提取,预先存好的样本参数( 库内入的语音特征参数) ,实时的语音信号特征和库内人特征匹配并输出匹配结果。图1 1 是作者设计的语音识别系统原理图。图1 1 语音识别系统总体结构图4南开大学硕士生学位论文该系统进行语音识别首先要对库内人的语音进行特征抽取,即进行预处理( 包括a d 变换、短时能量检测、过零率检测、语音信号的端点检测等) ;接着进行特征提取,也就是对预处理后的信号运用语音分析方法( 包括共振峰检测、线- 肚预测系数检测、基音周期检测) 得到语音信号的特征参数,用这些参数来代表原始语音信号所携带的信息,通常采用的参数有:短时能量、短时过零率、共振峰参数、l p c 系数等。将这些特征作为样本存入计算机。识别的时候将待识别人的语音进行同样的特征抽取,得到待识别人的话音信号的特征,最后基于模式匹配的原理,将待识别的特征参数与预先存好库内样本的特征参数进行逐一的匹配,找到两者差别最小的作为识别结果。系统的算法采用m a t l a b 6 1 和v i s u a lc + + 6 0 语言实现【2 5 。3 1 1 ,同时在系统自动运行的最后优化阶段完全采用v i s u a l c + + 6 , 0 来编辑界面,达到了用醒目的提示和生动的屏幕动画来完成系统的最后设计,让使用者能够轻松快速熟练的掌握该系统的使用。系统采用采用通用的i b mp c 计算机、c r e a t i v e l 2 8 声卡采集语音信号、采集语音外置设备是采用的广东恒达电器实业有限公司的h d 一1 0 g o o s e n e c km i c r o p h o n e 。南开大学硕士生学位论文 1 【2 【3 4 】【5 】 6 【8 9 】【1 0 】【1 2 参考文献计算机汉字输入方棣棠1 9 8 7c i pp p 7 1 7 7k a i f ul e e ,h s i a o w u e nh o 轧r a jr e d d y a no v e r v i e wo ft h es p h i n xs p e e c hr e c o g n i t i o ns y s t e m i e e et r a n so na c o u n s t i c ,s p e e c hms i g n a lp r o c e s s i n g 1 9 9 0 3 8 ( 1 、:3 5 4 5mj a r d i n om n i f i l i n g n a ls t o c h a s t i cn g r a m c l a s sl a n g u a g em o d e l 皿e ei c a s s p , 1 9 9 6m i nz h o u ,s e i i c h in a k a g a w a s u c c e e d i n gw o r dp r e d i c t i o nf o rs p e e c hr e c o g n i t i o nb a s e do ns t o c h a s t i cl a n g u a g em o d e li e c c et r a mo ni n f o r m a t i o na n ds y s t e m s ,1 9 9 6 ,e 7 9 - d ( 4 ) 。3 3 3 - 3 4 2s e i i c h in a k a g a w a ,l s a om o r a s e c o m p a r i s o no fl a n g u a g em o d e l sb yc o n t e x t - f r e eg r a m m a r b i g r a ma n dq n a s i s i m p l i f i e d - t r i g r a mi e i c et r a n s o nf u n d a r n e n t so fe l e c t r o n i c s ,c o m m u n i c a t i o na n dc o m p u t e rs c i e n c e s ,1 9 9 1 ,e 7 4 ( 7 ) :1 8 9 7 - 1 9 0 5s e i i c h in a k a g a w a ,c o m p a r i s o ns y n t a x - o r i e n t e ds p o k a nj a p a n e s eu n d e r s t a n d i n gs y s t e mw i t hs e m a n t i c - o r i e n t e ds y s t e mi e i c et r a m ,o i lf u n d a m c n t so fe l e c t r o n i c s ,c o m m u n i c a t i o na n dc o m p u t e rs c i e n c e s ,1 9 9 1 ,e 7 4 ( 7 ) :1 8 5 4 1 8 6 2h i t o s h il i d a ,p r o s p e c t sf o ra d v a n c e ds p o k e nd i a l o g u ep r o c e s s i n g i e i c et r a n s ,o ni n f o r m a t i o na n ds y s t e m , 1 9 9 3 ,e 7 6 一d ( 1 ) :2 - 8y a s u h a r aa s a n o ,k e i k i c h ih i r o s e ad i a l o g u ep r o c e s s i n gs y s t e mf o rs p e e c hr e s p o n s ew i t hh i 曲a d a p t a b i l i t yt od i a l o g u et o p i c si e i c et r a m o ni n f o r m a t i o na n ds y s t e m s ,1 9 9 3 ,e 7 6 d ( 1 ) :9 5 1 0 5t s u y o s l f im o r i m o t o i n t e g r a t i o no fs p e e c hr e c o g n i t i o na n dl a n g u a g ep r o c e s s i n gi naj a p a n e s et oe n g l i s hs p o k e nl a n g u a g et r a n s l a t i o ns y s t e mi e i c et r a mo nf u n d a m e n t a l so f e l e c t r o n i c sa n dc o m p u t e rs c i e n c e s ,1 9 9 1 ,e 7 4 ( 7 ) :1 8 8 9 1 8 9 6ykm n t h n s a m y , rac o l e bto s h i k a t h eo g im u l t i - l a n g u a g et e l e p h o n es p e e c hc o r p u si n ;p r o c e e d i n go fi n t e r n a t i o n a lc o n f e r e n c eo ns p o k e nl a n g u a g ep r o c e e d i n g ,1 9 9 2 ,v o i2 :8 9 5 8 9 8a n o ni b mv o i c e t y p e ( t m ) d e v e l o p e r st o o l k i tv e r s i o n3 0f o rw i n d o w s s9 5p r o g r a m m e r sg u i d e i n t e r n a t i o n a lb u s i n e s sm a c h i n e sc o r p o r a t i o np u b l i c a t i o n ,f i r s te d i t i o n ,s e p 1 9 9 6 u s a俞铁城,“用图象匹配法在计算机上自动识别语音”。物理学报,p p , 3 8 9 3 9 5 。v o l2 6 ,n o51 9 7 76南开大学硕士生学位论文 1 3 】俞铁城,“通用实时语音识别系统- - r t s r s ( 0 1 ) ”,物理学报,p p 。5 0 8 - - 5 1 5 ,v 0 1 2 7n o5 1 9 7 8江铭虎朱小燕袁宝宗,语音识别与理解的研究进展,电路与系统学报,1 9 9 9 6、,0 1 4 n o2张世平汉语单音节语音识别清华大学博士论文1 9 8 9赵奎仁汉语单词语音实时识别系统天津大学研究生毕业论文1 9 8 9lr 拉宾纳,r w 谢弗,语音信号的数字处理,科学出版社,1 9 8 3twp a r s o i l s ,文成义,常国岑王化周赖金福译,语音处理国防工业出版社1 9 9 0安屠院等,计算机语音处理,国访工业出版社,1 9 8 7杨行峻迟惠生等,语音洗好数字处理,电子工业出版社1 9 9 5易克初等语音信号处理国防工业出版社,1 9 9 9胡航语音信号处理哈尔滨工业大学出版杜,1 9 9 9l a w r e n c er a b i n e r , b f i n h a w a n gj u a n gf o u n d a m e n t a lo fs p c hr e c o g m d o n 清华大学出版社,1 9 9 9l l e i ,f u j q s a bh p r o s d i cf e a t u r eo fc b i n e s ec o n t i n u o u ss p e e c h i e i c e ,t e c h m c a lr e p o r t ,1 9 9 0 :s p l 9 0 - 1 0 5陈压勇等,m a t l a b 信号处理详解,人民邮电出版杜,2 0 0 1j o h n e 、s w a n k e 著,v l s u a l c + + m f c 扩展编程实例,机械工业出版社,1 9 9 9梁虹,梁洁,陈跃斌等著,信号与系统分析及m a t l a b 实现,电子工业出版社,2 0 0 2赵红怡,张常年著,数字信号处理及其m a t l a b 实现,化学工业出版社,2 0 0 2黄文梅,熊桂权,杨勇著,信号分析与处理,国防科技大学出版社,2 0 0 0d a v i djk m 曲n s b 著,v i s u a lc + + 技术内幕( 第四版) ,清华大学出版社,1 9 9 9王华,叶爱亮,祁立学,曹凌云著,v i s u a lc + + 6 0 编程实例与技巧,机械工业出版社,1 9 9 97钟可蜘硼踟跳伽u刃m铆捌印刁引哪们n”口旺皿心口口口皿瞳口口口南开大学硕士生学位论文第二章音信号的预处理和端点检测让计算机能够处理语音信号,必须对语音信号进行离散化,这可以通过模数转换器实现。要实现一个语音识别系统,首先要解决的问题是,如何准确的采集到所要识别的语音信号,我们称之为语音信号的端点检测,这对于一个可靠的识别系统来说是非常重要的。在特定的条件下( 如隔音室内) 信号的信噪比比较高,语音信号的端点检测借助于能量量度可以很容易的完成。可是对于一般的机房环境,信噪比不是很高,如果在采集语音信号中,包含很多背景噪声,将使提取参数的计算量增加,同时也会使系统的识别率降低,这样我们单靠信号的能量并不能够达到端点检测的目的。为此在实验的基础上,本文提出一种实用的端点检测的方法,这种方法有效的把短时能量和短时过零率两种参数结合起来来实现语音信号的端点检测,具有计算简单及判断准确的优点,并且能够随着背景噪声的变化具有适应性。2 1 音信号采集对语音信号进行离散化,以便于计算机进行处理,为了使离散化的信号能够反映 h 原来的语音信号,根据采样定理,为了不丢失信息,至少两倍于信号带宽对信号进行采样。对于语音信号其频率分布相当广,大约从2 0 h z 到2 0 k h z 。显然采样频率越高,对语音信号的表示越精确,但是同时也将使数据存贮量和数据分析的计算量增大。对于语音信号采样应该遵循下列基本原则:在基本不损失语音主要特征的前提下,尽可能降低采样频率。对语音信号进行采样,只是在时问轴上进行离散化。为了能够用有限的位数表示其幅度,必须进行幅度上的离散化。由于幅度值的量化,必然引进量化误差。对于均匀量化,量化码字中每一位码元对信噪比贡献约为6 d b i ,显然量化码字的位数越高,量化后的信号的信噪比越高,即要求模数转换器有较高的位数,对于语音识别,进行8 b i t 1 0 b i t 量化,基本可以满足实际需要【2 】。本文采用的采样频率是1 1 0 2 5 h z ,每个采样所需的位元数目是8 ,单声道采集。南开大学硕士生学位论文2 2 音信号端点检测本文是基于短时能量和短时过零率两种参数对待测定人的语音进行预处理来准确的找到待分析的语音信号端点【3 _ “。一、短时能量和平均幅度语音信号的短时能量反映了声音幅度的变化。当判断该短时段属于有音还是无音状态时,这个特征很有意义【7 】。定义“短时能量”e 。= 【) ,加0 m 矿( 2 1 )这个表示式可以写为e 。= ) ,2 m 0 一m )( 2 2 )这里 0 ) = w 2 ( n )( 2 3 )将式( 2 i ) 和( 2 2 ) 比较,可以看出前者是属于后者这种通用形式的。又由式( 2 2 ) 可见,该式可由图2 - 1 所示的方框图结构表示。图2 - 1短时能量的方块图表示因此,在给定x ( n ) 时( 这里的x ( n ) 在我们这个系统中就是待识别的话音抽样序列) ,即可以按照式( 2 1 ) 或( 2 2 ) 右侧排出计算程序来计算r ,又可以用图7 2 中所示性能的硬件来实现。本文中采用的是前者方式通过计算机软件编程来实现算法计算的e n 。南开大学硕士生学位论文冲激响应函数h ( n ) 的选择或者等效的说窗函数的选择决定了短时能量表示方法的特点。为了看看窗函数的选择怎样影响短时能量,考虑一下,若( 2 1 )中的h ( n ) 非常长,且为恒定幅度,那么e n 随时间的变化就很小。这样窗函数就等效为很窄的低通滤波器。很明显,需要的是稍微有些低通滤波但是并不是很多,以至输出的是个常数,也就是我们认为短时能量能够反映语音信号的幅度变化。这样需要有一个短时窗( 冲激响应) 以响应快速的幅度变化。但是太窄的窗不能够提供足够的匀化产生平滑的能量函数。在时间依赖能量表示方法中本文我们采用的窗函数是矩形窗,即删如_ 黑弱淼夕此矩形窗的衰减基本上与窗的持续时间无关。因此当增加宽度n 时只减小了带宽。如果n 特别小,即等于或者小于一个基音周期的量级时,e n 将按照信号波形的细微状况而很快地起伏。如果n 特别大,即等于几个基音周期量级时,e 。将很慢的变化,因而也就是不能充分的反映语音信号特性的变化。因为基音周期的持续时间从高音调的女性或者儿童的大约2 0 个抽样( 抽样频率为1 1 0 2 5 h z ) 变化到很低音调的男性的2 5 0 个抽样。考虑到这些问题,在1 1 0 2 5 抽样率n 实际选择在1 1 0 - - 2 2 0 量级是合适的( 也就是1 0 - - 2 0 m s 持续时间) 。由于式( 2 2 ) 中含有平方运算,采用短时能量作为特征具有一定的缺陷,即夸大了大的信号而贬低了小的信号。一个减轻这个缺陷的方法是改用短时平均幅度来代替短时能量【8 】,其定义为m 。= k 劬) w 0 一m )( 2 4 )图2 - 2短时能量平均幅度的方块图表示1 0南开大学硕士生学位论文这里用计算加权了的信号绝对值之和代替平方和,图2 - 2 表明了式( 2 4 )怎样实现成对i x ( n ) 的线性滤波运算。这种去掉平方运算的方法还有一个好处就是使算法得到了简化,对加快了整个系统的运行时间起到一定的作用。二、短时平均过零率一个离散信号序列的过零值是随着时问增长,信号值符号变化( 由正到负或者由负到正) 的次数”。在某既定的时间段内的过零值即短时平均过零率。这个量能够大致的反映信号在短时段内的平均频率。当信号是窄带时,反映的很真实。例如对正弦信号,若所取的短时段是信号的周期,则在短时段内的平均过零率就是2 ( 由正到负和由负到正各一次) 。也就是说这平均过零率除以2 的倒数就是信号的频率( 因现在短时段内的信号周期和频率都是1 ) 。而对于语音信号来说它属于宽带信号,所以用信号的短时平均过零率来反映信号的频率不够真实,但是实用上它仍然是一个重要的特征,本文也就采用了这个重要的特征。过零率的定义的数学表达式是z 。= l s g n k 一s g n k ( 小一o l w ( 一m )( 2 t 5 )其中s g n 【】是符号函数,即有s s n 晰) 】出i i - i :? ? 嚣爿旺6 ,而w o ) :0 一鬯嚣,:( 2 ,)w 坼j 。1 0 臼n 是其他值)犯7 当序列x ( ) 的相邻二值变号时,( 2 5 ) 式1 2 i i 中的值必是+ 1 ,正符合不管何种变号都计算为一过零值的含义。图2 3 是表示出z 。和x ( n ) 关系的方框图。图中低通滤波器的脉冲响应函数是w ( n ) 。根据式( 2 5 ) 排出计算程序,由x ( n ) 得到z 。,也可以参考图2 - 3 利用硬件来完成这项任务。本文中采用的是前者方式南开大学硕士生学位论文计算z n 。图2 - 3 乙和x ( n ) 关系的方框图对于各种语音序列x ( 1 1 ) 的( 短对平均) 过零率。对于有音序列) n ) 的能量集中在较低频部分,对于无音的x ( n ) n 集中在较高频部分。因此测得的过零率较大就可以估计x ( n ) 属于无音,反之属于有音。我们在实验室条件下对短时段l o r e s的大量无音和有音数据测量和实验,得到的一个统计的平均过零率的结果为无音情况下过零率约为在5 0 左右,而有音情况下的只在1 4 左右。三、用短时能量和过零率鉴别话音的起终点在语音识别中,从噪声中将话音的起终点作出鉴别是非常重要的【8 。9 l 。如果能够较准确的鉴别出起终点,就可以只在话音存在的时段作计算,从而减少计算时间,同时更重要的是能够增加语音识别的准确率。所以准确的判断出语音信号的起终点对于我们设计的这套实时语音识别系统来说就更重要了。把短时能量和过零率表示方法结合起来作为确定语音信号的开始和终止的有效算法的基础r i o _ 1 ”。在这个系统中我们在规定的录音间隔内说话人发出声音,对整个期间进行抽样和存储。具体的表示方法是每l o m s 帧 式( 2 5 ) 的过零数目以及用l o m s 窗所计算的平均幅度 式( 2 4 ) ,以1 0 0 次秒的速率对整个记录期间计算这两个函数【1 。假定在这个期间的第一个l o o m s 内没有语音,对这个期1 2南开大学硕士生学位论文间计算平均幅度以及过零率的平均以给出背景噪声的统计特性。这些统计包括短时过零的平均值i z c ,短时能量的平均值i m n ,应用这个统计特性和这个期间内的最大平均幅度i m a x 计算过零率门限i z c t 和平均幅度门限i t l 。z c t = m i n ( 2 5 ,i z c )( 2 8 )i t l = m 矾( 1 1 ,1 2 )( 2 9 )其中i ,= 0 0 3 ( m a x m n ) + 心1 2 = 4 0 i m n其中i m a x ,i m n 分别是语音信号的峰值幅度值及平均能量幅度i t un 、l过零l,xnn 2on on 1图2 4平均幅度和过零率的例子n 2南开大学硕士生学位论文这个算法的描述参考图2 - 4 ,参照平均幅度的轮廓,根据实验室条件下找到u - 一个经常超过一个很保守门限的一段时间间隔( 见图2 4n l 和n 2 之间的部分,其叶 保守门限i t u = 1 0 i t l ,n l 与n 2 是语音信号的平均幅度曲线终两端超过门限i t u 处的两点) ,假定起始点和终止点在都在这个间隔之外。那么从m 。第一次超过门限i t u 那一点倒过来,找到m 。第一次低于一个较低门限i t l 那一点( 在图2 - 4 中标为n ,) ,粗略选为开始点。接着用类似的方法找到粗略的语音信号的终了点n ,。接下来就要比较准确的判断语音信号的起始点和终点了,这一步从n ,向后( 从n 2 向前) 计算过零率,并把它与由背景噪声过零率的统计所定的门限( 图2 - 4 中的i z c t ) 进行比较。这一步操作只限在n l 之前( n 2 之后) 2 5 帧。如果最新测得的过零率超过了门限i z c t 三倍或者更多倍,那么就把开始点n 。向后移到可以超过过零门限第点,否则把n t 定为开始点。终止点的确定也按照类似的方法进行。上面论述的用平均幅度和过零率来鉴别话音的起始点和终止点的方法,在计算机中用v c + + 语言编写出程序来实现,通过大量的实际试验发现这种算法不但运算简单而且更重要的是在我们鉴别语音起始点和终止点的过程中非常的实用。下面图2 5 就是我们实验室条件下采集的语音信号,说话者在规定的时间间隔( 本系统中我们设定的时间间隔是1 5 秒) 内说出“天津”两个字,其中图2 5和图2 - 6 是两个不同人的语音信号图,( a ) 是原始的语音信号,( b ) 是经过上述方法准确检测到起始点和终止点的语音信号图。1 4南开大学硕士生学位论文( b )图2 5 语音“天津”两个字的语音原始波形和鉴别出端点后的波形图t j il- 。1。1旷1一l1南开大学硕士生学位论文参考文献1 1 1r o s s s h e l d o n m 著,s t o c h a s t i c p r o c e s s e se n g ( 随即过程) ,中国统计出版社,1 9 9 71 2 钟玉琢,李树青,林福宗等著,多媒体计算机技术,清华大学出版社,广西科学技术出版社,1 9 9 3 3 d e r r n a t a ss ,f a k o t a k i sd ,k o k k i n a k i sk f a s te n d p o i n td e t e c t i o na l g o r i t h mf o ri s o l a t e dw o r dr e c o g n i t i o ni no f f i c ee n v i r o m n e n t a i n :i e e e ,i m e r n a t i o n a lc o n f e r e n c eo na c o u s t i c ,s p e e c ha n ds i g n a lp r o c e s s i n g c s a l tl a k e ,1 9 9 17 3 3 4 朱杰,韦晓东。噪声环境下基于h m m 模型的语音信号端点检测方法。上海交通大学学报。1 9 9 8 ,3 2 ( 1 0 ) :1 4 ,1 6 5 】lr r a b i n e r , b hj u a n g f u n d a m e n t a lo fs p e e c hr e c o g n i t i o n z m u r r yh i l l ,n e wj e r s e y ,u s a ,1 9 9 3【6 】6sv a no e r v e n , f e ix i e ac o m p a r a t i v es t u d yo fs p e e c hd e t e c t i o nm e t h o d s 【a e u r o s e b c h 9 7 c 1 9 9 7【7 】陈尚勤,魏鸿骏著,模式识别理论及应用,成都电讯工程学院出版社,1 9 8 8 8 】l iw s a l a r i e s u c c e s s i v e e l i n “n a t i o n a l g o r i t h m f o r m o t i o n e s t m a t o ni e e eat r a u s 。o ni m a g ep r o c e s s i n g ,1 9 9 5 ,4 ( 1 ) :1 0 5 - 1 0 7【9 l i ub e d e mz a c c a r i t nan e wf a s ta l g o r i t h m sf o rt h ee s t i m a t i o no fb l o c km o t i o nv e c t o r s i e e et r a n so nc s v i ,1 9 9 3 3 ( 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论