(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf_第1页
(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf_第2页
(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf_第3页
(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf_第4页
(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信号与信息处理专业论文)小波分析在声纹特征参数提取中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

长春工业大学硕士学位论文 摘要 语音信号处理技术是信息社会不可缺少的技术,声纹识别是语音信号处理的一个 重要研究领域。随着信息技术、网络通信和电子交易的迅猛发展,信息安全已成为全 球最为热门的研究领域之一。传统的以密码方式进行身份认证的技术日益暴露出很多 弊端。为确保信息安全,用人特有的生物特征作为认证手段的技术逐渐发展起来,并 形成了新的研究热点。声纹是每个人特有的特征,由于其唯一性,不可替代性,可以 作为鉴别身份的一种重要手段,声纹认证技术也逐渐发展成生物鉴别领域的重要分支。 声纹认证技术可用在电子商务、身份稽查、司法、公安、加密口令、家用电器等很多 领域。 声纹认证即说话人认证是根据获取声音波形中反映说话人生理、心理和行为特征 的特征参数来自动认证说话人身份的技术。声纹认证不是认证语音信号的文字内容, 而是认证发出语音信号的说话人的身份。声纹认证技术是交叉运用了心理学、生理学、 数字信号处理、人工智能、模式识别等知识的综合性研究课题。对现有说话人识别系 统存在问题的分析,主要是因为以前往往采用线性的方法,如频谱分析来分析语音信 号,而这些线性方法只适用于平稳的、一致的、平衡的线性的时问序列,对于非平稳 的、不一致的、非平衡的非线性的语音时间序列,这些传统的线性方法就往往丢掉了 许多蕴涵本质的重要信息。小波分析是近年来出现的新的时频局部化分析方法,具有 其它方法无可比拟的诸多优点,能够更精细地描述语音信号,捕获其中重要的非平稳 信息。基于上述情况,本文主要对小波分析理论在声纹特征提取中的应用进行研究。 首先是在总结前人工作的基础上,详细介绍了声纹认证的基础知识和基本原理,并对 基于短时傅立叶分析的m f c c 参数进行分析。然后针对短时傅立叶分析在提取说话人 特征参数时的缺陷,采用了小波分析,并对小波分析理论和声纹识别技术进行研究, 借鉴了这种基于听觉机理的特征参数m f c c ,利用小波多分辨分析和小波包变换,构 造出了一种基于小波包变换的说话人识别特征参数w p t c c 。 根据实验的要求,本文在普通办公室环境下录制了一个4 0 人的语音库。并通过在 m a t l a b 平台上构建了说话人识别系统( 包括文本有关和文本无关) ,利用矢量量化算法对 提取参数进行识别,验证了w p t c c 参数有效性,实验数据表明识别率均高于m f c c 参数。理论和实验证明,利用小波变换进行提取的声纹识别特征参数相比于传统的短 时分析方法确实具有更好的识别特性。本文的实验也存在着一些不足,该系统对运算 速度要求较高,训练模型的建立时间相对较长。还有待于今后进一步完善。 关键词:声纹识别小波包变换m f c c 参数 长春工业大学硕士学位论文 v o i c e p r i n tr e c o g n i t i o n i so n eo fi m p o r t a n tr e s e a r c hb r a n c h e so fs p e e c hs i g n a l p r o c e s s i n gf i e l d , w h i c hh a sf o u n dm a n ya p p l i c a t i o n s w i t h t h ef a s t d e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g y , n e t w o r kc o m m u n i c a t i o na n de l e c t r o n i c st r a d e , i n f o r m a t i o ns e c u r i t y h a sb e c o m eo n eo ft h eh o t t e s tr e s e a r c hf i e l d si nt h ew o r l d t h et r a d i t i o n a li d e n t i t y a u t h e n t i c a t i o ni nt h ef o r mo fp a s s w o r da l r e a d ye x p o s e sal o to fd r a w b a c k s f o ri n s u r i n g i n f o r m a t i o ns e c u r i t y , t h et e c h n o l o g yo fu s i n gp e o p l e sp e c u l i a rb i o l o g i c a lf e a t u r ea st h e a u t h e n t i c a t i o nh a sd e v e l o p e dg r a d u a l l ya n db e c o m e st h en e wr e s e a r c hh o t s p o t v o i c e p r i n ti s e v e r y b o d y sp e c u l i a rf e a t u r ew h i c hc a nb er e g a r d e da sa ni m p o r t a n tm e a n s t od i s t i n g u i s ht h e i d e n t i t yb e c a u s eo fi t su n i q u e t h et e c h n o l o g yo fv o i c e p r i n tr e c o g n i t i o nc a nb eu s e di nt h e f i e l d so ft h ec a 瑚衄l c l ,i d e n t i t yc h e c k , a d m i n i s t r a t i o no fj u s t i c e , p u b l i cs e c u r i t y , c 州哪 p a s s w o r d s ,h o u s e h o l da p p l i a n c e s ,e t c v o i c e p r i n tr e c o g n i t i o ni s at e c h n o l o g yo fa u t o m a t i ci d e n t i t ys p e a k e r sa u t h e n t i c a t i o n a c c o r d i n gt oo b t a i nt h ef e a t u r ep a r a m e t e rw h i c hr e f l e c t i n gm e n t a la n dp h y s i o l o g yi nv o i c e f o r m v o i c e p r i n tr e c o g n i t i o nr e c o g n i z e ss p e a k e r s ,a n di td o e sn o tr e c o g n i z ec o n t e n t so ft h e p r o n u n c i a t i o ns i g n a lo fs p e a k e r , b u tt h ei d e n t i t yo ft h es p e a k e r so ft h ep r o n u n c i a t i o ns i g n a l t h ev o i c e p r i n tr e c o g n i t i o nt e c h n o l o g yi sac o m p r e h e n s i v er e s e a r c h i n gs u b j e c tt h r o u g hu s i n g l o t so fk n o w l e d g e ,s u c ha st h ep s y c h o l o g y , p h y s i o l o g y , d i g i t a ls i g n a lp r o c e s s i n g , a r t i f i c i a l i n t e l l i g e n c e ,p a t t e r n r e c o g n i t i o n ,e t c a n a l y z i n g t h ee x i s t i n gp r o b l e m si nt h es p e a k e r r e c o g n i t i o ns y s t e m s ,w ek n o wt h a tt r a d i t i o n a ll i n e a rf e a t u r e sa r em a i n l yb a s e do nf r e q u e n c y a n a l y s i s a n dt h ea s s u m p t i o n su s e dt oe x t r a c tt r a d i t i o n a ll i n e a rf e a t u r e sd on o td e s c r i b et h e n o n l i n e a rd y n a m i ce v o l u t i o no ft h es y s t e m ,m e r e l ya p p l yt ot h es t e a d y 、c o h e r e n ta n d b a l a n c e dl i n e a rt i m es e r i e s ,t h e yg e n e r a l l yi g n o r e dt h em o s ti m p o r t a n ti n f o r m a t i o n ,w h i c h c o n t a i n e dt h ee s s e n c eo ft h eu n s t e a d y , i n c o h e r e n ta n du n b a l a n c e dn o n l i n e a rt i m es e r i e so f s p e e c h 。c o m p u t a t i o nc o m p l e x i t yf e a t u r ec a n e x t r a c tt h a tn o n l i n e a rc h a r a c t e ro fs p e e c hs i g n a l , w h i c ho v e r c o m e st h ed i s a d v a n t a g eo ft h et r a d i t i o n a ll i n e a rf e a t u r ee x t r a c t i o nm e t h o d w a v e l e ta n a l y s i si san e wt i m e f r e q u e n c yl o c a l i z a t i o nm e t h o dw i t hm a n ya d v a n t a g e st h a t c a nn o tb ef o u n di no t h e rm e t h o d s ,b e i n ga b l et od e s c r i b es p e e c hs i g n a lm o r es u b t l ya n dt o c a p t u r et h eu n s t a b l ei n f o r m a t i o ni nt h es p e e c hs i g n a l t h e r e f o r e ,t h i sp a p e rm a i n l ys t u d i e s t h ea p p l i c a t i o no fw a v e l e ta n a l y s i st h e o r yi nv o i c e p r i n tr e c o g n i t i o n o nt h i sb a s i so f s u m m a r y t h ew o r ko ft h ep e o p l eo fp a s t ,t h i sp a p e rh a si n t r o d u c e dt h eb a s i ck n o w l e d g eo f v o i c e p r i n tr e c o g n i t i o na n db a s i cp r i n c i p l e i nd e t a i la tf i r s t t h e nw ea n a l y z es ,r f r ( s h o r t t i m e f o u r i e rt r a n s f o r m ) a n dw a v e l e tt r a n s f o r m f o rs r f th a v i n gi n e v i t a b l e d i s a d v a n t a g ei na n a l y s i so fu n s t a b l es i g n a ls u c ha ss p e e c hs i g n a l ,a sar e s u l to fs t u d yo n h 长春工业大学硕士学位论文 w a v e l e tt h e o r ya n dv o i c e p r i n tr e c o g n i t i o nt e c h n i q u e s , t h ef e a t u r ep a r a m e t e r , w p t c c ( w a v e l e tp a c k e tt r a n s f o r mc e p s t r a lc o e f f i c i e n t s ) i sg o tb a s e do nw a v e l e tt r a n s f o r m t h i s p a r a m e t e rd e r i v e sf r o mt h e s et h e o r i e si n c l u d i n gw a v e l e ta n a l y s i s , w a v e l e tm u l t i - r e s o l u t i o n a n a l y s i sa n dw a v e l e tp a c k e ta n a l y s i s , a l s oac o n v e n t i o n a lf e a t u r ep a r a m e t e r , m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) ,w h i c hb a s e d o nh u m a na u d i t o r ym e c h a n i s m a c c o r d i n gt oe x p e r i m e n t a lr e q u i r e m e n t , ar e a l4 0p e r s o n ss p e e c hl i b r a r yi sb u i l t a v o i c e p r i n ti d e n t i f i c a t i o ns y s t e m , w h i c hi sb u i l tb ym a t l a bt o o l sa n dc a ni d e n t i f yas p e a k e r w h e t h e ri nt h em o d eo ft e x t - d e p e n d e n to ri nt e x t - i n d e p e n d e n t ,s h o w st h a tt h ee f f i c i e n c y u s i n gt h en e wf e a t u r ei sh i g h e rt h a nt h a tu s i n gt h em f c c f e a t u r ep a r a m e t e r t h e o r ya n d e x p e r i m e n ta l lt e s t i f yt h a tt h er e c o g n i t i o np e r f o r m a n c e so ft h i sn e wf e a t u r ep a r a m e t e ri n v o i c e p r i n tr e c o g n i t i o ns y s t e me x t r a c t e db yw a v e l e ta n a l y s i sm e t h o da r eb e t t e rt h a nt h a to f f e a t u r ee x t r a c t e db ys h o r t - t i m e a l y s i sm e t h o d b u tt h ee x p e r i m e n te x i s t ss o m es h o r t a g e s : t h es y s t e mr e q u e s t sah i g h e rc a l c u l a t i o ns p e e da n dt r a i n i n gt h em o d e l st i m ei sl o n g e r s ot h i s s y s t e ms t i l ln e e dt oh ei m p r o v e do ni nt h ef u t u r e k e y w o r d s :v o i c e p r i n tr e c o g n i t i o n ,w a v e l e tp a c k e tt r a n s f o r m ,m f c cp a r a m e t e r 1 1 1 长春工业大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经 发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律结果由本人承担。 论文作者签名:缓 日期:2 0 0 7 年3 月2 0 日 长春工业大学硕士学位论文 第一章绪论 语音是人类最重要、最有效、最常用和最方便的信息传递手段。因此,语音信号 处理的研究也日益显示出它的重要性。大体上说,语音处理的研究可以分为以下几个 方面:即语音分析、语音编码、语音合成和语音识别等。其中语音识别又可以分为说 话语音内容的识别( 一般称为语音识别) 、说话人的识别和语种识别三种。说话人识别 ( s p e a k e r r e c o g n i t i o n ) 又称“声纹识别”( v o i c e p r i n t r e c o g n i t i o n ) ,目的就是能“闻声 知人”,它是生物识别技术的一种,能够从语音波形中提取出反应说话人个性特征的语 音参数,通过对这些个性特征的分析和识别,从而到达对说话人进行辨认或者确认的 目的。说话人识别技术虽然在近二十年得到了迅速发展,但仍然有许多问题需要解决, 其中最关键的问题是,究竟用语音信号的那些特征或特征变换来表征说话人才是有效 而可靠的? 1 1 声纹识别研究背景及研究现状 l 。1 1 研究背景及意义 网络信息化时代的一大特征就是身份的数字化和隐性化。传统的身份鉴别手段, 如钥匙、证件、密码等容易遗忘或记错,且无法区分真正的拥有者和取得上述身份标 识物的冒充者,成为信息安全的隐患。由此,生物特征识别技术应运而生,它通过计 算机利用人体所固有的生理特征或行为,如声音、指纹、脸相、虹膜、笔迹和步态等 进行个人身份鉴定,在安全等诸多方面优于传统的身份鉴定手段“。 因为语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天行成的 行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说 话人成为可能。而声纹识别与其它生物识别技术相比较,具有不会遗失和忘记、不需 记忆、使用方便等优点外,还具有以下特性: 1 ) 用户接受程度高,由于不涉及隐私问题,用户无任何心里障碍。 2 ) 利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价 低廉,甚至无费用( 如电话) ,而其它生物识别技术的输入设备往往造价昂贵。 3 ) 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与 其它生物识别技术相比,声纹识别更为擅长、得天独厚。 声纹识别的以上优势使其在生物特征识别领域中占有重要地位,其应用不仅可以 使系统的信息安全进一步得到保障,还可以给使用者带来极大方便,提高系统运营商 的经济效益。由于其容易采集,非侵犯性,可以用于公共通信线路监听等特点,它同 益受到各国安全部门的重视“。因此,声纹识别技术的研究对未来生物特征识别技术 长春工业大学硕士学位论文 及网络信息安全化的发展有着重要影响。 在世界范围内,声纹识别技术正广泛应用于诸多领域。到2 0 0 3 年初,声纹识别产 品的市场占有率为1 9 ,仅次于指纹识别和掌形识别。目前,我国市场尚属启动阶段, 其发展空间更为广阔,在金融、证券、社保、公安、军队及其它民用安全认证等行业 和部门有着广泛的需求: 1 ) 用于银行、证券系统 随着电话银行、远程炒股等业务的不断增加,这些业务对用户所作的身份认证只 是采用密码方式,其安全性令人担忧。如果采用声纹识别技术并结合密码,可安全有 效地实现用户身份地确认,对用户来说,并未增加什么负担。 2 ) 为网络安全出力 现在人们越来越多地依赖于口令和密码,而随着不同场合的频繁应用其缺陷却越 发明显。在声纹识别过程中,如果每次发音都由随机产生的提示文本来控制,可有效 地防止复制和剽窃,为日益发展的电子购物、电子商务、国际贸易保驾护航。 3 ) 为破案立功 对于各种电话勒索、绑架、电话人身攻击等案件,声纹识别技术可以在一段录音 中查找出嫌疑人,帮助对嫌疑人的查证。在美国,有关机构还利用这一技术来判断监 外执行人员是否在其寓所中。 4 ) 在军队安全系统中的应用 声纹识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继而对交谈的 内容进行处理。另外,在通过电话发出军事指令时,可以对发出命令的人的身份进行 确认。 虽然以上所罗列的并不完全,但却给出了声纹识别的基本应用类型和一些典型应 用。目前信息化时代已经到来,声纹识别功能的系统极具竞争力,对声纹识别系统产 品化的要求极为迫切;而且计算机芯片性能的提高也为计算密集的声纹识别技术的应 用化提供了可能,因此声纹识别技术已经成为目前身份认证及信号处理领域研究的一 个热点,具有美好的应用前景。 1 1 2 现状与进展 对说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨实验 和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单 纯的人耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图进行识别,提出了“声纹 ( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别 人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和概率统计方差 分析的说话人识别方法,而引起信号处理领域许多学者的注意,形成了声纹识别研究 2 长春工业大学硕士学位论文 的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱 和线性预测分析等方法应用于声纹识别。 6 0 年代至今,声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及 新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和 多特征组合等技术。表卜1 列出了一些声纹识别技术发展中的一些主要工作。 表卜1 声纹识别技术的研究进展状况 技术类型年代研究人员和主要研究内容 主观识别 1 9 6 2 l g k e s t a 以视觉观察为基础,论证了采用“声纹”识 别说话人的可能性 主观识别 1 9 6 2 s p r u z a n s k y 采用模式匹配原则将三维语谱图应用于 说话人识别研究 特征提取 1 9 6 3w a h a r g r e a v e s 采用带通滤波器组的方法进行研究 特征提取 1 9 6 4 s p r u z a n s k y 等采用方差分析的方法进行研究,提出了 著名的f 比公式 特征提取 1 9 6 8 j w g l e n n 研究反应发音器官生理特点的鼻音材料 特征提取 1 9 7 2 b s a t a l 研究基音轮廓参数 特征提取 1 9 7 3 m r s a m b u r 将线性预测引入说话人识别 特征提取 1 9 7 4 b s a t a l 研究并比较了线性预测系数、声道冲激响应、 自相关系数、声道面积函数以及倒谱系数的有效性 特征提取 1 9 7 6u g g o l d s t e i n 研究共振峰轨迹参数 特征提取 1 9 7 7j d m a r k e t 等研究基音、增益和反射系数等的长时间 平均特征,探讨与文本无关的说话人识别方法 模式匹配 1 9 8 5 f k s o o n g 等提出基于矢量量化的识别方法 模式匹配 1 9 9 1f u r u i 等利用隐马尔可夫模型和矢量量化相结合的方 法进行与文本无关的大词汇量的说话人识别研究 模式匹配9 0 年很多科学家利用多种神经网络模型及各种匹配模型的 代初组合进行大量的研究探索,并取得了一些较好结果 特征提取9 0 年小波变换等时频分析方法应用于语音信号的分析,科 代初 学家开始探索谈磐方法存说话人识别中应用的可行件 长春工业大学硕士学位论文 如今,声纹识别技术已逐渐走入实际应用,a t t 应用声纹识别技术研制出了智慧 卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用声 纹识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n d t e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了p i c a s s o ( p i o n e e r i n gc a l l a u t h e n t i c a t i o nf o rs e c u r eo p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时, m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中 通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括:i t t 公司的s p e a k e r k e y ,k e y w a r e 公司的v o i c e g u a r d i a n ,t n e t i x 公司的s p e a k e z 等。 国内开展声纹识别研究比较早的机构有北京大学、中科院声学所、中科院自动化 所、清华大学等,并先后得到了国家自然科学基金重大和重点项目、攀登计划等基金 的支持,取得了丰硕的研究成果。 1 2 声纹识别的技术方法 每一说话人的语音信号既表征语音内容又表征说话人身份。在文本无关方式下, 我们希望这些特征主要以说话人个性特征而不是以语音文本共性特征的形式去充满特 征空间。假如有足够的语音信号,我们就可找到一种很好的形式来表征说话人产生的 声音、而最终的目标是在特征空间获得说话人的模式模型或模式描述,以便使用待识 别语音来识别说话人。 语音信号通常以8 k h z 或更高的速率数字化,每个采样至少用8 比特,几秒的语音 就有很大的数据量。提取声纹特征的过程,类似于对语音信号编码以减少数据量的过 程。 在文本无关方式下,说话人语音特征一般用倒谱参数表征倒谱是信号的f f t 谱取 对数后的逆f f t 变换,它可将信息量较小的峰值信息和更重要的声道形状信息相分离, 是目前普遍采用的声纹特征参数。倒谱系数也可由线性预测系数推得,称为线性预测 倒谱,它是语音帧倒谱的自相关序列。与直接计算倒谱相比,线性预测倒谱的计算量 较小。对大多数语音信号来说,全极点模型能很好地模拟声道的效应。然而对于鼻音 和摩擦音,往往需要零极点模型才能更好地模拟声道的效应,所以a r m a 模型和加权倒 谱a c w 也己被用来提取说话人语音特征。利用发音机理,p l u m p em 等进行了基于声门 特性的说话人特征提取。听觉模型也己被用于声纹特征参数提取和说话人识别中,利 用听觉频率非线性特性的美尔( m e l ) 倒谱和感知线性预测p l p 则是两种常见的考虑听觉 特性的说话人特征。 目前大多数的说话人特征提取方法都利用了语音信号的短时平稳特性,并认为语 音信号的相邻帧l 日j 相互独立,这样的特征提取方法丢失了语音信号的动态特征,随着 时频分析、小波分析等信号处理方法的出现,人们开始研究了利用说话人语音动态特 4 长春工业大学硕士学位论文 性的说话人特征提取方法。其他的说话人特征提取方法也有研究,如用混沌分维数来 作为说话人的辅助特征,利用傅立叶贝塞尔展开等。由于声纹识别的大部分应用 与电话信道有关,导致大部分特征提取方法注重语言信号低频特性的研究。己有人在 强噪声背景下研究语音信号的高频特性以丰富说话人特征,考虑噪声条件和信道特性 补偿的鲁捧性说话人语音特征提取,则是目前声纹特征提取研究的热点。 虽然说话人语音特征提取已由简单统计特征的提取发展到涉及倒谱分析、时频分 析、小波分析、模糊、混沌、遗传算法等现代信号处理方法、但说话人语音特征的提 取仍是一个有待解决的重要问题 1 3 声纹识别存在的问题 与语音识别相同,声纹识别目前的最大问题是如何提高实用环境下系统的鲁棒性。 经过多年的研究,实验室环境下的声纹识别系统的性能已经达到了一个相当高的水平。 以d - e a r 公司的声纹鉴别产品为例,说话人识别率已经能够达到9 0 以上,而一些国 外说话人系统的识别率更高达9 5 1 0 0 。然而在实际应用中,由于应用环境的复杂性, 各种干扰因素( 如背景噪声影响、回声影响和信道影响等) 所带来的训练条件和测试条 件的不匹配性往往导致系统性能的严重下降。因此,如何提高系统对各种干扰因素的 自适应性,即提高系统的鲁棒性,就成为声纹识别技术走向实用性的关键因素。 目前有三种基本的方法来解决说话人识别系统的鲁捧性问题”“”。:语音增强方 法、噪声环境下的模型补偿方法和鲁棒性说话人特征参数方法。 语音增强是在说话人识别系统的前端预处理中对语音信号进行去噪,提取原始纯 净语音的过程。目前常用的语音增强算法包括基于统计模型的信号估计,线性和非线 性的谱相减等方法。这些传统算法在实际应用中可以起到一定的消噪作用,但由于语 音信号的复杂性和非平稳性,特别是清音没有明显的时域和频域特征,这些语音增强 算法还不尽人意。而且,由于语音增强和说话人识别的目的不同,有些语音增强效果 良好的算法可能不会明显地提高说话人识别系统的性能。 噪声环境下的模型补偿方法是指通过修正纯净语音下训练的说话人模型,调整说 话人模型参数,使得新的说话人模型适应噪声环境的一种方法。它的原理来源于模型 分解。通常,模型补偿方法对加性噪声和卷积噪声的效果很好,但缺点是计算量比较 大而且效果与背景噪声的准确估计有关,而背景噪声的准确估计本身就是一个难点问 题。 鲁棒性的说话人特征参数方法是指通过提取对环境噪声等干扰因素不敏感的特征 参数来解决说话人识别系统鲁棒性的方法。由于特征提取是说话人识别系统中最重要 的环节,声纹识别技术所依赖的就是澄话人特征参数的表征性、一致性和有效性。如 果在语音信号分析中能够提取出对各种干扰因素都不敏感的说话人特征参数,即使应 长春工业大学硕士学位论文 用环境非常恶劣,系统也能得出正确的识别结果。所以,国内外的许多学者都认为, 提取具有鲁棒性的说话人特征参数是解决说话人识别系统鲁棒性的最终途径。 除鲁棒性问题外,与语音识别不同的是,说话人识别系统还存在下述一些关键问 题吐 ( 1 ) 说话人识别的信息来源于说话人所说的话,其语音信号中既包含了说话人所说 话的内容信息,也包含了说话人的个性信息,是话音特征和说话人个性特征的混合体, 而目前又没有好的方法将说话人的特性从说话人所发语音的语音特征中分离出来,从 而给说话人识别带来一定的难度。 ( 2 ) 说话人的发音常常与环境、情绪、健康状态有密切关系,说话人的语音特征r 声 纹”) 与“指纹”不同:指纹是静态的、固定不变的物理特性,而说话人语音特征具有 长时变动特性,会随着时间和年龄的变化而变化。这种长时变动特性从本质上会使说 话人的特征空间发生移动,使说话人模式产生变异,从而增加识别过程中的不确定性。 ( 3 ) 在语音识别中,全体音节的集合较小,其数目仅几百个,而说话人却远远超过 这个数目。因此,随着说话人识别系统规模的扩大,说话人有限特征空间的划分更 加复杂。另外,说话人的发音往往可以模仿,有时人耳都很难分辨,这也使得 特征空间的划分更加困难。 上述问题的存在使得说话人识别相对于语音识别来讲更加困难。文献”1 指出,大 部分说话人识别存在的问题都可以归结为说话人特征提取的有效性,所以问题的解决 从根本上依赖于寻找出真正体现说话人个性,并且具有鲁棒性的说话人特征参数。基 于上述观点,为从根本上提高说话人识别系统的鲁棒性和说话人识别率,许多研究开 始投入到寻找并构建能够更好地刻画说话人信息的特征参数方面,使之成为说话人识 别的一个研究热点,每年国际上都有许多这方面的文章发表“。 1 4 小波分析理论在声纹识别中的应用 。 小波分析是近二十年来发展起来的新的信号分析手段“,因其良好的时频分析 性质和较低的计算复杂度在非平稳信号处理方面得以广泛应用。 从严格意义上讲,语音信号不是平稳的,但其可以被假定为是短时( 1 0 m s 3 0 m s ) 平稳的,因此传统的语音分析技术在这种短时平稳假定的基础上,采用短时傅立叶变 换( 也称为固定窗傅立叶变换) 获取时频局部化信息。但由于受h e i s e n b e r g 测不准原 理的制约,其时频分辨率不可能同时都很高,其结果将严重影响语音信号这种非平稳 信号的分析和处理。小波分析为解决这一问题提供了新的途径。小波变换不但在时域 和频域同时具有良好的局部化特性,而且对高频成分采取逐渐细分的时域和频域步长, 从而可聚焦到任意细节,提取出语音信号中携带的丰富的非平稳信息。而且,在小波 变换的基础上,小波包变换能够为语音信号提供一种更加精细的分析方法,可以将信 长春工业大学硕士学位论文 号的高频频带进一步划分,并能够根据信号的频率特点自适应地选择划分方式,使之 与语音频谱相匹配。同时,小波变换和小波包变换都属于子带分析技术,许多文献表 明,子带分析技术可以提取出具有较强抗噪能力的特征参数“”“”,因此,由小波分析 得到的特征参数是鲁棒性特征参数。 此外,通过对人耳的听觉模型的研究表明“:耳蜗内的基底膜,其作用相当于一 组建立在薄膜振动基础上的并行带通滤波器,这些滤波器的脉冲响应保持常q 系数, 即除在时间轴上平移外,滤波器的中心频率与带宽之比近似不变。这一点与小波的计 算特性相似,因此小波分析能够模拟人耳耳蜗的滤波特性,使语音分析以更接近人耳 听觉特性的方式进行。 再者,小波分析理论中的奇异点检测为语音信号的增强提供了一种方法。这种方 法应用小波变换的多分辨率特性将语音信号和噪声分离,达到语音增强的目的,有利 于后续语音信号的相关处理n 明n 刀n 明。 基于以上优势,使得小波分析理论在语音信号分析和处理的不同层面上得以广泛 应用,除语音增强外,许多学者还在基于小波的语音压缩编码、基音提取、语音包络 提取和语音识别特征提取等方面作了大量工作,收到了较好效果”1 。 说话人识别属于语音信号处理的范畴,识别系统性能的提高从根本上取决于语音 分析的成效。从这一点考虑,作为语音分析的有效手段,小波分析理论应该在说话人 识别领域有所作为。 目前,研究者们开始尝试应用小波分析理论提取声纹特征参数“”“。初步研究 发现,对于那些平稳性很差的“速变”语音段,如爆破音和塞擦音等,小波( 包) 变换 可以保留一些非常重要的说话人信息,而不会像短时傅立叶变换一样导致信息的丢失。 同时,特定分辨率下的小波( 小波包) 系数的抗噪性能很强,在提高说话人识别系统的 鲁棒性方面有较大的应用潜力 但目前存在的问题是小波分析不易构建出传统意义上的特征参数,小波基的选择 也是随意的,没有考虑到语音信号本身的特点。此外,几乎所有的研究中,基于小波 分析的说话人特征参数都是同语音识别中所应用的特征参数相一致的,没有考虑到说 话人识别和语音识别的重大区别,缺乏对说话人特性在小波域分布状况的研究。 除应用于说话人特征提取外,小波分析理论还可以应用于说话人识别的前端预处 理过程中,利用它的奇异点检测原理进行语音增强,改善进入说话人识别系统的语音 的质量,以提高系统的识别率。 总体上讲,小波分析在语音处理方面已经显示出优势,在声纹识别方面也表现出 很大的发展潜力,但目前存在着一些问题( 如上所述) ,必须在今后的研究中加以解决。 如果能够成功地将小波分析理论应用到声纹识别中,无疑将会给声纹识别带来新的生 命力。 长春工业大学硕士学位论文 第二章声纹的特征及评价方法 在语音信号中,包含着非常丰富的特征参数,不同的特征向量表征着不同的物理 和声学意义。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了一个 不适合的参数,即此参数不能很好地表征说话人的个性特征,则此系统毫无疑问将是 失败的:如果选择了好的特征参数,将有助于提高系统的识别率。特征选取往往都要舍 去语义信息而保留个人特征信息。声音中所包含的个人特征信息有两种,一种是声道 长度、声带等先天性发音器官的个人差别所产生的;另一种是由方言、语调等后天性 讲话习惯产生的。 2 1 声纹识别的生理学依据 人的发声系统构造复杂,由肺、气管及支气管、声门( 声门即声带开口处) 、喉腔、 咽腔、口腔及鼻腔等部分组成。这套系统又分为三个子系统:一般把声门以上,经咽 喉、口腔( 舌、唇、愕、小舌) 的这一管道称主声道;而经小舌和鼻的这一管道称为鼻道; 经肺、支气管和气管的管道称为次声门系统或声门下系统。 这套系统发出声音的过程如下:人发音时由肺部收缩送出一股气流经气管流至喉 头声门处,在发声之初,声门处的声带肌肉收缩导致声带并拢,间隙缩小( 小于l m m ) , 这股气流冲过这很小的缝隙使声带得到横向和纵向的力,此时声带向两边运动使其间 的缝隙增大( 资料表明成年男性开到最大时截面积约为2 0 m m 2 ) 。之后声门处压力下降, 声带的弹性恢复力将其拉回平衡位置并继续趋向闭合,从而声带产生振动,而且具有 一定的振动周期。由声带振动激发声道中空气发生振动,并从口和鼻两处向外辐射产 生声音。而构成主声道及鼻道分支的器官,在人发出语音时,在声道的肌肉运动作用 下组成一定的声道位形,从而发出特定音色的语音。 从生理构造上看,组成发声系统的各器官在尺寸、内壁形状、肌肉力度等等各方 面都会或多或少地因人而异,即使是双胞胎也不会完全一模一样( 虽然可能极度相似) , 而这种差异会导致人在发音时产生的气流的强弱以及这股气流在通过由语音产生的生 理基础和声学实验可知,一个人的声音具有相对稳定性,同时又具有不同于他人的特 殊性,这正是说话人识别的物理基础。声门及声道在发声时的运动参数有所差异,从 而导致所发出来的声音音质不同,找出这些差异就能分辨不同的人发出的声音,这就 是声纹识别的生理学依据。当然,也有不少研究者指出说话习惯( l k 如口音、对个别字 词咬字习惯、口头禅等等) 及说话人的性格等因素也可以在声纹特征中体现出来,而一 些内在或外在的因素比如特定的心理状态、疾病的影响、外部环境的影响及有意模仿 等都会对说话人的语音特征产生或多或少的影响。 8 长春工业大学硕士学位论文 2 2 声纹主要特征 通过声音分辨说话人,首先要解决的问题就是找出语音信号中那些对于同一个说 话人来说是共性但对不同的说话人来说是个性的特征分量。这些分量既包括反映发音 系统生理构造的特征,也包括受后天及环境因素影响所产生的韵律、节奏、速度、语 调、音量、语义、修辞、发音、言语习惯等特征,虽然后者相对于前者而言特定性和 稳定性要差一些,部分特征会由于种种因素的影响而改变或有意伪装,但在实际的声 纹分析工作中,这些特征大多是结合使用的,只是某些特征在应用时要受到一些特定 条件的限制。 从语音信号中提取的说话人特征参数应满足以下准则:对局外变量( 例如说话人的 健康状况和情绪,系统的传输特性等) 不敏感;能够长期地保持稳定;可以经常表现出 来;易于对之进行测量;与其他特征不相关。同时满足以上要求的特征通常不易找到, 一般要采取一些折衷措施。 2 2 1 基音周期 音调是一个独立的参数,它是指发浊音时声带振动产生的周期性。声带振动产生 一个周期冲激序列,通过声门脉冲滤波器后到达声道,这个冲激序列的周期从取决于 基音频率f 。和语音采样频率f s ,n o = f 。f o 。当对说话人采用相同的采样频率时,n 。就取决 于f 0 ,所以基音就能较好地刻画出不同人各自的声带特性。浊音信号是一种准周期性 信号,其周期称为基音周期。由于它只是准周期性的,所以只能采用短时平均方法估 计其周期,基音周期估计也常称为基音检测( p i t c hd e t e c t i o n ) 。 语音信号包含十分丰富的谐波分量,基音频率最低可达8 0 h z 左右,最高可达5 0 0 h z 左右,但基音频率处在1 0 0 2 0 0 h z 的情况占多数。因此,浊音信号可能包含有三四十 次谐波分量,而其基波分量往往不是最强的分量。因为语音的第一共振峰通常在3 0 0 1 k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论