(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf_第1页
(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf_第2页
(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf_第3页
(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf_第4页
(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf_第5页
已阅读5页,还剩99页未读 继续免费阅读

(信号与信息处理专业论文)鲁棒的与文本无关的说话人识别算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要说话人识别技术与其他生物识别技术相比,具有更为简便、经济和更好的可扩展性等优点。目前的说话人识别系统对纯净语音已经可以达到很高的识别精度,但当用于识别的语音存在失真时,系统的识别性能显著下降。实际应用中造成语音失真的因素非常多。因此,提高识别系统的鲁棒性是说话人识别技术走向实用化的关键。本文从鲁棒性特征分析提取和优选、噪声失真补偿、说话人预分类等几个方面展开研究,提出了改进算法,取得了一些研究成果。本文在介绍说话人识别中常用的语音特征参数和典型的说话人分类模型的基础上,特别分析了感知线性预测倒谱系数( p l p c c ) 参数的特点和提取方法,比较了几种参数在与文本无关的说话人识别中的性能,得到了基于p l p c c 语音特征参数和高斯混合模型( g m m ) 的系统具有更好的性能的结果。并根据g m m 和人工神经网络( a n n ) 模型的特点,提出了一种基于a n n 和g m m 模型联合得分判别的识别方法,在一定程度上提高了识别性能。在分析和研究基音同步分析方法和鉴别性特征参数选取方法的基础上,提出了基于语音基音同步分析特征参数提取和f i s h e r 比特征参数矢量分量优选降维的说话人识别算法。该算法采用基音同步分析方法提取各帧语音的p l p c c 及其a p l p c c 特征参数,再利用f i s h e r 比对由基音p 、1 2 阶p l p c c和a p l p c c 组成的特征参数矢量的各维分量进行优选。使最终的特征参数矢量得到降维。与文本无关的闭集说话人识别仿真实验表明:语音基音同步分析特征参数提取和f i s h e r 比特征参数矢量分量优选降维可以提高识别系统性能:本算法与通常的算法相比,其识别率和鲁棒性得到了提高。而有效降低了模型的复杂度。训练条件与测试条件的不匹配是导致说话人识别系统性能f 降的一个重要原因,而噪声是引起这种失配的主要因素之。提高系统在噪声环境下的性能的一个重要方法就是对噪声进行补偿,使失配减小。本文在仔细分析短时语音频谱结构特征的基础上,提出了一个基于浊音语音谐波频谱子带加权重建的抗噪声说话人识别算法。该算法针对浊音语音谐波频谱结构的特征,对受噪声污染的浊音频谱在各个谐波带上根据信号能量和谱平坦度测度实施加权重建,然后基于重建的浊音频谱提取相应的p l p c c 参数,在参数域上实现对噪声的补偿。仿真结果表明,该算法可以对多种类型的含噪语音进行良好的噪声补偿,明显提高在噪声环境下的说话人识别率,特别是低s n r 环境f 的识别率,噪声补偿性能明显优于谱减法和倒谱均值相减法的补偿方法。语音的基音特征也是一种具有一定鲁捧性的语音特征参数。本文研究了基音提取方法及其在说话人识别中的应用。在分析已有的基音检测算法的基础上,本文提出了几种改进的基音检测算法:( 1 ) 基于倒谱修正模型的语音基音检测算法,( 2 ) 改进的平均幅度差函数语音基音检测算法,( 3 ) 基于小波变换的含噪语音基音检测的改进算法。实验结果表明,本文提出的改进算法t 对应的基本算法及其相失改进算法相比,基音检测精度特别是在噪声环境f 的基音检测精度有了不同程度的提高。另外,基音在说话人识别中应用的仿真结果也表明:基音与倒谱类特征参数p l p c c 、m f c c 、l p c cl东南大学博士学位论文的组合应用,可以提高识别系统的识别率和鲁棒性。本文还就基于性别特征和年龄特征的说话人分类问题进行了研究。针对成年说话人性别的分类问题,提出了一个基于基音与r a s t a ,p l p c c 组合特征参数和g m m 模型的改进算法,获得了很高的分类精度和很好的鲁棒特性。针对儿童与成年说话人的分类问题,提出了一个采用基音、共振峰、r a s t a - p l p c c 及其差分r a s t a - p l p c c 参数为组合特征参数的分类算法实验结果充分显示出该算法在儿童与成年说话人分类上的有效性。关键词:说话人识别;感知线性预测倒谱系数;基音同步分析:噪声补偿;浊音频谱;基音检测:性别分类a b s t r a l :ta b s t r a c ts p e a k e rr e c o g n i t i o nt e c h n i q u ep r e s e n t st h es p e c i a la d v a n t a g e so ff l e x i b i l i t y ,e c o n o m i z a t i o na n de x p a n s i b i l i t yc o m p a r et oo t h e rb i o l o g i cc h a r a c t e r sr e c o g n i t i o nt e c h n i q u e c u r r e n ts p e a k e rr e c o g n i t i o ns y s t e m sp e r f o r mv e r yw e l lw h e nc l e a ns p e e c hi su s e df o rt r a i n i n ga n dt e s t i n g b u tt h e i rp e r f o r m a n c ed e g r a d e sr a p i d l yw h e ns p e e c hu s e df o rr e c o g n i t i o ni ss u b j e c tt od i s t o r t i o n s ,w h i c ha r cc a u s e db yt h en o n - l i n e a r i t i e so f h a n d s e t , c o n v o l u t i o n a ln o i s e so f t r a n s m i s s i o nc h a n n e la n da d d i t i v en o i s e so f e n v i r o n m e n t i t i sak e ya p p r o a c hf o rt h er e a l w o r l da p p l i c a t i o n so fs p e a k e rr e c o g n i t i o nt h a tt oi m p r o v et h es y s t e mr o b u s t n e s s b a s e do nt h ei n v e s t i g a t i o n so ft h es p e e c hf e a t u r ee x t r a c t i o n s ,t h en o i s ed i s t o r t i o nc o m p e n s a t i o n sa n dt h eg e n d e rc l a s s i f i c a t i o n so fs p e a k e r , s e v e r a lm o d i f i e da l g o r i t h m sa mp r o p o s e di nt h i sd i s s e r t a t i o n t h ec h a r a c t e r sa n de x t r a c t i o nm e t h o do f t h ep e r c e p t u a ll i n e a rp r e d i c t i v ec e p s t r a lc o e f f i c i e n t ( p l p c c )a r ei n t r o d u c e da tf i r s t t h ep e r f o r m a n c e so f p l p c ca r et e s t e da n dc o m p a r e dw i t ht h a to f m f c c l p c ci nt h et e x t - i n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o nf o rs e v e r a ls p e a k e rm o d e l s t h es i m u l a t i o nr e s u l t ss h o wt h a tt h ep e r f o r m a n c eo ft h es y s t e mb a s e do np l p c ca n dg a u s s i a nm i x t u r em o d e l ( g m m ) i sb e t t e rt h a nt h eo t h e rt e s t e ds y s t e m s ,w h i c ha r eb a s e do no t h e rc o n v e n t i o n a lc e p s t r a lf e a t u r e sa n ds p e a k e rm o d e l s t h e n ,am o d i f i e ds p e a k e rr e c o g n i t i o na p p r o a c h , w h i c hc o m b i n e st h et e s ts c o r e so fg m ma n da r t i f i c i a ln e u r a ln e t w o r k ( a n n ) m o d e l st om a k et h ef i n a ld e c i s i o n ,i sp r o p o s e d t h es i m u l a t i o ns e s u l t ss h o wt h ep e r f o r m a n c eo f t h ep r o p o s e da l g o r i t h mi si m p r o v e d b a s e do nt h ea n a l y s i so f t h ep i t c hs y n c h r o n o u sa n a l y s i s ( p s a ) m e t h o da n dt h ed i s c r i m i n a t i v ef e a t u r es e l e c t i o nm e t h o d ,an o v e lt e x ti n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o na l g o r i t h mi sp r o p o s e d i nt h ea l g o r i t h m ,t h ep s am e t h o di sa p p l i e dt oe x t r a c tp l p c ca n dd e l t a - p l p c ca n dt h ef i s h e rc r i t e r i o ni su s e dt of u r t h e rs e l e c tt h ep a r td i m e n s i o n so f o r i g i n a lf e a t u r ev e c t o r t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h ep e r f o r m a n c eo f t h ep r o p o s e da l g o r i t h mi so b v i o u s l yb e t t e rt h a nt h eo t h e rc e p s t r a lf e a t u r e sb u s e ds y s t e m se v a l u a t e db o t hf o rc l e a ns p e e c ha n dn o i s ys p e e c h t h em i s m a t c hb e t w e e nt r a i n i n ga n dt e s t i n gc o n d i t i o n si st h ei m p o r t a n tr e a s o nf o rt h ep e r f o r m a n c ed e g r a d m i o no fs p e a k e rr e c o g n i t i o ns y s t e m a n dt h em i s m a t c hi sm o s t l yc a u s e db yt h en o i s ea d d e da ts e v e r a ls t a g e so f t h et r a n s m i s s i o np r o c e s s af e a s i b l ea p p r o a c ht oi m p r o v et h ep e r f o r m a n c ei st or e d u c et h em i s m a t c hb yt h em e t h o d so ft h en o i s ec o m p e n s a t i o n i nt h i sd i s s e r t a t i o n ,as p e a k e rr e c o g n i t i o na l g o r i t h mb a s e do nt h eh a r m o n i cs p e c t r u ms u b b a n d w e i g h t e dr e c o n s t r u c t i o no fv o i c e ds p e e c hi sp r o p o s e d i nt h ep r o p o s e da p p r o a c h ,t h eh a r m o n i cs p e c t r u mo fv o i c e ds e g m e n ti sr e c o n s t r u c t e dw i t ht h es u b - b a n dw e i g h t i n gm e t h o d t h ew e i g h t i n gf e t o ri sd e t e r m i n e da c c o r d i n gt ot h ee n e r g ya n dt h es p e c t r a lf l a t n e s sm e a s u r eo fs u b b a n do fo r i g i n a ls p e e c h t h ep l p c ci se x t r a c t e df r o mt h er e c o n s t r u c t e ds p e c t r u ma n dc o m b i n e dw i t hp i t c hf o rt h es p e e c hf e a t u r ev e c t o r f o rt h et e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n ,t h es i m u l a t i o nr e s u l t si n d i c a t et h a tt h er e c o g n i t i o na c c u r a c yo fp r o p o s e da l g o r i t h mi ss i g n i f i c a n t l yi m p r o v e di nt h en o i s ye n v i r o n m e n t s ,e s p e c i a l l yi nl o ws n re n v i r o n m e n t s a n dt h ep e r f o r m a n c eo fp r o p o s e da l g o r i t h mi sa l s oi “东南大学博士学位论文o b v i o u s l yb e t t e rt h a nt h a to f t h es p e c t r u ms u b t r a c t i o na n dc e p s w a lm e a ns u b t r a c t i o nb a s e da p p r o a c h e s i ti sw e l lk n o w nt h a tt h ep i t c hi sd i f f e r e n tf o ri n d i v i d u a ls p e a k e r a n dt h ep i t c hi sq u i t er o b u s tf o rs p e e c hd i s t o r t i o n s ,t h i sd i s c r i m i n a t i o nq u a l i f i e sp i t c ha sa ne f f e c t i v ef e a t u r ef o rs p e a k e rr e c o g n i t i o n t h ed i s s e r t a t i o np r o p o s e st h r e ei m p r o v e dp i t c hd e t e c t i o na l g o r i t h m s ( p d a ) :( 1 ) m o d i f i e dc e p s t r u mm o d e lb a s e ds p e e c hp i t c hd e t e c t i o na l g o r i t h m ;( 2 ) m o d i f i e da v e r a g em a g n i t u d ed i f f e r e n tf u n c t i o n ( a m d f ) p i t c hd e t e c t i o na l g o d t h m ;( 3 ) i m p r o v e dp i t c hd e t e c t i o na l g o r i t h mf o rn o i s ys p e e c hb a s e do nw a v e l e tt r a n s f o r m t h es i m u l a t i o n si n d i c a t et h a tt h ep e r f o r m a n c e so f t h ep r o p o s e da l g o r i t h m sa r ei m p r o v e dc o n s i d e r a b l yb o t hf o rc l e a ns p e e c h e sa n dn o i s ys p e e c h e s t h ee x p e r i m e n t sa l s os h o wt h ec o m b i n a t i o no fp i t c hw i t he e p s t r a lf e a t u r e s ,s u c ha sp l p c c ,m f c c ,a n dl p c c ,c a ni m p r o v et h er e c o g n i t i o na c c u r a c ya n dr o b u s t n e s sf o rt h et e x t - i n d e p e n d e n ts p e a k e rr e c o g n i t i o n t h es p e a k e rc l a s s i f i c a t i o nm e t h o d sb a s e do nt h ec h a r a c t e r so fg e n d e ra n da g ea r ea l s oi n v e s t i g a t e di nt h ed i s s e r t a t i o n t h em o d i f i e da l g o d t h mb a s e do nt h ef e a t u r eo fp i t c ha n dr a s t a p l p c ca n dt h eg m mm o d e li sp r e s e n t e df o rt h ea d u l t s g e n d e rc l a s s i f i c a t i o n t h es i m u l a t i o n ss h o wt h ep r o p o s e dg e n d e rc l a s s i f i c a t i o na l g o r i t h mg i v e sv e r yh i g hc l a s s i f i c a t i o na c c u r a c ya n dv e r yg o o dr o b u s t n e s s f o rt h ei s s u eo ft h ec l a s s i f i c a t i o no f c h i l d r e na n da d u l t ss p e a k e r s am u l ds p e e c hf e a t u r e sc o m b i n a t i o na p p r o a c hi sp r o p o s e d i nt h ea p p r o a c h , t h ef e a t u r e so fp i t c h f i r s tt h r e ef o r m a n kk a s t a p l p c ca n dd e l t ap a s t a p l p c cmc o m b i n e df o rt h es p e e c hf e a t u r ev e c t o r t h et e s t i n gr e s u l t si n d i c a t et h a tt h ep r o p o s e da p p r o a c hi sv e r ye f f e c t i v ef o r t h ec l a s s i f i c a t i o no f c h i l d r e na n da d u i t ss p e a k e r s k e y w o r d s :s p e a k e rr e c o g n i t i o n ;p e r c e p t u a ll i n e a rp r e d i c t i v ec e p s t r a lc o e f f i c i e n t ;p i t c hs y n c h r o n o u sa n a l y s i s ;n o i s ec o m p e n s a t i o n ;v o i c e ds p e e c hs p e c t r u m ;p i t c hd e t e c t i o n ;g e n d e rc l a s s i f i c a t i o n东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以注明和致谢外,论文中不包含他人已发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了致谢。签名幽东南大学学位论文使用授权的说明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电予文档,可以采用影印、缩印或其它复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。研究生签名:幽导师签名名热扬名:争慷 第一章绪论1 1 选题及研究意义第一章绪论随着电子、计算机及通信等技术的不断发展,人类已经跨入了一个斑斓的信息时代。层出不穷的新技术、新产品不断地渗入人们的生活,为我们的学习、工作和生活提供简单、快捷、方便的服务。然而在享受信息社会的各种便利的同时,人们不得不携带各种各样的证卡,牢记太多的各类口令和密码,由于密码的遗忘或证卡的丢失导致无法使用某些设备、无法获得某些服务、甚至无法进入某些场所的事件频频发生,这也给人们平添了许多麻烦。另外,基于电子信息技术的交易与服务,也对交易的安全性提出了更高的要求。证卡信息及其密码的泄露将可能导致个人财产蒙受损失。比如基于银行卡的电子银行业务,只需要知道卡号和用户密码,就可以在任何地方通过电话进行存取款、转账等交易,而银行并不知道真正的操作者是谁,这就给犯罪分子可乘之机,而一旦案发进行侦破也十分困难。在美国每年有上亿美元的福利款被冒领、有数亿美元的信用卡诈骗案发生:在国内这类损失也是非常惊人的。这些事实的存在使我们必须思考:在当今的信息时代如何更好地保护个人隐私? 在提高工作效率和生活质量的同时如何才能更可靠地防止系统被非法或非授权侵入? 如何才能更有效地防止记录下来的个人资料被窃?现在,为了在保证用户使用和服务便利性的同时,又有效防止身份证明资料和信息的遗失或被盗所带来的损失。利用人类自身的生物特征进行用户身份认证的技术生物特征识别技术越来越为人们所重视。生物特征识别包括认的生理特征识别和行为特征识别。生理特征指相对稳定的人的物理特征,如指纹、虹膜、面像等,这些特征基本不变,除非损伤造成变化。行为特征则指某些建立在生理特征基础上的在一段时间内相对稳定的统计学特征,如声音、笔迹、打字习惯等。目前,在某些安全保密的重要场所,指纹识别系统和虹膜识别系统等已经得到了成功应用。然而,由于这些系统必须依赖特定的设备,而这些设备价格都比较贵,并且这些系统的使用方式在人性化方面还有一定不足,因此并没有得到大量的推广与其他生物识别技术相比,说话人识别( 或称声纹识荆) 具有更为简便、经济和更好的可扩展性等优点。首先,说话人识别的认证方式更易于为人们所接受,用户只需打个电话或对着话筒说话即可,不必像指纹识别或虹膜识别那样需要把手或眼睛贴近扫描仪。其次,说话人识别不需要昂贵的易损的专用硬件设备,只要简单的声音输入设备即可。再者,在基于电信网络的身份识别应用中,如电话银行、电话证券交易、电子购物等等,与其他生物识别技术相比,卢纹识别更易于应用,得天独厚。说话人识别技术有着,“阔的市场应用前景 i - 2 1 。例如电话网络的银行帐目交易、电话购物、信息服务、保密业务服务、数据库访问、语音e m a i l 、安全控制、计算机远程登录等领域。另外,说话人东南大学博士学位论文识别系统还可以应用在保密通信,保密部门的身份验证、司法鉴别( 包括电话信道罪犯缉拿、法庭中电话录音信息的身份识别、电话语音跟踪等) 等方面。在呼叫中心应用上,说话入识别技术同样可以提供更加个性化的人机交互界面:当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。比尔盖茨曾认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验证的生物识别技术,在今后数年内将成为i t 产业最为重要的技术革命。”说话人识别技术以其独特的方便性、经济性和准确性等优势受到重视,并日益成为人们日常生活和工作中的重要且容易普及的安全验证方式。因此,说话人识别技术是当前安全认证系统研究和发展的必然趋势。基于说话人识别算法的课题研究,不仅具有很强的科学理论研究意义,而且其研究成果具有广泛的应用价值。1 2 研究背景及现状说话人识别的历史可追溯到2 0 世纪3 0 年代。早期的工作主要集中在入耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单独的人耳听辨。1 9 6 2 年,b e l l 实验室的l k e s t a 等人提出了“声纹”( v o i c e p r i n t ) 的概念,通过研究声纹图,发现同一位说话人某音节的若干次发音的声纹图与不同说话人相比更加相似,论证了应用声纹识别说话人身份的可能性。随后最早的说话人识别系统便在l i n c o l n 实验室诞生了。1 9 6 2 年底,b e l l 实验室的s p r u z a m k y研究了采用模式匹配原则把三维语谱图( 时间一频率一能量) 应用于说话人识别,随后s p m z a n s k y和m a t h e w s 利用方差分析的方法进行说话人识别研究,提出了有名的衡量说话人特征参数有效性的f 比值公式f 3 】。同时m b e c k e r 等人采用自适应系统对说话人确认进行了实验研究1 4 】。在这之后。g l e n n等研究了基于鼻辅音的说话人辨认研究,发现鼻辅音中可以提取出说话人有效特征1 5 i :l u c k 首先将基频、倒谱( c e p s t n m a ) 技术与最邻近( n e a r e s t n e i g h b o r ) 判别准则结合应用于说话人确认研究”1 ;a m l 根据基频随时间变化的规律,用统计技术对基频参数进行主分量分析,选择代表个人特征明显的参数用于说话人识别,使识别系统性能有了较大提高p 1 。6 0 年代末至7 0 年代,人们开始将线性预测编码( l p c :l i n e a rp r e d i c t i v ec o d i n g ) 技术应用于说话人特征分析,并发现倒谱系数比线性预测系数( l p c :l i n e a rp r e d i c t i v ec o e 街c i e n t s ) 、脉冲响应、自相关函数( a c f :a u t o - c o r r e l a t i o nf u n c t i o n )和对数面积比( l a r :l o ga r e ar a t i o s ) 函数更加有效 s l 。8 0 年代后,人们结合人耳听觉特性和倒谱技术提取语音特征参数,得到了m e l 频率倒谱系数( m f c c :m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) l ,后来它被应用于说话人识别,取得了很好的结果l ”“】。近年来,与说话人识别相关的语音特征分析提取的研究,其重点转向语音中说话人个性特征的分离提取、个性特征的增强及对各种反映说话人特征的声学参数的线性或非线性处理。长期的研究表明,能够表征说话人个性特征的参数有:语音帧能量、语音音调特征即基音( p i t c h ) 频率及其基音轮廓特征、语音信号的短时频谱、线性预测系数、倒谱特征、共振峰( f o r m a n t ) 频率及其变化轨迹、线谱对( l s p :l i n es p e c t r u mp a i r ) 特征、反射系数( r c :r e f l e c t i o nc o e f f i c i e n t s ) 、对数面积比参数等等1 1 4 。而倒谱类特征参数是语音识别和说2第一章绪论话人识别应用中最为有效的语音特征参数2 1 1 1 2 - 1 6 l ,包括线性预测倒谱系数( l p c c :l i n e a rp r e d i c t i v ec e p s t r a lc o e f f i c i e n t s ) 、m f c c 及其它们的差分参数( a l p c c 、a m f c c ) 等等。在特征研究的同时,各种形式的失真测度及匹配模型亦应运而生。7 0 年代中期,f u r u i 将动态时问规整( d t w :d y n a m i ct i m ew a r p i n g ) 技术应用于说话人识别中取得了很好的效果【”。7 0 年代后期,b u z 0 根据s h a n n o n 信源编码模型提出了基于矢量量化( v q :v e c t o rq u a n t i z a t i o n ) 的语音编码方法,很快v q 技术被应用于说话人识别中。取得了明显效果”。同时基于统计方法的隐马尔科夫模型( h m m :h i d d e nm a r k o vm o d e l ) 作为描述语音信号时变特性的一种有效手段开始用于说话人识别研究,解决了由于d t w 方法在运算时和连续语音基元切分等方面所遇到的困难i l ”。9 0 年代初,人们采用只有1 个状态的连续分布h m m 高斯混合模型( g m m :g a u s s i a nm i x t u r em o d e l ) 对说话人进行建模,取得了非常好的识别效果1 2 0 l ,并且在与文本无关的说话人识别应用中,g m m 有时可以取得比h m m 更好的结果。8 0 年代中期出现的人工神经网络( a n n :a r t i f i c i a l n e u r a l n e t w o r k ) 口”和9 0 年代出现的支持矢量机( s v m :s u p p o r t v e c t o r m a c h i n e ) 2 2 1 , 都具有较强的模式识别能力、自学习、自组织能力,它们给说话人识别研究带来了新的思想和方法。近年来,人们基于这些新的匹配模型以及这些模型与传统模型的结合在说话人识别上的应用进行了很多研究,得到了一些有意义的结果1 2 3 - 2 s ! 不过,已有的研究表明:在各种说话人识别系统中占统治地位的说话人匹配模型仍然是基于概率统计的h m m 和g m m ,它们在识别率和鲁棒特性方面都具有明显的优势。”现在,世界上很多著名的大学、研究机构咀及很多大公司的实验室都在进行说话入识别方面的研究。如麻省理工学院林肯实验室( l i n c o l nl a b o r a t o r y ) w w w i i m i t o d u 、卡内基美隆大学的鲁棒语音识别组( r o b u s ts p e e c hr e c o g n i t i o ng r o u p ) 【w w w s p e e c h e m u e d u 】、n t r 的f u r u i 研究室【稍南h i l a s i g t c o j p f r l 、俄勒岗研究生院( o g i ) 的h e r m a n s k y 教授领导的人类信号处理小组 w w w a s p e c e o 匦o d u 、s r i 公司的语音技术与研究实验室( s t a r ) 【w w w s t a r s r i c o r n 、瑞士的d a l l em o l l e 感知人工智能研究院( i d i a p ) 【w w w i d i a p c h 等等。一年一度的国际声学、语音与信号处理会议( i c a s s p :i n t e r n a t i o n a lc o n f e r e n c eo i la c o u s t i c s ,s p e e c ha n ds i g n a lp r o c e s s i n g ) 也专门设有说话人识别专题;近年来,美国n i s t ( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ) 机构每年都组织说话人识别系统的测评活动。如今,说话人识别技术已逐渐走入实际应用。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n s ) 计划1 2 9 ,同年又启动了p i c a s s o ( p i o n e e r i n g c a l l a u t h e n t i c a t i o n f o r s e c u r e s e r v i c eo p e r a t i o n ) 计划p o l ,在电信网完成了说话人识别。其他的应用例子如:美国电报电话( a t & t ) 公司应用说话人识别技术研制出的应用于自动取款机的智能卡;美国德州仪器( 1 1 ) 公司d a l l a s 总部的计算机中心出入控制的说话人确认系统;美国s p r i m 通信公司研制了一种语音电话卡( v o i c ep h o n ec a r d ) ,卡的拥有者只需对着电话念出对方的名字,智能卡即可根据语音判断出说话人是否是电话卡的合法使用人。从而作出是否拨通电话的决定。再有2 0 0 3 年伊拉克战争期间,半岛电视台播放了萨达姆的电视讲话,美国f b i 曾宣称讲话人不是萨达姆本人,后经科学家对讲话录音进行身份识别,证实讲话者就是萨达姆。东南大学博士学位论文国内开展说话人识别研究工作相对较晚,但业已引起了广泛的关注,许多大学和研究机构都在进行这一领域的研究。其中比较有代表性的有北京大学视觉与听觉信息处理国家重点实验室他们在应用神经网络进行说话人识别的研究方面取得了很多成果,曾获得教育部科技进步一等奖;中国科学院自动化研究所模式识别国家重点实验室也在说话人识别研究方面取得了多项成果;另外,中科院声学所、清华大学、上海交通大学、国防科技大学、北京邮电大学等等,也先后得到了国家自然科学基金重大和重点项目、攀登计划等基金的支持,取得了丰硕的研究成果。并且在说话人识别技术的实用化方面也做出了很多尝试,得到了一些应用成果。1 3 说话人识别存在的问题及研究难点说话人识别技术发展至今己经取得了相当大的进展,在某些方面还取得了重大突破,而且在国际上已经有了一些成功的应用。但是说话人识别技术仍然存在着一些弱点与问题,需要在今后进行进一步的研究和解决。( 1 ) 现在实际上我们还没有完全搞清楚究竟什么样的语音特征参数能够真正反映说话人个人特征。语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息。是语义特征和说话人特征的混合体。到目前为止,还没有很好的方法将说话人的个性特征从语音特征中分离出来,也没有找到一种简单的声学参数能够可靠地识别出说话人。( 2 ) 语音信号的变异性给说话人识别系统造成很大的影响。每个人的声音差异使得声纹识别成为可能,但同样是每个人声音的多变性使得问题变得复杂。语音是人的行为而不是人的属性,这种行为每一次都有可能不完全一样。语音的变化有些是受控制的,有些则不然,造成说话人语音变异的因素很多,如:( i ) 场景差异同一说话人在不同场景下的语音有一定的差异。早期的研究就已经发现:当训练和测试都是在同一场景中时,说话人识别性能表现更好。( i o 健康状况任何呼吸道疾病或喉部不适都会影响说话人的语音,说话人的情绪、疲劳状态也同样会反映到语音当中,另外说话人的年龄变化也会是语音发生一定变化。( i i i ) 合作态度说话人的合作态度以及掩饰行为也会对系统识别性能有重要影响。( i v ) 紧张程度和说话语速说话人的紧张程度和讲话语速会使发声产生一定变化。如典型的l o m b a r d 效应( 当周围噪声增强时,人们会不自觉地提高讲话音量)1 3 1 l ,此时发音状态的改变不仅仅是影响语音能量和发音速度,还会导致更为复杂的其他变化。( 3 ) 自然连续语音的说话人识别一直是个薄弱环节。其原因是因为连续自然语音具有一些不确定的因素,如:说话内容不确定,说话人环境不确定等。有效避免这些因素对系统的识别性能的影响需要多方面的进一步研究。( 4 ) 训练与测试条件的不匹配使系统识别性能下降。引起训练与测试条件的失配的原因很多,可以说凡是会引起同一个人声音发生不同变化的情况都在其中,不过其主要还是表现在三个方面,即语音抬音中的麦克风失真、语音信号传输中的信道失真和环境噪声污染所造成的声学噪声失真。虽然语音信号的传输质量可以通过改善硬件设备和传输线路的质量得以提高但是实际情况中,这些4第一章绪论失真特别是环境噪声引起的失真是不可能避免的。只要存在失真,不匹配问题就始终存在。此外,在实际应用中,系统的训练与测试时间也是影响系统性能的因素之一。通常为了达到更高的识别精度,系统需要更多的用户语音数据,也就是说用户需要花费更多的训l 练时间和测试时间。但是在有些情况下,由于各种原因可能无法获得足够的训练或测试数据,这将对系统的性能产生直接的影响。1 4 失配问题训练条件与测试条件的失配是导致识别系统性能下降的一个重要原因。研究结果表明,当训练与测试中都采用无失真语音时,说话人识别系统可以达到一个非常好的识别性能,即使训练和测试中都使用失真语音信号,只要失真语音的类型相同,系统的识别性能也能达到一个比较好的状态。但是如果训练和测试中采用的语音是在不同环境下录制或是语音失真情况不一致,那么识别系统的性能将明显下降甚至变得非常差【”1 。事实上,说话人识别一般都存在这样一个问题:训练中的语音数据通常来源单一,比如其来自于某一电话送话器,由此语音提取的特征参数并建立的模型仅仅对代表了这种单一环境,而测试时语音数据的来源多变,比如来源于不同的电话信道,不但电话送话器不同,而且传输信道也可能改变。这种环境的失配表现为语音频谱产生了失真,进而提取的语音特征参数发生了变化,这种失真的特征参数将带来分类错误,即:使得说话人识别率戏剧性地下降。j 在绝大多数的识别应用中,语音信号获取于传输信道,经过信道传输后的语音发生了一定的退化。在这种情况下,语音受到三方面的影响:( 1 ) 由电话送话器或麦克风产生的非线性;( 2 ) 传输信道或电话信道的卷积效应:( 3 ) 背景中的和传输信道中的各种加性噪声的影响。如图l l 所示,输入到识别系统的语音信号可以表达为x ( 拧) = ,( s ( h ) + h ( 行) ) ) ( 玎) + 吃( ”)( 1 - 1 )式中“n ) 为来自说话人的纯净语音,v l ) 表示讲话环境的背景噪声,火) 表示经过麦克风非线性失真得到的语音信号,艇”) 表示传输信道的系统单位脉冲响应,y 2 ) 表示传输信道中的加性噪声。语音“ )、 。背景v l ( 月)1 4 1 非线性失真信道噪声图1 1 语音获取系统的失真被污染信号x ( n )由f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论