(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(电路与系统专业论文)音源特征和特征子空间用于提高电话语音话者确认的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着信息技术的发展,人们的交互手段越来越多样化,对身份鉴别的要求随 之越来越高。生物特征认证技术是基于人类自身的生理和行为特征进行身份鉴 别,并以其独特的优势,日益显示出它的价值。说话人确认技术,特别是与文本 无关的说话人确认被认为是最自然的生物特征认证技术之一,它是通过语音信 号进行说话人个人身份的确认,是语音识别研究领域的一个重要研究方向。近 年来,与文本无关说话人确认已成为计算机科学和信息科学相关研究领域的一 大热点。然而,该技术应用于实际环境,还存在着很多难点,其一是系统的鲁棒性 不够,主要是通道、环境噪声及失配造成的系统性能的下降。其二是系统模型 对语音数据的依赖性,即系统在较少的语音条件下性能不够理想。本文针对实 用手机、电话语音的与文本无关说话人确认,在详细分析与文本无关说话人确 认最新的研究进展和主要特点的基础上,围绕上述两个问题展开了较深入的研 究。主要研究内容如下: 1 深入分析了基于高斯混合模型的u b m m a p 框架的与文本无关的说话人 确认方法,阐述了该框架的特点,构建了基于m f c c + u b m m a p 的说话人确认系统。 并以该系统为平台,考察了以下几个方面的性能:不同的自适应参数对系统性 能的影响,不同长度的训练和测试语音下系统的性能,加性白噪声下系统的鲁 棒性等。实验表明:基于m f c c + u b m - m a p 的说话人确认系统对于多传输通道及环 境下的电话语音具有良好的性能,但当语音长度变小,或者受噪声污染较为严 重、训练和测试失配时,该系统的性能无法满足实用要求,有待进一步的提高。 2 在分析了语音信号中携带的与话者个人性相关的信息基础上,本文将音 源特征用于话者确认,构建了采用音源特征参数的与文本无关的话者确认系统。 论文首先从两个角度讨论了基音周期中所体现的话者个性信息,明确了基音周 期可以用于话者确认,随后重点介绍了两种提取音源特征参数的方法:短时( 帧) 特征参数和较长时( 多帧) 特征参数。对两种特征参数的话者确认性能的研究 表明:音源特征参数相对于m f c c 参数而言,其本身所携带的话者特征信息较少, 用其单独构建的话者确认系统性能不够理想,但是在噪声污染较为严重的条件 中文摘要 下,音源特征参数表现出较好的鲁棒性。音源特征参数与m f c c 参数的相关性很 弱,因此它可以作为m f c c 的补充参数,以提高确认系统的性能。 3 为了发挥m f c c 参数与音源特征参数之间的互补性,本文将两种参数相 结合,给出了主辅系统融合的话者确认系统结构,即以m f c c 参数的子系统为主 系统,音源特征参数的子系统为辅助系统。重点讨论了两种融合方式下系统的 性能。不同融合方式下的实验均表明,融合系统发挥了主辅系统之间的互补作 用,获得了比主系统好的性能,尤其是在噪声污染较为严重的情况下,音源特 征对于系统鲁棒性的贡献非常显著。另一方面采用神经网络融合可以将系统的 输出评分规整到一个相对集中的范围内,有利于系统阈值的设定,降低系统的 最小检测代价函数( d c f ) 。 4 针对c - m m 对语音数据的依赖性,给出了短语音条件下的基于特征子空间 的确认方法,建立了一个基于该方法的分类g m m u b m ( c g m m u b m ) 的说话人确 认系统。基于特征子空间的方法使得每个子空间的模型可以采用较低的混合度, 从而降低对语音数据量的要求,后端融合增强了贡献较大子空间对确认性能的 作用。实验结果表明,在短语音条件下,分类系统比不分类系统在性能上有显 著的改进,其运算效率较后者也有很大的提高。 关键词:与文本无关的话者确认高斯混合模型u b m m a p 框架 音源特征系统融合特征子空间 本文的研究工作得到了国家自然科学基金( n o 6 0 2 72 0 3 9 ) 的资助 英文摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , p e o p l ei n t e r c o m m u n i c a t eb vaj i k i n d so fm e a n st h en e e df o rt h es e c u r ei d e n t i t ya u t h e n t i c a t i o nb e c o m e sm o r ei m p o d a n t t h a ne v e r , b i o m e t r i c sl san e w d e n t i f i c a t i o na p p r o a c hw h i c hl sb a s e do nt h eh u m a n p h y s i o t o g i c a l ,b e h a v o r a c h a r a c t e r sa n di t s h o w ss p e c i a a d v a n t a g e si nt h i sa r e a s p e a k e r v e r i f i c a t i o nw h i c hv e r i f i e sa p e r s o n sc l a i m e di d e n t i t yf r o mh i sv o i c ei sr e g a r d e d a st h em o s ln a t u r a ia n dc o n v e n i e n fo n e a m o n g i h em e t h o d so fb i o m e t r i c s i t so n eo ft h e i m p o r t a n t r e s e a r c hf i e l d so f s p e e c hr e c o g n i t i o np r e s e n u y , s p e a k e rv e r i f i c a t i o n , e s p e c i a l l yt e x t - i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n h a sb e e nt h ef o c u so fr e s e a r c hi n c o m p u t e rs c i e n c eh o w e v e r , t h e r ea r es t i l lm a n yp r o b l e m sw h e nw ew a n tl oa p p l yi tt o r e a la p p l i c a t i o n s o n ei st h er o b u s t n e s s t h a ti st h ep e r f o r m a n c ad e g r a d a t i o n sc a u s e d b yt h en o i s ea n d m i s m a t c hc o n d i t i o n ,t h ei n f l u e n c eo fs p e e c hl e n g t hi sa n o t h e r p r o b l e m 。 g n e ns h o rs p e e c ht h ep e r f o r m a n c ew i l lb e c o m eu n s a t i s f i e dw h i l e l o n gs p e e c hm a k e s r e a l t i m ei m p l e m e n t a t i o nv e r yh a r da n de x p e n s i v e b a s e do nt h es t u d yo ft h er e c e n t a d v a n c e m e n t sa n dm a i np o i n t so fs p e a k e rr e c o g n i t i o n 。t h i st h e s i se v o l v e sar o u n dt h e a b o v et w oc r i t i c a lp r o b l e m s t h em a i nc o n t e n ta n dr e s u l t so fs t u d yl n v o t v e dl nt h i sd i s s e r t a t i o na r es h o w na s f o l l o w s : 1w ed i s c u s sl h eu b m m a pf r a m e w o r kw h i c hh a sd o m i n a t e di nl h ea r e ao f t e x t - i n d e p e n d e n ts p e a k e rv e r i f i c a t i o na n db u i l daf u n d a m e n t a ls y s t e mb a s e do nt h i s f r a m e w o r k e x p e r i m e n t sw e r ec o n d u c t e do nt h e $ y s t e m 淤t h ef e l l o w i n gc o n d i t i o n s : d i f f e r e n tc o m b i n a t i o no fa d a p t e dp a r a m e t e r so fm a p d i f f e r e n ts p e e c hl e n g t h d i f f e r e n t s i g n a l t on o i s er a t i o a n dr e s u l t ss h o wt h a t :t h eu b m - m a pf r a m e w o r kc a ng i v ea n a c h i e v a b l e p e r f o r m a n c e nc o m p l i c a t e de n v j r o n m e n ta n dm u l t i - c h a n n e l s 。b u tw h e n e n c o u n t e r st h ei n s u f f i c i e n c yo ft r a i n i n gd a t a ,t h ec o r r u p t i o no fn o i s eo rt h em i s m a t c ho f t r a i na n dt e s t ,t h es y s t e mw i l lb ei n e f f i c i e n t 2b ya n a l y s i st h ei n f o r m a t i o nr e l a t e dt os p e a k e ri d e n t i f i c a t i o nc o n v e y e db ys p e e c h s i g n a l ,t h i st h e s i sa t t e m p t st ou s et h es o u n ds o u m e l n f o r m a t i o nt os p e a k e rv e r i f i c a t i o n w ei n t r o d u c et w oa p p r o a c h e st h a tu s et h ep i t c ha n de n e r g yo fs o u n ds o u r c et of o r s p e a k e rv e r i f i c a t i o n t h ef i r s ta p p r o a c he x t r a c t ss p e 轱k e r d e p e n d e n tf e a t u r e so fs o u n d s o u r c eb ys h o d t e r ma n a l y s i s t h es e c o n da p p r o a c hc a p t u r e st h ep i t c ha n de n e r g y d y n a m i c sb yl o o k i n g a tt h es t a t i s t i c so fm u f t i - f r a m e sf o re v e r yf e a t u r ew eu s et h e g 赫粥一u b 酣t 。m o d e lr e s p e c t i v e l yr e s u l t sp r e s e n t e dl nt h et h e s i ss h o wt h a tt h e s e a p p r o a c h e si n d i v i d u a l l yd i dn o tm e e tw i t hg o o dr e s u l t sa st h em f c c b a s e ds y s t e m b u t 英文摘要 t h e ya p p e a rt oc o n v e y u s e f u l s p e a k e ri n f o r m a t i o n w h a t s m o r e t h e y r e v e a lm o r e s i g n i f i c a n tr o b u s t n e s s 3 b e c a u s et h e s es o u n ds o ur c ef e a t u r e sh o l dt h ep r o m i s eo f i m p r o v i n g b a s i c r e c o g n i t i o na c c u r a c y , w ei n t e g r a t et h e s e f e a t u r e sf o rr o b u s ts p e a k e rv e r i f i c a t i o n 。t h a ti s : w ec o n s t r u c tg m m u 8 赫b a s e d s y s t e mu s i n gm f c c a n dt h et w os o u n ds o u r c ef e a t u r e s r e s p e c t i v e l y ,t h ec o m p o n e n ts y s t e m sn e e dt ob ec o m b i n e dt or e i n f o r o ee a c ho t h e rb y f u s i n gs c o r e sf r o me v e r ys y s t e me x p e r i m e n t sc o n d u c t e do nt h en i s t 0 3d a t a b a s es h o w t h a tt h er e s u l t i n gf u s i o ns y s t e md r a m a t i c a yr e d u c e st h ee r r o rr a t e b e c a u s es o u n d s o u r c ef e a t u r e sh a v ec o m p l e m e n t a r ye f f e c to nm f c ca n dt h ef u s i o nt e c h n i q u ea d d s c o m p l e m e n t a r yi n f o r m a t i o na n dr o b u s t n e s st oa c o u s t i cd e g r a d a t i o n sf r o mc h a n n e la n d n o i s ee f f e c t s t ow h i c hm f c cf e a t u r e sa r e h i g h l ys u s c e p t i b l e f u r t h e r m o r e ,w h e n a r t i f i c i a ln e u r a ln e t w o r kl sd e v e l o p e d8 $ t h ef u s i o nt e c h n i q u e ;t h ev a l u eo fd c fw i l ta l s o r e d u c e + 4 f o rs p e a k e rv e r i f i c a t i o nu s i n gs h o r tt e l e p h o n e s p e e c h w ep r o p o s e dam e t h o dw h i c h d i v i d e st h ef e a t u r es p a c ei n t os e v e r a ls u b s p a c ea n db u l l ia s y s t e mn a m e d c g m m u b m : f i r s t l y 。t h ef e a t u r ev e c t o r sf o rt r a i n i n gu 8 m a r ec l a s s i f i e di n t os u b s p a c e s u s i n gk - m e a n s a l g o r i t h ma n d t h ef e a t u r es p a c e o f | 鑫氇默s p e a k e ri sc l a s s i f i e da c c o r d i n g l y , s e c o n d l y , t h e u b m m a pf r a m e w o r ks u b s y s t e mi sc o n s t r u c t e df o re v e r ys u b s p a c e f i n a l l y t h ef u s i o no f s c o r e sf r o me v e r ys u b s y s t e mi sc o m p u t e da st h er e s u l t so ft h ec g m m * u b mr e s u l t so f e x p e r i m e n t ss h o w t h a tc g m m u b m s y s t e mg i v e sb e t t e rp e r f o r m a n c e t h a nt h ec l a s s i c a l g 醚赫一u 转酗s y s t e mt h ec o m p u t a t i o no fc g m m u b m i sa l s o | o l h e rt h a nt h el a t t e r k e y 榉o r d s :t e x t - i n d e p e n d e n ts p e a k e r v e r i f i c a t i o ng m mu b m - m a p s o u n ds o u r c ef e a t u r e s y s t e mf u s i o n f e a t u r es u b e p a c e t h et h e s i sw a ss u p p o r e db yt h en a t i o n a lf o u n d a 稍o no fn a t u r a ls c i e n c el n o 6 0 2 7 2 0 3 9 ) 中国科学技术大学硕士论文第一章鳞论 第一章绪论 1 1 话者身份确认概述 我嬲谨话戆语啻绥号波形孛怠禽了丰富蕊售惑,甄舂与遴疆瘫容程关懿滔义 文本信息,说话的语言种类信息,迸有与说话人个八相关的信息,如说话人的个 人身份,说话人说话时的情感和情绪等等。运用计簿机对语音信号处理而实现的 自动语卷沃裂( a u t o m a t i cs p e e c hr e c o g n i t i o n ) 就是壤摇谖鄹瓣曩稼,扶逶鹰 信号中掇取出相应的特征信息,并利用模式识别等技术实现自动识别。它包括语 音( 语义) 识别、语种识别、说话人身份识别以及情感识别等等。如图l - i 所 示,语义识爨试鹫从输入斡语音信号巾寻技说话久袋这的语义内容继息,语静识 别则专注予在不河人说的不同语义的语音信号中攘掘出隐含的语种信息,情感识 别是对说活人说话时的情感做出判断,比如高兴、忧伤等等。而说话人识别则是 实现一个与说话入个人囊癸稳关的识裂,即该段谮裔痿号是“缓”谈弱,故又称 为说话人身份识别。 q 蝴铷一 语音信母 图1 - 1 谣义识剐、语种识别帮说话人赛份、情感识剐 中国科学技术大学硕士论文第一章绪论 说皤人识别通常有两种方式,一种是与说话内容( 文本) 相关的,即与文本 有关( t e x t ,d e p e n d e n t ) ,它要求说话人提供指定语义内容的语音,比如巢些预 订的数字串以及口令、密码等等,这种方式所需的语音长度较短,如“开门”等 只有不崩1 移的长度,因魏,它可以簿在餐孺者 t 鞍g 合静场合,例翔关键部门 的出入控铡,并虽浯义悫窖( 据寮玛) 可以l 睾为巍话久奏傍懿於充信惫来援离系 统的识别性能,与文本袁关的说疆人识别相对容易达到较离的识别率;另一_ 砖是 与文本无关( t e x t i n d e p e n d e n t ) 的,这种方式不关心语音信号中其体的语义内容, 冈此它可以用在使用者不配合的场合,如电话语音监听,v o i c e m a i l 的发件人身 份的标识等簿。一般说来,与文本无关的说话人汉别的应用更为灵活和广泛,但 难度较大,训练和测试时都需要较长的语音和音索内容丰富的文本。 说话入毒鬟鬟可以分为两稀类整,却说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说 话夫确认( s p e a k e rv e r i f i c a t i o n ) 。蔫考是把未标识靛语音划为若于个爨稚说话夫 之中的某一个所说,愚个一对多麴超题,如蹙1 2 ( a ) 赝示。蜃毒则是摄攒谠薅 人的语膏来确定是否与其所声明的参考说话入相符,这种确认般情况下只有聪 种可能,或是肯定,或是否定,是个对的问题,如图1 2 ( b ) 所示。两者的 主要区别一是判决选掸的数目不阀,二是说话人确认需要一个( 或多个) 确认闽 值,来得到最后的判决结果。说话人辨认悬在全都注册说话入的范酮内进行的, 溺诧辩认洼镶将与注搿的人数有关,陵着入数的增加褴能将有所下降;两说话天 确谈与注麓说话人静入数多少没豢关系。辫谈帮礁试各寿冀不霉豹虚褥场合。本 论文的主要研究内容是与文本无关说谣人确认( 麓称谗耆确认) 。 ( 矗) 中国科学技术大学硕士论文 第一章绪论 ( b ) 是否 _ - 卜 图1 2 ( a ) 说话人辨认( b ) 说话人确认 1 1 1 话者确认的沿革 说话人识别的研究始于上世纪6 0 年代,1 9 6 2 年,b e l l 实验室的k e r s t a 由语 谱图( s o u n ds p e c t r o g r a p h ) 的比较构建了最初的说话人识别系统,该系统直接 以语音短时频谱作特征,在1 2 人的规模下达到了较好的正确率【l 】。进入7 0 年 代后,动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 、矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 及参数化的语音特征表示,如线性预测编码( l i n e a r p r e d i c t i o n c o d i n g ,l p c ) 【2 , 3 ,4 ,5 被应用到说话人识别中,使得说话人识别的性能得到了 较大的提高。8 0 年代以来,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 和 隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 6 ,7 】在语音识别领域中得到 了成功和广泛的应用,并在与文本有关的说话人识别中也得到成功的应用。进入 9 0 年代后,特别是r e y n o l d s 8 ,9 】对高斯混合模型( g a u s s i a nm i x t u r em o d e l , g m m ) 做了详尽的介绍之后,由丁其简单灵活有效以及具有较好的鲁棒性,迅 速成为当今与文本无关的说话人识别中的主流技术,将说话人识别带入到一个新 的阶段。1 9 9 5 年以来,各种新的说话人识别技术层出不穷,如g m m u b m 结 构 1 0 、大规模连续语音识别( l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n , l v c s r ) 应用1 :与文本无关的说话人识别【1 1 】、支持向量机( s u p p o r tv e c t o r m a c h i n e ,s v m ) 和g m m 的结合 1 2 ,1 3 1 、基于评分的说话人规整技术h n o r m 中国科学技术大学硕士论文 第一章绪论 1 2 】和z n o r m 、语音高层信息的探讨 1 4 】,以及针对通道失配问题的s m s ( s p e a k e r m o d e ls y n t h e s i s ) 15 ,1 6 技术等。 从上世纪6 0 年代到现在,说话人识别所处理的语音从小语料库( 较少的说 话人) ,干净语音和受限文本发展到今天的大规模语料库,各种环境和传输通道 下的语音以及任意语种和任意内容的文本。经过4 0 多年的研究,近年来说话人 识别的研究重点已经从实验系统转移到实用系统,如实用背景环境下特别是基于 手机电话语音的识别系统上来。自8 0 年代中期以来,已经有大量商用的说话人 识别系统产品问世。如美国的h o m es h o p p i n gn e t w o r k 1 7 ,同时采用与文本有 关的说话人确认和语音识别来进行基于电话语音的订货,目前已有4 5 0 0 0 0 人注 册:1 9 9 9 年l o 月份苹果公司在m a co s9 中加入了v o i c ep r i n tp a s s w o r d 功能, 利用语音进行个人计算机的使用控制 18 】另外,a t & t 等公司都在开发新一 代的v o i c e m a i l 的集成管理系统( 如a t & t 的s c a nm a i l 1 9 】) ,利用连续语音 识别和说话人识别技术将音频形式的语音邮件转换为文本,并自动识别发送人的 名字,以便于用户浏览等等。美国国家标准及技术署( n a t i o n a l i n s t i t u t eo f s t a n d a r d a n d t e c h n o l o g y , n i s t ) 自1 9 9 6 年起开始举办每年一度的说话人识别评测 ( s p e a k e r r e c o g n i t i o n e v a l u a t i o n s ,s r e ) ,它为参加者提供统一的电话语音测试 平台,用来评估现今说话人识别技术的进步水平,并交流探索说话人识别中较有 前途的新思想、新途径。自1 9 9 6 年起,累计有4 0 多个国际研究机构参加评测, 包括m i tl i n c o l nl a b 、d r a g o ns y s t e m s 、i b mr e s e a r c h 以及m i c r o s o f tr e s e a r c h a s i a 等著名的计算机科学研究机构,其技术水平代表了当今与文本无关的说话 人识别技术的最高水准,我们实验室也于2 0 0 3 年起每年都参加了其中一些项目 的评测,并取得了令人鼓舞的成绩。 1 1 2 话者身份确认系统的组成 说活人识别是信号处理和模式识别技术的一种结合,基于模式匹配方法的说 话人身份确认系统由前端处理、模型训练和匹配、评分判决三个部分组成,其结 构如图1 3 所示,前端处理负责对高冗余度的语音波形信号进行预处理,去冗余, 然后提取出易处理的,我们所感兴趣的代表说话人特征的信息,也就是特征参数。 ! 鬯型兰堇查奎兰堡主丝壅蔓二兰堕笙 因此前端处理一般包括静音检测、预加重、特征参数提取及后续抗噪处理等步骤。 图1 - 3 话者身份确认系统组成 模型是对说话人特征的进一步抽象。根据任务的不同,需要为其建立不同类 型的模型。对于与文本有关的说话人确认而言,说话人模型可以为说话人的一条 或儿条训i 练语音特征参数的样本( 测试时利用d t w 匹配) ,但更好的方法是概 率统计模型,如h m m ;对于与文本无关的说话人确认而言,说话人模型有矢量 量化( v q ) 、高斯混合模型( g m m ) 等。此外,还有一些其它的说话人模型, 如人工神经网络和支持向量机等。 话者确认分为训练和测试两个阶段。在模型训练阶段,系统输入为来自某目 标说话人的i jr l 练语音集,由该语音集提取出能表征话者个性特征的特征参数集, 并采用一定的算法训练该目标说话人的模型( 例如g m m ) ,并存入模型库;在 测试阶段,系统输入为未知的测试语音和对发音者的身份声明,系统首先对测试 语音进行相同类型的特征提取,而后模型匹配部分将提取的特征参数序列与身份 声明对应的话者模型进行匹配计算,给出相似度的得分( 称为输出评分) 。 判决部分的作用是根据待识别语音和模型匹配的输出评分与系统的确认阈 值进行比较,得出该测试语音是否为声明所言的说话人。显然,确认阈值的设置 是话者确认系统的关键之一,因此,与一般的分类问题不同,对于说话人确认系 统而言,有两种识别错误,即冒认者被接受的错误和真实说话人被拒绝的错误, 对应了两种误识率:错误接受率( f a l s ea c c e p t l t l l c er a t e ,f a ) 和错误拒绝率( f a l s e r e j e c t i o nr a t e ,f r ) 。因为它们与确认阈值的关系则是相反的,所以确认阈值的设 定必须兼顾到这两种错误率,f r 和f a 与判决闽值的关系如图1 4 所示。确 中国科学技术大学硕士论文第一章绪论 谈藏篷一般是在训练阶段确定翡。露然,较裹静阑,| 轰会使褥餮认蠹难 蔓褥逢,偿 同时真实的说活人更容易被拒绝,殿之,较低的湖慎使得真实说话人被拒绝的机 会减小,但同时会增大露认者成功盼几率。因此为了得到一个台适的阕值,必须 对奏实说话久窝誓谈簧褥分约分鸯舆袁是够爨了麓。 1 1 3 话者身份确认系统的评估手段 模式识别常用识别的正确率或错误率衡量系统性能,为取得较为全面客观的 评估,测试集一般要求数据充分且覆箍面广。对于说话人辨识,系统评估采用总 静分类藏确率或错误警鞠霹;瑟对予说话天确试,蠢予分类错误中包禽对霆拣淡 话人的搬绝和对冒认说话人的接受两类,因此评估手段较为复杂,其常用的评估 方式有以下几种: 一。疆谶疆缝率帮罐谖接浚率 错误拒绝率( f a l 辩r e j e c t i o nr a t e ,f r ) 是所有测试语音中对翻标话者语酱拖 绝的次数比率,错误接收率( f a l s ea c c e p t a n c er a t e ,f a ) 是所有测试语音中对错 认蠢翥鹾奁接收熬次数毙率,对建一援测试遥音黪埝出评分,f a 、f r 蓬确认阙 值的变化而变化,阂德降低剜f r 变小而f a 变大,阑值升高刚f r 变大丽f a 变 小,其关系如图1 4 所示。f a 与f r 交叠区域面积趟小系统总性能越好,反之, 则总矬辣越差。 二,等谡识率 。 圈1 4f a 、f r 涎瓣蹙交纯豹关系 6 中国科学技术大学硕士论文第一章绪论 等误识率( e q u a l e r r o r r a t e ,e e r ) 是f a 与f r 相等时对应的错误率,即图 1 4 中表现为两条曲线的交点,此时对应的阈值称为等误识率阅值。可以看出, 等误识率反映的只是特定阈值下的系统性能,它不能反映一个系统的整体性能。 三d e t 曲线 d e t ( d e t e c t i o ne r r o rt r a d e o f f ) 曲线是一种常用的评估说话人确认系统性 能的手段。d e t 曲线是精神物理学( p s y c h o p h y s i c s ) 中常用的r o c ( r e c e i v e r o p e r a t i n gc h a r a c t e r i s t i c s ) 曲线的另一种形式,其横坐标和纵坐标分别是对数刻 度下的f a 和f r ,由于说话人确认可以看作是一个信号检测问题,因此在d e t 曲线上f a 又被称作f a l s ea l a r mp r o b a b i l i t y ( 虚警概率) ,f r 被称作m i s s p r o b a b i l i t y ( 漏警概率) 。d e t 曲线上不同的点代表了不同确认阐值下的确认性 能曲线越靠近坐标轴则系统的分类能力就越好。图i 5 是d e t 曲线的一个典 型例子,虚线和实线分别代表了两种确认系统。显然,实线系统的性能优于虚线 系统的性能。在通过原点的4 5 度角斜线与曲线相交的地方f a = f r ,此时的f a 或 f r 就是e e r 。由于d e t 曲线表达了各种阈值下的系统性能,其所刻画的是系 统内在的整体分类性能,不同系统容易直接比较,直观而且合理,因此近来在说 话人确认的评估中被广为采用 2 0 。 笋2 0 善,。 委s 圣2 差, 05 : s p e a k e ro o t o c t i o np e r t o r m a n e o - - t , 、 、 、 k 、 1 、 、j j - - 1 ; 尸o q 一 0 10 205125t 02 04 0 f a l s ea l a m lp r o b a b i l i t yf i n j 图1 - 5d e t e c t i o ne r r o rt r a d e o f f 曲线 中国科学技术大学硕士论文第一章绪论 四检测代价函数 在实际的说话人确认系统中,错误拒绝和错误接受往往对应不同的代价。如 对于电子银行的储户认证系统,若目标用户被拒绝,用户通常只需重新提交一次 认证即可,风险代价较小;而如果冒认用户被接受,则意味着重大的财产和信誉 损失,因此这类系统中f a 的代价远远高于f r 。美国国家标准及技术署1 9 9 6 年 以来举行的每年一次的说话人识别评测 2 l ,2 0 】中定义了检测代价函数 ( d e t e c t i o nc o s tf u n c t i o n ,d c f ) 就是针对这一情况提出的,其定义为: d c f 2 c * 。p j f r + c i o p m p 。f a :。1 - 1 、i 其中,c p 和c m 分别是错误拒绝和错误接受的代价,匕,和匕r 分别是目标 话者和冒认者的先验概率,它们可以根据不同的实际应用场合对风险和代价的要 求进行设置,例如在2 0 0 3 年的n i s t 评测中,d c f 的各参数定义为: :1 0 ,c 如:1 ,兄一0 0 1 ,;0 9 9 ( 1 2 ) d c f 使用了先验概率和错误风险,因而所得结果比e e r 更贴合实际情况, 但d c f 函数仍然只是某个特定阈值下的系统性能。图1 5d e t 曲线上的o 即 按照( 1 - 1 ) 和( 1 - 2 ) 式确定的d c f 取到最小值时f a 和f r 的位置。 1 2 本文的研究背景和意义 随着计算机科学的发展,社会信息化程度的提高,说话人识别的用途也越来 越广泛。自动说话人识别是一种高效的人机交互、身份验证以及信息检索手段, 它可以被用于计算机和计算机网络、一些关键部门的出入控制、电话语音交易的 身份验证、公安司法、军事上电话语音的监听、语音数据流中的说话人检测、以 及一些个人手持设备如手机、p d a 等的个性化设置等。随着互联网的蓬勃发展 以及数字音频数据的爆炸式增长,说话人识别也被应用到语音检索和信息获取 ( i n f o r m a t i o nr e t r i e v a l ) 中,正在引起越来越广泛和深入的研究。在图像、语音 识别等模仿人类机能的生物特征识别领域中,唯有自动说话人识别的性能在某些 条件下可以与人类的能力相当,甚至超过人类 2 2 ,2 3 1 。说话人识别的研究已经 越来越受到人们的重视,引起了计算机科学和信息科学越来越广泛的关注。 中国科学技术大学硕士论文第一章绪论 近年来,说话人确认的研究重点已从实验性系统转入到实用化系统,系统的 规模( 说话人数目) 也越来越大,使用语音不仅限于采自麦克风,电话、手机等 的应用也越来越多,因而实用背景下的说话人确认研究是实现实用化系统的关 键,有许多亟待解决的问题。主要包括: 一话者特征的提取 自从上世纪5 0 年代以来,人们一直在寻找好的活者特征参数,目前常用的 特征参数仍有诸多缺点。首先,语音信号是多种因素综合作用的结果,它主要由 语义内容决定,同时也受说话人个人特征的影响,而目前的特征参数通常既可以 用来做语义识别,也可以用做说话人识别,它们并没有能修把两种信息分开;其 次,说话人的特征信息是丰富多样的,从语言学角度来看,说话人特征有口音、 话题、说话风格( 惯用语和常用旬式) 等,这些特征信息对人们日常生活中识别 说话人很有帮助,但机器识别中的参数大多为基于声道特征的短时倒频谱参数, 如m f c c 、l p c c 等,而语音信号中所包含的其他一些能表征说话人个人特性的 特征信息,尤其是高层信息,由于比较难以提取和表示,故尚未得到广泛的应用。 因此,提取出声道外的描述说话人个性发音特征的信息作为声道特征参数的补 充,对于进一步提高话者确认系统的性能十分重要。 二环境及通道鲁棒性 环境和通道鲁棒性是当今语音识别领域里所面临的一个非常重要的课题。由 于语音信号本身性质所致,在传输的过程中会不可避免地受到背景环境和通道噪 声的干扰。语音信号中的噪声一般分两种,一种是加性噪声,例如说话时的背景 噪声,还有一种是通道卷积噪声。无论哪种噪声,都会影响到语音信号的性质, 进而会对识别造成负面效应。如果在训练和识别阶段的环境和通道条件不同,由 于训练与识别的环境和通道的失配会使系统的性能将严重下降。在实验室条件 下,目前的说话人确认技术完全可以满足大多数情况下的使用需要,但当将其放 到实际环境下时,其确认性能往往会下降到难以满足使用要求。因此寻找鲁棒性 ( r o b u s t ) 的话者确认手段已成为话者确认实用化过程中一个非常迫切的问题, 并且这类技术还应具有复杂度低、速度快等特点。 三确认阈值及确认策略 确认闽值是说话人确认中的一个特有的问题,它直接关系到未知语音能否被 中国科学技术大学硕士论文第一章绪论 正确确认,一般情况下用户提供的训练样本不会太多,因而确认闽值比较难以确 定。一个解决办法是使所有用户共享一个公用闽值,这样可以充分利用所有人的 训练样本,但这样做的问题又很明显,因为实际上不同目标说话人的理想确认阈 值是有所差别的。冈而确认闽值的设置和鲁棒性是非常重要的。 四有限的训练及测试样本 由丁话者个人性信息的周期比较长,要充分地反映话者特征需要比较氏的语 音。人类的经验和有关文献均表明 2 4 】,测试时的确认文本越长,确认准确率就 越高。另一方面,对于基于概率统计模型的话者确认,话者模型的训练对训练样 本数据有较大的依赖性。h :) n g m m 虽然在与文本无关的说话人识别里获得了成 功的应用,但由于g m m 关注于模拟观察数据的内在分布,因此如果训练语音越 充分,则模型的统计到的信息就会越充分。但是,话者确认作为人机交互的一种 手段。必须要考虑使用者的耐心程度与实际条件下所可能获得的语音长度。因而 如何降低这种依赖性,更加有效地利用有限地数据,便成为话者确认研究中的另 一个重要目标。 1 3 本文的主要研究内容 本文研究的是实用复杂背景下的与文本无关话者确认,文中所采用的语音数 据库来自实用环境下的手机电话语音。针对话者确认存在的上述问题,本文研究 的主要内容是:一方面从语音信号中提取出能够代表话者个性特征的音源信息用 于与文本无关话者确认,并提高现有的采用m f c c 参数的话者确认系统的性能及 其鲁棒性。另一方面对于有限的训练和测试语音数据,采用划分子空间的方法充 分利用数据,提高短语音条件下系统的性能。本文的后续内容由以下几个章节组 成: 第二章深入探讨了语音特征参数的提取介绍了语音的发声机理,语音的短 时平稳的特点,以及语音的短时分帧处理。详细介绍了本文中采用的声道参数 m f c c 的提取及其抗噪方法。同时也给出了后续章节公用的音源特征中基音周期 的提取方法。 第三章详细讨论了当前与文本无关说话人确认中主流的g m m u b m 框架结 中国科学技术大学硕士论文 第一章绪论 构。介绍了高斯混合模型( g m m ) 的原理和算法,以及由此导出的g m m u b m 框架的构成与实现,系统的阐述了g m m u b m 框架作为话者确认模型的特点。 在这一一章,我们构建了一个贯穿全文的用m f c c 为特征参数,以g m m u b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论