(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf_第1页
(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf_第2页
(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf_第3页
(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf_第4页
(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf_第5页
已阅读5页,还剩115页未读 继续免费阅读

(信号与信息处理专业论文)基于gmm和svm的文本无关的说话人确认方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博士论文中文摘要 摘要 实用背景下,电话( 手机) 语音的文本无关的说话人确认已成为当前说话人 识别研究的重点,将区分性强的支持向量机s v m 用于确认问题是个合理的选择, 然而将目前常用的短时倒谱参数m f c c 用于文本无关的说话人确认需要较长的 语音,因此。s v m 作为话者模型对将会遇到大训练样本、两类数据混叠严重等 问题,使s v m 的建模十分困难。概率统计模型g m m 可以对大量语音数据的统 计分布特征进行描述,能有效地表示出目标说话人的特性,且具有较好的鲁棒性, 从而成为文本无关的说话人识别的主要模型,但g m m 建模只是对目标说话人一 类数据进行的。 针对s v m 用于文本无关的说话人确认的问题,论文将概率统计模型g m m 用于基于s v m 的文本无关说话人确认,对s v m 话者模型的建模策略、用于s v m 模型的特征变换、说话人确认系统中的确认阈值设置和评分规整等方面进行了深 入研究。 首先,对于s v m 话者模型的建模策略,论文为每个目标话者训练个s v m 模型。针对模型训练时冒认话者数量众多影响训练效率的问题,论文提出了两种 基于g m m 的冒认话者选择方法,通过g m m 的似然度评分来选取少量与目标话 者最接近的冒认话者作为训练数撂,不仅极大地减少了训练数据量。提高了模型 的训练效率,而且使模型具有更好的区分性。 其次,论文提出了基于g m m 聚类特征变换的s v m 说话人确认方法,通过 g m m 聚类的特征变换,突出了说话人个性信息,大大降低了特征样本数,减少 了两类数据的混叠,使愿s v m 话者模型建模变得简单、有效。为了进一步提高 变换特征的口j 比性和鲁棒性,论文提出了基于统一模型( u m ) 的g m m 聚类方 法对各个特征数据集的聚类都由统一模型u m 通过最大后验概率( m a p ) 自 适应抉得,实现了对不同特征数据集的聚类“规整”,提高了系统的区分能力。 针对基于u m m a p 的g m m 聚类特点,论文义提出了一种改进的变换参数 提取方法,通过u m 进一步对变换特征进行规整,有效勉提高了变换参数的区分 性和鲁棒性。n i s t 数据库上的话者确认实验表明基于特征规整变换方法的 u m m a pn o r m s v m 系统相比主流的g m m u b m 系统,在e e r 性能上相对提高 了2 1 6 。 再次,论文研究了务外种将g m m 和s v m 榴结合音勺方法电m m s v m 组合话者模型,将g m m 作为话者模型的一部分和s v m 共同组成话者模型。 g m m 作为前级模型主要起了两个作用,对特征数据集进行有区分性的特征变换 及数据压缩,并以其多维概率输出作为后级模型s v m 的输入矢量。n i s t 数据 库上的实验证明,基于g m m s v m 组合话者模型的话者确认系统在e e r 性能上 中崮科学技术人学博士论文中文摘要 相对基准的g m m u b m 系统提高了1 4 9 ,表明了组合的有效件。 最后,论文还对说话人确认中的确认阈值设置和输出评分规整进行了研究。 说话人确认中不同目标话者模型输出评分分布的不一致性,导致统一确认阈值设 置困难,论文提出了一种新的组合评分规整方法t z n o r m 规整,通过对输出 评分的整体规整,不仅提高了系统性能,而且有效降低了确认阅值选取的复杂度。 n i s t 数据库上文本无关的说话人确认实验证明了新方法对统一确认阈值选取的 有效性。 论文的研究工作得到了国家自然科学基金项目( 6 0 2 7 2 0 3 9 ) 的支持。 中国科学技术大学博士论文a b s t r a c t a b s t r a c t t e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o no nt e l e p h o n es p e e c hh a sb e c o m eo n eo ft h e i m p o r t a n t f i e l d so fs p e a k e rr e c o g n i t i o n s u p p o r tv e c t o rm a c h i n e ( s v m ) i sa d i s c r i m i n a t i v ea p p r o a c h ,w h i c hs e e m sw e l ls u i t e dt os p e a k e rv e r i f i c a t i o n w h e n c e p s t r a lf e a t u r e s ,s u c h 髂m f c c ,f i r eu s e df o rt e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n 1 0 t so fs p e e c hi sn e e d e d s o a sam o d e l i n gt e c h n i q u ei nt e x t - i n d e p e n d e n ts p e a k e r v e r i f i c a t i o n ,s v mh a sm u c hd i f f i c u l t yi nh a n d l i n gag r e a td e a lo ft r a i n i n gd a t a a sa g e n e r a t i v em o d e l ,g a u s s i a nm i x t u r em o d e l ( g m m ) h a sb e c o m et h ed o m i n a n t m o d e l i n ga p p r o a c hi nt e x t - i n d e p e n d e n ts p e a k e rv e r i f i c a t i o nf o ri t sr o b u s m e s sa n d s c a l a b i l i t y g m mc a l le a s i l ym o d e it h es t a t i s t i c a id i s t r i b u t i o no ft h et r a i n i n gd a t a a n d i t si i k e l i h o o ds h o w st h es i m i l a r i t yb e t w e e nt h em o d e la n dt h et e s td a t a b u t g m mi s t r a i n e df r o mt h et a r g e ts p e a k e rt r a i n i n gd a t a , w h i c hi so n l yo n ec l a s so ft h et r a i n i n g data:、 i nt h i st h e s i s 。w ed e v e l o pt h et e c h n i q u e sr e q u i r e df o rs v mt ow o r kw e l lo n t e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o nu s i n gg m m t h em a i nr e s e a r c hw o r ki sf o c u s e d o ns p e a k e rm o d e l i n gs t r a t e g yb a s e do ns v m ,f e a t u r et r a n s i t i o nf o rs v m ,t h r e s h o l d s e t t i n ga n ds c o r en o r m a l i z a t i o n ,e t c f i r s t , w h e nt r a i n i n gs p e a k e rm o d e l si nt e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n ,w e t r a i nas v mm o d e lf o re v e r yt a r g e ts p e a k e r t or e d u c et h en u m b e ro f t h ei m p o s t o r si n s v mt r a i n i n gt i m e ,t h i st h e s i sp r o p o s e st w on o v e lg m m b a s e ds e l e c t i o nm e t h o d st o c h o o s eaf e wt y p i c a li m p o s t o r sw h i c ha r em o s tc l o s et ot h et a r g e ts p e a k e r t h en e w m e t h o d sm a k et h es v mm o d e l sm o r ed i s c r i m i n a t i v e , s e c o n d t h i st h e s i sp r o p o s e san e ws p e a k e rv e r i f i c a t i o na p p r o a c hb a s e do n g m m b a s e df e a t u r et r a n s i t i o na n ds v m w h e ng m mi su s e dt oc l u s t e r , as m a l i q u a n t i t yo ft y p i c a lf e a t u r ev e c t o r sa r ee x t r a c t e df r o ml a r g en u m b e r so fs p e e c hd a t a , w h i c hm a k e si tm u c he a s i e rt ot r a i ns v mm o d e l s b e c a u s eo fm o r ee x c e l l e n t s c a l a b i l i t y , r o b u s t n e s sa n de s p e c i a l l yc o m p a r a b i l i t y , w er e p l a c eg m mw i t ha d a p t e d g m mw h i c hi sa d a p t e df r o mt h eu m ( u n i v e r s a lm o d e l ) u s i n gm a p a d a p t a t i o nw i t h t h ec o r r e s p o n d i n gt r a i n i n gd a t a a c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h eg m mb a s e do nu m m a 只t h i st h e s i s p r o p o s e sa ni m p r o v e df e a t u r et r a n s i t i o nm e t h o db a s e do nu m m ap | l nt h en e w m e t h o d 。g m mm e a nv e c t o r sa l en o r m a l i z e db yt h eu m o b v i o u s l y , e x p e r i m e n t so n n i s ts h o w e dt h a tc o m p a r i n gw i t ht h eg m m u b mb a s e l i n e 2 1 6 r e l a t i v er e d u c t i o n w a sa c h i e v e di ne e r 中国科学技术大学博士论文 a b s t r a c t t h i r d t h i st h e s i sp r o p o s e sa n o t h e rn o v e it e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n s y s t e mb a s e do ng m m a n ds v m w h i c hc o m b i n e st h ea d v a n t a g e so f b o t ho f t h e m i n t h en e wm e t h o d g m mi sn o to n l yu s e da saf e a t u r et r a n s i t i o nm e t h o dt oe x t r a c taf e w d i s c r i m i n a t i v eg m mm u l t i l i k e l i h o o d sv e c t o r sf o rs v m b u ta l s ou s e da sat a r g e t s p e a k e rm o d e lf o rs p e a k e rv e r i f i c a t i o n 。e x p e r i m e n t so nt e x t - i n d e p e n d e n ts p e a k e r v e r i f i c a t i o ni nn i s td a t as h o w e d1 4 9 r e l a t i v ei m p r o v e m e n tc o m p a r e dt ot h e b a s e l i n eg m m - u b ms y s t e m a tl a s t , s o m ew o r ki sf o c u s e do nt h r e s h o l ds e t t i n ga n ds c o r en o r m a l i z a t i o n i n s p e a k e rv e r i f i c a t i o n t h eb i m o d a ld i s t r i b u t i o np a r a m e t e r so f t h en o t p u ts c o r e sb a s e do n t h et a r g e ts p e a k e rm o d e la r ed i f i e r e n t ,w h i c hm a k ei td i f f i c u l tt oe s t i m a t eam u t u a l t h r e s h o l d i nt h i sp a p w ep r o p o s ean o v e ls c o r en o r m a l i z a t i o n t zn o r m a l i z a t i o n , w h i c hc o m b i n e st h et r a d i t i o n a lz e r on o r m a l i z a t i o na n dt e s tn o r m a l i z a t i o n t e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o ne x p e r i m e n t so nn i s td a t as h o w e ds i g n i f i c a n t i m p r o v e m e n t sf o rt h i sn e wt e c h n i q u ec o m p a r e dt ot h e t r a d i t i o n a lt e c h n i q u e s t h i st h e s i sw a ss u p p o r t e db yt h en a t i o n a lf o u n d a t i o no fn a t u r es c i e n c e ( n o 6 0 2 7 2 0 3 9 ) 中园科学技术人学博士论文第章绪论 第一章绪论 1 1 说话人识别研究的发展概述 作为语音识别的一个重要研究领域,说话人识别研究经过4 0 多年的发展,研 究方法已经从简单的语音频谱模板匹配发展到目前的基于多种特征参数和模型 的方法;其研究领域也逐渐从小语料库、受限文本的干净语音发展为大语料库、 无限制文本以及实用环境语音下的识别。随着研究技术的长足发展,已经有一些 实用的商用系统从实验室走向市场,开始用于计算杌和计算机网络的使用、一些 关键部门的出入控制、电话语音交易的身份验证,公安司法、军事上电话语音的 监听、语音数据流中的说话人检测、以及一些个人设施如手机、p d a 等的个性化 设置等。随着互联网的蓬勃发展以及数字音频数据的爆炸式增长,说话人识别也 被应用到语音检索和信息获取( i n f o r m a t i o nr e t r i e v a l ) 中,正在获得越来越,“泛 和深入的研究。为了促进说话人识别研究的交流与提高,美国国家标准及技术署 ( n a t i o n a li n s t i t u t eo f s t a n d a r da n dt e c h n o l o g y ,n i s t ) 自1 9 9 6 年起开始举办每年 一度的说话人识别评测( s p e a k e rr e c o g n i t i o ne v a l u a t i o n s ,s r e ) 【l 】,为参加者 提供统一。的电话语音测试平台,用来评估现今说话人识别技术的进步水平。自 1 9 9 6 年起,累计有4 0 多个国际研究机构参加评测,包括m i tl i n c o l nl a b 、s t a n f o r d r e s e a r c hi n s t i t u t e 、i b mr e s e a r c h 、u s t c s s i p ( s p e e c hs i g n a l & i n f o r m a t i o n p r o c e s s i n g ) 以及m i c r o s o f tr e s e a r c ha s i a 等著名的研究机构和大学实验室,其技 术水平代表了当今与文本无关的说话人识别技术的最高水准。 说话人识别的研究起始于上世纪六卜年代,到目前为止该领域的研究已经取 得了突飞猛进的发展。1 9 6 2 年,b e l l 实验室的k e r s t a 仔细研究了用语图仪 ( s o n o g r a p h ) 绘出的语谱图( s o u n ds p e c t r o g r a p h ) 发现同一个人发阃一个音 的谱总是比不同人发同样的音的潜更相近,从而证明了机器自动识别发音人的可 中国科学技术大学博士论文 第章绪论 能性。同年,k e r s t a 在他的文章中首次提出了“声纹”( v o i c ep r i n t ) 这一概念。他 用比较语谱图的方法对1 2 人的规模做固定内容的辨认实验,正确率达到9 9 【2 】。 在七十年代初期,大多数说话人识别系统都是基于频谱和模板匹配方法实现 的,如1 9 7 4 年,a t & t 的a t a l 用模板匹配法研究了l o 人的与文本有关的说话人识 别,特征矢量是倒谱( c e p s t r u m ) 系数,其说话人辨认( 0 5 秒) 的误识率和说 话人确认( 1 秒) 的等误识率都是2 【3 】。到七十年代后期,动态时间规整( d y n a m i c t i m e w a r p i n g ,d t w ) 和矢量量化( v e c t o r q u a n t i z a t i o n ,v q ) 开始被应用到说话 人识别中【4 ,5 ,6 】,使得说话人识别的性能得到了大幅度的提高。如1 9 8 5 年,德州 仪器公司的d o d d i n g t o n 研究了基于d t w 方法和临界带( f i l t e r b a n k ) 特征矢量的 与文本有关的确认系统,当人数为2 0 0 ,测试语音长度为6 秒时的等误识率为 o 8 【4 】,而a t & t 的s o o n g 等人则研究了利用6 4 个码本的v q 进行说话人辨认,在 人数为1 0 0 ,测试语音为1 5 秒长度的孤立数字情况下,系统误识率为5 【6 】。 八十年代以来,感知频域倒谱系数( m f c c ) 【7 】的出现,使说话人识别的正 确率有了进一步的提高。与此同时,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r l a n n ) 【8 】和隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 9 ,i o 在语音识别 领域中得到了成功和广泛的应用,并且成为说话人识别的重要技术。特别是 h m m ,由于其良好的概率统计特性,已当之无愧地成为文本有关的说话人识别 建模的首选l l ,1 2 1 。 进入九十年代后,特别是r e y n o l d s 对混合高斯模型( g a u s s i a nm i x t u r em o d e l , g m m ) 【1 3 ,1 4 做了详尽的介绍之后,由于其简单灵活有效以及具有较好的鲁棒 性,迅速成为当今与文本无关的说话人识别中的主流技术。由于具有良好的区分 性,近年来备受关注的支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 也开始用于 说话人识别的建模,并迅速成为研究的热点【1 5 - l8 】,并且出现了多种用于说话人 识别的核方法【1 9 ,2 0 ,2 1 。 最近几年,大量说话人识别新技术的出现,将说话人谚 别带入到一个新的发 展阶段,如g m m u b m 结构 2 2 1 、大规模连续语音识别( l v c s r ) 应用于与文 本无关的说话人识别 2 3 】、s v m 和g m m 的结合 2 4 3 1 1 、评分规整 3 2 3 5 1 、语音 高层信息的探讨【3 6 3 9 以及针对通道失配问题的补偿技术 4 0 - 4 4 等。 中国科学技术大学博士论文 第一章绪论 1 2 文本无关的说话人识别 说话人识别类似于模式识别,一般分为i 个部分。即前端处理、说话人建模 以及识别,如图1 - 1 所示。前端处理负责对高冗余度的语音波形信号进行预处理, 去冗余。然后提取出易处理的,包含说话人特征的信息,也就是特征参数。因此 前端处理一般包括静音检测、预加重、特征参数提取及后续处理等步骤。模型是 对说话人特征的进一步抽象,根据任务的不同,需要为其建立不同类型的模型。 常用的说话人识别模型包括h m m 、g m m 、s v m 等。识别阶段,将测试语音与 模型匹配并给出识别结果。 识别输出 图i i 说话人识别系统 在语音信号中,说话人个性信息是与语义信息、语种信息等交织在起的, 很难通过特征提取直接将它们分离开来。因此,从语音信号中提取的特征参数也 包含了语义信息、说话人个性信息等等。进行说话人识别的过程也就是对提取 的特征参数进步处理,去除语义信息等盼下扰。提取我们感兴趣的说话人个性 信息的过程。 说话人识别按照说话内容的类型可以分为文本有关( t e m d e p e n d e n t ) 和文 本无关( t e x t i n d e p e n d e n t ) 两种形式。前者要求说话人提供指定语义内容的语音, 可以用存使用者比较配合的场合,并月语义内容( 如密码) 可以作为说话人身份 的补充信息来提高系统的识别性能;后者则不关心语音信号中具体的语义内容, 中国科学技术大学博士论文 第章绪论 因此它可以用在使用者不配合的场合。一般说来,文本无关的说话人识别的应用 更为灵活和广泛,但难度较大,训练和测试时都需要较长的语音和音素内容丰富 的文本,而文本有关的说话人识别相对容易达到较高的识别率,而且可以采用较 短的文本。本论文主要讨论文本无关的说话人识别。 1 3 说话人模型 随着说话人识别技术的不断发展,不断有新的既话人模型应用于说话人识别 任务中,如6 0 年代的模板匹配法、7 0 年代后期的矢量量化模型( v q ) 和动态 时间规整( d t w ) 、8 0 年代中期出现的隐马尔科夫模型( h m m ) 和人= 神经删 络( a n n ) ,以及进入9 0 年代中期以后的高斯混合模型( g m m ) ,2 0 0 0 年后出 现的支持向量机( s v m ) 等,这些模型在说话人识别中都得到了较为成功的应 用。其中模板匹配法、v q 和d t w 只能针对小语料库且文本有关的说话人识别 任务,日前已经很少使用。而h m m 、g m m 以及a n n 、s v m 等,则成为目前 说话人识别研究中的主要建模技术。按照模型特点,这几种说话人建模方法可分 为两类:概率统计模型和区分性模型。 1 3 1 概率统计模型 概率统计模型包括h m m 和g m m ,这类模型基于贝叶斯判决理论,将模式 识别中的分类问题转换为对数据分布的估计问题,即采用概率密度估计的方法来 对话者特征的统计分布进行尽可能精确的描述,从而将复杂的语音训练、匹配的 问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等等子问题。 语音信号具有易变性的特点容易受生理健康、心理活动、时间、社会环境改变、 通道和背景噪声等多种凶素的影响。而概率统计模型通过对大星训练语音特征数 据集的统计分布进行描述,可以较好地刻画目标话者不刚情况下的特点,具有良 好的鲁棒性。 h m m 是存马尔柯夫链的基础上发展起来的【4 5 】。由于实际问题比马尔柯夫 链模犁所能描述的更为复杂,所以h m m 描述的观察事件并不是与状态一一对 应,而是在它们之问通过一组概率分布相联系。凶此,h m m 是一个双重随机过 4 中国科学技术大学博士论文 第一章绪论 程,其中之一就是马尔柯夫链,这是基本的随机过程,它描述了状态的转移情况。 另一个随机过程是一组概率函数或概率密度函数,用来描述状态和观察值之间的 统计对应关系。这样,站在观察者的角度,只能看到观察值,不能直接看到状态, 而只能通过一个随机过程去感知状态的存在及其特性,不像马尔柯夫链那样观察 值和状态是一一对应的,因而称之为“隐”马尔柯夫模型。由于可以有效地描述一 段语音的发声过程,h m m 已经成为当前最优秀的文本有关的说话人识别系统的 基础【4 6 ,4 7 。 g m m 直接对语音中的说话人个性特征的统计分布进行描述,因此它需要较 大量的语音样本以去掉语音中的文本信息,从而较充分地反映出说话人个性特征 的统计分布,已成为当今与文本无关的说话人识别的主流技术 4 8 1 。与h m m 相 比,g m m 只有一个状态,也就是说g m m 模型并小去刻画语音的时序过稃,j l 刻画语音特征参数的统计分布。g m m 具有很高的高斯混合度,即通过m 个高 斯概率密度函数的线性加权组合来描述说话人个性特征的统计分布的,用于 g m m 的训练和测试语音长度较之h m m 要长的多。 由于概率统计模型只描述目标话者在特征空间中的统计分布特钲,通过对各 个不同的话者的特征分布的尽可能精确的描述来达到区分不同的话者的目的,因 而它的区分能力与其对目标话者的描述精度有关,对目标话者的统计分布特征描 述越精确,目标模型的区分能力就越好。同时,模型的描述精度也与目标话者训 练语音的数据量密切相关。模型的精确描述需要充分的训练数据,而这种要求在 实际使用中往往难以满足。 1 3 2 区分性模型 概率统计模型是经典的( 参数) 统计估计方法,其模型参数的形式是己知的, 模型训练的目的是根据训练样本寻找一组能够“最优”地模拟特征参数空间分布 的模型参数,也就是给定第i 类的训练数据z 要找到一组模型参数丑,使得 p ( x f 丑) 最大。但是这种h 法也有很大的局限性,即1 ) 最优的概率分布估汁并 不一定能够带来最优的分类器性能:2 ) 基于m l e 准则的训练算法不一定能保证 中国科学技术久学博士论文 第一章绪论 e ( x l 元) 最大:3 ) 有限的数据不一定能充分代表说话人的真实特征分布:4 ) 只 考虑某一类的模型参数和本类洲练数据之间的相似程度。而没有考虑与其他类别 之间的区分性。因而概率统计模型尽管在理论上很优秀,但是在实际使用中并不 一定能保证最好的分类效果。 与概率统计模型j 专注于对一类数据的统计分布进行细致地描述小同,区分 性模型则直接着眼于对不同类之间的分类面进行刻画,其目的是使得小同类之间 的分类误差尽可能的小,而对于某一类内部的特征分布则是小关心的,主要包括 各种人工神经网络( a n n ) 和支持向量机( s v m ) 。 a n n 具有很强的非线性映射能力和对复杂问题的模式分类能力,是一种解 决模式分类和回归的有力工具,是模式识别领域常用的分类方法,在说话人识别 里也获得了不错的性能。在训练一个说话人识别中的a n n 模型时,可以很方便 的将目标类的训练数据与其他类的训练数据混合训练,这样得到的模型就体现了 目标类和其他类的f i 同,具有很强的分类能力。目前,已有多种a n n 被用于说 话人识别,如多层感知器( m u l t i l a y e rp e r c e p t i o n ,m l p ) 【4 9 】、r b f 网络( r a d i a l b a s i sf u n c t i o n ) 【5 0 1 、自组织映射神经网络( s e l f - o r g a n i z a t i o nf e a t u r em a p p i n g , s o f m ) 5 1 1 、预测神经网络( p r e d i c t i v en e u r a ln e t w o r k ,p n n ) 【5 2 、时延神经 网络( t i m ed e l a yn e u r a ln e t w o r k s ,t d n n ) 5 3 等等。但是,a n n 存在最佳模型 拓扑结构的设计问题,其训练算法不能保证收敛,以及存在过学习的趋向。 s v m 是在统计学习理论( s t a t i s t i c a ll e a m i n gt h e o r y ,s l t ) 【5 4 ,5 5 基础卜发 展起来的个重要的学习方法,其中心思想就是调整判别函数使得它最好的利用 了边界样本点的分类信息,能够很好的解决小样本情况下的机器学习问题。支持 向量机本身的概念很简单,但是由于其有很强的扩展性,使得它具有很强的区分 能力。s v m 本质上是一个线性分类器,但是由于引入了核函数的概念,使得其 也可以解决非线性判决的问题。另外通过适当的选择核函数,使得支持向量机 也可以模拟其它的基于非线性判决的分类器。例如,当采用多项式核函数时,支 持向量机就可以模拟一个多项式分类器。 但是,作为一种针对小样本的机器学爿算法,s v m 对小样本情况下的自动 中国科学技术人学博士论文第章绪论 分类具有很好的效果。对于文本无关的说话人识别,采用s v m 话者模型时,需 要较长的语音,因此将面临着特征矢量样本数量大、目标话者和冒认话者训练样 本数极不平衡、数据混叠严重等一系列问题。 1 3 3 两类模型的有机结合 概率统计模型具有区分性模型所不具备的优点,反之亦然。因此,结合两类 模型的优点,使其在具有更好的区分能力的同时,也能够更为充分的利用训练数 据,使得模型具有更好的鲁棒性也成为目前模式识别中一个研究热点 5 6 ,5 7 ,不 仅包括说话人识别 5 8 ,5 9 ,还包括语音j , 则j i j 6 0 ,6 1 、手写体识别 6 2 等领域。 针对s v m 更适合于小样本的两分类情况,为了解决s v m 用于话者建模丽临 的问题,充分结合g m m 的鲁棒性和s v m 的区分性,提高文本无关的说话人确认 性能,本论文研究了将g m m 与s v m 相结合的方法,并将s v m 用于说话人确认的 话者建模。 1 4 说话人确认 说话人识别可以分为两个基本范畴,即说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和 说话人确认( s p e a k e r v e r i f i c a t i o n ) 。前者是把未标记的语音判定为若干个参考说 话人之中的某一个所说,是个对多的问题。后者则是根据说话人的语音确定是 否与其所声言的参考说话人相符。这种确认只有两种可能,或是肯定( 即接受) , 或是否定( 即拒绝) ,是个+ 。对一的问题。两者的主要区别是判决选择的数目不 同,说话人辨认是在全部注册说话人的范围内进行的,因此辨认性能将与注册的 人数有关,随着人数的增加辨认性能将有所下降;而确认与注册人数的多少的没 有关系。辨认和确认各有其不同的应用场合,本论文的主要研究内容为说话人确 认。 1 4 1 说话人确认系统的组成 说话人确认分为训练和测试两个阶段。在训练阶段与说话人辨认类似,即由 说话人的训练语音通过相应算法训练得到该说话人的模型( 如g m m 、s v m ) 即 中国科学技术人学博士论文 第章绪论 可。而在测试阶段,测试语音在被给出的同时会附带一个身份声明。此语音信号 在经过前端处理转换成特征参数序列之后,将与身份声明所指定的说话人模型进 行匹配,给出一个相似度的评分。然后这个评分将与确认阈值进行比较,最终获 得确认结果( 接受或拒绝) 。 在进行确认判决时,需要将测试语音与模型的匹配评分与确认阕值进行比 较,而确认阈值是事先设定的。对于确认阈值的设定,最理想的情况是为每个目 标说话人设定一个单独的确认阈值。但这是非常困难的,因为在进行确认阈值的 设定时,需要大量的训练语音( 包括目标话者和冒认话者的训练语音) 对目标模 型测试来统计目标模型的评分分布情况,而目标话者的训练语音通常是有限的。 所以,通常利用所有说话人的训练样本确定一个系统共享的统一确认闽值。 在设定系统的统一确认阂值时。不同说话人模型的评分分布是不同的,使统 一阂值与每个目标话者的实际阂值之间存在差异,从而导致系统确认性能下降。 因此,需要在模型匹配与系统判决阶段之间加入评分规整的阶段,通过评分规整 将不同话者模型下的输出评分规整到同一分布范围内然后进行统一确认阈值的 合理选取和使用。 1 4 2 说话人确认系统的评估手段 对于一般的分类问题如说话人辨认等,可以直接用分类错误率作为评估手 段。但是对于说话人确认而言,由于存在着两种错误类犁,因此系统的评估变得 复杂起来。目前存在着多种评估方法,本节对论文中涉及到的评估方法进行简单 介绍。 在说话人确认系统中,由于需要对输入测试语音进行是或否的判决,因而需 要设定系统确认阈值。对应于说话人确认系统的两类语音数据:目标说话人语音 和冒认者语音,确认阈值的不i _ 口j 设置会产生不刚的错误接受率( f a l s ea c c e p t a n c e r a t e 。f a ) 和错误拒绝率( f a l s e r e j e c t i o nr a t e ,f r ) ,如图1 - 2 所示。确认阈值越大, f a 越小,使冒认话者成功的几率减小:f r 越大,也同时增大了目标说话人被错 误拒绝的几率。 中国科学技术大学博士论文第章绪论 锵 说 ;缸 e e r 一d e t 曲线 图1 2 说话人确认系统的f a - f r 性能 d e t ( d e t e c t i o ne r r o rt r a d e o f f ) 曲线是用于评估说话人确认系统性能的 一个常用方法,它以对数刻度下的f a 和f r 分别作为横坐标和纵坐标,用不同 的确认阚值下的f a 和f r 值描绘得到的,如罔l 一3 所示。故d e t 曲线上的个同 的点代表了不同确认阈值下的确认性能,它常作为系统总体性能的一种评估, d e t 曲线越靠近原点,系统性能越好。 h ” m f a 洲茸y 邮) 0 51251 040 罔i - 3 说蹯人确认系统的d e t 曲线 9 l;r,lr,l,l 伸 o : , 中圆科学技术大学博士论文第章绪论 二等误识率( e e r ) 选取图l 一2 中f a 曲线和f r 曲线的交点作为确认阈值,由于此时的f a = f r , 称此时的误识率为等误识率( e q u a le r r o rr a t e ,e e r ) 。在d e t 曲线上,等误识率 点则对应为对角线与d e t 曲线的交点,如图l 一3 所示。 三检测代价函数( d c f ) 为了更有效地评估系统的性能,美国国家标准及技术署( n a t i o n a li n s t i t u t eo f s t a n d a r da n dt e c h n o l o g y 。n i s t ) 在其组织的每年一度的说话人识别评测中定义了 一个量:检测代价函数( d e t e c t i o nc o s tf u n c t i o n ,d c f ) 【4 8 ,用公式表示为: d c f = 钞f r p 亿,+ ( 洵+ f a + 用却- ( 卜1 ) 其中 涉和0 白分别是错瀑拒绝和错误接受的代价tp t a r 和p l m p 分别是真实说 话人和冒认者的先验概率。可以根据系统的应用环境和安全要求,灵活地设定它 们的大小。 d c f 考虑了两类错误所带来的不同代价,同时也考虑了目标说话人和冒认话 者的先验概率。显然d c f 能对应于不同应用场合的需求。比e e r 更为合理。例如 在近几年的n i s t 评测中设定( 涉= 1 0 ,c y a = l ,尸砌r = 0 0 1 ,p i m p = 0 9 9 ,注 重了对系统安全性的考虑。在本文中,采用了这种设定。 由于d e t 曲线上的每个点对应了一个确认闽值,因此代入( i - 1 ) 式便得到 该点所对应的检测代价值( d c f 值) ,即d e t 曲线卜的每个点都有其相应的检测 代价。对应于已选定的检测代价函数,检测代价值越小,则系统性能越好。因而, 可以选择d e t 线 :的最小检测代价值作为系统的个评估手段,称之为最小 d c f 。对图i 3 所示例子,存其d c f 最小点处的f a 仅为1 ,而f r 却大于3 0 ,可 见在这种检测代价函数的选择中,为了让冒认者成功的几率减至很小,不惜牺牲 了目标说话人的接受率。 1 5n i s t 手机电话语音语料库 从1 9 9 6 年起,为了评估当今说话人识别的研究水平,美国国家杯准及技术署 0 中国科学技术大学博士论文 第一章绪论 ( n a t i o n a li n s t i t u t eo f s t a n d a r da n dt e c h n o l o g y ,n i s t ) 开始举行了一年一度的世 界性的说话人识别评测( s p e a k e rr e c o g n i t i o ne v a l u a t i o n ,s r e ) 【l 】。n i s t 为参 赛者提供统一的数据平台。评测规则,以及评估标准。由于与文本有关的,以及 干净环境下的说话人识别已经达到了非常高的性能,因而n l s t 的评测侧重于有 挑战性的方面,即电话传输通道环境下的与文本无关的说话人确认技术。因此, n i s t 历年语料库的数据均为手机、电话语音,通常为s w i t c h b o a r d 或s w i m h b o a r di i 的予集。 n i s t 语料库主要有以下特点: 语音采样率:8 k h z ,1 6 b i t ; 所有数据通过电话通道收集; 电话传输通道包括手机、无绳电话和普通电话; 电话话筒包括s p e a k e r p h o n e 、h e a d m o u n t e d 、e a r - b u d 、r e g u l a r ( 如 h a n d h e l d ) 四种; 语种以英语为主,同时包含阿拉伯语,汉语普通话、俄语、西班牙语; 所有训练语音的说话人性别已标注; 语音收集持续三个月: 为了重点研究说话人确认中某些令人感兴趣的方面,通常每一年的n i s t 评 测中会包含多个不同的任务。根据不同的任务,n i s t 语料库可以分为多种不同 的子库。在本论文的研究中,我们主要采用以下两种数据库: l s i d e l s i d e :对每个说话人,训练数据为。条长度约为2 5 f f 钟的语音,测 试语音的长度也约为2 5 分钟。 8 s i d e l s i d e :对每个说话人,训练数据由八条长度约为2 5 分钟、来自不同 电话通道的l s i d e 语音组成,测试语音则同l s i d e - l s i d e 数据库一致。 1 6 论文研究的主要内容及安排 论文就手机电话语音条件下文本无关的说话人确认问题,采用基于高斯混合 中国科学技术大学博士论文第章绪论 模型( g m m ) 和支持向量机( s v m ) 的方法,对s v m 用于话者模型中的一些 基本问题、短

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论