(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf_第1页
(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf_第2页
(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf_第3页
(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf_第4页
(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(电路与系统专业论文)基音和超音段信息用于话者确认的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文摘錾 摘要 文本无关的说话人确认被认为是最自然的生物特征认证手段之一,是语音识 剐研究领域的一个覃要研究方向。传统的基于短时倒谱参数和g m m u b m m a p 模型结构的说话人确认系统经过多年的发展及完善,识别率已经达到一定程度, 难以再提高。探索短时倒谱以外的新的话者特征参数,已经成为当今话者识别研 究的一个热点。本文钊对实用手机、电话语音的与文本无关说话人确认,对基音 以及超音段信息用于辅助提高话者确认系统的识别率及鲁棒性进行了深入研究。 主要研究内容如下: 1 给出了两种短时基音参数的提取方法,并详细讨论了它们的性能。实验 研究表明,基音参数相对于短时倒谱参数,其本身所携带的话者特征信 息较少,但是它们的噪声鲁棒性较好,并且和短时倒谱参数的相关性小, a j 以作为有效的辅助参数。 2 针刘较难提取的超音段信息,本文提出了一种基于小波分析的超音段韵 律参数提取方法。刺基音和能量随时间的变化轨迹做小波分析,并从概 貌系数中提取韵律参数。实验证明了在训练语音充分的条件下,这种超 音段韵律参数的i = 只别性能比短时基音参数有显著的提高。系统等误识率 相剥下降3 0 。 3为了发挥各种参数的互补性,我们讨论了多种参数融合的说话人确认系 统,给出了基于评分融合的系统结构。实验表明,多参数融合系统性能 优十任一个子系统的性能。 4 针对大规模的说话人确认系统中,不同说话人模型的输出评分分布不同 造成系统整体分类性能变差的问题,提出了一种新的整体规整方法 ( e n t i r e - n o r m a l i z a t i o n ) 。这种评分规整使得所有语音的输出评分具有相似 的分布,从而使系统的整体分类能力得到保证,利于鲁棒性确认阈值的 设置。 她文摘婴 a b s t r a c t s p e a k e rv e r i f i c a t i o nw h i c hv e r i f i e sap e r s o n sc l a i m e di d e n t i t yf r o mh i sv o i c e ,i s r e g a r d e da st h em o s tn a t u r a la n dc o n v e n i e n to n ea m o n gt h em e t h o d so fb i o m e t r i c s i t so n eo ft h e i m p o r t a n tr e s e a r c hf i e l d so fs p e e c hr e c o g n i t i o n n o w a d a y s ,m o s t c o n v e n t i o n a l s p e a k e rv e r i f i c a t i o ns y s t e mi sb a s e do nt h es h o r t t e r ms p e c t r a l i n f o r m a t i o na n dt h eg m m u b m m a ps c h e m e w h i l et h e s es y s t e m sp r o d u c eg o o d r e s u l t t h e yi g n o r eo t h e ri n f o r m a t i o no f t h es p e a k e rs u c ha sp i t c ha n ds u p r a s e g m e n t a l i n f o r m a t i o n i no r d e rt oi m p r o v et h ep e r f o r m a n c ea n dr o b u s to ft h ec o n v e n t i o n a l t e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m ,t h i st h e s i se x p l o r e se f f e c t i v en e w f e a t u r e sw h i c ha r ee x t r a c tf r o mt h ep i t c ha n ds u p r a s e g m e n t a li n f o r m a t i o n t h em a i n c o n t e n to ft h i sd i s s e r t a t i o na r es h o w na sf o l l o w s : 1 w ei n t r o d u c et w oa p p r o a c h e st h a ta p p l yp i t c ht os p e a k e rv e r i f i c a t i o n ,a n dd i s c u s s t h e i rp e r f o r m a n c e e x p e r i m e n t ss h o wt h a tt h e s ea p p r o a c h e si n d i v i d u a l l yd i dn o t m e e tw i t hg o o dr e s u l t sa st h em 、f c c b a s e ds y s t e m b u tt h e ya p p e a rt oc o n v e y c o m p l e m e n t a r ys p e a k e ri n f o r m a t i o n w h a t sm o r e ,t h e yr e v e a lm o r es i g n i f i c a n t r o b u s t n e s s 2w ep r o p o s e da na p p r o a c ht h a te x t r a c t sp r o s o d i cf e a t u r e sb a s e do n l o n g t e r m s u p r a s e g m e n t a li n f o r m a t i o n f i r s t ,b ym a k i n gw a v e l e ta n a l y s i s ,w ec a nr e v e a lt h e t r e n d so ft h ep i t c ha n de n e r g yc o n t o u r s u b s e q u e n t l y ,t h ep r o s o d i cf e a t u r e sa r e e x t r a c t e df r o ma p p r o x i m a t i o nc o e f f i c i e n t si no u re x p e r i m e n t ,t h ep r o p o s e dn e w m e t h o da c h i e v e sa ne e ro f2 3 3 3 ,w h i l et h eb a s e l i n es y s t e m ,w h i c hu s e ss h o r t t e r mf e a t u r e s ,o n l yr e s u l ti na n de e ro f 3 34 9 3b e c a u s et h ep i t c ha n ds u p r a s e g m e n t a lf e a t u r e sh a v ec o m p l e m e n t a r yi n f o r m a t i o n t ot h e s p e c t r a lf e a t u r e s ,w e f u s i o nt h e s ef e a t u r e st o i m p r o v et h es y s t e m s p e r f o r m a n c ee x p e r i m e n t ss h o w t h a tt h ef u s i o ns y s t e mi sm u c hb e t t e rt h a ne a c ho f i t ss u b s y s t e m s 4w h e nu s i n gag m m b a s e dt e x t - i n d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m , ”固科拳技术人2 ,:。硕士论文 处文摘婴 p e r f o r m a n c em a yb el i m i t e db e c a t l s eo fv a r i o u so u t p u ts c o r ed i s t r i b u t i o n s f o r d i f f e r e n ts p e a k e r m o d e l sa n df o rd i f f e r e n tt e s ts e g m e n t s t a k i n gi n t oa c c o u n t t h e s et w od i f f e r e n c e s ,an e ws c o r en o r m a l i z a t i o nm e t h o d ,e n t i r en o r m a l i z a t i o n i s p i o p o s e db ys c a l i n go u t p u ts c o r e s ,e n t i r en o r m a l i z a t i o na i m st on o r m a l i z ea l lt h e s c o l e st oa s i n g l e d i s t r i b u t i o n e x p e r i m e n t su s i n ge n t i r e n o r m a l i z a t i o ns h o w s i g n i f i c a n ti m p r o v e m e n t sc o m p a t l e dt os t a n d a r dn o r m a l i z a t i o nt e c h n i q u e s 国- h ,技术人二。耐上沦文 第一章缔论 第一章绪论 1 1 说话人身份确认概述 说话人识别( s p e a k e rr e c o g n i t i o n ) ,也称声纹鉴, l j ( v o i c ea u t h e n t i c a t i o n ) ,是 指利用晤音进行说话人个人身份白动识别的技术,由于每个人的发声器官和讲话 刊惯都不相同凶此由语音信号可以有效的分辨说话人。说话人识别包括说话人 辨识( s p e a k ej i d e n t i f i c a t i o n ) 和说话人确认( s p e a k e r v e r i f i c a t i o n ) 两类任务,前 者是根据段语音,在给定的话者集合中辨识出最可能的发音者,其输出为说话 人标识,后者是列预先申明的目标话者,判断给定语音是否来自该说话人,其输 出为接受或拒绝。说话人识别属于人体生物特征识别的范畴,与其他身份认证技 术如密码匹配、指纹识别、虹膜讪l 别、人脸识别、笔迹识别等相比,具有鲜明的 特点。白先,说话人识别使用的“密码”即为人们的声音,随身“携带”,无需 记忆,开口即得,使用方便;其次,每次识别所使用的语音内容可以完全随机, 也可以由系统提示临时决定,不易窃取、仿造;第三,识别所需的语音信号在现 实生活中大量存在,易于获取,对用户酉己合的依赖程度较低;第四,识别使用的 终端设备仅为麦克风、电话或手机,简单易携、成本低廉,且便于和现有通信系 统相互结合。因此,说话人识别技术在金融、商贸、公安、军事等诸多领域有广 阔的应用前景。 按照对语音内容的要求,蜕话人识别可分为与文本相关( t e x t d e p e n d e n t ) 和 与义本无关( t e x t i n d e p e n d e n t ) 两种方式,前者要求说话人必须按照特定的文本 内容发音后者则对语音内容1 i 作任何要求。可以看出,文本相关方式对用户配 合的要求较高,因此使用场合受到一定限制,但是由于识别中使用了语音的内容 信息,使得训练、识别所需的语音【支度较短( 仅为几秒) ,识别率也比较高。文 本无关方式可以使用任意内容的语音,对用户配合的要求很低,甚至可以在识别 对象无察觉的情况f 进行( 如语音榆索、罪犯指认等) ,其使用场合更为灵活, 但该方式所需的语音资料相对较k ( i j | i 练时一般大于3 0 秒,识别时也需要几十 秒甚至更多) ,识别难度更大。两种方式各有特点,适用于不同任务,目前,与 文本相关的说话人识别技术已经较为成熟,而与文本无关说话人识别的研究受到 国丰= | 。产技术人、碓1 士论文第章绪论 更多的关注。本文十耍研究的是与文本无关的说话人确认技术。 1 1 1 说话人识别技术的发展历程 对说话人识别技术的研究是从上世纪叶1 叶开始的。1 9 6 2 年,b e l l 实验室的k e r s t a 由语谱旧( s o u n ds p e c t r o g r a p h ) 的比较构建了最初的说话人自动识别系统,该 系统直接以晤音短时频谱作特征,以频谱模板作话者模型,在1 2 , k 的规模下达到 了9 9 的正确率1 。k e r s t a 的系统证明了用机器识别说话人的可行性,并提出了 切史的特征提取和话者建模方案。在以b e l l 实验室为代表的众多科研机构的努力 下,观话人识g q 技术于7 0 年代取得了i :乏足的进步,人们引入倒谱系数( s p e c t r u m c o e f f i c i e n t s ) 作为话者特征,并提出了性能更好的动态时间规整( d y n a m i c t i m e w r a p i n g ,d t w ) 方法,7 0 年代已有部分说话人识别系统接近实用幽丑脚 5 。 进入8 0 年代,随着m e l 频域倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 和矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 6 】【7 等技术的廊用, 识别系统的性能得到了大幅度的提高,当时的研究成果很多到目前仍是说话人识 别中的重要技术。2 0 世纪9 0 年代以后, d a r e n o l d s 提出的高斯混合模型 ( g u a s s i a nm i x t u r em o d e l ,g m m ) 8 以及随后引八的g m m u b m ( u n i v e r s a l b a c k g r o u n dm o d e l ) 9 】1 1 0 框架结构带来了与文本无关说话人识别技术的突破, 而倒谱均值相减( c e p s t r u mm e a ns u b t r a c t i o n ,c m s ) 【1 1 】、频谱相关滤波( r a s t a f i l t e r i n g ) 【1 2 d 3 、话者模型合成( s p e a k e r m o d e ls y n t h e s i s ,s m s ) 【1 4 1 【15 1 、平 行模型组合( p a r a l l e lm o d e lc o m b i n a t i o n ,p m c ) 16 】等技术的应用大大提高了系 统的鲁棒性能,商用的说话人识别系统开始涌现,如美国的h o m es h o p p i n g n e t w o r k ,a t & t 公司的s c a n m a i l 等。当前,在参数提取方面,主分量分析( p r i m a r y c o l l l p o n e n ta n a l y s i s ,p c a ) 和独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s , i c a ) 技术己被用于提取说话人特征,以基音轨迹( p i t c h t r a c k ) 【1 7 、语速等为代 表的超旨段信息也开始得到运j = ,向剥习惯用语 1 8 】和其他语音高层信息的使用 研究已经喂开:在话者建模方面,隐马尔可夫模型( h m m ) 和高斯混合模型 ( g m m ) 分别成为与文本相关和与文本无关说话人识别的主流技术,支持向量 机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 【1 9 1 2 0 e 说话人建模和多系统融合方面取得 国荆j ,技术人j 一硕士论文 第章绪论 成功并显示出了巨大的发展潜力,同时大规模连续语音识别( l v s c r ) 系统开 始应用t 与文本无关的说话人识别。上世纪6 0 年代的系统只能进行面向实验室环 境的小语料厍的与文本相关的说话人识别,而当前的系统已经可以在复杂的实用 环境中剥大量目标话者进行任意文本的说话人识别。美国国家标准及技术署 ( n a t i o n a li n s t i t u t eo fs t a n d a r da n dt e c h n o l o g y , n i s t ) 自1 9 9 6 年起开始举办每年 一度的说话人识别评测( s p e a k e rr e c o g n i t i o ne v a l u a t i o n s ,s r e ) ,它为参加者提 供统一的电话语音测试平台,削柬评估现今说话人识别技术的进步水平,并交流 探索说岳人识别中较有前途的新思想、新途径。自1 9 9 6 年起,累计有4 0 多个国 际研究机构参加评测,包括m 1 t l i n c o l nl a b 、d r a g o ns y s t e m s 、i b m r e s e a r c h 咀 及m i c r o s o f tr e s e a r c ha s i a 等著名的计算机科学研究机构,其技术水平代表了当 兮与文本尢关的说话人识别技术的最高水准,我们实验室也于2 0 0 3 年起每年都 参加了其。 j 一些项目的评测,并取得了令人鼓舞的成绩。 1 1 2 说话人身份确认系统的组成结构 基于模式匹配方法的说话人身份确认系统由特征提取、模型训练和匹配、评 分判决二个部分组成,其结构如图1 1 所示,系统实现分为训练和测试两个阶段。 在模型训练阶段,系统输入为来自月标说话人的训练语音集,特征提取部分由该 语音集提取出能表征话者个性特征的数据,模型训练部分则采用一定的算法对这 批数据建立模型,并存入模型库:在模型测试阶段,系统输入为某段测试语音和 对发音者的身份声明,特征提取部分首先将测试语音转换为相同类型的特征,而 后模型匹配部分将该特征与身份声明对应的话者模型进行匹配运算,得出评分, 犀后由评分判决部分将匹配评分与预先设定的确认阈值相比较,从而做出接受或 拒绝的判断。 国制| 。技术人= 莎i 士论文 第章绪论 图1 1 说话人身份确认系统结构 1 1 3 说话人身份确认系统的评估手段 由于说话人确认系统存在两种错误类型,即冒认者被接受的错误和真实说话 八被拒绝的错瞑,分别对应了两种错误率:错误接受率( f a l s e a c c e p t a n c er a t e ,f a ) 和错误拒绝率( f a l s er e j e c t i o nt a l e ,f r ) ,从而使系统评估变得较为复杂。图1 2 为基于g m m 的与文本无关说话人确队系统的输出评分分布,显然,确认闽值的 不同设置对于f a 和f r 的影响是相反的。如图1 3 所示,较高的闽值会使得冒 认者难以得逞,但同时真实的说话人更容易被拒绝,反之,较低的阈值使得真实 说话人被拒绝的机会减小,但同时会增大冒认者成功的几率。 雷认誊 详封分布 、 墙毒* 静 嚣嚣蓦喜 铺 谖 唪 e e r 图1 2 输出评分分布 图1 3f a 、f r 和闽值的关系 2 1 等误识率( e e r ) 实际情况下,f a 和f r 曲线总是有交叠的,两条曲线相交处的两种错误率相 等,称为等误识率( e e r ) ,如图1 3 所示。等误识情况下,一般两种错误率都 比较小,因此常此处定为阀值,e e r 也常作为确认系统的评估标准。但e e r 只 能衡量系统在等误识率闽值下的性能,无法衡量系统的整体分类能力。 国荆。一坎水人| f - i - 士论文第章绪论 2 2 d e t 曲线 f a ,f r 只能反应系统在一个特定闽值下的性能,而d e t ( d e t e c t i o ne r r o r t r a d c o f f ) 曲线则是一种能反映系统整体分类能力的评估方法,它是以f a 为横坐 标,f r 为纵毕标得出的确认系统性能曲线,一个闽值对应一个曲线上的点 ( f a ,f r ) ,因而d e t 曲线画出了所有f r f i j f a 的可能取值,反映了不同确认阈值 下的整体分类性能。d e t 曲线越靠近坐标轴,则系统的分类能力越好。 ; 一 i d e t 巷钱 r、 最小d c l r 占 、- ,d r - 隐 , 系匀 、j | _ _ | | k 。| l x j 系统b , ; : 0 1 020 51 2 50 2 04 0 措谣接受率( # a 锄 系统 系境b 冒认者 评分分布 图1 4 ad e t 曲线图1 4 b 两个系统的输出评分分布 图1 4 a 是d e t 曲线的一个典型例子,虚线和实线分别代表了两种确认系 统。图i 一4 b 是这两种系统给出的两类输出评分分布,显然,系统b 中的冒认者 评分和日标话者评分混替小,更容易分开。当取遍所有闽值时,系统b 的f r 和 f a 整体 比系统a 要小,因此存d e t 曲线上也可以看到系统b 比系统a 的曲线 更靠近坐标轴,反应出b 比a 的整体分类能力要好。 2 3 检测代价函数( d c f ) 在美围同家标准及技术署( n a t i o n a li n s t i t u t eo fs t a n d a r da n dt e c h n o l o g y , n i s t ) 举行的乍+ 度的世界性的说话人识别评测中,都用检测代价函数【2 1 ( d e t e c t i o nc o s tf u n c t i o n ) d c f 来代表系统的性能。d c f 定义式如下: d c f = c h 。f r f k “m 。f a 。p m ” 致只 。、一气r ( 1 - i 、 其中,c n 和c m 分别是错误拒绝和错误接受的代价,暑“和坼分别是真实说话 八干u 冒认看的先验概率,显然,d c f 考虑了两种错误带来的不同代价以及两类说 话人的1 i 同先验概率。在实际评估中1 1 1 要给定一个阀值,这样就会得到相应的 砸 ; o ”吣刚 第章绪论 f a 和f r ,代入( 1 1 ) 式便会得到对应闽值下的检测代价,检测代价小的系统 性能更优。一个闽值对应一个检测代价值,而一个系统取遍所有阅值所能达到的 最小检测代价,称为系统的最d , d c f 。这也成为n i s t 评价系统优劣的一个重要 标准。 存n i s t 的评测中,定义c p2 】o ,c m2 1 ,2o - o l ,2o 9 9 。这样设 定的较符合实际系统的情况:即错误拒绝的的代价大,冒认者比目标说话人多。 代入( 1 1 ) 式就得到 d c f = 0 1 朋+ o 9 9 x f a ( 1 - 2 ) 可见f a 在d c f 中的权重 - e f r 大的多。因此,一般d c f 的最小点处的f a 比f r 小,在 斟1 4 中圆点所标沣的位置就是d c f 的最小点。由于系统b 的最小d c f 点比系统a 更靠近坐标轴,因此山最4 d c f 评价,实线系统仍优于虚线系统。 1 2 论文研究背景和意义 随着计算机科学的发展,社会信启、化程度的提高,说话人识别的用途也越来 越广泛。它可以被用于计算机、计算机网络的使用咀及关键部门的出入控制,电 话交易的身份验证,公安司法、军事上的电话监听,以及一些个人设施如手机、 p d a 等的个性化设置等。随着互联网的蓬勃发展以及数字音频数据的爆炸式增 长说话人识别也被应用到语音检索和信息获取( i n f o r m a t i o nr e t r i e v a l ) 中,正 在获得越来越广泛和深入的研究。 自从9 0 年代r e y n o l d s 8 9 1 0 对混合高斯模型( g m m ) 做了详尽的介绍之 后。使用g m m 模型和声道短时频谱参数的说话人系统,由于其简单灵活有效以 及具有较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流系统。在 最近几年n i s t ( 美国国家标准及技术署) 举办的一年一度的与文本无关的说话 人i t 只;o g l t 删2 1 中,领先的系统基本上都是基于这一主系统的。但是经过多年的 完善,这一传统上流系统的识别率已经很难再提高。主要是由于传统系统存在如 下亟待觯决的问题。 、 超音段特征的提取。 自从l t t t 纪5 0 年代以柬,人们一直在寻找好的话者特征参数,但是目前为 国科j r 技术人i 一硕士1 仑文第章绪论 l r ,焉者特征参数仍然是说话人识别率提高的一个瓶颈。说话人的特征信息是丰 富多样的,从晤吾学角度来看,说话人特征有口音、话题、说话风格【惯用语和 常用句式) 等,这些特征信启洲人们日常牛活中识别说话人都很有帮助。图1 5 是语音巾包含不同层次信启、的示意图: :醚i j 登l 学i i _ | 。 f 三巫 l 巫蔓圈 r1 m f c c l p c c p i t c h 低 图1 5 :语音包含不同层次的信息 可以看到,存较短的时问刻度内我们通过将语音分成短时帧( 2 0 m s 左右) , 对每帧进行短时分析可以得到各种声学层的信息,如短时频谱、基音频率 p i t c h ) 等,这些属于较低层的信息;而在较长的时间刻度上,韵律( 基音频率、 音强等随时间的变化) ,人说话的速率( 语速) 以及更高一层的语音文本内容等 等,又不可避免地受到说话人的影响,因而可能具有某种程度上的说话人特征信 息,这种语音中的长时信息称为“超音段信息”。 但是在传统的说话人识别系统中,参数大多为基于声道特征的短时倒频瑶参 数,如m f c c 、l p c c 等,而语音信号中所包含的其他一些能表征说话人个人特 性的特征信息,尤其是超音段信息,由于比较难以提取和表示,故尚未得到厂泛 的应用。而日实验证明超音段与基于声道特征的短时谱参数的相关性非常弱,并 且不易受到噪声干扰。提取超音段参数作为传统短时参数的补充参数,用于说话 人识别。对于进一步提高话者确认系统的性能十分重要。 、 确认闽值和确认策略。 确认闽值是说话人确认中的一个特有的问题,它直接关系到未知语音能衙被 国斜j ,技木人一,硕士论文第章绪论 正确确认,般情况下用户提供的i j l l 练样本不会太多,因而确认闽值比较难以确 芷。一个解决办法是使所有用户共享一个公用闽值,这样可以充分利用所有人的 训练样本,但这样做的问题又很明显,因为实际上不同目标说话人的理想确认闽 值是有所差别的。因而如何将j ! 1 1 0 试评分规整,从而能够设置合理的统一确认阈值 是非常至要的。 1 3 本文的主要研究内容 本文_ | 】_ j 究的是实用复杂背景下的与文本无关话者确认,文中所采用的语音数 据库来自。实用环境f 的手机电话语音。针对话者确认存在的上述问题,本文研究 的主要内容是:一方面从语音信号中提取出能够代表话者个性特征的基音以及超 音段信息用于与文本无关话者确认,并用于提高现有的采用m f c c 参数的话者确 认系统的性能。另一方面,在系统后端通过评分规整的方法设定鲁棒性的确认闽 值,提高系统的整体分类能力。本文的后续内容由如下几个章节组成: 第二章详细时论了当前弓文本无关说话人确认中主流的g m m u b m 框架结 构。介绍了高斯混合模型( g m m ) 的原理和算法,以及由此导出的u b m m a p 框架的构成与实现,系统的阐述了u b m m a p 框架作为话者确认模型的特点。 这系统框架在后文的各种基j j 不同参数的子系统中被多次采用。 第二三章详细讨论了说话人确认系统中的输出评分规整,以及闽值设置问题。 提出了一种新的评分规整方法一整体规整( e n t i r e n o r m a l i z a t i o n ) 。比较了整体规 整和原有评分规整方法的性能,并介绍了阈值设置的方法。 第四章深入探讨了语音特征参数的提取,介绍了语音的发声机理,语音的短 时i f 稳的特点,以及语音的短酬分i 呲处理。详细介绍了本文中采用的短时声道参 数m f c c i l p c c 的提取及其抗噪方法。并分别用m f c c $ 口l p c c 为特征参数,以 g m m u b m 建模构建话者确认系统。,i :比较了其性能。 第五章给出了利用短时荩音周期参数进行活者确认的方法。同时也给出了后 续章节公用的音源特征中基音周期的提取方法。首先从两个角度讨论了基音周期 中所体现的i 舌者个性信扈、,明确了基音周期可以用于话者确认,随后介绍了两种 提取短时基音周期参数的方法,并采用u b m m a p 的框架建立了话者确认系统, 第章绪论 考察了参数各自的话者确认性能。并简要分析了音源特征参数的鲁棒性。 第六章提出了一种提取长时韵律参数用 二说话人识别的方法。同时在语音的 荩青周期轨迹( p j t c h - c o n t o u r ) 和能量轨迹( e n e 唱y c o n t o u r ) 上提取长时韵律参数。 计采用u b m m a p 的框架建立了话者确认系统。比较了长时韵律参数和短时纂 旨周期参数的性能。 第七章首先讨论了不同特征之间的融合方式,介绍了信息融合的一般性的原 则。然后给出了本文采用的主辅系统融合的话者确认结构,重点研究了不同了系 统融合下的陆能。 最,再,刈本论文的主要研究 _ = 作进行了总结,并对进一步的工作进行了展望。 第二章基于g m m u b m m a p 的说活人确认系统 第二章基于g m m u b m m a p 的说话人确认系统 2 1 引言 人们的语音同时包含语言内容信启、和说话者的个性信息。与文本有关的醴话 人确认可以通过比较两段文本内容相同的语音,来得到其中说话人的区别。而 存文本尢关的说话人识别中,最大的问题就是如何在模式匹配时去除文本内容的 影响。 由于发音的内容随时间变化较快,而说话人特性在较长时间内相对平稳,因 此可据此对二者进行分离。基本的做法是将语音分成短时语音帧,在每一帧上提 取参数。然后统计这些参数存长时上的概率分布做为说话人模型。较早的疗法是 列语音频礴取长时均值作为话者特征,这样可以将语音内容信息平均掉,从而进 行与文本无关的说话人判决 2 2 1 1 2 3 1 。 但是仅用均值作为话者模犁显然不能充分描述说话人的特征。于是也卅现了 用矢量量化( v q ) 进行文奉无关说话人识别的方法。【2 4 通过将语音帧无监督聚 类,厂玎v o 的码本来描述说话人的特征。 随着概率统计模型的进一步发展,麻省理工学院林肯实验室的d ar e n o l d s 等人成功地将高斯混台模型( g u a s s i a nm i x t u r em o d e l ,g m m ) 运用到与文本无关 的说话人识别中。该模型从短时语音帧中提取话者特征,并用一组多维高斯概率 密度的加权和表示该说话人特征的统计分布,该模型比v q 更能准确的描述说话 人诏音的分布特征,取得了前所未有的识别效果。近年来,基于g m m 的 g m m ,u b m 框架结构在与文本无关的说话人识别、确认领域已经成为公认的最 有效的方法。在由美国国家标准与技术局( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n d t e c h n o l o g y ,n i s t ) 主办的文本无关的话者确认评比中,性能在前几名的系统基 本都基于g m m u b m 框架结构。 本章详细介绍了g m m 模型的原理、算法,以及基于g m m u b m 框架结构的说 话人识别系统。这一系统也是我们多参数融和的说话人系统的基础,我们将根据 实验简要分析这一系统的性能。 1 0 第二章基于g m m u b m m a p 的说话人确认系统 2 2 高斯混合模型( g m m ) 2 2 1g m m 原理 上节中已经介绍,当前的说话人模型主要通过描述说话人语音的短时参数在 参数空间上的分布,来描述说话人特征。g m m 模型就是基于这一想法设计的, 他通过若1 二个高斯概率密度函数的线性组合来描述参数的分布。对于d 维的特征 矢量空问x ,混合度为 的高斯4 1 3 模型可以表示为: m p ( x l 五) = w i p 心) ( 2 一1 ) 其巾: p ,( x ) r11 e x p 一( x 一j f ( j 。( x h j 。 2 2 每一个高斯成分的参数包括d 1 的均值矢量和d d 的协方参矩阵,。因此一 个高斯混合模型五可以表示为五= h ,鸬,) ,i = 1 ,m 。一般认为一组特征矢 量之问是不千几关的,因此对于某条测试语音的特征矢量序列,o = o i ,一o ) ,其 总输m 概率用剥数表示为 土 1 0 9p ( o | ) = :l o gp ( d ,l 五) ( 2 - 3 ) 一般还要削l o gp ( 0 1 ) 除以r 得到平均得分,使长度不同的训练语音的输出评分 的到规整。 统计理沦告i 斥我们,用若干个高斯概率密度的线性组合可以逼近任意分布, 冈此g m m 可以用来模拟各种形式的语音特征分布,这是统计模型相对于其他模 型如v o 的一个很大的优势。v q 其实2 fj 3 g m m 非常类似,但是它只是用一组离 散的矢量即码本来模拟说话人特征,而g m m 则用具有均值、方差和权重三种参 数。g m m 和v q 的差别可以从图3 一i 说明。 其f - i = 1 ,图( a 1 是一段话者语音的特征矢量在其中一维e 的分布情况,用直方 罔来表示分布密度。图( b ) 是用一个高斯概率密度函数对特征矢量分布的逼近。 图( c ) 是混合度m = 1 0 的g m m 模型对特征矢量分布的描述。图( d ) 是t e j 码本大小为 m 一二1 0 的v 0 划特征矢量分布的描述。g m m 可以看成是v q 和单一高斯模型的融 台。v q 是用一组离敞的矢量( 均值) ,而g m m 是用一组离散的高斯模型( 包含 均值和方差) 。可以明显看到虽然一个高斯模型对特征矢量分布的描述不好,但 是g m m 却是明显优丁v q :不但可以给出的分布曲线连续,而且可以描述一些分 旦盟! 些查尘! 堕笙兰 第二章基于g m m u b m m a p 的| 兑晤人确认系统 誓 j 匾 ( d ) 图2 一lv q ;f h g m m 模型的比较 由于g m m 模型只统计特征矢量的出现概率,并不记录其时序信息,因此g m m 模 型可以有效消除和语音内容有关的时序信息的影响,适用于与文本无关的说话人 口 别。 2 2 2g m m 模型参数的训练 g m m 模型 对一个训练矢量序列x2 协”,x , 的输出概率用对数表示为 l o g p ( x m ) 仁l r 2 4 、 g m m 模,型的训练,就是给定一组训练语音x ,寻找一组模型参数,使由( 2 - 4 ) 式计算出的x 的输山评分最人。这就是极大似然估计( m a x i m u ml i k e l i h o o d e s t i m a t i o n ,m l e )的思想。具体实现可以用反复迭代的 e m ( e x p e c t a t i o n m a x i m i z a t i o n ) 算法。需要注意的是,g m m 的方差矩阵虽然可以 是满阵,但是对角阵无论从计算量上,还是从实际效果上都比满阵占优 2 5 。因 此,实际的系统都使用对角阵为方差矩阵。这样高斯概率密度各维之间独立,高 斯分布的每维就可以只用这一维的方差口2 表示。 国剥:,r 技术凡0 :碗士论文 第二章基- j g m m u b m m a p 的说西人确认系统 经过简化之后的g m m 模型的e m 训练算法步骤如下: 1 设置最大迭代次数l ,输出概率改进阀值d 。 2 根据训练数据的多少确定g m m 的混合度m ,确定g m m 的初始模型 ”,并定 义初始输m 概率为尺”0 。 3计算模型的输出概率 = 刍妻。眺i “ b 25 、1 一l f 一、 4 利r 迭代公一得到新的模型参数。 权重: 盱亭喜i 娜,- ) 协。, - f ,6 、 均值: 疗差 z p ( i l x t , 矿7 、x 瓦= 2 一 p ( i v , ,五) 7 p ( z k “”) x ? o - = ! ! l p ( i h ) 其叶| 混合度i 的后验概率定义为 p ( 札,) :孝丛生 p ( x ) r 2 7 1 ( 2 - 9 ) 5 面百,瓦作为新模型 ”1 的参数。 ,:坐) 二坐:i1 6汁算输出概率的相对改进量,。 r “+ n o l 。 ( 2 一l o ) 7 如果j l 则结束选代,得到模型丑”。 e m 算法呵以保证输出概率的。曳变是单调递增的,即总有 p ( x l z ”“) p ( x 泌) 在g m m 训练时由两点需要考虑:首先,在进行e m 算法迭代前初始模型的选取 曲p 牙 固科产技术人j ,硕士论文第二章基rg m m u b m m a p 的说晤人确认系统 和馍型混台度m 的确定。实际训练中发现初始模型的选取对g m m 模型影响不大, 无论是收敛述度还是模型的识别效果都差不多 8 。我们在系统中用v q 聚类得到 初始模型,聚类得到的质心作为初始g m m 每一个混合度的均值,所有训练矢量 的方差作为每个混合度的方差。另外,模型混合度m 的选取在实际应用中是和 训练数据的多少相关的,较充分的训练语音可以用多一些的混合度,较少的训练 语音只能训练低混合度的g m m 模型。关于模型混合度的问题还会在后面的实验 中讨论。 2 3 基于u b m - m a p 的文本无关说话人确认系统 2 3 1u b m m a p 系统原理 说话人确认的问题可以看成一个假设检验问题,要检验的假设为: h o :语音y 是由真实说话人发出 h l :语音y 是由冒认者发出 l 中h i g g i n s 2 提出在说话人确认中用似然比( l i k e l i h o o dr a t i o ) 来作为评分的 方法。似然比定义为待识语音y 由真实说话人模型输出的概率与由冒认者模型输 卅的概率的比值。 p ( y i h 。) i 0 a c c e p th 。 ;( rj n l ) 【 0a c c e p t1 1 1 f 2 11 1 般更常用似然比的对数作为评分标准: a ( 爿) = 1 0 9 p ( x 22 冯) i o g p a i 五冯 f 2 ,1 2 、 其巾丑为真实话者模型, 丑陋冯j 为冒认者模型。利用似然比评分有以下优 点:1 它是b a y e s 准则下最优评分的一种近似;2 增加不同说话人之间的町区 分性:3 降低确认系统对闽值的依赖性;4 可以依靠两个概率取比值的形式从 一定程度上削弱输入语音被噪声污染时对确认评分的影响。 在实际使用中,虽然式( 2 1 2 ) 中的话者模型可以根据话者的训练语音较准确 估计,但是冒认青模型却不易确定。冈为,理想的冒认者模型必须可以模拟所有 _ i _ 1 j 能的冒认者特征。由两种方法可以确定冒认者模型:背景模型( u n i v e r s a l b a c k g r o u n dm o d e l 、u b m ) 和竞争名模犁( c o h o r t m o d e l s ) 。因为u b m 无论从计 算量还是存储嚣卜都l g c o h o r t 规帮的开销要小。并且近年来u b m m a p 结构己成 第二章基j 二g m m - u b m - m a p 的说话人确认系统 为与文本无关的说爵人确认中最好的模犁规格技术,因此现在c o h o r t 模犁规整 存说话人确认吧。般较少被采用。 u b m 就是个采用大量冒认者语音得到的一个能代表说话人一般特征的模 型。在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论