(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf_第1页
(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf_第2页
(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf_第3页
(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf_第4页
(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(模式识别与智能系统专业论文)说话人辨认中的特征变换和鲁棒性技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博士论文说话人辨认中的特征变换和鲁棒性技术研究 摘要 为了提高说话人辨认系统的性能和在实际应用中的鲁棒性,本论文在高斯混合 模型特征变换、特征加权补偿变换和自适应直方图均衡化三个方面进行了研究,主 要研究成果包括: 1 提出了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。为了 简便计算,高斯混合模型中的方差矩阵通常直接用对角方差矩阵代替,因而会对相 似度的计算产生损失。为了弥补由于采用对角方差矩阵而引起的相似度损失,提出 了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。该方法采用嵌入变 换的对角方差矩阵来建立模型;同时将多步聚类算法融入其中,使高斯混合模型能 找到其最适合的模型混合数。与普通聚类期望最大( e m ) 算法相比,多步聚类算 法所需的e m 估计次数明显减少;与聚类e m 估计的g m m 方法相比,在同一语音 库下平均计算时间降低了约5 0 ,错误识别率平均减少1 4 ;在自制和公开的两 个语音库下,与嵌入变换的g m m 估计方法相比,新方法都可以直接达到说话人辨 认错误识别率的最佳点,达到了识别效果和识别时间的统一。 2 提出了基于高斯混合模型的加权特征补偿变换的抗噪声算法。针对特征加权 算法的局限性和归一化补偿变换方法的特性,提出了基于高斯混合模型的加权特征补 偿变换的抗噪声算法。一方面根据帧信噪比对特征值的贡献大小进行加权;另一方面 根据说话人识别的声学特性对模型输出的似然得分进行变换,补偿tn 权因子在某些 环境下的局限性。对于不同信噪比的平稳和非平稳噪声环境,在自制语音库下,与特 征加权算法相比,该算法平均识别率提高了2 7 4 和2 8 2 ;与归一化补偿变换方法 相比,平均识别率提高了3 5 6 和1 3 4 。在另一公开语音数据集下,与特征加权算 法相比,该算法平均识别率提高了3 0 2 和2 5 6 ;与归一化补偿变换方法相比,平 均识别率提高了3 9 和1 1 4 。 3 提出了基于统计模型的自适应直方图均衡化方法。针对说话人特征的统计特 性和直方图均衡化在说话人识别中应用的不足之处,提出了应用于说话人辨认中的 自适应直方图均衡化方法。该方法首先用较大的区间长度来构造直方图的累积函 数,然后根据各区间内特征值频率增量的大小来自适应确定该区间是否需要再划分 以及划分的程度。采用这种方法不仅使计算量降低,而且得到的变换特征值的分布 更符合实际特征空间,从而进一步提高了噪声环境下说话人辨认系统的识别率和鲁 棒性。在同一测试集下,研究两种常用经典噪声( 即w 1 1 i t e 和b a b b l e ) ,与普通直 方图均衡化方法相比,自适应直方图均衡化方法的平均识别率分别提高了3 和 2 9 。在另一公开对比测试集中,该方法的性能同样有相似的提高。 摘要博士论文 关键词:说话人辨认;特征变换;多步聚类;加权特征补偿变换;自适应直方图 均衡化;噪音鲁棒 i i 博士论文 说话人辨认中的特征变换和鲁棒性技术研究 a b s t r a c t t h i sd i s s e r t a t i o nf o c u s e so nt h er e s e a r c ho nt r a n s f o r m a t i o n - b a s e dg a u s s i a nm i x t u r e m o d e l ,w e i g h t e d f e a t u r e s c o m p e n s a t i o n t r a n s f o r m a t i o na n d a d a p t i v eh i s t o g r a m e q u a l i z a t i o nt oi m p r o v et h ep e r f o r m a n c eo fs p e a k e r i d e n t i f i c a t i o na n dt h er o b u s t n e s si n p r a c t i c a la p p l i c a t i o ne n v i r o n m e n t i n c l u d i n g : 1 a m u l t i s t e pc l u s t e r i n ga l g o r i t h m w i t ht r a n s f o r m a t i o n - b a s e da n d d i a g o n a l c o v a r i a n c eg a u s s i a nm i x t u r em o d e l ( g m m ) i sa d v a n c e d i no r d e rt os i m p l i f y t h ec o m p u t a t i o n ,g a u s s i a nm i x t u r ed e n s i t yf u n c t i o n sa l w a y su s ed i a g o n a lc o v a r i a n c e m a t r i c e s h o w e v e rt h i sa l s or e d u c e st h el i k e l i h o o do ft h ed a t a ,w h i c hc o u l dc o n s e q u e n t l y a f f e c tt h e c l a s s i f i c a t i o nd e c i s i o n i no r d e rt oc o m p e n s a t et h el o s i n gl i k e l i h o o d ,t h e m u l t i s t e pc l u s t e r i n ga l g o r i t h r ni sp r o p o s e d i nt h i sa l g o r i t h m ,t h ee m b e d d e dl i n e a r t r a n s f o r m a t i o ni su s e dt oi n t e g r a t eb o t ht r a n s f o r m a t i o na n dd i a g o n a l - c o v a r i a n c eg a u s s i a n m i x t u r ei n t oau n i f i e df r a m e w o r k a l s oam u l t i s t e pc l u s t e ra l g o r i t h mi si n t e g r a t e di n t o t h ee s t i m a t i n gp r o c e s so fg m mt os e a r c ht h ea p p r o p r i a t em i x t u r en u m b e r c o m p a r e d w i t h , t h ee s t i m a t i o nf r e q u e n c yi so b v i o u s l yr e d u c e d c o m p a r e dw i mt h et r a d i t i o n a l c l u s t e re x p e c t a t i o n - m a x i m i z a t i o n ( e m ) a l g o r i t h m ,t h en e w l yp r o p o s e dm e t h o dc a ns a v e 5 0 o ft i m ea n dt h ee r r o rr a t e sd e c r e a s eb y1 4 o na v e r a g eo nt h es a m ed a t a b a s e c o m p a r e dw i l t ht h et r a n s f o r m a t i o ne m b e d d e dg m m ,t h ee x p e r i m e n tw i t ht w od a t a b a s e s i n d i c a t et h a tt h em e t h o dr e f o r m e di nt h ep a p e rc a nd i r e c t l yr e a c ht h eb e s tp o i n to f s a t u r a t i o nw i t ht h er i g h tm i x t u r en u m b e r 2 aw e i g h t e df e a t u r e sc o m p e n s a t i o nt r a n s f 0 1 1 1 1 a t i o nm e t h o db a s e do ng m mf o r r o b u s ts p e a k e rv e r i f i c a t i o ni sp r e s e n t e d i nt h em e t h o d ,t h es c o r e so ff e a t u r e sa r e w e i g h t e dt h r o u g hf r a m es n r ,w h i l et h ef r a m el i k e l i h o o dp r o b a b i l i t i e s a r et r a n s f o r m e d b a s e do nt h ea c o u s t i cc h a r a c t e r i s t i co fs p e a k e rr e c o g n i t i o ns y s t e m i ns t a t i o n a r ya n d n o n s t a t i o n a r yn o i s ee n v i r o n m e n tw i t hd i f f e r e n ts n r ,c o m p a r e dw i t ht h ef e a t u r e s w e i g h t e da l g o r i t h m ,t h i sp r o p o s e dm e t h o dc a na c h i e v et h ea v e r a g er e c o g n i t i o nr a t e i n c r e a s eb y2 7 4 a n d2 8 2 ,w h i l et h em e t h o dh a v et h ea v e r a g er e c o g n i t i o nr a t e i n c r e a s eo f3 5 6 a n d1 3 4 c o m p a r e dw i t ht h en o r m a l i z a t i o no fc o m p e n s a t i o n t r a n s f 0 1 1 1 1m e t h o do nt h es a m ed a t a b a s e o nt h ea n o t h e ro p e nd a t a b a s e ,t h ei n c r e m e n t s a r e3 0 2 a n d2 5 6 c o m p a r e dw i mt h ef e a t u r e sw e i g h t e da l g o r i t h m ,w h i l ec o m p a r e d i i i 博士论文 塑蔓一 w i t hn l en 。n n a l i z a t i o no fc o m p e n s a t i o n t r a n s f o r mm e t h 。d ,t h ei n c r e m e n t sa r e3 9 a n d 3 b a j e do nt h es t a t i s t i c a lc h a r a c t e r i s t i c so fs p e a k e rf e a t u r ea n d t h ep a r t l c u l a n yo k g t o 翠a me q u a l i z a t i o n a p p l i e d t o s p e a k e r r e c o g n i t i o n ,t h e a d a p t “e h i s t 0 鲈锄 e q u a l i z a t i o n ( a h e q ) m e m o d f o rs p e a k e rr e c o g n i t i o ni 8p r e s e n t e d i l lt h i sm e t h o d ,t h e c 眦l u l a t i v eh i s t o 彤h nf u n c t i o ni sf i r s tc r e a t e dw i t hm e w i d e 删1 9 ea n dm e na c c o r d m g t o m e 阚u e l l c y 姗g ee i g e n v a l u ei n c r a n e n tf r o m t h es i z eo ft h ei n t e a lt od e t 黜m e t n e n e e df o r 如n h e rd e l i n e a t i o na n dd e m a r c a t i o nl e v e l t h i sa p p r o a c h n o to m yr e d u c et i l e 锄o u n to fc o m p u t b u t a l s ot h et r a n s f o r m a t i o no ft h ee i 剃姗m o 佗m 1 1 mw 1 也 t h ea 咖a ld i s t r j b u t i o no ff ;喇n r es p a c e ,m a k i n g i tp o s s i b l et of u r t h e r 瑚| p r o v et h e r e c o g n i t i o nr a t ea n dr o b u s to fs p e a k e r i d e n t i f i c a t i o ns y s t e mi nn o i s e 州r o 衄饥t h l t n e s 卸蛐a s e ,m es t u d yu s e dt 、o c l a s s i cn o i s e ( t h a ti s ,w h i t e a n db a b b l e ) ,c o m p a r e d w i t l lm a r yh i s t o 舭e q u a l i z a t i o n m e t h o d ,t h ea v e r a g er e c 。o g n i t i o nr a t e 斫a h e q1 鼍 i n c r e a s e db y3 觚d2 。9 i f la n o t h e rc o m p a r i s o nt e s t i n gf o c u s e d ,t h ep e r f o m 觚c e o t t h ea d a p t i v eh i s t o g r a me q u a l i z a t i o nm e t h o d i ss i m i l a ri m p r o v 锄e n t 艇yw o r d s :s p e a k e ri d e n t i f i c a t i o n ,f e 船t r a n s f o r m a t i o n ,城。s t 印d 髑锄n g w e i g b t e df i e a 缸e sc o i i l p e n s a t i 。nt r a n s f o r m a t i 。n ,a d a p t i v eh i s t o g r a m e q u a l i z a t i o n ,n 。i s e i v 声明尸明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:年月日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:年月日 博士论文说话人辨认中的特征变换和鲁棒性技术研究 1 绪论 众所周知,语音是人类获取信息的主要来源之一,也是人与外界交流中使用最 方便、最有效、最自然的工具。最初人们是通过人耳来辨别语音的说话人身份,即 “闻声识人 。随着计算机的出现和电子信息技术的发展,出现了用计算机自动识 别语音的话者身份的技术,即说话人识别( s p e a k e rr e c o g n i t i o n ) 技术。说话人识别 技术有着非常广阔的应用前景:在司法领域,它可以用来协助确认犯罪嫌疑人;在 军事领域,它可以用于战场侦听,以辨认敌方指挥员;在银行等处的安全系统中, 它可以作为身份核查或安全检查的一种手段;在日常生活中,它可以用作个人身份 认证的手段,如声控门、声控命令等等。 说话人识别根据应用的范畴可分为两类:第一类是说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) :把待识别的语句判定为属于个参考说话人中的某一位,是一个多 选一的问题;另一类是说话人确认( s p e a k e rv e r i f i c a t i o n ) :确定一段说话人的语句是 否与所声明的参考说话人相符,这只有两种选择:或是肯定( 即接收) ,或是否定( 即 拒绝) 。由于时间和精力的有限,本论文中主要基于特征变换和鲁棒性技术这两个方 面对说话人辨认进行了研究,并提出了自己的一些见解。 本章的内容安排如下:首先对说话人识别技术的组成与发展做简要介绍,并且 着重介绍了说话人辨认系统的组成结构和原理;然后综述了说话人识别中特征变换 技术和鲁棒性技术的国内外研究现状,并指出了其研究的重点和难点;最后给出本 文工作的安排和具体内容。 1 1 说话人识别概述 1 1 1 背景及意义 以人类生物特征( 指纹、声纹、人脸、虹膜等) 进行身份验证的生物识别技术广 正逐渐成为信息产业中极为重要的前沿技术。生物识别技术具有无需记忆、不会遗 忘、适用方便等优点。其中说话人识别还具有以下特点: ( 1 ) 用户接受程度高。由于不涉及隐私问题,用户无任何心理障碍。 ( 2 ) 用户使用方便、经济。利用语音进行身份识别是最自然和最经济的方法 之一;声音输入设备造价低廉,而其他生物识别技术的输入设备往往价 格昂贵。 ( 3 ) 适合远程身份确认。在进行远程身份确认无法获取其他生物特征时,说 i 绪论博士论文 话人识别只需要一个麦克风或电话、手机就可以通过网络( 通讯网络或 互联网络) 进行基于说话人语音的身份认证。 ( 4 ) 算法复杂度低,配合一些其他措施,如通过语音识别进行内容鉴别等, 可以提高准确率和安全性。 说话人识别可以应用的范围很宽,几乎遍及人们日常生活的各个角落。因此, 研究高性能、高鲁棒性的说话人识别系统,有重要的实际意义。 1 1 2 说话人识别基本原理 说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数来识 别待测语音话者身份的技术【l 】。说话人识别系统,可以简单的定义为:以说话人的 语音作为输入,用训练得到的特定人模型来识别待测语音的说话人身份。图1 1 是 典型的说话人识别系统的模块示意图,从图中可以看到说话人识别系统的两个组成 阶段:训练阶段和识别阶段。在训练阶段,说话人的语音经过特征提取后得到各 自的声学特征,然后系统为每个目标说话人建立相应的模型并组成说话人模型库; 在识别阶段,用测试语音提取出的声学特征与说话人模型库中的模型进行比较,根 据一定的相似性准则来判断测试语音发出者的身份。 说话人训练阶段 图1 1 典型的说话人识别系统示意图 说话人识别根据应用的范畴可分为两类:说话人辨认和说话人确认。在实际应 用中,说话人确认的灵活性和应用性一般要好于说话人辨认,这是因为说话人确认 系统允许待测说话人不属于已知的用户集,并且其识别性能不会因为系统用户数量 2 博士论文 说话人辨认中的特征变换和鲁棒性技术研究 的增加而下降;而说话人辨认系统则要求待测说话人属于已知的用户集,并且其识 别性能会随着用户数量的增加而下降。说话人识别根据识别的内容可以分为两类: ( 1 ) 文本相关( t e x t d e p e n d e n t ) :在训练时要求用户按照规定的文本发音,精确的建立 每个说话人的模型( 例如基于词或音素的模型) ;在识别时要求用户也必须按规定的 文本发音;( 2 ) 文本无关( t e x t i n d e p e n d e n t ) :不规定说话人发音的文本,模型建立相 对困难,但用户使用方便,可应用范围较宽。一般来说,文本相关的说话人识别性 能要高于文本无关的说话人识别,但是后者使用的灵活性要好于前者。说话人识别 根据测试语音的类别可以分为两类:( 1 ) 开集( o p e n s e t ) 识别:有的待测说话人不属 于已知的说话人集合;( 2 ) 闭集( c l o s e s e t ) 识别:所有待测说话人都属于已知的说话 人集合。本论文研究的是说话人辨认中的特征变换和鲁棒性技术,因此所研究的系 统是一个文本无关的闭集说话人辨认系统。 1 2 说话人识别系统的研究与发展 对说话人识别的研究始于2 0 世纪3 0 年代,早期的工作主要集中在用入耳进行 听辨语音的实验和探讨听音识别的可能性方面。随着电子技术和计算机技术的发 展,通过机器自动识别人的语音成为可能。b e l l 实验室的p r u z a n s k y 提出了一种基 于模式匹配和概率统计方差分析的说话人识别方法【2 】,从而引起信号处理领域许多 学者的注意,形成了说话人识别研究的一个热潮。这期间主要工作集中在各种识别 参数的提取、选择和实验上。2 0 世纪7 0 年代至今,说话人识别的研究重点转向对 各种声学特征参数的线性或非线性处理以及新的模式匹配方法上。如今,说话人识 别技术已经逐渐走向实际应用,a t & t 应用说话人识别技术研制出的智慧卡( s m a r t c a r d ) ,已经应用于自动提款机上。欧洲电信联盟于1 9 9 8 年完成了c a v e ( c a l l e r e f i f i c a t i o ni n b a n k i n g a n dt e l e c o m m u n i c a t i o n ) 计划,并于同年启动了 p i c a s s o ( p i o n e e r i n g c a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网 上完成了说话人识别。其他一些商用系统还包括:i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p e a k e z 等。此外,国内许多高科技公司, 如中科模识科技公司、中科信利技术有限公司等,也都专门开发了许多说话人识别 方面的应用产品。目前国际上许多著名大学、研究机构以及很多大公司的实验室都 在进行说话人识别方面的研究,如麻省理工学院林肯实验室( l i n c o l nl a b o r a t o r y ) 、 美国的i c s i ( i n t e m a t i o n a lc o m p u t e rs c i e n c ei n s t i t u t e ) 、美国的s r i 公司的语音技术与 研究实验室( s t a r ) 、法国的l i a ( l a b o r a t o i r ei n f o r m a t i q u ea v i g o n o n ) 、加拿大的 c r i m ( c e n t r ed er e c h e r c h ei n f o r m a t i q u ed em o n t r 6 a 1 ) 实验室等。 在国内,许多大学和研究机构也在这一领域开展了大量的研究工作,并在说话 3 1 绪论博士论文 人识别方面取得了丰硕的研究成果,如中科院声学所、中科院自动化研究所、北京 大学、中国科技大学、北京邮电大学、北京交通大学、北京理工大学、上海交通大 学、哈尔滨工业大学等。本文下面将主要从特征分析和识别方法两个方面来介绍说 话人识别的研究进展。 1 3 说话人识别中的特征提取与分析 如何从说话人的语音信号中提取表征说话人的基本特征是说话人识别中最重要 的问题之一。对人的语音感知的研究表明,不同人之间说话的差别既有先天的因素, 又有后天的因素:不同说话人的发声器官的生理尺寸有差异;在不同的环境中成长 的人,在发同一个音时发音器官的动作也不同。而这些不同会影响到收听者对语音 的感知以及对说话人的辨别。这些都称之为说话人之间( i n t e r - s p e a k e r ) 的差异。此 外,还有一些通过语音信号间接表现出来的信息,岫口说话人的说话习惯、情感状 态、遣词造句的特点等,这些可以称之为说话人本身( i n t r a s p e a l ( c f ) 的一些变化因 素。尽管以前也有人尝试把这些特征定量化,或者找出它们与语音信号参量之间的 关系,但迄今为止还没有成功的例子。因此,说话人识别系统不得不退而求其次, 利用物理上可以测量的参数来表征说话人的特征,力求抑制说话人本身的因素而突 出说话人之间的差异。但是实际上,语音信号既包含了语音识别所需要的语义特征, 同时也包含了说话人的个性特征,它们以复杂的形式互相交织在一起。如何从语音 信号中准确地分离和提取说话人的个性特征,仍是一个悬而未决的问题。因而,说 话人识别中所采用的常常仍然还是语音识别中的特征。这些间接特征也能提供比较 有效的区分说话人的途径。 在说话人识别系统中,语音信号通常被看作为短时平稳的序列,语音特征提取 的第一步是语音信号的分帧处理,并利用窗函数来减少由截断处理导致的g i b b s 效 应;同时利用高频预加重来提升高频信息,压缩语音的动态范围。然后对每帧语音 信号进行频谱处理,得到各种不同的特征参数。 通常在一段语音信号中包含很多层次的说话人相关信息,这些信息包括低层的 声学特征,较高层的韵律、语速和语调等,以及更高层的口音、发音习惯等【3 j 。如 何提取和描述这些信息是进行说话入识别的前提基础。目前常用的特征参数大多数 采用的是低层声学特征,例如线性预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r u m c o e 伍c i e n t ,l p c c ) 4 1 、m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t , m f c c ) 5 ,6 】和感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v e ,p l p ) 阴等等。虽然分 帧处理后的每一帧倒谱参数被认为是独立的,但实际上语音信号的每一帧与其相邻 的若干帧之间存在着较大的相关性 8 】。常用的处理方法是在静态的倒谱中加入动态 博士论文说话人辨认中的特征变换和鲁棒性技术研究 信息来强化特征表示,例如加入倒谱的差分和自回归参数等等9 1 。此外,一些时域 参数和高层信息,例如短时能量、短时能量一阶差分、基音周期、共振峰、习惯用 语和基于词或音素的n 元模型等也常被结合到特征参数表示中来,以提高系统的 性能【1 仉1 5 1 。 1 4 说话人识别中的识别方法 在说话人识别中,不同识别方法的区别在于说话人模型的表示以及语音与模型 匹配的方法。说话人识别系统中的常用的识别方法可分为模板匹配法 1 6 ,1 7 1 、概率模 型法、人工神经网络( a r t 谂c i a ln e u r a ln e t w o r k ,a r a q ) t 1 8 ,1 9 1 法和支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 2 0 】等几类。 1 4 1 模板匹配法 模板匹配法的特点是,在训练过程中从每个说话人发出的训练语句中提取相应 的特征矢量,这些特征矢量能够充分地表征各个说话人的语音个性,称之为参考模 板。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,将 其与参考模板作比较,根据两者之间的匹配程度作出相应的判决。 模板匹配法主要有动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 法【2 、最小近 邻( n e a r e s tn e i g h b o r ,n n ) 法 2 2 】和矢量量化法( v e c t o rq u a n t i z a t i o n ,v q ) 2 3 , 2 4 1 等。这 些方法的缺点是对说话人模型的存储需求比较大,而且在参考说话人规模比较大的 时候,识别性能不佳。目前模板匹配法已经被概率模型法所取代。 1 4 2 统计概率模型法 与模板匹配法相比,统计概率模型法更具灵活性,并且在理论上其概率似然得 分更具有意义。统计概率模型和模板匹配不同的是:( 1 ) 它不是根据特征( 模板) 来建模,而是根据概率分布来建模;( 2 ) 它不是根据与模板的距离来判定类别,而 是根据概率或似然分进行判别。 。 统计概率模型法主要有隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 2 5 - 2 7 】、 高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 【2 8 ,2 9 1 和分段高斯模型( s e g r n e n t a l g a u s s i a nm o d e l ) 3 0 】等,其中隐马尔可夫模型和高斯混合模型是说话人识别中最常用 的两种概率模型。高斯混合模型用多个高斯分布的线性组合来近似多维矢量的任意 连续概率分布,能有效地刻画说话人的特性。采用高斯混合模型的说话人识别系统 有很高的识别率。在文本无关的说话人识别领域,高斯混合模型已经成为占统治性 地位的识别方法。隐马尔可夫模型可以描述语音随时间变化的情况,在文本相关的 5 1 绪论 博士论文 说话人识别中能充分利用已知的文本信息,达到很好的识别率l 3 。在说话人识别中, g m m u b m 也逐渐成为一种常用的识别方法,其中u b m 是一个说话人无关、高 阶的高斯混合模型。该模型通常由数百人甚至上千人、男女平衡的数小时语音训练 得到,用于表示说话人的统计平均发音特性。基于g m m u b m 的系统有两个好处: ( 1 ) 说话人模型是在u b m 上根据说话人的训练语音自适应得到的。这样,对于说话 人训练语音覆盖到的发音,可以用该说话人自身的语音建模;对于未覆盖到的发音, 可以用u b m 里的发音分布近似,从而减少测试语音与训练语音在声学空间上由于 分布不同所带来的影响;( 2 ) u b m 可以被看作是一个“标准参考者”的模型,这样 在进行身份确认的时候,可以用测试语音在u b m 上的得分来作为一种参考阈值。 1 4 3 人工神经网络 人工神经网络试图模仿人脑的信息处理机制,把大量结构非常简单的计算单元 相互连接起来,实现高度并行和分布的信息处理,这比较适用于说话人识别这类与 人的感知有关的信息处理问题。利用人工神经网络是希望通过它的训练,更好地划 分语音样本中所包含的关于说话人的特征在特征空间的分布。因为目前还难以对这 些特征的提取形成公认的规则,所以神经网络的方法可以在一定程度上显现出它的 优越性。用于说话人识别的人工神经网络有:时延神经网络【3 2 】、决策树神经网络3 3 】 等。 1 4 4 支持向量机法 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 是在统计学习理论的基础上 发展起来的一种新的通用学习方法。近年来,支持向量机在模式识别许多领域的使 用中,取得了与传统方法相当或更好的结构,它在有限样本、非线性及高维模式识 别中有着特有的性能【3 4 , 3 5 ,这有利地推动了它在其他模式识别领域的应用。 支持向量机的训练算法相对复杂且训练速度慢,难以有效地处理大样本数据。 而对于说话人识别系统,往往就需要较多的训练语音才能得到较为理想的性能。目 前,基于支持向量机的说话人识别系统中使用的特征也是目前广泛使用的声学特征 3 6 , 3 7 ,并且在将s v m 应用于说话人识别系统的研究中,研究人员或将其单独使用 3 8 - 4 0 】,更多的情况是将s v m 与其他模型( 如g m m 模型和h m m 模型) 相结合来 提高说话人识别系统的性能【4 l 彤】。 1 5 性能评价 说话人辨认系统通常采用识别率来进行评价,即待识别语音样本中有多大比例 6 博士论文说话人辨认中的特征变换和鲁棒性技术研究 能够被正确地确定是由哪个说话人所说,具体数值可以用如下公式计算: 识别率= 黑器1 0 。 ( 1 1 ) 此外,说话人的错误识别率也是评价说话人辨认系统的指标,它和识别率 ( 即正确识别率) 的关系如下: 错误识别率= 1 一正确识别率= ( 1 一至毳霸箬) 1 。 ( 1 2 ) 说话人确认系统通常用两个重要参数来表征其性能:错误拒绝率( f a l s e r e j e c t i o nr a t e ,f r r ) 和错误接受率( f a l s ea c c e p t a n c er a t e ,f a r ) 。前者是拒绝真实 的发音人所造成的错误,后者则是把冒名顶替者错认为发音人所引起的错误。二者 定义如下: 错误拒绝率= 塑耋霉笺襄髦募誉擎,。 ,c 1 3 , 错误接受率= 塑塑雩募鬈嚣嘉昙警,。 c 1 4 , 在说话人确认系统中,通过设定不同的接受阈值,可以在不同的f r r 和f a r 之间进行权衡。当阈值越高,接受条件越严格,f r r 就越高,而f a r 越低。反之, 阈值越低,接受条件越宽松,f a r 就越高,而f r r 越低。调节接受阈值,得到f r r 和f a r 相应的变化情况,可以画出错误拒绝率错误接受率曲线。这是描述说话人 确认系统性能的重要方式。 一 调节阈值,可以在错误拒绝率错误接受率曲线上找到f r r 和f a r 相等的点, 称为等错误率( e q u a le r r o rr a t e ,e r r ) 点。等错误率也是评价说话人确认系统性能 的一个重要参数。 1 6 研究现状和难点 对于实验室环境下录制的干净语音,说话人识别系统一般都能达到较高的识别 率,因此性能改进的空间比较小。但是对于文本无关的说话人识别系统,实验室环境 下的性能提高仍是研究的重点之一。尤其当系统模型采用具有统治性地位的高斯混合 模型( g a u s s i a nm i x t u r em o d e l ,g 删) 时,采用各种特征变换的方法来提高系统的 性能也成了研究者关注的问题。另外,随着近年来说话人识别技术研究的逐步深入, 虽然目前在限定条件下说话人识别可获得较为满意的识别效果,但是与实际应用的要 求仍有一定距离,尚有一些问题有待解决,包括:信道问题;背景噪声问题;说话人 自身情感、健康状况的变化对说话人语音的影响问题等等。这些问题可以统称为说话 7 1 绪论 博士论文 人识别的鲁棒性问题。这是当前说话人识别研究领域的热点问题。下面将简单介绍这 些方面的研究现状。 1 6 1 特征变换 高斯混合模型作为一种通用的概率统计模型,能有效地模拟多维矢量的任意连续 概率分布,因而很适合在文本无关的说话人识别中为说话人建模。通常情况下,为了 模型简化和便于计算的目的,高斯混合模型中的密度函数通常采用对角方差矩阵,这 样可以使模型变得简单,并且大大降低计算量【4 9 1 。然而采用对角方差矩阵的方法也 同时也降低了语音数据之间的相似度 5 们,从而进一步影响了后续的分类决策。为了补 偿这部分由于直接采用对角方差矩阵而损失的相似度,人们提出了各种补偿方法。有 研究者 5 l 】对语音特征各个分量之间的相关性建立了模型,应用一个正交变换来消除全 局相关性,通过变换后的特征采用对角方差高斯混合模型来建模,该方法的缺点是它 并不是统计框架内的方法,而且也不是与高斯混合模型参数同步最优化的。 c h i h c h i e 5 2 】提出了一种将k a r h u n e n l o e v e 变换嘲与高斯混合模型相结合的文本无 关说话人辨认的分类方法,该方法还将基于变换的方法应用到说话人自适应算法中 【5 4 1 。k u o h w e i 【4 刀提出了将正交变换与统计模型相结合的方法,根据最大似然( m a x i m u m l i k e l i h o o d ,简称m l ) 估计准则,采用期望最大( e x p e c t a t i o nm a x i m i z a t i o n ,简称 e m ) 算法同时估计出变换矩阵和其它的模型参数( 比如权值、均值矢量以及对角方差 矩阵) 值。 1 6 2 鲁棒性说话人识别 鲁棒性说话人识别的实际应用背景十分复杂,其原因主要包括:( 1 ) 实际应用 中,输入的语音通常会伴随着一定的环境噪音,并且不同的说话场所噪音的类型也不 尽相同,给说话人识别增添了难度;( 2 ) 实际的说话人系统往往与电话等结合应用, 由于电话信道畸变、移动电话和固定电话传输信道特点不同、以及不同的采音设备( 如 不同的手机类型、不同的座机型号等) ,都会对语音信号产生一定的影响,这将直接 影响到最终的识别性能;( 3 ) 说话人语音本身的不稳定性。随着年龄、自身情感情 绪、健康状况以及所处的环境等的变化,将对说话人语音产生影响,这给说话人识别 系统带来很大的困难。以上第三个问题目前还非常困难,现在主要的解决方法是定期 地更新语音库的说话人数据。下面主要介绍前两个问题的研究现状。 1 噪音鲁棒 语音质量的好坏,将会直接影响说话人识别系统的性能。而在实际应用中,由于 说话人可能处于各种各样的环境中,这将会使得录制的语音受到不同类型噪音的影 博士论文 说话人辨认中的特征变换和鲁棒性技术研究 响,从而降低系统的识别性能。因此噪音鲁棒性问题一直是说话人识别研究中的热点 和难点问题之一。对噪音鲁棒的研究通常可以分为两大类:( 1 ) 信号特征级去噪: 该类算法主要是从信号处理的角度出发,或者去除噪音的影响,或者提高特征对噪音 的抗干扰性。它包含了语音信号检测、噪音消除、信噪分离以及语音信号增强等众多 技术。常用的算法有谱减( s p e c t r a ls u b t r a c t i o n ,s s ) 法 5 5 - 5 7 1 、非线性谱减( n o n l i n e a r s p e c t r a ls u b t r a c t i o n ,n s s ) 法【5 8 5 9 1 、r a s t a 滤波法 6 0 , 6 1 】、e r a s t a 法【6 2 1 、主分量 分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 法【6 3 1 、异方差线性可区分性分析 ( h e t e r o s c e d a s t i cl i n e a rd i s c r i m i n a n ta n a l y s i s ,h l d a ) 法【6 4 】以及直方图均衡化方法f 6 5 】 等;( 2 ) 模型级去噪:该类方法主要是在声学模型级上研究噪音问题,通过模型补 偿( m o d e lc o m p e n s a t i o n ) 技术【6 6 】,减少测试集和训练集的不匹配,从而提高系统对 含噪语音的识别性能。本文主要针对噪声鲁棒的方法提出了一些改进算法。 2 信道鲁棒 、 在实际应用中,说话人系统往往与电话等结合应用。由于说话者使用的设备不同 ( 如不同型号的手机、座机等) 、或者传输信道( 女h g s m 、c d m a 、小灵通等) 的 不同,导致录制的语音受到不同程度的影响,这些影响统称为信道差异。信道差异的 存在会使得测试语音和训练语音之间存在一定的不匹配,从而降低说话人识别系统的 性能。因此,对信道差异这一问题解决的好坏将直接影响到说话人识别系统能否投入 实际应用。目前对信道差异的研究可以分为三个方面:( 1 ) 特征域:该类算法从信 号处理的角度出发,或者消除信道对声学特征的影响,或者提高特征对信道的鲁棒性。 常用的算法有倒谱均值减( c e p s t r a lm e a ns u b t r a c t i o n ,c m s ) 、r a s t a 滤波、特征 弯折( f e a t u r ew a r p i n g ) 6 7 1 、特征映射( f e a t u r em a p p i n g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论