(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf_第1页
(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf_第2页
(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf_第3页
(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf_第4页
(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(通信与信息系统专业论文)基于模型聚类的说话人识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 签名:兰逝日期:碰丝:生望 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即学校有权保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位 论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或 其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认 可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :罚基华彳导师( , 冽砂f 巧 中文搐要 说话人识别是一种身份认证技术, 别由于其不仅方便、经济且准确性高, 场应用前景非常广阔。 可以通过计算机来自动实现。说话人识 逐渐成为人们常用的身份验证方式,市 识别正确率和鲁棒性一直都是说话人识别系统的研究重点,混合高斯模型 ( g a u s s i a nm i x t u r em o d e l ,g m m ) 由于能很好地描述说话人特征分布情况,被广 泛地应用于与文本无关的说话人识别中。随着识别系统语音库中的说话人数目 的增多,传统g m m 模型的识别时间越来越长,识别速度慢将大大限制说话人 识别系统的实用性。本文提出基于模型聚类的说话人识别,在尽量不降低识别 性能的情况下,大大提高识别速度。 在识别时,发现每次得分较高的说话人模型只有少数几个,因此只需将测 试特征矢量与这少部分说话人模型进行匹配,就可确定说话人身份。说话人模 型聚类就是利用说话人模型相似的特性,将相近的说话人模型聚类,聚类后为 每一类选取类中心和类代表。测试时,首先计算测试特征矢量与类中心之间的 欧氏距离或者与类代表之间的对数似然度,选定距离最小或者得分最高的一类, 再计算测试特征矢量与选定类中说话人模型之间的对数似然度,最终确定目标 说话人。由于可能出现聚类不完全的情况,在测试时选择得分较高的几类构成 类的子集合,可以保证识别正确率。实验结果表明:相较于传统的g m m 模型, 基于模型聚类的说话人识别在聚类数目为1 0 0 ,测试搜索范围为2 0 时,识别 正确率只降低了o 9 5 ,但是平均识别速度却提高了近4 倍。 为了进一步提高说话人识别系统的识别速度,本文又提出说话人模型聚类 和预量化或剪枝相融合的算法。预量化或剪枝是对测试特征矢量进行处理来提 高识别速度,属于测试阶段的提速方法;而说话人模型聚类是指在训练阶段结 束后,将训练好的说话人模型聚类,属于训练阶段的加速方法。不同阶段的加 速方法可以进行融合,进一步提升系统的识别速度。 关键词:说话人识别,说话人模型聚类,混合高斯模型,预量化,剪枝 a b s t r a c t s p e a k e rr e c o g n i t i o ni sa n i d e n t i t ya u t h e n t i c a t i o n t e c h n o l o g y ,w h i c h c a n a u t o m a t i c a l l yr e a l i z e db yu s i n gac o m p u t e r w i t hi t su n i q u e a d v a n t a g e s s u c ha s c o n v e n i e n c e ,e c o n o m i c a le f f i c i e n c ya n da c c u r a c ye t c ,i ti s i n c r e a s i n g l yb e c o m i n ga p o p u l a rm o d et oi d e n t i f ya u t h e n t i c a t i o ni np e o p l e sd a i l yl i f e ,a n di th a sb r o a d e r a p p l i c a t i o np r o s p e c tf o rt h ef u t u r em a r k e t t h er e c o g n i t i o na c c u r a c ya n dr o b u s t n e s sw e r ea l w a y st h er e s e a r c hk e y so ft h e s p e a k e rr e c o g n i t i o ns y s t e m ,g a u s s i a nm i x t u r e m o d e l ( g m m ) w i t hi t sg o o d d e s c r i p t i o nt ot h ed i s t r i b u t i o nc h a r a c t e r i s t i c s ,w i d e l yu s e di nt e x t i n d e p e n d e n ts p e a k e r r e c o g n i t i o n b u ta st h ei n c r e a s i n gn u m b e ro ft h e s p e a k e rr e c o g n i t i o ns v s t e m r e g i s t r a t i o n ,g m mm o d e lr e c o g n i t i o nn e e d st ot a k em o r ea n dm o r et i m e t h e r e c o g n i t i o ne f f i c i e n c ya l s og r a d u a l l yb e c o m eo n eo ft h ek e yp o i n t st oi n f l u e l l c et h e p r a c t i c a b i l i t yo ft h es y s t e m b a s e do nt h es p e a k e rm o d e lc l u s t e r i n g ( s m c ) t h i s p a p e rp r o p o s e das p e a k e rr e c o g n i t i o nm e t h o d t h i sm e t h o dc a ne n s u r et h ea c c u r a c yo f t h er e c o g n i t i o na n d g r e a t l yi m p r o v et h er e c o g n i t i o ns p e e d 。 d u r i n gt h er e c o g n i t i o n ,w ec o u l do n l yf i n daf e wh i g h s c o r es p e a k e r se v e r yt i m e s ow h a tw ej u s tn e e dt od oa r et om a t c ht h et e s tv e c t o r sw i t ht h e s ef e w s p e a k e rm o d e l s a n dr e c o g n i z et h es p e a k e ri d e n t i t y b a s e do nt h es i m i l a rc h a r a c t e r i s t i c so fs p e a k e r m o d e l s ,s m cc l u s t e r e dt h es i m i l a rs p e a k e rm o d e l sa n ds e l e c t e dc l u s t e rc e n t r o i d sa n d c l u s t e rr e p r e s e n t a t i v e s i nt h ep r o c e d u r eo f t e s t i n g ,w ef i r s t l ys e l e c t e dt h ec l u s t e rb v c o m p u t i n gt h ee u c l i d e a nd i s t a n c eb e t w e e nt h et e s tv e c t o r sa n dc l u s t e rc e n t r o i d so r c a l c u l a t i n g t h e l o g a r i t h m i cl i k e l i h o o db e t w e e nt h et e s tv e c t o r sa n dc l u s t e r r e p r e s e n t a t i v e s ,a n dt h e nr e c o g n i z e dt h es p e a k e ri d e n t i t yt h r o u g hc a l c u l a t i n gt h e l o g a r i t h m i c l i k e l i h o o db e t w e e nt h et e s tv e c t o r sa n dt h e s p e a k e rm o d e l sw h i c h c o n t a i n e di nt h es e l e c t e dc l u s t e r 。i nc a s eo ft h e p o s s i b i l i t yo fn o tc l u s t e r i n gc o m p l e t e l y , w ec h o s es e v e r a lh i g h e rs c o r ec l u s t e r st oc o n s t i t u t eac a t e g o r yt oe n s u r et h ea c c u r a c y o fi d e n t i f i c a t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tc o m p a r e dw i t ht r a d i t i o n a lg m m m o d e l ,t h ep r o p o s e dt h em e t h o dc a ns p e e du pt h er e c o g n i t i o ns p e e da b o u tf o u rt i m e s w h i to n l yo 9 5 l o s si nr e c o g n i t i o na c c u r a c yw h e nt h ec l u s t e rn u m b e r i s10 0a n dt h e t e s tc l a s ss e a r c hr a n g ei s2 0 t h es p e a k e rr e c o g n i t i o ns y s t e m s r e c o g n i t i o ns p e e d w a sg r e a t l yi m p r o v e d i no r d e rt of u r t h e ri m p r o v et h er e c o g n i t i o ns p e e do ft h es p e a k e rr e c o g n i t i o n s y s t e m ,t h i sp a p e ra l s op r o p o s e da f u s i o na l g o r i t h mb e t w e e ns m ca n dp r e - q u a n t i z a t i o n o rp r u n i n g p r e q u a n t i z a t i o no rp r u n i n gi st oi m p r o v er e c o g n i t i o ns p e e db yd e a l i n gw i t h t e s tc h a r a c t e r i s t i cv e c t o r s ,w h i c hb e l o n g st ot h et e s t i n gs t a g es p e e d - u pt e c h n i q u e s ;b u t s m cr e f e r st ot h es t a g eo fg a t h e r i n gt r a i n e ds p e a k e rm o d e l si n t oac l a s sa f t e rt h e e n d i n go ft r a i n i n gp r o c e s s ,w h i c hb e l o n g st ot h et r a i n i n gs t a g es p e e d u pt e c h n i q u e s d i f f e r e n ts t a g e so ft h ea c c e l e r a t e dm e t h o d sc a nu n d e r t a k ei n t e g r a t i o n ,a n df u r t h e r i m p r o v e t h er e c o g n i t i o ns p e e do ft h es y s t e m k e y w o r d s :s p e a k e rr e c o g n i t i o n ,g m m ,s p e a k e rm o d e lc l u s t e r i n g ,p r e q u a n t i z a t i o n , p r u n i n g 目录 中文摘要i a b s t r a c t i i 第1 章引言1 1 1 说话人识别的研究背景l 1 1 1 说话人识别的研究意义l 1 1 2 说话人识别的发展2 1 2 说话人识别原理3 1 3 说话人识别面临的问题4 1 4 论文的研究内容和结构7 第2 章说话人识别方法8 2 1 说话人识别的整体流程8 2 2 高斯混合模型1 0 2 2 1 高斯混合模型原理1 0 2 2 2 高斯混合模型的建立1 l 2 2 3 高斯混合模型的实验对比1 4 2 3 小结1 5 第3 章基于模型聚类的说话人识别l6 3 1 说话人模型聚类16 3 1 1 说话人模型聚类方法18 3 1 2 说话人模型聚类的设计过程19 3 1 3 说话人模型聚类的识别阶段2 0 3 1 4 说话人模型聚类的识别阶段效率分析2 2 3 2 不同快速说话人识别方法的融合2 3 3 3 小结2 7 第4 章快速说话人识别实验结果分析2 8 4 1 不同说话人识别方法的性能分析2 8 4 1 1 基于模型聚类的说话人识别的性能分析2 8 4 1 2 基于预量化的说话人识别性能分析3 2 4 1 3 基于剪枝的说话人识别性能分析3 3 4 1 4 不同快速识别方法融合的性能分析3 5 4 2 实验结果对比分析4 0 4 3 小结。4 0 第5 章总结与展望4 2 5 1 全文总结4 2 5 2 研究展望4 3 致谢4 4 参考文献4 5 攻读硕士学位期间发表的学术论文4 8 武汉理工大学硕士学位论文 第1 章引言 语音作为人类信息交流的基本手段,其中包含着多种信息,如语义信息、 语言信息、说话人信息、情感信息等。由于不同人的语音含有的说话人信息都 不同,所以可以将其作为一种身份认证的途径。说话人识别是一种对语音的个 性信息来进行识别的身份认证技术川。 说话人识别技术自2 0 世纪6 0 年代开始就得到了广泛的研究,其在司法、 公安、机要、通信等领域有很大的应用价值,如可用于银行信贷电话证实、公 安查对和配合电话自动记录装置识别说话者及专用或保密的声控命令等方面。 目前说话人识别占有大约1 5 8 的世界智能识别市场,仅低于手和手指的生物 特征识别,而且有持续上升的趋势1 2 】。 1 1 说话人识别方法的研究背景 1 1 1 说话人识别的研究意义 随着科技的发展和信息化时代的到来,生物识别技术越来越多的应用于考 勤、身份验证、门禁识别等方面。现已有的生物识别技术是指纹识别、虹膜识 别、面部识别、签名识别、声纹识别( 又名说话人识别) 等。这些生物识别技 术都具有不需记忆、使用方便而且不会遗失和忘记等特点。而声纹识别除了有 以上这些特点,还具有以下特性【3 】: ( 1 ) 用户接受程度高。因为获取蕴含语音特征的语音非常方便、自然、不 涉及隐私问题,通常在不知不觉中完成,用户无任何心理障碍,所以用户接受 程度高。 ( 2 ) 说话人识别非常经济。因为语音的采集与识别只需简单的麦克风或者 通讯设备即可,而其他生物识别技术相较于说话人识别来说,输入设备往往造 价昂贵。 ( 3 ) 说话人识别在远程身份确认中的优势是其他生物识别技术无可比拟 的。在远程身份确认中,说话人识别只需一个麦克风或移动设备( 如手机或电 话) 就可以通过网络实现远程登录。 武汉理工大学硕士学位论文 随着科技的推进,语音输入与控制将成为嵌入式系统和手持移动设备最好 的交互方式,这种说法越来越多地得到认可。因此,通过语音特征来进行身份 鉴别的技术显得越来越重要1 4 。 1 1 2 说话人识别的发展 从2 0 世纪3 0 年代起,说话人识别技术就得到了研究。1 9 3 7 年,因为c a l i n g d b e r g h 先生的儿子被拐骗而引发了对说话人识别的研究。b e l l 实验室的l g k e r s t a 在1 9 4 5 年中以声音频谱图为基础,最先提出了“声纹( v o i c e p r i n t ) ”的 概念,进而又阐述了通过声纹来识别身份的可能性。最初主要在探讨听音识别 的可能性和进行人耳听辨的实验这些方面对说话人识别进行研究,随着技术的 发展,研究工作不再是单纯的人耳听辨。1 9 6 6 年,美国法院首先通过说话人识 别进行了取证。通过机器自动识别说话人声音的可能性随着计算机技术与电子 技术的快速发展成为了现实1 5 j 。 b e l l 实验室的s p r u z a n s k y 首次通过统计方差分析与模板匹配来识别说话 人身份,得到了许多信号处理领域学者的注意,此后说话人识别研究进入了第 一个高潮1 6 j ,其间的主要研究工作是提取、选择各种语音识别参数。如l u c kj e 在1 9 6 9 年时第一次在说话人的识别运用倒谱技术,取得了不错的效果;b sa t a l 在说话人识别中运用线性预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r u mc o e f f i c i e n t , l p c c ) ,使识别系统的精度得到了提高;d o d d i n g 提出利用共振峰作为语音特 征参数来进行说话人识别也取得了较好的结果r7 1 。a t a l 在1 9 7 2 年时以基频轮廓 为语音特征参数来识别说话人身份,取得了较好的效果。随着科技的进步,间 接反映语音特征的参数( 如l s p 谱系数、部分相关系数和l p c 谱系数等) 被逐 渐提取出来峭j 。 2 0 世纪7 0 年代末至8 0 年代末之间,新的模式匹配方法以及对各种声学参 数的线性或非线性处理方式逐渐成为说话人识别的研究重点。s t e v e nb d a v i s 第一次提出了美尔倒谱系数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 的概 念 9 1 。由于m f c c 是根据人耳听觉特性提取出来,而且具有较好的识别性能 和噪声鲁棒性,因此逐渐成为主流参数被应用于说话人识别中。此时,向量量 化p j ( v e c t o rq u a n t i z a t i o n ,v q ) 、动态时间规整i l0 1 ( d y n a m i ct i m e w a r p i n g , d t w ) 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 和隐马尔科夫模型1 ( h i d d e nm a r k o vm o d e l ,h m m ) 等技术在识别中取得很好的效果,逐渐成为 2 武汉理工大学硕士学位论文 说话人识别的核心技术。 白2 0 世纪9 0 年代以来,由于r e y n o l d s 详尽的介绍了高斯混合模型,高斯 混合模型因其实现简单而且有效和抗噪性能良好,迅速被作为主流技术应用于 与文本无关的说话人识别中,同时也将说话人识别研究带入了一个新的阶段【1 2 】。 1 9 9 5 年以来,对说话人识别的研究工作部分集中在通过现代信号处理技术( 如 小波分析等) 提取新的语音特征参数上。r e y n o l d s 在2 0 0 0 年左右时,提出通用 背景模型( u b m m a p ) 的结构应用于说话人确认中,使说话人识别逐步走向 了实用性。u b m m a p 结构中说话人模型训练时只需要少量的自适应语音,不 仅降低了统计模型g m m 对训练集的依赖,而且增强了训练与测试不匹配时的 鲁棒性。 目前,不断涌现出新的说话人识别技术,如g m m 与支持向量机相融合的 方法,又如应用于与文本无关说话人识别中的大词汇量连续语音识别方法和基 于评分的说话人规整技术h n o r m t l4 1 、t n o r m l l 5 1 和z n o r m 【16 1 ,以及针对通 道失配问题的倒谱均值减法技术【l7 j 等。然而,到目前为止,在与文本无关的说 话人识别系统中取得最佳效果的仍是基于g m m 的系统,特别是基于 u b m m a p 结构的【1 8 j 。 伴随着说话人识别技术的发展,实用性逐渐取代实验性成为说话人识别的 研究重点。1 9 9 0 年以后,出现了很多商用的说话人识别产品【1 9 】,如同时采用语 音识别和与文本有关的说话人确认来进行电话订货的h o m es h o p p i n gn e t w o r k , 目前为止已有4 5 0 0 0 0 用户注册;苹果公司为了通过语音来使用和控制计算机, 在1 9 9 9 年1 0 月份将v o i c e p r i n tp a s s w o r d 功能加入到m a co s9 中;另外还有 i m a g i n en a t i o n 公司的v o i c ea c t i v a t e du n l o c kt e c h n o l o g y ( v a u l t ) ,k e yw a r e t e c h n o l o g i e s 公司的v o i c eg u a r d i a n 和s 2s e c u r i t ys e r v e r ,i t ti n d u s t r i e s 公司的 s p e a k e rk e y ,t - n e y i x 公司的s p e a k e z 等产品。国内同样有很多的说话人识别 产品,如北极星声纹识别技术、得意声纹识别引擎、模式p a t t e k a s r 3 0 t s p 、 中科信利说话人识别引擎和言丰声纹识别器等。 1 2 说话人识别原理 说话人识别属于语音识别的一个分支,主要以语音特征参数来确定说话人 身份,与语音识别最大的区别是它并不注意语音信号中的语义内容。 说话人识别包括说话人辨认和说话人确认两类。前者是一个“多选一”的 武汉理工大学硕士学位论文 问题,就是从已知的说话人模型集合中,找出一个最匹配测试语音个性的说话 人模型,如图l l 。后者是一个“一对一判别”的问题,确认某段语音是否为指 定的那个人所说,如图1 2 。两种说话人识别技术会根据不同任务和不同的应而 使用,如在缩小刑侦范围中使用说话人辨认技术,而银行交易时使用说话人确 认技术。 已知说话人模型 图1 1说话人辨认的流程 图1 2 说话人确认的流程 1 3 说话人识别面临的问题 识别正确率一直是说话人识别的研究重点,随着说话人识别系统的改进, 识别正确率得到了很大的提升1 2 。当说话人识别系统的容量不断扩大时,说话 人识别系统的识别速度逐渐成为系统实用性的关键点之一【2 1 1 。 随着互联网的普及,在线说话人识别系统得到了大大的发展。在线说话人 识别系统的最大特征之一就是系统中注册人数非常多,而随着注册人数的增多, 识别时间会大大增加,最终可能导致系统不能实时识别。目前已经有很多人致 力于提高说话人识别速度的研究上,提出了多种快速说话人识别方法,这些方 法都是建立在牺牲识别正确率的基础上。如j m c l a u g h l i n 和d a r e y n o l d s 及 4 武汉理工大学硕士学位论文 t g l e a s o n 提出减小g m m 混合度的方法来实现识别速度的提升【2 2 1 ,他们将 g m m 混合度由原来是2 0 4 8 的基础上减小为1 6 ,识别速度虽然得到了大大的提 升,而识别正确率降低近2 0 。b l p e l l o m 和j h h a n s e n 等人提出了剪枝的 方法来加快识别速度1 2 引,测试过程中首先将测试特征矢量划分为n 等份,每次 取一份进行匹配,剪除小于阈值的说话人模型,然后下一份测试矢量与剩下的 说话人模型进行测试,如此重复直至确定目标说话人。该方法中只有第一份测 试矢量需要与所有说话人模型进行匹配,其他的测试矢量只需与部分说话人模 型进行匹配即可,这样能减小系统识别阶段的匹配计算量,在一定程度上加快 识别速度,识别速度的加快程度与每次剪除说话人模型的阈值设置有关,当阈 值设置较大时,每次剪除的说话人模型就会变少,相应的识别速度也会变慢; 阈值设置较小时,每次剪除的说话人模型较多,识别速度加快,但可能造成正 确的目标说话人模型被剪除,最终降低系统的识别正确率。因此阈值的选择是 个难题,而且说话人模型的裁剪也是一个比较耗时的循环过程。t k i n n u n e n , e k a r p o v 和p f r a n t i 提出预量化的加速方法【2 4 1 ,测试过程中首先采用随机再抽 样、取平均值、大量删除、聚类四种中的一种预量化方法对测试矢量进行预量 化,大大减少测试矢量的帧数,然后将剩下的测试矢量与说话人模型进行测试, 确定目标说话人,这种方法减少了测试矢量的数量,即减少了识别阶段的匹配 计算量,能一定程度上提升系统的识别速度;然而这种方法只适用于测试语句 较充分的时候,当测试语句较短时,对测试矢量进行进一步量化后,会丢失大 量的说话人个性信息,进而导致系统的识别正确率降低。h a r o n o w i t z 和d b o n a s t r e 采用计算g m m 模型之间的近似交叉熵来代替计算测试矢量与说话人 模型之间的对数似然度的方法来提升识别效率【2 5 】,在测试过程中首先用测试矢 量建立一个g m m 模型,然后计算测试g m m 模型与说话人模型之间的近似交 叉熵来确定目标说话人。相较于计算测试矢量与说话人模型之间的对数似然度, 计算测试g m m 模型与说话人模型之间的近似交叉熵能大大减少计算量,然而 建立测试矢量的g m m 模型非常耗时。测试矢量一般较少,不能建立准确的测 试g m m 模型,最终也会大大降低系统的识别性能。b s u n ,w l i u 和q z h o n g 提出通过说话人聚类的分层测试方法来加快识别速度【2 酬,首先将所有说话人的 训练语音聚类,为每类建立一个类g m m 模型,然后计算说话人模型与类g m m 模型之间的距离,将说话人模型划分到距离最小的类中,分类结束后将类中所 有说话人的训练语音放在一起建立一个新的类g m m 模型,再重新计算说话人 模型与类模型之间的距离再次分类,直至分到合适的类为止,整个过程采用迭 武汉理工大学硕士学位论文 代自组织数据分析技术算法( i t e r a t i v es e l f - o r g a n i z i n gd a t aa n a l y s i st e c h n i q u e a l g o r i t h m ,i s o d a r a ) 。测试过程中先通过某种距离匹配选择类,然后再将测试 矢量与类中的g m m 模型进行匹配,判定说话人身份。这种分层测试的方法能 大大减少计算量,然而当语音库中人数较多时,说话人聚类过程中的计算量将 过于庞大,这种方法将不适用,且作者只是在4 0 人的语音库中取得了较好的效 果,不能说明在含有大量人数的语音库中仍然可以取得同样效果。a p s i n g e k a r 提出采用k 均值算法的说话人模型聚类1 2 7 1 ,即在说话人模型训练好之后通过某 种距离测度将相似的说话人模型聚成一类,测试的时候采用分层测试,先选择 类再测试,提高了识别效率。肖文文等提出基于分类特征空间高斯混合模型的 说话人辨认方法【2 引,训练过程中根据语句的相似性将所有训练语音分为2 3 类, 在划分的2 3 类中为每个人通过自适应建立一个低阶的g m m u b m 模型,测 试过程中首先将测试特征矢量分到划分好的2 3 类中,划分好的测试矢量只需 与该类中的说话人模型进行匹配即可;该方法主要是为了降低g m m u b m 的混 合度,提高训练效率,在一定程度上提高了识别速度。 针对说话人识别面临的识别速度慢的问题,本文提出基于模型聚类的说话 人识别方法。通过大量实验知道,识别过程中只有少部分说话人模型能得到较 高的分数,说明说话人模型存在相似性,在识别阶段只需计算测试矢量与这少 部分说话人模型的匹配度即可判定目标说话人,能大大减少识别计算量,提升 识别速度。因此在训练阶段中,首先通过训练语音为每个说话人建立g m m 模 型,然后通过近似k l 距离将相似的说话人模型聚成一类,再为每类选定相应 的类中心和类代表模型;聚类类数小于语音库中的说话人数。识别阶段中,首 先计算测试语音与每类的类中心之间的欧氏距离或者与每类的类代表之间的对 数似然度,选取得分高的类为搜索空间;然后将测试语音与搜索空间中的所有 说话人模型进行匹配,确定测试语音的说话人身份。由于识别时间主要用在计 算测试矢量与说话人模型的对数似然度上,与传统g m m 模型相比,在同样情 况下时基于说话人模型聚类的说话人识别在识别阶段计算对数似然度的次数远 小于传统g m m 模型的,因此提升了识别速度。考虑到聚类可能会出现一定的 误差,在测试选择搜索空间时,选择子类集合( 即同时选择得分较高的几类) , 既可以保证识别性能,也能提高识别速度。 为了进一步提高说话人识别系统的识别速度,本文又提出说话人模型聚类 与预量化相融合和说话人模型聚类与剪枝相融合的方法。 6 武汉理工大学硕士学位论文 1 4 论文的研究内容和结构 论文主要内容是基于模型聚类的快速说话人识别。相较于传统g m m 说话 人识别,基于模型聚类的说话人识别能在识别正确率不显著降低的情况下大大 提高识别速度。论文结构如下: 第一章主要介绍说话人识别的研究背景和说话人识别原理,讨论说话人识 别系统在实际应用中遇到的问题,进而提出相应的解决方法。 第二章介绍说话人识别的整体流程和g m m 模型,通过实验对比g m m 模 型在不同混合度时的识别效果,对g m m 进行了性能分析,选择最佳的g m m 模型混合度和最佳的测试语句长度。 第三章讨论识别阶段所有说话人模型的得分分布情况,在此基础上提出基 于模型聚类的说话人识别方法。为进一步提升说话人识别系统的识别速度,又 提出说话人模型聚类与预量化或剪枝相融合的方法。 第四章首先通过实验确定说话人模型聚类的最佳聚类数目和测试方法,然 后分析预量化和剪枝的性能,进而分析说话人模型聚类与预量化融合、说话人 模型聚类与剪枝融合后系统的性能,对比这几种方法的最佳实验效果,得出相 应的结论。 第五章对论文进行总结,以及对快速说话人识别研究领域进行展望。 武汉理工大学硕士学位论文 第2 章说话人识别方法 说话人识别是将说话人语音信号中的个人信息提取出来,建立一个说话人 模型,然后计算提取出的测试语音特征参数与已有说话人模型之间的匹配度, 根据计算的匹配度判定测试语音的说话人身份。 2 1 说话人识别的整体流程 说话人识别的整体流程可以分为训练和识别两部分。训练部分主要由训练 语音的前端处理、特征提取和建立模板三部分组成。识别部分主要包括测试语 音的前端处理、特征提取、模板匹配和判决说话人四个模块。训练和识别中的 前端处理和特征提取两个模块是进行的相同处理方式。训练阶段框图和识别阶 段框图分别如图2 1 和2 2 。 i一ij i,j 图2 1说话人识别系统的训练阶段框图 说话人模型 泪i l ;青;喜 前端处理特征提取 1 rl 模板匹配 判定说话人 图2 2 说话人识别系统的识别阶段框图 前端处理的主要工作是对语音信号进行采样与量化、端点检测和预加重处 理以及加窗。 首先将模拟语音信号s ( t ) 以采样周期t 进行采样离散化为s ( n ) 。为了避免 信号的频域混叠失真,可以通过模拟语音信号的香农定理来确定采样周期。语 音离散化后,再进行量化处理,量化过程中会引起一定的语音失真和带入一定 的量化噪声。 端点检测的任务就是准确的判断信号中有效语音的起始点和终止点,准 确的提取出有效语音段。在说话人识别系统中,有效的端点检测能减少数据的 采集量和节约语音处理时间,也能去除噪声段或无声段的干扰,可以提高系统 武汉理工大学硕士学位论文 w ( ,? ) :0 5 4 2 ;陌n i ) ,。,z 一1( 2 1 ) i 1 ,其他 系数、倒谱特征、l s p 特征、基因轮廓特征等 2 9 - 3 0 1 。目前常用的语音特征参数 有线性预测倒谱系数( l p c c ) 和美尔倒谱系数( m f c c ) 1 3 1 - 3 3 1 ,以及这两种参 9 武汉理工大学硕士学位论文 通用背景模型( u b m m a p ) 、隐马尔科夫模型( h m m ) 和人工神经网络( 砧州) 等【3 4 。3 引。g m m 模型因为其实现简单有效且能够很好的表征说话人的语音特征 分布,在被提出后,被广泛的应用于与文本无关的说话人识别中。在无数次的 实验中,g m m 被证实是目前最有效的说话人模型之一,因此本文采用g m m 作为说话人模型。 模板匹配就是计算测试特征矢量与训练好的模型之间的匹配度。说话人确 认只需计算测试特征矢量与其声称的说话人模型之间的匹配度,而说话人辨认 要计算测试特征矢量与已有的说话人模型之间的匹配度。 判定说话人就是根据模板匹配中计算的匹配距离来判决说话人最终是谁 ( 说话人辨认) 或者说话人是否为其所声称的说话人( 说话人确认) 。 2 2 高斯混合模型 2 2 1 高斯混合模型原理 说话人声音特征在特征空间中形成的特定分布可以被用来描述该说话人的 个性【3 9 - 4 0 1 。同一说话人在不同地点或不同时间段说同一语音内容时,由于所处 的环境或年龄的增长等因数的影响,将产生不同的发音波形,说明人的发声过 程是不确定的,通过多个多维的高斯概率密度函数的组合可以描述这种不确定 性。不同的高斯密度函数都可以代表一种声音类别,表明高斯密度函数是依赖 于状态的( s t a t e d e p e n d e n t ) 。特征矢量x 对于第i 个状态的高斯概率密度函数如 式( 2 2 ) 6 ,( x ) = b ( x ,j ,) 2 i 三:了吾恚盯e x p 一圭( x 一“,) w l 2 2 ) 式( 2 2 ) 中p ,表示状态平均矢量( 特征矢量x 的期望值) ,表示状态协方差 矩阵( 特征矢量x 之间的相关性) ,d 表示特征矢量的维数。 一个特征矢量可能是混合高斯模型的个状态中的任意一个,对特定的说 话人模型( 用九表示) 来说,特征矢量属于个状态的概率可以通过不同的高 斯密度函数的线性组合来表示,如式( 2 3 ) p ( x ) = 0 9 ,b ,( x ) ( 2 - 3 ) l o 武汉理工大学硕士学位论文 其中b i ( x ) 为混合密度的分量,表示混合分量的权重,如图2 3 所示 图2 3 高斯混合模型 当单个高斯密度积分为1 时,令j 满足式( 2 4 ) c o ,= 1 ( 2 - 4 ) i = l 满足式( 2 4 ) 后,混合密度就能代表一个真正的概率密度函数。因此,可 以通过均值、协方差和权重三个参数的集合表示说话人模型允,如式( 2 5 ) i = c o j ,p ,0 ( 2 5 ) g m m 是由高斯概率密度函数线性组合而成。任意一种概率分布都可以用混 合度足够大的g m m 模型来描述。由于语音特征通常表现为平滑的概率密度函 数,则通过混合度为8 6 4 的g m m 就可以平滑地逼近语音特征的分布函数。选 择适当的均值、概率权重和协方差,就能建立一个概率密度函数模型。 2 2 2 高斯混合模型的建立 说话人模型旯的参数是通过训练语音特征参数而得到。最大似然估计法是 估算g m m 模型参数时最常用的方法。 设某说话人训练语音的特征为x = x ,l ,= 1 ,2 ,t ) ,其中丁为训练语音帧 数。按照最大似然估计准则,就是要找到g m m 的参数,使得这一说话人模型 g m m 产生训练语音特征x = ki ,= l ,2 ,t 的概率最大,即找到满足式( 2 6 ) 九= a r gm a xp ( x l a ) ( 2 6 ) 武汉理工大学硕士学位论文 的a 。在语音的各帧特征统计独立时,如式( 2 7 ) 7 1 p ( xa ) = p ( x ,i 九) ( 2 - 7 ) 通常用对数似然度来代替上式,如式( 2 8 ) p ( xl 九) = l o g p ( x m ) ( 2 8 ) t = l 对于高斯混合函数有: 7 1 rm、 p ( xa ) = 岁- - 1 0 9 国,b 舭伊 ( 2 - 9 ) t = lli = 1j 为找到满足条件的a ,本文选用期望最大化( e x p e c t a t i o n m a x i m i z a t i o n ,e m ) 算法。 具体实现过程是:首先通过l b g 算法将训练语音特征参数聚成类,取每 类中心为初始p ,每类中所有特征向量的标准差为初始方差矩阵,每类中所 含特征矢量数占所有训练特征矢量数的比重为初始权重,即得到了初始参数 模型a = c o t ,仃,i ,= 1 ,2 ,n ) ;再通过式( 2 9 ) 让算出p ( xa ) ,然后通过 e m 算法调整模型参数得到允= ,1 t ,仃,ik1 ,2 ,n ,重新计算p ( xi 九) ,使 其满足式( 2 1 0 ) 、 p ( xa 。) p ( xi 见) ( 2 一l o ) 每重复一次时,迭代次数加1 ,模型参数在经过若干次迭代后会慢慢收敛。 e m 算法的具体流程如图2 4 。 e m 算法调整参数时先计算每个状态x ,的占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论