(电路与系统专业论文)基于全局背景模型和辅助模型的说话人确认系统.pdf_第1页
(电路与系统专业论文)基于全局背景模型和辅助模型的说话人确认系统.pdf_第2页
(电路与系统专业论文)基于全局背景模型和辅助模型的说话人确认系统.pdf_第3页
(电路与系统专业论文)基于全局背景模型和辅助模型的说话人确认系统.pdf_第4页
(电路与系统专业论文)基于全局背景模型和辅助模型的说话人确认系统.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

:垫茎l l i i l rii i ip l lii jil ti i ii if。o o o o o o _ o o o o _ o o o o o _ o o - o _y 17 2 8 2 9 6摘要说话人识别一直都是国内外的一个重要的研究课题。本文从研究说话人识别的一些基本理论入手,研究了几种常用的说话人确认算法和背景模型并进行了仿真与比较,重点研究了基于g m m 模型以及全局背景模型的与文本无关的说话人确认系统。本文的主要研究工作如下:1 传统的基于概率模型的说话人确认系统都要为说话人设置一个背景模型,背景模型的好坏有时候与特征参数选择的好坏一样能对识别率起到至关重要的作用。本文先对两种常用的背景模型即全局背景模型( u n i v e r s a lb a c k g r o u n dm o d e l ,u b m ) 和竞争者模型( c o h o r t m o d e l ) 进行了阐述,并分别对其进行了说话人确认的仿真实验。结果表明全局背景模型的识别率达到9 4 左右,而竞争者模型的识别率则比较低只稍高于8 0 ,不能单独用于实际应用。2 广泛查阅了研究者们提出的全局背景模型和竞争者模型的研究结果后,发现研究者们已经指出两种模型代表了特征空间的不同区域。u b m 代表与真实说话人无关的特征分布,即所有说话人的共性,易于区分一般的假冒者;c o h o r tm o d e l 代表与真实说话人特性相近的假冒者的特性,易于区分与真实说话人特性相近的假冒者。因此我们提出将两种背景模型经行级联,先用u b m 区分大部分的假冒者,再用c o h o r tm o d e l区分与真实说话人特性相近的假冒者,实验表明新模型能有效的提高说话人确认的识别率。在实验过程中提出疏远者模型( cc o h o r tm o d e l ) 在说话人确认中的作用。3 实际环境中无处不在的噪声带来了训练模型和测试语音之间的失配,使得噪声环境中说话人识别系统的识别率急剧下降。本文提出了一种改进的m e l 频率倒谱系数,记为:p lm f c c ,与l p c c 、m f c c 、p l p c c 相比该参数有效的抑制噪声,对含噪语音的识别率有显著提高。关键词:说话人确认、高斯混合模型、特征参数、全局背景模型、竞争者模型a b s t r a c t_ _ 一a b s t r a c ts p e a k e rr e c o g n i t i o ni sa l w a y so n eo ft h em o s ti m p o r t a n tr e s e a r c ha r e ai nt h ew o r l d t h i sp a p e rb e g i n sw i t hr e s e a r c ho nb a s i ct h e o r i e so fs p e e c hp r o c e s s i n g ;t h e ns o m eo fc o m m o ns p e a k e rv e r i f i c a t i o na l g o r i t h m sa n db a c kg r o u n dm o d e l sa r es i m u l a t e da n dc o m p a r e d ,e s p e c i a l l ye m p h a s i z e so nt h eg m m ,u n i v e r s a lb a c kg r o u n dm o d e la n dt e x ti n d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m f o l l o w i n gi st h em a i nw o r ko ft h i st h e s i s :1 t h et r a d i t i o n a ls p e a k e rv e r i f i c a t i o ns y s t e m sb a s e do np r o b a b i l i t ym o d e la l w a y sn e e dab a c kg r o u n dm o d e l 。s o m e t i m e st h eq u a l i t yo fab a c kg r o u n dm o d e li sa u si m p o r t a n ta st h eq u a l i t yo fak i n do fc h a r a c t e r i s t i cp a r a m e t e r i nt h i sp a p e rt h et w oc o m m o nb a c kg r o u n dm o d e lu n i v e r s a lb a c kg r o u n dm o d e l ( n o t e du b m ) a n dc o h o r tm o d e la l ei n 缸d c l u c e d s i m u l a t e da n dc o m p a r e d t h ee x p e r i m e n t ss h o wt h a tt h ev e r i f i c a t i o nr a t eb a s e do nu b mo n l yi su p p e rt o9 4 ,w h i l et h es a m et i m et h ec o h o r tm o d e lo n l ya b o u t8 0 。2 a f t e ra n a l y z i n gl t h ep r o p e r t i e so ft h a tt w om o d e l s ,w ef o u n dt h a ts o m er e s e a r c h e r sh a v ep o i n to u tm o s et w om o d e l ss t a n df o rt h ed i f f e r e n ta r e ao ff e a t u r es p a c e u b ms t a n d sf o rm ef ea _ m r ed i s t r i b u t i o nt h a th a v en o t h i n gt od ow i t ht h es p e a k e r ;c o h o r tm o d e ls t a n d s南rt h ef e a t u r ed i s t r i b u t i o nt h a ti sc l o s et ot h es p e a k e r w ec a na l s os a yu b mc a ne a s i l yd i 虢r e l l t i a t em ec o l b n l o ni m p o s t e r s ,w h i l et h ec o h o r tm o d e lh a sa nu p p e rh a n di nd i f f e r e n t i a t i n gt h ec l o s ei m p o s t e r s b e c a u s eo ft h a tw ed e c i d e dt o 石3 m b i n et h o s et w om o d e l si n t oo n em o d e l :w h e nu s i n gi tw ef i r s tu s eu b mt od i f f e r e n t i a t em o s to f 戗l ec o m m o ni m p o s t e r s 。a n dt h e nu s ec o h o r tm o d et od i f f e r e n t i a t et h ec l o s ei m p o s t e r s t h ee x p e r i m e n t ss h o wt h i sn e wm o d e lp u s ht h ev e r i f i c a t i o nr a t eu p w ea l s op r o p o s et h eu s eo fc c o h o r tm o d e l 3 t h ep e r f o r m a n c eo fs p e a k e rv e r i f i c a t i o nw i l ld e g r a d er a p i d l yi nn o i s ye n v i r o n m e n t so w l l i n gt 0m em i s m a t c hb e t w e e nt h ea c o u s t i cm o d e l sa n dt h et e s t i n gs p e e c h t h i sp a p e rp r o p o s eam o d i f i e dm f c cf e a t u r e ( n o t e dp l _ m f c c ) c o m p a r e dw i t hm f c c ,p l p c c ,t h i sn e wf e a t u r ei sg o o da tr e s t r a i n i n gn o i s ye f f e c ta n dc a l le f f e c t i v e l yi m p r o v et h es y s t e mp e r f o r m a n c e k e yw o r d s :s p e a k e rv e r i f i c a t i o n ,g m m ,f e a t u r e s ,u b m ,c o h o r tm o d e l1 ln绪论第一章绪论1 1 选题背景语音是声音和意义的结合体,声音是语言的物质形式,语音是语言的物质外壳、信息的载体 1 】。语音信号处理是研究数字信号处理的技术对语音信号进行处理的- - i 1学科。语音信号处理的目的是要得到一些语音参数的以便高效的传输或储存,或者使用某种处理运算以达到某种用途的要求。语音信号处理作为一个重要的研究领域,已经有了很长的研究历史,它的快速发展是1 9 4 0 年前后d u d l e y 的声码器( v o c o d e r ) 【2 】开始的,随着数字化应用越来越快,语音处理技术也在迅猛发展,特别是智能语音技术,不断有新成果的报道。现今,语音处理技术的研究方向主要包括语音压缩和编码技术、语音合成、语音识别、说话人识别等各个方面。说话人识别又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在记录的话者集合中,以及进一步确认说话人是谁。说话人识别技术力求通过将语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人个性因素,强调不同人之间的特征差异。目前对文本无关的说话人识别的研究比较流行,科研人员主要通过两个途径来研究这一课题:一是研究提取新的、改进的特征参数,提取更有效的特征参数对提高识别率有很大的帮助;二是在模型训练方面研究新模型、多模型级联等方法。本文主要从这两个方面着手对与文本无关的说话人确认进行研究,意在保证在计算量允许的范围内进一步降低说话人确认的等错误率。1 2 说话人识别的研究历史和现状自动说话人识别作为一项新的技术与许多其他新兴的技术一样首先来自军事的需求。在第二次世纪大战期间,美国国防部向贝尔实验室提出的课题,目的是根据窃听的电话语音进行判断说话人是哪一位德国高级将领,这对分析当时的德军战略部署有重要意义1 3 j 。早期工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,特别是计算机的出现,说话人识别的研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图进行识别,提出了“声纹( v o i c e p r i n t )的概念【4 1 。每个人的指纹都是唯一的,数百万人之间才会发现有两个有相同的指纹;与此类似,声纹也是人的个性特征,很难找到两个声纹完全一样的人。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配的和概率统计方差分析的说话人识别方法【5 】,而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个高潮,期间的工作主要3绪论集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。七十年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。如今说话人识别技术已经逐渐走向实际应用。说话人识别技术有着广阔的市场前景【6 】。例如电话网络的银行账目的交易、电话购物、信息服务、保密业务电话服务、数据库访问、语音e m a i l 、安全控制、计算机远程登录等领域;另外说话人识别系统的识别还可以应用在保密通信、密保部门的身份验证、法庭鉴别等方面。在呼叫中心的应用上,当顾客以电话方式对呼叫中心进行请求时,说话人识别技术同样可以提供更加个性化、更贴心的服务。a t & t 应用说话人识别技术研制出了智慧卡,已经应用于自动提款机。目前国际上许多著名大学、研究机构以及很多大公司的实验室都在进行说话人识别方面的研究,如麻省理工学院林肯实验室( l i n c o l nl a b o r a t o r y ) 、美国的i c s i( i n t e r n a t i o n a lc o m p u t e rs c i e n c ei n s t i t u t e ) 、美国的s r i 公司的语音技术与研究实验室( s t a r ) 、法国的l i a ( l a b o r a t o i r ei n f o r m a t i q u ea v i g o n o n ) 、加拿大的c r i m( c e n t r ed e r e c h e r c h ei n f o r m a t i q u ed em o n t r e a l ) 实验室等。在国内,许多大学和研究机构也在这一领域开展了大量的研究工作,并在说话人识别方面取得了丰硕的研究成果,如中科院声学所、中科院自动化研究所、北京大学、中国科技大学、北京邮电大学、北京交通大学、北京理工大学、上海交通大学、哈尔滨工业大学等。1 3 说话人识别的意义和难点1 3 1 说话人识别的意义身份的确认是一个古老的话题,数千年前人们就采用信物或者口令来识别人的身份。随着科技的进步人类社会进入了现代信息社会,身份确认已经成为日常生活中不可分割的一部分。现在最常用的仍然是通过个人口令,密码或信物来确认人的身份,但是这种古老的方式已经不适应现代社会对人的身份确认快速、准确、便捷的要求。日常生活中人们不得不携带各种各样的卡片,需要记住太多各种各样的口令和密码,为了获得服务而证明自己的身份花费过多的精力。很多人都有这样的精力:由于密码被遗忘,无法登陆服务器或自己的计算机,无法领取自己的汇款,无法查阅所需的信息。另外:由于i c 卡、身份证的丢失,不但平添了无数麻烦,而且还可能导致个人财产蒙受损失或者明明已经是某某企业的呼叫中心的常客了,但拨通该呼叫中心的号码时,还是必须向客服人员解释你是他们某某产品的用户,从而获得他们的维修服务,这个自报家门的工作也许足够繁琐到令你放弃这次呼叫。以电话卡为例,在美国,每年都有大量的假冒电话卡。由于密码被盗用导致损失不胜枚举,这一个个惨痛的教i ) l i4绪论给安全认证系统敲响了警钟。这些事例自然促使人们想办法提高系统的安全性,防止被非法用户入侵,从而更有效的保护个人隐私、保护机密资料。现在为了防止身份证明资料的遗失和被盗用的同时保证用户服务的便利性,利用人自身的生物特征进行用户身份认证的技术一生物特征识别技术越来越引起人们的重视。生物特征识别包括人的生理特征识别和行为特征识别。生理特征指相对稳定的人的物理特征,如指纹、手型、视网膜、虹膜、面相等,这些特征基本保持不变,除非损伤造成变化。行为特征则指某些建立在生理特征的基础上的,在一段时间内相对稳定的统计学特征,如签名、键盘打字、声音等。目前,在某些安全保密的重要产所,指纹识别系统和虹膜识别系统已经得到了成功的应用,然而这些系统并没有得到大量的推广,原因在于:1 ) 、必须依赖特定的设备,如指纹扫描仪或虹膜扫描仪。这样用户必须到特定的地点才能进行认证,缺乏灵活性:2 ) 、价格较贵,整个扫描仪系统加一套相应软件,一般价格不菲,因而无法替代传统的身份卡,不易普及和推广;3 ) 、光学设备要经常维护,使用寿命也有限。例如:扫描仪脏了会严重影响正确识别率,而使用率越高,设备脏的越快;4 ) 、使用方式不够人性化。在公共场合,用户必须手触指纹扫描仪或把眼睛贴近虹膜扫描仪,这样不符合卫生标准,用户也会难以接受。与其他生物识别技术相比,说话人识别( 声纹识别) 具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛引用于安全验证、控制等各方面。另一方面,随着移动通信技术的迅速发展,尤其是网络、电子商务的繁荣,电话的使用率空前增加,远程身份认证越来越频繁。如果能够实现一张口打一个电话就可以获得服务、进行交易,那我们的生活是何等的方便和快捷。归纳起来,说话人识别的独特优点在于:1 ) 、认证方式易于接受。用户只需拿起电话或手机打个电话即可,不必像指纹识别或虹膜识别那样,把手或眼睛贴近扫描仪;2 ) 、不需要昂贵的易损的硬件设备,如各种指纹、掌纹、或虹膜扫描仪,只要简单的声音输入设备即可;3 ) 、在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与其他生物识别技术相比,声纹识别更易于应用,得天独厚。比尔盖茨认为“以人类生物特征( 指纹、语音、脸相等) 进行身份验证的生物识别技术,在今后数年内将成为i t 产业最为重要的技术革命。 说话人识别技术以其独特的方便性、经济性和准确性等优势受到业内人士的瞩目,并日益成为人们日常生活和工作中重要且容易普及的安全验证方式。总之,说话人识别技术是当前安全认5绪论证系统研究和发展的必然趋势,而且具有很强的科学研究意义和广阔的市场应用前景。1 3 2 说话人识别的重点和难点说话人识别已经从理论研究发展到了实际应用。从目前的情况来看说话人识别的研究主要集中在以下几个方面:1 ) 、语音特征参数的提取。语音特征参数直接决定说话人识别系统的性能。目前最流行的是各类倒谱类参数,但是倒谱类参数有时候也并不能完全令人满意。寻找新的有效的语音特征参数和已有的特征参数的有效结合 1 】,如基音与谱特征的结合,是语音特征参数研究的两个方向。2 ) 、不同模型之间的有效结合。理论和实验表明不同模型都有自身的优点缺点,不同识别模型之间的结合后会起到互补的效果,从而改善说话人识别系统的性能。如:h m m 模型与神经网络模型【7 1 ,h m m 与支持向量机( s u p p o r t v e c t o rm a c h i n e ) 的结合【7 】、全局背景模型( u n i v e r s a lb a c k g r o u n dm o d e l ) 与其他辅助模型的结合都可以在不同程度上改善系统的性能。噪声环境下的说话人识别( 带噪语音) 是如今说话人识别的一个研究难点和热点。现在机器在某些方面的表现已经超过了人:在短的训练语句、测试语句和大量说话人的情况下,说话人识别系统的性能远远超过了人。但是在语音有失真的情况下,如在噪声环境下中或经过传输信道,说话人识别系统的性能就会下降很快,而此时人耳则会表现出非常优秀的抗噪声的能力。在文献 8 中r e y n o l d s 用实验验证了倒谱均值消除算法可以较好的提高系统的性能。在文献 9 中g a r c i a 提出一种改进的c m s 算法结合频率弯折技术改善电话语音的识别系统性能的方法:在文献 1 0 中s i v a k u m a r a 把子带倒谱技术应用于带噪说话人识别系统中,使系统的性能得到了提高。虽然说话人识别已经进入了实用阶段,由于下列原因,说话人识别至今仍然不能达到令人满的效果,原因有以下:1 ) 、目前科技人员没有找到很好的办法从说话人的语音中把说话人的特征从说话人的语音特征中分离出来【1 l 】。因为说话人识别的语音信息来源说话人所说的话,其语音信息中既包含了说话人所说的话的信息也包含了说话人的个性信息,是说话人特征和说话人个性特征的混合体。,2 ) 、说话人语音具有长时变动意性,说话人的发音会随着时间、年龄、身体状况变化而变化;说话人的话音不是不变的常和说话人所处的环境说话人的情绪有密切关系;3 ) 、声音容易被录音模仿。6绪论4 ) 、系统自身带入的噪声。声音在电话线路上传输时,会受到线路噪声的影响,不同的线路的噪声也可能不同;另外麦克风类型的不匹配也会影响说话人识别系统的性能1 4 主要研究内容与章节安排本论文是基于g m m 以及全局背景模型的说话人确认识别系统。研究了几种常用的说话人识别方法,以及几种常用的说话人确认背景模型。将全局背景模型和竞争者模型级联的方法用于说话人确认系统中,然后又研究了一种改进了m f c c 参数用于抑制背景噪声最后分别在m a t l a b 软件环境下对本文所研究的各种模型与参数进行了实验与比较,结果表明新模型与新参数都能得到不错的效果。论文的具体内容安排如下:第一章,绪论,介绍了说话人识别的研究历史和现状以及现阶段的重点和难点,最后是本论文的主要工作和组织结构介绍。第二章,首先介绍了说话人识别的概况、分类以及识别流程;其次叙述了各类常用的说话人识别方法,重点介绍了概率模型中的高斯混合模型;再其次介绍了概率模型中常用的特征参数包括l p c c 、m f c c 、p l p c c 以及两种常用的背景模型;最后在m a t l a b 中进行仿真实验,比较实验结果为下面的章节打下基础。第三章,介绍了全局背景模型和竞争者模型在特征空间中的不同含义,提出了将两者级联的方法用于说话人确认系统。实验结果显示此模型能提高说话人确认系统的性能。第四章,由于现实生活中噪声无处不在,含噪语音引起测试语音与说话人模型在低能量段的失配,造成含噪语音使用m f c c 时识别率的急速下降。为了提高说话人确认的鲁棒性,本文提出一种改进的m f c c 参数即p lm f c c 。此参数能够在低能量段抑制噪声的影响从而降低低能量段测试语句与模型之间的失配,从而降低说话人识别的等错误率。第五章,总结与展望。本章总结了作者所做的工作,提出了文章中的不足和进一步的研究思考。7第二章基于g m m 与全局背景模型的说话人确认系统第二章基于g m m 模型与全局背景模型的说话人确认系统2 1 说话人识别概述人们通过人的语音来确定说话人的身份就是所谓的说话人识别。在计算机发明以前人耳是说话人识别的主要工具,在小范围内人耳还有其用武之地,但是一旦随着假冒者的增多人耳就无法准确分辨。随着科技的发展,基于计算机为硬件的自动说话人识别( a u t o m a t i cs p e a k e rr e c o g n i t i o n ,a s r ) 应运而生。如无特别说明,本文以后提到的说话人识别是指自动说话人识别。说话人识别问题的解决涉及到人的发音器官、发音习惯、声学原理、语言学知识、自然语言理解等多方面的内容。因此说话人识别时交叉心理学、生理学、数字信号处理、模式识别、人工智能等知识的一门综合性研究课题。说话人识别与语音识别在实现方法上有很多的相似之处,都是在提取原始语音信号中的某些特征参数,建立相应的参考模板或模型,然后按照一定的判决规则进行识别。但是两者的识别目的却是对立的,语音识别的目的是识别出语音信号中的的语义内容,不考虑说话人的个性特征,强调的是共性;而说话人识别是利用语音信号中的说话人的个性特征,而不考虑语音中的字词含义,强调的是语音的个性特征。2 1 1 说话人识别的分类说话人识别技术按其识别任务可分为两类:说话人辨认( s p e a k e ri d e n t i f i c a t i o n )和说话人确认( s p e a k e rv e r i f i c a t i o n ) 【l2 | 。说话人辨认是给出一段语音,判断这段语音是若干人中的哪个人所说,是多选一的问题,如果这个人一定包含在这些人之中则称之为闭集( c l o s e s e t ) ,否则称为开集( o p e n s e t ) ;说话人确认是根据给出的一段语音,判断是否是某个特定的人说的,所要解决的问题是“你是否是你所声明的那个人”属于二元检测问题,是或不是。说话人确认的一个优点是其识别率与潜在冒充者的个数无关。随着社会需要的发展,出现了一些新的识别任务,如交谈语音中的说话人检测( s p e a k e rd e t e c t i o n ) 和说话人跟踪( s p e a k e rt r a c k i n g ) z 3 j 。说话人检测是给定一段交谈语音,判断该语音中是否含有特定说话人的语音。和说话人确认非常相似,也属于二元检测问题,区别在于说话人确认中的给定语音是属于同一个人的而说话人检测中的语音是属于多个人的。说话人跟踪是在说话人检测的基础上,如果该交谈语音中包含特定说话人的语音,那么那些话是该说话人说的。另外按照工作模式分类,可将其分为与文本有关( t e x t d e p e n d e n t ) 和与文本无关( t e x t i n d e p e n d e n t ) 的两种 引。与文本有关的说话人识别技术,要求说话人提供发音的关键词或关键句子作为训第二章基于g m m 与全局背景模型的说话人确认系统练文本,而识别时也必须按相同的内容发音。与文本无关的说话人识别技术,不论在训练时还是在识别时都不规定说话内容,即其识别对象是自由的语音信号。两者相比较而言,与文本无关的说话人识别的实现要困难的多,由于其使用环境无法控制,因而必须在自由的语音信号中找到能够表征说话人信息的特征和方法,建立其说话人模型的困难就比较大。本论文主要研究和实现的是与文本无关的说话人确认系统。2 1 2 说话人识别的系统框图和过程图2 1 是说话人识别系统的典型结构框图,包括说话人确认和识别两种方式,该系统主要解决一下几个基本问题:身份声明训练建立参考模板或者模型确认模式匹配( 相似性度量)参考模板或者模型图2 1 说话人识别系统框图识别判决识别结果1 ) 、语音信号的预处理与特征提取;2 ) 、说话人模型参数的训练和模型的建立;3 ) 、识别语音与说话人模型的相似度匹配;4 ) 、识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人( 说话人确认) 或说话人到底是谁( 说话人辨认) ;可见说话人识别过程主要分为两个阶段;训练阶段和识别阶段。下面分别对两阶段加以介绍。一、训练阶段首先系统要求每个用户录制若干语句用来训练说话人的模型;第二步提取特征参数:说话人的模型不是由语音信号直接得到的,而是通过从语音信号中提取特征而得到,是说话人语音特征的模型;第三步使用所提取的特征进行模型的训练,模型的训练在说话人识别系统中有至关重要的作用,模型的好坏常常左右着识别率的高低。最9第二章基于g m m 与全局背景模型的说话人确认系统后对模型参数进行存储:对模型的训练实际上是用训练语音的特征对模型参数进行估计,估计出的参数就表示了说话人的个性特征,应很好的保存下来,以便在说话人识别时用来与测试语音进行匹配。二、识别阶段待识别语音经预处理和特征提取后,与系统训练时产生的用户模板或模型参数进行相似度匹配,计算匹配距离,取与测试语音匹配距离最小的说话人模型所对应的说话人为最后的识别结果。在说话人确认时,测试语音只有与所声称的说话人的模型进行匹配,通过判断产生的匹配距离是否小于某一阈值,来做出拒绝或接受说话人的判决。2 2 说话人识别的常用方法2 2 1 基于模板匹配模型的方法基于模板匹配( p a t t e mm a t c h ) 模型的方法原理是:在训练阶段,从每个说话人训练语句中提取特征参数,构成说话人参考模板;在识别阶段,将测试特征参数序列与相应的参考模板比对,按照一定的距离测度方法,做出识别判决。动态时间规整( d t w ) 和矢量量化( v q ) 就属于这类方法 2 1 。( 1 ) 基于动态时间规整的说话人识别方法动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 是一种典型的基于模板匹配的说话人识别方法。d t w 是一种较为成熟的传统说话人识别方法,其系统结构如图2 - 2所示。图2 - 2 基于d t w 的说话人识别系统l o第二章基于g m m 与全局背景模型的说话人确认系统它在规定了语音内容的情况下,以说话人发规定内容语音得到的语音特征序列作为这一说话人个性特征模板( t e m p l a t e ) 。识别时,将要识别的说话人发同样内容的语音特征序列与说话人模板进行距离计算和模式匹配,取与模板距离最小的那个模板对应的说话人作为识别结果,从而实现了基于文本的说话人识别。由于语音信号的准平稳随机特性,使得即使是同一个说话人发同一语音的不同次发音内容,语音的音长也往往不同,相应的语音特征序列的长度( 帧数) 也不相同,因此存在着将测试语音特征序列与模板特征序列在时间上对齐的问题,称为动态时间规整( d t w ) ,这是基于模式匹配的说话人识别技术的关键。基于d t w 模型的说话人识别技术现在已经相对成熟,而且能达到较好的识别效果。( 2 ) 基于矢量量化的说话人识别方法矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 是8 0 年代发展起来的信源压缩编码技术。它具有很好的分类特性。矢量量化技术在语音编码、语音识别、语音合成、图像数据压缩、说话人识别领域有着广泛的应用,使其称为数字信号处理的有力工具。在基于矢量量化的说话人识别中,可以把每个待识别说话人语音看作一个信号源,用一个码本来表征,该码本从说话人的训练语音序列中提取特征矢量类聚而成。理想状态下,只要训练序列足够长,这个码本就可以认为包含该说话人的个人特征,也就是说,说话人的矢量量化模型时用语音信号特征的分布中心描述说话人的个性特征。对于n 个人的系统,需要建立n 个码本。识别时,从待识别语音中提取一组矢量,若针对说话人辨认过程,则应用系统中建立的n 个码本依次对待识别语音的特征矢量进行矢量量化,来判断这组矢量与特征空间中的哪个码本的分布最为吻合,从而得出辨认结果;而确认则只由所声称的码本对待识别语音进行量化,将得到的失真距离与事先规定的阈值进行比较,从而得出确认结果。基于矢量量化的说话人识别是一种效果较好且容易实现的方法。2 2 2 基于概率模型的说话人识别方法语音中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,然后可以利用均值、方差等统计量和概率密度函数进行分类判决。与模板匹配模型相比,概率统计模型具有更大的灵活性,说话人识别的问题可以表示为给定说话人模型,然后利用该模型计算产生一个可观察的特征矢量的似然概率,某一说话人的条件概率密度可以由训练矢量估计得出,给定概率密度函数,则该说话人产生特征矢量的概率即被确定。这类方法优点是不用对特征参数在时域上进行规整,适用于文本无关的说话人识别,但准确的概率统计模型需要长时间的训练才能获得,而且训练和识别的计算量都比较大。第二章基于g m m 与全局背景模型的说话人确认系统( 1 ) 基于隐马尔可夫模型( i i m m ) 的说话人识别系统 1 4 】【1 5 】【16 】【1 7 】基于h m m 的说话人识别系统结构图如图2 3 所示。早在六、七十年代,b a t u n等就发表过多篇文章阐述了h m m 的基本理论,但因为h m m 理论大多发表在数学杂志上,且理论叙述不是很详细不便于理解,没有引起工程人员的重视,因此h m m 理论只初步应用到语音信号处理当中。8 0 年代后随着h m m 理论详尽叙述和一些指导性文章的发表,以及h m m 模型参数最优化估计方法的解决,h m m 理论开始广泛的应用到语音信号处理当中。图2 3 基于h m m 的说话人识别系统h m m 应用概率统计的方法来描述时变语音信号,同时它可以很好的描述语音特征统计分布的统计模型:是准平稳时变语音信号分析和说话人识别的较有力工具【l 】。应用h m m 模型进行说话人识别时,针对每一个说话人语音信号提取特征矢量,然后为每个说话人建立一个h m m 模型,比如五为第i 个说话人的模型参数。识别时计算未知语音信号的特征矢量o 以及概率p ( oa ) ,i = 1 ,2 ,n 。对于说话人辨认,其中概率p 最大的模型五对应的说话人为识别结果;对于说话人确认,将计算得到的p值与已确定阈值相比较,小于阈值拒绝,大于阈值接受。( 2 ) 基于高斯混合模型的说话人识别系统在说话人识别中,不同说话人的差异主要表现在其短时语音谱的差异,而这又可以用每个说话人的短时谱特征矢量所具有的概率密度函数来衡量,我们可以用高斯混合模型( g a u s s i a nm i x e dm o d e l ,g m m ) 来表示这个一概率密度函划1 8 】。典型单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布,而矢量量化模型代表了说话人特征模板的离散分布。通过高斯函数的离散组合,每一个高斯函数用其均值和协方差矩阵表示,即得到高斯混合模型( g m m ) 。在某种意义上讲,高斯混合模型( g m m ) 是单峰高斯混合模型和矢量量化模型的混合,它的一个强有力的属性是能够形成任意分布的光滑近似,可以更好的表示模型的概率密度。1 2第二章基于g m m 与全局背景模型的说话人确认系统高斯混合模型( g m m ) 本质上是种基于参数估计的多维概率统计模型,g m m认为每一个说话人的语音特征在特征空间都形成特定的分布,并且可以用多个高斯分布组合对每个说话人的特征分布进行拟合,不同参数的高斯分布组合可以用来表征不同的说话人,即每个说话人特征参数对应一个g m m 模型。g m m 目前常被用于与文本无关的说话人识别模型。基于g m m 模型的良好的性能,本文选用g m m 基础来组建说话人识别系统。2 2 3 基于判决域的说话人识别方法对于概率统计模型而言,用人工神经网络( 舢州) 和支持向量机( s v n ) 的方法来进行说话人识别是一种基于判决模型的方法【1 9 1 。( 1 ) 基于人工神经网络的说话人识别人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 2 0 】是由大量的神经元互连而成的网络。它是现代神经科学研究成果的基础上提出的,反映了人脑功能的基本特征。但它并不是人脑的真实描写,只是某种抽象、简化与模拟的一种工程系统。基于人工神经网络的说话人识别系统结构图如图2 4 所示:说话) = 士。丹- e r日隐层ill ll? 炱爱翠芩虿贼o:o 瀑凳d x o x o:阙纱弋夕| |计算单元图2 - 4 基于人工神经网络的说话人识别系统框图输出得分说话人识别包含着从低层次到高层次的各个阶段及其彼此之间的相互作用,这是一个非常复杂的识别过程,而人工神经网络尤其适合于此类问题。其中较为成功的例子多数应用在说话人个性特征抽取这层次上,用于说话人识别的人工神经网络结构主要是多层感知器结构神经网络,如反向传播人工神经网络( b p b a c kp r o p a g a t i o nn e t w o r k ) 、人工神经预测网络( n p - n e u r a lp r e d i c t i o n ) 、径向基函数神经网络( i 啦f r a d i a lb a s i sf u n c t i o n ) 、时间延迟人工神经网络( t d n n t i m ed e l a yn e u r a ln e t w o r k ) 等。与传统的说话人识别方法相比,人工神经网络的出现和发展为说话人第二章基于g m m 与全局背景模型的说话人确认系统识别开拓了新思路,它通过人工神经网络强有力的自适应、自学习和自组织能力实现对说话人语音信号特征分类和识别,其网络权值形成了说话人个性特征的隐式表示,是一种很有前途的识别方法。但网络训练速度、网络训练的收敛性以及识别系统的通用性等方面存在许多问题,沿着这一思路进行说话人识别的研究将依赖于人工神经网络理论的不断成熟和发展。( 2 ) 支持向量机的说话人识别方法支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v n ) 理论源于v a p n i k 在1 9 6 3 年提出的用于解模式识别问题的支持向量方法【2 1 】【勿。这种方法从训练集中选择一组特征子集,使得对特征子集的线性划分等价于对整个数据集的分割。这组特征子集称为支持向量( s v ) 。支持向量机是基于结构风险最小化的机器学习模型。s v m 应用于说话人识别的思路是:每个人作为一类,从每个人的语音信号提取出来的特征向量序列作为各类的输入,训练的结果就是构成多类s v m 的支持向量。识别时,同样提取测试语音的特征向量序列,输入s v m 模型,该模型对每个特征向量作分类,统计特征向量序列中向量的归属类,于哪个类的特征向量最多,那么就把这类对应的说话人作为识别的结果。2 3 基于高斯混合模型的说话人识别系统g m m ( g a u s s i a nm i x t u r em o d e l ) 可以看作一种状态数为1 的连续h m m 模型【2 3 1 ,它的说话人识别系统框图如图2 5 所示:s p e a k e r l图2 5 基于g m m 的说话人识别系统框图1 4第二章基于g m m 与全局背景模型的说话人确认系统2 3 1g m m 腺理高斯混合模型【1 8 1 原理如图2 - 6 所示,模型本质上是多维密度函数,个具有m阶d 维g m m 五中,设观察矢量为x ,则x 在该g m m 下的似然度为:p ( ;i 力) = 啪( ;)( 2 一i )其中,哆是混合加权值,i = i ,m ,满足哆= 1 ;岛( ;) 表示每个混合d 维高斯密度函数,如2 - 2 式:6 f ;) 2 壶e ,币 一j 1 ( ;一万) 7 _ ( ;一万) )c 2 2 )上式鸬表示均值矢量,j 1 表示协方差矩阵。所以如果我t t p _ j , 五表示g m m 的参数,整个高斯混合模型由单个高斯模型的均值矢量、协方差矩阵、混合模型权值共同组成,如下式:名= q ,以,小f = l ,2 ,3 ,m( 2 3 )图2 - 6 高斯混合模型对于说话人识别来说,每个说话人由一个高斯混合模型表示。因为高斯混合模型将一段语音信号的特征以个概率密度函数来表示,自然地,这一个概率函数表示的是这一段语音的共性特征,如果用于训练这个模型的语音足够长,这个模型可以充分体现这个说话人的语音的共性特征。说话人的语音识别中用含有多个有意义状态的第二章基于g m m 与全局背景模型的说话人确认系统h m m ,一段对应一个h 心的语音,一个多状态的h m m 可以表示一段语音中的各个不同的说话内容。如果将高斯混合模型看作是含有一个状态的h 姗,那么含有多个状态的h m m可以表示语音信号的共性特征,即说话内容;含有一个状态的h m m ,也就是g m m ,可以表示语音信号的个性特征,即说话人的特征。2 3 2g m m 模型的参数训练g m m 模型的训练就是估计模型参数五使之最能描述对应于这个模型的说话人的训练语音【1 1 。我们采用最大似然准则更新模型参数,最大似然准则更新模型参数是对于给定的训练语句,使与之对应的g m m 产生它的似然值最大。即对于t 帧训练语音的特征向量,使与之对应的g m m 产生它的概率最大。各个参数的更新值如式2 5 至2 7所示:p ( x i a ) 2 9 p ( 砌i m( 2 4 )权重:石:吾圭加i ;,力)( 2 _ 5 )均值:p “l i f ,五) i万= 弓一( 2 6 )p ( 呖,旯)方差:,p ( f 阮力) 菇一,至;= 专_ 一;( 2 7 )p ( ix 一, ,五)“式( 2 - 5 ) 至( 2 - 7 ) 中:p ( f r 名) :丝止p k b k ( i )k = l( 2 - 8 )系统采用随机初始化的方法来初始化模型,从说话人的训练数据中随机选取m 个向量作为模型均值的初始值,用单位矩阵作为模型的初始方差矩阵。图2 7 为g m m 参数训练框图:1 6第二章基于g m m 与全局背景模型的说话人确认系统2 3 3 识别过程图2 。7 高斯混合模型参数训练对于一组n 个人的说话人辨认系统,由n 个g m m d 【l ,五,厶来表示n 个人。给定观测向量x ,目的是寻找:说话人i + 使得其对应的模型五的后验概率尸( 名jz ) 最大或大于我们设定的阈值。根据b a y e s 理论,最大后验概率可以表示为:p ( 4x ) = 警( 2 - 9 )在上式中:p ( xi 五) = i ja )(2一)_e(x,1 0其对数形式为:7 1l o g p ( x i 丑) = p ( zi 五)f = 1( 2 - 1 1 )假设每个说话人的出现概率相同即1 n ,则p 与模型无关。所以我们只要求:p ( xl 丑) 的最大值就可以了。图2 8 是g m m 模型的说话人识别过程。第二章基于g m m 与全局背景模型的说话人确认系统、。7 1 ,第一个模型的条件概率找出n 个值输出说话人序号x 观测矢量第二个模型h zl 如j的最大值并的条件概率记下相应的序号第n 个模型p ( x l 丸)的条件概率图2 8g m m 模型的说话人识别过程2 4 说话人特征参数的提取提取语音特征参数的目的在于保留反映说话人个性差异的特征,消除其他冗余和无用的信息。对于说话人识别系统来说,语音特征参数的选择和提取,对系统的识别性能有直接的影响【2 4 1 。特征参数提取的选择上应选择能有效的区分不同的说话人,且对同一说话人的变化保持相对稳定。实际上针对不同的应用,不同的特征参数有着不同的用处。要使系统得到好的识别性能,有效的特征参数应具备以下特点:1 ) 可区分性强,能够有效地区分不同说话人2 ) 稳定性好,能稳定的表示同一说话人的特征,不随时间和说话人状

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论