




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)文本无关说话人识别系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说 话人生理和行为特征的语音参数来自动识别说话人身份的技术。根据说话的内 容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面 广的特点,因此本文选文本无关说话人识别为主要研究课题。在文本无关说话 人识别中,g m m 将说话人识别问题转换成对说话人语音数据分布的估计问题, 从而将复杂的语音训练、匹配的问题分解为模型参数的训练,以及概率的计算 等子问题,解决了说话人识别任务中的很多难题。并且由于g m m 具有简单、 灵活、有效的特点以及较好的鲁棒性,迅速成为与文本无关的说话人识别中的 主流技术。 在系统构建方面,本文利用v c + + 实现了一个完整的说话人识别系统,包括 前期的语音处理,特征提取以及后期的模型训练,识别。实现了说话人识别的 两大功能:说话人辨认和说话人确认。在前期语音处理和特征提取方面,使用 了m e l 倒谱系数( m f c c ) 作为特征参数,在说话人模型方法,采用了高斯混 合模型,它使用不同高斯密度的叠加来反映语音的声纹特征。本文的工作主要 有以下几个方面: 1 研究了g m m 性能与训练数据集和测试数据集的依赖关系,特别是 g m m 阶数与训练数据集的关系。验证了在一定的训练集下,g m m 阶 数达到一定时,模型性能就会达到最优,继续增加g m m 阶数将会导致 模型性能下降。 2 分析比较高斯混模型的训练方法包括:区别性训练方法和传统最大似然 估计方法,并通过实验验证了区别性训练方法能够有效地提高说话人识 别性能。 3 本文提出一种新的方法,通过聚类优化g m m ,有效地减少g m m 高斯 分量的数目。通过实验验证该算法能够在不明显降低系统识别率的情况 下,有效地提高说话人识别的速度。 关键词:说话人识别;g m m a b s t r a c t s p e a k e rr e c o g n i t i o ni sak i n do fb i o l o g i c a lc e r t i f i c a t i o nt e c h n o l o g ya n di tm a k e s u s eo ft h es p e e c hc o e f f i c i e n t sw h i c hr e p r e s e n tt h es p e a k e r sp h y s i o l o g i c a la n d p h y s i c a lf e a t u r et oi d e n t i f ys p e a k e r b a s e do nt h ec o n t e x to fs p e e c hs i g n a l ,s p e a k e r r e c o g n i t i o nc a nb ed i v i d e di n t ot e x t - d e p e n d e n ta n dt e x t i n d e p e n d e n t t h i st h e s i s s e l e c tt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o nf o rs t u d yd u et om o r ef l e x i b l ea n d w i d e l ya p p l i c a t i o n i nt h et e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n ,t h eg m m s h i f t st h e p r o b l e mo fs p e a k e rr e c o g n i t i o nt ot h ep r o b l e mo ft h ee s t i m a t i o no fd i s t r i b u t i o no f t r a i n i n gd a t a t h u s ,i td i v i d e sm o r ec o m p l e xp r o b l e m so fd a t at r a i n i n ga n dp a t t e r n m a t c h i n gi n t os o m es i m p l ep r o b l e m s ,s u c ha sp a r a m e t e re s t i m a t i o na n dc o m p u t a t i o n o fp r o b a b i l i t y a l s o ,g m mh a sc h a r a c t e r i s t i c so fs i m p l e ,f l e x i b l ea n dr o b u s t s oi ti s t h e s t a t e - o f - a r ti nt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n i na s p e c to fs y s t e mc o n s t r u c t i o n ,t h i sp a p e rd e s c r i b e st h ei m p l e m e n t a t i o no fa f u l ls p e a k e rr e c o g n i t i o ns y s t e mb yv i s u a lc + + ,i n c l u d i n gs p e e c hs i g n a lp r o c e s s i n g , f e a t u r ee x t r a c t i n g ,m o d e lt r a i n i n ga n dr e c o g n i t i o n i tu s e sm e li j r e q u e n c yc e p s t r a l c o e f f i c i e n t s ( m f c c ) a s f e a t u r ep a r a m e t e r i ta l s ou s e sg m mf o rs p e a k e r m o d e l i n g t h es t u d y w o r ko ft h i st h e s i sh a ss e v e r a la s p e c t s : 1 t h i sp a p e rh a ss t u d i e dt h a tt h ep e r f o r m a n c eo fg m mr e l i e so nt r a i n i n gd a t a a n dt e s t i n gd a t a ,e s p e c i a l l yt r a i n i n gd a t a a n di ti sv e r i f i e db ye x p e r i m e n tt h a t u n d e rl i m i t e dt r a i n i n gd a t a , t h eg m mc a l lr e a c ht h eb e s tp e r f o r m a n c ew i t ha n u m b e ro fg a u s s i a n sa n dw i l lr e d u c et h ep e r f o r m a n c eb yc o n t i n u o u s l yi n c r e a s i n g an u m b e ro fg a u s s i a n s 2 t h i st h e s i sh a st e s t e dd i f f e r e n t t r a i n i n gm e t h o d s ,s u c h a sm a x i m u m l i k e l i h o o dt r a i n i n g ,d i s c r i m i n a t i v et r a i n i n g t h ed i s c r i m i n a t i v et r a i n i n gw a sq u i t e e f f i c i e n tt oi m p r o v et h ep e r f o r m a n c eo f s p e a k e rr e c o g n i t i o nb ye x p e r i m e n t 3 an e wm e t h o dw h i c ho p t i m i z et h eg m mw i t hc l u s t e r i n ga l g o r i t h mf o r g r e a t l yr e d u c i n gn u m b e ro fg a u s s i a n sw a sp r o p o s e db yt h i sp a p e r t h e e x p e r i m e n td e m o n s t r a t et h a tt h i sm e t h o ds p e e du pr e c o g n i t i o nr a t ew i t h o u t e x c e s s i v e l yd e g r a d i n gt h er e c o g n i t i o na c c u r a c y k e yw o r d s :s p e a k e rr e c o g n i t i o n ,g m m 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :才贰工云i a 吕年j 月3 h 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。 厦门大学有权保留并向国家主管部门或其指定机构送交论文的 纸质版和电子版,有权将学位论文用于非赢利目的的少量复制 并允许论文进入学校图书馆被查阅,有权将学位论文的内容编 入有关数据库进行检索,有权将学位论文的标题和摘要汇编出 版。保密的学位论文在解密后适用本规定。 本学位论文属于 1 保密() ,在年解密后适用本授权书。 2 不保密已彳 ( 请在以上相应括号内打“”) 作者签名:赫专工丢1 导师签名:川 叁一一f l , 日期:参t 啄年r 月37 日 日期:a p8 年月f 日 第一章绪论 第一章绪论 随着信息时代的到来,在人类生活的这样一个信息高度交互的社会里,判 定人的身份是一个十分重要的问题。随着社会的不断发展,传统的身份鉴别方 法( 如钥匙、证件、口令、密码等等) 已经不能满足社会的需要,基于生物特 征的身份鉴别技术为我们提供了一种更加方便和可靠的方法,它已经引起了国 内外学术界和企业界的极大关注。说话人识别( s p e a k e rr e c o g n i t i o n ) 属于生物 识别技术的一种。 1 1 研究背景及意义 1 1 1 研究的现实意义 随着生物学和信息学高度发展的2 1 世纪的来临,生物认证技术作为一种更 加便捷、先进的信息安全技术开始在全球电子商务时代崭露头角。这是一种根 据人体自身的生理特征( 如:指纹、手形、脸部、虹膜、视网膜、气味等) 和 行为特征( 如:声音、签名、击键方式等) 来识别身份的技术,它是集光学、 传感器、红外扫描和计算机技术于一身的第三代身份验证技术,能满足现代社 会对身份鉴别的准确性、安全性与实用性的更高要求【l 】。生物认证技术的崛起 得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展, 由于它为身份识别提供了一个可靠的解决方案,其应用前景必定广阔,并能为 构筑2 1 世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。 近年来,在生物认证技术领域中,说话人识别技术以其独特的方便性、经济 性和准确性等优势受到世人瞩目,并同益成为人们日常生活和工作中重要且普 及的安全验证方式。说话人识别属于生物认证技术的一种,是一项根据语音波 形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术【2 1 。 与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不虑 语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信 号中的言语内容,并不考虑说话人是谁,它强调共性。 义奉无关说话人识别系统研究 与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,说 话人识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下 特性1 3 】:( 1 ) 用户接受程度高,由于不涉及隐私问题,用户无任何,i i , 理障碍:( 2 ) 利用语音进行身份识别可能是最自然和最经济的方法之一,声音输入设备造价 低廉,甚至无费用( 电话) ,而其他生物识别技术的输入设备往往造价昂贵;( 3 ) 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与 其他生物识别技术相比,说话人识别更为擅长和得天独厚。 由于与其他生物识别技术相比,说话识别具有更为简便、准确、经济及可 扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于 电信网络的身份识别【4 1 。比尔盖茨认为:“以人类生物特征( 指纹、语音、脸像 等) 进行身份验证的生物识别技术,在今后数年内将成为i t 产业最为重要的技 术革命。 1 1 2 主要的应用领域 早在1 6 6 0 年,英国国王查尔斯一世之死的侦破过程中,就利用了声音作为 找出犯人的线索。1 9 6 6 年美国法院就第一次采用此方法进行取证。随着时代的 进步,在世界范围内说话人识别技术正广泛应用于诸多领域。目前,我国市场 尚属启动阶段,其发展空间更为广阔,在金融、证券、社保、公安、军队及其 他民用安全认证等行业和部门有着广泛的需求【4 1 。目前,说话人识别主要应用 在以下几个方面: ( 1 )民用领域 目前,民用业务对用户所做的身份认证只是采用密码方式,其安全性令人 担忧。如果采用说话人确认技术并结合原来的密码,可安全有效地实现用户身 份的确认,这对用户来说并没有增加任何负担。比如,可供普通家庭使用的声 控电子密码锁;用特定人的声音实现机密场所的出入人员检查;用员工的口令 实现员工考勤管理;在电话服务中,以用户的声音完成查询、交费、转账等业 务,等等。 ( 2 ) 通信领域 在互联网应用及通信领域,说话人识别技术可以应用于诸如声音拨号、电 2 第一章绪论 话银行、电话购物、数据库访问、信息服务、语音e m a i l 、安全控制、计算机 远程登录等领域。在呼叫中心应用上,说话人识别技术同样可以提供更加个性 化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据 话音判断出顾客的身份,从而提供更个性化、更贴心的服务。 ( 3 ) 经济领域 现在人们越来越多地依赖于口令和密码,随着不同场合的频繁应用其缺陷 越发明显。在说话人识别过程中,每次发音都由随机产生的提示文本来控制, 可有效地防止复制和票窃,可以说,说话人识别技术与其他生物识别技术相比 有着明显的优势,可以为日益发展的电子商务、国际贸易保驾护航,且操作方 便、简洁,很容易为广大计算机使用者接受。 ( 4 ) 司法领域 对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在 一段录音中查找出嫌疑人,帮助对嫌疑人的查证。在美国,有关机构还利用这 一技术来判断监外执行人员是否在其寓所中。 ( 5 ) 医学领域 说话人识别可以用于患者的确认;或者,说话人识别系统只响应患者的命 令,从而实现对患者假肢的控制等。 ( 6 ) 军事领域 说话人识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继而 对交谈的内容进行处理。另外,在通过电话发出军事指令时,可以对发出命令 的人的身份进行确认。 1 2 研究历史与现状 说话人识别作为语音识别的一个分支,是伴随着语音识别的发展而发展的。 2 0 世纪6 0 年代贝尔实验室研究人员为自动说话人识别奠定了理论基础,6 0 年代末 7 0 年代初语音信号线形预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的发 展,有效地解决了语音的特征提取和不等长匹配问题。而到了8 0 年代,统计方法 被广泛引入到人工智能的各个领域,隐马尔可夫模型( h i d d e nm a r k o v m o d e l ,h m m ) 是其中的佼佼者。在特定文本的说话人领域取得了较好的成就。 3 文本无关说话人识别系统研究 后来在隐马尔可夫模型的基础上又提出了高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g m m ) ,g m m 在非特定文本的说话人识别领域取得了较突出的成就。另 外人工神经网络技术的发展也给人工智能各个领域提供了新的方法。应用人工神 经网络技术的说话人识别技术也取得了可喜的成就。 目前,说话人辨认已经取得了较好的效果,有比较成熟的产品,而说话人确 认【5 j 由于难度较大目f ; 仍然是研究的热点。 目前声纹识别的实际应用系统有:a t & t 应用说话人辨认技术研制出了智能 卡( s m a r tc a r d ) ,已经应用于自动取款机。欧洲电信联盟在电信和金融领域应 用声纹识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e f i f i c m i o ni nb a n k i n ga n d t e l e c o m m u n i c a t i o n ) 计划,并于同年启动了p i c a s s o ( p i o n e e r i n gc a l l a u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上实现了说话人辨 认。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交 易自助化,声纹识别是其中一个重要组成部分。1 1 r t 公司的s p e a k e r k e y 实现了 电话声音的说话人确认。另外还有k e y w a r e 公司的v o i c e g u a r d i a n ,t - n e t i x 公 司的s p e a k e z 等【6 】。另外还有很多公司和科研院校提供了很多方便的s d k 供研 究者使用。这方面的佼佼者有卡耐基梅隆大学( c m u ) 的s p h i n x 系统,m i c r o s o f t 公司的语音处理s d k 包,剑桥大学的h t k 工具包【7 】等。国内的说话人识别研 究主要由一些大学和研究所在进行。例如:北京大学迟惠生教授领导的科研组、 清华大学吴文虎教授领导的科研组、东南大学陈永斌教授领导的科研组、中科 院自动化所、中科院声学所、北京大学高文教授领导的科研组等。 为了评估当今说话人识别技术的进步水平,美国国家标准及技术署( n a t i o n a l i n s t i t u t eo fs t a n d a r da n dt e c h n o l o g y , n i s t ) i s , 9 自1 9 9 6 年起开始举办每年一度的 说话人识别评钡l ( s p e a k e rr e c o g n i t i o ne v a l u a t i o n s ,s r e ) ,它为参加者提供统一 的电话语音数据和测试平台,并交流探索说话人识别中较有前途的新思想、新 途径。自1 9 9 6 年起,累计有4 0 多个国际著名研究机构和大学参加评测包括 m i tl i n c o l nl a b 、u s t c s s i p ( s p e e c hs i g n a l & i n f o r m a t i o np r o c e s s i n g ) 、m m r e s e a r c h 以及s t a n f o r dr e s e a r c hi n s t i t u t e 等著名的计算机科学研究机构和大学, 其技术水平代表了当今与文本无关的说话人识别技术的最高水准。 4 第一章绪论 1 3 热点和难点 1 3 1 说话人识别热点 由于应用的需求和数字信号处理技术的飞速发展,说话人识别的研究越来 越被人们所重视。在国际声学、语音和信号处理会议( i n t e r n a t i o n a lc o n f e r e n c eo n a c o u s t i c ,s p e e c ha n ds i g n a lp r o c e s s i n g ,简称i c a s s p ) 论文集中,每年都有关于 兑话人识别的专题。说话人识别的研究已经逐渐从实验室走向实际应用,目前, 兑话人识别的研究主要集中在以下几个方面: ( 1 ) 语音特征参数的提取和结合,语音特征参数对说话人识别系统的性能 至关重要,虽然倒谱参数得到广泛应用,但语音特征参数仍是一个研究热点。 寻找新的有效的语音特征参数以及和已有特征参数的有效组合是语音特征参 数研究的两个方向。 ( 2 ) 在识别技术方面,不同模型相结合,改善说话人识别系统的性能。如 h m m 模型与神经网络,g m m 模型与支持向量机s v m t m l ( s u p p o r tv e c t o r m a c h i n e ) 的结合都可以有效地改善系统的性能。高斯混合模型方面,模型参数 估计方法的改进,减少模型运算量及算法复杂度的研究。矢量量化方面,量 化方法的鲁棒性及改进算法。各种模型训练方式方面,包括各种非区别性训 练方法和区别性训练方法等的提出和改进等。 ( 3 ) 信道噪声消除技术,由于不同信道对识别的效果影响很大,所以各种 信道差异消除技术也是研究的热点,如各种归二化技术o ( 4 ) 与文本无关的说话人识别是当今说话人识别的一个热点和难点。 1 3 2 说话人识别难点 虽然说话人识别已进入实用阶段,但仍然存在以下诸多难点: ( 1 ) 声纹特征很难独立提取出来。人类的语音包含了声纹,内容,音量等 众多信息,目前还没有太好的技术能够把说话人的个性声纹特征很好的独立 提取出来。 ( 2 ) 人的个性声纹特征会因为不同的时间,不同的年龄,不同的身体状况 而发生一定的改变。 文奉无关说话人识别系统研究 ( 3 ) 各种电子录音设备会带来噪音,影响识别准确率。虽然目前有很多信 道差异消除技术,但是信道对识别效果的影响依然存在。 ( 4 ) 声音容易被模仿,人们可以通过模仿,语音合成等多种手段模仿别人 的声音。怎样区分真实的语音与模仿的语音也是说话人识别的难点之一。 1 4 论文的内容安排 本文的结构安排如下:第一章绪论。主要介绍了说话人识别的研究背景及 意义,历史与现状,热点与难点和本文的内容安排。第二章说话人识别技术概 述。主要介绍了说话人识别基本原理,基本类型,常用识别方法以及性能评价 指标。第三章语音信号处理。主要介绍了语音信号预处理的过程,包括采样量 化,预加重,分帧,加窗,端点检测等,语音信号的特征参数提取,主要介绍 m e l 频率倒谱系数( m f c c ) ,最后介绍了语音特征的选取和评价。第四章高斯 混合模型在说话人识别中的应用。主要介绍了基于高斯混合模型的说话人识别 系统的原理,高斯混合模型参数估计以及具体应用。第五章系统实现与实验结 果。主要进行基于高斯混合模型说话入识别系统的实验,包括高斯混合模型阶 数对系统性能的影响,训练集大小,测试集大小对系统性能的影响,区别性训 练,以及聚类优化g m m 。第六章总结全文与展望。 6 第二章说话人识别技术概述 第二章说话人识别技术概述 说话人识别,又称为声纹识别,是由计算机利用语音波形中所包含的反映 特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技术。说 话人识别涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发 音习惯之间的个性差异等不同级别上的差异,因此说话人识别是一个跨学科的 综合性应用领域,它涉及到语音学、语音信号处理、模式识别与人工智能等学 科。本章对说话人识别的基本原理、分类、常用方法、性能评价指标等做了一 些简单介绍。 2 1 基本原理 说话人识别技术是指通过计算机自动识别测试语音说话人身份的技术,最 基本的原理是将测试语音的说话人模型特征与已有的训练好的模型进行匹配, 从而来判断是具体哪个说话人或判断是否是某个被指定的说话人。说话人识别 与通常所说的语音识别有很大的区别。语音识别关注的是说话人说的内容,而 不在乎这话是谁说的;相反,说话人识别却是判断这话是谁说的,而忽略说的 是什么话。因此,语音识别强调的是所说的内容,而淡化说话人的音色音质等 特征因素;说话人识别着重的是说话人的声道变化和说话的习惯等个性特征。 说话人识别技术主要分为以下几个步骤【6 1 : ( 1 )语音信号的前期处理与特征提取。主要分为预加重,加窗,特征提取等 几个步骤。 ( 2 )说话人模型的建立和模型参数的训练,包括各种不同的模型及其训练方 法等。 ( 3 ) 测试语音与说话人模型的匹配距离计算。 7 文本无关说话人识j ;0 系统研究 2 2 基本类型 说话人识别( s p e a k e rr e c o g n i t i o n ) 按照任务可以分为两个范畴:即说话人 辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。说话人辨认 【1 1 1 是指通过一段语音从注册的有限说话人集合中分辨出其身份的过程,是“多 选一 的问题。说话人确认f 5 1 是证实某一说话人是否与他所声称的身份一致的 过程,系统只需给出接受或拒绝两种选择,是“一对一判别”的问题。 ,一。”、 ii , k i f i 裔: 、。_ p r 7 “ 射l 似性。一 1 r “ ,一一。- 。, 厂参考援疑、 ( 设话入钿) 、一,_ _ _ h l r ,_ 图2 1 :说话人辨认 墩大选取一鼍派磊凌一、 。( 说诱人i d ) - ,h 一 f h 喃i - _ _ - _ _ - - - _ _ - - _ _ - - _ - _ _ - _ - - _ _ - ( 输入讲爵h 特撅握擞卜一 艇i 似性卜_ 叫判次 i 、“一- _ l _ - 一o r 。一- 。r 一 t 三卜 ) ( ;:爹 图2 2 :说话人确认 根据说话人识别测试语音的内容是否是特定的文本,又可以将说话人识别 分为文本相关( t e x t d e p e n d e n t ) 说话人识别和文本无关( t e x t i n d e p e n d e n t ) 说话人 识别。文本相关的说话人识别是指测试者读一段事先约定好了的文本内容,然 第一二章说话人识别技术概述 后再来进行说话人辨认或确认,文本无关是指测试语音的内容可以是任意的, 显然,文本无关的说话人识别更有实际应用价值,当然在难度上也会比文本相 关的说话人识别要难得多。 2 3 常用识别方法 2 3 1 模板匹配法 模板匹配技术是模式识别中最常用的一种相似度计算与匹配方法。使用模 板匹配方法的要点是,在训练过程中从每个说话人发出的训练语句中提取相应 的特征矢量,这些特征矢量能够充分描写各个说话人的行为。这些特征矢量称 为各说话人的模板。它们可以从单词、数字或句字中提取。在测试阶段,从说 话入发出的语音信号中按同样的处理法提取测试模板,并且与其相应的参考模 板相比较。在模板匹配方法中可使用多种距离尺度,欧式距离和马式距离是经 常使用的两种。这种方法对信号或背景噪声的变化特别敏感。上述两种变化可 改变说话人的特征,导致均值的漂移。 2 3 2 矢量量化方法 矢量量化是一种极其重要的数字处理方法,己广泛应用于图像压缩、语音 压缩等领域。所谓矢量量化是将若干个幅度连续取值的时域采样信号分成一组, 即构成矢量,然后用若干离散的数字值( 或标号) 来表示各种矢量。用矢量量化 方法识别说话人的过程如下:对某一说话人,其训练语音的特征矢量序列通过 聚类算法可以聚为m 类,求每类中所有矢量的均值( 或选择类中的一个成员) 就 得到了每类的码本矢量,m 个码本矢量构成了该说话人的矢量量化模型。在识 别过程中,将待识别语音的每一特征矢量到某一说话人的m 个码本矢量的一个 最小距离进行累加,累加和最小的说话人作为识别结果。矢量量化方法具有很 好的分类特性,能通过对长时语音特征参数统计信息的量化来区分不同说话人, 同时还能有效地压缩数据,因而用它建立识别模型,数据量少,训练时间短, 识别响应快。尽管矢量量化方法被成功地应用于在说话人识别中,但在矢量 量化模型中,聚类的矢量仅用一个中心来表示,且各个码本对距离的贡献相等, 9 文奉无关说话人识别系统研究 由此可见,非参数模型对说话人特征的描述尚欠细致。 2 3 3 隐马尔可夫模型方法 每一说话人的语音特征都是随着时间的变化而变化的,如果将这种特征的 变化过程用状态间的转移来描述,就构成了说话人的隐马尔可夫模型 1 2 1 ( h m m ) 。测试时,将测试语音作为观察值,将说话人模型作为隐含状态,测 试语音在每个说话人模型下都有一个条件概率,取条件概率最大的说话人模型 作为测试语音的说话人识别结果。经研究证明,h m m 对文本相关 ( t e x t - d e p e n d e n t ) 的说话人识别效果较好。 2 3 4 高斯混合模型方法 由于每一个说话人的语音特征在特征空间中都形成了特定的分布,所以可以 用这一分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线性组合 近似说话人的特征分布,将最能够产生测试语音特征的说话人分布模型所对应 的说话人作为识别结剽5 1 。对于高斯混合模型,训练时,为每一个人的语音建 立一个模型,训练的目的本质上是估计这个模型参数的过程,当所有人训练结 束后,保留每个人对应的参数;识别时,将未知语音与每个人的参数相结合, 求出与每个人相对应的似然函数,其中对应最大似然函数的说话人被认为是识 别结剁”】。经研究证明,g m m 对文本无关( t e x t i n d e p e n d e n t ) 说话人识别效 果较好。本文主要采用g m m 方法进行实验。 2 3 5 人工神经网络方法 虽然参数模型和非参数模型方法都已成功地用于说话人识别,然而这些方 法都达不到人脑的识别水平。人工神经网络【1 4 】可在一定程度上模仿人脑的功能, 它为说话人识别提供了一个新的途径,说话人识别使用过的神经网络类型较多, 前向神经网络以其结构简单、分类性能较好在说话人识别中获得了广泛的使用。 多层前向神经网络是映射型神经网络,可完成从说话人特征空间向说话人集合 的映射。说话人识别使用的前向神经网络多为b p 网络和r b f 网络,而基于逐 级判决思想,将单个神经网络进行组合而成的级联神经网络也已应用于说话人 1 0 第二章说话人识别技术概述 识别。 目前,使用神经网络进行说话人识别所面临的问题是,如果使用一个网络 作为分类器,当待识别的人群( n ) 改变时,网络的结构( 至少输出神经元个数) 将 随之改变,需要重新对网络进行训练。再者,当n 增大时,神经网络的训练时 间以指数增大,理论上当n 无限增大时,将无法完成神经网络的训练。解决这 一问题的方法是将单个大网络化成许多完成部分功能的子网络,再将各个子网 络进行组合来完成大网络的功能。r u d a s il 等人和k e v i nrf 等人已用b p 网络 分别尝试了说话人识别的两分网络方法和神经树网络方法。 2 3 6 支持向量机 支持向量机方法【l5 】是建立在统计学习理论的v c 维理论和结构风险最小原 理基础上的,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习 精度) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折中,吐 期获得最好的推广能力。支持向量机方法的几个主要优点有:它是专门针对有 限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本趋于无穷大 时的最优值;算法最终将转化成为一个二次型寻优问题,从理论上说,得到的 将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;算法将 实际问题通过非线变换转换到高维的特征空间,在高维空间中构造线性判别函 数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能力, 同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。s v m 已经成功 地应用到模式识别领域中,并表现出良好的性能,成为研究的新热点。 4 说话人识别性能评价指标 2 4 1 说话人辨认系统的评价 说话人辨认系统的性能可以直接用错误率e i d 或正确率c m 来表示: e l d = n 酐7n i o l 上洒= ,l ,胛幻f ( 2 1 ) ( 2 2 ) 式中,刀幻,、刀甜、和r l c o r 分别表示总测试数、错误数和正确数。不同的说话人和 不同的环境下的错误率可能会不同,但是基本的性能评价是一致的。 文本无关说话人识别系统研究 2 4 2 说话人确认系统的评价 说话人确认实际上是检测问题,有许多评价检测系统性能的约定和方法。 1 漏警和虚警 检测系统的性能通常用两种错误来表征,即错误拒绝率( f r r ) 或漏警错误率 ( m i s sp r o b a b i l i t y ) 和错误接受率( f a r ) 或虚警错误率1 6 i ( f a l s ea l a r mp r o b a b i l i t y ) 。 分别表示当目标说话人存在时未能检测出的概率。和当目标说话人不存在时 错误检测出的概率e f a 。这些评价可以由下面的公式来计算: 厶协= n 珊心,l 细删 ( 2 3 ) 式中,甩细倒和n m i s s 分别为目标说话人实验的次数和目标说话人被错误检出 的次数。 = 坳行咖舸 ( 2 4 ) 式中,n i m p o s t e r 和胛危分别为非目标说话人实验的次数和非目标说话人被错误 检出的次数。 2 错误率 漏警错误率和虚警错误率虽然可以较好地表示系统的性能,但是并不能提 供一个单一的数字来表示性能。等错误率( e q u a t ee r r o rr a t e ) 将漏警率和虚警 率结合起来成为一个单一的数字,通过寻找二者相等的点的判决阈值的方法。 当然,该方法只在判决阈值可调的情况下适用。将横坐标为f a r ,纵坐标为f r r 的曲线称为d e t 1 6 1 ( d e t e c t i o ne r r o rt r a d e o f f ) 曲线。d e t 曲线上f r r 与f a r 相等的点称为等错误率e e r ( e q u a t ee r r o rr a t e ) ,我们一般用e e r 来衡量说话 人确认系统的性能。 1 2 第二章说话人识别技术概述 锈 露 警 握 acb 阁筑 图2 3 :说话人确认系统阈值和错误率关系 图2 4 :d e t 曲线 3 检测代价函数 在实际使用中,不同类型的错误所造成的损失往往是不同的,比如在安全 性要求较高的环境下,错误接受所造成的损失往往大于错误拒绝所造成的损失。 因此通常在说话人识别评测中还使用这样的评价函数:检测代价函数 t s l ( d e t e c t i o nc o s tf u n c t i o n ,d c f ) ,用公式表示为: d c f = c 矿幸f r + c 加* f a 宰 ( 2 5 ) 其中c 厅和c 廊分别是错误拒绝和错误接受的代价,兄,和则分别是真实说话 文本无关说话人识别系统研究 人和冒认者出现的先验概率,例如在n i s t 2 0 0 4 年的评测任务中,定义= 1 0 , = 1 ,圪,= o 0 1 ,= 0 9 9 。这样,在实际的评估中,只要给定一个阈值,就 会得到相应的f a 和f r ,带入上式就会得到相应阈值下的实际检测代价。 1 4 第三章语音信号处理 3 1 语音信号前期处理 窗。 第三章语音信号处理 语音信号前期处理主要包括:采样与量化、预加重、端点检测、分帧和加 3 1 1 采样与量化 首先将模拟信号s ( t ) 以采样周期t 进行采样,将其变成一个个离散信号,采 样周期可根据实际需要来确定,一般在说话人识别中采样频率为8 k 或1 6 k 。 采样由于将连续的语音离散化,所以会带来一定的失真,但一般人耳很难分辨 出来。采样与量化发生在录音的时候,如果是对已经录好音的文件进行处理, 实际上已经跳过了采样与量化这一步。 3 1 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,为此要进行预加重。预加重的目的是将更为有 用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的 整个频带中,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。 预加重一般用具有6 d b 倍频程的提升高频特性的数字滤波器来实现,其z 传递 函数为: h ( z ) = 1 一眈一 ( 3 1 ) 口称为预加重系数,一般取0 9 o r 1 。本文取口= 0 9 7 假设在n 时刻语音采样值为x ( n ) ,则经过预加重处理后的结果为: y ( 刀) = 工( 刀) - a x ( n - 1 ) ( 3 2 ) 文奉无关说话人识别系统研究 3 1 3 端点检测 端点检测就是对输入语音信号进行判断,从背景噪声中准确找出语音段的 起始点和终止点。有效的端点检测不仅能消除无声段的噪音,而且还可以使处 理语音信号的时间减到最小。目前的端点检测技术大都是基于语音信号的时域 特征来进行的,一般常采用两种时域特征:短时能量和短时过零率,通过设定它 们的门限来进行检测。 在说话人识别系统中,正确确定语音段端点不仅可以减少计算量,而且可 以提高说话人识别的正确率。语音端点检测算法的一般步骤如下: ( 1 ) 语音信号分成相邻有重叠的语音段,称为语音帧; ( 2 ) 采用一种判决准则,如门限判决或模式分类,来检测语音帧和非语音帧; ( 3 ) 对上述结果进行处理,得到语音段的全部区间。 人的语音分清音和浊音两种,浊音为声带振动发出,如“a o 等元音, 对应语音信号有幅度高、周期性明显等特点;而清音则不会有声带的振动,只 是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量一般比较小,如声 母“s “c 等的幅度很低,往往被基于能量的算法漏过去。但是静音段的波形 变化相对比较缓慢,而在清音段,由于口腔空气摩擦的效果,所造成的波形在 幅度上的变化比较剧烈,通常可以用一帧信号中波形穿越零电平的次数来描述 这种变化的剧烈程度,称为过零率。设s ( n ) ( 其中n = 0 ,1 ,n 1 ) 表示一帧语音信 号。那么这帧语信号的短时能量为: e = n - 5 2 ( ,1 ) 1 短时过零率为: z = 三 薯l s g n b ( 刀) 】一s g n b ( 咒一) 】) 其中s g n b ( 胛) 】= ls ( 疗) o ,s g n b ( 以) 】= 1s ( ,1 ) o 。 3 1 4 分帧 ( 3 3 ) ( 3 4 ) 由于语音信号的准平稳特性,使得只在短时段上才可视为是一个平稳过程, 1 6 第三章语音信号处理 所以绝大部分的说话人识别系统都是建立在短时谱分析的基础上,把一定长度 的语音分为许多帧来分析。可以用对平稳过程的分析方法进行分析,因此需要 将语音信号划分为一个一个的短时段,每一短时段称为一帧,每一帧的长度大 概为1 0 3 0 m s 。分帧可以采用连续分段的方法,但为了使帧与帧之间平滑过渡, 保持其连贯性,一般采用交叠分段的方法,即每帧的帧尾与下一帧的帧头是 重叠的。 3 1 5 加窗 为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起 急剧变化而平滑过渡到零,就要让语音帧乘以一个窗函数。设帧信号为x ( n ) , 窗函数为以,1 ) ,每帧的取样点数n ,则加窗后的信号j ,( ,1 ) 为: y ( 以) = 工( 咒) 木以咒) ,0 n n ( 3 5 ) 目前常用的窗函数主要有以下几种: 方窗( r e c t a n g u l a rw i n d o w ) 以咒) = 器材 ( 3 6 ) 哈明窗( h a m m i n gw i n d o w ) 州= p 觚甓, 【一 。 哈宁窗( h a r mw i n d o w l 州= 伊啪s 诤 【 ( 怄删) ( 其傅 ( 呕聒- 1 ) ( 其他) 一般情况下,使用哈明窗的机会较多。 3 2 基音周期 ( 3 7 ) ( 3 8 ) 基音周期是指发浊音时声带震动所引起的周期运动时间间隔。基音周期是 声带振动频率的倒数,它不仅是语音信号分析的一个重要参数,也是语音产生 1 7 文本无关说话人识别系统研究 的数字模型中激励源的一个重要参数,因此它的检测和估计是语音处理中一个 十分重要的问题。 基音周期的检测方法有很多,常用的是中心削波技术。在发浊音时,基音 周期不仅有时变性,而且复合在复杂信号中,用短时自相关函数将其周期性的 峰值突现出来。对于估计基音周期真正有用的只是出现在基音周期处的自相关 峰,其余较低的峰都是多余的;有用的自相关峰是由于语音信号中的一些最高 峰形成的,这些最高峰是由于准周期激励脉冲产生的;无关的峰是声道对激励 脉冲产生的响应。基于这种认识,完全可以采用中心削波器去掉语音信号中所 有低振幅部分而保留高振幅的峰值。 由于语音信号变化十分复杂,声门激励波形并不是一个完全
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 邮轮客古风舱房空间设计
- 市政工程社会形态试题及答案
- 完整的中级经济师试题及答案解析
- 2025年市政工程考试备考方法试题及答案
- 眼科护理管理课件
- 2025年公共关系学重要考试试题及答案
- 农村旅游开发合作协议与规划指导
- 土地轮作与利用合同
- 家具店货物采购协议
- 医疗行业试题集健康科普知识点
- 山西开放大学2024年《学前儿童心理健康教育》形成性考核测试1-4答案
- (2024年)面神经炎课件完整版
- 《中医常用护理技术基础》课件-一般护理-第一节病情观察
- 微波技术在气象观测中的应用
- 《鱼类知识》课件
- 4、《通向金融王国的自由之路》
- 2024年辽宁大连市西岗区社区工作者招聘笔试参考题库附带答案详解
- 电能质量技术监督培训课件
- 江西省宜丰县圳口里-奉新县枧下窝矿区陶瓷土(含锂)矿勘查环评报告
- 《平衡记分卡BSC》课件
- 防病毒 应急预案
评论
0/150
提交评论