




已阅读5页,还剩59页未读, 继续免费阅读
(计算机科学与技术专业论文)基于svm和gmm的说话人辨识方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 i lll li iii tj i l li ii i y 18 8 0 0 3 8 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:隘 日期:兰旦! 峰复旦丝日 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) 洙船导师( 签名季彳日期知f 陴6 月卅馏 武汉理工大学硕士学位论文 摘要 说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自 动识别出相应说话人的过程。它是语音信号处理的一个重要研究方向,作为一 种生物认证技术,具有广泛的应用前景,促使越来越多的人对其进行研究。 目前,基于闭集的说话人识别已经取得了比较好的进展,但是基于开集的说 话人识别的识别性能还有待提高。开集和闭集是对测试说话人集的一种划分, 当测试的说话人集合仅局限在训练集内时,称其为基于闭集的说话人识别;当 测试的说话人集合没有训练集限制,任何话者,不论训练与否,均能作为测试 集合中的一员,则称其为基于开集的说话人识别。基于开集的说话人识别,不 同于闭集说话人识别的关键是开集说话人识别不仅要对测试话者是否是训练集 内的话者进行判断,而且若是训练集内的话者,则还要对其进行识别,识别出 其是集内的哪个话者。 本文致力于对基于开集说话人识别的研究,提出了一种新的识别方法,即基 于s v m 和g m m 的说话人辨识方法。说话人辨识是指对说话人进行分辨和识别, 分辨测试话者是否是训练集内话者,若是训练集内话者则还要识别出其是训练 集内的哪位话者。用到的模型是s v m g m m 模型,该模型是结合了支持向量机 ( s v m ) 和高斯混合( g m m ) 两种模型。 支持向量机模型是以统计学习理论中v c 维理论和结构风险最小原理为基 础,根据有限的样本信息在模型的复杂性与学习能力之间寻求最佳折中,获得 了较好的推广能力。大量的实验已经证实支持向量机有着优秀的分类能力,基 于此,本研究将其选为第一步粗分类模型。而高斯混合模型是用多个高斯分布 的线性组合,拟合说话人的特征分布。它能很好的描述说话人语音特征的内部 的相似性。前人的研究也表明该模型是在说话人确认系统表现出良好的性能。 故本研究选用高斯混合模型作为第二步精细的确认模型。 在识别阶段,首先用支持向量机模型对测试的话者进行粗分类,然后再用高 斯混合模型对分类结果进行确认,判断测试话者是否就是其在粗分类中所分到 的类别。若是,则表明该测试话者就是其所分到类别所对应的话者;若否,则 表明该测试话者是训练集外话者。本研究就是通过这种方法来实现对说话人进 行分辨的。 实验表明,本研究所提出的方法是有效的,能有效的提高对集外话者的分辨率。 关键字:说话人识别,高斯混合模型,支持向量机模型,开集说话人识别,闭 集说话人识别,确认阈值。 武汉理工大学硕士学位论文 a b s t r a c t s p e a k e rr e c o g n i t i o n i sap r o c e s so fi d e n t i f y i n gt h e c o r r e s p o n d i n gs p e a k e r , a c c o r d i n gt o t h ep a r a m e t e r sw h i c hr e p r e s e n tt h e p h y s i o l o g i c a l a n db e h a v i o r a l c h a r a c t e r i s t i c so ft h es p e a k e r sv o i c e a sab i o m e t r i ca u t h e n t i c a t i o nt e c h n o l o g y , i ti s a l li m p o r t a n tr e s e a r c hd i r e c t i o no ft h es p e e c hs i g n a lp r o c e s s i n g , w i t haw i d er a n g eo f a p p l i c a t i o n s ,p r o m p t i n gm o r ep e o p l et os t u d yi t a t p r e s e n t ,t h es p e a k e rr e c o g n i t i o n b a s e do nt h ec l o s e d s e th a sb e e n m a d er e l a t i v e l yg o o dp r o g r e s s b u tt h er e c o g n i t i o np e r f o r m a n c eo ft h es p e a k e r r e c o g n i t i o nb a s e d o na n o p e n - s e tn e e d s t ob ei m p r o v e d t h eo p e n - s e ta n dt h e c l o s e d s e ti sap a r t i t i o na c c o r d i n gt ot e s t i n gs e t so fs p e a k e r w h e nt h et e s t i n gs e t o fs p e a k e r si sas u b s e to ft h et r a i n i n gs e t ,i ti sc a l l e dt h es p e a k e rr e c o g n i t i o nb a s e do n t h ec l o s e s e t w h e nt h et e s t i n gs e ti sn o tr e s t r i c t e db yt h et r a i n i n gs e t ,n om a t t e ri f t r a i n i n go rn o t ,i ti sc a l l e dt h es p e a k e rr e c o g n i t i o nb a s e do nt h eo p e n - s e t t h es p e a k e r r e c o g n i t i o nb a s e do nt h ec l o s e - s e ti sd i f f e r e n tf r o mt h es p e a k e rr e c o g n i t i o nb a s e do n t h eo p e n - s e t b e s i d e st h ed i f f e r e n tt e s t i n gs e t , t h ek e yo r i g i no ft h ed i f f e r e n c ei st h e m e t h o do fr e c o g n i t i o n t h e r ei st w op a r to ft h er e c o g n i t i o nb a s e do nt h eo p e n - s e t o n ei st h a tj u d g i n gt h et e s t i n gs p e a k e ri sw h e t h e ram e m b e ro ft r a i n i n gs e t , a n o t h e ri s i d e n t i f y i n gt h et e s t i n gs p e a k e ri sw h i c hs p e a k e ri nt r a i n i n gs e t t h i st h e s i si sc o m m i t t e dt ot h es p e a k e rr e c o g n i t i o nb a s e do nt h eo p e n - s e ta n d p r o p o s e san e wr e c o g n i t i o nm e t h o d ,w h i c hi sb a s e do ns v m a n dg m m t h es p e a k e r d i s t i n g u i s ha n dr e c o g n i t i o nc o n t a i n st w op a r t s ,o n ei st h es p e a k e rd i s t i n g u i s ha n d a n o t h e ri st h es p e a k e rr e c o g n i t i o n t h es p e a k e rd i s t i n g u i s hi st od i s t i n g u i s ht h et e s t i n g s p e a k e ri sw h e t h e ram e m b e ro ft r a i n i n gs e t i fi t i st r u e ,t h es p e a k e rr e c o g n i t i o n n e e d st ob ec a r r i e do u t t h ei m p l e m e n t a t i o ni sb a s e do ns v m - g m mm o d e l ,w h i c hi s am i x e d m o d e lo ft h es u p p o r tv e c t o rm a c h i n e ( s v m ) a n dt h eg a u s s i a nm i x t u r em o d e l ( g m m ) s u p p o r t v e c t o rm a c h i n e m o d e li sb a s e do ns t a t i s t i c a l l e a r n i n gt h e o r y , v c d i m e n s i o na n ds t r u c t u r a lr i s km i n i m i z a t i o nt h e o r y o nc o n d i t i o no fl i m i t e ds a m p l e i n f o r m a t i o n ,t h em o d e la i m so ff i n d i n gt h eb e s tc o m p r o m i s eb e t w e e nc o m p l e x i t ya n d l e a m i n ga b i l i t yt o o b t a i nag o o dg e n e r a l i z a t i o n al a r g en u m b e ro fe x p e r i m e n t s i i 武汉理工大学硕士学位论文 h a v ec o n f i r m e dt h a tt h es v mw i t ha l le x c e l l e n tc l a s s i f i c a t i o na b i l i t y b e c a u s eo f t h i s , t h em o d e lh a sb e e ns e l e c t e da st h ef i r s ts t 印i i li t sr o u g hc l a s s i f i c a t i o nm o d e l t h eg a - - u s s i a nm i x t u r em o d e li sal i n e a rc o m b i n a t i o no f m u l f i p l eg a u s s i a n , f i t t i n gt h e c h a r a c t e r i s t i cd i s t r i b u t i o nc h a r a c t e r i s t i cd i s t r i b u t i o no ft h e s p e a k e r i t i sg o o da t e x p r e s s i n gt h ei n t e r n a ls i m i l a r i t yo ft h es p e a k e rv o i c ec h a r a c t e r i s t i c s t h ep r e v i o u s s t u d i e sh a v es h o w nt h a tt h em o d e lh a s g o o dp e r f o r m a n c ei n t h es p e a k e r v e r i f i c a t i o ns y s t e m t h e r e f o r e ,t h eg a u s s i a nm i x t u r em o d e li s t h e s e c o n d s o p h i s t i c a t e dm o d e l i nt h er e c o g n i t i o np h a s e ,f i r s t l y , t h et e s t i n gs p e a k e ri sc l a s s i f i e db ys u p p o r t v e c t o rm a c h i n e m o d e lf i r s t l y t h e n ,t h er e s u l to fc l a s s i f i c a t i o ni sv e r i f i e db yg a u s s i a n m i x t u r em o d e l ,d e t e r m i n i n gw h e t h e rt h et e s t i n gs p e a k e ri si t sc l a s s i f i c a t i o ni nt h ef i r s t s t e p i fs o ,i ti n d i c a t e st h a tt h et e s ts p e a k e ri sa s s i g n e dt oc a t e g o r i e sc o r r e s p o n d i n g t ot h e i rs p e a k e r ;i fn o t , t h et e s t i n gs p e a k e ri sa s p e a k e ro u t s i d eo ft r a i n i n gs e t t h i s s t u d yw a st oa c h i e v et h ed i s t i n g u i s h e ds p e a k e ri nt h i sw a y e x p e r i m e n t ss h o wt h a tt h ep r o p o s e dm e t h o di nt h et h e s i si se f f e c t i v ea n dc a n i m p r o v et h er a t eo fd i s t i n g u i s h i n gt h es p e a k e ro fo u t s i d eo ft r a i n i n gs e te f f e c t i v e l y k e y w o r d s :s p e a k e rr e c o g n i t i o n ,g a u s s i a nm i x t u r em o d e l ,s u p p o r tv e c t o rm a c h i n e ,t h e o p e n - s e ts p e a k e rr e c o g n i t i o n ,t h ec l o s e - s e ts p e a k e rr e c o g n i t i o n ,v e r i f i c a t i o nt h r e s h o l d i 武汉理工大学硕士学位论文 目录 第1 章绪论 1 1 课题研究的背景与意义1 1 2 说话人识别的研究与发展2 1 3 本课题研究的主要工作4 1 4 论文组织结构4 第2 章说话人辨识 2 1 说话人识别概述6 2 2 说话人识别的基本原理6 2 3 说话人识别的基本方法7 2 4 本章小结。9 】 第3 章语音信号的预处理和特征提取 3 1 语音信号的预处理l o 3 1 1 预加重。l o 3 1 2 加窗分帧1 0 3 1 3 端点检测:。l l 3 2 特征提取1 3 3 2 1m f c c 特征参数1 4 3 2 2m f c c 特征参数提取。1 7 3 3 本章小结一18 第4 章支持向量机。1 9 4 1 统计学习理论与支持向量机1 9 4 2s v m 的基础理论2 l 4 2 1 线性判决边界2 2 4 2 2 非线性判决边界2 5 4 3s v m 的多类分类方法2 7 4 4s v m 在说话人识别中的应用2 9 4 4 1s v m 在说话人辨认中的应用3 0 4 4 2s v m 在说话人确认中的应用3 0 4 5 本章小结3 1 i v 武汉理工大学硕士学位论文 第5 章高斯混合 5 1 模型描述 5 2 高斯混合模型参数估计 5 2 1e m 算法原理 5 2 2e m 算法估计g m m 参数 5 3 高斯混合模型在说话人识别中的应用 5 3 1 高斯混合模型应用于说话人辨认 5 3 2 高斯混合模型应用于说话人确认 5 3 3 确认阈值的选取 5 4 本章小结 第6 章基于s v m g m m 的说话人辨识 3 2 。:3 3 3 4 3 4 3 7 3 7 3 9 3 9 4 1 6 1 本课题所要解决的问题 6 2s v m g m m 模型 6 3 实验与分析 6 3 1 实验过程 6 3 2 实验结果与分析 6 4 本章小结 第7 章总结与展望 7 1 总结 7 2 展望 参考文献 j i 女:谢 4 2 4 3 4 5 4 5 4 9 5 1 5 2 5 2 5 3 5 7 攻读硕士学位期间发表的论文和参加科研项目情况5 8 v 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究的背景与意义 语言是人类进行交流的一种工具,语音作为语言的载体必然包含有大量不 同层面的信息。对语音的研究,不论是在学术的综合性上还是在实用性上,都 有着深远的意义。近二十多年中,对语音处理方面的研究取得了重大进展。从 这些年的研究来看,对语音处理的研究基本上可以分为四大分支语音合成、 语音编码、语音识别以及说话人识别。这四大分支在各自的领域都蓬勃发展。 本课题研究的是语音处理中说话人识别这个分支。 说话人识另l j ( s p e a k e rr e c o g n i t i o n ,s r ) ,属于生物特征识别技术的一种,是指 从说话人的一段语音中提取说话人的个性特征,通过对这些个性特征的分析和 识别,达到对说话人辨识或确认目的【1 1 。说话人识别是对说话人进行自动识别的 一种技术,它的出发点是语音中包含的表征个性的特征,而不考虑语音中所包 含的语义信息,从语音信号中提取说话人的个性特征信息,然后对个性特征进 行匹配以达到识别说话人的目的。说话人识别与指纹识别、虹膜识别等一样, 同属于生物识别。 众所周之,语音是人天生的自然特性,由于发音器官的原因使得每个人的 语音都有自己的不同于别人的语音个性特征。这个个性特征实质上一种生物特 征。从这一点来讲,通过语音对身份进行鉴别是可行的,因为语音这种生物特 征具有唯一性。说话人识别就是一种通过语音的生物特征对说话人进行身份鉴 别的过程。 身份鉴别,在当今的信息化时代中,已经成为人们日常生活和工作中不可 或缺的一部分。日常生活中,最常用对身份进行鉴别的方式是口令或者密码, 但是这种方式不仅容易被使用者遗忘或者丢失,更严重的是其极易被别人盗用, 以致不可预期的损失,使用这种方法存在严重的安全隐患。而且随着计算机网 络的发展,电子商务、网上银行、网上购物等网上交易越来越多,对网上交易 的安全性要求就越来越高,使用口令或密码对身份进行验证的安全性已经远远 不能满足用户的需求。那么,采用生物识别是一个必然的趋势,因为生物特征 是自然唯一的,每个人都不同,而且具有随身携带且不会丢失遗忘,不用记忆, 武汉理工大学硕士学位论文 不会被盗用等特点。生物特征识别有指纹识别、虹膜识别、语音识别等。其中, 语音是一种方便且实用的生物特征,它能较容易的获取、传输,被认为是最自 然、最经济的鉴别身份的方法之一。 说话人识别这种生物识别技术除了在经济领域、信息领域有着广泛的应用 前景,在其它领域也有着重要的应用。如在司法刑侦领域,在某些情况下,可 以用来鉴别嫌疑人是否是犯罪人员。还有在国防、证件防伪、医疗等领域都有 着极其广泛的应用。 1 2 说话人识别的研究与发展 对语音识别方面的研究是始于2 0 世纪6 0 年代。这5 0 多年来,对这一领域的 研究取得了重大进展,并且在许多领域中它已经成功地走向了实际应用。 ( 1 ) 5 0 年代到6 0 年代初是语音识别研究的起步阶段,主要研究声音和语音 学的基础概念和原理。 1 9 5 2 年,美国贝尔实验室的研究人员研制出了世界上第一个语音识别系统, 该识别系统是用来识别孤立的英文数字,其识别率达到了9 7 。这是语音识别开 始的一个标志【2 1 。 1 9 6 0 年,瑞典科学家f a n t 提出了语音产生理论和声源滤波器模型,其在理论 中指出语音信号是由激励和声道两个分量作用产生,这个为语音信号的研究奠 定了基础【3 】。 ( 2 ) 6 0 年代中后期,伴随着数字信号处理以及计算机技术的发展,数字信 号处理技术开始应用于语音识别。 1 9 6 3 年,b o g e r 等提出了倒谱( c 印s 饥l i l l ) 算法【4 】【5 1 。 1 9 6 8 年,o p p e n h e i m 把谱应用到对语音信号处理上,并提出了同态声码器的 概念【6 】【7 】。 1 9 6 9 年,l u c kj e 最先将倒谱技术引入到语音识别中来,并得到了较好的识 别效果【8 】。 苏联科学家v i n t a y u k 提出了一种新的方法,使语音的发音在能在时间上进 行对齐,该方法中主要是利用了动态时间规整的思想以及运用了一些能进行连 续语音识别的算法。 在这个时期,在语音识别中还并没有模型的出现,所以对语音识别的研究 还仅仅停留在实验阶段,离走向应用还有一段差距。 2 武汉理工大学硕士学位论文 ( 3 ) 7 0 年代,语音识别技术蓬勃发展,出现了许多具有里程碑意义的研究, 为语音识别走向应用奠定了基础。这个时期,对语音识别进行研究的方法大多 是采用频谱和模板匹配的方法。 苏联的v e l i c h k o 和z a g o r u k o 提出在语音识别中可以应用模式识别的思想。 日本的s t a k o e 和c h i b a 提出动态时间规整的匹配算法,将其应用到语音识别 中,从而使得语音识别的识别率有了很大的提高,这个使得当时那个时代掀起 了研究语音识别的高潮。 美国的i t a k u r a 将线性预测编码技术应用于语音识别中,这种技术应用于语音 识别中取得了比较好的识别结梨9 】【l o 】。 七十年代末期,j k b a r k 等人将隐马尔科夫模型运用到语音识别中,有效地 提高了识别率,这个应用使得语音识别技术有了突破性的进展【1 1 1 。隐马尔科夫 模型,在先阶段的许多语音识别领域都有着广泛的应用,比如说哼唱识别方面, 目前均是用隐马尔科夫模型进行建模。另外,还有矢量量化模型也是在这个时, 期就被应用到说话人识别领域【1 2 】【1 3 1 1 1 4 1 。这两种模型,使得使得语音识别的识别 率大幅度提高,从而推动了语音识别技术的大跨步前进。 ( 4 ) 8 0 年代,语音识别开始取得重要成果。不仅在识别方法上有了进一步 的发展,而且在对语音信号的特征参量上也有了新的突破。 在8 0 年代后,s b d a v i s 提出了m e l 频率倒谱系数的概念【1 5 】。m e l 频率倒谱 系数是表征说话人个性特征的参量,它是基于人耳听觉机理的,用这个参数作 为说话人的特征,识别效果有了明显提升。不仅在那个年代,m f f c 系数成为 了说话人识别的主流参数,在说话人识别技术比较成熟的今天,该参数仍然被 广泛使用。 人工神经网络的方法被引入到语音识别中,这为语音识别注入了新鲜血液, 并在语音识别领域广泛应用。同时隐马尔科夫模型也在这个年代得到广泛的应 用,称为说话人识别领域的主流技术【1 6 1 1 1 7 】【1 8 】。 ( 5 ) 9 0 年代,更多更优秀的模型被应用到语音识别中。 r e y n o l d s 将高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 弓i 入到语音识别领 域1 9 】【2 0 1 。该种模型使得说话人识别系统有着良好的识别性能。因为高斯混合模 型能够对说话人连续的发音特征进行拟合,即能描述说话人的发音特征。 小波分析、支持向量机也开始应用于说话人识别中,并取得了较好的识别 效果。 ( 6 ) 2 0 0 0 年以后,语音识别由实验室开始走向实际的应用中。 3 武汉理工大学硕士学位论文 r e y n o l d s 提出在说话人确认中应用u b m m a p ( u n i v e r s a lb a c k g r o u n dm o d e l , m a x i m u map o s t e r i o r ) 结构【2 1 1 。这个为说话人识别从实验室走向实际的应用作出 了巨大的贡献。它能降低高斯混合模型对训练样本的依赖。 目前,已有一些说话人识别系统成功应用于商用的实例。如1 9 9 9 年苹果公 司上市的m a co s9 中包含有v o i c ep r i mp a s s w o r d 功能,利用语音对计算机使用者 的进行身份识别,以达到使用控制的目的【2 2 1 ;a t & t 等公司在开发新一代的 v o i c e m a i l 的集成管理系统( 女i a t & t 的s c a nm a i l ) 2 3 1 ,该系统能够将音频形式的 语音邮件利用语音识别技术转换为文本,并利用说话人识别技术识别出发送者, 这样就能更方便用户对邮件进行阅读。 1 3 本课题研究的主要工作 说话人识别包括说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e l v e r i f i c a t i o n ) 。将任意一测试语音与某一训练过了的目标模型相比较,系统只作 出“是 或“不是”的二元判决。按照测试集来分,说话人识别又可分为开集 ( o p e n s e t ) 说话人识别和闭集( c l o s e s e t ) 说话人识别。闭集说话人识别是指,待测 说话人必定是训练集之内的某个说话人【2 4 】。开集说话人识别是指,待测的说话 人可能是训练集之外某个说话人。 目前,闭集说话人识别已经取得了比较好的识别性能。但是开集说话人识别 的识别性能还有待提高。本课题的研究就致力于提高开集说话人识别性能,提 出了一种新的识别方法即s v m g m m ( 支持向量机高斯混合) 模型。 本课题研究的内容主要由以下几个方面: 1 ) 研究说话人识别的基本原理及其各种说话人识别方法。 2 ) 研究语音信号预处理及特性提出的基础知识及方法。 3 ) 深入研究支持向量机s v m 的基本原理及其算法实现。 4 ) 研究高斯混合模型g m m 的基本原理及其算法实现。 5 ) 通过实验比较本课题提出的识别方法与传统识别方法。 1 4 论文组织结构 本文共七章,下面简要介绍各章的主要内容。 第l 章:绪论。本章主要是介绍说话人识别这个课题研究的目的及意义, 4 武汉理工大学硕士学位论文 并对该课题的发展情况及研究现状进行了阐述,最后罗列了本课题研究中所做 的主要工作。 第2 章:说话人辨识。本章主要讲述说话人识别的基本原理和说话人识别 现阶段的一些主要识别方法。 第3 章:语音信号的预处理及特征提取。本章主要讲述如何从语音信号中 提取出说话人识别系统所需要的表征说话人个性特征的特征参量。 第4 章:支持向量机。本章主要讲述支持向量机的基本原理,以及如何将 支持向量机应用于说话人识别系统中。 第5 章:高斯混合模型。本章主要讲述高斯混合模型的基本原理,以及如 何将高斯混合模型应用于说话人辨认和确认系统中。 第6 章:基于s v m g m m 的说话人辨识。本章主要讲述本课题提出的一种 新的识别模型s v m g m m ( 支持向量机高斯混合模型) ,该新模型的主要目 的是分辨出待识别话者中的集外话者。在该章中还描述了实验过程,并展示和 分析了实验的结果。 第7 章:总结与展望。 武汉理工大学硕士学位论文 第2 章说话人辨识 说话人辨识是指对进行说话人分辨和识别。说话人分辨是指对待识别的话者 进行分辨,分辨出其是训练集内话者还是训练集外话者。说话人识别则是指若 是集内话者,则还要对该话者进行进一步的识别,识别出该话者是训练集中的 哪一位话者。对于分辨说话人是本课题提出的概念,是结合了两种说话人识别 的方法进行分辨说话人。故本课题中对说话人辨识的研究主要的理论基础还是 说话人识别,因此下面主要阐述说话人识别的基本原理及现阶段存在的说话人 识别的基本方法。 2 1 说话人识别概述 说话人识别,又称为声纹识别,是提取语音信号中所包含的表征说话人声纹 特征的特征参数,来鉴别说话人身份的一种技术。说话人识别是一种通过语音 进行识别技术,但是它不同于语音识别。语音识别是指识别出说话人的语音中 所包含的说话内容信息。而说话人识别,只是提取说话人语音中所包含的个性 特征信息,而不考虑语音中所包含的内容信息,以达到识别出说话人是否是目 标话者或者是哪个话者的目的。也就是说,说话人识别的出发点在语音中所包 含的个性特征上,在进行识别之前,首先要将语音中所包含的个性特征信息与 语音中所包含的其它信息区分开来。 2 2 说话人识别的基本原理 说话人识别过程分为两个阶段:训练阶段和识别阶段。训练阶段是指,训练 集中的说话人语音经过特征提取,训练学习以得到相应说话人的模板或模型的 过程。识别阶段是指,测试集中的说话人语音经过同样的特征提取,然后与训 练阶段建立的模型或模板进行匹配计算,并作出决策:该测试的说话人是训练 集中的哪一位话者或者待识别话者是否是目标话者。训练阶段主要包括特征提 取和建立模型两个阶段。识别阶段主要包括特征提取和与模板进行匹配两个阶 段。用图示的方法表示如图2 1 所示。 6 武汉理工大学硕士学位论文 图2 1 说话人识别基本模型图 正如图2 1 所示,在训练阶段,输入的语音信号首先经过特征提取得到语音 特征参数,然后再将这些语音特征参数进行训练以建立说话人的特征模型。在 识别阶段,按照训练阶段同样的特征提取过程进行特征提取得到特征参数,然 后将待识别语音的特征参数输入n i ) l l 练模型中与训练模型进行匹配计算,得到 匹配计算结果,然后根据预定的判决规则对匹配计算结果进行判决,以得到最 终的识别结果。在说话人辨认中,将测试语音与训练产生的所有模型进行匹配, 取相似度最大的那个模型所对应的说话人作为识别结果。在说话人确认中,将 测试语音只与目标话者模型进行匹配计算,通过判断待识别的语音与目标话者 模型的相似度是否大于一定的判决门限,以作出是或者否的判决。 其中语音特征提取包括语音预处理和特征提取两个部分,如何对语音进行预 处理? 如何从语音中提取特征参数? 这些都将在第三章中有详细的讲解。如何 建立训练模型? 如何进行匹配计算? 以及选择何种规则进行匹配计算? 这些均 在第六章中有详细讲解。在下一节我们将首先简要介绍目前已有主要的说话人 识别方法。 2 3 说话人识别的基本方法 从1 2 节说话人识别的发展中,我们已经了解到,伴随着说话人识别发展 出现了很多的说话人识别的方法,其中有许多优秀的识别方法沿用至今,下面 对当前应用比较广泛的一些识别方法进行了总结归纳。 1 ) 模板匹配法 对说话人语音进行训练的时候,从说话人的语音信号中提取出表征说话人 个性特征的特征矢量,然后再通过某些方法对这些特征矢量进行优化,以得到 7 武汉理工大学硕士学位论文 一个特征矢量的集合。将此集合作为训练结果即训练得出的模板。 对测试语音进行识别的时候,通过同样的方法从待测试的语音中提取出说话 人的特征向量,然后按照一定的匹配规则与所有的训练得出的模板进行比较。 匹配往往是计算向量间的距离,以各个向量的累计距离作为匹配结果。 模板匹配法中常用的方法有:矢量化( v e c t o rq u a n t i z a t i o n , v q ) 方法以及动态 时间规整( d y l a m i c t i m ew r a p p i n g ,d t w ) j 。 2 ) 概率统计法 概率统计方法是指,在对某个说话人进行训练的时候,从其一次或者多次发 音的语音信号中提取出特征矢量序列,然后用概率统计的方法对其建立数学模 型,使其能够描绘出这个说话人语音的特征矢量在特征空间中的分布规律;在 对某个测试语音进行识别的时候,将该测试语音与训练阶段所得到的训练集话 者模型进行匹配计算,得到测试语音与训练集中模型的相似度,并将该相似度 作为判决结果的重要依据。 , 这种方法的经典模型是隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 和高 斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 睇钏。 3 ) 辨别分类器方法 这种方法的经典模型是人工神经网络模型( a r t i f i c a ln e u r a ln e t w o r k ,a n n ) 和 支持向量机模型( s u p p o r tv e c t o rm a c h i n e ,s v m ) 。 a n n 模型是在一定程度上模拟了生物的感知特性,它具有很强的对复杂边 界的区分能力,以及对不完全样本信息的鲁棒性,从其区分性能上来说,人工 神经网络模型可以堪称近似完美的分类器。但是,在近些年其实际应用到说话 人识别中并不是很广泛,其主要原因人工神经网络模型存在致命的弱点:该模 型的训练所耗费的时间比较长,动态规整的能力比较弱,因此,当训练样本比 较大的情况下,甚至可能使得训练无法进行下去。 s v m 模型是建立在统计学习理论的基础上,其主要思想是为两类样本寻找 最优分类面,以达到分类的目的。该模型不仅可以解决线性样本问题,而且对 于实际存在比较普遍的非线性样本问题同样可以很好的解决。其主要的解决思 想是:将低维空间中的非线性问题经过非线性变换转换成高维空间中的线性问 题,使得非线性问题得到解决。其特殊的性质,使得维数问题得到巧妙的解决, 不会带来维数灾难,并且能保证系统有着良好的推广能力。s v m 模型在说话人 识别中的特点是,期望在只有观测样本的情况下找到最优解,而不是在样本趋 于无穷的时候找到最优解,也就说,其得到的是全局最优点,克服了a n n 模型 8 武汉理工大学硕士学位论文 中局部极值的问题【2 4 1 。支持向量机模型已经成功的应用于说话人识别领域,并 且大量实验表明其性能良好,成为当前研究的热点。 2 4 本章小结 本章中主要介绍了本论文标题说话人辨识的含义,即说话人分辨和识 别。其中重点还是说话人识别,故在本章还是主要介绍说话人识别部分的内容。 首先从说话人识别的概念讲起,接着是介绍了说话人识别的基本原理,最后介 绍了现阶段比较常用的一些说话人识别的方法。 9 武汉理工大学硕士学位论文 第3 章语音信号的预处理和特征提取 特征提取是指:对包含有丰富信息的语音信号进行分析处理,去处对语音 信号无关紧要的冗余信息,获得影响语音识别的重要信息。特征参数提取之前 还有一个语音信号的预处理。语音信号的预处理主要包括预加重、分帧加窗、 端点检测等处理。 3 1 语音信号的预处理 3 1 1 预加重 预加重的目的是提升信号中的高频部分7 使得信号的频谱变得平缓,以利于 进行声道参数分析或频谱分析【2 5 】。因为语音信号频谱的特征是,高频部分的信 号能量小,而低频部分的信号能量大,这也就使得在求频谱时,频率越高其相 应的成分越少,频率越低其相应的成分越多,所以高频部分的信号要比低频部 分的信号难得到得多。因此预处理的第一步就是预加重处理,以提升信号中高 频部分,使得高频部分的频谱易于求得。 预加重一般是对数字化之后的语音信号,用6 d b 倍程的预加重滤波器来实现 的,该滤波器为: h(z)=1肛。1(3-d 式( 3 1 ) 中,值接近于1 ,典型值为o 9 4 ,z 是采样点。 因为语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在 8 0 0 h z 以上按6 d b 倍程跃落,故采用的是具有6 d b 倍程的提升高频成分的预加 重滤波器。 3 1 2 加窗分帧 语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速度较 慢,所以可以认为语音信号是短时平稳的,或局部平稳【2 6 1 。所以,一般对语音 信号进行处理之前,先要其进行分段或者分帧处理,即是以段或者帧作为基本 1 0 武汉理工大学硕士学位论文 单元。通常是采用分帧的办法。分帧,简单来讲,就是将一段语音信号按照采 样点来分成若干段,每段即为一帧。例如:有一段由1 2 8 0 个采样点组成的语音 信号,将其分成5 段,即每段一帧,那么一帧即是由2 5 6 个采样点组成。分帧 虽然可以采用连续分段的方式,但是常用的是采用重叠分段的方式。采用重叠 分段的方式,是保证帧与帧之间能平滑过渡,以保持帧与帧之间的连续性。相 邻两帧交叠的采样点数称为帧移。比如说:帧移为1 2 8 个采样点,第1 个采样 点到第2 5 6 个采样点为第一帧,第二帧则是从第1 2 8 个采样点到第3 8 4 个采样 点。分帧在信号处理中是通过一定的窗函数w ( n ) 乘以语音序列s ( n ) 来实现的, 从而形成加窗语音信号s 。( 玎) = s ( 玎) 掌以刀) 。 常用的窗函数有矩形框、汉n 刃( h a m m i n g ) 窗和海宁( h a n n i n g ) 窗等。矩形窗的 谱平滑性能较好,但是它是损失高频成分为代价的;而汉明窗刚好相反,其平 滑性能不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村民集体财产合同范本
- 出国劳务个人合同范本
- 智力题目及答案初中生
- 工作作风心得体会【五篇】
- 职业技能刷题题目及答案
- 执法综合面试题目及答案
- 2025-2025学年上海市高行中学高三语文期末考试试卷及答案
- 环保行业绿色生态建设方案
- 委托购买合同书范本
- 人工智能在教育领域的未来发展趋势
- 2025年呼伦贝尔农垦集团有限公司工作人员招聘考试试题
- 公司志编纂工作方案
- 新人教版物理八年级下册知识点总结-物理八年级下册考点人教版
- 抗战胜利70周年主题班会教案
- 2025年九年级语文上册课后习题参考答案
- 2025年保安证考试沟通能力试题及答案
- 全套课件-工程建设监理概论
- 餐饮服务与数字化运营 习题及答案 项目三
- 人教板七年级至九年级英语单词表
- 安全主任竞聘演讲稿
- 污水处理中的自动化控制技术
评论
0/150
提交评论