(计算机应用技术专业论文)支持向量机在说话人识别系统中的应用.pdf_第1页
(计算机应用技术专业论文)支持向量机在说话人识别系统中的应用.pdf_第2页
(计算机应用技术专业论文)支持向量机在说话人识别系统中的应用.pdf_第3页
(计算机应用技术专业论文)支持向量机在说话人识别系统中的应用.pdf_第4页
(计算机应用技术专业论文)支持向量机在说话人识别系统中的应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕上学位论文 摘要 说话人识别技术因其特有的方便性、经济性、准确性,安全性等方面的的优 势,在生物特征识别领域具有广泛的应用前景。目前,随着说话人识别技术研究 的不断深入,已有的系统在理想的试验条件下的取得了较好的成果。然而,已有 的识别系统离实际应用还有很大的距离,包括在识别准确率、识别的实时性、以 及在复杂环境的鲁棒性等不能满足实际应用中的需求。 支持向量机作为一种新的分类方法以其优秀的推广能力迅速成为模式识别 领域的研究热点,也引起了话者识别领域研究者的关注。本文在详细介绍支持向 量机的相关理论的基础上,提出了一种新的支持向量机分类方法,并将其用于说 话人识别系统。本文的主要工作包括: 1 在语音特征预处理阶段,详细介绍了p c a 在语音特征抽取处理中的工作 原理,并将核函数思想引入以提高算法在非线性情况下的效率,提出了基于 k p c a 的特征降维及去噪处理方法。 2 针对说话人识别中,语音不等长带来的问题,基于高斯混合模型一通用背 景模型( g 删一u b m ) 提出一种新的特征提取方法,将变长的语音序列转化为定长 度的语音特征向量。以此特征向量作为输入向量,推导出一种新的核函数,将其 用于s v m 分类器核函数。 3 为了解决用二类s v m 实现多类话者识别问题,提出一种二叉树分类器的构 造方法。与已有的一对多,及一对一的方法做了比较,二叉树分类器在训练和测 试过程中,减少了样本的重复训练和比较的次数,从而减少支持向量机多类分类 器的运算量,提高其的训练及识别速度。 关键词:支持向量机;说话人识别;身份认证,饼讧m u b m 芰持向量机在说话人识别系统中的应用 a b s t r a c t d u et oi t ss p e c i a lm e r i t si nt e r m so ff l e x i b i l i t y e c o n o m y ,a c c u r a c ya n ds a f e t y , s p e a k e rr e c o g n i t i o nt e c h n o l o g y o w n sab r o a d a p p l i c a t i o n f i u t u r ei n i d e n t i t y v e r i n c a t i o n a tp r e s e n t ,t h es t a t e o f a r ts p e a k e ri d e n t i 6 c a t i o ns y s t e mp e r f o r m sw e l l u n d e rt h ei d e a lc o n d i t i o n si ne x p e r i m e n t s h o w e v e r t h ep r a c t i c a lr e s u l t sc a nn o t m e e tt h er e q u i r e m e n to fc o m p l i c a t e da p p l i c a t i o n si nt e r m so fi d e n t i 6 c a t i o na c c u r a c y , s p e e da n dr o b u s t n e s si nn o i s ee n v i r o n m e n t s u p p o r tv e c t o rm a c h i n e ( s v m ) i san e wc l a s s i n c a t i o nm e t h o d o l o g y 。 l th a sb e e n p r o v e dt ob eap o w e r f h lt e c h n i q u ei np a t t e r nc l a s s i f i c a t i o nf b ri t sg o o dg e n e r a l i z a t i o na b i l i t y f i r s t l yt h ep r i n c i p l eo fs v m isd e s c r i b e dw i t hd e t a i l s ,a n dt h e nan o v e lk e r n e lb a s e ds v mi s p r o p o s e da n de x p l o i t e dt os p e a k e ri d e n t i f i c a t i o ns y s t e m t h em a i nc o n t r i b u t i o n so ft h ed i s s e n a t i o na r ea sf 0 l l o w s : 1 p r i n c i p l ec o m p o n e n ta n a l y s i s ( p c a )a p p r c h a sf b a t u r e懿t r a c t i o np r o c e s s i n gi s p r e s e n t e df i r s t l y t h ek e r n e lt e c h n i q u ei sc o m b i n e di n t op c at oi m p r o v et h ee f n c i e n c yo ft h e a l g o “t h mi nu n l i n e a rc o n d i t i o n s k e r n e lp r i n c i p l ec o m p o n e n ta n a l y s i s ( k p c a ) i se x p l o i t e dt o r e d u c ea n dd e n o i s et h ea u d i of 色a t u r ew i t h o u t l o s i n gi n f o r m a t i o n 2 an e wf e a t u r et 豫n s m i t t i o na p p r o a c hi sp r o p o s e dw h i c h w o r k st ot r a n s m i tt h e a u d i os e q u e n c e so fv a r i a b l el e n g t h si n t of e a t u r ev e c t o rw i t he q u a ll e n g t h o nt h i s b a s i s ,c o m b i n i n gt h ea d v a n t a g eo fg a u s s i a nm i x l u r em o d e l - u n i v e r s a lb a c k g r o u n dm o d e l ( g m m u b m ) a n ds u p p o nv b c t o rm a c h i n e ( s v m ) ,an o v e lk e r n e lf u n c t i o ni sp r o p o s e da n d u s e d a st h ek e r n e lf u n c t i o no fs v m 3 ab i n a r yt r e ec l a s s i f i e ri sc o n s t r u c t e dt oi m p l e m e n tm u l t i - c l a s si d e n t i f i c a t i o nw i t h t w o - c l a s sc l a s s i f i e r s d u r i n gt h et r a i n i n ga n dt e s t i n gp r o c e d u r e ,t h eb i n a r yt r e ec a nf e m o v et h e p e t i t i o n o ft h e s a m p l et r a i n i n g s oi t o u t p e f f o r m so n e - a g a i n s t - o n e s c h e m ea n d o n e a g a i n s t - r e s ts c h e m e ,i m p r o v i n gs p e e do ft r a i n i n ga n dr e c o g n i z i n g k e y w o r d s :s u p p o r tv e c t o rm a c h i n e ,b i o m e t r i c s ,s p e a k e ri d e n t i f i c a t i o n , g m m u b m 硕士学位论文 插图索引 图2 1 机器学习过程图8 图2 2 ,= 2 时的v c 维数图解1 1 图2 3j = 3 时的v c 维数图解1 1 图2 4 ,= 彳时的不可分的情形例图1 2 图2 5 结构经验风险原理图解1 4 图2 6 支持向量机超平面1 6 图3 1 倒谱的求解过程2 3 图3 2 复倒谱的求解过程2 3 图4 1 二叉树多分类器的结构3 5 图4 2 系统识别率在w h i t en o i s e 加噪之后随信噪比的变化情况3 8 图4 3 系统识别率在b a b b l en o i s e 加噪之后随信噪比的变化情3 9 兰州理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成 果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体己经发表 或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:瓠歪务日期:矽7 1 年脚,工日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰 州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密囹。 ( 请在以上相应方框内打“弦) 作者签名:狄至孝 剔谧轹锄) , ,l1 日期:泖年肛月历日 日期:砷年肛月,厶日 硕士学位论文 1 1 引言 第1 章绪论 随着全球的信息化、网络化、数字化时代的到来,对高可靠性的身份验证和 身份识别技术的需求也日益增长。传统的身份认证方式建立在能够标示个人身份 的一些附属物品之上,这些物品包括诸如身份证、钥匙等有形物品,也包括如口 令和密码等的无形的数字信息。这些传统的以令牌或口令为特征的身份认证技术 日益暴露出严重的弊端,主要表现为有形物品容易丢失、被盗窃、被伪造,而口 令密码等容易遗忘、记错或盗取。当用户标示被伪造或盗取后,目前的大多数认 证系统无法区分真正的用户和冒名顶替者,因此身份顶替事件时有发生,给信息 安全带来极大的隐患。传统的身份认证系统的缺陷的本质是标示物品和被认证人 之间无法建立牢固可靠的直接联系。很难满足社会各个应用领域对信息的安全信 的要求。而生物认证基于被认证者独一无二的生理特征和行为特征来确定身份。 这些生理或行为特征包括指纹、声音、人脸、虹膜、视网膜、手型、签名、步态、 唇形动作、击键模式。生物认证克服了传统认证方式的缺陷,直接隶属于被认证 人,不会被遗忘,不可借阅、不能被盗窃,具有得天独厚的安全特性 1 ,2 。 说话人识别技术是生物认证技术的重要分支。由于说话人发声器官的生理差 异以及后天形成的行为差异,每个人的语音都带有个人色彩,这使得通过分析语 音信号来识别说话人成为可能。与其它生物特征技术相比,说话人识别以声音作 为识别对象,除具有不会被遗失和忘记、不需记忆、使用方便等优点外,还具有 无可比拟的一些优势。首先,由于不涉及隐私问题,可以使用户无任何心理障碍, 用户接受程度高。其次,声音输入设备造价低廉,甚至无需费用( 如通过电话) , 所以被认为是最自然和最经济的手段之一。再次,在基于电信网络的身份识别应 用中,如电话银行、电话炒股、电子购物等,说话人识别更为擅长,可谓得天独 厚。说话人识别的以上优势使其在生物特征识别领域中占有重要地位,其应用不 仅可以使系统的信息安全进一步得到保障,还可以给使用者带来极大方便,提高 系统运营商的经济效益。由于其容易采集,非侵犯性,可以用于公共通信线路监 听等特点,它日益受到各国安全部门的重视。因此,说话人识别技术的研究对未 来生物特征识别技术及网络信息安全化的发展有着重要影响。 说话人识别可以分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确 认( s p e a k e r 弋,e r i f i c a t i o n ) 说话人辨认是把待识别的一段语音判定为属于若 干个参考说话人的语音,是一个多类判别问题。而说话人确认则是判定一段语音 支持向量机在说话人识别系统中的应用 是否是所声名的话者的语音,判定结果为:是( 接收) 或者否( 拒绝) ,是一个 二类判别问题。说话人辨认和确认的区别在于可选决策数目的不同。在辨认中, 可选决策类的数量等于参考说话人的总数。在确认中,决策类有两个:拒绝或接 收。与说话人确认相比较,说话人辨认系统的构建难度较大,且系统的识别性能 随话者人数及应用环境的波动较大。 根据语音内容来分,说话人辨认可以分为文本相关的说话人辨认和文本无关 的说话人辨认两种方式。文本相关的说话人辨认要求训练语音和测试语音使用指 定的文本内容,而文本无关的说话人辨认则对识别语音的内容没有要求。前者可 以直接利用规定的文本中的语音信息来优化识别系统的性能。后者对语音的内容 无任何限制。虽然规定语音的文本内容可以优化系统的性能,但因在实际应用中, 大部分情况下很难采集到规定文本内容的语音。因此,与文本有关的说话人辨认 在实际应用中因为对语音内容的限定这一条件过于苛刻,其应用推广也受到限 制。 1 2 说话人识别的研究现状 随着计算机技术的发展,从七十年代起开始了自动说话人识别的研究7 0 年 代中期,l p c 系数、声道的冲激响应、自相关系数、声道面积函数以及倒谱系数 等不同的特征参数在自动说话人识别系统中的有效性得到证实,基音和共振峰是 表征说话人固有特性的参数。线性预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r a l c o e f f i c i e n t ,l p c c ) 1 0 ,m e l 频率倒谱系数( m e 卜f r e q u e n c yc e p s t r a l c o e f f i c i e n t ,m f c c ) 1 1 ,感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v e c o e f f i c i e n t ,p l p ) 1 2 等特征形式在近年的研究中较常用。其中,l p c c 根据语 音信号产生的全极点模型得到,m f c c 和p l p 则根据入耳对不同频率的语音信号的 敏感程度不同,提取参数时利用b a r k 刻度对语音频谱进行了刻度转换,模拟人的 听觉特性。r e y n 0 1 d s 的研究表明 1 3 ,在说话人识别中,m f c c 比l p c c 和p l p 具有更优越的识别性能。m f c c 是目前应用最广的特征参数 1 4 。 在识别方法方面,6 0 年代提出了动态规划( d p ) 1 5 和线性预测分析( l p ) 技 术,到7 0 年代末8 0 年代初,l p 技术和动态规正技术( d t w ) 基本成熟,后来矢量量 化( v e c t o rq u a n t i z a t i o n,v q ) 1 6 ,高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g 硼) 1 7 ,隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,删m ) 理论 1 8 、神经 网络 1 9 相继被提出和应用,不断推动说话人识别技术的完善和发展。其中高斯 混合模型和隐含马尔可夫模型是说话人识别中两种最常用的概率模型。高斯混合 模型用多个高斯分布的线性组合来近似多维矢量的任意连续概率分布,能有效地 刻划说话人的特性。采用高斯混合模型的说话人识别系统有很高的识别率。在文 本无关的说话人识别领域,高斯混合模型己经成为占统治性地位的识别方法。隐 2 硕士学位论文 马尔可夫模型可以描述语音随时间变化的情况,在文本相关的说话人识别中能充 分利用己知的文本信息,达到很好的识别率。目前,支持向量机成为话者识别领 域的新工具及研究热点之一,然而,将s v m 直接用于说话人识别系统的识别性能 并不能理想 2 0 ,研究者们不得不通过各个方面的改进来提高s v m 在说话人识别 中的性能 2 卜2 2 。 因说话人识别具有简单、方便、准确、经济等诸多优势,受到基于生物特征 身份认证的研究者、开发商的青睐。n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n d t e c h n o l o g y ) 每年都要举办说话人识别系统的评测活动,并建立了用于研究和评 测说话人系统性能的大型语音资料库 2 3 。国外的许多著名大学,如伦敦大学、 m i t 等,上个世纪就开展了有关说话人研究方面的课题。国内开展说话人识别研 究比较早的机构有北京大学、中科院声学所、中科院自动化所、清华大学等,并 先后得到了国家自然科学基金、8 6 3 计划等重大和重点项目、攀登计划等基金的 支持。虽然目前国内的说话人识别研究的技术水平还无法与先进国家相比,但在 一些方面有自己的独创,研究水平不断提高。 说话人识别技术的商业性应用在国外从7 0 年代开始,但直到9 0 年代后期才有 一些产品推向市场。t t 应用说话人识别技术研制出了智慧卡,己应用于自动提 款机。欧洲电信联盟1 9 9 8 年完成了c a v e 计划,并于同年启动了p i c a s s o 计划,在 电信网上完成了说话人识别。同年,m o t o r o l a 和v is a 等公司成立了v c o 咖e r c e 联盟,希望实现电子交易的自助化,其中,通过声音确定人的身份是此项目的重 要组成部分。英国a c u l a b 公司在s p e e c h t e k 2 0 0 2 上隆重发布其最新的声纹鉴别软 件s v i ( s p e a k e rv e r i f i c a t i o na n di d e n t i f i c a t i o n ) ,它是第一个由语音板卡制 造商自主开发、提供而并非依赖第三方的声纹鉴别软件。其他的一些商用系统还 包括:i t t 公司的s p e a k e r k e y ,k e y w a r e 公司的v o i c e g u a r d i a n ,t n e t i x 公司的 s p e a k e z 等。 目前,国内有北京中科模式识别公司的“天目 声纹认证系统( p a t t e k v o i c e c e r t i f y ) 及d e a r 公司的“得意身份证和“声纹锁 等产品投入使用。 但是这些产品远未达到规模化应用,与在说话人识别研究开发中的投入不相称。 原因在于,在将实验室系统转化为实用产品的过程中,说话人识别技术还有很多 待解决的问题。 1 3 说话人识别系统的应用前景 说话人识别技术因其特有的方便性、经济性、准确性,安全性等方面的的优 势,在许多领域具有良好的应用前景: 1 用于银行、证券系统: 目前电话银行、远程炒股等业务不断增加,如果采用说话人确认技术并结合 3 支持向量机在说话人识别系统中的应用 密码输入,可安全有效地实现用户身份的确认。 2 网络安全: 现在人们越来越多地依赖于口令和密码,随着密码不同场合的频繁应用,其 安全缺陷非常明显,同时,记忆并定期修改众多的密码是非常让人头疼的事情。 在说话人识别过程中,每次发音都可由随机产生的提示文本来控制,可有效地防 止复制和剿窃,并且用户不需要记忆和修改任何东西。因此,说话人识别技术与 其他生物识别技术相比有着明显的优势,可以为日益发展的电子购物、电子商务、 国际贸易保驾护航,且操作方便、简洁,很容易为广大计算机使用者接受。 3 刑事案件侦破: 对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一 段录音中查找出嫌疑人,帮助对嫌疑人的查证。在美国,有关机构还利用这一技 术来判断监外执行人员是否在其寓所中。另外,相当多的法庭已使用声纹作为鉴 别罪犯的依据。 4 语音检索 对于大量的录音素材,将说话人识别技术与连续语音识别技术相结合,可以 检索出其中我们感兴趣的特定人所说的内容。 5 医学应用 说话人识别的主要依据是说话人声道结构的差异,一方面生理学和解剖学的 进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术进行声 道特性的研究。 1 4 本文工作 近年来,s v m 作为一种新的分类方法,它在模式识别领域的应用吸引了越来 越多的研究者的目光。本文针对说话人识别系统中各个环节的难点及s v m 在说话 人识别应用中存在的问题,从多个方面努力,提高了基于s v m 的说话人识别系统 的性能,主要工作包括: 将核函数思想引入主成分分析特征提取方法以提高算法在非线性情况下的 效率,提出了基于k p c a 的特征降维及去噪处理方法。 针对说话人识别中,语音不等长带来的问题,提出一种新的特征提取方法, 将变长的语音序列转化为定长度的语音特征向量。传统的基于帧一级的处理是将 不等长的语音段切割后的彼此独立的一个一个的帧来处理,通过平均各个帧上的 的决策值来判定语音对应的话者身份的方法相比较。而本文提出的语音序列转化 方法可以将一个语音段作为一个语音特征向量整体来处理。对话者的判定本应该 是基于语音段整体的,故而这种特征提取方法可以保留更多的语音段所包含的话 者的个性特征信息。 4 坝士学位论文 以转化后的定长度的语音特征向量为输入数据,结合高斯混合模型一通用背 景模型( g m m u b m ) 的优势提出一种新的核函数,将其用于s v m 分类器核函数。 一这一方法结合了概率摸型的优点和s v m 的优秀的推广能力。s v m 的核函数技术及 最优超平面理论使得其分类器能够在有限的训练数据下得到风险最小的分类面, 同时,s v m 分类器在分类时使用正反两方面的数据,这是相对概率模型方法的 又一优势。有因为语音特征转化过程利用了概率模型方法将语音段作为整体考虑 的优势,本文提出的基于g 姗一u b m 的s v m 其性能要优于基于普通的核函数的s v m 的性能。 为了解决用二类s v m 实现多类话者识别问题,提出一种二叉树分类器的构造 方法。与已有的一对多,及一对一的方法做了比较,二叉树分类器在训练和测试 过程中,减少了样本的重复训练和比较的次数,从而减少支持向量机多类分类器 的运算量,提高其的训练及识别速度。 最后,以k i n g 数据库及n o i s e 数据库作为基本试验数据,验证了本文系统 的性能。通过将本文的系统的性能与g 姗一u b m ,多项式核s v m 及r b f 核s v m 的识别系统,在识别准确率及对噪音的鲁棒性方面做了比较。 硕士学位论文 第2 章统计学习理论及支持向量机 基于数据的机器学习是现代智能技术中一个十分重要的方面,主要研究如何 从一些观测数据( 样本) 出发得出目前尚不能通过原理分析得到的规律,利用这些 规律去分析客观对象,对未来数据或无法观测的数据进行预测。现有机器学习方 法共同的理论基础之一就是统计学。传统统计学所研究的是渐进理论,即当样本 数目趋向于无穷大时的极限特性,但实际应用中,样本数目却是有限的,当问题处 在高维空间时尤为如此,这是包括模式识别和神经网络等在内的现有机器学习理 论和方法中的一个根本问题。n v a p n i k 等人早在2 0 世纪6 0 年代开始研究有限 样本情况下的机器学习问题,直到9 0 年代中,有限样本情况下的机器学习理论一 一统计学习理论,在统计学习理论的基础上发展出了一种新的模式识别方法一一 支持向量机,在解决小样本、非线性和高维模式识别问题中表现出许多特有的优 势,并能够推广应用到函数拟合等其他机器学习问题中。作为统计学习理论的一 个新方法,其在医疗诊断,人脸检测与识别,说话人识别等领域的应用成为模式 识别领域研究的热点。下面将对s v m 理论做系统介绍。 2 1 机器学习问题 上世纪9 0 年代开始,机器学习作为一种智能学习方法得到广泛的研究和应 用。它主要是从一系列已知的样本集中推断出蕴含在样本集中的规则,使机器对 今后未知的样本有自学习的能力。机器学习主要有两种方法,一种是无监督的学 习,另外一种是有监督的学习。非监督学习是指样本数据中不包含输出值,学习 的任务就是理解数据产生的过程。这样的学习包括密度估计,聚类等方法。目的 是将具有相似特征的样本归为一类。 样本是由输入输出对给出的时候就称为有监督学习,有关输入输出函数关 系的样本就称为训练样本。输入输出对通常反映了输入映射到输出的一种函数 关系,当存在这性的内在函数厂o ) 时,该函数就称为目标函数。由学习算法输 出的对目标函数( x ) 的估计( x ,口) ,口人称为学习问题的解,其中函数 ,口) 由 口控制。对于分类问题,函数厂似口) 就称为决策函数。图2 一l 给出机器学习的学 习过程。 对于有监督学习,学习的目的是根据给定的训练样本求对某系统输人输出之 间依赖关系x ,一y 。,的估计,使它能够对未知输出作出尽可能准确的预测 z 一厂( r ,岱) 。给定一个新输入的样本x ,和_ 个特定的参数口,系统将给出一个 唯一的输出( x ,a ) 。函数( z ,口) 及其参数口的产生过程就是我们所说的学习训 练。 7 支持向量机在说话人识别系统中的应用 哺( x ,口) 图2 - 1 机器掌习过程图 设x = “,x 2 ,吒) gcr ”为拧维矢量空间g 中的随机矢量,其分量 薯o = l ,2 ,刀) 为对象的第f 个特征的测量值( 包含检测噪声) ;随机矢量x 有确定 的概率分布p ( 功设对象的模式可按特征划分为后类,用正整数y 0 ,l ,七一l 表 征,即川表示对象的模式划分属于第啪吖化嘲_ l _ 妨= 置;主策暑 当特征矢量为x 时,模式划分属于y 的条件概率分布密度为p o x ) ,此为后验概 率。 若要构造一个分类器进行模式识别,首先要定义一个判别函数 ( 毛碍) o ,1 ,七一1 ) , r = i 。尺u ( 功x ) p ( 功凼表示当测量矢量为x 时,将对象判定为第fo = o l ,后一1 ) 类。 定义损失函数为 蝴删斗妨= 0 多主篙富 仁- , 上式中y 是对象实际所属的类别,而厂 ) 是分类器根据决策规则将对象划分的类 别。 在已知观测矢量x 的条件下,决策函数o ) 所导致的损失的条件期望值为: 尺( ( x ) x ) = 三( y ,o ) ) p ( y 功 ( 2 2 ) ( 2 2 ) 式表示测试矢量为x 时的条件风险。决策中所有可能测量值的总风险尺 称为期望风险: 尺( 口) = ,寺陟一( 墨口) 妒( x ,y ) ( 2 3 ) 这样,学习问题就成了在概率密度函数p ( x ,少) 未知,己知观测样本的条件下 是( 毛,m ) ,( 邑,儿) ,( ,以) ,求取使期望风险尺( 口) 最小的决策函数厂( 口) 。 而在实际应用中,计算期望风险( 即真正的风险) 尺( 口) 是非常困难的,甚至 是不可能的。因为求整个样本空间q 中的尸( x ,少) 在应用中是不可能的。 在应用中,常常用经验风险去逼近期望风险。经验风险则是指在一个有限的 8 硕士学位论文 测试集上的平均风险。其公式表示如下: 1 - l ( 口) = 素1 只一( 毛,口) l ( 2 4 ) 二l f :l 用经验风险逼近期望风险,这一原则称为经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o n ) 归纳原则,简称e r m 原则。 仔细研究经验风险最小化原则和机器学习问题中的期望风险最小化道德要 求,可以发现用经验风险去逼近期望风险,只是直观上的想当然的做法,并没有 可靠的理论依据。首先,如。( 口) 和尺 ) 都是口的函数,概率论中的大数定理只说 明了当样本趋近于无穷多时如,( 口) 将在概率意义上趋近于尺q ) ,并没有保证 如,( 口) 最小的口与使尺( 口) 最小的口是同一个点,同时,我们不能保证当样本数有 限时,如。( 口) 能趋近于尺( 口) 。这一研究很好地解释了在机器学习问题中,当训 练保证经验风险最小时,但分类器的分类效果并不尽如人意的现象。在早期神经 网络研究中,人们总是把注意力集中在如何使经验风险更小,但很快发现,一味 追求训练误差小并不是总能达到很好的预测效果。人们将学习机器对未来输出进 行正确预测的能力称为推广性。某些情况下,当训练误差过小反而会导致推广能 力的下降。这就是几乎所有神经网络研究者都曾遇到的所谓过学习( o v e r f i t t i n g ) 问题 2 7 。从理论上看,模式识别中也存在同样的阀题,但因为通常使用的分类 器模型都是相对比较简单,因此过学习问题并不像神经网络中那样突出。之所以 出现过学习现象 2 7 ,一是因为学习样本不充分,二是学习算法设计不合理,这 两个问题是互相关联的。在神经网络中,如果对于有限的训练样本来说网络的学 习能力过强,足以记住每一个训练样本,此时经验风险很快就可以收敛到很小甚 至零,但我们却根本无法保证它对未来新的样本能够得到很好的预测。这就是有 限样本下学习机器复杂性与推广性之间的矛盾。 在很多情况下,即使我们己知问题中的样本来自某个比较复杂的模型,但由 于训练样本有限,用复杂的预测函数去学习对样本进行学习的效果通常也不如用 相对简单的预测函数,当有噪声存在时就更是如此。 从这些讨论中我们可以得出以下基本结论 2 8 : 在有限样本情况下, ( 1 ) 经验风险最小并不一定意味着期望风险最小: ( 2 ) 学习机器的复杂性不但与所研究的系统有关,而且要与有限的学习样本相 适应。有限样本情况下的学习精度和推广性之间的矛盾似乎是不可调和的,采用 复杂的学习机器容易使学习误差更小,但却往往丧失推广性。因此,人们研究了 很多弥补方法,比如在训练误差中对学习函数的复杂性进行惩罚,或者通过交叉 验证的方法进行模型选择以控制复杂度,等等,使原来的方法得到了该进。但是, 这些方法多带有经验性质,缺乏完善的理论基础。下节将介绍统计学习理论,统 9 支持向量机在说话人识别系统中的应用 计学习理论从理论给机器学习领域中的这一系列困扰的问题找的彻底的答案。 2 2 统计学习理论 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 就是针对上节介绍的经验风 险和期望风险之间的关系问题提出的。该理论对用经验风险最小化原则解决期望 风险最小化问题的前提是什么,当这些前提不成立时经验风险最小化方法的性能 如何,以及是否可以找到更合理的原则等基本问题进行了深入的研究。 其主要内容包括四方面 2 9 : 1 ) 经验风险最小化准则下统计学习一致性的条件: 2 ) 在这些条件下关于统计学习方法推广性的界的结论:、 3 ) 在这些条件的基础上建立的小样本归纳推理准则: 4 ) 这种推理准则实现的方法。 其中,最有指导性的理论结果是推广性的界,与此相关的个核心概念是v c 维。 2 2 1v c 维 神经网络与其他经典学习算法将e r m 原理视为当然的出发点,并未研究 其合理性、适用范围、可达到的近似质最等理论问题。v c 理论严格地证明了 e r m 原理合理性的依据:一致收敛性的充分必要条件、快速收效的充分条件和 一致收敛与概率分布无关的充分必要条件,它们是统计学习渐近理论的3 个最重 要的成果。这些成果的详细表述和严格证明可在v a p n i k 的著作中找到 2 8 ,3 3 】。 更重要的是,通过渐近理论的研究导出了一个十分重要的表达函数集复杂性 的容量概念一一v c 维数。它在更有实际意义的非渐近理沦中是个关键的概 念。v c 维数是2 3 式中的近似函数组厂( x ,口) ,口a 的一个属性,其定义与函数 类型有关。下面以模式识别中划分为两类的简单问题为例来说明这个概念。此时 函数组为( x ,口) + l ,一1 ) ( 垤,口) ,这种函数分别用+ l 和一l 标记两类不同的样本 点称为指示函数。,个样本划分为两类,共有2 种不同的分法,若对所有这此 分法,都能在( x ,口) 中找到一个指示函数给出正确的分类标记,则称函数组 ( 墨口) 能将这,个样本点分完。一个指示函数组能分完的样本点的最大数目称为 该函数组的v c 维数。 例如,在二维空间中,取函数组为 ( x ,口) = s i g n w x + ) ( 2 5 ) 其中,s i 舯 表示符号函数: s i g n t 甜,= 二l 喜:三三 c 2 6 , 1 0 硕士学位论文 ( 2 5 ) 式中的参数为口= w ,) ,该函数组就是这些参数取所有可能的值时在二维 空间( 平面) 上得到的所有有向直线: 嵋一十艺+ = 0v 嵋 ( 2 - 7 ) 其中,任一条直线将平面分成两个半平面,直线的法线方向所对的半平面内的样 本标记为+ l ,另外一个半平面内的样本标记为一1 当j = 2 时有4 种分法。当,= 3 时 有8 种分法,均可用( 2 7 ) 式中的有向直线分完,如图2 2 ,图2 3 所示。当,= 4 时 有1 6 种分法,图2 4 给出了一个反例,( 2 7 ) 式中找不出一条直线能将其正确分类, 因此函数组( 2 5 ) 式能分完的样本集最多只能包含3 个样本点,该函数组的v c 维数 就是3 。 图2 2 时的v c 维数图解 图2 3时的v c 维数图解 支持向量机在说话人识别系统中的应用 图2 - 4时的不可分的惰形例图 若对任意正整数刀,总存在一组,个矢量,能用该组指示函数按所有可能的2 “ 种方式分开,则该组指示函数的v c 维数为无穷大。v c 维数有限是e r m 归纳具有 一致性并与概率分布无关的充分必要条件,同时也是快速收敛的充分条件。 上例的结果可推广到一般线性系统,线性指示函数 化口) = s 啦l m 墨+ l ( 2 - 8 ) f = l 其v c 维数 = 刀+ l 。线性连续函数 ( x ,口) = m 毛+ ( 2 9 ) f = l 的v c 维亦为j l i = 刀+ l ,即对于线性模型,v c 维数与参数的数目一致。对于非线性 系统,v c 维数一般并不等于还可能小于参数的数目,决定推广能力的是v c 维数, 而不是参数的数目的多少。对于一些比较复杂的学习机器( 如神经网络) ,其v c 维除了与函数集( 神经网络结构) 有关外,还受学习算法等的影响,因而v c 维 的确定更加困难。对于给定的学习函数集,如何计算v c 维是当前统计学理论中 的有待继续研究的问题。 2 2 2 推广性的界 统计学习理论系统地研究了各种类型的函数集( 完全有界函数集、任意非负 函数集和任意非负函数集) 的经验风险和实际风险之间的关系,即推广性的界, 得出的结论是:对于两类分类问题,对指示函数集中的所有函数( 包括使经验风险 最小的函数) ,经验风险( 口) 和实际风险尺( 口) 之间以至少l - ,7 的概率满足如下 关系: 1 2 硕士学位论文 荆( 口) + 顿鲤盟笋幽) ( 2 _ l o ) 其中办是函数集的v c 维,是样本数。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验 风险( 训练误差,上式右边的第一部分) ,另一部分称作置信范围( 也称v c 置信, 上式右边的第二部分) ,它和学习机器的v c 维及训练样本数有关。它反映了根据 经验风险最小化原则得到的学习机器的推广能力,因此称作为推广性的界。 ( 2 一l o ) 中的关系可以简单表示为: 尺( 口) 月如( 口) + 痧u 办) ( 2 l1 ) 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范围 越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学 习现象的原因。机器学习过程不但要使经验风险最小还要使v c 维尽量小以缩小 置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。 2 2 3 结构风险最小化理论 从上面的结论看到,经验风险最小化原则在样本有限时是不合理的,因为我 们需要同时最小化经验风险和置信范围。事实上,在传统方法如神经网络设计中, 选择学习模型和算法的过程就是调整置信范围的过程,如果模型比较适合现有的 训练样本( 相当于z 力值适当) ,则可以取得比较好的效果。但因为缺乏理论指导, 这种选择只能依赖先验知识和经验,造成了网络设计对使用者“技巧 的过分依 赖。有了式( 3 9 ) 的理论依据,统计学习理论提出了一种新的策略,即把函数集 构造为一个函数子集序列,使各个子集按照v c 维的大小( 亦即q 的大小) 排列:在每 个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际 风险的最小,这种思想称作结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ) 即s r m 准贝l j 2 8 ,3 0 3 2 经验风险最小化的具体过程就是首先把函数集s = f ( x ,口) ,口) ,口人分解为 一个函数子集序列( 或叫子集结构) : 墨c c c 瓯c c s ( 2 一1 2 ) 使各个子集能按照4 5 的大小排列,也就是按照v c 维的大小排列,即: 囊s 吃s ( 2 一1 3 ) 这样在同一个子集中置信范围就相同:然后在每一个子集中寻找最小经验风险, 通常它随着子集复杂性的增加而减小。选择最小经验风险与置信范围之和最小的 子集,就可以达到期望风险的最小,这个子集中使经验风险最小的函数就是要求 的最优函数。这种思想称为有序风险最小化或昔结构j x l 险最小化( s t r u c t u r a l 支持向量机在说话人识别系统中的应用 r i s km i n i m i z a t i o n ,s r m ) 原则。如图2 5 所示。 风 险 图2 5 结构经验风险原理图解 实现结构风险最小化原则有两种截然不同的思路:一种思路是通过选择一个 具有适当结构的学习机器,保持置信范围固定不变,最小化经验风险,从而最小 化期望风险:第二中思路恰好与第一种做法相反,这里保持经验风险固定,从而 最小化置信范围。即设计函数集的某种结构使得在每个子集中都能取得最小的经 验风险( 如使训练误差为0 ) ,然后只需从中选择适当的子集使置信范围最小,那 么在这个子集中使置信范围最小的函数就是最优函数。实现这两种思路的学 习机器分别是神经网络( 第一种思路) 和s v m ( 第二种思路) 。在使用神经网络处理 问题时,首先选定神经网络的结构,这就决定了神经网络的v c 维,然后训练神经 网络,使经验风险最小化。但由于目前神经网络结构选取并没有理论指导,而且 通用的后向传播( b a c kp r o p a g a t i o n ,b p ) 学习算法容易陷入局部极小点,经验风 险不能达到最小,所以神经网络的推广能力不能得到很好的控制。s v m 由有限训 练样本得到的决策规则对独立的测试集仍然能够得到小的误差,是一种比较好地 实现了结构风险最小化思想和v c 维理论算法的方法。即先选择使置信范围最小的 子集即支持向量,然后在其中构造最优函数。统计学习理论之所以从2 0 世纪9 0 年代以来受到越来越多的重视,很大程度上是因为它发展出了支持向量机这一通 用学习方法。 2 3 支持向量机 统计学习理论专门研究实际应用中有限样本情况的机器学习规律,并发展了 1 4 硕士学位论文 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v 髓) 2 9 3 l ,3 3 这一新的通用学习方 法,由于它基于结构风险晟小化( s r m ) 原理,而不是传统统计学的经验风险最小 化( e 跚) ,表现出很多优于已有方法的性能,迅速引起各领域的注意和研究兴趣, 取得了大量的应用研究成果,推动了各领域的发展 3 4 。 支持向量机的出色之处在于,其根据有限的样本信息在模型的复杂性( 即对 特定训练样本的学习精度,a c c u r a c y ) 和学习能力( 即无错误地识别任意样本的能 力) 之间寻求最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论