




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
捅要 长期以来,信用风险是金融行业,特别是银行业的最主要的风险形式。贷款 是商业银行的主要资产业务,因此其经营风险与生俱来,商业银行要保持稳健经 营,必须加强信贷的风险控制管理,建立健全包括银行贷款风险管理在内的金融 系统。而在我国,消费信贷作为金融领域的新生事物迅速发展,消费贷款在银行 贷款余额中的比例不断上升,信贷风险也越来越突出。而科学合理的信贷客户分 类是有效信贷管理的重要前提。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 作为新型的更有效的分类方法, 已经开始应用于金融领域。它是统计学习理论( s l t ) 的一种成功实现,建立在 v c 维理论和结构风险最小化原理基础上,根据有限样本信息在模型复杂性和学 习能力之间寻求一种折中,以期达到最佳的推广性能,与传统学习方法相比,它 具有更好的泛化性能,在解决小样本、非线性及高维问题中表现出许多特有的优 势。本文旨在把新的数据挖掘技术支持向量机应用到消费信贷客户的分类中 去,为银行贷款的风险控制管理提供决策支持。 本文首先详细阐述了消费信贷客户分类、消费信贷风险管理和支持向量机的 研究现状,然后研究了支持向量机相关原理,包括机器学习问题、统计学习理论、 二值分类问题、最优分类超平面和线性支持向量机等问题,特别详细研究了核函 数问题。 然后在深入研究支持向量机相关原理的基础上,本文重点研究了支持向量机 在消费信贷客户分类中的实现问题。包括对原始消费信贷客户数据的预处理, w i n s v m 软件建立分类模型的全过程,制订详细训练集选取、属性集选取以及核 函数选取的策略,以及交叉验证法在核函数选择问题上实际应用。 最后在总结大量实验数据的基础上本文确定了基于支持向量机的消费信贷 客户分类模型的参数并总结全文,指出了有待于进一步解决的问题,对支持向量 机理论的发展前景做了展望。 关键词:支持向量机,s v m ,消费信贷,客户分类 a b s t r a c t f o ral o n gt i m e ,t h ec r e d i tr i s ki st h ep r i m ef o r mo fr i s ki nf i n a n c i a ls e c t o r , e s p e c i a l l y b a n k i n gs e c t o r b e i n gt h em a j o ra s s e tb u s i n e s si nc o m m e r c i a lb a n k s ,l o a n i n gi sb o r n w i n lo p e r a t i o nr i s k s t or u ni nas t e a d yw a y , c o m m e r c i a lb a n k sa r es u p p o s e dt o e n h a n c ec r e d i ta n dv e n t u r ec o n t r o lm a n a g e m e n tt oe s t a b l i s ha n dp e r f e c tf i n a n c i a l s y s t e m si n c l u d i n gb a n kc r e d i tv e n t u r em a n a g e m e n t a san e ws e r v i c ei nf i n a n c i a l s e c t o r , c o n s u m e rc r e d i ti ss p r i n g i n go u ti nc h i n a w i t ht h ei n c r e a s i n gr a t eo f c o n s n m e rl o a ni nb a n kl o a nb a l a n c e ,c r e d i tv e n t u r eb e c o m e sm o r ea n dm o r eo b v i o u s a n dr a t i o n a lc l a s s i f i c a t i o no fc r e d i tc u s t o m e r si st h ep r i m a r yp r e m i s ei ne f f i c i e n t c r e d i tm a n a g e m e n t s u p p o r tv e c t o rm a c h i n e ( s v m ) ,a san e wt y p eo fm o r ee f f i c i e n tc l a s s i f i c a t i o n m e t h o d s , h a sb e e na p p l i e di nf i n a n c i a li n d u s t r y b a s e do nv c d i m e n s i o n a lt h e o r ya n d t h ep r i n c i p l eo fm i n i m i z i n gs t r u c t u r a lv e n t u r e ,s v mi sas u c c e s s f u li m p l e m e n t a t i o no f s t a t i s t i c sl e a r n i n gt h e o r y ( s l a 3t or e a c hab a l a n c eb e t w e e nm o d e lc o m p l e x i t ya n d l e a r n i n ga b i l i t yi na c c o r d a n c ew i t hl i m i t e ds a m p l ei n f o r m a t i o nt og e t t ot h eo p t i m u m e x t e n s i o nf u n c t i o ne x p e c t e d l y c o m p a r e d 诵t l lt r a d i t i o n a ll e a r n i n gm e t h o d ,s v mi s m o r ee x t e n s i v ea n do u t s t a n d si ns m a l ls a m p l e ,n o n l i n e a r i t ya n dh i 。g h - d i m e n s i o n a s p e c t s t i l i st h e s i sa i m st oo f f e rs t r a t e g i cs u p p o r ta n ds u g g e s t i o nt ob a n kl o a n i n g v e n t u r ec o n t r o la n dm a n a g e m e n tw i t ht h i sn e wb o r nd a t am i n i n gt e c h n o l o g y - - - t h e a p p l i c a t i o no fs v m i nc u s t o m e r s c l a s s i f i c a t i o ni nc o n s u m e rc r e d i t n l i st h e s i sf i r s t l yg i v e sad e t a i l e dd e s c r i p t i o no ft h er e s e a r c hs t a t u sq u oi nc u s t o m e r c l a s s i f i c a t i o ni nc o n s u m e rc r e d i t ,c o n s u m e rc r e d i tm a n a g e m e n ta n ds v m ,t h e nt h e t h e o r y o fs v m ,w h i c hi n c l u d e sm a c h i n el e a r n i n g , s t a t i s t i c st h e o r y , t w o c l a s s c l a s s i f i c a t i o n ,o p t i m a ls e p a r a t i n gh y p e r p l a n ea n dl i n e a r i t ys u p p o r tv e c t o rm a c h i n es o o na n ds of - 0 r d la n dg i v e sad e 印r e s e a r c hi nk e r n e lf u n c t i o ni np a r t i c u l a r a n di n - d e p t hr e s e a r c ho i lt h er e l e v a n tb a s i cp r i n c i p l e so fs v m ,t h i st h e s i sm a j o r l y g i v e si n s i g h to ft h ev a l i d i t yo ft h es v ma p p l i c a t i o ni nc u s t o m e r s c l a s s i f i c a t i o ni n c o n s u m e rc r e d i t ,i n c l u d i n gp r e t r e a t m e n to fo r i g i n a lc o n s u m e rc r e d i td a t a , t h ew h o l e p r o c e s so ft h es o f t w a r ew i n s v mm o d e lb u i l d i n g ,t h es 仃a t e g yo fd e t a i l e de x e r c i s e a n da t t r i b u t ea l b u ms e l e c t i o n t i l i st h e s i sa l s op u t sc r o s s v a l i d a t i o ni n t ot h es e l e c t i o n o fk e r n e lf u n c t i o nc r e a t i v e l y b a s e do nm a s s i v ee x p e r i m e n t a ld a t a , f i n a l l yt h i st h e s i sa s c e r t a i n st h ep a r a m e t e ro f c u s t o m e r s c l a s s i f i c a t i o ni nc o n s u m e rc r e d i ta n ds u m m a r i z e st h ew h o l ep a p e rp o i n t i n g o u ts o m ep r o b l e m sn e e d sf u r t h e rp r o b i n ga n dh a sap r o s p e c ti nt h ed e v e l o p m e n to f s v m k e y w o r d s :s u p p o r t v e c t o rm a c h i n e , c o n s u m e rc r e d i t , c u s t o m e rc l a s s i f i c a t i o n i i 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容 外,本论文不含任何其他个人或集体已经发表或撰写过的作品成 果。对本文所涉及的研究工作做出重要贡献的个人和集体,均已 在文中以明确方式标明。本人完全意识到本声明的法律责任由本 人承担。 特此声明 学位论文作者签名:差过参杪 妒7 舭肘7 日 学位论文版权使用授权书 本人完全了解对外经济贸易大学关于收集、保存、使用学位 论文的规定,同意如下各项内容:按照学校要求提交学位论文的 印刷本和电子版本;学校有权保存学位论文的印刷本和电子版, 并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有 权提供目录检索以及提供本学位论文全文或部分的阅览服务;学 校有权按照有关规定向国家有关部门或者机构送交论文;在以不 以赢利为目的的前提下,学校可以适当复制论文的部分或全部内 容用于学术活动。保密的学位论文在解密后遵守此规定。 学位论文作者签名:赵- 4 劢v 一,、 导师签名: 荡确 矿7 年够月刁e l 炉7 年够月7 日 1 1 研究背景与意义 第一章绪论 在我国,消费信贷作为金融领域的新生事物迅速发展。随着消费贷款在银行 贷款余额中的比重不断提高,消费信贷风险问题也越来越突出。与企业贷款客户 相比,消费信贷客户分类难度更大,其原因之一是借款人信息的获得与核实比较 困难;二是消费者贷款只有达到一定的规模才具有经济意义,而要达到一定的规 模,银行必须面对成千上万上亿的消费者,但每个借款者仅占贷款总额的很小比 例。这给消费信贷风险管理提出了更高的要求,面对成千上万的消费者,科学合 理的客户分类可有效地降低信贷风险,因此它已成为信贷风险管理的重要前提。 在风险管理方面,我国银行业缺乏专业风险管理技术和人才,信贷风险管理 技术与国外存在巨大差距,而且国内银行由于历史包袱较重,工作重心一直在风 险控制,风险的早期防范( 如信贷客户的分类) 一直没有得到足够的重视。因此, 加强风险的早期防范将成为提高我国银行业风险管理水平的重要内容,而科学合 理的信贷客户分类能为有效识别风险提供决策支持,并在整个风险管理流程中起 着积极的作用。 以此同时,在金融市场全球化、电子化、虚拟化的发展背景下,当今世界已 进入到一个信息化和数量化的时代,金融业每天产生的数据正以惊人的速度增 长,不过“数据丰富但知识贫乏 却已成为一种普遍现象。人们迫切期待从庞大 的金融数据中及时地有效地挖掘出高附加值的信息或有用的知识,并为其经营管 理决策服务。这种需求大大推动了数据挖据相关理论、技术以及其在金融业中的 应用发展。决策的智能化、管理信息化已成为金融企业提升综合竞争力的必然选 择,而把先进的现代金融数据挖掘技术和方法应用于实践,已成为了提升金融企 业决策智能化的重要手段。所以研究现代数据挖掘在我国银行业的实际应用有着 很好的现实意义,有利于推动银行业决策的智能化。 机器学习算法在数据挖掘中扮演着重要的角色。机器学习致力于机器的智能 化,该领域已有数十年历史。上世纪9 0 年代,v v a p n i k 建立的统计学习理论 开启了机器学习理论发展的新阶段,该理论系统地解决了有限样本上的诸多学习 问题。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 作为统计学习理论的实现工 具,是一类具有优秀性能的学习机器,它借助于最优化方法解决机器学习问题。 近年来s v m 在理论研究和算法实现方面都取得了突破性进展,开始成为克服“维 数灾难 和“过学习 等困难的有力手段。支持向量机方法与传统统计学相比, 它没有以传统的经验风险最小化原则作为基础,而是建立在结构风险最小化 ( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 原理基础之上,成为一种新型的结构化学习 方法。它能很好地解决有限数量样本的高维模型的构造问题,而且所构造的模型 具有很好的预测性能。s v m 方法很多成功的应用都说明了这种基于v c 维理论 发展起来的结构化学习方法的潜在优势。更重要的是:作为s v m 算法基础的 v c 维理论和结构最小化原则也为进一步完善传统的统计预测方法和经验非线性 预测方法提供了理论基础和统一的理论框架。 正因为支持向量机方法有如此多的优越性,它已成功地运用在医学、气象、 水利、环保等方面用的分类、预测和预警中,而将其应用于金融领域,只是在近 几年的事,所以研究s v m 方法在我国商业银行的应用也有很好研究意义与价值。 本文主要研究数据挖掘的支持向量机( s v m ) 方法,并把支持向量机算法 应用到消费信贷客户分类中去,通过分析大量的信贷客户基本信息,对客户进行 有效的分类,有助于客户经理对客户进行长期追踪,降低信用风险,为银行消费 信贷的风险管理提供决策支持。这源于数据挖掘技术能够发现大量数据背后隐藏 的重要的信息,将原始数据转变成知识和洞察力,从而很好地支持人们的决策。 在信贷客户分类的过程中应用数据挖掘新技术,正是沿着“数据分析知识发 现决策支持”的发展之路,向数据挖掘在银行应用的最高阶段金融智能 的大胆尝试。 1 2 国内外研究现状及发展 1 2 1 支持向量机的历史与现状 作为s v m 的奠基者v v a p n i k 早在6 0 年代就开始了统计学习理论的研究, 19 71 年,v v a p n i k 和a c h c r v o n c n k i s 在“t h en e c e s s a r ya n ds u f f i c i e n tc o n d i t i o n s f o rt h eu n i f o r m sc o n v e r g e n c eo f a v e r a g e st oe x p e c t e dv a l u e s 一文中,提出了s v m 的一个重要的理论基础v c 维理论妲1 。 1 9 8 2 年,在“e s t i m a t i o no f d e p e n d e n c e sb a s e do ne m p i r i c a ld a t a 一书中, v v a p n i k 进一步提出了具有划时代意义的结构风险最小化原理,堪称为s v m 算 法的基石1 。 19 9 2 年,b o s e r 、g u y o n 和v v a p n i k 在“at r a i n i n ga l g o r i t h mf o ro p t i m a l m a r g i nc l a s s i f i e r s 一书中,提出了最优边界分类器h 1 。 1 9 9 3 年,c o r t e s 和v v a p n i k 在“t h es o f tm a r g i nc l a s s i f i e r 一书中,进一步 探讨了非线性最优边界的分类问题嘲。 1 9 9 5 年,v v a p n i k 在“t h en a t u r eo fs t a t i s t i c a ll e a r n i n gt h e o r y 一书中,完 2 整地提出了s v m 分类1 。 1 9 9 7 年,v v a p n i k ,s g o k o w i c h 和a s m o l a 发表的“s u p p o r tv e c t o rm e t h o df o r f u n c t i o na p p r o x i m a t i o n ,r e g r e s s i o ne s t i m a t i o na n ds i g n a lp r o c e s s i n g j 一文中, 详细介绍了基于s v m 方法的回归算法和信号处理方法。 支持向量机是借助于最优化方法解决机器学习问题的新工具。自2 0 世纪9 0 年代出现之后,由于其潜在应用价值,吸引了国际上众多的知名学者,近几年出 现了许多发展和改进的支持向量机算法,s v m 算法的研究开始成为机器学习领 域新的研究热点。 支持向量机算法研究目标概括起来,六个字:“更小 、“更快”、“更广 。所 谓“更小一,是指构造支持向量机所需的内存更小;或者反过来说,利用有限的 内存,处理尽可能多的样本。所谓“更快 ,顾名思义,就是研究支持向量机的 各种新的快速训练算法。所谓“更广 ,是指通过对算法的修改或改进,使支持 向量机的应用范围更加广泛。 支持向量机算法在模式识别领域已经有了很好的应用,第一个应用是手写数 字识别问题嘲,后来应用于人脸识别与人脸检测阻1 ,以及文本分类等各种领域。支 持向量机在生物信息领域,如:蛋白质的分类、d n a 分析等取得了较好的结果。 此外,支持向量机还应用于时间序列分析、回归分析n 们、聚类分析等领域的研究。 例如,m t i ,b e l ll a b 和微软研究所等已成功地将s v m 算法应用于动态图像的 人脸跟踪,信号处理,语音识别,图像分类和控制系统等诸多领域。应用于金融 领域,只是最近几年的事。s c h e b e s c k k b 和s h e e k i n r ( 2 0 0 5 ) 用一组高位数据组 成的向量描述申请者,从而利用非线性s v m 对信用卡申请者进行评级。w e i h u a n g ,y o s h i t e r un a k a m o r i ,s h o uy a n gw a n g ( 2 0 0 5 ) 给出了预测股市周运动方向 的支持向量机方法,并用日经指数和b p 神经网络方法作了对比,得出了支持向 量机方法更好的结论。f r a n c i s 和l i j u a nc a o ( 2 0 0 1 ) 用支持向量机预测金融时间序 列,利用芝加哥的期货数据实证得出支持向量机优于多层b p 神经网络方法。 p i n g - f e n gp a j 和c h i h s h e n g ( 2 0 0 5 ) 把支持向量机和a r i m a 模型相结合用于股票 价格预测。 支持向量机自出现以来应用领域越来越广泛,相比之下,分类问题的研究 较为成熟,其他方面如时间序列分析,回归,聚类等方面的研究,还有待进一步 的完善。另一方面,在实际应用中,出现的算法参数选择,特征选择问题等,还 需进一步的研究。 1 2 2 消费信贷风险管理现状 西方国家的个人信用制度和法律制度通常较为完备,是商业银行消费信贷风 险管理的前提条件。经过稳定的发展之后,许多外部条件在这些国家日趋成熟和 3 完善。个人信用评估机构的设立、信用评估模型的建立、个人信用历史数据的积 累以及违约者惩罚机制的完善等等都是外部条件日益完善的具体体现。同时,随 着计算机技术的不断改进以及网络的成熟发展,以数理统计、新型非线性方法、 人工智能法、优化方法等等为代表的先进数理和系统工程方法,在风险管理系统 的各个领域也得到推广,提高了消费信贷风险的管理水平。风险管理也越来越倾 向于技术化,智能化。 而在我国消费信贷还处于起步和发展阶段,有关消费信贷风险管理的研究尚 处于探索之中,信贷风险管理的技术和人才极度缺乏,与国外存在巨大差距。主 要研究成果集中在概括性地介绍消费信贷风险的类型、风险产生的原因、或简单 地提出一些风险识别及管理对策等方面。主要包括: 何磊( 2 0 0 7 ) 在“我国商业银行消费信贷风险的分析及对策”中,分析 出银行消费信贷业务存在信用风险、流动性风险还有政策风险等; 郭怡之( 2 0 0 7 ) 在“个人消费信贷业务的风险及其控制”中指出。银行 风险管理机制的缺陷、个别贷款种类风险的过度集中及经营销售理念落 后、法律保障体系缺失等加大了消费信贷风险程度; 程超( 2 0 0 7 ) 提出将单笔消费贷款的整个运作周期看作个项目,把项 目管理的风险管理过程和方法应用于消费信贷风险管理; 尚立红,黄立平( 2 0 0 4 ) 在“消费信贷中的行为评分研究 中,提出在 银行贷款贷出后,应使用行为评分进行风险管理,尽可能的减少损失。 专门研究信贷客户分类的主要成果有: 邹新月( 2 0 0 5 ) 以l o g i s t i cr e g r e s s i o nm o d e l 作为信用评估模式,对银行 信贷风险进行客观分析; 张洋,陈培友( 2 0 0 5 ) “基于粗糙集的r f m 分析对银行贷款客户分类 的研究 ,其使用粗糙集的数据挖掘技术,将市场营销中的r f m 客户 细分的方法运用于贷款客户的分类中去,为银行贷款的风险控制管理提 供决策支持 综上,关于消费信贷风险管理的研究大多是一些概括性的、理论性的成果, 真正把现代技术应用于实践的研究非常少,而专门研究信贷客户分类实用技术的 就更少之又少。 1 3 主要工作及预期成果 本文的主要工作包括: ( 1 ) 收集消费信贷客户分类和支持向量机相关的国内外论文,了解各自最 新的研究动态,明确论文研究的实际意义,并引导本文研究工作。 4 ( 2 ) 针对分类问题出现的核函数选择、算法参数选择问题,本文通过学习 研究统计学习理论,深入探讨了支持向量机的算法原理,对后续研究工作提供扎 实的理论基础。 ( 3 ) 对分类过程中涉及到的每个步骤进行深入研究,包括数据的预处理、 特征选取、分类算法及模型评估等。 ( 4 ) 为了得到精度较高的分类结果,本文选用交叉验证方法选择核参数, 进行了大量的实验。通过对不同规模的样本进行实证研究,分析核参数对分类结 果的影响。 本论文预期的成果包括: ( 1 ) 把数据挖掘的新技术支持向量机应用于实际的消费信贷客户分类 中,建立一个有效的信贷客户分类模型。 ( 2 ) 通过交叉验证法选择核参数,研究核参数对分类结果的影响。 1 4 本文组织结构 本论文主要研究了数据挖掘新方法支持向量机在消费信贷客户分类中 的应用,本论文共分五章,各章内容编排如下: 第一章绪论,我们首先概述了消费信贷客户分类的重要作用,并引出一种新 的机器学习分类方法一支持向量机( s v m ) 。然后阐述了消费信贷风险管理的 现状以及支持向量集的发展历史和研究现状。最后介绍了本文的主要工作和论文 的章节结构。 第二章首先介绍了机器学习相关理论和统计学习理论的核心概念,指出统计 学习理论是针对有限样本的机器学习理论。然后详细介绍了支持向量机原理,包 括二值分类问题、最有分类超平面和线性支持向量机三个部分。最后对支持向量 机理论的三大模块之一的核函数进行了的详细阐述。 第三章研究基于支持向量机的消费信贷客户分类的实现问题。首先进一步阐 述消费信贷客户分类的意义,并给出了分类的一般过程。然后重点阐述了对原始 消费信贷客户数据的预处理过程,以及使用w i n s v m 软件建立模型的一般过程, 并详细说明了建立模型的训练集选取策略、属性集选取策略以及核函数的选取。 最后初步完成分类模型建立。 第四章首先介绍了交叉验证法的原理,然后针对w i n s v m 建立的分类模型 进行全面的实证研究,包括交叉验证法在核函数选择问题上的实际运用,属性集 选取对分类结果的影响。最后在总结大量实验数据的基础上总结支持向量机在分 类方面的优越性和核函数、属性集对分类结果的影响。 第五章对本文的工作进行总结,并对未来的研究方向进行展望。 5 2 0 引言 第二章统计学习理论与支持向量机 各种机器学习方法的共同理论基础之一是统计学,而统计学研究的是样本数 目趋于无穷大时的渐进理论,统计学中关于估计的一致性,无偏性和估计方差的 界等也都基于此假设。例如:b a y e s ,k n n 等传统类型分类器,都是以样本数目 无限多的假设为前提,即只有样本数目无穷大时性能才有理论的保证。但是,在 实践中建立一个标准的、足够大的、在统计理论上有保证的训练样本库是极其困 难的。各种研究都只能是在有限样本下得出的结论,很难有理想的效果,特别是 问题处于高维空间时更是如此,而统计学习理论在这方面取得了实质性突破嘲。 以v v a p n i k 为代表的学习过程理论分析学派早在2 0 世纪6 0 年代就开始研 究有限样本情况下的机器学习问题。直到9 0 年代初期,有限样本机器学习理论 逐渐成熟起来,形成了一个较为完善的理论体系统计学习理论( s t a t i s t i c a l l e a r n i n gt h e o r y ,简称s t l ) 。小样本统计学习理论基于结构风险最小化原则 ( s m r ) ,在寻求经验风险最小化的同时,寻求置信范围的最小化,因而具有良 好的推广能力。而同时神经网络( a n n ) 等较新的机器学习方法的研究遇到了 一些困难,如神经元网络结构的确定、过学习和欠学习、局部极小点等问题都是 很难解决的问题。在这种情况下,试图从更本质上研究机器学习问题的统计学习 理论逐步得到重视。 1 9 9 2 年至1 9 9 5 年,在统计学习理论的基础上发展出了一种新的模式识别方 法一支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) ,在解决小样本、非线 性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等 其它机器学习问题中。虽然统计学习理论和支持向量机方法中尚有很多问题需要 进一步研究,但很多学者认为,它们正在成为继模式识别和神经网络研究之后机 器学习领域新的研究热点,并将推动机器学习理论和技术的发展。 本文研究的消费信贷客户分类正是建立在有限样本下,高维空间的分类问 题,非常适合使用s v m 算法。任何实践都需要理论的指导,本章主要是系统地 研究支持向量机相关原理,包括了机器学习、统计学习理论、支持向量原理及核 函数的研究,为之后的实证研究奠定扎实的理论基础。 6 2 1 机器学习 2 1 1 机器学习问题的表示 机器学习问题就是通过某种训练手段,根据给定的训练集将系统的输入和输 出之间的依赖关系估计出来,并且希望这一估计可以对任意给定的输入进行尽量 精确的输出预测嘲。该问题可以形式化描述如下: 1 从固定但未知的概率分布函数p ( 了) 中独立抽取随机向量z r ”。 2 根据固定但未知的条件分布函数p ( y l 工) ,对随机向量给出一个输出值 y r 。 3 重复步骤l 、步骤2 共,次,可以得到一组样本点“,朋) ,( 而,奶) ,( 五,m ) , 对应的概率分布函数为尸( 而,乃) ,p ( x 2 ,儿) ,p ( x l ,y 1 ) ,这组样本点被称为从某一 未知概率空间抽取的训练集。因为这些样本点都是随机抽取的,它们之间无任何 关系,并且这些样本点的发生所对应的概率分布函数均为户( x ,) ,) ,所以这些样 本点是相互独立的、一致分布的。 4 选择一个函数集s = 厂( x ) 。 5 机器学习问题就是:确定一个函数厂( x ) s ,作为y 的预测值,使得在某 一准则下f ( x ) 是最佳的预测值。 综上所述,机器学习用数学的语言可描述为: 机器学习根据给定的,个独立同分布观测样本点 ( ,乃) ,( 屯,奶) ,( 毛,y 1 ) , ( 2 一1 ) 其中,而科,乃r ,i = 1 ,2 ,选择适合的函数集s ;并选定损失函数c , 在s 中寻找一个函数厂( x ) 使 尺( ) = 睁( w ,似) ) 护( 训) ( 2 2 ) 达到最小。其中,尸“y ) 是未知具体形式的概率分布函数;f ( x ) 称为决策函数 或假设;c ( x ,y ,( x ) ) 为用厂( x ) s 对y 进行预测而造成的损失函数。r ( 门成为 期望风险。在求的一个决策函数f ( x ) 后,对一个新的输入工,根据八x ) 推出x 相 应的输出y ,这称为推广。 机器学习包含了很多特殊问题,主要问题有三类:分类问题,回归估计和概 率密度估计。不同类型的机器学习问题有不同的损失函数,本文所涉及的是分类 问题,相关定义如下: 对于分类问题,输出y 只取两种值y = 1 , 0 或 l ,一l ,s 称作指标函数集或 假设集;这时损失函数可定义为: 7 如出几炉船篙 协3 , 其中,厂( 功s 。 把指示函数给出的答案与训练集实际输出不同的情况叫做分类错误。这样学 习问题就是在概率分布函数p ( x ,y ) 未知。但是数据样本( 2 - 1 ) 已知的情况下, 寻找使分类错误的概率最小的函数。 2 1 2 经验风险最小化原则 在2 1 1 中的问题,学习的目的在于使期望风险最小。然而,可以利用的信 息只有( 2 - 1 ) ,( 2 - 2 ) ,期望风险无法计算。传统的学习方法采用了经验最小化 原理( e l 蝴) ,即假设概率分布是均匀的,最小化样本定义的经验风险 ( 厂) = 寻c ( 训,厂( x ) ) ( 2 4 ) 作为对( 2 - 2 ) 式的估计。对于分类问题,经验风险就是训练样本错误率; 2 1 3 机器学习的矛盾 通常人们将机器对未来输出进行正确预测的能力称作推广能力。而在用e 跚 准则来代替期望风险最小化并没有经过充分的理论论证,只是直观上合理的做 法。实际上即便当l 趋于无穷大时,( 2 - 4 ) 式能趋于( 2 - 2 ) 式,但实际问题中 样本的数目十分有限。因此,就出现了过学习的问题,即当训练误差过小反而导 致推广能力的下降。其原因在于:一是学习样本不充分,二是学习机器设计不合 理,这两个问题是相互关联的。有时试图用一个复杂的模型去拟合有限的样本, 结果导致丧失了推广能力,这就是有限样本学习机器的复杂性和推广型之间的矛 盾。 在很多情况下,即使我们己知问题中的样本来自某个比较复杂的模型,但由 于训练样本有限,用复杂的预测函数去学习对样本进行学习的效果通常也不如用 相对简单的预测函数,当有噪声存在时就更是如此。 从这些讨论我们可以得出以下基本结论:在有限样本情况下, ( 1 ) 经验风险最小并不一定意味着期望风险最小; ( 2 ) 学习机器的复杂性不但与所研究的系统有关,而且要和有限的学习样本 相适应。 所以一种能够指导在小样本情况下建立有效的学习和推广方法的理论是非 常重要的。 8 2 2 统计学习理论 统计学习理论就是研究小样本统计估计和预测的理论,主要包括四方面内 容: ( 1 ) 经验风险最小化准则下统计学习一致性的充要条件; ( 2 ) 在这些条件下关于统计学习方法推广性的界的结论; ( 3 ) 在这些界的基础上建立的小样本归纳推理准则; ( 4 ) 实现这些新原则的实际方法。 其中,核心概念是v c 维、推广的界、结构风险最小化。 2 2 1v c 维 为了研究函数集在经验风险最小化原则下的学习过程一致收敛的速度和推 广性,统计学习理论定义了一系列有关函数集学习性能的指标,其中最重要的是 v c 维( v a p n i k - c h c r v o n e n k i sd i m e n s i o n ) 。 v c 维理论是统计学习理论的最重要的理论基础,它是一种定量反映函数集 学习能力的概念,是目前为止对函数集学习性能的最好描述指标。模式识别方法 中v c 维的直观定义是:对一个指示函数集,如果存在h 个样本能够被函数集中 的函数按所有可能的2 h 种形式分开,则称函数集能够把h 个样本打散,函数集 的v c 维就是它能打散的最大样本数目h 。 图2 1v c 维示意图 来源;数据挖掘的新方法一支持向量机 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。 所以,v c 维又是学习机器复杂程度的一种衡量。但是遗憾的是,目前尚没有通 用的关于如何计算任意函数集的v c 维的理论,只对一些特殊的函数集的v c 维 可以准确知道,例如图2 1 左图平面中直线的v c 维是3 ,图2 - 1 右图中函数集 的v c 维是2 。n 维坐标空间中的线性函数的集合的v c 维是n + l 。而对于一些比 较复杂的学习机器( 比如神经网络) ,其v c 维除了与函数集( 神经网络结构) 选择 有关外,通常也受学习算法等的影响。因此其确定将更加困难。对于给定的学习 9 函数集,如何用理论或实验的方法计算它的v c 维仍是当前统计学习理论中有待 研究的一个问题u 1 1 。 2 2 2 推广性的界 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之 间的关系,即推广性的界。关于两类分类问题,结论是:对指示函数集中的所有 函数( 包括使经验风险最小的函数) ,经验风险( 厂) 和实际风险r ( 厂) 之间以 至少l - r 的概率满足如下关系: j f c ( 厂) s ( 厂) + h l n ( 2 1 h + 1 ) - l n ( t 4 ) ( 2 - 5 ) 其中h 是函数集的v c 维,j 是样本数。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验 风险( i l i l 练误差) ,另一部分称作置信范围,它和学习机器的v c 维及训练样本数 有关。可以简单地表示为: r ( ) ( 厂) + ( 丹) ( 2 6 ) 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范 围越大,在这种情况下,尽管经验风险很小,仍然可以导致真实风险与经验风险 之间可能的差别越大,这就是出现过学习现象的原因。机器学习过程不但要使经 验风险最小,而且要使v c 维尽量小以缩小置信范围,才能取得较小的实际风险, 即对未来样本有较好的推广性。 需要指出,推广性的界是对于最坏情况的结论,在很多情况下是较松的,尤 其当v c 维较高时更是如此。而且,这种界只在对同一类学习函数进行比较时有 效,可以指导我们从函数集中选择最优的函数,在不同函数集之间比较却不一定 成立。v a p n i k 指出,寻找更好地反映学习机器能力的参数和得到更紧的界是学习 理论今后的研究方向之一。 2 2 3 结构风险最小化 从对e r m 原则及其推广能力的有关分析结论中可以看到,机器学习过程不 但要使经验风险最小,还要使v c 维尽量小,以缩小置信范围,才能取得较小的 实际风险,即对未来样本有较好的推广性。e r m 原则在样本有限时是不合理的。 其实,在传统方法中,由于缺乏理论指导,一般是根据先验知识和经验,人为地 一次一次的修改学习模型和算法,以期望调整置信范围,这种手工的方法比较适 合现有样本的离线训练。当样本数目变换且样本更新时,常常出现所选择的模型 又出现较大的偏差,需要进一步调整,于是出现了自适应算法等各种修正方法, i o 但问题的根本却未得到解决。 如果一个复杂的机器,其置信范围很大,即使可以把经验风险最小化为零, 在测试集上的错误数目仍可能很大,这叫做过学习现象。为避免过学习,必须构 造v c 维小的学习机器,但另一方面如果函数集的v c 维小,那么就难以逼近训 练数据,因此这是一对矛盾。 对于这对矛盾,在构造学习机时,根据不同侧重点可以采用两种处理方法: ( 1 ) 预先设计一个具有确定复杂度的函数集,在这个函数集上执行经验风 险最小化原则。 这是神经网络算法的出发点。在神经网络中,需要根据问题和样本的具体情 况来选择不同的网络结构。当结构模型确定以后,网络的容量也就随之确定,即 确定了置信范围,然后通过经验风险最小化求最小风险。 ( 2 ) 给定一个经验误差底线,然后选择能够满足这个误差底线的v c 维最小的 函数集。 这种方法是结构风险最小化原则的思路。支持向量机是这种思路的实现,基 于线性规划算法的支持向量机及其应用且不需要计算v c 维的具体的值,只需要 知道不同函数集的v c 维的相对大小。 简而言之,神经网络( 朋州) 采用了保持置信范围( 通过选择一个适当构 造的学习机器) 并最小化经验风险的策略,s v m 采用的是保持经验风险固定( 或 等于零) 并最小化置信范围的策略,可以看出,s v m 更侧重于获得良好的推广 能力。 另一方面,对于a n n 方法,由于合理的网络复杂度取决于具体问题,因此 对不同的问题,可能需要使用不同的网络结构,然而在对结构模型进行选择时缺 乏成熟的理论指导,所以这种选择往往是依赖先验知识和经验进行的,这就造成 了神经网络等方法对使用者技巧 的过分依赖。 对于s v m 方法,在实施结构风险最小化原则的过程中,为了便于比较函数 集的v c 维的大小,统计学习理论提出了一种新的策略:即把函数集构造为一个 函数子集序列,使各个子集按照v c 维的大小进行排列,这样在同一个子集中置 信范围就相同;在每一个子集中寻找最小经验风险,通常它随着子集复杂度的增 加而减小。在子集中选择经验风险r ( 口) 和置信范围( n h ) 之和最小的子集,作 为期望风险最小的函数模型。这种思想称作结构风险最小化( s t r u c t u r a lr i s k m i n i m i z a t i o n ) ,简称s r m 原则,如图2 2 所示。 同时,统计学习理论还给出了合理的函数子集结构应满足的条件,及其在结 构最小化原理下( s m r ) 实际风险收敛的性质。实现s m r 原则可以有两个思路 阳】 ( 1 ) 在每个子集中求最小经验风险,然后,选择使最小经验风险和置信范 围之和最小的子集。显然,对于子集数目不大的情况,这种方法尚能应付,当子 集数目趋于无穷时,这种方法是不可行的。基于线性规划算法的支持向量机及其 应用。 ( 2 ) 设计函数集的某种结构使每个子集中都能取得最小的经验风险( 如经 验风险为零) ,然后,只需选择适当的子集使置信范围最小,则这个子集使经验 风险和置信范围同时最小。 风险 函数子集:篷c 岛c 岛; v c 维: 玉坞鬼; 图2 - 2 结构风险最小化示意图 来源: 数据挖掘的新方法一支持向量机 支持向量机方法( s v m ) 就是利用了第2 个思路成功地实现了上述思想。 文献n 羽中讨论了一些函数子集结构的例子和如何根据s m r 准则对某些传统方法 进行改进的问题。 2 3 支持向量机原理 支持向量机( s v m ) 是基于结构风险最小化( s i 蝴) 原则建立起来的学习 机器。由于s r m 原则是针对二值分类问题提出的,因此关于s v m 的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中音乐课堂多声部合唱教学策略与音乐教育改革研究论文
- 校本课程开发中的课程内容设计论文
- 绘画课程对学生视觉思维的影响论文
- 基于虚拟现实技术的初中地理教学情境创设与教学效果评价论文
- 艾伯森财务管理制度
- 苗圃地员工管理制度
- 茶牌坊人员管理制度
- 融资合同:流动资金贷款合同
- 评估指标体系和评估机制构建支撑工作竞争性磋商文件
- 财政学 期末考试复习重点总结
- 四川省宜宾市高县2023年数学六年级第二学期期末联考试题含解析
- 大学《管理经济学》期末复习核心知识点及考试真题解析
- 第五章-不规则三角网TIN的建立课件
- 《刑法》讲座-课件
- 中级养老护理人员技能培训
- 第二单元第1课时《线的认识》示范课教学课件【北师大版四年级数学上册】
- 重庆市建设工程施工项目每日“防高坠三检”检查记录表
- 国开电大本科《人文英语4》机考总题库
- JJF 1059.1-2012测量不确定度评定与表示
- GB/T 6070-1995真空法兰
- 民办非企业单位理事、监事备案表
评论
0/150
提交评论