(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf_第1页
(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf_第2页
(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf_第3页
(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf_第4页
(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(统计学专业论文)基于支持向量机的商业银行信贷风险识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 人的智慧有一个重要的方面是从实例学习的能力,通过对已知事实的分析总 结出规律,预测不能直接观测的事实。在这种学习中,重要的是能够举一反三, 即利用学习得到的规律,不但可以较好地解释己知的实例,而且能够对未来的现 象或无法预测的现象做出正确的预测和判断。我们把这种能力叫做推广能力。 在统计学研究中,希望能够用预测函数来模拟这种能力,这就是我们所说的 基于数据的统计决镶问题。大数定理和中心极限定理在解决统计决策问题中起基 础性作用,但是传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多 时的统计性质。在现实的问题中,我们所面对的样本数目通常是有限的。虽然人 们实际上一直知道这一点,但传统上仍以样本数目无穷多时为假设推导各种算法, 希望这样得到的算法在样本较少时也能有较好的表现。然而,相反的情况是很容 易出现的。人们对于解决此类问题的努力实际上一直在进行,但大多数工作集中 在对已有方法的改进和修正,或者利用启发式设计某些巧妙的算法。在人类迈进 一个新世纪时,人们逐渐频繁地接触到一个词,就是“统计学习理论”,这实际上 早在2 0 世纪7 0 年代就已经建立了其基本体系地一门理论,它系统研究了统计决 策问题,尤其是有限样本情况下的统计决策问题。上世纪九十年代,这一理论框 架下产生了“支持向量机”这一新的通用的统计决策方法。 判别分析属于基于数据的决策问题,现有方法的重要基础是传统统计学,前 提是有足够多样本,当样本数目有限时难以取得理想的效果。与传统统计学相比, 统计学习理论是一种专门研究小样本情况下统计决策问题的理论,它是建立在一 套坚实理论基础之上的,为解决有限样本决策问题提供了一个统一的框架,它将 很多现有方法纳入其中,同时这一理论基础上发展了一种新的通用判别分析方法 分类支持向量机,并已初步表现出很多优于已有方法的性能。 商业银行作为经营资产的特殊企业,更以其特殊的经营对象、广泛的社会联 系和强大的影响力,往往成为风险聚散的焦点,如何正确的评价和分析信贷风险 就显得愈加重要。但由于我国进行信贷风险评价起步较晚,信息往往残缺不全, 如用传统的风险评价方法很难达到满意的效果。近年来许多学者将神经网络应用 与该领域,取得一些成果,但神经网络本质上是- s f 6 e 局部优化方法,又易产生过 学习问题。以结构风险最小化原则发展而来的支持向量机克服了这些问题,由于 商业银行信贷评价信息不全表现出小样本属性符合支持向量机的应用前提,本文 将支持向量机应用于我国商业银行信贷风险的判别分析研究,构建以主成分一支 持向量机方法为主体的商业银行信贷风险识别体系,并与传统的判别分析、神经 网络模型进行对比,研究结果显示支持向量机模型方法具有客观性、通用性、良 好的推广性能等优势,此项研究将对商业银行完善银行信贷风险评价方法体系, 及对商业银行防范金融风险、提高资金运作效率具有较强的实践意义。 本文内容包括:引言;一章至四章,最后是总结与展望。 第一章介绍了关于统计学习理论的基本原理,其中包括一些重要的概念,包 括统计决策理论中预测函数的推广能力,统计学习理论的v c 维及结构风险最小化 等。 第二章介绍了支持向量的具体算法,其中包括支持向量机在推广能力上的体 现,支持向量机的核心部分核函数的选取以及支持向量机的应用等。 第三章介绍了商业银行贷款风险识别提出的背景、传统风险管理存在的问题、 贷款风险识别程序,同时对信贷风险识别系统及常用识别模型作了简要的描述。 第四章构建了一套贷款评估指标体系,运用主成分一支持向量机算法进行实 证研究,并与判别分析、b p 神经网络模型进行比较。 第五章总结与展望 关键词:统计决策理论统计学习理论支持向量机商业银行信贷风险识别 a b s t r a c t i ti sf r o mt h ea b i l i t yo fc a s e - b a s e dl e a r n i n gt h a tp e o p l e si n t e l l i g e n c eh a sa l l i m p o r t a n tr e s p e c t ,s u m m a r i z et h el a wt h r o u g h a l la n a l y s i so f k n o w n f a c t ,p r e d i c tt h ef a c t 也a tc a n tb eo b s e r v e dd i r e c t l y i nt h i sk i n do fl e a r n i n g ,t h em o r ei m p o r t a n tt h i n gi st h a t c a nd r a wi n f e r e n c e sa b o u to t h e rc a s e sf r o mo n ee x a m p l e ,n a m e l yu t i l i z et h el a wl e a r n t t og e t n o to n l yc a ne x p l a l nt h ek n o w ni n s t a n c e w e l lb u ta l s oc a nm a k ec o r r e c t p r e d i c t i o na n di u d g et ot h ep h e n o m e n o ni nt h ef u t u r eo rt h eu n p r e d i c t e dp h e n o m e n a w ec a l lt h i sk i n do f a b i l i t yt h ea b i l i t yo f g e n e r a l i z a t i o n i ns t a t i s t i c ss t u d y , i ti sa b l et ob eb yp r e d i c t i n gt h a tf u n c t i o ni m i t a t e st h i sk i n do f a b i l i t yt oh o p e t h i si ss a i db yu ss t a t i s t i c sd e c i s i o nq u e s t i o nb a s e do nd a t a g r e a t n u m b e rt h e o r e ma n dc e n t e r1 i m i tt h e o r e mp l a yab a s i cr o l eo f 也ep r o b l e mt os o l v e b u t w h a tt r a d i t i o n a ls t a t i s t i c ss t u d i e si sm a i n l ya s y m p t o t i ct h e o r y , n a m e l yt h es t a t i s t i e s n a t u r ew h e nt h es a m p l ei st r e n d e dt o w a r d si n f i n i t em o r e i nt h er e a l i s t i cq u e s t i o n ,t h e f i g u r eo fs a m p l et h a tw ef a c ei su s u a l l yl i m i t e d t h o u g hp e o p l eh a v eb e e nk n o w i n g t h i s a l lt h et i m ei nf a c t ,s t i l ls u p p o s et h a td e r i v e sv a r i o u sk i n d so fa l g o r i t h r a sal o n gt i m ei n f i g u r ew i t ht h es a m p l et r a d i t i o n a l l y , h o p et h a tc a nt h e r ei sb e t t e rb e h a v i o rt o ow h e n t h e r ea r el e s ss a m p l e si nt h ea l g o r i t h mg o tl i k et h i s h o w e v e r , t h eo p p o s i t es i t u a t i o ni s v e r ye a s yt op r e s e n t p e o p l ek e e pg o i n go ni nf a c tt ot h ee f f o r t st os o l v et h i sk i n do f p r o b l e m ,b u tm o s tw o r ki sc o n c e n t r a t e d0 nt oa l r e a d yh a v i n gi m p r o v e m e n ta n dr e v i s i o n o f t h em e t h o d ,o rd e s i g n i n gs o m ei n g e n i o u sa l g o f i t h r n sh e u r i s t i c a l l y ,w h e nt h em a n k i n d s t r i d e sf o r w a r do n en e wc e n t u r y , p e o p l ef r e q u e n t l yt o u c haw o r dg r a d u a l l y , ”s t a t i s t i c a l l e a r n i n gt h e o r y ”,h a sa l r e a d ys e tu pi t sb a s i cat h e o r yo fs y s t e mg r o u n da sf a rb a c ka s t h es e v e n t i e so ft h e2 0 t hc e n t u r yi nf a c ti nt h i s 。i ts y s t e m a t i c a l l ys t u d i e st h ed e c i s i o n q u e s t i o no fs t a t i s t i c ,g o e st os t a t i s t i c a ld e c i s i o nq u e s t i o ni ne s p e c i a l l yt h el i m i t e ds a m p l e s i t u a t i o n i nt h e19 9 0 sl a s tc e n t r e y , p r o d u c e dt h i sn e ws t a t i s t i c sd e c i s i o nm e t h o di n c 0 1 t n t i o nu s eo f ”s u p p o r tv e c t o rm a c h i n e ”u n d e rt h i st h e o r yf r a m e d i s c r i m i n a t i o na n a l y s i si sa q u e s t i o ns t u d i e do nt h eb a s i so f t h ed a t a t h ei m p o r t a m f o u n d a t i o no ft h ee x i s t i n gm e t h o di st r a d i t i o n a ls t a t i s t i c s ,t h ep r e m q u i s i t eh a sa b u n d a n t s a m p l e s ,i ti sd i 筋c u l tt om a k et h ei d e a lr e s u l tw h e nt h es a m p l ei s1 i m i t e di nf i g u r e c o m p a r e dw i t ht r a d i t i o ns t a t i s t i c s ,i ts t u d ye s p e c i a l l yu n d e rt h el i t t l es a m p l es i t u a t i o n ,i t i sb a s e do nas o l i dt h e o r e t i c a lf o u n d a t i o n ,o f f e rau n i f i e df r a m ef o rs o l v i n gt h el i m i t e d p r o b l e mc o n c e r n i n gs t u d yo fs a m p l e ,i ti n c l u d e dal o to fe x i s t i n gm e t h o d si na m o n g t h e m ,d e v e l o p e dak i n do fn e wd i f f e r e n t i a t i n ga n a l y t i c a lm e t h o di n t e r e h a n g e a b l yo nt h i s t h e o r e t i c a lf o u n d a t i o na tt h es a m et i m e m u l t i c l a s ss u p p o r tv e c t o rm a c h i n eh a sa l r e a d y d e m o n s t r a t e dal o tp e r f o r m a n c et h a th a sb e e ns u p e r i o rt ot h em e t h o dt e n t a t i v e l y t h ec o m m e r c i a lb a n ki sr e g a r d e d 丛s p e c i a le n t e r p r i s e sw h i c hm a n a g e st h ea s s e t s w i t hi t ss p e c i a lm a n a g e m e n tt a r g e t ,e x t e n s i v es o c i a lc o n n e c t i o na n ds 仃o n gi n f l u e n c e p o w e r , o f i e nb e c o m et h er i s ka n dg a t h e rt h es c a t t e r e df o c u s ,h o wc o r r e c ta p p r a i s a la n d 3 a n a l y s i sc r e d i tr i s ks e e mm o r ei m p o r t a n t b u tb e c a u s eo u rc o u n t r yc a r r i e so nt h e a p p r a i s a lo fr i s ko fc r e d i ta n ds t a r t sr e l a t i v e l yl a t e ,i n f o r m a t i o ni sn o to f t e nc o m p l e t e ,i f i ti sv e r yd i f f i c u l tw i t ht h et r a d i t i o n a lm e t h o do fa p p r a i s a lo fr i s kt og e tt h er e s u l to f s a t i s f i e dw i t h i n al o to fs c h o l a ri nr e c e n ty e a r sm a k e s o m ea c h i e v e m e n t sn e u r a l n e t w o r ka p p l i c a t i o ni nt h i sf i e l d ,b u tn e u r a ln e t w o r ko n ep a r to p t i m i z em e t h o di sa l s o e a s yt op r o d u c et h ep r o b l e mc o n c e r n i n gs t u d yi ne s s e n c e s t r u c t u r er i s km i n i m i z e p r i n c i p l et h a td e v e l o ps u p p o r tv e c t o rm a c h i n eo v e r c o m eq u e s t i o nt h e s e ,b e c a u s e c o m m e r c i a lb a n kc r e d i ta p p r a i s ei n f o r m a t i o nd e m o n s t r a t e1 i t t l es a m p l ea t t r i b u t ea c c o r d w i t ha p p l i c a t i o np r e r e q u i s i t eo fs u p p o r tv e c t o rm a c h i n ea 1 1 t h ed i s c r i m i n a t i o nt h a tt h i s t e x tw i l ls u p p o r tt h ev e c t o rq u a n t i t ym a c h i n et oa p p l yt ot h ec o m m e r c i a lb a n kc r e d i tr i s k o fo u rc o u n t r yi sr e s e a r c h e d s t r u c t u r ei tw i t hp c a s v mc o m m e r c i a lb a n kc r e d i tr i s k r e c o g n i t i o ns y s t e m ,a n dt r a d i t i o n a ld i s c r i m i n a t i o na n a l y s i s ,t h en e u r a ln e t w o r km o d e l c a r r i e so nt h ec o n t r a s t ,t h er e s u l to fs t u d ys h 0 w st h a tt h em o d e lm e t h o do fs u p p o r t v e c t o rm a c h i n eh a sa d v a n t a g e s ,s u c ha so b j e c t i v i t y ,g o o dp o p u l a r i z a t i o np e r f o r m a n c e n l i sr e s e a r c hw i l lp e r f e c tt h em e t h o ds y s t e mo fa p p r a i s a lo fr i s ko f 也eb a n kc r e d i tt o t h ec o m m e r c i a lb a n k ,t a k ep r e c a u t i o n sa g a i n s tf i n a n c i a lr i s k s ,r a i s et oc o m m e r c i a lb a n k o p e r a t i o ne f f i c i e n c yo f t h ef u n da n dh a v es t r o n g e rp r a c t i c em e a n i n g s 丑l ec o n t e n to f 也i st e x ti n c l u d e s :p r e f a c e ;f r o mo n e c h a p t e r st of o u rc h a p t e r s t h e e n di sc o n c l u s i o n sa n d p r o s p e c t s c h a p t e r o n er e c o m m e n d e da b o u tc o u n t i n gb a s i cp r i n c i p l et os t u d yt h e o r y , i n c l u d i n gs o m ei m p o r t a n tc o n c e p t s ,s t a t i s t i cd e c i s i o nt h e o r yp r e d i c tp o p u l a r i z a t i o n a b i l i t yo f f o n c t i o n ,v cd i m e n s i o na n dt h es t r u c t u r er i s i cm i n i m i z e c h a p t e rt w or e c o m m e n d e dc o n c r e t es u p p o r tv e c t o ra l g o d t h m s ,h a si n c l u d e dt h e e m b o d i m e n ti ng e n e r a l i z a t i o na b i l i t yo fs u p p o r tv e c t o rm a c h i n e ,t h ek e y p a r to fs u p p o r t v e c t o rm a c h i n e 一- k e r n e lf u n c t i o nc h o o s ea n d a p p l i c a t i o no fs u p p o r tv e c t o rm a c h i n e c h a p t e rt h r e e i n t r o d u c e dt h er i s ko fc o m m e r c i a lb a n kl o a n s r e c o g n i t i o n b a c k g r o u n d ,t r a d i t i o n a lr i s km a n a g e m e n te x i s t i n gp r o b l e m ,l o a nr i s kp u tf o r w a r d d i s c e r nt h ep r o c e d u r e ,a n dd i s c e mt ot h er i s kr e c o g n i t i o ns y s t e mo fc r e d i tt h a tm o d e l s d i db r i e fd e s c r i p t i o na tt h es a m et i m e c h a p t e rf o u rc o n s t r u c t e das e to fl o a n sa n da s s e s st h ei n d i c a t o rs y s t e m u s ep c a s v ma l g o r i t h mt oc a l r yo nt h ep o s i t i v er e s e a r c h ,a n dc o m p a r ew i t hd i s c r i m i n a t i o n a n a l y s i s ,n e u r a ln e t w o r km o d e lo f b e c h a p t e rf i v ei sc o n c l u s i o n sa n dp r o s p e c t s k e yw o r d s :s t a t i s t i cd e c i s i o nt h e o r ys t a t i s t i c a ll e a r n i n gt h e o r y s u p p o r tv e c t o r m a c h i n ec o m m e r c i a lb a n kl o a n s 弛s k r e c o g n i t i o n 4 独创性声明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含 为获得江西财经大学或其他教育机构的学位或证书所使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名: 罢;揖 日期:竺 关于论文使用授权的说明 本人完全了解江西财经大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后遵守此规定) 签名: 害弛羟导师签名:鑫1 3 曼茸 日期:j ,各 引言 引言 统计决策理论是著名统计学家a w a l d 在2 0 世纪4 0 年代建立起来的,它与经 典统计学的差别在于是否涉及后果。经典统计学着重在于推断上,而统计决策理 论引入损失函数,用来度量效益大小和评价统计推断结果的优劣。2 0 世纪后半叶 贝叶斯分析被引入统计决策当中,它强调先验信息与样本信息结合。本论文所述 的统计决策问题是在不考虑先验信息条件下,研究从样本数据出发寻找统计规律, 并利用这些规律对未来数据或无法观测的数据进行预测,主要包括判别分析,回 归统计,密度函数统计。现有这些统计决策问题的损失函数构造的理论基础是样 本数目趋于无穷大时的渐近理论,但在实际问题中,样本数且往往是有限的,因 此一些理论上很优秀的决策方法在实际中却表现得不尽人意。鉴于此,v a p n i k 等 人从6 0 年代开始就致力于有限样本统计理论的研究,并将其理论称为统计学习理 论( s t a t i s t i c a ll e a r n i n gt h e o r y ,简称s l t ) 。1 9 9 2 1 9 9 5 年,在统计学习理论的基础 上发展出了一种崭新的判别分析方法一支持向量机( s u p p o r tv e c t o r m a c h i n e ,简 称s v m ) 【”。 1 、统计决策问题 统计决策问题的三个基本要索是可控参数统计结构、行动空间和损失函数, 目的在于根据给定的样本数据获取统计信息,构造损失函数对系统输入输出之间 依赖关系进行估计,又使它能够对未知输出做出尽可能准确的预测。我们把这种 预测的能力称作推广能力。迄今为止,关于统计决策问题中损失函数的构造还没 有一种被共同接受的理论框架,关于其实现方法大致可以分为三种: 第一种是参数统计估计方法,参数方法是传统统计学的,常常假定参数的相 关形式是已知的,训练样本来估计参数的值。这种方法有很大的局限性,首先它 需要已知样本分布形式,而且传统统计学研究的是样本数目趋于无穷大时的渐近 理论,但实际问题中,样本数往往是有限的。 第二种是经验非线性方法,如人工神经网络。这种方法利用己知样本建立非 线性模型,克服了传统参数估计方法的困难。但是这种方法缺乏一种统一的数学 理论。 与传统统计学相比,统计学习理论是一种专门研究有限样本情况下统计决策 问题的理论。该理论针对有限样本统计问题建立了一套新的理论体系,在这种体 系下的统计推理规则不仅考虑了对推广能力的要求,而且追求在现有有限信息的 条件下得到最优结果。 1 9 9 2 - 1 9 9 5 年,在统计学习理论的基础上发展出一种新的判别分析方法支 基于支持向量机的商业银行信贷风险识别研究 持向量机,在解决有限样本、非线性及多类判别分析问题中表现出许多特有的优 势,并能推广应用到回归估计等其他统计决策问题中。支持向量机方法的三个主 要优点是: ( 1 ) 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解丽不 仅仅是样本数趋于无穷大时的最优值。 ( 2 ) 算法最终转化成为一个严格凸二次规划问题,从理论上说,得到的将是 全局最优点,解决了在非线性方法中无法避免的局部极僵问题。 ( 3 ) 算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中 构造线性判别函数来实现原空间中的非线性判别函数,这些特殊性质能保证统计 决策方法有较好的推广能力,同时巧妙地解决了维数问题,其算法复杂度与样本 维数无关。 虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究,但很 多学者认为,它们正成为统计学中额的研究热点,并将推动统计决策理论和技术 取得重大的发展。 2 、商业银行信贷风险识别 信贷具有偿还性的特点,但在实际生活中由于各种各样的原因,贷款投放可 能到期不能收回,造成资金呆滞甚至亏本。这种贷款不能按期收回造成资金呆滞 或损失的可能性,称为信贷风险。进行信贷风险评估,就是为了实现以最低的风 险获得最大的效益,保证信贷资产的安全性、流动性、效益性。这是商业银行进 行信贷风险管理的核心所在。 在1 9 9 7 年的东南亚金融危机中,韩国的许多家银行由于并未经过严格的贷款 风险识剐,导致对于自己的资产状况不明了,不良贷款比例过高,所以在金融危 机的冲击下,一下子就垮掉了。经过这场危机,各国政府纷纷要求银行业把管理 重点都放在风险方面。而我国政府则明确要求商业银行积极推行资产负债比例管 理和风险管理,并倡导大力运用现代信息技术、管理手段建立金融体系和金融制 度。 我国在1 9 8 6 年成立商业银行后,也开始推行风险管理,实施风险度管理方法, 与这种方法相匹配的是银行信用评级制度。这种方法有以下两种缺陷:一、信用 评级涉及到的因素虽与还款能力成正比,但评价内容还不够完全;二、贷款质量 仅按逾期时间分为“一逾两呆”,不太舍理。1 9 9 8 年,我国央行推出贷款风险分 类指导原则,开始实行真正的风险为核心的五级贷款风险分类与识别方法。所以, 在新形势下,研究如何利用信息技术来建立商业银行信贷风险管理体系是十分重 要而且迫切的事情【2 】。 引言 3 、研究意义 研究支持向量机在商业银行信贷风险识别上的应用,其意义在于: ( 1 ) 一种新的可行的商业银行信贷风险识别方法的建立。信贷风险识别系统 本质是一个基于统计的分类系统,其核心是分类问题。基于统计的分类系统一般 由四个部分组成:数据获取、预处理、特征提取和选择及分类决策。分类决策就 是在特征空间中用统计方法把被分类对象归为某一类别,其基本作法是在样本训 练集基础上确定某个判别规则,使按这种判别规则对被分类对象进行判别的错误 率最小。支持向量机就是一种有效的,具有良好的推广能力的分类算法。 ( 2 ) 对传统判别分析( t d a ) 和线性判别分析( t l d a ) 的完善和改进。t d a 和t l d a 在商业银行信贷风险识别领城已经取得巨大的成功。从原理上,这两个 模型与支持向量机的侧重点不同,t d a 和t l d a 受极大似然准则的限制,类别区 分能力较弱,其结果反映了同类样本的相似度,而支持向量机的输出结果则体现 了异类样本间的差异,具有很强的分类能力。 基于支持向量机的商业银行信贷风险识别研究 1 支持向量机的决策思想:统计学习理论 1 1 统计决策理论 我们从下面三个部分来描述利用样本进行统计决策的一般模型口】。 ( 1 ) 产生器。产生随机向量x 带,它们是扶固定但未知的概率分布函数f ( x ) 中独立取得的。 ( 23 训练器,对每个输入向量x 返回一个输出值y ,产生输出的根据是两样 固定但未知的条件分布函数f ( y x ) 。 ( 3 ) 决策机器,它能够实现一定函数集 f ( x ,a ) , a ex ) 其中x 是参数集合, 统计决策问题之一是根据给定的函数集 f ( x ,a ) ,a e ) 中选择出能够最优地 遏近训练器响应的函数。这种选择是基于训练集的,训练集由根据联合分布f ( x , y ) = f ( x ) - f ( y x ) 抽取的几个独立同分布的观测样本组成。 ( x i ,y 1 ) ,( 0 2 ,y 2 ) , o ;e ( x ) 一1 ,x o ,考虑只有一个参数的函数集 定义为: 1 支持向量机的决策思想:统计学习理论 f c x ,a ) = 0 ( s i n ( a ,x ) ) ,x ,a r 如果待分点的个数为n ,我们取如下r 1 个点: x i = 1 0 “i = l ,n 对任意的一种二值分类m ,m - 1 ,1 ) 分类函数f ( a ) 都能正确给出分类结果,取e 1 值如下: 。:丌( 1 + 争! ! :业竺:) 冒 2 可以v c 维是无穷大的。 因此,一般来说函数集的v c 维与其自由参数目不同,它可以大于自由参数或 者小于自由参数个数。我们将在下面论述是函数集的v c 维( 而不是其自由参数) 影 响了决策机器的推广性能。这给我们克服所谓“维数灾难”创造了一个很好的机 会,用一个包含很多参数都有较小v c 维的函数集为基础来实现较好韵推广性能。 v c 维与推广性的界 前面给出的决策机器推广能力的界主要是概念性的而不是构造性的,不能直 接用来构算法。我们将利用 q q ( z ,a ) ,a ) 的v c 维的概念找到构造性的界, v c 维概念与生长函数之间重要联系是v a p n i k 和c h e r v o n e n k i s 发现【引。 定理l 任何生长函数,它或者满足等式g 2 ( n ) = n l n 2 或者受下面不等式的约 束: g 2 ( n ) sh ( 1 n 兰+ 1 )( h 为整数维) n 也就是,生长函数要么是线性的,要么以一个对数函数为上界,对指示函数 集而言,第一种情况我们就说这个函数的v c 维是无穷大,第二种情况表示这个指 示函数的v c 维是有限的且等于h 。决策机器实现的指示函数集的v c 维有限是 e r m 方法一致性的一个充分条件,从而在这个集合中,频率到概率的一致收敛对 任何分布函数都成立a 而且,一个有限的v c 维意味着有快的收敛速度。 1 3 推广性的界 统计学习理论系统地研究了各种类型的函数集,经验风险与实际风险之间的 关系,即推广性的界。关于两类分类问题,结论是对指示函数集中所有函数,经 验风险r e m p ( a ) 和实际风险r ( a ) 之间至少1 r l 的概率满足如下关系: r ( a ) r e m p ( a ) + ( 1 _ 8 ) 式中,h 是函数集的v c 维,r l 是样本数。 这一结论从理论上说明了判别分析的实际风险是由两部分组成:一部分是经 验风险,另一部分称作置信范围,它和判别函数的v c 维h 及观测样本n 有关。可 基于支持向量机的商业银行信贷风险识别研究 以简单地表示为: r ( a ) r e m p ( 口) + 。( ) ( 1 - 9 ) 它表明在有限样本下,判别函数v c 维超高越复杂,则置信范围越大,导致真 实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习的原因。统 计决策中构造损失函数不但要使经验风险最小,还要使v c 维尽量小,以缩小置信 范围,才能取得较小的实际风险,从而对未来样本有较好的推广性。 1 4 结构风险最小化 结构风险最小化 在传统方法中,选择决策模型和算法的过程就是调整置信范围的过程,如果 模型比较适合现有的训练样本( 相当于h n 值适当) 则可以取得比较好的效果。但 因为缺乏理论指导,这种选择只能依赖先验知识和经验,造成对方法的使用者“技 巧”要求过分的依赖。 当b n 较小时,( 1 - 8 ) 式右边的第二部分就较小,因此,期望风险就接近经验 风险的取值,在这种情况下,较小的经验风险就能保证期望风险的值也会较小。 然而如果h n 较大,那么一个小的经验风险值并不能保证小的期望风险值。在 这种情况下,要最小化实际风险值,我们必须对不等式( 1 9 ) 右边的两项同时最小 化。但是需要注意,不等式( 1 - 9 ) 右边的第一项取决于函数集中的一个特定的函 数,而第二项则取决于整个函数集的v c 维。因此要对风险的界( 1 9 ) 式的右边 两项同时最小化,我们必须使v c 维成为一个可以控制的变量。 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列, 使每个集按照v c 维的大小( 亦即巾的大小) 排列;在每个集中寻找最小经验风险, 在子集间折衷考虑经验风险和置信范围,取得实际风险最小。这种思想的称作为 结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ) b ps r m 准则。统计学习理论还给出 了合理的函数集结构应满足的条件及在s r m 准则下实现实际风险收敛的性质。 s r m 原则的实现 选择最小经验风险与置信范围之和最小的集,就可以达到期望风险的最小。 实现s r m 原则可以有两种思路:一是在每个集中求最小经验风险,然后选择最小 经验风险和置信范围之和最小的子集。显然这种方法比较费时,当系数数目很大 甚至无穷时不可行,因此有第二种思路,即设计函数集的某种结构使每个中都能 取得最小的经验风险( 如使训练误差为o ) 然后只需选择适当的子集使置信范围最 小,则这个集中使经验风险最小的函数就是最优函数。 结构风险最小化原则为我们提供了一种不同于经验风险最小的更科学的统计 1 支持向量机的决策思想:统计学习理论 决策实现原则,但是,由于其最终目的在于式( 1 9 ) 的两个求和之间进行折中, 因此实际上实施这一原则并不容易。如果能找到一种集合划分方法,使得不必逐 一计算就可以知道每个子集中所有可能取得最小经验风险( 比如使所有集都能把 测试样本集完全正确分类,即最小经验风险都是o ) ,则上述的两步任务就可以分 开进行,即先选择任置信范围最小的集,然后在其中选择最优函数。 可见这里的关键是如何构造函数集结构。遗憾的是,目前尚没有关于如何构 造预测函数子集结构一般性理论。下节将要介绍支持向量机方法实际上就是这 种思想的具体实现。 9 基于支持向量机的商业银行信贷风险识别研究 2 支持向量机 上一节介绍的结构风险最小化原则要在实际中发挥作用,还要求能实现,这 是本节要讨论的支持向量机的方法,这是统计学习理论中最年轻的部分,其主要 内容在上世纪9 0 年代中期才完成,目前仍处在不断发展阶段n 2 1 最优超平面 支持想向量机方法是以线性可分情况下的最优分类面发展而来的,基本思想 可用图2 1 的两维情况说明。设样本为r l 维向量,某区域k 个样本及所属类别表示 为 1 ,1 ,y 是类别号。图2 - 1 中,实心点和空心点代表两类样本,h 为分类线, h i 、h 2 分别为各类中分离线最近的样本且平行于分类的直线,它们之间的距离叫 做分类间隔。所谓最优分类线就是要求分类线不但将两类正确分开( 训练错误为 o ) ,而且使分类间隔最大。前者是保证经验风险最小,后者使推广性的晃中的置 信范围最小,从而使真实风险最小。 注: x ,) + 6 ;+ l 细,砧4 - 6u l - t 岭 湃括l 峭) ) = 2 a ( 赫悯劫:晶 图2 1线性可分情况下的最优分类线 最优分类面设最优分类面为超平面 g ( x ) = ( w ,x ) + b = 0 ( 2 1 ) 它将样本划分为两类,将判别函数归一化,使两类所有样本都满足l g ( 了) f 1 ,则样 本与此最佳超平面的最小罡巨离为丽2 。最优超平面应满足约束 y , ( w ,x ) + b 】1 ( 2 2 ) 2 支持向量机 w 和b 的优化条件是使两类样本到超平面最小距离之和一2 为最大。上式中使等 1 1 1 伸 式成立的那些样本( h 1 、h 2 上的训练样本) 叫做支持向量,因为它们支持了最优分 类面。 最优分类面问题可转化为如下约束优化问题,即在条件( 2 2 ) 的约束下求函数 的最小值。 ( w ) = 剖圳= 号( w ,w ) ( 2 - 3 ) 定义如下l a g r a n g e 函数: l ( w , b ,a ) = 去( w ,w ) 一a i m ( w ,一) + 6 卜1 ) = i 其中a o 为l a g r a n g e 乘数。 式( 2 _ 4 ) 对w 和b 求偏微分并令它们为零, 在约束条件下 y ,q = 0 ( 2 4 ) 原问题可转化为简单的对偶问题, ( 2 5 ) a , 0i = 1 ,n ( 2 6 ) 对口,求解下列函数的最大值 q ( 口) = q 一去a , a i y ,y ,( 薯,_ ) ( 2 - 7 ) ,z 1厶i = l 若a 为最优解,则 w = 口j y , ( 2 8 ) j 1 1 按照优化理论的k u h n - t u e k e r 定理,在鞍点对偶变量与约束的乘积为0 ,即 口, y ,【( w ,) + b 卜1 = 0 ( 2 - 9 ) 可见,非0 的口,所对应的样本仅由最靠近超平面的样本组成,这样这些样本完全 确定了超平面。求解上述问题的结果是: f ( x ) = s g n ( w ,x ) + b ) ( 2 1 0 ) 广义最优分类面 最优分类面是在线性可分的前提下讨论的,在线性不可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论