




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要个人信用评估是商业银行风险管理的重要组成部分,国外银行界对于信用评估的研究已经有5 0 多年的历史,发展出了包括统计方法和非统计方法两大类许多种方法。支持向量机( s v m ) 是近年来在统计学习理论的基础上发展起来的一种新的机器学习方法,它具有很强的泛化能力。本文的研究中心就是支持向量机在个人信用评估中的应用,引入遗传算法作为筛选属性变量和调节参数的优化算法,建立基于遗传算法和支持向量机的个人信用评估模型。最后将支持向量机作为a d a b o o s t 算法的基础学习器,建立a d a b o o s t s v m 模型,应用到个人信用评估,实证分析表明,此种模型较之单一的支持向量机更有效。本文所做的主要工作为:1 、考虑到模型的输入变量和模型的参数之间存在着相互依赖性,本文引入遗传算法将属性变量选择和参数调节两方面的工作同时进行,同步优化,使支持向量分类器性能达到最优。2 、提出了动态a d a b o o s t 支持向量机模型。传统的a d a b o o s t 算法在整个b o o s t i n g 过程中使用同一个学习器,这样做的话会造成有的支持向量机过强,有的过弱,而最终b o o s t i n g 效果欠佳,因此,我们在每一次b o o s t i n g 过程中都通过调节参数使支持向量机精度仅略高于随机猜测,得到一个动态的a d a b o o s t 支持向量机模型。实证分析表明,该模型优于普通的支持向量机。关键词支持向量机,遗传算法,同步优化,h d a b o o s t 算法a bs t r a c tp e r s o n a lc r e d i ts c o r i n gi sa ni m p o r t a n tp a r to fc o m m e r c i a lb a n k s r i s km a n a g e m e n t i nt h el a s t50y e a r s ,m a n yc r e d i ts c o r i n gm e t h o d sh a v eb e e nd e v e l o p e db yf o r e i g nb a n k s s u p p o r tv e c t o rm a c h i n e ( s v m ) i san e wm a c h i n el e a r n i n gm e t h o dd e v e l o p e di nr e c e n ty e a r so nt h ef o u n d a t i o no fs t a t i s t i c a ll e a r n i n gt h e o r y t h ef o c u so ft h i st h e s i si st oa p p l ys v mo nc r e d i t i n gs c o r i n g i nt h i sp a p e r ,g e n e t i ca l g o r i t h mw a su s e dt oc h o o s et h eo p t i m a li n p u tf e a t u r es u b s e ta n ds e tt h eb e s tk e r n e lp a r a m e t e r ss i m u l t a n e o u s l y , e s t a b l i s h i n gac r e d i ts c o r i n gm o d e ln a m e dg a s v m i na d d i t i o n s v mw a sa p p l i e da st h eb a s i cl e a r n i n gm a c h i n eo fa d a b o o s ta l g o r i t h m ,e s t a b l i s h i n ga n o t h e rc r e d i ts c o r i n gm o d e ln a m e da d a b o o s t s v m e x p e r i m e n t a lr e s u l t sh a v es h o w nt h a ta d a b o o s t s v mi sb e t t e rt h a ng a s v m w h i c hi sb e t t e rt h a nt h eu s u a ls v m t h em a i nj o bo ft h i sp a p e ra r ef o l l o w i n g :1 、t h et r a d i t i o n a lm e t h o d so fc r e d i ts c o r i n gp r e f e rt od of e a t u r es e l e c t i o na n dp a r a m e t e r so p t i m i z a t i o ni n d e p e n d e n t l y t h ec o r r e l a t i o nb e t w e e nt h e mi sn o tc o n s i d e r e d ,p r o h i b i t i n gt h eg l o b a lo p t i m a lr e s u l t s t h i sp a p e rt r i e st oc o m b i n ef e a t u r es e l e c t i o nw i t hp a r a m e t e ro p t i m a t i o nb a s e do ng e n e t i ca l g o r i t h md u r i n gs v mm o d e l i n g 2 、d y n a m i cb o o s t i n gh a sb e e nc o u p l e dw i t hs v mt oe s t a b l i s h e daa d a b o o s t s v m t r a d i t i o n a la d a b o o s tp r e f e r st ou s et h ei d e n t i c a ll e a r n i n gm a c h i n ed u r i n gt h eb o o s t i n gp r o c e s s i nt h i sp a p e r , w ed e s i g nap a r a m e t e ra d j u s t i n gs t r a t e g yt og e td i f f e r e n ta n dm o d e r a t e l ya c c u r a t es v mc o m p o n e n tc l a s s i f i e rf o rb o o s t i n g a n dg o o dr e s u l t sh a v eb e e no b t a i n e do nb e n c h m a r kd a t as e t s k e yw o r d ss u p p o r tv e c t o rm a c h i n e ,g e n e t i ca l g o r i t h m ,a d a b o o s ti i原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特另t l d h 以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。作者签名:盈:兰窒日期:二垒生年月翌日关于学位论文使用授权说明本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名:筮:至塾导师签名地日期:! 羔年皇月竺日硕十学位论文第一章绪论第一章绪论1 1 个人信用评估的研究内容及研究现状商业银行对于客户提出的贷款申请,须做出批准与否的决定。一方面,发放贷款可以为商业银行在未来较长的一段时期来带来相对稳定的回报;但是另一方面,盲目的发放贷款将使商业银行面临较大的客户违约和破产风险,使银行的坏账增加,利润减少。因此,银行不可能一概予以批准,而是要根据客户提供的基本信息和以往的资信记录( 例如:姓名,年龄,家庭住址,住房情况,每月收入,以往还贷记录等) ,对客户进行评估,以决定是否发放贷款。个人信用评估问题本质上是一个模式识别问题,一般将客户按是否能够按期还本付息分为两类:即不违约者一“好 客户和违约者一“坏”客户,根据历史上若干客户的资信信息提取违约及不违约者的特征,总结分类规则,建立数学模型,以实现对客户模式识别的目的。显然,信用评估模型在预测客户是否能够偿还贷款时需要充分高的精确度,否则,会给商业银行带来很大的风险。近年来,随着我国经济的快速发展,消费信贷不断升温,住房按揭、汽车贷款、教育贷款、信用卡等各种个人消费贷款的规模迅速扩大。各商业银行把发展零售业务作为未来发展战略的重要组成部分,然而,由于目前国内商业银行对零售业务的风险管理水平较低,管理手段与方法均较落后,缺乏一套行之有效的个人信用评价系统,个人消费信贷业务的进一步开展受到阻碍。商业银行的信用评价及风险管理问题成为我国学术界和金触实业界广泛关注的问题之一。国外银行界对于信用评估的研究已经有5 0 多年的历史,发展出了包括统计方法和非统计方法两大类许多种方法,统计方法包括决策论方法、逻辑回归、线形回归、非线性回归、近邻估计等,非统计方法包括线形规划、整数规划、神经网络、分类树、专家系统等l lj 。由于信用风险评估问题本身是一个非线性分类问题,因此线性模型效果不理想,而其他各类方法也是各有利弊,直到目前还没有一个公认的最优方法,因此探索新的信用评估方法的研究工作仍方兴未艾。随着信用行业的发展以及贷款组合种类的不断增加,信用评估的准确率哪怕只提高零点几个百分点,都会带来巨大的效益。本文将支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m )应用于个人信用评估,由于其所具有的推广能力强、解的唯一性和全局性等优良性质,使得以该方法为基础的信用评估系统具有较好的的应用效果。支持向量机是2 0 世纪9 0 年代中期发展起来的一种机器学习理论,近年来,国内外出现了许多将支持向量机应用到信用评估领域的文献。c h i h h u n gw u 等人利用遗传算法来选取支持向量机模型的最优参数,将其应用到破产评估上1 2 j 。y o u n g c h a nl e e将支持向量机应用到企业信用评估上,证实该方法比多重判别分析和神经网络准硕+ 学位论文第一章绪论确率高【3 1 。肖文兵和费奇使用5 一折交叉验证来寻找支持向量机模型最优参数,建立个人信用评估体系,并与分类回归树、神经网络等方法进行了比较,结果表明,支持向量机有很好的预测效果1 4 j 。乔立岩和彭喜员采用遗传算法对支持向量机进行属性子集选择,实证表明该方法可以有效滤除无关属性变量并提高分类准确率1 5 j 。陈果用遗传算法建立支持向量分类机的参数自适应化优化算法,用实例证明了该算法的f 确有效性1 6 j 。应用支持向量机做信用评估时,有两个问题需要解决:一是怎么样选取重要属性;二是怎么样选取模型参数。这些文献普遍的做法都是把特征提取和选择模型参数这两方面工作分开进行,未考虑到模型的输入变量和模型的参数之间存在着相互依赖性,不能使模型整体达到分类性能最优。本文提出将特征提取和模型参数选择两方面的工作同步进行,引入遗传算法( g e n e t i ca l g o r i t h m ,g a ) 来作为筛选属性变量和调节参数的同步优化算法,使支持向量分类器性能达到最优。b o o s t i n g 是二十世纪九十年代来提出的最有效的学习算法之一,其基本思想是通过多轮投票将弱学习算法提升为强学习算法,从而避免寻找很难获得的强学习算法。本文将b o o s t i n g 算法和支持向量机综合应用于个人信用评估。从理论上来说,支持向量机本身是一种强学习器,将其作为b o o s t i n g 的基础分类器有违原则,但是,我们通过调节支持向量机的参数,使支持向量机一直处于仅比随机猜测略高的状态,得到一个动态的模型,通过实证分析证明,b o o s t i n g 支持向量机优于普通支持向量机。1 2 本文的主要工作本文的主要研究工作是支持向量机在个人信用评估中的应用,主要引入遗传算法作为选取属性变量和调节参数的优化算法,建立支持向量机模型。最后将b o o s t i n g 算法和支持向量机综合起来建模,得到一个动态的b o o s t i n g 支持向量机模型,并将其应用于个人信用评估。本文的主要创新点有两个:第一,传统的做法是将属性变量选择和参数调节分开来进行,而本文考虑到模型的输入变量和模型的参数之间存在着相互依赖性,所以利用遗传算法将这两方面的工作同时进行,同步优化,使支持向量分类器性能达到最优。第二,提出了动态b o o s t i n g支持向量机模型。传统的b o o s t i n g 算法是在整个b o o s t i n g 过程中使用同一个学习器,这样做的话会造成有的支持向量机过强,有的过弱,而最终b o o s t i n g 效果欠佳,因此,我们在每一次b o o s t i n g 过程中都通过调节参数使支持向量机精度仅略高于随机猜测,得到一个动态的b o o s t i n g 支持向量机模型。本文的结构安排如下:第一章,介绍了个人信用评估的研究内容及现状,本文主要工作的概述,及2硕+ 学位论文第一章绪论本文实证分析中所采用的数据的来源和说明。第二章,介绍支持向量机和遗传算法原理。第三章,引入遗传算法作为支持向量机的同步优化算法,建立s v m - g a 模型,同时进行属性选择和参数优化,并将其与只优化参数的情况进行比较,实证分析表明,属性选择和参数调节同时进行的同步优化算法优于只优化参数不选择属性的情况。最后将s v m g a 模型与其它几种常用的信用评估方法做比较。第四章,先介绍b o o s t i n g 算法,然后将支持向量机与b o o s t i n g 算法结合,建立动态的a d a b o o s t s v m 模型,并将其与a d a b o o s t - c a r t ( 分类回归树) 和上一章中建立的s v m g a 做比较,实证分析表明,a d a b o o s t s v m 模型具有优越性。第五章,总结本文工作。1 3 数据来源本文选用两个数据,德国信用数据和澳大利亚信用数据,均可从网站h t t p :w w w i c s u c i e d u - m l e a r n m l s u m m a r y h t m l 下载,其中澳大利亚信用数据库含有6 9 0 条信用数据,包括正类样本( 好客户) 3 8 3 个,负类样本( 坏客户) 3 0 7 个,每条信用样本含有1 4 个属性变量,1 个类别变量,原始数据中未对属性变量进行描述。德国信用数据含有1 0 0 0 条信用样本,包括正类样本7 0 0 个,负类样本3 0 0个,每条信用样本含有2 4 个属性变量,1 个类别变量。属性变量描述为:1 现有活期账户的状态a 1 l : 0 d m ;a 1 2 :0 - = 2 0 0 d m 至少有一年待发薪水;a 1 4 :没有活期账户2 每月工作时问3 信用卡历史a 3 0 :未使用信用卡所有信用卡都还款及时;a 3 1 :本行所有信用卡还款及时;a 3 2 :到目前止所有信用卡还款及时;a 3 3 :过去有拖欠还款;a 3 4 :在别的银行有信用卡4 借贷目的a 4 0 :新车;a 4 1 :旧车;a 4 2 :家具设备;a 4 3 :收音机电视机;a 4 4 :国产设备;a 4 5 :修理;a 4 6 :教育;a 4 7 :度假;a 4 8 :再培训;a 4 9 :经商;a 4 1 0 :其他5 信用卡数目6 定期存款债券a 6 1 : 1 0 0 d m ;a 6 2 :1 0 0 = 5 0 0 d m ;a 6 3 :5 0 0 = 1 0 0 0 d m ;a 6 5 :未知没有定期存款3硕士学位论文第一章绪论7 工作年限a 7 1 :无工作;a 7 2 - 1 年;a 7 3 :1 - 4 年;a 7 4 :4 = 7 年8 可自由支配的收入中按期还款率9 性别和婚姻状态a 9 1 :离婚男性;a 9 2 :已婚或离婚女性;a 9 3 :单色男性;a 9 4 :已婚男性;a 9 5 :单身女性1 0 其他贷款人保证人a 1 0 1 :没有;a 1 0 2 :共同申请人;a 1 0 3 - 保证人1 1 居住年限1 2 财产a 1 2 1 :房产;a 1 2 2 :社会救助协 义生命保险;a 1 2 3 :汽车或其它a 1 2 4 :未知没有财产1 3 年龄1 4 其它分期付款计划a 1 4 1 :银行;a 1 4 2 :商店;a 1 4 3 :没有1 5 住房a 15 1 :租用;a 15 2 :自己的;a 1 5 3 :免费1 6 在本行的信用卡数目1 7 工作a 1 7 1 :无工作无技术非当地居民;a 1 7 2 :无技术当地居民;a 1 7 3 -技术工人办公文员;a i7 4 :管理层个体户高级职员官员18 能供提供信用保证的人数1 9 电话a 1 9 1 :没有;a 1 9 2 :有,登记在顾客姓名栏下2 0 是否外国工人a 2 0 1 :是;a 2 0 2 :不是4硕士学位论文第二章支持向量机和遗传算法第二章支持向量机和遗传算法原理2 1 统计学习理论( s i _ t )s v m 的理论基础是统计学习理论,它是对结构风险最小化归纳原则的一种实现。s l t 是研究小样本统计和预测的理论,主要内容包括四方面【7 】:1 经验风险最小化标准统计学习的一致性条件;2 在这些条件下关于统计学习方法推广性的界的结论;3 在这些界的基础上建立的小样本归纳推理准则;4 实现新的准则的实际方法( 算法) ;其中,核心内容是:v c 维、推广性的界、结构风险最小化原则。v c 维反映函数学习能力的指标模式识别方法中v c 维的直观定义是:对于一个指标函数集,如果存在n 个样本能够被函数集中的函数按所有可能的2 h 种形式分开,则称函数集能够把n 个样本打散;函数集的v c 维就是它能打散的最大样本数目h 。有界实函数的v c 维可以通过用一定的阈值将其转化为指标函数来定义。v c 维反映了函数集的学习能力,v c 维越大则学习机越复杂,目前还没有通用的关于函数集v c 维计算的理论。对于一些比较复杂的学习机( 神经网络) ,其v c 维除了与函数集( 神经网络结构) 有关外,还受学习算法的影响,其确定更加困难。对于给定的学习函数集,如何计算其v c 维是当前统计学习理论中有待研究的问题。推广性的界统计学习理论系统地研究了各种类型的函数集的经验风险和实际风险之间的关系,即推广的界。关于两分类问题,结论是:对于指标函数集中的所有函数( 包括经验风险最小化的函数) ,经验风险r 唧( ) 和实际r ( w ) 之间以至少l 一矽的概率满足如下关系月( 矿) r 叩( ) +其中h 是函数集的v c 维,n 是样本数。上式从理论上说明了学习机的实际风险是山两部分组成的:1 、经验j x l 险( i ) w l 练误差) ;2 、置信范围,它和学习机的v c 维及训练样本数有关。可以简单地表示为:5硕士学位论文第二章支持向量机和遗传算法r ( ) 尽唧( ) + ( 厅疗)它表明在有限样本训练下,学习机v c 维越高,则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么出现过学习现象的原因。结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 原则从上面的式子看到,经验风险最小化原贝j j ( e r m ) 在样本有限时是不合理,我们需要同时最小化经验风险和置信范围。统计学习理论提出了一种新的策略,即把函数集构造为一个嵌套的函数子集序列,使各个子集按照v c 维的大小排列;在每个子集中寻找最小经验风险,在子集问折中考虑经验风险和置信范围,取得实际风险最小。如图l 所示。这种思想称作结构风险最小化。实现s r m 原则可以有两种思路:1 保持置信范围固定( 通过选择一个适当的结构) 并最小化经验风险:2 保持经验风险固定并最小化置信范围s v m 就是第二种思路的实现:设计函数集的某种结构使每个子集中都能够取得最小的经验风险( 如使训练误差为0 ) ,然后选择适当的子集使置信范围最小,则这个子集使经验最小的函数便是最优函数。风险|j函数子集:s 1cs 2cs 3 ,v c 集h l h 2 h 3图1 结构风险化示意图6险硕士学位论文第二章支持向量机和遗传算法2 2 支持向量机( s u p p o r tv e c t o rm a c hir e ,s v m ) 嘲2 2 1 线性支持向量机支持向量机是v a p n i k 阳3 提出的源于统计学习理论的一种学习方法,它基于结构风险最小化原则,具有很强的泛化能力。s v m 算法是从线性可分情况下的最优分离超平面提出的。所谓最优分离超平面就是要求分类超平面不但能将两类样本无错误分开,而且要使两类之间的距离最大。设线性可分样本集为( 薯,咒) ,扛l ,n ,x r d , y + 1 ,一1 ) 是类别标号,d 维空间中线性判别函数的一般形式为g ( x ) = x + b ,分类面方程为w x + b = 0 。如果存在分类超平面w x + b = 0使得,w 誓+ b 1 , = l( 1 )lw t + b - 1 ,儿= - 1汪1 ,2 ,n则称样本集是线性可分的。对于线性可分的问题,就是要寻求参数( w ,6 ) ,使( 1 )式成立,由此得到判别函数y ( x ) = s g n ( w x + b ) 。将判别函数进行归一化,使两类所有样本都满足k ( x ) i 1 ,即,使离分类面最近的样本的恒( x ) l = 1 ,这样分类间隔就等于2 l l w l l ,因此间隔最大等价于使i iwl l ( 或l l w1 2 ) 最小;而要求分类线对所有样本正确分类,就是要求其满足:只【( w 誓) + b - i 0 ,( f = 1 ,2 ,刀)( 2 )因此,满足上述条件且使i l w i | 2 最小的分类面就是最优分类面。这两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是使式( 2 ) 式中等号成立的那些样本,他们叫做支持向量( s u p p o r tv e c t o r s ) 。如图2 中所示7硕十学位论文第二章支持向量机和遗传算法原最优超平面w x + b = o图2 最优分类超平面口b = 一1o 第1 类口第2 类! 支持向量“”“。5根据上面的讨论,最优分类超平面问题可以表示成如下的约束优化问题:k m i n2 1 _ i2( 3 )【s t 只【( w x i ) + b 卜1 o ,( f = l ,2 ,? )定义如下的l a g r a n g e 函数( w ,6 ,口) :丢l l w 0 2 一窆( m ( ( w t ) + 6 ) 一1 )其中a i 0 为l a g r a n g e 乘子,根据w o l f e 对偶的定义,我们的问题是对w 和b求l a g r a n g e 函数的极小值。由极值条件v 6 l ( w ,b ,口) = 0v 。l ( w ,b ,口) = 0得到只q = 0,- i硕士学位论文第二章支持向量机和遗传算法将目标函数转换为求最小,就得到这是一个不等式约束下的二次函数极值问题,存在唯一解,且根据k k t 条件,这个优化问题的解需满足q ( m ( w x j + 6 ) 一1 ) = 0 ,i = l 刀( 4 )因此,对多数样本口,将为零,取值不为零的口对应于使( 2 ) 式等号成立的样本即支持向量,它们通常只是全体样本中的很少一部分。若口+ 为最优解,求解上述问题后得到最优分类函数是f ( x ) _ s g n 倭i * y i i = 1 小6 )lj其中:s g n o 为符号函数,b + 是分类的阀值,可以由任意一个支持向量用式( 4 ) 计算得,或通过两类中任意一对支持向量取中值求得。对于未知的样本x ,只需计算s g n ( w x + b ) ,即可判定x 所属的分类。在近似线形可分的情况下,我们可以通过在条件中增加一个松弛变量毒0 ,i = 1 ,1 1可得“软化 了的约束条件咒 ( w 薯) + b l 一专,i = 1 ,刀显然,当孝充分大时样本点( 誓,m ) 总可以满足上诉约束条件,但是显然应该设法避免戋取太大的值,为此在目标函数罩对它进行惩罚,比如在目标函数星加入专的一项,这导致把问题( 3 ) 改为厂魄圭1 w l l 2 + c 车当is t ”( ( w 一) + 6 ) 1 一戋,f = l ,刀( 5 )il专0i = l ,其中c 是某个指定的常数,它实际上是起控制对错分样本惩罚的程度的作用,实现在错分样本的比例的比例与算法复杂度之间的这种折衷。将原问题转化为其9硕士学位论文第二章支持向量机和遗传算法对应的对偶问题( 6 )求解得最优解口= ( 口i ,口:) r ;计算广= y , 口i + x i ;选择口的一个正分量0 口: c ,计算6 = y j - e m 口? ( t x j ) ;构造分类超平面( x ) + 矿= 0 ,由此得到最优分类决策函数9 1f ( x ) = s g n ( ( w x ) + 6 )2 2 2 非线性支持向量机从上面的讨论的最优分类超平面和广义最优分类超平面看出,其最终的分类决策函数中只包含待分类样本与训练样本中的支持向量的内积运算( x x i ) ,同样,它的求解过程式中也只涉及训练样本之问的内积运算( 蕾x ,) ,可见,要解决一个特征空间中的最优线性分类问题,我们只需要知道这个空间中的内积运算即可。如果一个问题在其定义的空间不是线性可分的,这时可以考虑构造新的特征向量,把问题转换到一个新的空间中,这个空问一般比原空间维数增加,但却可以用线性判别函数实现原空间中的非线性判别函数。比如构造y = 【1xx 2 r ,就可以用g ( y ) = a r y 的线性函数实现g ( x ) = c oq - c i x - i - c 2 x 2 的二次判别函数,其中广义权向量a = 【c oc lc 2 r 。实际上,一般来说,对于任意高次判别函数,都可以通过适当的变换转化为另一空间中的线性判别函数来处理。把这种变换空间中的线性判别函数称作原问题的广义线性判别函数。但是,虽然这种变换理论上可以用简单的线性判别函数来解决十分复杂的问题,但由于变换空间中的维数往往很高,容易陷入所谓维数灾难而使问题变得实际上不可实现。因此,广义线性判别函数的思想只在一些相对不十分复杂的非线性问题中能够应用。按照广义线性判别函数的思路,要解决一个非线性问题,我们可以设法将它通过非线性变换转换为另一个空间中的线性问题,在这个空间中求最优或广义最优分类超平面。考虑到广义最优分类超平面的性质,在这个变换空间中,我们只需进行内积运算。而进一步看,我们甚至没有必要知道采用的非线性变换的形式,而只需要知道它的内积运算即可。只要变换空间中的内积可以用原空间中的变量直接计算得到( 通常是这个的) ,则即使变换空间的维数增加很多,在其中求解最优分类面的问题并没有增加多少计算复杂度。1 0口,。芦0甩口一ql”i i。一加舛型铲呸一。o硪口t唑盯厂,j、l硕士学位论文第一二章支持向量机和遗传算法事实上,我们只要定义变换后的内积运算,而不必真的进行这种变换。统计学习理论指出,根据h i l b e r t s c h m i d t 原理,只要一种运算满足m e r c e r 条件,它就可以作为这罩的内积使用。如果用内积k ( x ,x ) 代替最优分类超平面中的点积,就相当于把原特征空问变换到了某一新的特征空间,此时的优化函数变为:q ( 口) = q 一言c r , a y y , k ( x , ,_ )j = lf = l而相应的最优分类决策函数也应变为:厂( x ) = s g n ( c t t y i k ( x , ,x ) + 6 + )算法的其它条件均不变,这就是支持向量机。支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类超平面,而这种非线性变换是通过定义适当的内积函数实现的。s v m 中不同的内积核函数将形成不同的算法。目自订研究最多的核函数主要有三类【l o 】,一是多项式核函数k ( x ,t ) = ( x t ) + l 】d二是径向基函数( r b f )一x p 一掣2 三是s i g m o i d 函数t a n h ( v ( x ) + c )由于径向基函数可以逼近任意非线性函数,因此,本文选取径向基函数作为支持向量机的核函数来进行研究。2 3 遗传算法( 6 e n e ticalg o rit h m ,g a )2 3 1 遗传算法的基本原理遗传算法( g e n e t i ca l g o r i t h m ,g a ) 是h o l l a n d 创立的模仿自然界生物进化过程中“适者生存”的原理而进行的一种多参数、多群体同时优化的方法【i 。遗传算法模拟了自然选择和遗传中发生的复制、交叉和变异现象,从任一初始种群出发,通过选择、变异和交叉三种操作产生一群更适应环境的个体,使群体进化到搜索空间中越来越好的区域,这样一代一代地不断繁衍进化,最终收敛到一硕+ 学位论文第二章支持向量机和遗传算法群最适应环境的个体,即问题的最优解。进化是一个迭代的过程,在每一次进化过程中都对种群进行选择、交叉和变异操作,直到达到终止条件。选择的目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙,它基于和原始优化问题相关的适应度函数,通常使用与个体适应度值成正比的选择概率来选择新种群的个体。交叉操作是遗传算法中最主要的遗传操作,通过交叉操作可以得到新一代的个体,新个体组合了父辈的特性,将群体内的各个个体随机搭配成对,对每一个个体,以某个概率( 称为交叉概率) 交换它们之间的部分染色体,交叉操作体现了信息交换的思想。变异操作和自然系统的生物变异相类似,是一个概率非常低的操作,仅仅是改变某一个或某一些基因座上的基因值,变异为新个体的产生提供机会。在遗传算法中,个体( 染色体) 对应的是数据是数组,通常由一维的串结构数据来表示。串上各个位置对应基因,而各位置上的值对应基因的取值。基因组成的串就是染色体,或者叫做基冈型个体。一定数量的个体组成种群。群体中个体的数目称为群体的大小,也叫群体规模。而各个体对环境的适应程度叫适应度。2 3 2 遗传算法的基本要素及处理流程遗传算法中包含两个必须的数据操作,一个是把搜索空间中的参数或解转换成遗传空间中的染色体,此过程又叫做编码操作;另一个是相反操作,又hl i 解码操作。遗传算法是一种群体性操作,该操作以群体中的所有个体为对象。选择、交叉和变异是遗传算法的3 个主要操作算子,它们构成遗传操作。遗传算法首先将问题的每个可能解按某种形式进行编码,编码后的解称为染色体。随机取n 个染色体构成种群p ( t ) ,再根据预定的评价函数对每个染色体计算适应度,使得性能较好的染色体具有较高的适应度。选择适应度高的染色体进行复制、交叉及变异操作,产生一群新的更适应环境的染色体,形成新的种群。这样一代一代不断繁殖、进化,最后收敛到一个最适应环境的个体上,求得问题的最优解。g a 流程表示如下:1 2硕七学位论文第二章支持向量机和遗传算法实际问题上目标( 函数) 映射为适应度上初始种群( 编码成位串形式)7v计算染色体适虑度vy ,题的种群ll0选择;饕交义;塞j变异i0产生新一代种群图3g a 流程图遗传算法中包括了5 个基本要素:( 1 ) 问题编码;( 2 ) 仞始群体的设定;( 3 ) 适应度函数的设计;( 4 ) 遗传操作设计;( 5 ) 控制参数设定( 主要指种群体大小和使用遗传操作的概率等。这5 个基本操作构成遗传算法的核心内容。2 3 3 遗传算子遗传算法的执行过程中,每一代有许多不同的染色体存在,这些染色体中哪个保留( 生存) 、哪个淘汰( 死亡) 是根据它们对环境的适应能力决定的。适应性强的有更多机会留下。适应型的强弱通过计算个体适应度函数的值来判别,适应度函数的构成与目标函数有密切关系,往往是目标函数的变种。( 1 ) 选择算子( s e l e c t i o n )选择是从种群中选择生命力强的染色体产生新种群的过程。依据每个染色体适应度的大小,适应度越大,被选中的概率就越大,其子孙在下一代产生的个数就越多。选择操作建立在群体中个体的适应度评估基础上,目前最常用的实现方法足轮盘赌模型:设种群大小为1 3 ,其中个体i 的适应度值为f ,则i 被选中的概率为p = z z ,显然,概率# 反映了个体i 的适应度在整个种群的个体适1 3硕十学位论文第二章支持向餐机和遗传算法应度总和中所占的比例。个体适应度越大,其被选择的概率就越大。按上式计算出各个个体的选择概率后,就可以决定哪些个体被选出。( 2 ) 交叉算子( c r o s s o v e r )染色体交叉分两个步骤进行,首先是在群体中选取两个个体,然后,沿着这两个个体( 字符串) 随机地取一个或几个位置进行交换。目前常用的交叉方法有一点交叉、两点交叉、多点交叉和一致交叉。遗传算法的有效性主要来自选择和交叉操作,尤其是交叉,在遗传算法中起着核心作用。( 3 ) 变异算子( m u t a ti o n )选择和交叉算子基本上完成了遗传算法的大部分搜索功能,而变异则增加了遗传算法找到接近最优解的能力。变异是以很小的概率,随机地改变字符串某个位置上的值。变异操作是按位进行的,即把某一位的内容进行变异。在二进制编码中,就是将某位0 变成l ,1 变成0 。变异发生的概率只都取得很小( 一般在0 0 0 1 0 2 之间) ,它本身是一种随机搜索,然而与选择、交叉算子结合在一起,就能避免由于选择和交叉算子引起的某些信息的永久性丢失,保证了算法的有效性。1 4硕士学位论文第二章基于s v m 和g a 的个人信用评估第三章基于s v m 和g a 的个人信用评估对于支持向量机来说,参数取值不同,对应的分类器性质以及推广识别率也将有很大差别。本文应用以径向基函数( r b f ) 为核函数的支持向量机到信用评估领域。除了选取模型参数外,怎样选取重要属性同样重要。以往的个人信用评估研究中,常将提取属性变量和选择模型参数两方面工作分丌来进行,这样做的缺陷是未考虑到模型的输入变量和模型的参数之间存在着相关关系,不能使模型达到整体最优。本章提出将重要属性变量提取和模型参数选择两方面的工作同步进行,引入遗传算法作为筛选属性变量和调节参数的优化算法,建立基于遗传算法和支持向量机的个人信用评估模型。3 1g a 要素设计3 1 1 染色体设计本文中选取径向基函数作为支持向量机的核函数,因此有两个参数需要确定:c 和7 。同时,基于同步优化的思想,特征选取应和参数优化同时进行,因此染色体由三部分组成:c 、7 和特征子集。采用二进制编码,如下图所示:kq c 奢qc ! c ?qc ! c 7图4 染色体结构硭一晖代表c ,n c 等于参数c 的二进制符号串的位数,本文中取2 0 ;c j c 夕代表y ,体等于参数y 的二进制符号串的位数,本文中取2 0 ;c ;c 7 代表属性变量集,n ,等于相应的数据集的属性个数。c ;取1 就表示第k 个属性变量被选中,取0 则表示第k 个属性变量被屏蔽。c 的取值范围为【l ,1 0 0 0 】,7 的取值范围为0 0 0 0 1 ,1 0 1 。3 1 2 适应度设计本文中取支持向量机5 一折交叉验i i e t 挖j 的正确率作为适应度函数,它首先把个,样本点随机地分成个5 个互不相交的子集,即5 一折s l ,$ ,每折的样本个数大致相等,共进行5 次训练与测试,即对f = l ,2 ,5 进行5 次迭代,第f 次硕j 卜学位论文第二章基于s v m 和g a 的个人信用评估迭代的做法是,选择选择s 为测试集,其余s l s 1 ,l ,马的并集为训练集,算法根据训练集求出决策函数后,即可对测试集s 进行测试。记其中正确分类的样本点个数为玉,5 次迭代完成后,便得到了亿,2 1 5 ,5 次迭代中的正确分类数和总样本点数,之比,9 1l l ”彳称为5 一折交叉验证正确率。3 1 3 遗传操作本文中采用经典的“轮盘赌”方式进行选择操作,“两点交叉”方式进行交叉操作,交叉概率和变异概率分别为o 7 和o 0 2 。本文实验中我们设定g a 种群规模为5 0 ,遗传代数为1 5 0 ,每次选择4 0 个个体,交叉、变异操作后再随机插入1 0 个新个体。3 2g a - s v m 模型g a s v m 模型流程图及描述如下:1 初始化种群,每条染色体由c 、y 和特征子集三部分组成2 用每对( c ,y ) 和选择的特征子集对训练集做5 折交叉验证3 计算适应度4 假如终止条件满足或者达到最大遗传代数,则转到75 执行选择、交叉、变异操作6 重复2 67 找到最优( c ,办和提取的属性子集8 训练支持向量分类机9 应用该分类器到测试集1 6硕士学位论文第二章基于s v m 和g a 的个人信用评估3 3 实证分析3 3 1 数据图5 :g a s v m 模型流程图本文选用两个数据,德国信用数据和澳大利亚信用数据,均可从网站h t t p :w w w i c s u c i e d u m l e a r n m l s u m m a r y h t m l 下载,其中澳大利亚信用数据库含有6 9 0 条信用样本,包括正类样本( 好客户) 3 8 3 个,负类样本( 坏客户) 3 0 7个,每个样本含有1 4 个属性变量,1 个类别变量,原始数据中未对属性变量进行描述。德图信用数据库含有1 0 0 0 条信用样本,包括正类样本7 0 0 个,负类样本3 0 0 个,每条样本含有2 4 个属性变量,1 个类别变量。我们将属性变量分为1 7硕士学位论文第三章基y - s v m 和g a 的个人信用评估三大类,如下表所示表i :德圈信用数据的属性描述类别属性变量( 订估指标)基本信息偿债能力贷款风险年龄、工作、电话、是否本国居民、性别和婚姻状态、工作年限、每月工作时间、居住年限现有活期1 9 长户、定期存款债券、按期还款占可自由支配收入的比率、财产、住房信用卡历史、借贷目的、信用卡数目、担保人、其他分期付款计划、在本行的信用卡数目、能提供信用保证的人数3 3 2 数据规范化将数据缩放到【一1 ,1 或者【0 ,1 】之间,这样做的目的在于:1 ) 避免一些特征值范围过大而另一些特征值范围过小;2 ) 避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。本文实验中将数据缩放到【- 1 ,l 】之间。3 3 3g a - s v m 信用评估本文使用英囤设菲尔德大学开发的遗传算法工具箱和基于l i b s v m 软件的m a t l a b 工具箱结合开发g a s v m 信用评估模型。算法具体步骤如下:( 1 ) 对输入数据进行规范化处理;( 2 ) 对参数范围进行设置,即置c 的取值范围为【1 ,1 0 0 0 】,y 的取值范围为f 0 0 0 0 1 ,1 0 。取种群n = 5 0 ;进化最大代数为15 0 ;交叉概率e 和变异概率只分别为0 7 和0 0 2 ;( 3 ) 随机生成n 个染色体作为初始种群,采用二进制编码;( 4 ) 对每个染色体解码并计算其适应度( 5 折交叉验证正确率) ;( 5 ) 判断适应度是否满足停止准则或是否满足最大进化代数,若满足则跳到步骤( 7 ) ,若不满足则到( 6 ) ;( 6 ) 按其适应度采用轮盘赌选择法选择个体,每次选择4 0 个个体,交叉、变异操作后再随机插入10 个新个体,生成新的种群;( 7 ) 对每个染色体解码,构造支持向量机分类器,应用分类器到测试集。德国信用数据取前6 0 0 个样本作为训练集,剩下的4 0 0 个样本作为测试集。对德国信用数据建立g a s v m 模型,分筛选属性变量和不筛选属性变量两种情况,如下图5 所示,硕+ 学位论文第三章基1 - s v m 和g a 的个人信用评估图6 :德国信用数据两种情况交叉验证率对比从图中我们可以看出,不筛选属性变量模型的交叉验证率变化不敏感,且整体水平低于筛选属性变量模型,这说明将参数优化和属性选择同时进行的模型预报能力强于只优化参数而不选择属性的模型。筛选变量模型筛选出1 0 个属性变量,如下表所示:表2 :德国信用数据筛选后的属性变量类别属性变量( 计估指标)基本信息足甭本困居民、性别和婚;4 i 状态、工作年限、每月,t 作时问、电话偿债能力现自j 活期i 帐户、定期存款债券贷款风险信用卡历史、在奉行的信用卡数日、能提供信用保证的人数从上表可以看出,模型从原始的2 4 个属性变量中筛选出了最重要的1 0 个,剔出了一些无关的冗余属性,大大简化了模型的复杂度。将两种模型应用到测试集,结果对比如下:表3 :德国信用数据测试结果对比同样,澳大利砭信用数据库取i l l j - 3 5 0 个样本为训练集,剩下的3 4 0 个样本为测试集,分两种情况建立模型,如下图6 所示:1 9硕十学位论文第三章基于s v m 和g a 的个人信用评估罄翻颖图7 :澳人利弧信用数据两种情况交叉验i l e 率对比从图中我们可以看出,同步优化情况下的交叉验证正确率高于只优化参数情况,筛选变量模型筛选出6 个重要属性变量,分别将两种模型应用到测试集,结果对比如下:表4 :澳大利弧信用数据测试结果对比从以上分析我们可以看出,使用同步优化思想的g a s v m 模型分别从德国信用数据和澳大利亚信用数据原有的2 4 个属性和1 4 个属性中提取了1 0 个和6个重要属性,它们的模型交叉验证正确率均比不筛选属性变量的g a s v m 模型高,这说明模型具有更强的预报能力。而从对测试集的预报正确率来看,筛选属性变量模型的预报能力的确强于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2317-2025光湿热老化试验箱校准规范
- 2025年浙江省生态环境厅部分直属事业单位招聘7人(第二批)考前自测高频考点模拟试题附答案详解(模拟题)
- 2025北京十一未来城学校春季招聘模拟试卷及1套参考答案详解
- 广汽本田安全驾驶培训课件
- 安全培训教室设备要求课件
- 2025年超深井用高抗挤毁石油管钢项目建议书
- 2025年潍坊职业学院高层次高技能人才引进(招聘)(10人)考前自测高频考点模拟试题及完整答案详解一套
- 山西省【中职专业高考】2025年中职高考对口升学(理论考试)真题卷【轻工纺织大类】模拟练习
- 安全培训教学存在的不足
- 2025年公路旅客运输服务项目发展计划
- 工业污水处理基础设施建设项目可行性研究报告
- 2025 种植护理术中配合技巧课件
- 《组织行为学》课件-第1章 组织行为学概述
- 高炉大修总结课件
- 调动员工积极性工会课件
- 露天煤矿边坡课件
- 龙门吊吊装施工方案
- 单侧双通道UBE手术
- 汽车发动机构造课件
- 脊柱解剖图(颈胸腰椎)医学课件医学课件
- 盾构关键参数计算
评论
0/150
提交评论