已阅读5页,还剩73页未读, 继续免费阅读
(运筹学与控制论专业论文)基于支持向量机的个人信用评估特征优化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的个人信用评估特征优化研究 专业:运筹学与控制论 硕士生:靳彩珠 指导教师:尹小玲副教授 张磊副教授 摘要 随着国内个人信贷业务的不断展开,一套科学而且自动的信用评估系统显得 极为迫切,为此,许多学者致力于运用统计学方法及最优化理论解决这个问题。 支持向量机模型结合了统计学与最优化理论,在满足结构风险最小化的原则下得 到分类模型,故本文所研究的个人信用评估应用中的特征优化方法均以支持向量 机的分类正确率作为优化标准。并且考虑到样本数据混叠严重的情况,本文利用 了k 近邻法对s v m 模型进行改进,提出了m u l s v m k n n 模型( 见第5 4 节) 。 由于个人信用数据特征较多存在相关性及冗余,而且有些维度仅为了银行对 申请者的常规验证,对其信用评估并无作用,因此特征提取和特征选择是优化信 用评估模型的关键步骤。本文首先采用主成分分析方法对取自u c i 机器学习库的 两个信用数据集进行特征提取,用得到的综合指标进行分类模拟实验。接着,本 文设计了两种特征选择算法,即a u c s o r t 特征选择方法( 见第4 2 节) 和m g 特征选择方法( 见第4 3 节) ,其中,a u c s o r t 方法计算按各个特征的信息增益 大小依次添加进候选特征集得到的r o c 曲线下的面积a u c ,并选择具有最大 a u c 的特征集作为选择后的特征集;m g 方法则是利用互信息对特征进行预筛选 后,借助遗传算法对筛选后的特征集进行优化从而得到最适合信用评估的特征子 集。 经过实证分析,本文提出的m u l s v m k n n 模型对两类样本点混叠较严重的 情况下还是比较有效的,而且经过a u c s o r t 方法和m g 方法优化后的特征子集 对分类精度的提高也贡献甚大。 关键词:特征优化,a u c s o r t 特征选择,m g 特征选择,m u l s v m k n n 模型, 参数优化 ar e s e a r c ho nf e a t u r eo p t i m i z a t i o no fp e r s o n a l c r e d i te v a l u a t i o nb a s e do ns v m m a j o r :o p e r a t i o n a lr e s e a r c ha n dc y b e r n e t i c s n a m e :j i nc a i z h u s u p e r v i s o r :a s s o c i a t ep r o f e s s o r , y mx i a o l i n g a s s o c i a t ep r o f e s s o r , z h a n gl e i a b s t r a c t w i t ht h ed o m e s t i cp e r s o n a lc r e d i tb u s i n e s s c a r r y i n go u t as e to fs c i e n t i f i ca n d a u t o m a t e dc r e d i te v a l u a t i o ns y s t e mi sn e e d e du r g e n t l y a sar e s u l t ,m a n ys c h o l a r s d e d i c a t e dt ot h ep r o b l e mu s i n gs t a t i s t i c a lm e t h o d sa n do p t i m i z a t i o nt h e o r y s u p p o r t v e c t o rm a c h i n ei so n eo ft h ec l a s s i f i c a t i o nm o d e l s ,w h i c hc o m b i n e st h et h e o r i e s m e n t i o n e da b o v ea n ds a t i s f i e dt h em i n i m i z a t i o ns t r u c t u r a lr i s kp r i n c i p l e a n dt h i sa s s a y f o c u s e so nt h ep e r s o n a lc r e d i tb u s i n e s sb a s e do ns v ma n di m p r o v e st h em o d e l c r e a t e s an e wo n e :m u l s v m k n n w h i c hu s e st h en e a r e s tn e i g h b o rm e t h o dt oc u ts o m eo ft h e s a m p l e sa n dd i s t i n g u i s h e st h e1 e f ts a m p l e st ob ec l a s s i f i e db ys v m o rk n n s i n c et h e r ea r ec h a r a c t e r i s t i c so fp e r s o n a lc r e d i td a t ac o r r e l a t e da n dr e d u n d a n t ,a n d s o m ed i m e n s i o n sh a v en oe f f e c to nc r e d i te v a l u a t i o nb e c a u s et h e ya r es e to n l yf o rt h e b a n k su s u a lv e r i f i c a t i o n a n df e a t u r ee x t r a c t i o na n df e a t u r es e l e c t i o ni st h ek e yp o i n to f c r e d i te v a l u a t i o nm o d e l so p t i m i z a t i o n a sar e s u l t ,f i r s t l yt h i sp a p e ru s e sp c :a r e p r e s e n t i n go n eo ft h ef e a t u r ee x t r a c t i o nm e t h o d s a n de x p e r i m e n t si to nt w oc r e d i td a t a s e t sf r o mu c i m a c h i n el e a r n i n gl i b r a r y a n dt h e nt h ep a p e rd e s i g n st w of e a t u r e s e l e c t i o nm e t h o d s :a u c s o r tm e t h o da n dm gm e t h o d t h em a i ni d e ao fa u c s o r ti s c o m p u t i n gt h ea r e au n d e rt h er o cc u r v ew h i c hi sc o n s t r u c t e db yt h ef e a t u r es e t c o n t a i n e dt h ef e a t u r e sa d d e db yt h eo r d e ro fs o r t e di n f o r m a t i o ng a i n a n dt h ef e a t u r es e t w h i c hh a st h el a r g e s ta u cw i l lb es e l e c t e da st h eo p t i m i z a t i o nf e a t u r es e t t h em a i n i d e ao fm gm e t h o di st h a ta f t e rt h ep r e s e l e c t i o nb ym u t u a li n f o r m a t i o n u s i n gt h e g e n e t i ca l g o r i t h mt oo p t i m i z et h ef e a t u r es e ta n dc h o o s i n go n ew h i c hi st h em o s t s u i t a b l eo n ef o rc r e d i ta s s e s s m e n t t h r o u g ht h ee m p i r i c a la n a l y s i sw ek n o w , t h em u l s v m k n nm o d e lh a se f f e c to n t h es i t u a t i o nw h i c ht h et w ot y p e so fs a m p l e sm i x e ds e r i o u s l y a n dt h ef e a t u r es u b s e t s e l e c t e db va u c s o r tm e t h o da n dm gm e t h o di m p r o v e st h ec l a s s i f i c a t i o np r e c i s i o n k e yw o r d s :f e a t u r eo p t i m i z a t i o n ,a u c s o r tf e a t u r es e l e c t i o n , m gf e a t u r es e l e c t i o n ,m u l s v m k n n ,p a r a m e t e r so p t i m i z a t i o n i i 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体己经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 新柔乡求 日期:细。年彳月j 3 e j 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名: 日期:年月 日日 中山大学硕士学位论文 第一章绪论 1 1 论文的研究背景与现实意义 信用评分是消费信贷领域有效地规避风险的重要手段,随着各类信贷产品如 信用卡、房贷、车贷等规模的不断壮大,信贷风险也不可避免地随之增长,为 此,利用数学的方法找出可能带来风险的影响变量并对其量化进行建模,是该行 业亟需的技术支持。 尽管目前不少金融机构已经充分认识到了信贷消费的发展潜力,并将该项目 列入战略规划的重要组成部分,但“风险与收益相对称 ,为了防范再次出现次贷 危机,许多金融机构不得已以风险最小化为原则提高信贷门槛,使消费信贷的发 展受到限制,无法跟上需求的发展。尤其在一些经济落后地区,信贷管理的手法 和手段较为落后,还停留在由专家定性评分的阶段,一旦评估应用范围扩大,专 家难以估计太多就会直接影响到评估效果,很容易令评估风险增大。为此,学术 界的许多学者正致力于用数学手段来科学的进行评分,从不同角度对信用评估的 本质进行深入研究【1 】【2 】,以实现下列目标: ( 1 ) 自动化,即对于新的样本,只需要将其导入信用评估系统,就可以得到 结果,而不再是由授信专家对每个新的申请者一一过目以判别其信用状况。 ( 2 ) 模型化,即通过已有的样本数据,根据信用评估问题的实际需要,利用 各种数学方法进行建模,优化信用评估体系。 ( 3 ) 定量评估,即以科学的方式将申请者的所有信息定量化,可以更直观的 比较不同申请者各个指标的差异,为建模提供条件。 本文的选题顺应了这种需求,通过结合研究个人信用评估问题、统计学习理 论及优化理论,对基于数学方法的信用评估模型会遇到的问题进行分析,提出优 化解决方案,并探讨这些方案在该领域应用的可能性和效果,具有重要的理论和 现实意义。 中山大学硕士学位论文 1 2 个人信用评估的研究现状 1 1 1 个人信用评估的相关概念 在市场经济的不断发展中,只要人们从事与经济相关的活动,个体与个体之 间便会发生交易,这就必然涉及到信用。为此,个人信用评估成为现代经济发展 必不可缺的重要部分,经济环境的不断完善也就意味着信用评估方法需要不断的 改进。而构建科学的信用评估方法的前提如下所述: ( 1 ) 收集和保存交易行为的各种信息。一般面对客户提出的贷款申请,银需 要收集客户的基本信息和资信记录,才能通过科学的决策方法进行评分从而决定 是否发放贷款。一般银行会将申请者的信息分为四大类:个人基本信息( 如年 龄、性别、职业、教育程度等) ,资产信息( 如账户余额、收入等) ,信用记录 信息( 如信用卡记录等) 和特别记录。 ( 2 ) 优化相关的数学模型。信用评估实质上是一种分类问题,其目的在于将 申请者归到不同的违约率水平。最初,金融机构只是借助授信专家的职业判断对 申请者的个人、职业和财产信息进行主观上的判断,从而决定是否发放贷款。后 来,许多国家利用运筹学和统计学的定量分析工具,根据最小损失原则和风险溢 价原则进行数学建模。为了弥补已有模型的不足,近年来一些非参数统计方法和 人工智能模型也被引入到了信用评估领域 3 1 1 4 5 1 。 1 2 2 美国个人信用评估简介 个人信用评估是市场经济发展的产物,同时,也是推动市场经济发展的重要 手段。全球看来,美国既是市场经济相对最完善的国家,也是资信行业最为发达 的国家,其市场上充斥着各种异彩纷呈的信用产品,仅信用卡而言,就已经是国 际上发行量最大以及交易额最高的了。为此,本文将首先对美国信用体系进行研 究分析【6 儿7 。,为我国未来信用体系的建立和完善提供多方面的信息支持。 早在2 0 世纪初期,美国就已经发展了较为正规的个人信贷市场。1 9 1 0 年建 立的摩利斯计划银行被称为最早提供个人信贷的银行,主要对消费者提供中小型 中山大学硕士学位论文 贷款。第二次世界大战之后,地理中心的不断转移以及人们价值观念的日新月异 大大地激发了消费者对产品、服务的需求,与此同时美国经济和社会的安定进一 步促进了市场的发展。从5 0 年代开始,新思潮、新价值观和新时尚,以及“婴儿 潮 群体长大后对消费品史无前例的需求,消费者运动蓬勃发展影响到某些立 法、监管方面的变迁等等因素,令个人信贷增长迅速。不过最根本的原因还是在 于美国的消费者不仅将信用卡作为传统的贷款来源,而且更多地利用其“便利 的”特点。换言之,美国消费者在购物时愈来愈倾向于以信贷卡取代现金和支 面 不0 美国金融机构发放消费贷款的操作步骤如下: 1 接受货款申请,详细记录和保存各种数据。 2 基于申请者的各种信息并使用数学模型量化有关的评分,包括分析申请者 的还款意愿和还款能力等。 3 对贷款申请进行评定,签订贷款合同发放贷款,贷中控制,贷后管理。 1 2 3 我国个人信用评估现状 个人信用评估在欧美国家已有近2 0 0 年的发展历史,在中国香港地区也发展 了2 0 多年,而在中国内地的一些地区才刚刚起步。根据我国国情,近年来住房制 度的改革,使得个人住房贷款逐渐成为我国个人信贷发展的重点。 除此之外,自从1 9 9 9 年为配合高校扩招政策及收费制度的改革,国家出台了 教育助学贷款政策,令助学贷款稳步发展。1 9 9 8 年面对物价水平下降、消费需求 不足的宏观经济形势,四大国有银行为了响应国家扩大内需的政策,选择经济比 较发达、金融服务较好、汽车消费需求较大的地区,对国产汽车开展个人信贷试 点工作。直至2 0 0 1 年末,汽车个人信贷已有所发展,占当时个人信贷余额的 6 。同时,耐用消费品贷款、旅游贷款以及存单、国库券质押贷款和信用卡等品 种和形势的个人信贷发展基本适度【8 】【9 1 。 在我国建立和完善信用评估体系之际,要发展适合我国国情的信用评估模型 除了要借鉴国外的成熟方法,还应该注意国外信用评分在我国应用时可能出现的 问题【1 0 】【l l 】【12 1 。这些问题可能对信用评估模型的适用性有所影响,为此,要考虑其 中山大学硕士学位论文 相应的避免方法或解决方案: ( 1 ) 样本收集问题:由于国外有庞大的征信网络,信贷消费群体信息的收集 极易获得,但是在我国,拥有个人数据并能提供高质量个人信用报告的机构较 少,也缺乏覆盖全国的征信网络,为此,在建立模型的之前,需要尽可能全面的 从多个渠道获得申请者的相关信息。 ( 2 ) 信息更新问题:由于我国正处于经济高速发展阶段,信贷消费种类的增 加以及人群的流动等因素很容易导致样本人群的范围和特质发生变化。而且,原 始数据主要是对个体过去情况的一个总结,适用于首次申请时的评估,但申请通 过后个体信贷情况会不断的变化。为此,在建模后,需要对申请者消费行为进行 追踪,得到一个动态的信用评分数据。这样不仅可以更准确的进行信用评估,还 能有效的预防信用欺诈行为。 ( 3 ) 特征选取问题:由于我国的文化习惯和道德标准与许多发达国家之间存 在差异,在选取特征时应该要结合国情和评估目的。具体的特征选取各个国家都 有所不同,如美国法律规定不能将性别、年龄等个人属性作为评估指标,德国会 将是否服兵役作为一项重要指标,而日本则将申请者所供职的公司是否上市以及 公司的雇员数作为指标。而且,各国对各个指标的权重可能有所不同,如抵押品 的重要性对申请信用卡和申请一笔大额贷款就有差别。 ( 4 ) 信息缺失问题:由于我国信息来源比较少而且不稳定,因而经常会发 生变量缺失的问题,有时有些信息的缺失本身就可以预警违约风险,为此在建立 评估模型的时候需要注意,对缺失值应采取关联值替代或者提出含有缺失值的样 本等方法来处理。 1 3 论文的研究内容和组织结构 1 3 1 研究内容及创新点 本文旨在将支持向量机分类用于个人信用评估,在参考了国内外信用评估方 法的研究后【1 3 】【1 4 】f 1 5 】,尝试将支持向量机的参数进行优化,并结合实际数据对各种 方法进行验证,以达到将理论与实际相结合,较为全面的研究了个人信用评估问 中山大学硕士学位论文 题。 论文的主要研究内容及创新点如下: 1 将信息学中的信息增益和信号处理中的r o c 曲线应用于特征选择中,并 给出具体算法和实证分析; 2 结合f i l t e r 和w r a p p e r 算法,提出了一种基于互信息和遗传算法的组合特 征选择算法m g ,首先快速排除不相关的特征,接着利用遗传算法优化剩下的特 征子集; 3 研究发现信用评估数据中,两类样本点混叠情况较为严重,为了避免支持 向量机的分类面由于过于复杂而导致推广能力降低,对其进行改进,提出了m m k n n s v m 模型; 4 针对两类错判率对模型的影响程度,本文在利用遗传算法优化参数的同 时,利用适应度函数的设置,保证正确率的同时降低第二类错误率。 1 3 2 组织结构 本文第一章介绍了个人信用评估的背景及在国内外的发展,提出了本文研究 的内容及所作的工作。 第二章对个人信用评估方法进行了汇总,从定性分析、统计运筹方法和人工 智能方法三个阶段对其进行阐述,并逐一提出了其优缺点。 第三章对统计学习理论和支持向量机的基本理论及知识点进行了梳理。 第四章首先介绍了特征提取与特征选择的意义和一般过程,并结合各个方法 的优点,提出了r o c 曲线面积排序的a u c s o r t 特征选择方法和基于互信息的遗 传算法优化的m g 特征选择方法,并对此进行了数值实验。 第五章重点在于对个人信用评估模型的设计,利用遗传算法对模型参数进行 优化,建立了m u l s v m k n n 模型,并结合前一章所选择的特征,进行了数值实 验。 中山大学硕士学位论文 第二章个人信用评估方法综述 前面的章节已经对个人信用评估的重要性进行了很详细的解释,本章将着重 于介绍各种信用评估方法。由于不同的评估方法的模型建立前提、使用范围和有 效性均有所不同,为此,本文在介绍各类方法的同时,将结合其应用情况,指出 各方法应用时需要注意的问题点,为新的评估方法的建立提供帮助。 添加 措施 图2 1 信用数据分析、处理与评估过程 信息 上图用循环链的方式呈现了一个完整的信用评估过程,其过程简述如下:在 评估的初期阶段,首先通过各个机构将数据导入评估系统,接着对这些数据进行 清理与整理,利用评估模型对整理后的决策信息进行分析,根据现实情况提出相 应的审批策略,然后对原有客户重新进行评估得到分析结果,优化评估模型,从 而对新的申请者,可以利用优化后的评估模型进行信用评估1 6 1 。 下文将简要的介绍各个阶段不同形式的信用评估方法。 2 1 专家判断法 专家判断法,又称为5 c 法,是最早的一种定性方法,指借助银行授信人员的 中山大学硕士学位论文 经验和判断能力,对借款者的品行( c h a r a c t e r ) 、能力( c a p a b i l i t y ) 、资本 ( c a p i t a l ) 、担保品( c o l l a t e r a l ) 和环境( c o n d i t i o n ) 进行判断,从而决定是否对 借款者发放贷款【1 。7 1 。 专家判断法的优点在于可以充分发挥专家的经验优势,对模棱两可的申请者 可以针对其特点做出相应的评估。缺点在于主观性太强,受专家个人因素影响较 大,难免带有片面性,从而使其做出的决定科学性相对较差。 2 2 数理统计方法 早期的信用评估是由专业人员根据其经验作出判断的,为了降低信用评估中 的主观因素,许多统计方法被引入到该领域,如判别分析、回归分析、数学规划 等【1 8 】,下面对这些方法进行简要的介绍。 2 2 1 判别分析法 判别分析法( d i s c r i m i n a t ea n a l y s i s ) 是对训练样本的分类及其特征,根据判别规 则得到判别函数,使判别函数对训练样本分类时的错判率最小,从而,将新样本 代入判别函数后就可以判断其属于哪一类。其理论基础是两类有显著差异的样本 的分类,下面以贝叶斯判别为例,简要的介绍判别分析的过程【1 9 1 : 假设申请者总体分为两类,好客户g 与坏客户b ,判别分析的目的就是将全 体客户分成g 和b 两部分,并且令错分的概率尽可能的小。设圪和名分别表示 客户总体中好客户和坏客户的比例;p ( xg ) 和p ( xb ) 分别表示好客户和坏客户 特征向量取值为x 时的密度函数;q ( gx ) 和q ( bx ) 分别表示某个客户的特征向量 取值为x 时他是一个好客户或坏客户的概率;p ( x ) 表示特征项变量x 的密度函 数;l 表示将一个好客户错划为坏客户所引起的平均利润损失;d 表示将一个坏 客户错划为好客户所造成的平均坏账损失。 中山大学硕士学位论文 为了减少错分的可能性,最为常用的一种方法是最小化期望损失,即 m i n l o s s = 三i p ( x lg ) 尼出+ di p ( xlb ) b 凼 。舒 ?( 2 1 ) = li q ( gix ) 只出+ di q ( bx ) e ,d x x乏xb 这里隐含一个近似假设,可是在实际中对不同的申请者上和d 的值一般并不 相等。此时,需要决定特征项向量x 的具体取值x 应归入哪个集合。如果是归入 好客户的集合,则 如却似邶胚l p ( xig ) p g ) 唯l 罢黜) ( 2 - 2 ) 显然,如果能从历史数据中知道各分布函数和损失值,贝叶斯判别法是一种 较为简便且有效的方法。 2 2 2 回归分析法 回归分析法( r e g r e s s i o na n a l y s i s ) 是最常见的方法之一,其目的在于找到客户 特征与决策变量之间的关系,从而可以对客户信用情况给出一个最优的解释。一 般经常使用的方法有三种:线性回归、逻辑回归以及概率回归。 ( 1 ) 线性回归 假设申请者的违约概率p 与其特征变量五,x 2 ,x 肿之间存在以下关系: p = + 0 ) 1 x 1 + 吡叉+ + j 乙+ ( 2 3 ) 其中s 是随机扰动项,那么可以利用样本训练集对p 和参数螂进行估计。 线性回归分析应用于信用评分时存在着明显的缺陷。如式( 2 3 ) 所示,等式 的右边取值可以从一取到+ ,但是等式的左边是一个概率,其取值范围只能在 ( o ,1 ) 区间内。如果等式左边变换成p 的一个函数,它可以取任意值,则模型 会更有意义。这样,l o g i s t i c 回归方法就成为信用评分模型中使用最广泛的方法之 中山大学硕士学位论文 ( 2 ) l o g i s t i c 回归 在l o g i s t i c 回归模型中,假设: l o g ( 了兰i 一) = 卢。+ 卢l x l + + 卢t x t l p ( 2 - 4 ) 其中p 表示借款人违约的概率,薯是描述借款人的特征( f = 1 ,2 ,k ) ,点称 l l p 为发生比( o d d s ) 。 l o g i s t i c 回归利用最大似然估计对模型进行有效性检验并得到模型的参数估计 值,从而在对新申请者进行预测回归时可以根据其违约发生比做出判断。该方法 解决了线性回归两边取值范围不等的问题之余,还适用于各种类型的变量,对信 用评估中申请者特征类型不一的问题的解决有一定的成效2 0 1 。 ( 3 ) p r o b i t 回归 p r o b i t 回归模型是将l o g i s t i c 回归中的似然比对数函数变为正态分布函数的反 函数,其表达式如下: 膏 一( p ,) = c o o + c o , ( 2 - 5 ) j = l ( f - 1 , 2 ,n ,n 为样本数,k 为样本的特征个数) 其中,x 。表示的是待评估的借款人f 的为个特征,w 为特征f 相应的权值, 为正态函数,p ,为概率。g r a b l o w s k y 和t a l l e y ( 1 9 8 1 ) k l , 较 p r o b i t 模型和判别 模型和判别模型,结论是前者较好,但这一结论因为样本选择的问题,同样 具有局限性。 2 2 3 数学规划方法 数学规划法( m a t h e m a t i c a lp r o g r a m m i n g ) 实际上是一个最优化问题,其基本思 路如下: 假设有胪个样本,其中g 个是好客户,占( 虬= 一心) 个是坏客户,每个客 户有m 个特征。在一个最理想的信用评估模型中,目的是找到一组权重国。,国:,。 以及一个临界值c ,使得: 中山大学硕士学位论文 对一个好客户满足: q t l + c 0 2 x 1 2 + + c o m x 砌 c 对一个坏客户满足: i x f l + 2 x i 2 + + 国m x 腑 c 一般这种情况都不可能实现,因此引入一个非负的变量a 。,转而解这样一个 线性规划问题,令所有可能的错误分类的总和最小。 m a ,讪l n a l + a 2 + + a g s t w l t l + w 2 x f 2 + + w x 拥c a f1 i n o w l x n + w 2 x f 2 + + w r n x f m c + a f g + 1 i n o + b ( 2 6 ) a l 0i = 1 , 2 ,g + 线性规划方法相对较容易理解,但是从上面的模型可以看出,当某些取负 值的时候,就可能出现“所有的均为0 ”的无意义的情况。 2 3 非参数方法 2 3 1k 近邻分析法 k 近邻分析法( m e n :kn e a r e s tn e i g h b o r ) 是一种典型的非参数方法,在对申请 者的信用进行评估的时候,该方法仅考察距离其最近的k 个人,根据这些人中的 好客户与坏客户的比例来决定该申请者的类型。 k n n 的关键问题在于距离的定义与k 的数目。常用的距离有两种: l d ( x l ,x 2 ) = ( x 1 一x 2 ) 彳( x ) ( x l x 2 ) 7 】2 ( 2 - 7 ) 其中a ( x ) 是一个对称正定矩阵,与x 有关则称为局部测度,否则称为整体测度。 d ( x ,y ) = ( x - y ) ( 1 + 如7 0 j ) ( x - y ) ( 2 8 ) 其中c o 是利用判别分析法得到的特征变量的权重,它用于区分好客户和坏客户的 最优方向;,是单位矩阵,d 是一个待定系数,可通过实验得到。 k n n 方法适用于动态的信用评估体系,新老客户的增减或者客户特征的变更 中山大学硕士学位论文 均不会影响该方法的应用,但是信息量过大会影响其计算量,而且该方法很依赖 初始样本的分类情况,一旦开始分类不当,随后的判断就很受影响。 2 3 2 聚类分析 聚类分析( c l u s t e ra n a l y s i s ) 也是一种非参数统计方法,该方法是根据申请者 的特征与已知分类样本空间的距离作为判断依据。该方法的优点在于不需要知道 总体分布,从而适用于各种类型的特征。 2 4 人工智能方法 2 4 1 决策树方法 决策树( d e c i s i o nt r e e ) 方法的基本思想是:对训练集按照某种分割规则进行不 断的划分直至合适的程度,每次划分会使得到的子集中可决策性得到加强。 决策树的构造包括两个阶段: ( 1 ) 建树阶段:选取训练样本,从根节点( 对应原数据集) 开始自上而下地 对节点进行分裂,即对节点的子集进行划分,直至无法分裂( 即到达叶节点) 为 止,其中,每个叶节点对应的子集拥有相同的类标。 ( 2 ) 修剪阶段:用剩余的数据检验决策树,如果所建立的决策树不能对该数 据正确分类,则对决策树进行调整,即剪枝或者增加节点,直到建立一棵正确的 决策树为止1 2 。 。 决策树方法的优点在于结构简单、运算量小以及可以动态学习,但是随着决 策树的生长、叶节点的数据量的减少,可能导致决策树只能表现出少数特征的的 特点,从而对总体的代表性下降,无法高效的对新数据进行预测。除此之外,由 于决策树没有参数,因而不能量化地解释特征的重要程度。 中山大学硕士学位论文 2 4 2 人工神经网络方法 人工神经网络( a n n :a r t i f i c i a ln e u r a ln e t w o r k ) 1 2 2 是一种模仿人脑组织结构 运行机制的智能方法,下图以一种形象的方式描述了三层前馈神经网络拓扑结 构,如图所示,左边是自变量的输入函数,右边是决策变量的输出函数,用o 表示 接受输入并进行计算,将结果送到下一步。 图2 2三层前馈神经网络拓扑结构 a n n 对数据的分布以及自变量与因变量之间的关系要求不高,在结构和处理 顺序上是并行的,适合实时动态控制,具有自组织和自适应学习能力,而且有很 强的鲁棒性。但是,它是一种“黑箱 技术,无法根据网络的权值了解到各个特 征对决策变量的影响程度,缺乏解释率;而其由于a n n 会对样本数据进行多次 训练,很容易导致过学习,对新样本的预测性反而不高 2 3 】。 2 4 3 专家系统 专家系统( e s :e x p e r ts y s t e m ) 是人工智能的一个重要分支,模仿信用评估专 家的经验方法,编成高性能的程序,从而用计算机来代替专家解决信用评估问 题。该方法的有效程度取决于建设系统时对专家知识的深度挖掘及这些知识与计 算机程序结合的强弱程度。 中山大学硕士学位论文 虽然信用评估专家系统在实践中常有应用,但目前研究这一方法的文章还比 较少,而且都不甚深入。这方面的论文主要有z o c c o ( 1 9 8 5 ) ,d a v i s ( 1 9 8 7 ) 和 l e o n a r d ( 1 9 9 3 ) 发表的一些文章。专家系统解释其信用评估结果的能力很强,这 一点对满足一般法律对拒绝申请人贷款申请要给出合理解释的要求有很大帮助, 不过有证据显示专家系统对申请人信用变化情况的预测能力很差。 2 5 本章小结 定性评价的优点在于可以根据申请者确定其相应的评估侧重点,这类方法在 道德评估方面具有较大优势,但其缺点正如本章所提到的,主观性太强,对授信 人员的能力和经验的依赖性很高。而定量评价可以提高授信决策的效率和准确 率,节约资源,其自动化评估体系大大的减少了审批的时间和成本,避免了人为 判断的主观性。但是,在我国信用基础资料缺乏的情况下,其实现自动化评估还 需一段时日,因此数学工作者在此方面针对我国的实际情况构建模型是有意义 的。 本文的研究重点在于利用数学方法,将现有的定量化个人信用评估模型改 进,选取适当的评估模型,对模型参数进行优化,并考虑到样本特征的冗余及其 相互之间的相关性,利用特征选择和提取方法优化特征集,以达到更好的对贷款 申请进行判断的目的。 中山大学硕士学位论文 第三章支持向量机模型简介 由于传统统计学所研究的是样本数据趋于无穷的渐进理论,但实际问题中, 样本数量往往是有限的,为此,为了满足这一需求,统计学习理论逐渐发展起 来。统计学习理论【2 5 j ( s l t :s t a t i s t i c a ll e a r n i n gt h e o r y ) 是一种针对小样本统计预 测学习的较优理论,从该理论发展出来的支持向量机( s v m :s u p p o r tv e c t o r m a c h i n e s ) 不仅较好的解决了以往小样本学习方法的非线性、过学习、局部极小 等问题,还具有很强的泛化能力,已经成为学术界研究的热点,并在模式识别、 文本分类等问题上有了成功的应用。本文将对该模型在信用评估领域应用的有效 性进行探讨。 s v m 的基本思想是:定义一个非线性映射,将样本空间映射到某个高维特征 空间,并在这个空间中求解出决策函数,这样便可以对给定的非线性可分的样本 类属性进行正确的划分。s v m 的分类问题可以转化为一个不等式约束条件下的二 次优化问题,优化方程仅涉及样本间的内积【2 6 1 。为此,本章先介绍优化理论和 s v m 的基本原理,由此引出了在信用评估领域使用该模型时需要注意的问题。 3 1 分类问题简述 本文的信用评估问题实际上是二分类问题,故下面先从分类问题的提出到解 决来了解支持向量机的实现过程。 根据给定的训练集t = ( x ,y ,) it r n , y , - 1 ,l ,i = l ,) ,寻找r ”上的一 个实值函数g ( x ) ,以便用决策函数( 3 1 ) 来推断样本x 相对应的y 值。 y = f ( x ) = s g n ( g ( x ) ) ( 3 1 ) 其中,s g n ( ) 是实符号函数,即 s g n ( x ) = - 1 , x o ; ( 3 2 ) 薯r ”是输入样本,其分量称为特征;y j 一1 ,1 ) 是决策变量,y t = l 表示输 中山大学硕士学位论文 入样本x ,属于正类,只= 一1 则表示其属于负类,在信用评估领域正类代表守信客 户,负类代表违信客户。这些样本点组成的集合,称为训练集。分类问题的目的 是,对于任意给定的一个新的模式x ,根据训练集来求解决策面,即可以将两类样 本分开的超平面,推断它的y 是1 还是1 【2 7 1 。 根据训练集的数据分布,可以将两分类问题描述为下面三张图,图中掌表示正 类样本,0 表示负类样本。 图3 1 完全线性可分示意图 图3 2 近似线性可分示意图 木木 木木 o o 0 木 木 o o 枣木 木 木 图3 3 非线性可分示意图 中山大学硕士学位论文 由图3 1 、图3 2 和图3 3 可以看出,分类问题大致可以分为两种:线性可分 ( 包括完全线性可分和近似线性可分) 和非线性可分问题口8 1 。对不同的问题,决 策函数g ( x ) 也不同。下面,本文将对不同情况下的支持向量机的构造原理进行简 要阐述。 3 2 最优化问题 考虑问题: r a i n 厂o ) 盯q c i 暑嚣i 羔p 量p + q 3 , ( x ) = 0 ,=+ l ,+ x r ” 如果目标函数f ( x ) 和约束函数q qf = 卜;p 都是凸函数,而q = qf = p + 卜;p 叼 都是线性函数。此时可行域d = 扛i q 0 ,f - l ,历q = o ,扛p + l - ,p + 仍x ) 为凸集,这种问题被称为凸规划问题。 定理3 1 凸规划问题的解 考虑凸规划问题( 3 3 ) ,设d 是问题的可行域 d = xc l ( x ) 0 ,f = 1 ,p ;c 。( x ) = 0 ,f = p + 1 ,p + q ;x r ”) ( 3 - 4 ) 则 ( 1 ) 若问题有局部解x ,则x + 是问题的整体解; ( 2 )问题的整体解组成的集合是凸集; ( 3 ) 若问题有局部解x ,f ( x ) 是d 上的严格凸函数,则x + 是问题的唯一整体 解。 定义3 2 约束规格 考虑一般约束问题( 3 3 ) 的可行域 d = xc i ( x ) 0 ,i = l ,p ;c ,( x ) = 0 ,f = p + 1 ,p + q ;x r ”) ( 3 5 ) 中山大学硕士学位论文 其中p 个约束函数q ( x ) ,勺( x ) 都是可微函数。引进下列两种约束规格: a 线性条件:p 个约束函数q ( x ) ,0 ( x ) 都是线性函数。 b 梯度线性无关条件:剃度向量集 v q ( i ) | f j ) 线性无关。其中彳为i 处起 作用的集合。 定理3 3 凸约束问题解的必要条件 考虑凸规划问题( 3 3 ) ,其中厂:r ”专只和g :r ”专r ( i = 1 ,p ) 都是可微凸 函数,且满足定义3 2 中的某一个约束规格,若i 是该问题的解,则存在 反= ( 匾,啄) r ,万= ( 尾小,尼+ g ) r ,瓦,万是l a g r a n g e 乘子向量,使得k k t ( k a r u s h k u h n - t u k e r ) 条件成立,即 掣= 警+ 喜瓦警+ ,萎p + q 。厦警一o , 苏 叙 智苏f 篡l “苏 。 q ( i ) 0 ,i = l ,p , q ( i ) = 0 ,i = p + l ,p + q , ( 3 - 6 ) 瓦o ,i = l ,p , 蟊c ,( _ ) = 0 ,i = l ,p 定理3 4 凸约束问题解的充分条件 考虑凸规划l u - l n ( 3 3 ) ,其中厂:r ”专r 和q :r ”哼r ( i = l ,p ) 都是可微凸函 数,若i 满足k k t 条件,则i 是问题( 3 - 3 ) 的解。 定义3 5w o l f e 对偶 称问题 m a x l ( x ,a ,f 1 ) , a ,p ,工 s j 丝( 三! 竺! 旦:0 ( 3 7 ) o 譬 a 0 为凸优化问题( 3 3 ) 的w o l f e 对偶。其中l ( x ,a ,p ) 为l a g r a n g e 函数,即 中山大学硕士学位论文 三( 瑚,卢) :厂( x ) + p 口,q ( x ) + 窆屈q ( x ) ( 3 - 8 ) t = l i f f i p + l 定理3 6 凸规划问题的w o l f e 对偶定理 考虑凸规划问题( 3 3 ) ,其中厂:尺”jr 和q :r ”专尺( f - 1 ,p ) 都是可微凸 函数,q ( x ) = 0 ,f - p + l ,p + q 都是线性函数,且定义中某一约束规格成立。 则: a 若原始问题( 3 3 ) 有解,则它的w o l f e 对偶问题也有解; b 若原始问题和w o l f e 对偶问题分别有可行解i 和何,声) ,则这两个可行解分 别为原始问题和对偶问题的全局最优解的充要条件是它们相应的原始问题和对偶 问题的目标函数值相等。 3 3 线性支持向量机 3 3 1 完全线性可分支持向量机 下面便以二维平面的分类问题作为例子,求出解决线性可分问题的方法。 a 图3 - 4 线性可分问题 b 从图3 - 4 ( a ) 可以看到,能将两类样本点正确分开的直线很多,如分割线1 和 中山大学硕士学位论文 分割线2 。正如统计学习理论中所提到的,分割线1 和2 都能保证经验风险最小 化,但支持向量机所要求的不仅仅是没有错分,还要是分类效果更好,即使分类 间隔( m a r g i n ) 最大,从而得到最优分类线( 高维空间则为最优分类面) 。图3 4 ( b ) 形象的描述了如何寻找最优分类线的过程【2 9 1 。 下面用数学语言来描述这个过程:在给定法向量面后,直线,:和,分别可以 表示为( 击x ) 一方= k 。和( 每x ) 一f = k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 复杂适应系统协议
- 2025年未来城市交通解决方案项目可行性研究报告
- 2025年数字艺术创作工作室项目可行性研究报告
- 2025年文化遗产保护利用项目可行性研究报告
- 元旦放假协议书
- 个人调解协议书
- 万达科技协议书
- 煤改电合同协议书
- 2025年环境监测与治理方案项目可行性研究报告
- 部编版地理中考考试卷带答案解析
- 手榴弹使用课件
- 《新闻学概论》试卷及答案
- 工会劳动争议调解会议记录范本
- 2025年数字化营销顾问职业素养测评试卷及答案解析
- 2025年保密试题问答题及答案
- 建设工程工程量清单计价标准(2024版)
- 代建项目管理流程与责任分工
- cnc刀具刀具管理办法
- DB14∕T 3069-2024 放射治疗模拟定位技术规范
- 如何培养孩子深度专注
- 2024年餐饮店长年度工作总结
评论
0/150
提交评论