




已阅读5页,还剩71页未读, 继续免费阅读
(管理科学与工程专业论文)支持向量机在个人信用评估中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 本文基于商业银行的历史数据,研究银行的贷款申请人的个人信用评估问 题,并据此判断其贷款的信用程度。国内外现在研究这方面的方法和模型比较多, 但将支持向量机应用到个人信用评估的还比较少见。 首先,本文阐述了支持向量机在分类方面具有其它模型所不具有的优越性, 提出支持向量机在个人信用评估中的先进性,并对其数学基础进行了分析,重点 论述了支持向量机的强大的数学理论支撑。 其次,个人信用评估指标体系的建立是一个重要的环节。国内很多论文中, 都是直接套用其它学者的分类指标体系,并没有论证指标体系所需要指标的选取 标准与选取方法。在本文指标体系的建立过程中,作者在系统分析国内外学者分 类指标的基础上,立足于我国消费信贷现状,从中发现了具有普遍意义的个人信 用综合评价指标,采用了经验式信用分析来构建指标体系,提出了适用于我国信 用环境的指标体系。 再次,个人信用收集到的数据中除月平均收入等比较精确的定量数据外, 还包含许多较难描述的定性指标。因为数据的预处理对于建立模型具有至关重要 的作用,因此,本文中首先采用交叉表分析法对可能的特征变量的一些特征项进 行了删除与合并;然后,采用“信息价值 法对某商业银行3 9 4 个贷款人信息的 1 2 组数据进行了处理,将其中的定性指标进行定量化,并从1 2 组数据中筛选出 7 个特征变量。 最后,将有关数据经过处理后用于建立支持向量机模型,并且通过编程不 断地调整支持向量机的有关参数。为了模型的正确性,最后,对模型进行了交叉 验证。通过实证研究表明,本论文建立的支持向量机模型的正确性和适用性。 关键词:个人信用信贷风险评估体系支持向量机 a b s t r a c t b a s e do ne x i s t i n gs t u d i e so fp e r s o n a li d e n t i f i c a t i o nm e t h o d s ,as u p p o r tv e c t o r m a c h i n e ( s v m ) - b a s e da l g o r i t h mi sp r o p o s e di nt h i st h e s i st oa p p r a i s ep e r s o n a lc r e d i t , w i t ha na d e q u a t el o a ng i v e nt ot h er i g h tp e r s o n f i r s t l y , t h ea d v a n t a g e so fs v m o v e ro t h e rm e t h o d sa n dm o d e l sa r ep r e s e n t e dw i t h ap r o p o s a lt h a ta p p l i c a t i o no fs v mt op e r s o n a lc r e d i th a ss o m ea d v a n t a g e so v e r e x i s t i n gm e t h o d s s v mh a saf i r ms u p p o r to fm a t h e m a t i c sa n d , t h u s ,i ti sf a i r l y p r e c i s et oc l a s s i f yt h ed a t ab a s e do nt h ee s t a b l i s h e dm o d e l s e c o n d l y , i ti si m p o r t a n t t os e tu pac o r r e c te v a l u a t i o ns y s t e mo fp e r s o n a lc r e d i t h o w e v e r , m a n yd o m e s t i cp u b l i c a t i o n sd i r e c t l yb o r r o wt h es a m ee v a l u a t i o ns y s t e m a b r o a dw i t h o u tv a l i d a t i o n i nt h et h e s i s ,t h ed i f f e r e n c e so ft h ee v a l u a t i o ns y s t e m sa t h o m ea n da b r o a da r ea n a l y z e da n das u i t a b l ee v a l u a t i o ns y s t e mi ss e tu pr e g a r d i n gt h e p e r s o n a lc r e d i tr i s ks i t u a t i o ni nc h i n a t h i r d l y , a st ot h ed a t ac o l l e c t e di nt h i st h e s i s ,i ti sm u c hn e c e s s a r yt oq u a n t i f yt h e q u a l i t a t i v ev a r i a b l e s ,b e c a u s et h e ya r ec r i t i c a lt os e t t i n gu pa ns v mm o d e l i nt h e t h e s i s ,ac r o s st a b l ea n a l y s i sm e t h o di sf i r s tu s e dt od e l e t ea n dm e r g es o m e c h a r a c t e r i s t i cv a r i a b l e sa sr e q u i r e d ;t h e n ,b a s e do n i n f o r m a t i o nv a l u e ”,12d a t a s e t so f 3 9 4l o a nb o r r o w e r s d a t af r o mac o m m e r c i a lb a n ka r eh a n d l e d ,w i t hq u a l i t a t i v e v a r i a b l e sq u a n t i f i e da n d7v a r i a b l e sf r o m1 2d a t a s e t sc h o s e nf o rs v m f i n a l l y , t h ed a t aa r ed i v i d e di n t ot w os u b s e t s ,o n eo fw h i c hi sf o rt r a i n i n ga n dt h e o t h e ro fw h i c hi sf o rv a l i d a t i o no f 也ec l a s s i f i c a t i o n t w od i f f e r e n ts v m sa r eu s e dt o d ob o t ht h et r a i n i n ga n dv a l i d a t i o n ,r e s p e c t i v e l y , w i t he a c hs v ma d o p t i n gf o u rb a s i c k e r n e lf u n c t i o n s ac o m p a r i s o no ft h et w oc a s e si sm a d ea n dt h ea p p r o p r i a t em o d e li s o b t a i n e d k e yw o r d s :p e r s o n a lc r e d i t ,c r e d i tr i s k ,e v a l u a t i o ns y s t e m ,s v m 表目录 表3 - 1国外学者所用的个人信用评估指标体系2 5 表3 2国内几大银行个人信用评估体系2 6 表3 3 个人信用评估体系指标2 7 表4 - 1 三个贷款机构申请表中的特征变量3 5 表4 2 特征变量的可能取值3 6 表4 3 性别各特征项“频率”发生比3 7 表4 4 年龄各特征项“频率 发生比3 7 表4 5 特征变量的最终分组结果3 8 表4 6 各个特征变量的信息价值4 0 表4 7 特征变量属性值量化表4 0 表5 1c 一支持向量分类机下不同核函数分类结果对比4 5 表5 - 2 ,一支持向量分类机下不同核函数分类结果对比4 9 表5 3 c 一支持向量分类机和1 ,一支持向量分类机结果对比5 0 图目录 图1 1 神经网络系统示意8 图1 2 神经网络信息处理示意9 图1 3 本文结构框图1 0 图2 1 最优分类超平面1 4 图2 - 2 软间隔超平面1 6 图2 3 支持向量机示意18 图5 1 个人信用评估支持向量机模型4 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞叁堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:夺妊 签字日期:函呵年万月2 日 学位论文版权使用授权书 本学位论文作者完全了解鑫盎盘鲎有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:参虹 导师签名: 签字日期:。呷年占月工日 签字日期: 卿年 石月 上日 | 第一章绪论 1 1 研究的背景和意义 第一章绪论 随着人类社会商品经济的不断发展,信用交易已经发展为一种重要的市场交 易方式,于是,现代信用管理技术和服务便有了用武之地。一方面,它能够指导 企业对信用销售活动进行科学管理,提供企业适应在这种市场环境下进行成功销 售的保障;另一方面,建立消费者信用记录,能够帮助广大消费者将自己的生活 更深入地融入到社会经济生活中去,从而在新市场规则下享受到由超前消费带来 的种种好处。因此,系统地研究信用管理方法,提供成熟有效的技术支持和服务, 成为在新形势下开展我国经济金融创新活动的当务之急。 风险管理是金融管理的一个核心问题。信用风险则是风险管理中最为重要的 问题,是银行和企业都需要面对的风险,而且随着信用交易的扩大,信用风险越 来越大。2 0 世纪8 0 年代末以来,随着金融的全球化趋势及金融市场的波动性加剧, 各国银行和投资者受到了前所未有的信用风险的挑战。世界银行对全球银行业危 机的研究表明,导致银行破产的主要原因就是信用风险。因此,国际金融界对信 用风险的关注日益加强,如旨在加强信用风险管理的巴塞尔协议已在西方发 达国家全面实施【1 1 。 。 信贷( c r e d i t ) 是建立在商业信用基础上的一种借贷行为,受信人不用立即 付款就可获取资金、物资或服务。但在债务双方事先商定好的时间期限内,受信 人必须为所获得的资金、物资、服务而付款或还款,同时,他还要为提前支取行 为付一定的费用,并以支付利息的形式返还给授信人【2 1 。 我们在这里所研究的信用是从属于商品和货币关系的一个经济范畴,这与通 常意义下所说的道德范畴的信用有所不同。现代市场经济下的信用,是建立在商 品流通和货币交换存在的条件之下,利用信用的个人或企业将承担一定的经济风 险或获得一定的经济收益。 信用风险评价方法不断推陈出新,管理技术正日臻完善,许多定量技术、支 持工具和软件已付诸商业应用。由于我国商业银行和金融市场尚处转轨和新兴发 展阶段,信用风险管理技术较为落后。因此,信用风险的评价方法的探讨是一个 既古老又时髦的话题。在信用风险的评价方法探讨中,银行一般居于主导地位, 信用服务机构也在积极做出探索。 但遗憾的是,目前我国某些地区和某些人仍有一些失信的表现和行为,比如 第一章绪论 说,恶意骗取消费贷款、有偿还能力却不还款、手机欠费而不付费、利用信用卡 恶意透支等现象,使德银行在经营运作中频频碰到个人信用危机,银行个人信用 消费贷款的拖欠率持续上升,使得尚属于新生事物的个人信用消费贷款目前已经 陷入尴尬境地。这无疑为中国的个人信用制度的健康成长交了一笔价值不菲的学 费。基于以上种种因素,对个人信用风险进行评估有着重要的意义。 为了找出一种切实可行有效的个人信用评估的方法,本文以“支持向量机在 个人信用评估中的应用”为题,应用支持向量机的基本原理和方法,将其运用于 个人信用评估的过程中,探讨其适用性和具体应用的方式。 1 2 国内外个人信用评估的研究状况 1 2 1 国外的研究状况 个人信用评估是市场经济发展到一定阶段的产物,任何一个国家的资信评估 业都是随着经济的不断发展而发展的。世界上最早的征信机构为1 8 0 1 年于英国布 鲁林克成立的征信局,经过2 0 0 多年的发展,资信行业在欧美发达国家已经相当 成熟并在社会经济领域占据了不可替代的一席,相对来说欧洲的英国和美洲的美 国是资信行业最发达的国家 2 1 。 西方发达国家的信用评估行业基本是以二战为界划分为两个发展阶段。在第 二次世界大战以前,西方发达国家的资信业发展缓慢,即使在美国资信评估业同 样也很不发达。当时只有极少数的零售商采用信用销售,而且其客户也仅局限于 那些非常知名的客户,因为缺乏便捷有效的交通工具与通讯设施,人们的信贷活 动受到很大的局限。1 9 1 0 年的摩利斯计划银行可以被称为最早提供消费信贷的银 行。1 9 1 6 年,一个名为r u s s e l ls a g e 的慈善机构制定出“小型贷款统一法 ,该法 为消费贷款者提供了一个最早的框架。 在第二次世界大战结束后的2 0 年中,由于科学技术的快速发展,生产力极大程 度的提高,促进了消费者对产品、服务的需求,信用交易成为在市场发达国家中 非常重要的促销手段,而且信用交易额猛增,征信公司的规模也迅速扩大。由于 市场发展的需要,信用管理行业步入了现代信用管理阶段,并取得了快速发展。 从国外的研究现状来看,商业银行的信用风险管理技术已经比较成熟,许多 定量技术和支持工具、软件已付诸商业应用。继传统的比例分析之后,统计方法 得到了广泛地应用。如判别分析法和l o g i s t i c 回归等。从2 0 世纪9 0 年代末期以来, 人工智能技术如神经网络、专家系统、分类树也被应用到商业银行的信用管理中。 在国外,量化评估和应用量化评估的模型己经得到公认。新巴塞尔资本协议 2 第一章绪论 希望商业银行信用风险的确定,应当逐步由标准法向内部评级法过渡,最后全面 采用信用模型法。国际清算银行也提倡国际性的商业银行建立高级的内部信用风 险量化模型。因此,信用评估模型化将是信用评估的发展趋势。但是,由于信息 分布不对称和数据匮乏,各界对信用风险量化的方法未达成共识。随着科学技术 的进步,计算机技术和信息技术的发展将为信用风险量化评估工作带来巨大的推 动力,最终将使信用评估和管理标准趋于统一。 对于国外的个人信用评估可以从定性和定量两方面来进行阐述f 1 5 】【5 5 】。 ( 1 ) 定性研究 法制方面,以美国为例,在控制信用风险方面,其先后颁布了公平信用 报告法、隐私法、信息自由法、信用修复机构法等1 0 多部相关法 律,使信用信息收集和披露在规范中运行。既保护了消费者的利益,又使诚信公 司能够有的放矢,明确拓展业务的范围。 此外,一些发达国家还建立了一下几类诚信模式:以政府建立的个人信贷登 记系统为主导的欧洲模式;以商业征信公司为主体的美国模式;以银行协会建立 的会员制诚信机构与商业机构共同组成的日本模式。 ( 2 ) 定量研究 用科学严谨的分析方法,对个人及其家庭成员的履约能力和可信程度进行全 面评判与估价,并以一定的符号表明其信用状况。 对于个人信贷风险管理的定量研究,国外研究大都采用根据对客户收入、教 育、家庭等十几项指标参数进行模型分析的方法,并且运用先进的计算机技术、 统计技术和优化算法等对参数进行最优估计,以期达到最优控制或预测的目的。 在定量研究方面,国外商业银行对个人信用的分析主要采用两种方法:专家 判断法和信用评分法。 专家判断法是信贷人员利用个人知识、直觉和经验对消费信贷进行评估的 一种传统评估方法。信贷人员分析消费信贷调查中所收集的原始资料,通过对个 人财物报表的分析来进行。其主要分析内容包括资产分析、收入分析、负债分析 和综合分析等。贷款分析员在进行前三项分析之后将从财物报表中获得的各项信 息有机地组织起来,进行最后的综合分析。 信用评分法是将数学和统计学模型应用到信用评估中,它以大量的信贷历 史经验为依据,以定量的分析方法来评估消费信贷的风险,并以此做出贷款决策。 目前,一些人工智能算法己经运用到模型的优化算法中,如神经网络、遗传算法、 模拟退火算法等。它首先分析各种变量之间与消费信贷质量的关系,找出最能反 映贷款质量的一组变量,如住房情况,现在工作情况等,根据各个变量与贷款质 量的关系,为每个变量设定一个数值,然后加总,将加总后的分值和预先设定好 第一章绪论 的接受一拒绝临界分支进行比较,如果贷款申请人的总分低于该值,则银行会做 出拒绝贷款的决定。否则,同意贷款。 专家判断法和信用评分方法相比,各有优缺点,两者之间的优劣比较如下: ( 1 ) 两者都运用了影响贷款申请人信用因素的资料。但是,信用评分方法 根据影响贷款申请人信用的每项因素与其他相关因素的统计重要性来决定该项 因素的权重,反映影响贷款申请人信用因素重要性的等级,而专家判断法则更多 地考虑影响贷款申请人信用各项因素重要性等级变动,较好地反映贷款申请人不 可量化的一些无形价值; ( 2 ) 信用评分方法仅分析与影响贷款申请人信用状况有关的传统性因素, 专家判断法甚至可以分析违背政府监管要求的一些因素; ( 3 ) 信用评分方法综合各项影响贷款申请人的信用状况的因素,专家判断 法则限于人的思维能力,通常依次评价影响贷款申请人信用的各项因素。 由以上比较,我们可以看到,与专家判断法相比,信用评分方法具有科学、 一致、高效的优点,所以在现代大规模的银行和金融机构的信贷评估中,大都以 信用评分方法为主,而以专家判断法为补充。可以看出,国外在个人信贷风险管 理研究方面显现出了模型化,数量化的发展趋势。 1 2 2 国内的研究状况 个人信用评估是通过综合考虑影响个人及其家庭的内外客观、微观环境,使 用科学严谨的分析方法,对个人及其家庭成员的履约能力和可信程度进行全面评 判与估价,并以一定的符号表明其信用状况。 从国内的研究现状来看,个人信用风险的评估和管理研究技术较为落后,特 别是客户信用分析与评估技术仍处于传统的比例分析阶段。目前我国银行机构对 个人的信用等级评定是通过对个人的某些单一财务指标进行加权平均确定的。该 方法的最大缺陷在于指标和加权值的确定带有很大的主观性,使评估结果和实际 状况有很大的出入。 我国的个人信贷中,住房信贷是重点。近年来,随着我国住房制度改革的逐 步深入,个人住房贷款成为个人信贷发展的重点。为了支持和鼓励居民购买住房, 国家通过重点支持经济适用型住房建设、对住房贷款实行优惠利率等多种措施, 发展住房贷款,促进房地产业健康发展。 其次,个人助学贷款稳步发展。1 9 9 9 年以来,为配合高校扩招政策及收费制 度的改革,国家出台了教育助学贷款政策。助学贷款对象是家庭经济困难的高校 在校生或学生家长。助学贷款分为国家助学贷款和一般商业助学贷款两大类。国 家助学贷款是指国有独资商业银行对全日制高校中经济困难的学生发放的财政 4 第一章绪论 贷款。 直到2 0 世纪8 0 年代中后期信用卡这一金融工具才开始在我国沿海城市兴起, 我国的个人信用评估工作才逐步开始向规范化发展。目前,商业和银行对企业贷 款基本上已经建立了一套比较完备的信用评级体系,能够将一些不合格的企业排 除在贷款范围之外,做到贷前控制风险,银行对企业的信用业务发展较快。而对 于个人消费信贷,由于缺乏一个完善、可行的个人信用制度和对个人信用状况进 行评估的专业机构,加之个人流动性大、城乡差别收入难以准确判断等因素,致 使银行在评估个人信用时,难度大且可靠性差,给银行办理个人信贷带来很大障 碍,也使消费信用一直未能得到较快发展【2 5 】【5 5 1 。 1 9 9 9 年下半年,中国建设银行济南市分行出台了个人信用等级评定办法, 对促进我国个人信用制度的发展起到了先导作用。个人信用等级评定方法将借款 申请人的年龄、学历、职业、家庭收入和家庭资产等信息资料汇集起来,形成十 大指标体系,对不同的指标赋予不同的分值进行量化处理,从而对申请人的还款 能力信用状况做出综合评价,并划分等级。个人信用等级分为a 、b 、c 、d 四个 等级,综合评分8 5 分以上的为最高等级a 。该办法首先在个人住房信贷业务范围 内实行【5 5 1 。 2 0 0 0 年9 月起中国建设银行在全国逐步推出可循环使用的个人消费额度贷 款。为配合个人消费额度贷款的推出,建设银行制定了个人信用评定办法,对借 款人的信用等级进行评定,根据借款人的信用等级掌握贷款额度。同时,为鼓励 借款人使用贷款和按期归还贷款,建设银行还根据客户使用贷款的信用记录、对 银行的贡献等指标,计算客户信用积分,定期调整借款人的信用额度。信用额度 对应信用等级:a a a 级,最高6 0 万元;a a 级,最高1 0 万元;a 级,最高5 万元; b b b 级,最高l 万元;b b 级,最高5 0 0 0 万元;b 级,最高3 0 0 0 万元;c 级,信用 额度为0 。信用额度和保证额度为2 年。 2 0 0 3 年1 月8 日,北京市历史上第一份住房贷款个人信用评估报告正式出 台,北京大学的1 2 1 名教职员工成为第一批申请公积金贷款或贴息贷款时接受个 人信用评估的客户。三页纸的报告,除了买房者的姓名、工作、职称、学历等基 本情况外,还有住房情况、公积金交存记录、公积金贷款记录等内容,最核心的 当然是对个人信用做出的等级评估。依据“个人基本信息、信用记录信息、社会 信用记录信息和特别记录”四大类个人信用指标,选取了被评分人的职业、职称、 学历、工作稳定性、居住稳定性、个人年收入、房产和贷款记录、信用卡记录等 数十个变量,进行信用评分,预测被评分人未来的信用程度,作为对其提供贷款 服务时的参考依据。在评分的基础上,将个人信用分为从最高的a a a 级到最差 的c 级共7 个等级。分数越高,等级越高,信用风险越低。消费者在申请公积金 第一章绪论 贷款或贴息贷款时,个人信用良好的借款人可以得到更多优惠。信用等级为最高 a a a 级的,公积金贷款或贴息贷款额度可上浮3 0 ,次挑级的可上浮1 5 ; 此外,对于a a a 级申请人,北京市住房贷款担保中心按照实际收取担保服务费 的9 5 收取担保费,从级的按9 8 收取。北京市住房资金管理中心,信息服务 中心的个人信息数据库已包含了全市近3 0 0 万人的住房公积金信息、1 0 万多笔个 人住房贷款信息以及8 0 多万个家庭的住房信息。而且,信息管理业务已经实现全 程计算机化管理,有关的个人信息数据输送后,大约三分钟左右就可以做出等级 评估。 1 3 个人信用评估方法研究综述 现阶段个人信用评级方法大体可分为三类:有约束的以专家判断为基础的方 法,以专家经验判断为基础的方法和以统计为基础的方法,其中以统计为基础的 方法主要包括信用评分模型方法与神经网络方法。以上分类可视为从依靠经验和 定性分析为一端到为另一端依靠定量技术的连续过程中的不同点【2 5 】 2 6 】【5 5 1 。 ( 1 ) 专家判断或经验法则 专家判断法是指经过专家小组会议讨论后,以投票方式确定信用等级的一 种方法。这种方法最早出现于2 0 世纪6 0 年代,由美国的兰德公司首创,当时称德 尔菲法( d e l p h im e t h o d ) 。最初,它并不是用于信用评级,致使后来在实践中人 们发现这种方法比较有效,才把它应用于信用评级领域的。 专家判断法是目前金融机构对借款人进行信用评级时经常采用的一种有效 的方法,在这个过程中,专家人士的专业经验知识、主观判断和一些因素的权衡 是决定性因素。 在专家会议讨论的过程中,一般采用的方法是“5 c 要素分析法,即品德 ( c h a r a c t e r ) 、能力( c a p a c i t y ) 、资本( c a p i t a l ) 、担保( c o l l a t e r a l ) 和条件( c o n d i t i o n ) 。 金融机构通过组织专业人士对借款人的这五个方面进行定性定量分析,以判断借 款人的还款意愿和还款能力。 ( 2 ) 综合评估法 综合评估方法以定性分析为主,以定量分析为辅。目前我国银行普遍采用的 “打分法”就属于此类,即通过选取一定的财务指标和某些定性指标并通过专家 判断或其他方法设定每一指标的权重,由评级人员根据事先确定的打分表对每一 指标分别打分,再根据总分确定其对应的信用级别。这种方法简便易行,可操作 性强。 其操作步骤如下: 6 第一章绪论 首先,确定信用评估的指标,包括定量指标和定性指标。指标的选择标准应 以对评价对象偿债能力的评估为核心,对定量义素和定性因素进行综合考察,并 使定量分析和定性分析相互校正。 其次,确定各项定量指标的实际值。对个人进行信用等级评估,可以对借款 人进行连续三年或者五年的考核,因为单独一年的业绩不够稳定,把连续若干年 的还款情况联系起来,可以衡量个人信用的发展情况。 再次,规定各项评估指标的权重。即该项指标在评估最终结果中所占的分数, 它体现评估指标对信用评估结果的影响程度。评估指标的权重的确定,可以通过 专家判断法取得共识,也可以采用层次分析法等予以确定。 最后,计算评估指标的分值。 ( 3 ) 信用评分模型法 信用评分模型法是指在充分分析客户历史数据的基础上,构建信用评级模 型,设置模型变量和参数,通过模型计算违约风险的大小,从而确定受评对象信 用等级的一种经济计量方法。信用评分法利用历史数据和统计技术来评价被评估 对象的信用风险的大小,信用评分模型可以产生一个分数,根据这个分数可以对 被评估对象的信用风险水平进行排序。 信用评分基本原理是利用统计分析技术,以过去的资料来研发能预测未来授 信客户表现的分数,其假设在授信审核时有些已知的客户特性会与授信客户未来 是否准时还款有关联,一旦找出这些关联性,在假设未来情况会与过去类似的情 形下,可以套用现在的数据,做未来的预测。这些假设,与早期授信人员大多运 用过去授信审核的经验,判断授信户未来是否还款的情形相同。所不同的是现在 许多数据可记录在数据库中,凭借软件及算法的辅助,可使分析更准确。特别要 注意的是,信用评分模型时假设未来情况会与过去类似,但未必都是如此,而且 通常时间越久,信用评分模型预测力会越差,所以评分模型建立完成后,会被持 续监控,以确保评分模型能有效运作。 随着计算机技术的快速发展,信用评分与决策支持系统相结合,使应用层面 更广泛,例如住房贷款、汽车贷款、信用卡、邮购、直销、保单、手机账户等皆 可通过评分系统进行客户管理。 建立模型可采用的方法很多,常用的传统统计方法包括线性概率模型、l o g i t 模型、p r o b i t 模型、判别分析模型等。前面三种统计分析方法是根据历史数据和 借款人的特点算出违约率,再用估计结果去预计一个新的评估对象的违约可能 性。判别分析技术不是计算借款人的违约率,而是将借款人按照违约风险的高低 不同进行分类。 ( 4 ) 神经网络模型方法 7 第一章绪论 神经网络起源于1 9 8 7 年,它是仿真人类大脑思考的方式构建出来的人工智能 系统,它将各种投入要素通过复杂的网络加工转换成产出信息,它凭借学习训练 范例的过程找出输入变量与输出变量问的关系,并构建出预测模型。神经网络模 型是一种计算系统,包括软件与硬件,它使用大量简单的相联人工神经元来模拟 牛物神经网络的能力。 使用神经网络方法进行个人信用评级的模型构建,只需要有一组个人历史相 关数据及其信用评级数据,便可依此建立评级预测模型,不受限于样本为正态分 布的假设,也无变量是否具有共线性的问题,其结果会介于0 与1 之间,在信用风 险的衡量下,即为个人的违约率。它在信用卡模型技术中占有一席之地,特别是 在智能型交易欺诈预测模型中大显身手。 如图1 1 所示,神经网络系统由一系列的神经元( 图中的圆圈) 组成。这些神 经元由许多带有方向性的、代表一定权重的神经链( 图中的箭头) 连接起来,每 个神经元代表基本的信息加工单位,每个神经链代表一定的权重,神经网络内部 复杂的神经元和神经链系统代表着复杂的数学函数关系,通过神经网络系统内部 的信息d n - r 和权重分配,最终得到输出( 模型评分) 。 各厂。,、 种 个、u ;一一;| 输 一:蠢 出 入 输 要 素 图1 1神经网络系统示意 图1 2 为神经网络系统的数学信息加工流程示意图,其中x 鼍代表该神经 元的投入要素,w 一w 代表相应的权重,代表对投入要素信息的汇总,f ( ) 是该神经元的权重函数,】,是该神经元的输出。神经网络系统就是由一系列神经 元所代表的复杂的函数关系构成的。 第一章绪论 五 五 图1 2 神经网络信息处理示意 】, 神经网络模型的操作一般有以下四个步骤组成: s t e p l 界定神经网络的结构,包括神经元的数目、神经元的层次和神经元之 间的连接关系; s t e p 2 界定神经网络的计算方式,即神经元对投入要素进行汇总、加权从而 得到相关输出的函数形式; s t e p 3 对函数方程中的权重进行训练,这是一个反复的过程,数据被提交到 神经网络中去,计算机根据一定的数学规则不断地进行测试、更新权重,以得到 优化的结果。这个过程称为机器学习的过程。 s t e p 4 对训练结果进行检验,即把从训练数据集合中得到的优化神经网络模 型应用一个新的数据集合进行检验,计算模型的预测结果与真实结果之问的误 差。由于神经网络模型是一种机器学习的产物,比较容易犯“过学习的错误, 因此,检验是很重要的一步。 1 4 主要的研究内容 从以上归纳整理的结果可以看出:虽然目前我国对于个人信贷风险管理的研 究已经取得了一定的成果,但是,我国在开展个人信贷业务方面毕竟还处于起步 阶段,与国外已经发展成熟的各类理论相比仍存在很多缺陷。其表现为: ( 1 ) 在研究方法上偏重于定性研究,定量研究比重相对较小,研究成果停 留在初级阶段; ( 2 ) 研究成果缺乏系统性,将用于评价的各个指标剥离开来,忽略了其内 在的关联性,没有整合成为一个完整的体系。 针对以上三个方面,本论文着重研究一下几个问题: ( 1 ) 为避免单纯地定性分析引起的偏差,本文中首先采用交叉表分析法对 9 第一章绪论 可能的特征变量的一些特征项进行了删除与合并;然后采用“信息价值 法对某 商业银行将近4 0 0 个贷款人信息的1 2 组数据进行了处理,将其中的定性指标进行 定量化,并从1 2 组数据中筛选出7 个特征变量; ( 2 ) 提出支持向量机在个人信用评估中的先进性,并对其数学基础进行了 阐述。然后分别采用c 一支持向量分类机( c s v c ) 和v 一支持向量分类机( 1 ,- s v c ) 在它们选择不同的核函数时对我们得到的量化数据进行分析处理,得出不同的核 函数在分类中的优劣; ( 3 ) 将c 一支持向量分类机( c s v c ) 和,一支持向量分类机得到的结果进 行对比,可以得到适用于本文数据的1 ,一支持向量分类机( 1 ,- s v c ) 的结论。 本文的具体研究过程与研究成果见框图1 3 。 图1 - 3 本文结构框图 1 0 第二章支持向量机的基本原理 2 1 引言 第二章支持向量机的基本原理 1 9 6 2 年,r o s e n b l a t t 提出了第一个学习机器的模型,称作感知器,标志着人们 对学习过程进行数学研究的真正开始。v o v i k o f f ( 1 9 6 2 ) 年证明了关于感知器的第 一个定理,定理指出: ( 1 ) 训练向量z 的模以某个常数尺为界( 即i z i r ) ; ( 2 ) 训练数据能够以间隔p 分开,即s u p 啦乃( z ,w ) 户,其中,辨表示训 w i 练数据目标集的第i 个分量,磊表示训练向量z 的第i 个模分量,w 表示超平面法 向量的第f 个分量; r 旷1 ( 3 ) 在对感知器进行足够多次训练的过程中,最多在n l 之1 次修正后, l p 。j 可以构造出将训练数据分开的超平面。 v o v i k o f f l 拘这一定理实际上是学习理论的开始,在创建学习理论中起到了非 常重要的作用,它在一定意义上及将导致机器具有推广能力的原因和最小化训练 集上的错误数的原则联系了起来。 传统的统计模式识别方法是在样本数目足够多的情况下进行的,然而在实 际应用中,这一前提往往得不到保证。1 9 6 8 年,v a p n i k 和c h e r v o n e n k i s 首次提 出了统计学习理论( s t a t i s t i cl e a r n i n gt h e o r y ,简称s l t ) ,专门研究有限样本情 况下的机器学习规律。1 9 9 5 年,v a p n i k 等( 1 9 9 5 年,1 9 9 8 年) 又根据统计学理 论提出支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 的学习方法,研究如何 根据有限学习样本,进行模式识别和回归预测等,使在对未知样本的估计过程中, 期望风险达到最小。近年来,s v m 已成为解决模式识别分类和回归问题的有力 工具。 t a y 和g a o ( 2 0 0 1 年,2 0 0 2 年) 、l i j u a ng a o ( 2 0 0 3 年) 、k y o u n g - j a e k i m ( 2 0 0 3 年) 利用s v m 对金融时间序列进行预测。l i nc h u n f u 等( 2 0 0 4 年) 和t s u j i n i s h id a i s u k e 等( 2 0 0 3 年) 利用模糊s v m 方法研究模式识别问题。f a n 和p a l a n i s w a m i ( 2 0 0 0 年) 利用s v m 对企业破产进行预测。g a l i n d o 和t e m a y o 利用统计学和机器学 习的方法对银行信用风险进行评估。姚奕和叶中行( 2 0 0 4 年) 利用s v m 研究银 行客户信用评估系统。h u a n gz a n 和c h e nh s i n c h u n 等( 2 0 0 4 年) 、沈翠华和高万 第二章支持向量机的基本原理 林( 2 0 0 4 年) 利用s v m 对企业信用等级进行分析。 2 2 支持向量机的基本原理 2 2 1 统计学习理论 传统统计学习理论研究的是渐进理论,是在假定样本的数量趋向无穷大时求 取极限为其理论前提,但实际应用中该前提一般无法满足,因此理论上很成熟的 学习方法在实际情况中可能不尽如人意。单层、多层感知机与径向基神经网络都 存在着一些难以克服的问题,如如何确定网络结构的问题、过学习问题、局部极 小点问题等,这些问题本质上是由于理论上需要无穷样本与实际应用中样本有限 的矛盾造成的。 机器学习的目的是根据给定的训练样本求出对系统输入输出之间依赖关系 的估计,使它能够对未知信息的输出做出尽可能准确的预测。因此,可以通过定 义风险函数( r i s kf u n c t i o n ) 来对学习效果进行评价。 对于刀个相互独立并服从同一分布的观测样本,假定系统在给定输入为x 的 情况下输出y ,且变量y 和x 之间存在依赖关系,即遵循未知的联合概率,( x ,y ) , 那么学习机器的期望风险定义为 r ( w ) = i 三( y ,厂( x ,w ) ) 谚( x ,y ) ( 2 1 ) 其中,f ( x ,w ) 称作预测函数集,w 为函数的广义参数,称为l ( y ,f ( x ,w ) ) 损失函 数。 学习的目的就是为了使期望风险最小,为此必须联合概率分布。但是,在实 际机器学习问题中,这一条件是未知的,只能利用已知训练样本的信息,因此期 望风险无法直接计算和进行最小化。在实际应用中,一般根据大数定理,即采用 算数平均来代替,利用经验风险最小值来代替期望风险的最小值。经验风险为 ( w ) = 去三( 乃,“,w ) ) ( 2 2 ) i = 1 也就是经验风险最小化原则( e r m ) ,经验风险最小化原则是目前绝大多数模式 识别方法的基础。 2 2 2 支持向量机理论概述 支持向量机理论最初来自于对数据分类问题的处理。对于线性可分数据的二 值分类,如果采用一般网络来实现,其原理可描述为:系统随即产生超平面并且 1 2 第二章支持向量机的基本原理 移动这个超平面,直至o - p l l 练集合中属于不同类别的点正好位于该超平面的不同侧 面,即完成网络的设计要求。这种机理决定了不能保证最终所获得的分割平面位 于两个类别的中心,这对于分类问题的容错性是不利的。 保证最终所获得的分割平面位于两个类别的中心对于分类问题的实际应用 是很重要的,支持向量机巧妙的解决了这个问题。其原理为:寻找一个满足分类 要求的最优超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的 空白区域最大化。 支持向量机( s v m ) 的主要研究内容是:当问题是线性可分时,给出一个 求解最大间隔解的方法,从理论上讲,支持向量机能够实现对线性可分数据的最 优分类;而当问题不是线性可分时,v a p n i k 等人提出利用一核函数将样本集映射 到某一高维空间,使得样本集在高维空间中的像是线性可分的。其学习方法的最 大特点是:根据结构风险最小化原则,尽量提高学习机的泛化能力。其中,通过 非线性映射,将低维空间中的非线性问题转化为高维空间的线性问题,并采用一 核函数代替高维空间中内积运算,达到避免高维运算和解决非线性的目的。 支持向量机是对结构风险最小化归纳原则( s 仃u c t u r a lm s km i n i m i z a t i o n i n d u c t i v ep r i n c i p l e ) 的近似。为了最小化期望风险的上界,s v m 从训练集中选择 一组特征子集,使得对特征子集的线性划分等价于对整个数据集的划分。 支持向量机方法根据有限的样本信息在模型的复杂性和学习能力之间寻求 最佳折衷,以求获得最好的泛化能力( g e n e r a l i z a t i o na b i l i t y ) 。支持向量机方法 的几个主要有点如下: ( 1 ) 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解 而不仅仅是样本趋于无穷大时的最优值; ( 2 ) 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将 是全局最优点,解决了神经网络方法无法避免的局部极值问题; ( 3 )算法将实际问题通过非线性变换转换到高维的特征空间( f e a t u r e s p a c e ) ,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特 殊性质能保证机器有较好的推广能力,同时巧妙地解决了维数问题,其算法复杂 度与样本维数无关。 2 3 支持向量机分类 2 3 1 线性可分支持向量机 先来讨论最简单的情况:对线性可分的样本集采用最优分类超平面进行分 第二章支持向量机的基本原理 类。设有线性可分的样本集如下 ( ,乃) ( i = l ,2 ,刀) 其中,i e r d ,y + l ,一1 ,n 是样本数量,d 是每个样本的维数。假设超平面 w x + b 能把训练样本分开,则有 :竺若觏yi=叫lb w 石+ _ o ,i = l ,2 ,刀 ( 2 4 ) 分界面w z + b 的分类间隔为 m 垆m 纠i n ,箐一m a x 。,箐 ( 2 5 ) 由式( 2 3 ) ( 2 4 ) 可得 d ( w ,6 ) = 而1 一而- 1 = 而2 ( 2 6 ) 此时的分类间隔等于2 iw i 。根据统计学习理论,最优分类面不但能将两类 样本正确分开,而且使分类间隔 0 ,i = 1 ,2 ,” ( 2 t 4 ) ( 2 1 5 ) 由于这是一个不等式约束下二次函数寻优问题,因此存在唯一解。不为零的 第二章支持向量机的基本原理 倪对应的样本就是支持向量,它们只占全部样本中的- - d , 部分,但在分类中具有 非常重要的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年数字电路的功能测试项目资金申请报告代可行性研究报告
- 2024年新型便携式温、湿、风向风速仪资金筹措计划书代可行性研究报告
- 2025年安徽合肥巢湖市市场物业经营管理有限公司招聘笔试参考题库含答案解析
- 2025年浙江嘉兴市嘉睿投资管理有限公司招聘笔试参考题库附带答案详解
- 理想信念奋斗精神教育队会
- 风电工程施工方案
- 企业回收物流方案设计
- 教育部办公厅关于做好2025年高校学生征兵宣传工作的通知
- 2025年中国记事本项目投资可行性研究报告
- 2025年中国蝗虫精巢减数分裂切片市场调查研究报告
- 《感恩主题班会》课件
- 《西方经济学》讲义教案完整版
- 2024年黑龙江省绥化市中考道德与法治试卷(含答案与解析)
- 建筑电气课件教学课件
- 宫颈癌护理查房-5
- 电子商务那些事学习通超星期末考试答案章节答案2024年
- 住宅修缮项目冬季施工专项方案
- 2024年执业药师继续教育专业答案
- 中国高血压防治指南(2024年修订版)要点解读
- 2024年山东济宁初中学业水平考试地理试卷真题(含答案详解)
- 2024年计算机考试-ISTQB认证考试近5年真题附答案
评论
0/150
提交评论