(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf_第1页
(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf_第2页
(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf_第3页
(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf_第4页
(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(管理科学与工程专业论文)基于支持向量机的企业信用风险评估研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅要 金融危机频繁发生和巴塞尔新资本协议对风险的关注表明信用风险评估已经成为 金融风险管理领域的重要课题。金融风险的防范也成为国际金融市场发展中的首要问 题。商业银行是我国金融行业的中坚力量,商业银行信用风险在我国金融风险中表现的 最为主要且显著,影响着经济运行。在商业银行信用风险管理的过程中,信用风险评估 是防范信用风险的核心环节,对信用风险防范和控制至关重要。 本文将影响商业银行信用j x l 险的贷款企业作为主要的研究对象,通过对贷款企业财 务风险因素的研究达到评估商业银行财务信用风险的目的。在具体的研究过程中,在对 以往专家学者所取得的研究成果分析总结的基础上,利用支持向量机模型对影响贷款企 业的财务因素进行了较为全面的理论剖析和实证研究,主要研究内容如下: ( 1 ) 论文以我国商业银行贷款企业为研究对象,对影响贷款企业信用风险的财务因素 和非财务因素进行系统分析。 ( 2 ) 原始数据若不经过数据预处理及筛选必然会导致实证研究预测结果的误差。本文 从显著性检验和因子分析等方面对数据影响因素进行分析。通过两类样本的差异显著性 检验对原始变量进行筛选,得到模型的输入变量,并且与通过因子分析得到的主因子作 为输入变量的模型进行比较。 ( 3 ) 我国对信用风险评估的研究还停留在传统的比例分析阶段,远不能满足信用风险 决策的需要。本文构建了基于集成支持向量机的信用风险评估模型,并且与最小二乘支 持向量机模型、传统的线性判别分析和l o g i s t i c 回归分析相比较。实证分析结果表明支 持向量机模型用于信用风险评估中具有良好的分类性能。 本文的研究成果对于丰富和完善信用风险评估理论和方法,对于增强我国商业银行 信用风险防范能力,提高信贷资产质量与获利能力都有一定的理论和实践意义。 关键词:信用风险,支持向量机,最小二乘支持向量机,集成支持向量机 a b s t r a c t a b s t r a c t d u et or e c e n tf i n a n c i a lc r i s i sa n dr e g u l a t o r yo fb a s e li i c r e d i tr i s ka s s e s s m e n ti s b e c o m i n go n eo ft h em o s ti m p o r t a n tt o p i c si nt h ef i e l do ff i n a n c i a lr i s km a n a g e m e n t t h e p r e v e n t i o no ff i n a n c i a lr i s kh a sb e e nt h ep r i m e rp r o b l e mi nd e v e l o p m e n to fi n t e r n a t i o n a l f i n a n c i a lm a r k e t s c o m m e r c i a lb a n k sp l a ya ni m p o r t a n tr o l ei nt h ef i n a n c i a li n d u s t r yi nc h i n a c r e d i tr i s ko fc o m m e r c i a lb a n k sh a sb e c o m et h em o s ti m p o r t a n ta n dc o n c e n t r a t i v ef i n a n c i a l r i s ki nc h i n a , w h i c hh a sg r e a ti n f l u e n c eo nt h en a t i o n a le c o n o m y i nt h er e d i tr i s k m a n a g e m e n tp r o c e s s t h ec r e d i tr i s ka s s e s s m e n to fc r e d i tr i s kp l a y sav i t a ll i n ki nt h ec o r eo f t h es p e c i a lr o l e ( 1 ) t h i sp a p e rf o c u s e so nt h el o a ne n t e r p r i s e sw h i c ha f f e c tt h ec r e d i tr i s ko fc o m m e r c i a l b a n k s t h r o u g ht h es t u d yo ff i n a n c i a lf a c t o r so fb u s i n e s sl o a n s t h eg o a l st oa s s e s sf i n a n c i a l c r e d i tr i s k w i l lb ea c h i e v e d s u p p o r tv e c t o rm a c h i n e si su s e dt oc o m p l e t et h et h e o r e t i c a l a n a l y s i sa n de m p i r i c a ls t u d i e si nt h ef u t u r ef a c t o r sw h i c ha f f e c tt h ef i n a n c i a ls i t u a t i o no f b u s i n e s sl o a n so nt h eb a s i so ft h ep a s tr e s e a r c hr e s u l t s t h em a i nc o n t e n t sa r ea sf o l l o w s : ( 2 ) t a k i n gl o a ne n t e r p r i s e sw h i c ha f f e c t t h ec r e d i tr i s ko fc o m m e r c i a lb a n k sa s r e s e a r c h i n go b j e c t i o n a n a l y z ef i n a n c i a lf a c t o r sa n dn o n f i n a n c i a lf a c t o r so fi o a nc o m p a n i e s s y s t e m a t i c a l l y ( 3 ) t h eo r i g i n a ld a t aw i l li n e v i t a b l yl e a dt of o r e c a s t i n ge r r o ri nt h er e s u l t so fe m p i r i c a l r e s e a r c hw i t h o u td a t ap r e p r o c e s s i n g t h i s p a l o l e ra n a l y z e s d a t af a c t o r st h r o u g ht h e s i g n i f i c a n c et e s ta n df a c t o ra n a l y s i s s e l e c ti n p u tv a r i a b l e sb ys i g n i f i c a n c et e s ta n dc o m p a r e d t h em o d e lw i t ht h e s ei n p u tv a r i a b l e sw i t ht h em o d e iu s i n gm a i nf a c t o r sa st h ei n p u tf e a t u r e s ( 4 ) c r e d i tr i s ka s s e s s m e n ts t u d ys t i l ls t a yi nt h et r a d i t i o n a lr a t i oa n a l y s i ss t a g ei no u r c o u n t r y , f a rf r o mb e i n ga b l et om e e tt h en e e d so fc r e d i tr i s kd e c i s i o n t h ee v a l u a t i o nm o d e l b a s e do ne n s e m b l es v mm o d e li sc o n s t r u c t e d a n dc o m p a r e dw i t ht h et r a d i t i o n a lm d aa n d l o g i s t i cm e t h o d s ,s v mm o d e ls h o w sb e t t e rr e s u l t s t h i sr e s e a r c hr e s u l t se n r i c ha n di m p r o v et h ec r e d i ta s s e s s m e n tt h e o r ya n dm e t h o d s a n d h a sc e r t a i nt h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c et oe n h a n c ec r e d i tr i s kp r e v e n t i o nc a p a c i t y , i m p r o v ea s s e tq u a l i t ya n dp r o f i t a b i l i t yo fc r e d i t k e y w o r d s :c r e d i tr i s k ;s u p p o r tv e c t o rm a c h i n e s ;l e a s ts q u a r e ss u p p o r tv e c t o r m a c h i n e s ;e n s e m b l es v m 摘要i a b s t r a c t i i 第一章绪论l 1 1 研究意义与背景l 1 2 国内外理论研究现状一j j 3 1 2 1 信用风险评估研究现状3 1 2 2 支持向量机研究现状1 1 1 2 3 支持向量机在信用j x l 险评估中应用的研究现状1 1 1 3 本文基本框架结构和研究思路1 2 第二章理论研究基础1 5 2 1 相关概念界定15 2 1 1 信用风险的定义一15 2 1 2 信用风险的特征1 5 2 2 信用风险管理的识别与控制15 2 2 1 信用风险的识别一l5 2 2 2 信用风险的量化与评估一l5 崔叠二一 2 2 3 信用风险的控制1 6 , 2 3 支持向量机及其理论模型16 2 3 1 支持向量机的基本概念1 6 2 3 2 支持向量机模型1 6 第三章信用风险因素的系统分析2 l 3 1 财务风险分析2 l 3 1 1 盈利性分析2 l 3 1 2 清偿能力分析一2 1 3 1 3 营运能力分析2 2 3 1 4 增长性分析2 2 3 2 非财务风险分析2 3 第四章支持向量机在信用风险评f t i | i 的实证研究2 5 4 1 样本数据描述2 5 目录 4 2 解释变量的初步筛选2 5 4 3 因子分析2 9 4 4 基于最小二乘支持向量机( l s s v m ) 的信用风险评估模型的建立3 5 4 5 基于集成支持向量机的信用风险评估模型的建立3 9 4 6 模型对比一4 5 4 6 1 多元判别分析4 5 4 6 2 l o g i s t i c 回归4 6 4 6 3 模型对比分析一4 9 第五章结论和建议一5 1 5 1 研究结论5 1 5 2 研究局限和发展趋势5 1 致 射一5 3 参考文献5 4 附录:作者在攻读硕士学位期间发表的论文5 8 第一章绪论 第一章绪论 1 1 研究意义与背景 2 0 世纪3 0 年代至今,金融经济危机频频发生。长达9 年的美国储贷银行危机;1 9 8 0 年初芬兰、瑞典、挪威金融改革取消了金融机构贷款限额管制使得市场更加开放,银行 f b j 为了竞争市场占有率,做出过多高风险的放款,最终导致了银行危机;1 9 9 0 年到2 0 0 3 年的同本银行危机;最近一次由美国次贷危机引起的金融危机也是因为放松了金融管 制,忽视了风险控制导致的。盒融危机对经济的一次次冲击让人们认识到信用风险是商 业银行面临的主要风险,是导致银行破产和引起金融危机的主要原因。信用风险评估成 为经济领域的重要课题。 东南亚金融危机的爆发促使人们丌始更加重视市场风险与信用风险的综合模型及 操作风险的量化问题。巴林银行倒闭事件促进了新巴塞尔协议的诞生,巴塞尔协议 l i 的资本条款鼓励金融机构建立评估单个信用风险和信用风险组合的内部评级系统。内 部信用评级系统的一个重要输出就是违约概率( p d ) 。我国的信用评估发展相对落后, 我国银行的各项指标与巴塞尔协议中的规定相距甚远,对信用风险的管理力度不够。 i i x l 0 0 窖8 0 1 儿j s 墨 :毒6 0 0 0 颥余款瞻火疑级良拟町次小 雠资外行鼬业商h农行银 业 商 ,、,h 锻 蠹;业断m份股玎锻北商“日 :行艇业商 江南人学硕+ 学位论文 9 8 7 6 丑5 隶 , 一4 :l 2 0 2 0 0 7 年不良贷款状况 锡缈”哪“i1 帮- 一1 “、7 一? j 6 一。? 一”1 一 。嘞 缈 坩 荔i 甄 * 一 。、, i 荔 蠹耋 o 搿 瑟 i ,、i 鍪。,一歹八” 聂j ,二- j ,一一了一一,弋 商业银行合计幽有商业银行股份制商业钺行 城l i f l f ;iq p 银 r 农村向业铋千j外资铋 筲 i 2 0 0 0 0 0 我1 日e 篮崩螗铋行1 ;良贷戡情况 2 0 0 3 年2 0 0 4 年2 h 历;i :2 0 ( ) 6 q - | i 份 ( c ) = = 一 c 习 一- 8 - - - o - - 次级 + 疑 损失 不良贷款率 ( d ) 图1 i 银行不良贷款情况 f i g 1 一ib a dl o a ns i t u a t i o no fb a n k s 国外商业银行对信用风险的研究丌始的较早,采用定性和定量相结合的管理方法, 信用风险管理技术发展也较为成熟,为银行经营和发展提供了有力的保障。我国商业银 行信用j x l 险管理技术相对落后,目前依然以定性分析方法为主。中国加入世贸组织以来, 外资银行不断涌入中国,成为国内银行强有力的竞争对手。信贷行业的迅速发展和只趋 激烈的竞争环境使信用风险评估能力成为银行等金融机构的核心竞争力。 不良贷款量大一直是中国商业银行的一个弊端,严重影响我国银行的竞争力。国有 商业银行的改革过程中,降低银行不良贷款比率一直是重点问题( 见图1 一1 ) 。 优良准确的信用风险评估工具帮助提供信用的机构( 如银行、保险公司、投资机构、 评级机构等) 叭l i 别信用良好的借款者以通过获取贷款利息增加盈利,同时更重要的是识 别信用不良者( 潜在违约者) 以避免由于借款者违约,不履行还款义务所造成的巨大的损 失。信用风险的准确评估将会成为包括商业银行、投资机构等金融机构的重要能力。 1 2 国内外理论研究现状 1 2 1 信用风险评估研究现状 早在2 0 世纪3 0 年代,信刖风险i , r - l ? i 研究便已开始。6 0 年代以后,对信用j x l 险评估的 研究逐渐成为热点。信用j x l 险i :r - f 0 经历了传统的比例分析法,如5 c 要素分析法;统计分 析方法,如判别分析、l o g i s t i c l 、分类树等;8 0 年代以后,随着计算机和信息技术发 展及管理技术f 1 臻成熟,人t f j a , j - 誓7 能学习领域的研究方兴未艾。信用风险量化模型不断 得到创新,如专家系统、神经m 络、遗传规划等人工智能方法被广泛应用;巴塞尔新资 本协议鼓励管理水平较高的l ;f ;i _ k 银i j | 采用内部评级法,根据内部评级法初级法的要求, 银行必须汁算出银行客户的光力还本付息的可能性,以及各类贷款的详细的损失率等量 化指标。一系列现代信用风险评估f ;! 型得到了迅速的发展,如k m v 、c r e d i t m e t r i c s 等模 江南大学硕十学位论文 型。同时,为了克服单个模型方法的缺陷,组合方法和集成方法不断被提出并得到实证。 总之,信用风险评估的研究方法的发展经历了从定性到定量、从主观到客观、从简单到 复杂、从个别资产信用风险评估到组合信用j x l 险评估的历程。 本节主要给出信用风险评估的定义,并且就信用风险评估模型和方法发展的过程对 典型的信用风险评估模型和技术方法作一个文献回顾。 设x = ( x 。,x :,x 。1 是m 个随机变量,对信用申请者的描述可来自于贷款客户申 请表和信用评级机构的信息。第七个申请者的变量的实际值可表示为 x = b ”x 2 ,z 砒) 7 ,所有申请者数据集可表示为s = ,y 。) ,k = 1 , 2 ,n ,其中n 为样本个数,x 。为k 个申请者的属性向量,y 。为样本对应的观察结果,表示申请者是 否及时还款。如果申请者信用良好,及时还款,y 。= l ,否则y 。= 一1 。信用风险评估问 题则是通过对申请者属性特征的分析来对申请者进行分类,即根据属性向量x 。判断申 请者的信用状况。为了得到精确的判断,将一系列数量技术方法应用到信用风险评估中。 下面简单描述了几种典型的信用风险模型和方法。 目前,大量的模型和方法应用于信用风险评估,此研究领域的文献更是数不胜数。 对大部分文献资料进行系统查阅分析之后,可以将信用风险评估方法的发展分为以下五 个阶段,即: 传统信用风险评估方法,包括“5 c ”要素分析法,l a p p 原则,财务比率分析法等; 统计分析模型,包括线性判别分析,l o g i s t i c 回归,p r o b i t 回归,k 邻近法,分类树;数 学规划方法,包括线性规划,二次规划,整数规划等;人工智能技术,包括人工神经网 络,支持向量机,遗传算法和遗传规划,粗糙集等;混合分析方法和集成组合方法,包 括人工神经网络和模糊系统,粗糙集和人工神经网络,模糊集和支持向量机等;神经网 络集成,支持机集成,混合集成方法等;现代信用风险计量模型,包括c r e d i tm e t r i c s ; c r e d i t r i s k + ;k m v 模型,信用证券组合模型c r e d i tp o r t f o l i ov i e w 方法等。 本节将对所涉及到的主要方法进行简要回顾。 1 传统的信用风险评估方法i l j ( 1 ) “5 c 要素分析法【i “5 c ”要素分析法的基本思想是对借款人的道德品质( c h a r a c t e r ) 、还款能力 ( c a p a c i t y ) 、资本实力( c a p i t a l ) 、担保( c o l l a t e r a l ) 、经营环境条件( c o n d i t i o n ) 五个方面进行 全研的定性分析,通过对每一个要素进行逐一的评分,将各个“c ”要素量化得到量化 的信川,并且以此为依据确定借款人的信用等级,判别借款人的还款意愿和还款能力。 j e i i 道德品质( c h a r a c t e r ) 是考察企业的声誉,包括企业的偿债意愿和偿债历史;还款能 ) j ( c a p a c i t y ) 是通过企业的盈利能力和产生的现金流量来考察企业对债务的偿还;对资本 实j ( c a p i t a l ) 的考察则是通过企业的财务杠杆来度量,包括企业自有资本和债务的关系 等:担保( c o l l a t e r a l ) 矛n 抵押可以减少偿债的风险和损失;关于经营环境条,f ;t :( c o n d i t i o n ) , 企业对经营坏境的免疫小,偿债能力受到的影响就大。银行也将其归纳为“5 w ”因素, 即借款人( w h o ) ,借款用途( w h y ) ,还款期限( w h e n ) ,担保物( w h a t ) ,如何还款( h o w ) 。 第一章绪论 “5 w ”因素和“5 c 要素并非一一对应关系,但是从另一个方面考察了借款企业的还 款能力和还款意愿。目前银行大多以此作为是否贷款、贷款标准的确定以及贷款跟踪监 测期间政策调整的依据。 ( 2 ) l a p p 原则 l a p p 原则中l ( l i q u i d i t y ) 代表资产流动性、a ( a c t i v i t y ) 代表借款企业活动性、 p ( p r o f i t a b i l i t y ) 代表的是借款企业的盈利能力、p ( p o t e n t i a l i t i e s ) 表示借款企业的发展潜力。 这四个方面定性的分析了宏观经济发展状况、财务状况和借款企业管理水平。通过对这 四个方面的定性分析和评价企业的信用状况。 ( 3 ) 财务比率分析方法【l 】 财务比率分析法主要是通过借款企业的各项财务指标分析企业的经营状况和财务 状况。主要有沃尔比重评分法和杜邦分析法。沃尔比重评分法是对选定的财务指标给定 分数比重,确定各项财务指标的得分,并且据此确定借款人的信用等级。杜邦分析法以 净资产报酬率为基础,通过借款企业的盈利能力及其影响因素确定其信用状况。 以上的传统的信用风险评估方法虽然简单易懂,直观明了,但是存在一些缺陷,主 要包括:( 1 ) 主观性强,缺乏客观的评价基础,信用的判断和决策主要依赖于专家的专业 技能和主观判断对信用风险作出评价;( 2 ) 借款人财务数据虚假,影响到评估的可信度; 2 统计分析方法 一个世纪以前,人们就意识到财务比率分析的重要性。r a m s e r 和f o s t e r ( 1 9 3 1 ) , f i t z p a t r i c k ( 1 9 3 2 ) ,w i n a k o r 和s m i t h ( 1 9 3 5 ) 等率先后将财务比率应用于企业破产的预测。 b e a v e r ( 1 9 6 6 ) $ 1a l t m a n ( 1 9 6 8 ) 将多变量方法和多元判别分析用于企业破产分析,丌启了 将统计分析方法系统地应用于破产预测的大门。a l t m a n 的线性z 计分模型是经典判别 模型,由于其简便易懂,直到今天仍然被广泛应用。 为克服传统信用风险分析方法的缺陷,基于统计分析方法的信用j x l 险评估方法发展 起来,并得到广泛的应用。 ( 1 ) 回归分析技术 最常用的回归分析方法有线性回归,l o g i s t i c 回归和p r o b i t 回归。简单的线性回归 模型( l r ) 用于估计不违约可能性时如下: p = w i x l + w 2 x 2 + + w n ,x = 形。x ( 1 - 1 ) 显然,线性回归模型的缺点是上述等式右边所得值是( 一,佃) ,而企业不违约的概 率即等式左边取值却为( o ,1 ) 。为了解决等式两边值域不对应的问题,我们将等式左边进 行对数变换,即i n ( p 1 一p ) ;由此我们得到了l o g i s t i c 回归( l o g ) 模型,模型函数如下: l n ( p 1 一p ) = w l x i + w 2 x 2 + + w m x 。= 。x ( 1 - 2 ) 从( 式l 一2 ) 可知,对不违约概率的估计为: p :兰 ( 1 - ( 1 - 3 一) p 2 万 m a r t i n ( 1 9 7 7 ) 和o h l s o n ( 1 9 8 0 ) 将l o g i s t i c 回归模型应用于信用评分和破产分析。因为 模型比较简单,该方法已经成为信用评分实践应用中的主流方法之一。 5 妒 江南大学硕士学位论文 另一种常用的回归模型为p r o b i t 回归模型。g ) = z 1 - ? 2 出为累积正态分布函 数,p r o b i t 回归模型( p r ) 可定义为: 仞) = 嵋x l + w 2 x 2 + + w 。x 。= w 。x ( 1 - 4 ) 对于上述三种圊归方法,当满足一定假定条件时,得到较好的评价结果。 ( 2 ) 判别分析方法 判别分析应用于信用风险评估是从若干表征对象的财务比率中筛选出有用变量并 建立判别函数,使运用判别函数预测新样本分类时的错判率最小。这一方法由a l t m a n ( 1 9 6 8 ) 第一次用于公司破产、财务危机及违约j x l 险的评估。 假设a 是申请者特征变量x = b 。,x :,) 7 所有可能取值的一个数据集。信用风 险评估问题将数据集a 分为两个子数据集a 譬和a 。,a g 为信用良好不违约的申请者,以 为违约的申请者。只为信用良好的不违约者占总体的比例,只为违约者占总体的比例。 x 为等待判定其是否违约的特征属性向量。在这种情况下,有可能出现将不违约者错分 为违约者而拒绝其申请,这种情况下,会失去潜在利润。c 。,为将履约者错分为违约者 导致的损失。另一方面,违约者也有可能会被错分为履约者,当其违约时不还款便导致 坏账损失。c 为将违约者错分为履约者导致的损失。假定违约者和履约者的概率密度 函数为以伍) 和以伍) ,它们都服从多变量f 念分布,均值分别为心和心,并且具有相 同的m m 阶协方差矩阵。因此,其概率密度函数为 兵伍) :时詈( d e 。) 一f 尘掣 ( 1 - 5 ) l z 实际上,分布的均值。,儿和协方差矩阵都是未知的。但是,可以通过已知的样 本均值x 譬,瓦和样本协方差矩阵,估计总体未知的均值心,以和协方差矩阵。 r o s e n b e r g 和g l e i t l 9 9 4 年提出了基于样本的判别规则。 卜x g + 2x b ) j s _ i ( _ 一x h ) 北 器) ( 1 - 6 ) 当x 满足上述条件时,我们将x 判定为么一否则判定为爿。 此方法称为线性判别分析( l d a ) 。线性判别模型实际一l :足一种信用评分方法,主 要是通过企业的财务指标的分析,预测企业破产的可能性,进n j 预测企、i k 的信用风险。 王春峰和万海晖( 1 9 9 8 ) 将判别分析法应用于我国商业银行信用风险评估,验证了判别分 析方法的有效性。多元判别分析法的最大缺陷在于其严格的t l 矍;l - 条件,如较强的证态性 和等协方差条件,在实际评估中,此条件往往无法满足,因此,条件的限:剐会影响到借 款人的信用风险评估。 ( 3 ) k 邻近法 k 邻近法( k n n ) 是一种标准的非参数方法,通过考查洲练集【f ik 个最相似的数据 样本对分类样本进行分类。这种方法的主要参数有三个:定义高维空间两点间距离的度 e ta 1 , c h a t t e r j e e 和b a r c u n 在1 9 7 0 年第一次将k 邻近法应用于分类,将待分类观察值归 类到具有最相近特征的类别中。t a m e t a l ( 1 9 9 2 ) 将k 邻近法应用于信用风险的评估,但是 所得分类结果不如多元判别分析模型有效。1 9 9 7 年h e n l e y 和h a n d 同样用k 邻近方法 构建了信用评分系统并且将其与其他判别分析进行实证比较。用欧式距离的修f 形式, 即欧式距离和将两类分类的最优方向的混合,度量高维空间两点问的距离,具体公式为 ,、i d ( x ,x :) = 酝。一x 2 ) 7 。忙+ d w w7 肛l x :) - ( 1 7 ) 其中e 为特征矩阵,w 为m 维方向向量,可由费雪的线性判别函数得到,d 为常 量。 ( 4 ) 决策树 决策树由节点和边组成。所有的节点可以分为三类:根节点,中间节点,叶节点。 根节点定义了整个训练样本集的第一次分裂规则,每个中间节点根据输入属性变量的离 散函数将数据空问分成两个或更多的子空间。每一个离散函数定义了中间节点的分裂规 则。每个叶节点被分配到具有最适当目标值的类中。决策树可通过特定训练算法用于给 定训练数据集而自动执行。其中有许多算法,如q u i n l a n l 9 8 6 年提出的i d 3 算法, q u i n l a n l 9 9 3 年提出的c 4 5 算法和b r e i m a n 等人1 9 8 4 年提出的c a r t 算法,都可用于决 策和发展成为更有力的分类树。 一些新的方法,如最近发展起来的h u a n g 等人2 0 0 6 年2 0 0 7 年提出的混合方法也将 决策树作为信用j x l 险模型的度量方法。并且,决策树能够被用于规则抽象工具以解释一 些复杂的黑箱模型,如人工衬l 经网络( a n n ) 。例如,b a e s e n s 等人2 0 0 3 年,m u e s 等人 2 0 0 6 年利用决策树解释神经网络的信用评估。 ( 5 ) 数学规划方法 线性规划,二次规划和整数规划都被广泛应用于信用风险模型中。m a n g a s a r i a n l 9 6 5 年第一次提出线性规划可用于线性可分的两类分类问题中。1 9 8 1 年f r e e d 和g l o v e r 也 将线性规划用于线性不可分的两类分类问题中。1 9 7 2 年g r i n o l d 验证了8 种模式分类问 题的数学规划模型,并且分析了适用范f ;i 和每种模型的计算优点。对于信用评分问题, 需要选择权重w = ( w 。,w 2 ,w 。) ,当:l l i 权和w i x i + + 大于一个事先定好的阀 值c 时就属于不违约组,当小于阀值时便属于违约组。例如,2 0 0 3 年b a e s e n 等人,2 0 0 2 年t h o m a s 等人提出一种用于信| j 风险计估的简单线性规划方法。 m i n ,= :鲁 s j w 。l xc一弓ly|=“(1-8) w j lx s c 一罨| y i = 一1 六0 ,i = 1 2 其中,非负松弛变量六表示将,分类为履约组和违约组时与分类界限的可能偏离。 h a r d yj r 和a d r i a nj r l 9 8 5 年将线性舰划用于信用评分模型。2 0 0 2 年v l a d i m i r 等人将二 7 江南大学硕十学位论文 次规划和专家系统组合用于信用风险评估。 数学规划方法具有很强的灵活性,其目标函数和约束条件可以灵活的调整,例如1 8 式中的目标函数是绝对误差最小,数学规划模型的目标函数还可设置为错分数量最少或 者错分成本最低等。s u e y o s h i ( 2 0 0 1 ) 将数据包络方法和判别分析法相结合,构建了数据 包络判别分析模型,并将其用于对商业银行破产的预测。柯孔林、薛峰( 2 0 0 4 ) 将扩展 的数据包络判别模型应用于商业银行信用风险评估,预测精度较高。 3 人工智能方法 结构化或者参数方法是破产分析中的一种主要方法,如上节提到的l o g i t 模型, p r o b i t 模型,判别分析,还有莫顿的期权定价模型等。参数方法的特征就是模型的结构 是完全由一系列参数决定,问题的解决也是通过训练样本对参数进行估计。 结构化模型对于样本的正态分布和等协方差矩阵严格的假定条件是一个极大的局 限。这使信用风险评估的研究逐渐朝着数学规划方法和非参数方法的方向( 如神经网络 和遗传算法等) 探求解决方法。 ( 1 ) 专家系统 区别于传统的专家经验分析评价体系,专家系统将专家的经验方法变成高性能的程 序,用计算机取代专家进行信用评级。专家系统的有效性取决于系统创立时,对专家知 识的挖掘程度以及将知识和计算机程序相结合的有效性。m e s s i e r 和h a n s e n ( 1 9 8 8 ) 提出 了启发式方法,首先专家提出范例、对其特性加以提取,然后使用启发式算法获取产生 式规则,选用概念学习算法,从已知分类中抽取共性结果,对检验样本进行评估。实证 分析结果表明,专家系统分类效果较好。 ( 2 ) 神经网络 神经网络方法( n n ) 的基本思想来源于动物神经网络。神经网络的处理能力储存 在内部单元的权重,从一系列训练模式中学习。神经网络是一种有力的数据建模工具, 已被广泛应用于分类,评估和预测问题。有许多研究将神经网络应用于信用风险评估研 究中。一种著名的分类神经网络为多层感知机( m l p ) ,由输入层,一个或多个隐含层 和一个输出层,每一层都包含多个神经元。图1 2 解释多层感知机。 输入1 输入2 输入3 输入层 隐含层 输山层 图1 2 神经网络多层感知机架构 f i g 1 2s t r u c t u r eo f o n et y p i c a lm u l t i l a y e rp e r c e p t r o n j e n s e n l 9 9 2 年将标准向后的神经网络( b p n n ) 应用于信用评分。1 9 9 6 年d e s a i 等 分类的比例时神经网络得到了较好的结果,当考虑整个分类的精确度时,线性判别分析 和l o g i s t i c 回归所得的结果与神经网络所得的结果相差无几。w e s t 2 0 0 0 年对5 种神经网 络信用评估的精确性进行了研究,这5 种神经网络分别为多层感知机m l p ,专家系统 混合m o e ,径向基r b f ,学习向量量子化l v q 和模糊适应性f a r ,这五类模型得到的 结果相似。 其他研究有不同的结果,例如,y o b a s 等人对线性判别分析,神经网络,遗传算法, 决策树在信用卡信用评估中的预测能力进行了对比。结果表明神经网络所得的结果在对 违约者的分类上比线性判别分析稍差,在对履约者的预测中要差很多。 尽管神经网络被越来越多的应用于分类问题中,但是神经网络的分析结果取决于神 经网络模型本身,特别是初始条件,网络拓扑结构和训练算法,这也是神经网络用于信 用风险评估研究在与传统方法比较时的研究结果差异很大的原因。最优的神经网络模型 仍然是一个具有挑战性的研究领域。 ( 3 ) 支持向量机 1 9 9 5 年v a p n i k 最先提出支持向量机方法。其主要思想是将结构风险最小化。通常, 支持向量机通过核函数非线性的映射将初始的输入向量映射到一个高维特征空间。在这 样一个空间,找到最优分类超平面,通过二次规划将数据用最大分类间隔隔开。s v m 是分类问题中的有力工具,可用于文本识别,人脸识别和指纹识别。 v a ng e s t e l 等人2 0 0 3 年将最d , - 乘支持向量机l s s v m 应用于银行信用风险评估。 通过和普通最小方差( o l s ) ,普通l o g i s t i c 回归( o l r ) 和多层感知机( m l p ) 进行对 比发现,l s s v m 的分类精确性要优于另外三种方法。s c h e b e s c h 和s t e c k i n 9 2 0 0 5 年将 v a p n i k l 9 9 5 年提出的线性核函数,r b f 核函数的标准支持向量机用于信用评分,并且使 用基于线性核函数的s v m 对己知分类的信用申请者进行分类,分为典型和关键类别的 拒绝申请者。b a e s e n s 等人2 0 0 3 年将1 7 种不同的分类方法应用于8 个不同的信用数据 集中,使用s v m 和具有线性核函数和r b f 核函数的l s s v m ,采用g r i ds e a r c hm e c h a n i s m 来搜寻高维的参数。结果表明有6 种方法基于分类精确性时是最优的。并且s v m 可以 得到全局最优解,克服了神经网络只得到局部最优解的缺陷。 ( 4 ) 进化算法 进化算法( e a ) 用于信用风险评估研究中有遗传算法( g a ) 和遗传规划( g p ) 。遗 传算法( g a ) 的思想来源于达尔文1 9 7 5 年提出的自然选择的进化论。遗传算法是一个 系统搜寻潜在解决方法的过程,以在候选方案中找到最优的解决方案( t h o m a s 等人 2 0 0 2 ) 。1 9 9 2 年k o z a 提出遗传规划方法,系统的抽象出系统中的智能联系。遗传规划 g p 过程初始化的树形结构,然后遵循遗传算法相似的过程,包括适应性函数,遗传操 作如交叉,突变,负值和终止标准。 信用评分问题中,当目标是将错误分类数最少,问题可以转化为整数规划。1 9 9 7 年d e s a i 等人将g a 遗传算法和b r a n c h a n d b o u n d 过程结合起来解决了整数规划的问题。 9 江南大学硕士学1 1 i 7 = 论文 测试结果表明遗传算法技术并非比传统的分析方法更优。可能原因是最适合遗传算法的 变量并未被使用。y o b a s 等人2 0 0 0 年将遗传算法应用于信用评分,使用编码策略,染色 体代替了预测问题的解决方案。发生突变通过改变任何一个代表特征的基因实现。一些 研究结果己表明l d a 优于g a 。 也有研究得到相反的结果。例如,o n g 等人2 0 0 5 年将遗传规划方法应用于信用风 险评估,并且与m l p ,c a r t ,c 4 5 ,粗糙集,l o g i s t i c 回归做比较。所得结果表明遗 传规划能够在分类精确性上得到比其他方法得到更好的结果。另外,h u a n g 等人2 0 0 6 年提出一种两阶段遗传规划方法以解决信用评分问题,并且与i f t h e n 规则和判别函 数一起。基于两个数据集的研究结果,所提出的方法要比遗传规划g p ,多层感知机m l p , 卡特树c a r t ,c 4 5 算法,k 近邻法k n n 和线性回归l r 得到更优的结果。当和神经 网络相比较时,遗传规划的优点在于其能够决定合适的判别函数而不是通过决策者主管 的决定变换函数。并且遗传规划可以自动选择重要变量,而神经网络需要决策者在处理 前和处理后进行辅助。 ( 5 ) 粗糙集 1 9 8 2 年p a w l a k 最先提出粗糙集。粗糙集是用于解决模糊和不确定性的数学工具。 模糊集被认为是具有模糊边界的集不能被一系列属性精确定义的集。数据分析中粗 糙集理论的优点在于不需要初始的和附加的数据信息,如统计学中的概率,或者是 d e m p s t e 卜s h a f e r 理论中的基本概率分配,成员的级和模糊集理论中的可能性值 ( p a w l a k 2 0 0 4 年) 。这种方法的一个主要问题是预测能力。如果一个新的对象与模型中 的规则不匹配,则不能判定它到底属于哪一类。2 0 0 2 年d a u b i e 等人对粗糙集和决策树 进行了对比性研究。实证结果表明决策树要比;f h 糙集在第二类错误的控制上更精确,而 粗糙集模型在第一类错误上优于决策树。 ( 6 ) 混合模型和集成模型 许多单模型被用于信用风险的评估,但是也有许多实验表明,由两种或两种以上单 模型组成的混合模型和集成模型能得到更精确的结果。混合模型和集成模型的基本思想 就是“两个脑袋比一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论