




已阅读5页,还剩58页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于svm的满意特征选择及其在企业信用评估中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信用评估是银行贷款业务的核心工作,对贷款客户的信用评价是否科学可 靠,关系着银行经营的成败。 国内银行的信用评估方法目前还停留在传统的比例分析阶段,亟需建立一套 更为科学的评估模型。近年来,神经网络( n n ) 、支持向量机( s v m ) 等智能模 型已被引入信用评估领域,并取得了令人鼓舞的研究性成果。但前人的研究着重 于智能评估模型的建立,对评估指标体系的选定却未作充分的探讨。本文采用数 据挖掘领域中的特征选择方法,结合s v m 分类技术,对评估指标的选取进行了 较为深入的研究,并以此为基点,对信用评估的建模方法进行了新的拓展。 本文将满意优化思想引入特征选择方法中,并针对国内银行信用数据的特 点,综合考虑选出特征子集的维数及其在各个信用等级上的预测能力,设计了独 特的满意特征选择算法。为使选出的特征子集具有算法针对性及适用性,本文采 用s v m 交叉验证方法评估特征子集的预测性能。通过与三种不同的特征选择方 法的比较,发现基于s v m 的满意特征选择能选出维数较低、总体预测性能较高、 等级间预测性能较为均衡的特征子集,证实了该算法的适用性及优越性,并最终 选定了一套较为简洁、实用的信用评估指标体系。 在此基础上,本文还将特征选择方法应用到建模领域,探索构建多分类s v m 组合评估模型的有效方法。对比实验表明,基于满意特征选择方式的多分类s v m 组合模型,在预测性能上优于基于b a g g i n g 方法的组合、基于特征分组方式的组 合、以及另外三种基于w r a p p e r 特征选择方法的组合,并大大好于单个多分类 s v m 分类器,是一种有效且高性能的信用评估模型。 关键词:信用评估;特征选择;支持向量机( s v m ) a b s t r a c t c r e d i ta s s e s s m e n ti st h ek e ys t e pi nl o a nb u s i n e s so fc o m m e r c i a lb a n k s t h e r a t i o n a l i t ya n dr e l i a b i l i t yo fc r e d i ta s s e s s m e n tw i l lg r e a t l ya f f e c tt h ea c h i e v e m e n t so fa b a n k t h ec o m m e r c i a lb a n k si nc h i n an e e ds o m em u c hb e t t e ra s s e s s m e n tm e t h o d st o i m p r o v et h e i rc o m p e t i t i o na b i l i t y , i nw h i c h ,n o w a d a y s ,t h et r a d i t i o n a lr a t i o a n a l y s i s m e t h o di s p o p u l a r l ya d o p t e d r e c e n t l y t h ei n t e l l i g e n tm o d e l s ,s u c ha s n e u r a l n e t w o r k s 州) a n ds u p p o r tv e c t o rm a c h i n e s ( s v m ) ,h a v eb e e ni n t r o d u c e di n t ot h e c r e d i ta s s e s s m e n td o m a i na n dh a v ea l r e a d ya c h i e v e ds o m ep r o m i s i n gr e s u l t s t h e e x i s t i n gr e s e a r c h e s a r em a i n l yf o c u s e do nt h ee s t a b l i s h m e n to ft h ei n t e l l i g e n t a s s e s s m e n tm o d e l s ,b u tt h eo p t i m a ls e l e c t i o no ft h ee v a l u a t i n gi n d e xs y s t e mh a ss t i l l b e e nr a r e l ys t u d i e d i nt h i sp a p e r , an e wf e a t u r es e l e c t i o ns c h e m e ,b a s e do ns v m ,i s a d o p t e dt op e r f o r mt h et a s ko fs e l e c t i n gt h ee v a l u a t i n gi n d e x e s f u r t h e r m o r e ,n e w m o d e l i n gm e t h o d i sd e v e l o p e db a s e do nt h i ss c h e m e w eh a v ed e s i g n e dt h es a t i s f a c t o r yf e a t u r es e l e c t i o n ( s f s ) s c h e m eb ya p p l y i n g s a t i s f a c t o r yo p t i m i z a t i o nt e c h n i q u ei n t o f e a t u r es e l e c t i o nm e t h o d i n s f s ,t h e c l a s s i f i c a t i o np e r f o r m a n c eo ft h es e l e c t e df e a t u r e - s u b s e ta n di t ss i z e a r ec o n s i d e r e d c o m p r o m i s i n g l yb a s e d o nt h ec h a r a c t e r i s t i co ft h ec r e d i td a t ai nd o m e s t i cb a n k s t h r e e o t h e rd i f f e r e n tf e a t u r es e l e c t i o ns c h e m e sa r ep r e s e n t e dt oc o n t r a s tw i t hs f s t h e e x p e r i m e n tr e s u l t ss h o w t h a ts f si ss u p e r i o rt ot h r e e o t h e ro n e si nt h eq u a l i t i e ss u c ha s t h es i z eo ft h es e l e c t e ds u b s e t ,t h ep r e d i c tp e r f o r m a n c eo nt h et o t a ls a m p l e ,a n dt h e p r e d i c tp e r f o r m a n c e se q u i l i b r i u mw i t h i nt h ei n d i v i d u a lc l a s s e s at e r s ea n dr e a s o n a b l e e v a l u a t i n gi n d e xs y s t e mi sp r e s e n t e da f t e rt h ec o n t r a s t i v ee x p e r i m e n t s t h ee n s e m b l em e t h o d so fm u l t i c l a s s i f i c a t i o ns v m sa r ea l s os t u d i e di nt h i s p a p e r w em a n i p u l a t et h ei n p u tf e a t u r e s e tt oc o n s t r u c tt h ec l a s s i f i e r - e n s e m b l e ,a n d c r e a t eb a s e c l a s s i f i e r sw i t hl a r g ed i v e r s i t yb ys f s t h ec o n t r a s t i v ee x p e r i m e n t ss h o w t h a tt h ee n s e m b l eb a s e do ns f si ss u p e r i o rt ot h ee n s e m b l eb a s e do nb a g g i n gm e t h o d , t h ee n s e m b l eb a s e do nf e a t u r eg r o u p i n gm e t h o da n dt h ee n s e m b l e sb a s e do nt h r e e o t h e rf e a t u r es e l e c t i o nm e t h o d s t h em u l t i c l a s s i f i c a t i o ns v m se n s e m b l eb a s e do n s f sa l s op e r f o r m a n c e sm u c hb e t t e rt h a nas i n g l es v mc l a s s i f i e r k e y w o r d s :c r e d i ta s s e s s m e n t ;f e a t u r es e l e c t i o n ;s u p p o r tv e c t o rm a c h i n e ( s v m ) 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :凌健 砷年f 月蟛日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子 版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校 图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有 权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用 本规定。 本学位论文属于 1 、保密() ,在年解密后使用本授权书。 2 、不保密( “ ( 请在以上相应括号内打“4 ”) 前言 前言 商业银行在金融体系中占有举足轻重的地位,在创造货币存款、提高金融政 策效率、实现社会投资等方面都发挥着核心作用。然而,商业银行在营运过程中 无时无刻不面临着各种金融风险,包括信用风险、市场风险、利率风险、流动性 风险、操作风险、法律风险和声誉风险等。其中,信用风险占有特殊的地位,世界 银行对全球银行业危机的研究表明,导致银行破产的最常见原因就是信用风险。 信用风险是指信贷资金安全系数的不确定性,表现为企业或贷款人由于各种原因, 不愿意或无力偿还银行贷款本息,使银行贷款无法回收,形成呆账的可能性。信用 评估是商业银行信用风险管理的首要工作和关键环节,事关银行的生存和社会的 稳定。 在经济发达国家,信用评估已有近百年的历史;而在我国,企业信用评估自 起步起,也只有十几年的时间,还属新生事物。大多数的国内商业银行目前还停 留在传统的比例分析阶段,普遍采用的是“打分法这一评估方式。对信用评估 工作的基础评估指标体系的确定,也一直没有统一和规范起来,各家评估机 构各有一套体系,独树一帜,自主评级。对于处于新兴市场和转型经济时期的我 国商业银行而言,亟需建立一套更为科学的评估体系及评估模型,本文的选题就 是在这样的背景之下产生的。 本课题是与福建省某咨询公司的合作项目,在此之前,课题组已采用多种机 器学习的方法对信用评估模型的建立进行了较为深入的研究:叶武【l 】、陈雄华2 1 、 高洪涛【3 】使用神经网络技术建立较为可行及有效的信用等级评估模型;张柳园【4 】、 金剑【5 】将基于符号处理的专家系统技术和神经网络技术相结合,融入了更为智能 化的推理解释机制,使得信用评估系统更加的实用化;刘闽【6 1 、阳维7 1 分别采用 支持向量机( s v s ) 技术及基于人工神经网络分类器组合技术,进一步提高了评 估模型的性能。 在上述的研究当中,前人着重于评估模型的建立,而对信用评估的基础 评估指标体系的选择,却显得过于简单。他们大多数依从财务专家建议,或只是 进行简单的筛选,并没有在此领域进行深入的探讨。本文针对于这一缺陷,将基 于s v m 的满意特征选择技术应用于评估指标体系的选取中,提出了新方法,并在 基于s v m 的满意特征选择及其在企业信用评估中的应用 此基础上构造s v m 多分类组合模型。研究表明,该方法确定的指标体系简洁、有 效,新的组合模型在预测精度及等级预测性能方面较单一s 评估模型均有一定 程度的提高。 本文内容具体组织如下: 第一章介绍了企业信用评估的原则和方法,阐述已有的建模技术及其优缺 点与适用性。 第二章着重描述本文所依据的技术基础。本章包括两个部分:第一部分是 对特征选择技术的介绍,主要包括特征选择的概念、意义及一些主流的方法;第 二部分对s v m 技术的理论基础和算法做了一个简要介绍。 第三章详细阐述了基于s v m 的特征选择技术在信用指标选取中的应用。在确 定待选指标体系及样本预处理之后,详细描述了基于s v m 的满意特征选择算法的 设计及运行流程。并研究了算法中的参数选择问题,对优化算法起了关键的作用。 最后将其与三种不同的特征选择方法进行对比,列出了相关的实验结果,并最终 选定了一组较好的评估指标体系。 第四章对构造多分类s v m 的组合评估模型进行了深入的讨论。利用第三章中 的特征选择方法,采用不同的组合方式,分别进行了对比实验。实验结果表明, 基于满意特征选择的多分类s v m 组合分类器较其它方法产生的模型优越,是一种 较为有效的评估模型。 第五章总结了本课题的研究工作,分析了研究过程中存在的不足、以及将 来可以继续深入的方向,并对企业信用评估研究的前景作了展望。 第一章企业信用评估及评估方法 第一章企业信用评估及评估方法 1 1企业信用评估概述 信用评估,就是由资信评估机构,根据科学的指标体系,采用严谨的分析方 法,运用明确的文字符号,对被评估单位履行经济责任的能力及其可信任程度进 行客观公正的评价,并确定其资信等级的一种经济活动,是对债务偿还风险的综 合评价。按照评估对象来分,信用评估可分为企业资信评估、证券资信评估等, 详见图1 1 。此外,按照评估方式来分,可分为公开评估和内部评估;按照收费 与否可分为有偿评估和无偿评估;按照评估内容可分为综合评估和单项评估。我 们在研究制定具体的评估标准和方法时,要充分注意到不同类型之间的差别,从 而更加客观的反映被评估对象的资信状况。本文研究的重点是企业资信评估中的 公司企业信用评估。 资 信 评 估 体 系 工业企业 农业企业 商业企业 房地产企 综合类企 商业银行 保险公司 信托投资 r 长期债券资信评估l 证券公司 l 短期融资券资信评估 证券资信评估 股票资信评估 i 基金资信评估 l 商业票据资信评估 国家主权资信评估 项目资信评估 个人资信评估 图1 1 按照评估对象来划分的资信评估体系 资信评估 资信评估 资信评估 业资信评估 业资信评估 资信评估 资信评估 公司资信评估 资信评估 信用评估能提供市场信息,帮助投资者选择投资项目,减少投资风险,而且 估 估 评 评 兰日 皇日 信 信 资 资 业 织 企 组 司 融 公 金 厂,l 估评信资 业企 基于s v m 的满意特征选择及其在企业信用评估中的应用 也有利于拓宽筹资者的融资渠道,降低筹资费用。信用评估也是现代金融监管机 制中非常有用的工具。金融监管部门可以通过信用评估方法,提高金融机构的信 息披露标准,增强透明度;根据信用级别限制受监管机构的投资范围,控制风险; 利用信用评估监测金融机构的资产质量和资本充足率,提高监管效率;利用信用 评估监测金融机构偿债能力的变化,提高信贷资产质量【8 】。 国际信用评估制度已有一百多年的历史。信用评估制度经过长时间的发展, 逐步形成了一套较为完善的理论和方法。目前,国际上已有许多著名的评估公司, 如穆迪、标准普尔、惠誉等,这些公司的评估业务已覆盖全球,在推动世界金融 及经济的发展中,扮演着极其重要的角色。 中国的信用评估业产生于1 9 8 7 年,迄今已有二十年的历史。1 9 8 8 年,我国成 立了第一家独立的资信评估机构,此后资信评估开始受到重视,有了一定的发展, 但总体说来水平不高,缺乏一套科学的评估管理体系,难以树立国际声誉。目前, 在国际资本市场上,根本听不到我国资信评估机构的声音,国外评估机构实际上 垄断了中国信用评估市场,掌握了中国进入国际资本市场的“通行证 。尽管这 些国际评估机构的大多数结论较真实的反映了一些国家和经济组织的状况,有利 于避免信贷危机,保证借贷人利益,有助于有关国家和经济组织正视问题,加速 金融整改,但由于这些评估机构均是西方的跨国公司,其意识形态、政治立场、 经济理论、价值观念、文化观念、评定标准等难免带有西方国家的主观色彩,这 就使得我国在对外的经济活动中处于一种十分被动的局面,增加了我们的交易成 本,随着我国对外开放力度的加大,这一问题就越发的突显,因此,在我国建立 一套符合我国国情的、科学的评估理论和方法体系,拥有我们自己的国际性信用 评估机构,是极其重要的。 1 2 信用评估的指标体系 信用评估指标体系是信用评估机构和评估人员从事信用评估工作的基础和 依据,没有一套科学的信用评估指标体系,很难设想,它能保证评估结果的客观 公正与相应的可信程度。但我国对发债和贷款企业的信用评估指标体系,一直没 有统一和规范起来,各家评估机构各有一套体系,独树一帜,自主评级。近年来 将智能分类模型应用于信用评估领域也是研究的热点,但对于智能模型的输入, 4 第一章企业信用评估及评估方法 即信用评估指标体系选取的研究,却还处于起步阶段。大多数的智能评估模型只 是将某个评估机构的指标体系直接拿过来用,或只做简单的处理。这样得到的指 标体系,不是数量太多,影响评估模型的效率,就是不够全面,遗漏了某些关键 指标,使得模型的精度受到影响。可见,评估指标体系的选择已经成为信用评级 工作的首要问题,它关系着评估工作的成败。 寻找一套较为科学的指标选取的方法,是本文研究和探索的重点之一。为使 选出的指标体系保留原始的财务意义,本文采用特征选择的方法,在一套数量较 多、覆盖较为全面的待选信用评估指标体系中,选出数量恰当、构成合理的核心 评估指标。在后续的章节中,将对此问题进行深入的探讨。在此之前,为使指标 的选取更为客观、可信,待选指标体系的确定必须在正确的指导原则下进行,该 原则可归纳为: ( 1 ) 全面性:待选指标体系的内容应该全面地反映所有影响评估对象资信 状况的各项要素,不但要考核过去的业绩,还要预测未来的发展趋势;不但要考 虑评估对象本身的情况,而且还要研究周边的环境及其产生的影响。 ( 2 ) 科学性:建立待选信用评估指标体系,各项指标必须有机配合,形成 体系,相互之间既不重复,又无矛盾;同时,指标的计算和评价方法必须科学, 要有一定的依据。整个指标体系的建立,要在不断实践的基础上逐步充实提高, 要经得起实践的考验,逐步增强指标体系的科学性。 ( 3 ) 针对性:待选评估指标体系必须具有针对性,不同的评估对象和评估 目的,指标体系应该有所区别。信用评估在国内目前分为贷款企业评估、证券评 估和特定资信关系评估三类,就应根据评估要求的不同,分别制定各自的信用评 估指标体系。又由于不同企业具有各自的经营特点,因而有一部分指标又要结合 企业的经营特点来确定,不能千篇一律。 ( 4 ) 公正性:待选评估指标体系的建立,要符合客观事实,能正确反映评 估对象信用等级的真实面貌。指标体系和计算方法不能偏向评估对象或投资主体 的任何一方,评估机构和评估人员必须态度公正,评价客观,以事实为依据,不 能根据个人爱好,任意改变指标项目、计算方法和评价标准。 ( 5 ) 合法性:信用评估必须遵守国家有关政策、法律和法规,待选评估指 标体系要体现国家宏观经济政策的导向,有些经济效益指标和风险监管指标,国 家政府机关规定有标准值的,必须体现规定要求。 基于s v m 的满意特征选择及其在企业信用评估中的应用 ( 6 ) 可操作性:待选评估指标体系的建立,要具有实用性,便于操作和设 计计算机程序。既要符合我国国情,具有本国特色;又要参照国际惯例,考虑今 后同国际惯例接轨,逐步走向世界。 1 3企业信用评估方法与模型 早期的资信调查,比较简单,主要是定性判断,随着资信评估业的发展,资 信评估工作逐步健全起来,定性分析和定量分析工具得到了综合运用,形成了多 种不同特点、不同风格的评估方法,为银行和企业做出信贷和财务决策提供了科 学的依据。现将几种使用较为普遍的信用评估方法作一简要介绍。 1 3 15 c 要素分析法( 专家判断法) 专家判断法【9 】在银行业中的应用由来已久,目前在许多银行仍居于主导地 位。它是指依靠信贷专家的专业技能、主观判断和某些关键因素的权衡来评判借 款人的违约可能性,进而确定是否发放贷款和发放贷款的规模。这些信贷专家一 般是银行或其分支机构的信贷审批官( l o a na p p r o v i n go 伍c e r ) ,不同的信贷专 家从不同的视角来看待企业的经营和财务情况,其考虑的潜在因素和方法很多。 但是,以下五个方面是多数专家评估企业必须要考虑的因素。 品格( c h a r a c t e r ) :对企业声誉的一种度量,考察其偿债意愿和偿债历史。 品格包含多个方面,既包括其在不同银行、工商局和税务海关等部门的资信记录, 也包括其在对于上下游产业的履约记录。 偿债能力( c a p a c i t y ) :还款能力,反映借款者受益的易变性。 资本( c a p i t a l ) :所有者的股权投入及其对债务的比率,这一类指标是预 示企业破产可能性的良好指标,同时也可以反映出自身经营头寸的充足与否和对 外源融资如银行借款的依赖性。 抵押品( c o l l a t e r a l ) :典型的贷款风险缓解手段,如果发生违约,银行对 借款人的抵押物品就具有要求权。 经营环境( c o n d i t i o n ) :包括经济周期因素的影响,商业周期的状态是决 定信用风险损失的一项重要因素。 尽管许多银行仍然在其信贷决策中使用专家方法,但是这些方法具有两个重 6 第一章企业信用评估及评估方法 要缺陷。一是对一致性问题的怀疑:由于同一个信贷审批官对不同的企业从不同 的角度去审查,不同的审批官对同一家借款人也会有不同的判断,所以,所有的 合同之间违约的判断不具有可比性;二是客观性难以得到有效的保证:运用于判 断的被选择的因素没有客观的统一的权重设计,更多依赖于专家的信息合成,主 观性强。 1 3 2 百分制计分方法 百分制计分方法,也叫打分法,采用该方法首先要按照各项评估指标对企业 资信状况的重要性分别确定其权分数,也叫重要性系数,权分数之和为1 0 0 分。 在实际评估时,只要把各项评估指标的实际值同标准值进行比较,然后乘以相应 的权分数,就可以算出他们的资信分值,再把各项评估指标的资信分值相加,即 可求得资信评估的总分,进而确定企业的资信等级。百分制计分方法比较简单, 容易为人们所掌握,而且评估出来的结果不会出现大的偏差,缺点是不能发挥评 估人员的智慧,且各项指标的权分数的确定也较为主观,不同的评估机构可能存 在较大的区别。 1 3 3 信用模型分析法 在现代管理科学中,广泛应用着数学模型,信用分析也如此,目前,国际上 较流行的做法,是将商业银行对企业信用风险的测度转化为对企业财务状况的衡 量问题,从已有的历史数据中发掘规律,对信用形成过程中各个变量之间错综复 杂的相互关系进行近似的定量描述,最终归结为一个数学模型。这些模型主要包 括统计模型和机器学习的智能模型。 1 3 3 1 基于统计判别方法的预测模型 基于统计判别方法的预测模型都是在f i s h e r 于1 9 3 6 年作出的启发性研究【1 0 1 之 后提出来的。总的来说,这些模型都被表述为一类分类系统,它们接受定义在已 选变量集合上的一个随机观测值样本,建立判别函数,进行分类。这些模型已经 得到广泛的应用,它们的引入克n t 传统比例分析综合分析能力差,定量分析不 足等缺点,同时也存在许多问题:( 1 ) 统计方法研究的是样本趋于无穷大时的渐 7 基于s v m 的满意特征选择及其在企业信用评估中的应用 进理论,因此要求样本数据有一定的规模:( 2 ) 方法的可用性与建立分类模型时 所需的多个假设和条件紧密相关。因此统计方法在现实中应用很难达到理想的效 果。该方法的主要模型有: l 、多元判别分析( m d a ) 在针对分类问题的多种不同的统计方法中,最常用的是多元判别分析法,其 关键是建立判别函数。a l t m a n t 应用判别分析法建立了著名的z s c o r e 模型和在 此基础上改进的z e t a 模型,这两个模型的目的是预测企业破产的概率,为银行 贷款决策提供支持。目前z e t a 模型已商业化,广泛应用于美国、意大利等国的 商业银行,取得了巨大的经济效益。这一方法的最大缺陷在于其过于严格的假定 条件,而实际中均有不同程度的违背。 2 、l e g i t 分析 l e g i t 模型【1 2 1 采用一系列财务比率变量来预测公司破产或违约的概率,然后 根据银行、投资者的风险偏好程度设定风险警界线、以此对分析对象进行风险定 位和决策。l e g i t 模型与多元判别分析法的本质区别在于前者不要求满足正态分 布,其模型采用l o g i s t i c i 函数。由于l o g i s t i c 回归不假定任何概率分布,在不满足 正态分布的情况下其判别正确率高于m d a 的结果。美国经济学家c h e s s e r 提出的 c h e s s e r 模型【1 3 】就是l o 百t 分析方法的一个很有代表性的判别模型。 3 、聚类分析( c l u s t e ra n a l y s i s ) 聚类分析属于非参数统计方法。信用风险分析中它根据由借款人的指标计算 出的在样本空间的距离,将其分类。这种方法的一个主要优点是不要求知道总体 的具体分布,可对变量采用名义尺度,次序尺度,因此该方法可用于定性研究, 也可对现实中的无法用数值精确表述的属性进行分析。这很适用于信用风险分析 中按照定量指标( 盈利比、速动比等) 和定性指标( 管理水平、信用等级等) ,对并 不服从一定分布特性的数据信息进行分类。 1 3 3 2 基于机器学习的智能预测模型 进a 8 0 年代以来,专家系统( e x p e r ts y s t e m ,e s ) 、神经网络( n e u r a ln e t w o r k , 第一章企业信用评估及评估方法 n n ) 、支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v l v l ) 等人工智能技术被逐步应用 到信用评估领域,尤其是n n 与s v l v l ,它们是一种对数据分布无任何要求的非线 性技术,克服了统计方法对假设较强的要求,能有效解决非正态分布、非线性的 信用评估问题。下面简要介绍几种主要的智能模型分析法: 1 、决策树( d e c i s i o nt r e e ) 上世纪8 0 年代末期,有学者提出一种利用机器学习技术发展起来的符号方法 决策树。该方法不像传统方法那样通过判别函数形成决策规则来判别样本所 属的类型,而是创立了一个对原始样本进行最佳分类判别的分类树。该方法利用 训练集生成一个测试函数,根据信息论中的信息增益寻找示例数据库中具有最大 信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立 树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树; 然后对决策树进行剪枝处理,最后把决策树转化为规则,利用这些规则可以对新 事例进行分类。决策树作为一种非参数的识别技术,具有许多优点,具体表现在: 可以自动进行变量选择,降低维数:充分利用先验信息处理数据间非同质的关系; 分类结果表达形式简单易懂。 2 、专家系统( e x p e r ts y s t e m ) 专家系统是一种智能的计算机程序,它运用知识和推理来解决只有专家才能 解决的复杂问题。它的功能表现在解释功能、灵活性、学习功能三方面。专家系 统自8 0 年代以来逐步被用于商业、经济领域。 m e s s i e r 和h a n s e n 1 4 】从知识获取的角度提出了启发式方式,探讨比较了专家 系统在信用分析领域的应用。即首先由专家提出范例对之特性加以提取,之后使 用启发算法获取产生式规则,选用概念学习算法,从由若干固定属性等描述的已 知分类中抽取共性的结果,即那些可对新样本正确分类的指标,而后在这些属性 的基础上建立产生式系统,利用其中的规则对新数据进行评估。 专家系统的性能水平主要是它拥有的知识数量和质量的函数,而目前知识的 获取是专家系统的一个瓶颈,推理方式的研究也决定着专家系统的智能化水平, 这些都有待于人工智能研究的进一步发展。 9 基于s v m 的满意特征选择及其在企业信用评估中的应用 3 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) a n n 是根据生理学上的真实人脑神经网络的结构和功能,以及若干基本特 性的某种理论抽象、简化和模拟而成的一种并行的分布式信息处理系统,它有一 些类似神经元的处理单元,通过把问题表达成单元间的权来解决问题。通过一定 的算法,我们可以对连接权进行调整,从而使得神经网络具有存储经验知识的能 力,具有代表性的网络模型有感知器、b p 网络、r b f 网络、双向联想记忆( b 岫、 h o p f i e l d 模型等,利用这些网络模型可实现函数逼近、数据聚类、模式分类、优 化计算等功能。 由于a n n 是一种对数据分布无任何要求的非线性技术,克服了统计方法对 假设较强的要求,能有效解决非正态分布、非线性的信用评估问题。9 0 年代初, a n n 技术被引入了信用风险评估领域,相对以往的方法表现出了明显的优越性, 但a n n 也存在许多自身难以克服的缺陷:( 1 ) 缺乏充分的理论基础,过分依赖 实验者的经验技巧,模型不具有解释性;( 2 ) 网络结构难以确定;( 3 ) 训练时易 陷入局部极值,训练效率不高;( 4 ) 过学习与欠学习的问题。这些缺陷都阻碍了 a n n 在应用领域的进一步发展。 4 、支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) s v m 方法是建立在统计学习理论的v c 维概念和结构风险最小化归纳原则基 础上的【1 5 】,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷, 以期获得最好的推广能力。该方法十分擅长处理小样本的分类问题,具有求解简 单、可避免局部极值点、解的稀疏性等优点,自提出以来,已经在手写数字识别、 人脸图像识别、文章分类、生物序列分析等现实世界的应用中达到了目前为止最 高的性能【1 6 】【1 7 】 1 8 】【1 9 】。在信用风险评估领域,s v m 的应用研究还不太多见,但也 有一些国内外的学者进行了有益的尝试。 2 0 0 0 年,f a na n dp a l a n i s w a m i l 2 0 1 使用s v m 对澳大利亚的企业破产进行了研 究,并和n n ,m d a 及学习矢量量化机( l v q ) 做了比较,s v m 取得了最高的 预测准确率。 2 0 0 3 年,陈友,张国基,郭国雄【2 1 1 根据标准s v m 算法提出了基于连续的和 过程化的s v m 算法,并将其用于证券市场股票的走势预测,取得了令人满意的 结果。 1 0 第一章企业信用评估及评估方法 2 0 0 4 年d e x i a 银行的t o n y 等人【2 2 】提出了基于l s s v m 方法的信用等级评估 模型,并与最小二乘法,l o g i t 回归,多层感知机作了比较,实验结果表明对于 1 5 个等级的预测,l s s v m 的准确率达到了5 4 4 8 ,而其他三种方法的准确率 均不到4 0 。 2 0 0 4 年,姚奕,叶中行【2 3 】用s v m 作为建模工具,利用国外的数据对个人 信用问题进行了实证研究,取得了较好的效果,并在实验中发现采用五个指标的 数据分类结果要好于包含九个指标的数据分类结果。 时下,关于s v m 的研究正方兴未艾,其理论正在不断深入发展,实践应用 不断拓广,已成为机器学习和数据挖掘领域的标准工具。由于s v m 所具备的高 性能,本文将其作为主要的分类工具进行评估模型的建立。在本文的第二章中将 对s v m 的理论和方法做简要的介绍。 基于s v m 的满意特征选择及其在企业信用评估中的应用 第二章特征选择及支持向量机( s v m ) 技术简介 2 1特征选择 2 1 1 特征选择概述 在大多数的数据挖掘与模式识别问题中,数据集包含着大量的特征。考虑基 因选择问题,我们分析各种相关基因的状态,以判别这个人是否患有某种癌症。 在这个问题中,分类器的输入是各种基因的状态,输出是“是否患病 。数据集 的每一条目为一个向量,记录一个人的各种基因状态。该向量有数以千计或数以 万计的分量( 特征) ,每个代表一种基因。 面对诸如此类的大维数输入问题,许多数据分析变得十分困难。而且,遗憾 的是,在这数以干计甚至万计的特征中,不是所有的特征都与目标问题相关。在 数据集中往往包含了大量的不相关特征、冗余特征,甚至是干扰特征。这些特征 不仅增加了输入的维数,使得分类算法的计算时间、计算复杂度大幅增加,分类 速度下降,同时还影响了分类算法的性能,降低了它的泛化能力。 面对这一问题,特征选择方法应运而生。特征选择( 也叫属性约简) 能够为 特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关 的、冗余的和干扰的属性。特征子集选择问题在机器学习、数据挖掘、模式识别 和统计学等许多领域得到了广泛而深入的研究,特别是近几年来机器学习和数据 挖掘在实际领域中的应用,使得特征子集选择算法研究逐渐成为人工智能领域的 一个研究热点。这不仅仅是因为通过特征选择可以大大减少数据的存储量和存储 错误率,而且特征选择也为机器学习和数据挖掘规则的生成提供了便利,这主要 表现在如下两个方面: ( 1 ) 通过特征子集选择,可以使得生成规则简化,增强生成规则的可理解性,提高 生成规则的分类精度: ( 2 ) 通过特征子集选择,可以提高规则的生成效率,进而使得规则生成算法能够适 用于更大规模的数据集。 在降低输入维数、提取核心特征方面,特征提取也是一种重要的方法。它与 特征选择的区别在于:特征选择是从原始特征集中选择特征,所得到的特征子集 1 2 第二章特征选择及支持向量机( s v m ) 技术简介 是原始输入的一个子集;而特征提取包含了一个对原始特征集的映射转化过程, 所得到的特征是在转化空间中的新变量。因此特征提取方法所提供的特征可能不 具备一个清晰的实际含义,而特征选择方法因为完整的保留了特征的原始意义而 被更为广泛的应用于数据挖掘领域。 2 1 2 特征选择过程 特征选择过程可以看作由四个部分组成:控制新特征子集产生的搜索策略、 对特征子集性能的评估、停止搜索的标准、以及验证过程。它们之间的先后顺序 及相互作用关系如图2 1 所示。 图2 1 特征子集选择过程流程图 搜索策略:概念上讲,特征子集选择是一个搜索所有可能的特征子集的过程。 可以使用许多不同类型的搜索策略,但是搜索策略的计算花费应该较低,并 且应能找到最优或近似最优的特征子集。通常不能同时满足这两个要求,因 此需要折中权衡。 评估:评估步骤是搜索中不可缺少的组成部分,它采用一种选定的评估度量, 针对诸如分类等的数据挖掘任务,确定属性特征子集的质量。 停止准则:因为可组成的子集数量很大,对全部的子集都进行评估可能难以 完成,因此需要某种停止搜索的准则。其策略通常设计为如下的一个条件或 多个条件的组合:迭代次数是否达到给定的最大值、子集评估的度量值是否 1 3 基于s v m 的满意特征选择及其在企业信用评估中的应用 已超过给定的阈值、一个特定大小的子集是否已达到、与上一个子集相比性 能上是否已下降等。 验证过程:最后,一旦选定特征子集,就要验证目标算法在选定子集上的优 劣。通过在全部可能的特征子集上运行目标算法,并将得到的结果与使用选 定特征子集得到的结果进行比较。顺利的话,选定特征子集产生的结果将比 使用其他所有特征子集产生的结果好,或者几乎一样好。此外,还可以使用 通过其它不同的特征选择算法得到的一些特征子集,来比较选定算法在每个 子集上的运行结果【2 4 1 。 2 1 3 特征选择方法分类 从图2 1 中可以看出,特征选择过程中最重要的两个环节为:搜索策略和特 征子集评估。不同的搜索策略和评价准则将产生出不同的特征子集,也由此分化 出多种多样的特征选择方法。本小节将从搜索策略和评估标准的分类出发,以两 者不同类别的组合来进行特征选择方法的梳理,给出其类别框架表。最后,对特 征选择方法在银行信用评估问题中的应用进行初步的讨论。 搜索策略 由于搜索空间的大小不同,可以使用不同的搜索策略。搜索策略可以大致分 为三类【2 5 】: 1 、完全搜索:通常会搜索到每一个属性子集或可保证找到的是最优解; 2 、启发性搜索:它避免了简单的完全搜索,在搜索的过程中使用启发性信 息。通常启发性搜索的搜索空间只沿着一条特殊的路径处理数据,而得到的解是 一个近似最优解; 3 、随机搜索:这种策略随机产生下一个或几个待评价的子集,它们一般都 依赖于某些参数,并且新产生子集的大体趋势是向“在维数、准确性方面比当前 的子集更好 的方向演化的。 评价准则 评价准则是区分特征选择方法的一个显著特点,通常的评价准则有距离度 1 4 第二章特征选择及支持向量机( s v m ) 技术简介 量、信息增益度量、依赖性度量、一致性度量、准确性度量等【2 5 】。 1 、距离度量:距离度量也被称为可分离性、分歧或辨别性度量。对于一个 两类问题,如果特征j 比特征j ,能够在两个类别的条件概率上获得更大的差距, 则特征彳优于特征k 如果在两个类别的条件概率上差距为零,则该特征是不相 关的多余特征,类别辨别度为零。该类准则的一个例子为欧基里德距离量度。 2 、信息增益度量:这类度量取决于从一个特征中所获取的信息量。具体定 义为:该特征应用前后,数据中类别清晰度的差异程度。如果从特征j 中获取的 信息量大于特征只则特征j 优于特征凡常见的例子为信息熵度量。 3 、依赖性度量:也称为相关性度量,它量化了一个变量预测另外一个变量 的能力。“系数是一个典型的依赖型度量,它能被用于寻找一个特征与一个类 别之间的相关程度。如果特征彳与类别c 之间的相关程度大于特征j ,与g 则彳 优于凡此度量也能应用于寻找一个特征与另一个特征之间的依赖度,以判定该 特征的冗余程度。 4 、一致性度量:一致性方法是通过考察数据集的不一致率来评价的。设a 和b 是数据集d 中的两个实例,就一个特征子集丁而言,如果a 和b 除了类 别不同,t 中所有特征的取值都相同,则说a 和b 是不一致的。如果加入特征 得到的数据集不一致度低于加入特征e 则j 优于k 5 、准确性度量:正确性评价往往是与某一具体分类器联系在一起的。其思 想是通过不断地改变( 增加或减少属性) 属性集合,观察分类器的预测准确性的 变化,从中选择满足准确性要求的维数最小的属性集合【2 6 1 。 特征选择方法分类 按照上面的分析,我们按搜索策略及评价准则将特征选择方法进行分类,并 列出每一类的代表性方法,其框架如表2 1 所示【2 5 】。表中“ 表示目前尚无 基于该种搜索策略和评价准则结合的特征选择方法。这也为将来的方法创新提供 了空间。 除了像表2 1 这样对特征选择方法较为细致的分类外,目前还有一种更为普 遍的分类方法,即从使用方式上把特征选择方法分为两大类:f i l t e r 方法和 w r a p p e r 方法【2 7 1 。f i l t e r 方法,也称为过滤法、筛选法,它独立于分类器对数据 进行处理,即在训练开始之前先去除不必要的属性。该算法使用基于数据一般特 基于s v m 的满意特征选择及其在企业信用评估中的应用 表2 1 特征选择方法类别框架 评价准则搜索策略 完全搜索 启发式搜索随机搜索 距离度量分支界限法f 2 8 1 r e l i e f 方法2 9 1 、 r e li e f f 方法3 0 】 信息增益度量最小描述距离方法 决策树方法3 2 1 ( m d l m ) 3 h 错误概率平均相关 依赖型度量 系数方法( p o e & a c c 方法) 【3 3 】 一致性度量f o c u s 方法【3 4 】 l v f 方法【3 5 】 序贯前向搜索( s f s )遗传算法+ 分类器 准确性度量近似单调的分支界限 + 分类器方法、序贯方法、模拟退火+ 法+ 分类器方法 后向搜索( s b s ) + 分分类器方法 类方法3 7 】 点的启
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急安全培训咨询课件
- 2025年甘肃中医药大学附属医院(第三期)考核招聘编外专业技术人考前自测高频考点模拟试题及答案详解(新)
- 2023山东省蓬莱市北师大版7年级数学上册期中考试黑钻押题附参考答案详解(巩固)
- 2024年自考专业(国贸)高分题库【名师系列】附答案详解
- 承兑汇票购销合同(标准版)
- 设立分公司合同(标准版)
- 2025年度生态环境部松辽流域生态环境监督管理局生态环境监测与科考前自测高频考点模拟试题及答案详解(必刷)
- 2025年公务员考试《常识》检测卷附参考答案详解【轻巧夺冠】
- 2025年工业互联网平台射频识别(RFID)技术在物流行业应用深度研究报告
- 2025年文化产业园产业集聚与文化产业发展政策环境报告
- 福建台湾海峡大桥建设工程可行性研究报告
- (完整)注册安全工程师考试题库(含答案)
- 高考作文素材积累与写法总结27 自知与知人作文审题指导及素材积累
- 电子政务概论-形考任务5(在线测试权重20%)-国开-参考资料
- 2024年贵州省贵阳市中考生物地理合卷试题(含答案逐题解析)
- DNDC模型使用手册
- 起重机械生产单位质量安全总监-特种设备考试题库
- JBT 9189-2016 水基材料防锈试验方法 铸铁屑试验
- JJF 1064-2024 坐标测量机校准规范
- 《春江花月夜》省公开课金奖全国赛课一等奖微课获奖课件
- 人音版小学六年级上册音乐教案(本)
评论
0/150
提交评论