已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着我国市场经济的迅速发展,信用已经成为现代经济社会运行中不可或缺 的一环,良好的信用不但是维持和发展信用关系的必要条件,也是保护社会经济 秩序的重要前提,个人消费信贷扮演的角色将会越来越重要,而与之密切相关的信 用评估体系却未跟上步伐因此,信用风险评估方法的研究具有重要的理论和现 实意义, 本文借助信息融合原理研究了信用风险评估问题,主要工作如下: 首先,概述了信用评估的研究背景及意义,介绍了现有的个人信用评估方法 其次,研究了以结构风险最小化为核心的支持向量机,详述了k 最近邻法的 基本原理,并介绍了信息融合算法的原理、组合结构和输出类型 最后,根据信息融合的原理,将支持向量机( s v m ) 和k 最近邻法( k n n ) 相结 合,提出了一个s v m k n n 融合算法由于k n n 的引入,该算法可有效处理支 持向量机在最优分界面附近样本交叠容易引起的过学习问题和数据错分率较高的 问题同时,为了消除样本集中的冗余信息,根据两类样本中心距离提供的信息 对数据进行了预处理给出了该算法的具体步骤并构建了基于该算法的信用评估 模型,采用德国信用数据库对模型进行了实证分析,经过不同的参数选择比较, 表明了s v m k n n 算法在两分类问题中具有较好的分类能力和较高的效率 关键词:信用风险;支持向量机;k 一最近邻法;信息融合;s v m - k n n 算法 a b s t r a c t a tp r e s e n t ,i m p o r t a n c eo fp e r s o n a lc o n s u m e rc r e d i ti se s s e n t i a lt od e v e l o p m e n to f e c o n o m i c s a sa ni n e v i t a b l er e s u l to fs o c i o e c o n o m i cd e v e l o p m e n t ,c r e d i th a sb e c o m e a ni n t e g r a lp a r to fm o d e ms o c i e t yo p e r a t i o n ag o o dc r e d i tc a nn o to n l ys u s t a i n e c o n o m i cr e l a t i o n s h i p ,b u ta l s op r o t e c tt h ew h o l eo r d e r t h e r e f o r e ,r e s e a r c ho ft h e p e r s o n a l c r e d i ts y s t e ma n de v a l u a t i o na l g o r i t h mi s b e c o m i n gm o r es i g n i f i c a n t h o w e v e r , t h er e l e v a n ta s s e s s i n gs y s t e mh a sn o tc a u g h tu p t h i sp a p e rs t u d i e sc r e d i t r i s kp r o b l e mb yu s i n gi n f o r m a t i o nf u s i o n ,i t sm a i nw o r ki sa sf o l l o w s : f i r s to fa l l ,c o m m o nt h e o r i e sa n dm e t h o d so fc r e d i tr i s ke v a l u a t i o na r es i m p l y i n t r o d u c e d r e s e a r c h i n gb a c k g r o u n di ss h o w na sw e l l s e c o n d l y , p r i n c i p l e sa n da p p l i c a t i o n so fs u p p o r tv e c t o rm a c h i n eb a s e do ns r m a n dkn e a r e s tn e i g h b o r si sp r e s e n t e d t h e nm e t h o d sa n d t h e o r yo fm u l t i p l ec l a s s i f i e r s f u s i o n i si n t r o d u c e d a tl a s t ,s v ma n dk n na r ec o m b i n e db a s e do nt h ec l a s s i f i e r sf u s i o nt of o r mt h e s v m - k n n a l g o r i t h m e f f e c t i v e l y , t h i sa l g o r i t h mc a ns o l v et h eo v e r f i t t i n gp r o b l e ma n d h i g he r r o rs c o r i n gr a t ec a u s e db yo v e r l a p p i n gs a m p l e sb e s i d e st h eo p t i m a li n t e r f a c e m e a n w h i l e ,i no r d e rt oe l i m i n a t er e d u n d a n c yi nt h ed a t a s e t ,d a t a - p r e p r o c e s s i n gi st a k e n a c c o r d i n gt o t h ei n f o r m a t i o np r o v i d e db yd i s t a n c eb e t w e e np o s i t i v ea n dn e g a t i v e p r e c i s es t e p sa r eg i v e na n da na s s e s s m e n tm o d e li sb u i l to ni t i ne m p i r i c a la n a l y s i s , a f t e rg e r m a nc r e d i td a t a b a s ei sp r e p r o c e s s e d ,a ne x p e r i m e n ti sc a r r i e do u ta n dt h e r e s u l ti n d i c a t e st h a ts v m k n nm o d e lh a sb e t t e rc l a s s i f i c a t i o np e r f o r m a n c ea n d e f f i c i e n c yt h a ns v m i t s e l f k e yw o r d :c r e d i tr i s k ;s u p p o r tv e c t o rm a c h i n e ;kn e a r e s t n e i g h b o r s ; i n f o r m a t i o nf u s i o n ;s v m - k n n 西安电子科技大学 学位论文创新性声明 秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在导 师指导下进行的研究工作及取得的研究成果尽我所知,除了文中特另j d r i 以标注 和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材 料与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明 并表示了谢意 申请学位论文与资料若有不实之处,本人承担一切的法律责任 本人签名: 日期型盔曲j 且 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学学校有权保留 送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文同时本人保证,毕业后结合 学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学 本人签名:至! 当益 导师签名:型笙描五 日期塑牡 第一章绪论 第一章绪论弟一早殖下匕 1 1 信用评估的研究背景和意义 2 0 0 8 年,金融风暴席卷全球,后果的严重性超过了所有人的预期,对世界经 济、产业、贸易造成的负面影响至今无法消除大批华尔街久负盛名的金融企业 或倒闭、或为政府重组,各国政府开支纷纷巨额缩减,失业率节节攀升而导致 这一切的根源正是次级贷款美国贷款市场的次级是以借款人的信用条件作为划 分界限的,信用低的人申请不到优惠贷款,只能在次级市场寻求贷款对于放贷 机构来说,次级贷款的回报率很高,为了追求高额利润,同时规避相应的风险, 各金融机构纷纷推出复杂的次级贷款证券组合,向广大投资者销售,于是次级贷 款的牵涉面越来越广牵一发而动全身,当次级贷款赖以生存的房地产市场低迷, 整座金融大厦也为之撼动 此次经济危机中可以看出,信用评估的重要性不言而喻发放贷款作为银行 的一大业务板块,固然是利润来源,但也成为最主要的风险尤其是2 0 世纪7 0 年代以来,随着经济全球化和金融一体化的发展,各种金融工具和衍生工具层出 不穷,银行所处的金融环境和竞争更加复杂激烈 为了能够有效判断及规避信用风险,银行必须科学、合理的评价借款对象的 偿债能力信用评估即为银行确定信贷额度的依据和信贷资产管理的基础,其结 果将直接反映在信贷整体活动中因此,客观合理的信用评价模型,对银行的现 行状态和未来发展空间的意义不言而喻 1 2 国内外研究现状 在我国,信用评估的发展历史较短,建国初期消费信用几乎没有随着金融 体制改革和金融开放步伐的加快,商业银行普遍意识到市场化运作、稳健经营、 防范风险的重要性,信用风险管理部门逐步设立作为发展中国家,中国信用评 估在外部环境和内部管理等方面与国际都存在较大差距在外部环境上,金融市 场还不成熟,社会信用体系还未建立,外部监管和市场约束的作用还远未充分发 挥而在内部管理上,也存在诸如客户信用评判管理信息系统建设滞后,评级技 术不成熟、评级标准不稳定等问题 近几年来,随着市场约束的增强,商业银行逐步改善对信贷评估的度量和管 理主要表现在各家银行均建立了内部信用评级体系,从而改变了过去粗放经营 的做法,使得资产业务走上正规,资产质量得到改善尽管大部分银行已经开始 2 基于信息融合的信用风险评估研究 重视信用评估工作,但经验积累少,应积极参照国际标准、外国经验,综合考虑 地区特点,针对以往借款人群的记录,以专家判断为基础,选择合适的指标体系 全面评判 长期以来,国内对信用风险的研究以定性为主这种主观判断法缺点十分明 显,不仅效率低下,而且凭借主观意愿,随意性较大,无法适应经济发展的要求 为了评估银行贷款质量、改进贷款分类方法,1 9 9 8 年银监会下发了贷款风险分 类指导原则( 试行) 文件,将贷款分为正常、关注、次级、可疑和损失五类,后 三类合称为不良贷款 使用贷款分类方法对贷款质量进行分类,是通过考虑借款人的还款能力、还 款记录、还款意愿和贷款担保等因素来判断借款人是否能够及时足额归还 在第二次世界大战之前,西方国家的信用评估发展缓慢因为缺乏有效的通 讯和交通设施,经济活动的信贷受到很大局限,1 9 1 0 年的摩利斯计划银行可以说 是最早提供消费信贷的银行在战后的几十年里,由于生产力的飞速发展,极大 的刺激了消费者对产品和服务的需求,信用交易额快速增长市场的需要,使得 信用管理行业步入了现代信用管理阶段,并取得了突飞猛进的发展目前,国际 上已经有了许多著名的评估公司,如穆迪、标准普尔等,这些公司的评估业务已 经覆盖全球,在推动世界经济发展中,扮演着极为重要的角色 信用评估问题的本质便是在面对客户提供的诸多相关信息时,采取有效的手 段进行分类第一个解决该分类问题的是f i s h e r 2 j 在区分生物的种类时提出来的 d a v i dd u r a n d 3 】借鉴了这一方法来区分贷款质量的好坏他通过考察9 各方面的指 标对消费贷款建立了自己的评分标准,并据此对贷款申请人信用状况进行评分 1 3 信用评估的常用方法介绍 国内外学者对信用评估的研究已经做了大量的工作,根据数学方法、统计学、 信息学以及人工智能等知识,提出了神经网络模型、线性回归法、贝叶斯分析模 型、判别分析法、分类树法、l o g i s t i c 回归法等各种评分模型和方法几种主要的 分类方法包括: 1 决策树分类法 决策树采用自顶向下的递归方式,利用信息增益寻找数据库中具有最大信息 量的属性字段,建立决策树的一个节点,再根据不同的属性值从该节点向下分支, 叶节点就是要学习划分的类一条规则对应从根到叶节点的一条路径,整个决策 树对应一组表达式最具代表性的决策树算法包括c a r t 算法,i d 3 算法和c 4 5 算法 2 贝叶斯分类法 第一章绪论3 贝叶斯分类是基于贝叶斯定理,利用概率统计知识进行分类的算法朴素贝 叶斯算法分类适用于大型数据库,速度快但由于朴素贝叶斯定理的假设属 性值之间相互独立,在实际情况中往往不成立,其分类准确率会受影响 3 神经网络方法 神经网络作为仿照人脑的非线性预测模型,是一组相互连接的输入输出单元, 每个连接都有一个权值,以实现复杂的智能行为在学习阶段,通过调整神经网 络的权,使网络能够正确预测输入样本的类标号神经网络对噪声数据的承受能 力较高,具有很强的自学习能力和自适应能力,但训练时间太长,可解释性差, 容易产生过学习神经网络模型1 4 j 的类型较多,代表性的是b p ( e r r o r b a c k p r o p a g a t i o n ) 神经网络、h o p f i e l d 网络、b o l t z m a n 机模型网络等 4 粗糙集方法 粗糙集( r o u g hs e o 理论由p a w l a k 于2 0 世纪8 0 年代初提出,是基于给定训 练数据内部的等价类的建立的,是一种研究不完整、不确定知识和数据的表达、 学习、归纳的理论方法它采用上近似和下近似来描述不能被可用属性区分的类, 基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的记录根据 各个属性的不同值分成相应的子集,然后基于条件属性划分的子集与结论属性划 分的子集间的上下近似关系生成判定规则,处理数据不需要预先或附加的信息 5 k 近邻分类器 k 近邻分类器属于统计方法中的非参数方法,在分类问题上有着广泛的应用 其思想就是将与信用风险相关的因素表示为一个向量,即样本空间中的一个点, 每个元素即每个指标,当一个新的待识别者加入时,根据空间中的某个距离或规 则将其分类k 邻法放松了正态性假设,避免了传统统计技术对模型函数设定的困 难,但当数据维数较高时,样本点会变得稀疏从而难以使用 6 支持向量机 支持向量机1 5 j ( s v m ,s u p p o r tv e c t o rm a c h i n e s ) 是在统计学习理论的v c 维基 础上的模式识别学习方法一方面把数据映射到高维空间,解决原始空间中数据 线性不可分问题;另一方面,通过构造最优分类超平面进行数据分类支持向量机 通过解决一个二次规划问题,来获得全局最优由于并不直接依赖于输入数据的 维数,因此表现出了优秀的性能鉴于s v m 方法具有较好的评估标准和评估效 率,本文采用支持向量机作为信用评估模型的核心 1 4 本文内容及结构安排 根据研究的基本思路,本文的结构安排如下: 第一章是绪论,简述了选题背景、信用评估的知识,国内外对信用评估的研 4 基于信息融合的信用风险评估研究 究现状和研究方法等 第二章是支持向量机与信息融合,简要介绍了统计学习理论和支持向量机的 原理分类器融合方法,详细介绍了融合的原理、层次和方法 第三章根据信息融合的思路提出了s v m k n n 算法,实现了信用评估模型, 运用m a t l a b 对所建模型的正确性进行验证 最后是小结,归纳本文的研究成果和创新点,分析研究中的不足之处,做出 信用评估的研究展望 第二章支持向餐机与信息融合 5 第二章支持向量机与信息融合 2 1 统计学习理论 早期的统计学习理论是从2 0 世纪6 0 年代发展起来的,7 0 年代末又被v a p n i k 等人逐渐完善直到9 0 年代,它一直是作为一种针对有限样本的函数预测问题的 纯理论分析工具9 0 年代中期,v a p n i k 及其小组提出了s v m 算法【6 ”,将抽象的 理论转化为通用的实际算法,极大的推动了统计学习理论的研究和应用 1 9 9 5 年,统计学习理论的本质( t h en a t u r eo f s t a t i s t i c a ll e a r n i n gt h e o r y ) 一书的出版, 标志着统计学习理论正式发展成熟,成为了机器学习研究的热点之一 2 1 1v c 维和结构风险最小化原则 v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 【8 】的直观定义:对于一个假设集f , 假如存在一个含有h 个样本的样本集能够被f 中的假设按照所有可能的2 6 种组 合分开,则称此函数集能够把样本数为h 的样本集打散,或称h 个样本被f 打散, 则假设集f 的v c 维就是这个函数集中的函数所能打散的最大样本数目h 若对 任意数目的样本都有假设能将它们打散,则该函数集的v c 维就是无穷大一般 而言,v c 维越大,学习机器越复杂,学习容量就越大 对于一个具体问题,其样本数是固定的,此时如果学习目标仅为减少经验风 1i 险= ( 厂( m ,厂( ,w ) ) ) 而采用复杂度很高的模型,会使得置信风险( 罢) 变 f = l ,i 得很大,从而导致模型的泛化能力下降因此,在设计学习机器时不仅要使经验 风险最小,还要使v c 维尽量小,从而缩小置信区间使期望风险最小对于给定 的观测集 毛,刁) ,结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 原则就是 选择适当的函数子集,使得经验风险与置信范围之和最小 图2 1 给出了结构风险最小化原则的示意图,通过选择子集墨在函数的逼近 精度和逼近函数的复杂性之间取得了一种最佳的折衷 2 1 2 学习过程的一致性条件 学习过程的一致性,是指当样本数趋于无穷大时,在什么条件下,经验风险的最 优值收敛到真实风险的最优值且收敛速度很快学习过程的一致性结论是与传统 6 基于信息融合的信用风险评估研究 渐进统计学的基本联系所在只有满足学习过程的一致性条件,才能保证在学习 样本趋于无穷大时,根据e r m 原则得到的最优学习机器的性能趋近于期望风险 最小时的最优结果,才能说明学习方法是有效的 h l h 图2 1 结构化风险不惹图 定理2 1 1 9 1 :设函数集合 q ( z ,a ) ,a ) 对概率测度尸( z ) 是有界的,即: a i q ( z ,c t ) d f ( z ) b 那么经验风险最小化学习单边一致收敛的充分必要条件是经验风险在整个函数集 上收敛到期望风险r ( a ) ,l i m p s u p ( r ( a ) 一如。 ) ) s ) = 0 对应的双边一致收敛 为:l i mp s u p r ( a ) 一如p ( a ) l ) = 0 m 2 2 支持向量机 v a p n i k 在1 9 9 5 年完整的提出支持向量机方法【8 1 后,这一研究领域得到迅速发 展,在许多智能信息获取与处理领域都取得了成功的运用【1 0 小1 作为一种通用的 模式识别学习方法,s v m 算法解决的是一个凸优化问题,提到的局部最优解就是 全局最优解在s v m 中只要定义不同的内积函数,就可以实现多项式逼近、贝叶 斯分类器、径向基函数等许多现有学习算法 第二章支持向量机与信息融合 7 2 2 1 最优分类超平面 最优分类超平面旧就是使得分类间隔最大的超平面,并且最优超平面由离它 最近的少量样本点( 称支持向量) 来决定,而与其他样本无关图2 2 直观地展示 了最优分类超平面 图2 2 最优分荚趟半回 假定训练数据 薯,只 ,i = 1 ,z ,薯= r ”,咒= 一l ,+ 1 可以被一个超平面 x w + b = 0 正确地分开,设: 五l = x :( x w ) + 6 = a ) 爿r - = x :( x w ) + 6 = - a ) ( 2 - 1 ) 是两类的边界分隔面,它们之间的距离是:m 2 丽2 a ,毗使间隔最大等价于使 州1 2 最小为找到最优分类超平面, 则需要在约束条件: 咒【( w 薯) + 6 卜1 0 ,i = 1 ,以下最小化泛函:( w ) = i 1 ( w 们 最后得到的最优分类函数是: f ( x ) = s g n ( w 石) + 6 = s g n a :m ( 再x ) + 矿) ( 2 2 ) t = i 在( 2 2 ) 式中,a 枣的每一个分量a j 都与一个训练点相对应,通常只有很小一 部分不为零,其对应的样本就是支持向量b + 是分类阀值,可由任一个支持向量 求得,为6 = 乃一a ? 乃( 而,_ ) 1 = l 2 2 2 线性可分支持向量机 设线性可分的训练样本集丁= ( _ ,y y ) ,i = l ,2 ,眈一尺”,咒 + 1 ,一1 ) ,则必然 8 基于信息融合的信用风险评估研究 存在一个分类超平面为: 将其中的两类样本点分开: ( w x ) + 6 = 0 ( w 五) + 6 1 ,m = 1 ( 2 3 ) ( w t ) + 6 - 1 ,y t = - 1 ,i = 1 ,2 ,w er ” ( 2 - 4 ) 其中w x 表示向量w r ”与x r ”的内积,在n 维欧式空间中w x = w x 对 w r ”,b r 7 都进行了规范化,使每类样本集中与分类超平面距离最近的数据点 满足公式( 2 4 ) 的等式要求 平面上线性可分的情况如图2 3 所示: 图2 3 线性可分支持向量机 当i j l l 练集线性不可分时【1 3 】,最优超平面的对偶问题与线性可分情况几乎完全 相同,区别仅在于乘子a i 有界c ,求解二次规划: , m i n ( w ) = 去( w w ) + c 毛 二 f = l s j 只【( 薯川- b 】l 一磊,磊o ,f = l ,2 ,( 2 5 ) 其中磊是划分错误的向量的上界该模型实际是将置信范围和经验风险同时极小 化,而参数c 是二者的一个平衡参数 最终所求得的决策函数为: f ( x ) = s g n ( w x + 6 ) 第二章支持向量机与信息融合 9 2 2 3 非线性支持向量机 对于图2 4 所示的问题,用任何一条直线去划分都会错分很多训练样本,这 类问题就被称为线性不可分问题 图2 4 非线性司分不意图 在非线性可分时,通过某个映射函数,将训练样本从输入空间映射到一个高 维的特征空间,并在该特征空间中构造最优分类超平面只要选取适当的映射函 数,大多数在输入空间线性不可分的问题可以转化为在特征空间的线性可分问题 来解决,但是空间变换会导致样本的维数迅速增加,因此传统分类方法在大多数 情况下难以直接计算得到最优分类超平面这一点可以通过m e r c e r 定理【1 4 】引入 核函数【1 5 1 来解决 定义2 1 1 1 6 l :设妒是由空间x 到特征空间f 的映射,即: 妒:x x 争缈( x ) f 对所有的x ,z x ,函数k 满足: k ( x ,z ) = 妒( x ) 9 ( z )( 2 6 ) 则称式( 2 6 ) q a 的函数尼( ,) 为核函数( k e r n e lf u n c t i o n ) 选择满足m e r c e r 定理 的核函数,最优分类超平面问题描述为: m i n i 1w 7 w + c 壹磊 厶 i = i s j 咒( w 。( 薯+ 6 ) ) 1 一玺,善o ,f = 1 ,2 , 则非线性s v m 的分类判别函数可以表述如下: g ( x ) = s g n ) - i :。a | 1 只k ( 薯,x ) + 6 , ( 2 7 ) 由( 2 7 ) 知,虽然非线性函数将样本数据映射到具有高维甚至无穷维的特征空 1 0基于信息融合的信用风险评估研究 问,并在特征空间构造最优分类超平面,但在求解最优化问题和计算决策函数时, 并不需要计算该非线性函数,而只需计算核函数 目前主要的核函数【1 7 】包括: 1 线性核函数k ( x ,y ) = x r y ,此时对应线性s v m 2 多项式核函数k ( x ,y ) = 【( x r j ,) + l 】g ,其中g 为多项式的阶数 3 径向基核函数k ( x ,y ) = e x p 一i i x y i l 2 舾2 ) ,其中仃为核宽参数它将输入 样本映射到无穷维空间的一个单位超球面( 渺( x ) 0 = x - 瓦x , x ) = 1 ) 4 s i g m o i d 核函数k ( x ,y ) = t a n h p ( x r j ,) + c 】,其中卢和c 是由用户设定的参 数,此时得到的s v m 分类机就是一个两层感知器神经网络 2 3 融合算法 2 3 1 融合算法的背景 信用评估分类的传统方法中,通常是采用多个分类器实现,然后选择一个结 果最优的分类器【1 8 d9 1 然而,这种方法的缺陷也十分明显,当先验知识不充分时, 很难确定最优的分类器,因此,寻求广义上能够提高分类性能的方法成为一个研 究方向【2 2 1 在分类问题中,由于各分类算法的性能不同,产生的误差集合互不重 叠,这表明分类器之间存在着互补的可能性,通过互补可以提高分类性能【2 0 1 信息融合的概念源自2 0 世纪7 0 年代的军事应用2 1 1 ,其本质 2 2 j 是从多层次对 多元信息进行整合,充分利用多源信息之间的互补性,将各组的冗余信息进行融 合,降低总的不确定性信息融合技术应用于分类问题时也称为多分类器融合技 术,即利用各分类器检测的信息和不同的处理方法以获得对分类对象的全面检测 信息,从而提高分类精度和可靠性目前,对多分类器融合技术的理论研究【2 3 】主 要集中在以下三方面: 1 对融合工具的研究 对融合工具的研究是多分类融合技术研究的核心内容目前,常用的融合方 法有投票法【2 4 1 ,b a y e s 规则2 5 1 ,d s 证据理论【2 6 】,基于模糊集理论t 2 7 - 2 8 】的融合方 法,神经网络1 2 9 】等 2 对多分类器融合系统的资源结构进行优化,以提高系统的分类性能 当分类器较多时,它们之间的交互影响也会非常复杂,而且相关性有可能随 着处理对象的不同而变化因此如何实时地选择合适的分类器进行融合,既能节 第二章支持向量机与信息融合 省资源又能最大限度地获取有用信息也是提高系统性能的重要方法 3 对单个分类器的研究 单个分类器的分类性能对多分类器系统的分类性能有着重要影响,并且将不 同的分类器进行融合得到的效果也不同一般认为,单个分类器的性能越好,组 合的各分类器之间相关性越小,越有利于得到好的融合效果 2 3 2 多分类器组合结构 1 分类器输出信息 为了描述方便,首先给出单一分类器的决策模型【3 0 】: 给定m 个类c = c 1 乞, 的分类问题d ,三个不同分类器的集合 c = c l ,c 2 q ) 中的一个分类器e 指派给样本x 的类标签为 q ( x ) q ,乞oo c 二 ( j = l ,2 ,三) 多分类器融合系统利用成员分类器提供的信息进行融合,按照融合过程中信 息抽象的层次,可以将信息融合过程分为三个层次: ( 1 ) 抽象层:一个分类器c ,只输出一个类标签c ,( x ) ,或者在某种程度上输出 一个类集合c ,没有其他附加信息 ( 2 ) 排序层:分类器c ,把类标签或者子集合c ,按照某种规则排成一个队列,排 在首位的是第一选择 ( 3 ) 度量层:分类器c ,给类集合的每个类标签分配一个值来度量样本x 属于该 类的程度 这三个层次所包含的信息量是依次递增的,度量层次的信息量最大,抽象层 最少一般来说,多分类器输出级别越高,实验结果越好不同的输出形式之间还 可以进行一定转化,因此对低级的输出形式适用的方法同样也可以用于高级的输 出形式 羹攀吾蓬 图2 5 串联分类器 1 2 基于信息融合的信用风险评估研究 2 多分类器融合结构 从拓扑结构来分,多分类器融合的方法有串联、并联、混合三种类型 ( 1 ) 串联分类器 在串联分类器中,多个分类器处于一个线性序列中,每个分类器使心随后的 分类器的特征空间,其结构如图2 5 所示当一个分类器的决策结果低于预先设定 的可信度水平时被拒绝,激活下一个分类器串联分类器主要有基于类集合减少 方法和重新判定方法两种【3 l 】 ( 2 ) 并联分类器 由于并联结构的分类器可以并行工作,分类速度会大大提高但这种方法对 于融合规则的设计有较高的要求其结构如图2 6 所示并联分类器可以分成融合 器和选择器【3 2 】 囊分类器l ; 主掣曩 :。:i i 融ii 融i l l 象獭i i 笺粪 ;i 贝u i ;i 操i 蓑分类器乐i 硪j 乏 图2 6 并联分类器 ( 3 ) 混合组合 混合组合也称为层次级联,是将串联和并联相结合如图2 7 所示,分层组合 从信息量最少的那一层开始,在相应层次上组合各个成员,得到结果属于下一信 息层次的中间层分类器,再将中间层分类器与相应层次的其他分类器组合 图2 7 混合组合 第二章支持向量机与信息融合1 3 2 4 不同输出层上的信息融合 按照输出信息的融合层次可分为三类:抽象层上的融合,排序层上的融合和 度量层上的融合 2 4 1 输出为抽象层的多分类融合 每个模式仅仅输出一个类别编号尽管分类器输出的信息很少,但它是最普 遍的一类,且其他形式的输出都可以很方便的转化为此类输出由于几乎没有信 息损失,它的融合性能较高,缺点是对分类器的依赖程度大在这个层次上目前 使用的较多的是投票法、贝叶斯法、d s 证据理论和b k s 空间 1 投票法 基于投票规则的融合是多分类器组合中最先被使用的每个分类器对于一个 输入样本给出一个类别的编号,将各成员分类器的结果进行投票,得票最多的类 别被确定为样本所属类别 融合后的判决结果c ( x ) 3 3 j 用投票规则可以表示为: c c x ,2 r 0 吱,如果l x 姜麓a 1 + 烈x 。2 8 , 最简单的投票法把每个投票者看作完全平等的个体,而没有考虑到不同的分 类器在分类时产生的性能差异对此,可以采用加权投票法来解决,即给不同的 投票者赋予不同的权值 2 贝叶斯法 贝叶斯方法用于多分类器融合时,要求系统可能的决策相互独立,通过先验 知识产生每个单分类器巨的混淆矩阵e t kt 3 4 1 来表示它的出错情况r 个单分类器 融合后对于x c 的置信度【3 4 1 为: b e l ( 垆关竽里塑 n p g 最( x ) = 五) 得到了融合后的置信度的值,就可以根据不同的决策规则得到f a x ) 3 基于d s 证据理论的融合 d s 证据理论作为一种不精确推理理论,是贝叶斯估计法的拓展贝叶斯估 计法必须先给出先验概率,而证据理论通过对一些事件的概率加以约束建立信任 函数而不必说明精确的概率 其基本理论如下: 1 4 基于信息融合的信用风险评估研究 设q 是样本空间,领域内的命题都可以用q 的子集表示 定义2 2 3 5 :设函数m :2 q 一【0 ,l 】,且满足 m ( ) = o ,m ( 彳) = l 则称m 是2 q 上的概率分配函数,m ( 么) 称为么的基本概率数,表示对彳的精 确信任 定义2 3 3 5 1 :命题的信任函数6 p ,:2 q4 0 ,1 】,且 b e l ( a ) = m ( b ) , 对所有的a 冬q 定义决策规则【3 5 1 r m j 勺纠( 4 ) - ,。鼢) b e l ( 4 ) _ a c ( x ) = 。 埏( 1 2 册) 【r e j e c t 其他 ( 2 1 0 ) 4 行为知识空间法 由于行为知识空间可以同步记录所有分类器对每个样本的决策,所以也简称 为b k s 一个行为知识空间是一个r 维空间,每一维都代表一个单分类器的决策对 于一个待识别的样本,单个分类器的决策组合指向一个b k s 元素决策模型3 5 】 如下: c(x):磁c卜,ctl,毛t卜,ccl,。且!丛丛=掣九 【r e j e 订, 其他(2-11) 行为知识空间法不要求分类器之间相互独立,但是它需要数目较多的训练样 本,因此大量存储空间会被占据此外,b k s 是建立在穷举分类组合基础上的, 如果训练样本分布不均,且类别数增多时,势必造成很多组合不能穷举到 2 4 2 输出为排序层及度量层的多分类器融合 从上文可知,基于投票规则的各种改进都无法改变投票规则的一些根本性问 题因此,仅仅停留在抽象层上去提高多分类器融合的性能是不够的【3 5 1 基于排 序层的信息融合有两个主要途径:一个是类集合减少,用于该途径的方法有交集 法和并集法;另一个是类集合重排,该途径包括:最高序号法,b o r d a 计数法 1 交集法该方法计算每个单分类器的邻域交集被分类器正确识别的所有 的类,在排序集中均有一个被排序的序号,在所有的这些类中,序号最低的类对 第二章支持向量机与信息融合1 5 应的序号作为序号的阀值对于一个测试样本,单个分类器排在阀值前的类被选 择作为它的邻域,再将每个分类器的邻域求交集 2 并集法该方法计算每个分类器小邻域的并集,对于一个测试样本,根据 阀值求每个分类器的邻域,再求它们的并集并集法注重于每个分类器的最佳行 为,因此适用于每个分类器擅长处理不同类型的输入的情况 3 最高序号法若干个分类器对给定的一组类别进行排序,然后将所有类按 分数的升序排列,得到关于输入的合成排序结果最高序号法适用于类集较大, 分类器数目比较少的情况 4 b o r d a 计数法一个类的b o r d a 计数是每个分类器给出的序号低于所有类的 个数之和,将所有类按b o r d a 计数的降序排列作为合成的排序b o r d a 方法假定分 类器是独立的,比较容易实现,不需要训练,但没有充分考虑单个分类器性能上 的差异,也没有区别对待高等级和低等级的排序 基于排序层上的信息融合把输出信息排成一个队列,从而避免了抽象层信息 融合中的硬划分问题,但是没有考虑到输出信息之间的度量差异 度量层上的信息融合对每一个类别都输出一个度量值,因此比前两种情况拥 有更丰富的信息量,相应的组合方法也更多输出结果为测试对象属于每个类别 的置信度大小,实际上这些值可以看作是模糊测度 模糊决策1 3 5 。3 6 j 是结合多个分类器的输出的一种简单融合方法其方法可概括 为:对于一个分类器融合问题,每个分类器的输出为 z l ,4 2 ,4 ,】r ,其中碣,指 通过分类器f 来表示输入样本属于类,的隶属度,而对应的当前分类器的性能代 表了该分类器做出评价的可靠性,即模糊积分密度因此可计算模糊积分值 e ,= l ,2 ,m 系统决策模型为: c ( 耻丁巳觏。譬q 独 ir e j e c t 其他 ,1 2 5 本章小结 本章旨在为后面的融合算法作铺垫,首先介绍了统计学习理论的基本思想, 并在结构风险最小化原则基础上引入s v m 的学习方法和数学模型同时,详述了 信息融合的一些基础知识和方法,并对多分类器融合的理论基础进行了研究叙 述了多分类融合的类型以及不同信息层上的信息融合算法,并分析比较了各算法 的性能及其优缺点 第三章基t - s v m k n n 的信用风险评估模型 1 7 第三章基于s v m k n n 的信用风险评估模型 3 1k 最近邻判别分析法 3 1 1k n n 算法的基本原理 作为一种常用的非参数统计方法,k 最近邻方法( kn e a r e s tn e i g h b o r ,k n n ) 3 7 。8 1 最初是由c o v e r 和h a r t 于1 9 7 6 年提出来的1 3 9 1 ,是基于类比学习的分类方法训 练样本由k 个数值属性进行描述每个样本代表n 维空间中的一个点,这样所有 的样本就被存放在刀维空间中当给定一个未知类别的数据对象,一个k 最近邻 分类器就搜索刀维空间,并从中找出k 个与未知数据对象距离最近的训练样本, 这k 个训练样本就是未知数据对象的k 个最近邻,然后把这k 个点中的大多数点所 属的分类赋给该未知对象 从理论上讲,就是取变量空间中以x 为中心到第k 近的近邻的距离为半径的 一个小胞体然后,用这个小胞体中训练数据点属于每个类的比例作为这个胞体 中的点属于每一类的概率的极大似然估计量k 近邻法把新的点分配到具有最大 估计概率的类中如图3 1 ,与待分类样本x 最近的三个点中,有三个是空心的点 ( a 类) ,两个是实心的点( b 类) ,即距离x 最近的三个点中,多数为b 类,所以 把x 分为b 类 图3 1k - n n 分类不意图 大多最近邻方法在计算最近距离时候采用的都是欧式距离,而n 维空间中两 点x = 而,x 2 ,毛) 和y = y l ,y 2 ,咒 之间的欧式距离就是: f 一 d ( x ,】,) = ( t 一只) 2 y9 1 ( 3 1 ) 其中疗是属性总数,此处每个属性的值均已作过规范化处理,即均值为o ,标准 偏差为1 这样未知类别的数据对象就被归属于这k 个最近邻中出现次数最多的 1 8 基于信息融合的信用风险评估研究 类别而当k = 1 时,未知类别的数据对象就被归属于最接近它的一个训练样本所 属的类别此外,还有马氏距离、绝对距离和无规模距离等常用的表示距离的尺 度 具体说来,设这个样本中,来自类的样本有1 个,来自w 2 类的样本有2 个,来自w c 的样本有c 个若岛乞,乞分别是七个近邻中属于,w z ,w c 类 的样本数,则判别函数可定义为: & ( x ) = 墨,江l ,2 ,c ( 3 2 ) 决策规则为: 若g ,( x ) = m a x g , ( x )则有决策x w , k n n 算法必须明确两个基本的因素:最近邻样本的数目k 和距离的尺度k 表示选择参考样本的数目,距离尺度对应一个非负的函数,用来刻画不同数据之 间的相似程度在k n n 算法里对于模型的选择( 尤其是k 值) ,往往是通过对大 量独立的测试数据、多个模型来验证最终获得最佳选择,为了避免出现两类的得 票数相等从而难以判断所属类别的问题,在这样的情况下,应将k 设置为大于l 的奇数 3 1 2k n n 算法的评价 从理论角度看,k n n 算法是一种很有价值的工具,随着设计样本容量的增大, 估计所得概率的偏差会降低( 对于固定的k ) 如果我们可以把k 增大到一个适合 的程度,使估计的方差也随之下降,那么最近邻方法的误判率将收敛到一个和贝 叶斯错误率相关的数值例如,当数据点数玎趋向于o o 时,最近邻方法的误判率 的上限为贝叶斯错误率的二倍理论证明,k n n 算法的误判率是p p 2 p , 即在贝叶斯错误率p 和两倍贝叶斯错误率2 p 之间,正是这种优良性质,使它成 为模式识别的重要方法之一【加训】 和像神经网络这样的更专业方法相比,k n n 分类方法是一种非参数的分类 技术,对于未知和非正态分布的数据可以取得较高的分类准确率;概念清晰,易 于编程并且不需要优化和训练;k n n 方法不需要额外的数据来描述规则,其规则 就是训练数据本身,而且不要求数据的一致性问题,即可以存在噪音;k n n 方法 虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关, 因此可以较好地避免样本数量的不平衡问题;从分类过程来看,k n n 方法最直接 地利用了样本和样本之间的关系,减少了类别特征选择不当对分类结果造成的不 第三章基于s v m - k n n 的信用风险评估模型1 9 利影响,可以最大程度地减少分类过程中的误差项对于一些特征不明显的类别 而言,k n n 分类法更能体现出其分类规则独立性的优势,使得分类自学习的实现 成为可能 4 2 1 ;如果我们对预测出的分类没有足够的信心,它允许方便地应用否决 选项,从而推迟这个决策;可以直接扩展到多分类的情况,尽管这时如何选择最 佳尺度不太明确 对于所有的问题,过高的维数都会维数灾难从本质上讲,要克服这一额外 难题就必须放弃使用那些太灵活以至于过度拟合数据的分类规则,因为变量数太 多增大了过度拟合的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中人教八年级下册地理第六章《北方地区》考试测试卷有解析
- 2026年电子商务税收征管办法
- 2026年涪陵区中小学编制教师招聘考试参考题库及答案详解
- 商业广场街区大型住宅小区防汛应急演练方案
- 2026年武汉市汉阳区事业编单位人员招聘笔试备考题库及答案详解
- 2026年四川省南充市中小学编制教师招聘笔试模拟试题及答案详解
- 2026年七台河市新兴区中小学编制教师招聘考试备考题库及答案详解
- 2026年贵阳市云岩区事业编单位人员招聘笔试备考题库及答案详解
- 2026年河北省衡水市中小学编制教师招聘笔试备考试题及答案详解
- 2026年扬州市邗江区中小学编制教师招聘笔试模拟试题及答案详解
- 2023年注册电气工程师《公共基础》试题真题及答案
- 2024年江苏南通海安市城市管理局政府购买服务人员招聘笔试参考题库附带答案详解
- 《居民区电动汽车充电基础设施建设管理示范文本》
- 第九章环境经济政策课件
- 中央空调施工确认单
- 仪表基础知识 课件
- 摄像机标定的几种方法课件
- 小学口语交际课题结题报告
- 义务教育科学课程标准(2022年版)
- 深圳市工务署品牌库
- 第八讲 SWAT非点源污染模拟
评论
0/150
提交评论