




已阅读5页,还剩69页未读, 继续免费阅读
(计算数学专业论文)基于支持向量机技术的信用风险评估模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山人学硕上论文基于支持向量机技术的信用风险评估模型研究 论文题目:基于支持向量机技术的信用风险评估模型研究 专业:计算数学 硕士生:张棋光 指导老师:李小福 摘要 本文介绍信用风险评估的意义及重要性,论述了利用支持向量机( s u p p e r v e c t o rm a c b j n e ,s v m ) 技术及相关机器学习技术进行客户信用评估的可行性。 本文把客户信用评估问题归结为样本数目不平衡、样本误分损失不平衡的分类问 题,进而利用支持向量机技术进行求解。 本文首先对机器学习理论和技术进行了研究,包括数据预处理、属性选择方 法、聚类算法、增量式机器学习以及不平衡类问题,然后深入研究了支持向量机 的理论和技术,包括统计学习理论、最优化理论、核理论以及在这些理论基础上 推导的s v m 分类器,包括最大间隔分类器、c s v m 和o n e c l a s ss v m 。 根据支持向量机及机器学习相关理论,结合信用风险评估的实际需求,本文 提出了三种适用的“基于支持向量机技术的信用风险评估模型 : 第一,提出了改进的基于不同惩罚值的c s v m 信用评估模型,提出了新的 c 取值方法,提高了负类预测准确率,降低了整体的误分损失; 第二,提出了改进的基于聚类分块的s 信用评估模型,较好地解决样本 数目不平衡问题,提高模型的预测准确率,对有局部聚集特性的数据集十分有效; 第三,提出了双层o n e c l a s ss v m 信用评估模型,结合负类增量式o n e c l a 鼹 s v m 模型和正类o n e c l a s ss v m 异常检测模型,有效解决样本数目严重不平衡, 甚至只有一类训练样本的分类问题。 最后,利用电力客户信用数据对本文提出的三个模型进行实验验证,其实验 结果是令人满意的。在实验过程中,提取了著名的l i b s v m 开源软件包的核心算 法,在此基础上开发了有实用价值的软件工具,使得模型可以实际应用。 关键词:信用风险评估,支持向量机,机器学习,不平衡类问题 中山人学硕士论文基于支持向量机技术的信用风险评估模型研究 t i t l e :s t u d i e so fc r e d i tr i s ke v a l u a t i o nm o d e lb a s e do n1 e c h n o l o g yo fs u p p o n v e c t o rm a c h i n e m 面o r :c o m p u t a t i o n a lm a t h e m a t 豳 n a m e :q i g l l a n gz h a n g s u p e r v i s o r :x i a o f uu a b s t r a c t a st h es i 擘皿i f i c a n c e 勰d 面n p o n 锄c eo fc r e d i tr i s ke v a l u a t i o ni so b v i o u s ,t h e f e a s i b i l i t yo fu s i n gt e c h n o l o g yo fs u p p o nv e c t o rm a c h i n e ( s v m ) a i l dt e c h n i q u e so f m a c h i n el e a n l i n gt oe v a l u a t et h ec l l s t o m e r sc r e d i ti sd i s c u s s e di nt l l i sp a p e r c u s t o m e r sc f e d i te v a l u a t i o nc a nb e 跚m m a r i z e d弱 ap r o b l e mo fd a s s i f y i n g i l l l b a l a n c e dc a t e 霉r o r i e s ,w h i c ht h es a m p l e sa r eu n e v e na n dt h ec o s to fe n d rc l a s s i f y i n g i su n e q u a l t h ei n t r o d u c t i o no fs v mi sa 霉d o dw a yt os o l v et h j sp r o b l e m a ni n t r o d u c t i o nt om a c h i n el e a n l i n gt h e o r ya n dt e c l l i l o l o g y ,i n c l u d i n gd a t a p r e p r o c e s s i n 舀f e a t u r es e l e c t i o nm e t h o d s ,c l u s t e r i n ga l g o r i t h m s ,i n c r e m e m a lm a c h i n e i e 姗i n g 锄di m b a l a n c e dc l a s s i 匆i n gp r o b l e mi s 舀v e n0 u t n e nt h es v mt h e o r ya n d t e c h n i q u e sa r ei n t r o d u c e d ,i n c l u d i n gs t a t i s t i c a lk 锄i n g 弧e o r y ,o p t i m i z a t i o nt l l e o 粥 k e m e lf u n c t i o nn e o r ya l l ds v mc l a s s i f i c a t i o n sb a s e do nt h e s et h e o r i e s ,s u c ha st h e l a r g e s ti n t e r v a lc k l s s i f i e r ,c s v ma i l do n e c l a s ss v m a c c o r d i n gt 0s u p p o nv e 锄d rm a c h i n ea n dm a c h j n el e a m j l l gt h e o r y c o m b j n i n g t h ea c t l l a ld e m 觚do fc r e d i tr i s ke v a l u a t i o n ,i ti sp u tf b 唧孤dt l l r e ea p p l i c a b l e ”c r e d i t f i s ke v a l u a t i o nm o d e l sb a s e do nt e c h n o l o g vo fs v m ”: f i r s t ,w ep u tf o 刑a r dac r e d i te v a l u a t i o nm o d e lb a s e do nt h ei m p r o v e dc s v m w i t hd i f f e r e n tp u n m e v a l u e s ,p r o p o s i n gan e ww a yo fc h o o s i n gcv a l u e n i sm o d e l c 锄i m p r 0 v et h ef o r e c a s ta c c u r a c yo ft h en e g a t i v ec a t e g o 锄dr e d u c et h eo v e r a l l e n d r 1 0 s s s e c o n d w ep u tf o r w a r dac r e d i te v a l u a t i o nm o d e lb a s e do nt h ei i i l p r o v e d d u s t e r - b l o c ks v m t l l i sm o d e lc a nb e t t e rs o l v et h ep r o b l e mo fu n e v e ns 锄p l e sa n d i m p r 0 v et h ef b f e c a s ta c c u m c y t h i sm o d c l i se s p e c i a l l ye f 托c t i v et 0al o c a lg a t h e f i n g d a t as e t t h i r d ,w ep u tf o r w a r dac r e d i te v a l u a t i o nm o d e lb a s e do nd o u b l el e v e lo n e c l a s s s v m ,c o m b i n e db vt h en e g a t i v e0 n e c l a s ss v mi n c r e m e n t a lm o d e la n dt h ep o s i t i v e o n e c l a s ss v ma n o m a l yd e t e c t i o nm o d e l t h i sm o d e le 呦i v e l ys o l v e st h e c l a s s i f i c a t i o np r o b l e mo fas e f i o u s l yi i i l b a l a i l c eu n e v e ns a m p l e s ,0 re v e no n l yo n e c l a s ss 锄p l e si nt h et r a i n i n gs e t f i n a l l y ,w ed oe x p e r i m e n t so nt h et l l r e em o d e l sp r o p o s e di n t h i sp a p e r u s i n g e l e c t r i c i t yc u s t o m e rc f e d “d a t as e t ,t ov a l i d a t eo u rm o d e l s t h er e s u l t so ft h e e x p e r i m e n t sa r cs a t i s f y i n 舀v e r i f y i n gt h a tt h e s em o d e l sa r ee f ! f e c t i v e i nt h ec o u r s eo f t h ee x p e r i m e n t s ,t h ec o r ea l g o r i t h mc o d e sf 两mt h ef a m o u so p e n s o u r c es o f t w a r e p a c k a g e sl i b s v m ,a r ep i c k e du p ,a n dap r a c t i c a ls o f t w a r et o o li sd e v e l o p e d ,w h i c h c a np u tt h em o d e l si n t op r a c t i c a la p p l i c a t i o n s k 七yw o r d s :c r e d i tr i s ke v a l u a t i o n ,s u p p o nv e c t o rm a c h i n e ,m a c h i n el e a m i n g , l i l l b a l a n c ec a t e g o r i e s i i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:专长才美芸) 日期:加年石月1 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送交论文的 电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内 容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存 学位论文。 学位论文作者签名:劫屯议毛 日期:瑚年6 月r 日 中山大学硕:卜论文基于支持向量机技术的信用风险评估模型研究 1 1 研究背景 第1 章引言 1 1 1 信用风险评估的现状及需求 企业信用风险是指在以信用关系为纽带的交易过程中,交易一方不能履行给 付承诺而给另一方造成损失的可能性,其最主要的表现是企业的客户到期不付货 款或者到期没有能力付款。“企业最大的、最长远的财富是客户,然而企业最大 的风险也来自客户。很多公司由于应收账款回收不力,轻则造成企业的流动资 金紧张,重则造成公司大笔坏账损失,甚至经营困难。所以,对企业客户进行合 理的、科学的、准确的信用评估,有利于降低企业承担的风险。 目前,多变量信用风险判别模型是在国际上应用最有效的,也是国际金融业 和学术界视为主流的方法。概括起来有线性概率模型、h 西t 、p r o b i t 模型和判别 分析模型。其中多元判别分析法最受青睐,该方法的开拓者是美国的爱德华阿 尔特曼,他在1 9 6 8 年建立著名了“z a t a 判别分析模型,并且已经商业化,广 泛应用于美国商业银行和世界各国金融机构【1 ,2 】。 随着资本市场的迅速发展,信用风险的复杂性业也日益显著。为了适应资本 市场的快速变化,许多信用风险指标体系也随之建立起来。国际上,测量公司信 用风险指标中最为常用的是该公司的信用评级。这个指标简单并易于理解。例如, 穆迪公司对企业的信用评级即被广为公认。该公司建立的k m v 模型利用被评级 公司的财务和历史情况分析,对公司信用进行从a a a 到c c c 信用等级的划分【2 1 。 a a a 为信用等级最高,最不可能违约。c c c 为信用等级最低,很可能违约。 对于企业而言,学会避免坏的客户( 并且注意到好的客户大约要变坏的时间) 与留住好的客户同样重要。建立科学的客户信用评估指标体系,应用定量分析技 术进行信用风险的管理,构建一个适用的信用风险评估模型,可以预测谁将拖欠 货款,改进回收资金机制,有利于减少因客户的违约行为给企业造成的损失【3 】。 目前,国际上比较广泛使用的信用评估模型包括统计分析模型、神经网络模型、 决策树模型和遗传算法模型,这些模型都是基于机器学习技术的。本文引进了机 中山大学硕士论文基于支持向量机技术的信用风险评估模型研究 器学习理论中的支持向量机( s u p p o nv e c t o rm a c h i n e ,s v m ) 技术,构建了适用于 客户信用风险评估的机器学习模型。 1 1 2 机器学习技术与信用风险评估 机器学习的定义有多种形式,目前较为广泛的定义是: 定义1 1 ( 机器学习) 对于某类任务t 和性能度量p ,如果一个计算机程序 在t 上以p 衡量的性能随着经验e 而自我完善,那么我们称这个计算机程序从 经验e 中学习【4 】。 机器学习从不同的学科吸收概念,包括人工智能、概率和统计、计算复杂性、 信息论、心理学和神经生物学、控制论以及哲学。机器学习算法在很多应用领域 被证明很有实用价值。它们在以下方面特别有用:( a ) 数据挖掘问题,即从大量 数据中发现可能包含的有价值的规律,例如生物d n a 信息挖掘;( b ) 在某些困 难的领域中,人们可能还不具有开发高效算法所需的知识,例如人脸识别;( c ) 计算机程序必须动态地适应变化的领域,例如生产过程控制【4 】。 一个完整定义的学习问题需要一个明确界定的任务、性能度量标准以及训练 经验的来源。机器学习算法是解决学习问题的过程,需要选择训练经验的类型、 要学习的目标函数、该目标函数的表示形式以及从训练样例中学习目标函数的算 法。学习的过程实质上是一个搜索的过程,搜索包括可能假设的空间,使得到的 假设符合已有的训练样例和其他先验知识的约束,即得到最佳拟合的假设【4 】。 利用机器学习技术构建信用风险评估模型,就是对机器学习提出这样一个问 题:给定一个客户信用历史数据库,要求学习一个最佳的函数假设,这个函数能 够最佳拟合给定的训练样例,区分信用好和信用差的客户,并且能够以尽可能高 的准确率预测客户违约行为。 研究客户信用样例可以发现,信用好的样例数目与信用差的样例数目是不平 衡的,而且,错分一个信用好的样例与错分一个信用差的样例,对企业造成的损 失也是不平衡的,机器学习目标是拟合一个最优的分类函数使得结构风险最小 化,帮助企业进行有效的信用风险评估,最小化因信用问题给企业带来的损失。 本文将该学习问题归结为样本数目及误分损失不平衡的分类问题。 2 中山大学硕上论文基于支持向量机技术的信用风险评估模型研究 1 1 3 支持向量机技术现状分析 支持向量机是在高维特征空间使用线性函数假设空间的学习系统,它由一个 来自最优化理论的学习算法训练,该算法实现了一个由统计学习理论导出的学习 偏置。此学习策略由v a p n i k 和他的合作者提出,是一个准则性的并且强有力的 方法。在它提出后的若干年来,在范围广大的应用中,s v m 的性能胜过其他大 多数的学习系统【5 1 。 支持向量机是机器学习领域若干标准技术的集大成者。它集成了最大间隔超 平面、m e r c e r 核、凸二次规划、稀疏解和松弛变量等多项技术【5 】。支持向量机 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并且能够 推广到函数逼近和概率密度估计等其他机器学习问题中。 目前,支持向量机算法在模式识别、回归估计、概率密度函数估计等方面都 有应用。在若干挑战性的应用中,例如在模式识别方面,对于手写体识别、语音 识别、人脸识别、文本分类等问题,支持向量机获得了目前为止最好的性能【6 】。 支持向量机技术已经应用到生物学、医学、金融学、信息学、图形学等学科 领域当中,它是建立在一套坚实的理论基础之上的,能够解决传统算法不能解决 的许多问题。基于支持向量机技术构建信用风险评估模型,是切实可行,而且行 之有效的方法【7 ,8 】,本文后述章节的实验进行了验证。 1 2 主要研究工作和创新点 1 2 1 创新点 ( 1 ) ( 2 ) ( 3 ) 研究了信用数据的特点,把信用分类问题归结为不平衡类的问题,其中 包括样本数目和误分损失程度的不平衡,信用差的样本误分损失大于信用 好的,信用差的样本数目小于信用好的样本数目。 提出改进的基于不同惩罚值c s v m 信用评估模型,提出了新的c 取值方法, 提高了负类的预测准确率,降低了整体误分损失。 提出了改进的基于聚类分块的s v m 信用评估模型,较好地解决样本数目不 平衡的问题,提高了分类模型的训练及预测的效率,提高了模型的预测准 3 中山人学硕十论文基于支持向量机技术的信用风险评估模型研究 确率,对于有局部聚集特性的数据集十分有效。 ( 4 ) 提出了双层的o n e c l a s ss v m 信用评估模型,结合负类增量式o n e - c l a s s s v m 模型和正类o n e c l a s ss v m 异常检测模型,有效解决样本数目严重不 平衡,甚至只有一类训练样本的分类问题。 1 2 2 研究工作 ( 1 ) ( 2 ) ( 3 ) ( 4 ) 实验过程中应用了实际项目中的某市供电局用电客户信用数据,并对其进 行了数据残缺处理,噪音处理,以及应用属性选择技术提取出质量较好的 数据。 利用处理好的数据,分别对本文提出的三个基于支持向量机技术的信用评 估模型进行了实验,得到了令人满意的结果。 模型的训练过程中使用了参数选择技术,利用分类性能评判标准,训练得 到了性能较好的分类模型。 提取了著名的l i b s v m 开源软件的核心算法,在此基础上开发了有实用价 值的软件工具,使得本文的三个模型能够满足实际应用的要求。 1 3 论文组织结构 第1 章,引言,介绍了本文的研究背景,指出企业信用风险评估的重要性, 论述了机器学习及支持向量机技术的研究现状,并概括了本文的创新点和主要研 究工作。 第2 章,机器学习的相关理论及研究,介绍了本文涉及到的数据预处理,属 性选择,聚类算法,增量式机器学习模型和不平衡类问题,以此作为以后章节的 模型构建和实验分析的基础。 第3 章,s v m 相关理论及研究,介绍了s v m 的理论基础,包括统计学习理 论,最优化理论及核理论,论述推导了这些理论支持下的最大间隔分类器, c s v m 和o n e c l a s ss v m 。 第4 章,基于s v m 技术的信用风险评估模型,提出了改进的基于不同惩罚 值的c s v m 模型,改进的基于聚类分块的s v m 模型和o n e c l a s ss v m 双层模 4 中山大学硕士论文基于支持向量机技术的信用风险评估模型研究 型,并对上述模型作了理论分析和应用说明。 第5 章,s v m 模型对信用数据的风险评估实验及结果分析,利用用电客户 信用数据,分别对三个信用风险评估模型进行实验,比较分析了实验结果,证实 模型的有效性,并做了相应的数据研究和程序开发,使模型可以实际应用。 第6 章,总结与展望,总结了本文的研究成果,展望模型的应用前景和后续 研究的开展。 5 中山人学硕上论文基于支持向量机技术的信用风险评估模型研究 第2 章机器学习相关理论及研究 2 1 数据预处理 2 1 1 相关概念 在现实世界中,数据集的存在,往往是不完整的、有噪音的和不一致的。数 据预处理是通过数据清理、数据集成和变换、数据归约的方法,对原始数据进行 加工处理,使之变成高质量的数据,进而提高机器学习的质量,缩短学习所需的 时间。 数据清理( d a t ac l e a n i n 曲,是填充空缺值,平滑数据,找出孤立点并纠正数据 的不一致性的过程。 数据集成( d a t ai n t e 孕a t i o n ) ,是将来自不同数据源的数据整合成一致的数据存 储的过程。 数据变换( d a t at r a n s f o 珊a t i 彻) ,是将数据转换成适合于机器学习的数据形式 的过程。如:数据的规范化,其相关方法将在下文论述。 数据归约( d a t ar e d u c t i o n ) ,是利用数据立方体聚集、维归约、数据压缩、数 值归约和离散化技术,将数据压缩表示的过程【9 】。 2 1 2 数据规范化 将属性数据按照比例缩放,使之落入一个小的特定空i 白j 中,称为数据的规范 化【9 】。规范化的方法如下: 最小最大规范化,对原始数据进行线性变换,由下式计算: 山羔兰 ( m a x 4 _ m i n ) + m i n a ( 2 1 ) m a x 4 一m m 4 、 其中p m i n 爿,m a x 爿 ,v m i n 爿,m a x - ,( 2 1 ) 式将属性彳的值 ,从区间 m i n 一,m a x 彳 映射到目标区间 m i n 爿,m a x - 中的v 【9 】。本文第五章实验分析中, l i b s v m 工具使用该方法,将数据规范化映射到【0 ,1 】或者【一1 ,1 】空间中。 6 中山大学硕上论文基于支持向量机技术的信用风险评估模型研究 z - s 砖规范化( 零- 均值规范化) ,属性a 的值基于a 的平均值和标准差规 范化,由下式计算: 幽詈 ( 2 - 2 ) 其中,么和吼分别表示属性a 的平均值和标准差,a 的值y 被规范化为 ,。 当属性a 的最大和最小值未知,或者孤立点影响了最大最小规范化是,该方法 是有用的【9 】。 小数定标规范化,通过移动属性a 的小数点位置进行规范化,小数点的移 动位数依赖于a 的最大绝对值,由下式计算: 山击 ( 2 - 3 ) 其中,是使得m a x ( 卜,1 ) 1 的最小正整数,a 的值y 被规范化为y 【9 】。 范数规范化,与上述三种方法不同,该方法是对于一条记录数据的规范化方 法,由下式计算: ,:一 u ,f = 1 ,2 ,刀 ( 2 4 ) 其中,l 为该记录属性的个数,u 对应第f 个属性的值, ,:是吩的映射值。 2 2 属性选择方法 属性选择方法,是机器学习的一种自动的属性选取方法,通过使用某种评价 标准和搜索策略将已知数据集中的属性数目减少,其目的在于优化分类模型,选 择最合适的属性训练决策函数。文献【1 0 1 3 】对特征选择方法做了深入的研究。 属性选取可以通过人工选择,基于决策者对于学习问题的理解和属性的含 义,做出符合经验和逻辑的属性选取,但是缺点是选择依赖于决策者的知识经验 和主观喜好,可能遗漏潜在有用的属性。自动选择方法,基于统计学习理论,搜 索具有高分辨能力的属性,是一种定量的分析方法。通过属性选择,有效降低了 数据的维数,改善了学习算法的性能,提高学习速度,更重要的是,维数降低能 7 中山人学硕上论文基于支持向量机技术的信用风险评估模型研究 形成一个更为紧凑的、更容易理解的目标概念表达方式,使决策者的注意力集中 在最为相关的变量上【1 4 】。下面介绍几种具有代表性的属性选择方法。 r e l i e 腰方法( r e d ,评价单个属性能否辨别相互紧邻的样本。有判别能力的 属性具有的特点是:对相邻的来自不同类别的样本,属性取值差别大;而对每个 相邻的来自同一类别的样本,属性值相同或相近。量化计算公式如下: 脚:狴坚一 仫5 , 其中,4 表示属性对象,万表示从样本集中随机抽取的样本数,足是第f 次抽 取的样本,口是r 最紧邻的来自不同类别的样本,s 是足最近邻的来自相同类 别的样本,嘶( 彳,毒,木) 表示两个样本对于属性彳的取值之差【1 5 】。 信息增益法( e n t r o p y ) ,该方法删除信息量较少的属性,收集信息量较多的属 性。信息增益基于概率统计的方法量化属性所含有的信息量,其信息值计算方法 如下: ,( _ ,s :,毛) ;一妻詈t 。g 詈 ( 2 - 6 ) 其中,l 表示样本类别数目,s 是样本总数,墨是c f 类样本的数目,任意一个样 本属于c i 类的概率为昱,表示一个给定样本分类的期望信息值。 s 设属性a 含有y 个不同值 口。,口:,q ) ,可将数据集s 划分为v 个子集 s ,s :,s ,) ,根据a 对s 的划分可用以下公式计算a 的熵( e n t r o p y ) : e ( 彳) 。骞等等小一) ( 2 7 ) 其中包含c f 类的个样本。然后我们得到信息增益的如下定义: g 口伽( 彳) = ,( s 。,s :,s 。) 一e ( 彳)( 2 8 ) 在实际应用中,我们还会结合属性的对称不定性( s y m m e t r i cu n c e r t a i n t y ) 来衡 量属性之间的相关性关系,从而选择最具代表性的属性: 8 中山人学硕士论文基于支持向量机技术的信用风险评估模型研究 u ( 伽) ;2 坐甓墨罴业 ( 2 9 ) 、? h 【a 、h ( b 、 。叫。 其中,日是( 2 7 ) 式的熵函数,日,b ) 是a 和b 的联合熵,由a 和b 的所 有组合值的联合概率计算得出【9 ,1 4 】。 f s c o n 方法,是计算单个属性对于两类样本集的区分度的计量方法。给定 正、负两类样本,第f 个属性的f s c o r e 计算公式如下: 砷卜烈w 志黔嚣) 2 + 矗黔剖2 吐叫 其中,乏,嚣”,嚣一分别为全体、正类、负类样本第f 个属性的平均值,: ( 或i ) ) 是第七个正( 或负) 类样本的第f 个属性的值。公式表明,f - s c o r c 的 值越大,该属性识别正负类的能力也就越强【1 3 】。在实际应用中,我们一般选择 f - s c 0 r e 值高的属性。在本文的实验分析章节中,使用了该方法作为属性选择的 标准。 2 3 聚类算法 2 3 1 聚类概述 聚类( c l u s t e 由酚就是将数据对象分组成多个类或簇( c l u s t e r ) ,在同一个簇中的 对象之间具有较高的相似度,而不同簇中的对象差别较大【9 】。 在机器学习领域,聚类是无指导学习( u n s u p e r v i s e dl e a m i n 曲的一个例子,与 分类不同,聚类和无指导学习不依赖预先定义的类和带类标号的训练实例。实例 之间的相异度是根据属性值计算的,距离是经常采用的度量方式,主要包括欧几 里德距离,曼哈坦距离,明考斯基距离,等。 聚类分析可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特 点,从而集中对特定的某些簇做进一步的分析。在很多情况下,聚类分析也可以 作为其他算法的预处理步骤,这些算法在生成的簇上在进行处理。聚类是数据挖 9 中山人学硕上论文基于支持向量机技术的信用风险评估模型研究 掘中的一个活跃的研究领域,许多聚类算法已经被开发出来,具体可以划分为划 分方法( p a r t i t i o n i n gm e t h o d ) ,层次方法( h i e r a r c h i c a lm e t h o d ) ,基于密度的方法 ( d e n s i t y - b a s e dm e t h o d ) ,基于网格的方法( 鲥d - b a s e dm e t h o d ) ,以及基于模型的方 法( m o d e l - b a s e dm e t h o d ) 【9 】。 2 3 2 距离的度量 欧几里德距离是最常用的距离度量方法,它的定义如f : d ( 鼍,x ,) = 如。一。1 2 + l 鼍:_ :1 2 + + k 一1 2 ( 2 - 1 1 ) 这里的薯= ( 薯。,气:,) 和z j = ( x x 膨,x 扫) 是两个p 维的数据对象。 曼哈坦距离是另一个著名的度量方法,其定义如下: d ( 鼍,x ,) = l 鼍。一石,。i + i 薯:一石,:i + + l 一x 扫i ( 2 1 2 ) 上面的两种距离度量方法都满足对距离函数如下数学要求: 1 ) d ( 毛,z j ) o :距离具有非负性; 2 ) d ( 而,鼍) = o :到自身的距离为o ; 3 ) d ( 五,z ,) = d ( 石,乇) :距离函数具有对称性; 4 ) d ( 鼍,_ ) s d ( 五,屯) + d ( ,x ) :距离三角不等性。 明考斯基距离是欧几罩德距离和曼哈士日距离的概化,它的定义如下: d ( w 小嘛_ 。i 口+ | 焉:一t :卜+ k 飞咿 ( 2 - 1 3 ) ,、 这里的g 是一个j 下整数。当g = 1 时,它表示曼哈坦距离,当g = 2 时表示欧几里 德距离。 如果对每个变量根据其重要程度赋予一个权值,加权明考斯基距离计算如 下: d ( t ,z ,) ;( 嵋j 蕾。一蛳r + k :一石,:1 9 + + k 一勃1 4 卢 ( 2 1 4 ) 加权距离也可以用于欧几罩德距离和曼哈坦距离【9 】。 本文实验分析章节的聚类处理是使用权值m = 1 的欧几罩德距离。 1 0 中山大学硕上论文基于支持向量机技术的信用风险评估模型研究 2 3 3 聚类的方法 划分方法,首先得到初始的七个划分的集合,这里的参数k 是要构建的划分 的数目;然后采用迭代重定位技术,试图通过将对象从一个簇移到另一个簇来改 进划分的质量。有代表性的划分方法包括七均值,肛中心点,c i a r a n s ,和对 它们的改进算法【9 】。 层次方法,创建给定数据对象集合的一个层次性的分解。根据层次分解的形 成过程,这类方法可以被分为凝聚( 自底向上) 的,或分裂( 子顶向下) 的。为 了弥补合并或者分裂的严格性,凝聚的层次方法的聚类质量可以通过分析每个层 次划分中的对象链( 例如在c u i 也和c h a m e l e o n 中) ,或集成其他的聚类技术( 例 如迭代重定位,如在b i r c h 中) 来改进【9 】。 基于密度的方法,根据密度的概念来聚类数据对象。它或者根据邻域对象的 密度( 例如d b s c a n ) 、或者根据某种密度函数( 例如d e n c u j e ) 来生成聚类。 o p t i c s 是一个基于密度的方法,它生成数据聚类结构的一个扩充的顺序【9 】。 基于网格的方法,首先将对象空间量化为有限数目的单元,形成网格结构, 然后在网格结构上进行聚类。s t i n g 是基于网格方法的一个有代表性的例子, 它基于存储在网格单元中的统计信息聚类。c u q u e 和w a v e c l u s t e r 是两个既基 于网格、又基于密度的聚类方法【9 】。 基于模型的方法,为每个簇假设一个模型,发现数据对模型的最好匹配。有 代表性的基于模型的方法包括统计学方法( 例如c o b w e b ,c i a s s i t 和 a u t o c l a s s ) ,或者神经网络方法( 例如有竞争学习和自组织特征图) 【9 】。 以上所提到的算法例子的具体描述,请参阅参考文献【9 】。这里重点介绍本 文第四章的评估模型所使用的七均值聚类算法。 2 3 4k 一均值聚类算法 七一均值( k - m e a n s ) 是经典的、基于质心技术的算法。首先,随机选取七个对象 作为初始质心,其中七是用户指定的参数,即期望的簇的个数;其余每个样本点, 根据其到质心的距离,指派到最近的质心,重新计算平均值更新质心。这个过程 不多重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下: 中山大学硕十论文 基于支持向量机技术的信用风险评估模型研究 e ,:| ;荟l p 一1 2 ( 2 - 1 5 ) 这里的e 为所有样本对象的平方误差总和( s u mo ft h es q u a r e de r r o r ) ,p 是空间中 的点,表示给定的数据对象,弧是簇e 的平均值( p 和肌;都是多维的) 。这个准 则试图使生成的结果簇尽可能地紧凑和独立。算法2 1 给出了缸均值算法的过程 概述,图2 1 概述了算法的迭代过程。 算法2 1 :七均值算法 任意选取七个对象作为初始质心; r e p e a t 将每个样本点指派到最近的质心,形成七个簇; 更新质心,即重新计算簇中所有样本点的平均值; u n t i l 质心不发生变化。 图2 - 1 基于七一均值方法的一组样本聚类( 质心在图中用“+ ”标注) 这个算法尝试找出是平方误差函数最小的七个划分。当结果簇是密集的,而 簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩 的和高效率的,因为它的时间复杂度为d 伽刎,其中,l 是所有样本的数目,七 是簇的数目,f 是迭代的次数,空间复杂对度为d 似+ 助v ) ,v 是样本的维数,通 常,七 o ,对于许多误分的训练实例( 即满足皇 o ) ,拉格朗同 乘子肛= 0 【5 ,1 7 ,1 8 】。 对公式( 3 1 5 ) 关于w ,6 和岛求一阶导数,得到如下对偶形式: 弗 +一 i 6+ o 呵 , w , oo 中山人学硕上论文基于支持向量机技术的信用风险评估模型研究 旦! 尘詈手塑堕一w 一砉q 咒毫= 。 dw 旦兰! 裂;一芝q y ;。o ( 3 3 8 ) 一= 一,z v _ i - :- : l a 6 白“ 、- 一7 掣;c q 一以:o 将( 3 3 8 ) 代入( 3 - 3 6 ) 中得到如下的对偶拉格朗日算子: l ( 呐口) = 丢麓m 峨( 一c 砉最 一喜q 咒( 喜口,y ,( 毛,z ,) + 6 ) 一1 + 毒】一砉( c q ) 毒 c3 - 3 9 , 2 善q 一言。善m ( ) 我们注意上述结果与线性可分s v m 的对偶拉格朗日算子( 3 - 3 1 ) 相同。但是, 公式( 3 - 3 8 ) 表明,线性不可分s v m 的拉格朗日乘子。量q c 一肫sc ( 肫乏o ) , 不同于线性可分s v m 的限制条件0 s q 。 m a x 形( 口) 2 善q 一去善y 岍口如一) 眠 多y 觑;o ( 3 。4 0 趸 0 s 口,s cf = 1 ,2 ,疗 得到最优参数q ,结合( 3 - 3 7 ) 的汀条件,最后得到如下决策边界: 小巾) = s 咖( ;| ;幽( ) + 6 ) ( 3 训) 3 2 1 4 非线性可分s v m 通常,对于线性不可分的训练数据,可以用上一节论述线性不可分s v m 解 决,也称为线性软间隔s v m 。另外,在这罩介绍另一种分类方法,称为非线性 可分s v m ,也称为非线性硬问隔s v m 【1 7 ,1 8 ,2 3 】。 考虑如图3 - 5 ( a ) 所示的分类问题,记训练集集丁= ( 薯,y ,) ,f = 1 ,2 ,l ,其 中j c f = ( 【鼍】,【引:) ,y ; 一1 ,1 。直观上,一个比较合理的划分是该平面上的一个椭 ,r 中山大学硕二 :论文 基于支持向量机技术的信用风险评估模型研究 圆 其中【w 】1 ,【w 】:,6 是常数。 【w 】。p 并“w 】:陋】;+ 6 一o( 3 4 2 ) - p j 2 oo 2 一、二d 一一 一弋。o 沁 一哌【二 一一一一o 。o 图3 5 非线性空间到线性空间的映射 通过映射 叫蹬二盛 伶4 3 , 所有的训练样本落在如图3 - 5 ( b ) 的特征空间上,于是,可以得到一条直线 【w 】l b 】l + 【w 】:【硅+ 6 = o ( 3 4 4 ) 即一个线性可分的s v m 【1 8 】。 基于上述思想,s v m 的学习任务可以归结为如下的二次规划问题: 幽峥2 ,刀 洚4 5 , 2 f = 1 ,2 ,lf3 4 51 豇y ;( ( w 驴“) ) + 6 ) 一1 o 参照上述线性s v m 的解法,得到如下决策边界: 小巾+ ) = s 劬( 骞幽湫砂灿) ( 3 - 4 6 ) 根据3 1 节的核理论,( 3 4 6 ) 的决策边界可写成如下形式: 小巾) = 咖( 扣y 艇) ( 3 印) 中山大学硕十论文基于支持向量机技术的信用风险评估模型研究 3 2 2c s v m c 支持向量分类器也称为非线性软间隔支持向量机分类器,文献对 【5 ,1 8 ,2 1 ,2 4 】c - s v m 做了深入研究。c s v m 中的参数c 是惩罚因子,起到控制对 错分样本惩罚程度的作用,实现在错分样本的比例和算法复杂度之间的折中。 c s v m 对应的最优化问题描述如下: 呀n 壹善再咒y ,q 倥,k ) 一再口, 豇窆y 舻0 , 3 删 0s a fsc ,f = 1 ,刀 求解上述各个系数,得到最优分类函数为: 巾卜忉( ;| ;西咒骗小矿) ( 3 - 4 9 ) c s v m 是一个最常用的分类方法,它与前面介绍的几种分类器的逻辑关系 如图3 6 所示。它是线性软间隔分类器和非线性硬间隔分类器的综合应用,故也 称之为非线性软间隔支持向量机【1 8 】。 线性硬间隔s v m ( 线性可分s v m ) 线性软间隔s v m ( 线性不可分s 订) 非线性硬间隔s v m ( 线性可分s v m ) 非线性软间隔s v m ( c s v m ) 图3 - 6 各种s 分类器的关系 c s v m 的惩罚因子c 能够调节学习机器的置信风险和经验风险的比例,使 得学习机器的推广能力最好。它的选取一般由具体的问题而定,并取决于数据中 的噪音数量。在确定的特征子空间中,c 的取值小表示对经验误差的惩罚小,学 习机器的复杂度小而经验风险较大;如果c 取无穷,则所有的约束条件都满足, 这意味着对训练样本必须准确地分类。每个特征子空问至少存在一个合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乐理考试题听力及答案
- 2025年中国沙发绳数据监测研究报告
- 口腔影像考试题及答案
- 课件时间进度
- 开平话考试题及答案
- 2025年教师招聘之《小学教师招聘》通关练习试题及答案详解(名校卷)
- 军事投弹考试题及答案
- 菊花台考试题及答案
- 静脉知识考试题及答案
- 汽车冲压生产线操作工理念考核试卷及答案
- 设计总监升职述职报告
- JJF 2203-2025水质毒性分析仪校准规范
- 施工安全教育内容
- 电信人工智能学习考试题(附答案)
- 肝门部胆管癌诊断和治疗指南(2025版)解读课件
- 急诊危重症患者转运专家共识解读课件
- 《发芽小麦粉气流分级产品及其面筋蛋白品质的研究》
- 2025年危险化学品经营单位主要负责人安全生产全国考试题库(含答案)
- 青岛版五四制科学五年级上册科学学生活动手册参考答案
- 社区街道网格员安全培训
- 村卫生室医疗废物管理制度
评论
0/150
提交评论