




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 生 毕 业 设 计 论 文诚信承诺书 1.本人郑重地承诺所呈交的毕业论文(设计),是在指导教师的指导下严格按照学校和学院有关规定完成的。2.本人在毕业论文(设计)中引用他人的观点和参考资料均加以注释和说明。3. 本人承诺在毕业论文(设计)选题和研究内容过程中没有抄袭他人研究成果和伪造相关数据等行为。4. 在毕业论文(设计)中对侵犯任何方面知识产权的行为,由本人承担相应的法律责任。 毕业论文(设计)作者签名: 年 月 日浙江工商大学杭州商学院本科毕业论文摘要摘要随着我国经济的快速发展,银行的信贷业务不断扩大,给银行带来收益的同时也带来了一定的风险。消费者信用风险评估是金融与银行界研究的重要内容。最近的研究显示统计学习理论方法在信用评估中具有明显的优势。本文主要对统计学习理论方法中的一种新方法支持向量机方法进行实证研究。本论文运用实证分析和定量分析的研究方法,首先从分析当前我国信用相对薄弱的现实出发,分析国内外在该领域内的研究现状,比较神经网络、决策树、判别分析等信用评估方法的优缺点,重点描述支持向量机方法的基本理论,然后利用两组实际数据集(德国、澳大利亚数据集)对SVM方法进行实证研究,得出结论。为了达到更高的预测分类能力及保证可靠性,实验中使用交叉验证的方法来寻找不同核函数的最优参数。最后提出结论,为以后的进一步研究提供依据。关键词数据挖掘、支持向量机、信用评估、预测分类、核函数IV浙江工商大学杭州商学院本科毕业论文AbstractAbstractWith the rapid development of our economy, the bank credit business expands unceasingly,which brings great profits and also brings certain risks.Consumer credit risk assessment is a important content in financial and banking research. Recent research shows that method of statistical learning theory has obvious advantages in credit scoring. This paper chooses a new method of the statistical learning theory methodsSVM.This paper uses empirical analysis and quantitative analysis research methods firstly analyzing the relatively disadvantages of our current credit scoring and the current situation both at home and abroad.Then it describes the advantages and disadvantages of other credit evaluation method,such as neural network,decision trees and discriminatory analysis.The most important part is the basic theory of support vector machine method.At last,it uses two groups of actual data set (Germany, Australia datasets) to demonstrate SVM and draws a conclusion. In order to achieve higher classification accuracy rate and ensure reliability, this experiment uses a cross-validation method to find different kernel functions and optimal parameters. Finally it puts forward a conclusion to lay the foundation of further research.Keywords Data mining、Support vector machine、Credit Scoring、Classified prediction、Kernel function浙江工商大学杭州商学院本科毕业论文目录摘要IAbstractII目录III第1章 绪论11.1 课题背景11.2 研究现状11.3 研究意义21.4 研究内容与步骤2第2章 数据挖掘与信用评估42.1 信用评估简介42.1.1 信用评估概念42.1.2 信用评估特点52.2 数据挖掘技术在信用评估中的应用62.3 信用评估方法72.3.1 神经网络方法72.3.2 决策树方法82.3.3 判别分析方法8第3章 支持向量机概述103.1 支持向量机简介103.2 支持向量机的基本思想103.3 核函数12第4章 信用评级的实证研究134.1 实验数据集134.2 实验数据处理134.3 实验分析与结果19第5章 总结与展望225.1 总结225.2 展望22参考文献23致谢25浙江工商大学杭州商学院本科毕业论文第1章 绪论第1章 绪论1.1 课题背景近年来,随着我国市场经济和金融改革的不断深化,还有电子商务的高速发展,使得我国的消费信贷行业向前迈进了很大的一步。商业银行作为国民经济的“总枢纽”和金融信贷中心,发挥着融通资金、引导资金流向和调节社会供需平衡等诸多不可替代的重要作用。然而,商业银行在营运过程中无时无刻不面临着各种金融风险,其中,信用风险占有特殊的重要地位。而信用评估作为研究揭示信用风险的专业手段,尤其是全球金融危机爆发以来,越来越多的国家开始认识到信用评估对维护国家金融安全的重要性。我国经济目前正处在由“市场经济”向“信用经济”升级的过程之中,如何尽快让信用评估成为我国金融市场有效地风险提示工具,让市场进一步关注信用风险,并认识到信用评估的真正价值,对于推动我国国民经济持续健康发展和社会进步是必要的。因此,信用评估体系的建设和完善已经势在必行。1.2 研究现状在西方,信用评估已有100多年的发展史,商业银行的信用风险评估技术己经比较成熟,许多定量技术和支持工具、软件已付诸于商业应用。现代统计方法得到了广泛的应用,如判别分析法和Logistic回归等。从20世纪90年代末期以来,人工智能技术如神经网络、决策树也被应用到商业银行的信用风险管理中,很多量化评估和应用量化评估的模型已经得到公认。而在我国,信用评估业近几年才有所发展,信用风险的评估和管理研究技术较为落后,特别是客户信用分析与评估技术仍处于传统的比例分析阶段。虽然进行了各种积极的尝试,但是我国银行业在信用评估模型的建立和应用方面仍处于起步阶段,对各种方法建立的个人信用评估模型的准确性和适用性研究还有待深入。此外,我国缺乏健全的对信贷标准进行约束的法律法规,各个银行的信贷评估方法与数据都相对独立,不利于信用评估方法的发展。而且也缺乏一套权威有效的信用评估模型,以致于市场上产生了各种各样的信用评估模型,模型的多样性还导致了数据集的预测精度不断变化,给银行带来了很大的风险。1.3 研究意义目前,银行信贷人员对客户贷款的考察评估基本上是经验判断式的。从银行的实际看,信贷人员知识层次不一,业务素质参差不齐,而且人员变动比较频繁,熟悉客户和有管理经验的信贷人员不足。在这种情况下,建立个人信用评估模型无疑给信贷人员提供了一个比较简便、科学的贷款审查评判方法,从而有利于提高信贷管理水平,降低银行与客户的经济纠纷和债权债务的经济恶性案件发生的概率,有利于国家宏观调控政策的贯彻实施,同时创造一个良好的市场经济运行秩序,推动社会的经济发展。信用评估在我国市场经济的发展中起着至关重要的作用,一方面可以发展消费信贷、扩大内需,另一方面可以扩大投资规模,提供创业机会,尤其是对银行来说,更是非常必要的。多年来中国经济持续稳定发展,市场竞争日益激烈,最大限度地确定对客户的信用政策,是企业竞争的有效手段之一。深入研究银行信用风险评估的智能算法,运用有关算法对客户的相关信息资料进行分析,预测客户的信用等级,并施以不同的信贷策略,不但可以提高分类准确率,从而提高对贷款决策的科学性和准确性,规避银行贷款的风险,而且可以有效地节省大量的成本,从而提高盈利能力,使得我国银行业能够在激烈的国际竞争环境下,处于不败之地。1.4 研究内容与步骤本文对基于支持向量机的银行信用风险评估智能算法进行实证研究,首先要了解支持向量机的基本思想,确定哪些参数对分类结果会产生影响。第二步,寻找公开有效的数据集(最好选两组差别较大的数据集)和数据挖掘软件,并且熟悉数据集和数据挖掘软件的运行环境。基于银行数据的保密性,难以找到国内的有效数据集,因此选择应用较多的国外数据集,而数据挖掘软件则选用常用的Weka(怀卡托智能分析环境)软件。第三步就是处理数据集,把数据转换成Weka软件可运行的ARFF(Attribute-Relation File Format)文件,并通过不断地选择合适的核函数及调整有关参数,本次实验分别以线性核函数,多项式核函数,径向基核函数等分别进行验证,找到最优决策分类面。根据最优分类面评估申请者的信息,得出评价结果。第四步是以运行结果为依据,探讨参数调整对分类准确度的影响,得出自己的结论。最后根据实验中遇到的问题或者困难,提出本文未能解决的问题,分析我国信用评估业的不足并提出自己的见解。25浙江工商大学杭州商学院本科毕业论文第2章 数据挖掘与信用评估第2章 数据挖掘与信用评估2.1 信用评估简介信用评估的出现最早可以追溯到19世纪上半叶的美国。当时,美国出现了债券融资市场,政府、企业通过债券市场频繁地发行债券筹集大量资金。与此同时,很多债券出现了偿付违约,债券投资者损失惨重,市场开始对与债券违约有关的信息的收集与分析产生了强烈的需求。为顺应这种需求,信用评估也继而产生。中国的信用评估行业诞生于20世纪80年代末,虽然经过了20多年的发展,但由于市场经济体制还处于完善阶段,信用评估的发展也并不顺利。尽管如此,一些评估机构还是在社会各方面的支持下乘风破浪,在评估业绩和评估理论研究方面取得了很大进展。经过多年的研究、学习、模仿、实践和提高,目前我国主要评估机构的评估理念、评估方法、评估程序等基本与国际惯例接近,总体来说,我国的评估业已初具规模,可以承担继续发展我国信用评估业的重任。尽管我国的信用服务体系建设和信用评估业已经走过了二十多年的发展历程,但与我国的市场经济发展进程和经济发展阶段相联系,我国信用评估也总体上还处于初始发展阶段,存在着很多的问题,诸如:、社会信用观念不强,法制不够健全,信用评估的相关立法工作明显滞后,未能形成有效的监管体系,使得我国信用风险防范与承担机制存在缺陷,这是信用评估业发展的最大障碍。、主要评估机构的主导地位不稳定,还没有产生具有市场影响力的权威评估机构。只有随着评估市场的发展,评估机构的地位被市场认可,产生具有市场影响力的权威评估机构,我国信用评估业才能走向成熟。、我国的信用评估业起步较晚,评估方法不成熟,评估标准的科学性也有待改善,国际竞争力不高因此,信用评估系统的建立与统一势在必行。2.1.1 信用评估概念信用评估,指信用评估机构根据客户的信用历史资料,综合考察个体客户的内外客观原因、微观环境,包括经济、金融、司法、社会、工商、财产等过程在内的所有信息,使用一定的信用风险评估模型,对客户履约各种承诺能力和信誉程度进行全面评价,并用简单明了的符号或文字表达出来,给客户评以不同信用等级,然后根据客户的信用等级,信用评估机构可以决定是否准予授信以及授信的额度和利率。从概念上讲,信用评估就是利用消费者过去的信用表现来预测他未来的信用行为,如图2-1所示。图 2-1 信用评估概念示意图72.1.2 信用评估特点作为一种研究信用风险的信息服务产品,信用评估具有极其特殊的内涵。、时间性任何一家授信机构在对特定的借款客户进行评估时,都是针对客户特定时期、甚至特定债务所表现出来的信用可靠性及履约实力进行分析,同一个客户在不同的生存发展阶段所表现出来的信用可靠性及履约实力是不同的,虽然授信机构非常看重客户长期形成的信用品质特征,但在特定的生存环境下,客户所表现出的信用风险特征仍会有阶段性差异,因此,信用评估是有时间性的。、前瞻性众所周知,信用风险是一种与信用有关的未来事件的不确定性以及由此可能带来的损失,而信用评估是对未来可能发生的时间发生的可能性以及发生后的严重损失的判断,显然具有前瞻性。不管是企业还是个人,其经营环境时刻都在变化,影响其信用风险的因素也是时时刻刻地变化着的,信用评估一般是在债务尚未发行或者债务尚未到期、客户特定债务到期能否偿付仍受诸多不确定的因素的影响时进行,此时,客户表现出来的信用特征是历史的积淀,当年的表现,不完全包括未来行为的肯定要素,并不能保证未来信用表现肯定的结果。过去、今天的信用品质与实力,并不代表明天、未来的信用品质与实力。否则,信用就不会有风险,没有信用风险,也就没有信用损失,信用评估也就失去了它所存在的意义。信用评估是一种预测,是基于借款客户目前的信用实力、过去的信用历史记录推断其未来的信用行为表现。、科学性信用评估的核心是对借款客户的信用品质和还款能力的分析,而对客户的历史信用记录以及目前的信用实力的分析需要运用可靠的数学统计方法,同时在分析影响因素时,需要运用各种经营、财务指标与数据的计算与分析。因此,在信用评估的过程中,充斥着大量的数据的计算、指标的分析及数学方法的应用。信用评估充斥着大量的数理统计的定量分析方法及数学模型,这些统计方法与模型预测的结果是信用评估观点与意见形成的基础,是观点与意见形成的依据。所以说,信用评估具有科学性。、多样性信用评估机构的研究对象除了在信用品质表现中,相对比较直观与简单的个人之外,还包括了所有其他类型的经济主体。不论是中央政府,还是地方政府;不论是金融机构,还是工商企业;不论是学校,还是医院;不论是公益组织,还是社会团体,只要这个经济主体有市场债务融资的需要,都将成为信用评估机构的研究对象,都需要从信用评估机构得到反应其信用品质与实力的信用等级。这种评估对象的多样性在国际很多知名的信用评估机构的评级方法类别上都有所反映。此外,对于同一信用主体市场债务融资的方式不同,信用评估机构还制定了长期、短期、主体、结构融资等不同类型的信用等级,以满足市场对不同类型的债务形式风险识别差异的不同要求,这是信用评估的产品多样性19。2.2 数据挖掘技术在信用评估中的应用随着计算机技术的快速发展,尤其是数据库技术与应用的日益普及,人们能够得到的数据也越来越丰富。面对着如此快速扩张的数据海洋,如何有效利用这一丰富数据海洋也已经成为广大信息技术工作者所关注的焦点之一。然而,由于数据分析工具的功能不足,无法有效地为决策者提供其决策支持所需要的相关知识。为了解决这一问题,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘技术逐步发展起来。数据挖掘是一个交叉学科,它涉及了多个学科的思想和方法,比如数据库系统、数理统计学、人工智能、可视化和信息科学。它是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。更明确地讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。通过数据挖掘,人们可找到现有数据的一般规律、特性,预测发展趋势。近年来, 因其在处理海量数据方面的优势,数据挖掘方法被广泛应用于金融、经济领域,在信用风险评估方面也受到越来越多的重视,也形成了各种各样的信用评估模型。信用评估模型是采用数学和统计方式,通过适当的算法,对借款客户履行各种承诺的能力和信誉程度进行全面评价,确定信用等级和信贷限额的一种模型,其功能是以客户的信贷申请书和征信报告等资料为基础信息,对该申请人的信贷风险程度进行数学分析,并得到数字量化的结果作为贷款决策的依据,从而使信贷决策自动化、科学化。从本质上说,信用评估是模式识别中的一类分类问题,就是根据历史上每个类别的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险,为消费信贷决策提供依据。随着市场竞争的加剧以及计算机技术的发展,越来越多的计量方法被运用到信用评分领域,如神经网络、决策树等方法。2.3 信用评估方法2.3.1 神经网络方法神经网络,也称人工神经网络,是由大量处理单元,即神经元经广泛互连而组成的复杂网络拓扑,反映了人脑功能的许多基本特性,但它不是人脑神经系统的真实写照,而只是对其作某种简化、抽象和模拟。从工作原理方面来讲,神经网络的工作过程主要分为两个阶段:学习阶段和工作阶段。神经网络首先要以一定的学习准则进行学习,然后才能工作。其准则是如果网络作出错误的判断,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,各连线上的权值通过学习算法来逐步调整,学习过程根据输出结果来决定是否需要重新开始。当学习完成后,就进入工作阶段,此时连接权值固定,通过网络计算,以得到相应的输出。由上述工作原理可知,神经网络是一种旨在模仿人脑结构及其功能的信息处理系统。该方法能处理一系列的信息输入如比率等,并能产生相应的输出,而其运算分析能生成一个成功反映所有输入、输出变量相应关系的模式。神经网络模型对数据的分布要求并不严格,可以将输入与输出做非线性匹配,自动调节网络结构,并具有学习与容错的能力,不同于以往计量技术的基本逻辑与结构。作为研究复杂性的工具,神经网络技术在模式识别、分类、预测等方面展示了非凡的优越性、它能处理任意类型的数据,这是许多传统方法所无法比拟的,因此已经成功地应用于许多不同的领域。但是,它也有一定的缺陷,存在“黑箱问题”,即模型结果与影响因素的关系不确定,很难对模型输出量进行经济含义解释。对于需要了解信用风险引发的主要因素,并找出控制措施的信用风险研究领域,这种模型的应用显然具有相当的难度。2.3.2 决策树方法1985年Mkaowksi第一次把决策树方法应用于个人信用评估。决策树是代表决策集的树形结构,其基本思想是把待估信用者集合按一定的分割规则一分为二,两个子集按分割规则再一分为二,反复循环直至合适的程度。决策树方法具有完备的语言表达能力,易于理解,结果简单、运算量小和动态学习的能力,而且它是基于统计理论的非参数识别技术,将统计分析和计算机结合保持了多元参数、非参数统计的优点,而且决策树方法还具有自动进行变量选择、降低维数,利用先验信息处理数据间非同质的关系及分类结果表达直观等特点,但是在实际应用中,由于问题的复杂性增加,决策树模型经常会出现组合爆炸而使得构造的决策树过于复杂难以理解,且容易造成模型的过度拟合。另外,决策树模型方法并不是一种启发式的寻优技术,因而建模时缺乏效率。2.3.3 判别分析方法判别分析是根据研究个体的观测指标来判断个体所属类型的一种统计方法,其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,据此确定某一样本属于何类。这种分析方法比较直观,判别规则也易于理解,有利于业务人员接受,更有利于对客户的理解。虽然判别分析的假设条件比较严格,需要估计先验概率,理论性不够完美,不能达到最佳效果,但是当信用数据满足假设条件,判别分析能达到最优统计特性,即与其他统计方法相比,它充分利用了数据信息,达到了最好的判别效果。除了上述几种方法外,还有逻辑回归、遗传算法、模糊分析、专家系统等各种各样的方法,由于信用风险评估问题本质上是一个非线性分类问题,所以各种方法都各有利弊。而且,传统的统计学和现有的神经网络等学习理论都是基于样本数目趋于无穷大的渐进理论,而实际问题中样本数目往往是有限的。本文将一种称为“支持向量机”的方法应用于银行客户借贷信用评估的研究,由于其所具有的强推广能力和分类面简单、泛化能力强、拟合精度高和全局性等优良性质,使得以该方法为基础的信用评估具有较好的应用效果。浙江工商大学杭州商学院本科毕业论文第3章 支持向量机概述第3章 支持向量机概述3.1 支持向量机简介支持向量机(Support Vector Machine,SVM)是统计学习理论的重要组成部分,是由Vapnik等人于1995年首先提出的,是建立在统计学习理论的VC维理论和结构风险最小化的原理基础上的。SVM能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数对独立的测试集仍然能够得到较小的误差。此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解是全局最优解。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。3.2 支持向量机的基本思想支持向量机实现结构风险最小化即SRM原则有两种思路:一是在数据集的每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集,显然这种方法比较费时,当子集数目很大甚至是无穷大时是不可行的;第二种思路就是设计函数集的某种结构使每个子集中都能取得最小经验风险,例如,使训练误差为0,然后只选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数,SVM实际上就是这种思想的具体实现。SVM是从线性可分的最优分类面发展而来的,其基本思想可用图3-1所示的二维情况说明。图3-1 SVM的基本思想6图3-1中,实心点和空心点代表两类数据样本,H为分类线,H、H分别为过各类中离分类线最近的数据样本且平行于分类线的直线,它们之间的距离叫做分类间隔(margin)。所谓最优分类线,就是要求分类线不但能够将两类数据样本正确分开,使训练错误率为0,而且还要使分类间隔最大。前者保证经验风险最小,使分类间隔最大实际上就是使推广性界中的置信范围最小,从而使真实风险最小。推广到高维空间,最优分类线就成为了最优分类面。设有两类线性可分的样本集合:(x, y),i=1,n, xR,y +l,-l ,满足:y (W x)+b0 ,i=1,n, (式3-1)此时分类间隔等于2/,使间隔最大等价于使最小。满足条件(式3.1)且使/2最小的分类面就是图3-1中的最优分类线H,H、H上的训练样本点就称作支持向量,因为他们支撑了最优分类面。利用Lagrange优化方法可以把上述最优分类面问题转化为其对偶问题,即在约束条件:y=0且0,i=1,,n (式3-2)下面对求解下列函数的最大值:Q()=-yy(x*x ) (式3-3)为原问题中与每个约束条件(式3-2)对应的Lagrange乘子。这是一个不等式约束下二次函数寻优的问题,存在唯一解。容易证明,解中将只有一部分(通常是少部分)不为零,对应的样本就是支持向量。解上述问题后得到的最优分类函数:F(x)=sgn (*x)+b=sgny(x*x)+b (式3-4)式中的求和实际上只对支持向量进行。b是分类阈值,可以用任一个支持向量(满足式3-1中的等号)求得,或通过两类中任意一对支持向量取中值求得。对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在变换空间求最优分类面。在最优分类面中采用适当的内积函数K(x, x)就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加,此时目标函数(式3-3)变为:Q()=-yyK(x*x ) (式3-5)相应的分类函数也变为:F(x)=sgnyK(x*x)+b (式3-6)这就是支持向量机20。 SVM分类函数在形式上类似于一个神经网络。输出是s个中间节点的线性组合,每个中间节点对应一个支持向量,如图3-2所示。图3-2 支持向量机的分类示意图153.3 核函数在SVM中,要选择核函数将非线性的输入映射到高维的特征空间中。常用的核函数有线性核函数、多项式函数、径向基函数等,选用不同的核函数可构造不同的SVM。如:线性核函数:K(x,x)=x* x; 多项式核函数:K(x, x)=( x* x)+1 (q为自由度);径向基核函数:K(x, x)=exp-|x- x|*;浙江工商大学杭州商学院本科毕业论文第4章 信用评级的实证研究第4章 信用评级的实证研究4.1 实验数据集本次实验主要以真实可用的银行信用数据集为例,即澳大利亚和德国的银行数据集,其信用数据及信用数据描述(即个人信用指标体系) 来自网站 UCI Machine Learning Repository(网址为/ml/)。选取的银行数据集已经定义了两类人,其中一类是信用好的,即正样本,另一类为信用不好的,为负样本。澳大利亚数据集一共有690 个样本,其中正类样本383 个,负类样本307 个,每个样本有14个属性变量(信用信息指标,其中有6个名义属性和8个数值属性)和1个类别变量。德国数据集一共有1000 个样本,其中正类样本700 个,负类样本300 个,每个样本有24个属性变量(全都是数值属性)和1个类别变量。每一个实例中都包含了借款人的个人信息、年龄、住房、信用历史、帐户余额、贷款的目的、贷款金额、就业问题的现状等等信息。基于保密的要求,有一些机密数据、属性名称等不能显示出来,所以会有遗漏值,另外数据集中的所有属性都要换为代号。这两个标准信用数据集信息全面,是机器学习中常用的标准数据。本次实验主要是为了研究SVM在评估信息的分类准确性,所以采用网格10一折交叉验证(10 fold cross-validation)的方法。具体的思想是首先把数据分成10个互不相交的子集,训练和测试进行10次迭代,10个子集各做一次测试集,而其他剩余的子集作为训练集,然后用这个训练出来的模型去测试测试集,最后的准确率为10次的平均值。4.2 实验数据处理Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件,它存储数据的格式是.arff文件。因此,在找到数据集后,我们首先要对数据集进行预处理。实验中为了使小的数据不被大的数据所淹没,所有的信用属性指标都归一化到0,1,其值为每个值与最低值的差值除以最高值与最低值的差值。例如,其中一个样本的年龄属性值为45,所有数据样本中年龄属性的最高值为72,最低值为20,那么年龄45则表示为0.481。我们可以用一个简单的C语言小程序来实现,程序代码如下:#include #include #define SIZE 15/*读取数据,并计算原文件数据的行数*/int GetLinesCount()FILE* fp;int count = 0;char str512;fp = fopen(data.txt, r);if (fp = NULL) return 0;while (!feof(fp)fgets(str, sizeof(str), fp);/*遇到空行时结束*/if (strlen(str) = 1) break; count+;fclose(fp);return count;/*查找最大值和最小值*/ int FindMaxMin(double max, double min, int length)FILE* fp;int i, lines;double num;fp = fopen(data.txt, r);if (fp = NULL) return -1;/*初始化最大值和最小值数组*/for (i = 0; i SIZE; i+)fscanf(fp, %lf, &num);maxi = mini = num;/*找出最大值和最小值*/ for (lines = 0; lines length - 1; lines+)for (i = 0; i SIZE; i+)fscanf(fp, %lf, &num);if (maxi - num 1e-15)mini = num;fclose(fp);return 0;/*对数据进行归一化处理*/int Process(double max, double min, int length)FILE *fin, *fout;double num;int i, lines;fin = fopen(data.txt, r);if (fin = NULL) return -1;/*创建结果输出文件,格式为.csv*/fout = fopen(changedata.csv, w);if (fout = NULL) return 1;for (lines = 0; lines length; lines+)for (i = 0; i filename.arff就可以进行文件的格式转化,这样就可以在Weka里创建自己的模型了。当然,也可以通过“Arff Viewer”模块打开.csv文件将进行浏览,然后另存为.arff文件。模型的输出会产生如下图4-1所示的结果。图 4-1 Weka的分类模型的输出图4-1中所示的这些数字是什么意思?我们怎么才能知道这是一个好的模型?这里最应该关注的指数就是“Correctly Classified Instances”(分类准确率)。分类准确率就是指通过训练得到的模型对数据进行分类的准确度达到多少,一般若是达到75%以上,则为一个比较可靠的模型。其他重要的指数有TP rate(对正样本的分类准确率)、FP rate(对负样本的分类准确率)、Precision(精确度,表示数据样本被正确地分类的可靠性)、Recall(召回率,表示多少数据样本被正确地分类),剩下的F-Measure和ROC Area则反映分类性能的高低,度量整体精度。最后,在“Confusion Matrix”矩阵中,显示了假正和假负的数量。假正就是原本是属于信用好的一类,而训练出来的模型却把它分到了信用坏的一类,反之亦如此。由图中可以知道,假正的数量为77,假负的数量为23,即有690个数据样本中有100个被错分了,也就是说正确分类的有590个,分类准确率也是有590/690=85.5072%而得来的。4.3 实验分析与结果实验时,以德国和澳大利亚的银行信用数据集为例,分别采用线性核函数、多项式核函数和径向基核函数来运行数据以获得评估分类的结果。由于在支持向量机模型中,为了实现在错分样本的比例与模型复杂度之间的平衡,会对错分样本进行惩罚,从而引入惩罚参数C。惩罚参数C的选择对模型评估的结果起着至关重要的作用,不适当的参数选择可能导致过学习或是学习不足,但是最优的参数选择没有通常的规律,因此我们在此采用网格与交叉验证法来寻找最优的参数。在测试中设置C从2到2变化,测试结果如下表4-1到4-4所示。 、选择线性核函数时的测试结果线性核函数的显著优点是不需要设置核参数,而且如果数据是线性可分的话,精确度比较高。利用线性核函数分别对德国及澳大利亚的信用数据集进行测试的结果如下表4-1所示。从表格中可以看出,线性核函数对这两类数据的分类准确率都较高,但是总体来说,参数C的变化对分类准确性的影响不大,而且C越大时,测试的运行时间也越长。表 4-1 选择线性核函数时的分类准确率% C数据0.51.02.04.08.016.032.0德国76.376.476.376.476.376.676.5澳大利亚85.507285.507285.507285.507285.507285.507285.5072、选择多项式核函数时的测试结果多项式核函数的优点是有较高的分类准确率,但是测试时运行时间较长,而且随着C的增大运行时间越来越长,且参数的选择较多。利用多项式核函数分别对德国及澳大利亚的信用数据集进行测试的结果如下表4-2所示(本实验q取2,即核函数为二次多项式)。从表格中可以看出,分类准确率一开始随着C的增加而增加,但是当达到一定程度后又随着C的增加而稍微降低。当C取2.0时,两组数据集都达到了最高的分类准确率,分别为76.9%和86.3768%。表4-2 选择多项式核函数时的分类准确率% C数据0.51.02.04.08.016.032.0德国76.476.975.973.573.672.771.9澳大利亚8608786.376886.376886.231986.376885.507285.2174、选择径向基核函数时的测试结果在利用径向基核函数对信用数据集进行测试时,还要考虑核参数的变化。设置从2到2变化,测试结果如表4-3和4-4所示。从表格可以看出,德国数据在取2和2时,分类准确率总体上来说比较高,且在=2,C=2时达到最高值76.6%。澳大利亚数据总体上来说随着参数的变化波动较小,最高分类准确率为86.087%,而且运行时间相对来说也较短。表4-3 选择径向基核函数时的分类准确率%(德国) C0.51.02.04.08.016.032.0271.174.975.575.476.476.275.9274.675.375.876.475.776.675.6274.376.376.175.675.274.672.2274.676.275.774.371.671.070.9271.974.273.871.671.771.671.3270.472.371.671.471.271.271.3表4-4 选择径向基核函数时的分类准确率%(澳大利亚) C0.51.02.04.08.016.032.0285.507285.507285.507285.507285.507285.652285.7971285.057285.507285.507285.507285.507285.94285.5072285.507285.507285.072585.652285.507285.652285.7971285.217485.362385.507285.072586.087085.507284.6377285.507285.94285.507285.797184.782684.347884.058285.797185.94284.782684.492884.347883.768182.029 综上所述,当选择线性函数作为核函数时,不管惩罚参数C怎么变化,都能达到较高的分类准确率,其分类准确度分别达到76.6%和85.5072%,且随着C的增大,Weka所运行得时间也越长。当选择多项式函数作为核函数(q=2,即二项式核函数)时,相对于线性核函数来说,运行时间比较长,分类准确率偏低,而当C=1时,却又都达到了最高的分类准确率,参数C增大时,分类准确率也会随着C的增大而升高,但是到一定的程度后,会随着C的增大而降低。当选择径向基函数作为核函数时,随着参数C和的变化,分类准确率也显著变化,可以说是三种核函数中波动最大的一个。因此,本次试验得到的最高分类准确度为76.9%和86.3768%,相对应的最优核函数为多项式核函数,最优惩罚参数C都为1。初步结果显示,使用支持向量机方法进行个人信用分类可以取得较好的分类效果,更为深入的数据预处理和选取更合适的核函数等均将有利于提高分类的准确率,同时也更加表明了支持向量机方法具有很好的应用前景,可以为更多的行业服务。但是,本次试验也有一定的局限性。事实上,核函数种类较多,我们可以选择的核函数种类也有限,不可能仅限于本文所用的三种,可能其他的某一种核函数会取得更好的分类效果。此外,惩罚参数C的取值也是有限的,数值的覆盖性也较少,也可能试验中没有用到的某一个值还能够达到更高的分类精度。现实中,市场上经济环境的变化等各种各样的因素的影响较大,如果以基于SVM的的信用评估方法为依据,并结合专家经验,评估结果会更加客观准确。浙江工商大学杭州商学院本科毕业论文第5章 总结与展望第5章 总结与展望5.1 总结本文采用支持向量机理论结合澳大利亚和德国数据集进行信用评估,利用3种不同的核函数进行实证分析,目的是获取信用评估中的正确的核函数及其相应的最优参数选择,以期得到较高的分类准确率。实验结果表明,支持向量机方法将低维非线性的输入映射到高维线性的输出,具有较好的预测能力,且推广性能好,不易过学习,运算简单。近年来,SVM已成为解决模式分类和回归问题中的重要工具。由于SVM在学习过程中方法具有明显的优势,并避免了神经网络的一些缺陷,如网络结构难以确定、在样本练习过程中发生过学习或欠学习等。因此,在进行模式分类时,有时候人们甚至认为SVM学习方法优于神经网络方法。但是同时,我们可以发现很多问题,比如在中国,银行的信用数据都是不公开的,网上基本无法找到,而且也缺乏一套权威有效的信用评估模型,各个银行的信贷评估方法与数据都相对独立,不利于信用评估方法的发展。由于该方法的研究时间短, 诸如信用信息指标的选取到目前为止仍然是一个待继续研究的问题,需要完善。本文认为我国应该建立一个统一的信用评估机构,由这个机构收集各银行的现有数据和潜在数据,形成一套适应中国国情的具有权威性的信用评估模型,并建立一个大型的统一的数据库,实现数据共享,供银行及研究人员参考。5.2 展望目前,信用风险评估模型在西方发达国家获得了突飞猛进的发展,其主要特征表现为综合吸收当今各学科领域的最新技术成果,大量运用计算机信息技术、经济计量技术、模拟技术等高科技手段,越来越体现出从定性到定量、从简单到复杂的趋势。由于我国商业银行和金融市场尚处在新兴发展阶段,信用评估方法也主要以传统的统计方法为主,远不能满足商业银行对贷款进行风险分析的需要。因此,吸收和借鉴西方风险评估的新方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乳制品产业链整合创新创业项目商业计划书
- 福建省宁德市福鼎市2026届九年级英语第一学期期末调研模拟试题含解析
- 2025至2030全球与中国西服定制服务行业市场调研及市场规模报告
- 培训师课件繁琐
- 2026届上海市建平西学校化学九年级第一学期期中检测模拟试题含解析
- 2025山东核电校园招聘考试模拟试题及答案解析
- 建筑施工防中暑培训课件
- 浙江部分地区2026届九上化学期中监测试题含解析
- 培训师专用课件下载
- 2025-2030肉牛养殖区域集群发展比较优势及产业协同效应分析
- 朝阳河流域生态修复综合治理工程环评报告
- 2024新版2025秋教科版科学二年级上册全册教案教学设计
- (2025秋新版)人教版八年级历史上册全册教案
- 企业向个人还款合同范本
- 钢模板安全知识培训课件
- GB/T 45707-2025皮革铬鞣鞋面用坯革规范
- 高空作业外墙漆施工方案
- 医务人员职业暴露预防及处理课件(完整版)
- C语言程序设计 课件 第1章-C语言概述
- 医学资料品管圈十大步骤的运用
- 餐饮空间设计课件ppt
评论
0/150
提交评论