基于贝叶斯分类技术的贷款风险预测.doc_第1页
基于贝叶斯分类技术的贷款风险预测.doc_第2页
基于贝叶斯分类技术的贷款风险预测.doc_第3页
基于贝叶斯分类技术的贷款风险预测.doc_第4页
基于贝叶斯分类技术的贷款风险预测.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融数据挖掘案例分析课程设计报告题 目:基于贝叶斯分类技术的贷款风险预测学生姓名: 学 号: 系别班级: 专业(方向): 指导教师: 年 月日基于贝叶斯分类技术的贷款风险预测摘要本文主要研究了朴素贝叶斯算法在贷款风险预测上对策应用。是一种基于最大后验概率的最优朴素贝叶斯在贷款风险的预测。思想是以训练集样本在不同朴素贝叶斯的后验概率作为反馈信息,从训练样本中选取部分最优样本,抛弃部分含有噪音的样本,作为最优的朴素贝叶斯算法。关键词: 朴素贝叶斯 ;贷款风险;预测。AbstractThis paper mainly studies the application of Countermeasures of naive Bayes algorithm in the loan risk prediction. Is a kind of forecast based on the maximum posterior probability optimal naive Bias on loan risk. Thought is the training set samples in different Bayesian posterior probability as the feedback information,select the part of the optimal sample from the training samples, discard somenoisy samples, as naive Bayes optimal.Keywords: naive Bias; loan risk; prediction.引言: 贷款风险通常是对贷款人而言的。从贷款人角度来考察,贷款风险是指贷款人在经营贷款业务过程中面临的各种损失发生的可能性。贷款风险是可以度量的,贷款风险具有可测性,可以通过综合考察一些因素,在贷款发放之前或之后,测算出贷款本息按期收回的概率。所谓贷款风险度就是指衡量贷款风险程度大小的尺度,贷款风险度是一个可以测算出来的具体的量化指标,它通常大于零小于1,贷款风险度越大,说明贷款本息按期收回的可能性越小,反之,贷款风险度越小,说明贷款本息按期收回的可能性越大。1.朴素贝叶斯分类预测方法 贝叶斯分类算法是统计学的一种分类方法,它可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。通过分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯分类算法可以与判定树和神经网络分类算法相媲美。用于大型数据库,贝叶斯分类也已表现出高准确率与高速度。朴素贝叶斯分类假定一个属于值对给丁磊的影响独立于其他属性的值。这一假定称作类条件独立。做此假定是为了简化所需计算,并在此意义下成为“朴素的”。1.1贝叶斯定理 设X是类标号未知的数据样本。设为某种假定,如数据样本属于某特定的类。对于分类问题,我们希望确定给定观测数据样本,假定成立的概率。是后验概率,或条件下的后验概率。例如,假定数据样本域由水果组成,用他们的颜色和形状描述。假定表示红色和圆的,表示假定是苹果,则反映当我们看到是红色并使圆的时,我们对是苹果的确信程度。作为对比,是先验概率,或得先验概率。对于以上的例子,它是任意给定的数据样本为苹果的概率,而不管数据样本看上去如何。后验概率比先验概率基于更多的信息(如背景知识)。是独立于的。类似的,是条件下,的后验概率。即是说它是已知是苹果,是红色并且是圆的概率。是的先验概率。使用上面的例子,它是由水果集取出一个数据样本是红的和圆的的概率。贝叶斯定理就是提供了一中由,,和计算后验概率的方法。贝叶斯定理是:(1)1.2 朴素贝叶斯分类朴素贝叶斯分类或简单贝叶斯分类的工作过程如下:(1) 每个数据样本用一个维特征向量表示,分别描述对个属性样本的个度量。(2) 假定有个类。给定一个未知的数据样本(即没有类标号),分类法将预测属于具有最高后验概率(条件下)的类。即是说,朴素贝叶斯分类将位置的样本分配给类,当且仅当 这样,最大化。其中最大的对应的类成为最大后验假定。根据贝叶斯定理(1) (2)(3) 由于对于所有类为常熟,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即,并据此对最大化。否额,可最大化。注意,类的先验概率可以用计算,其中是类中的训练样本数,而是训练样本总数。(4) 给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间不存在依赖关系。这样 (3)概率可以由训练样本估值。其中如果是分类属性,则,其中是在属性上具有值的类的训练样本数,而是中的训练样本数。2 基于贝叶斯分类的贷款风险预测本文以某企业的装款为案例来说明贝叶斯分类预测一个未知样本的分类工作过程。2.1 描述数据数据样本表示对企业还款能力产生的影响,用一个7维特征向量表示, 分别描述为以下7个变量因素:资产报酬率,企业规模,核心企业信用度,上下游企业合作密切度,营业活动收益质量,有形资产债务率,还款风险,由于要考察的是贷款企业的还款风险 因此,目标类为还款风险,整理,收集所得数据库的主要属性见表1表1属性名取值资产投资率企业规模核心企业信用度上下游合作密切度营业活动收益质量有形资产债务率还贷风险15,815,90,9040,40高,低 2.2 预处理数据某银行2007年申请贷款企业的信息数据在表2中。数据样本用属性资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务率、还带风险描述。把表2中的数据作为训练数据样本,根据表2中数据,预测未知样本某个申请贷款企业(资产报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“90”,有形资产债务率=“40”)的还贷风险。表2序号资产报酬率企业规模核心企业信用度上下游企业合作密切度营业活动收益质量有形资产债务率还贷风险115中高高9040低28-15中高高9040低38-15大高低9040高49040高515小高中9040低78-15小低中9040低88大低中9040高99040高1015大高高9040低1115中低高9040低1215小低低9040高138-15大低中9040高148-15小高低9040低2.3 挖掘数据要预测(资产报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“90”,有形资产债务率=“40”)的还贷风险,需要最大化。训练数据集包含资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务、还贷风险这几个属性,其中还贷风险为类标号属性,有两个取值高,低。设对应类还贷风险=“高”,而对应类还贷风险=“低”。每个类的先验概率可以根据训练样本计算:为计算,我们计算下面的条件概率:使用以上概率,得到显而易见,的可能性最大,因此,对于样本,朴素贝叶斯分类预测还款风险=“低”。利用挖掘软件得出如下结果:图1 依赖关系网络视图通过图1可以知道“还款风险”主要受“上下游企业合作密切度”和“营业活动收益质量”属性影响。图2 最强连接图2说明影响“还款风险”最主要的属性是“营业收益质量”。图3 属性配置文件视图图4 属性特征视图 由图3图4可以看出,在“还款风险”属性值为“低”的记录中,营业活动收益质量=“90”,上下游企业合作密切度=“高” 的记录比较多。图5 属性对比视图图5可以看出,“营业活动收益质量”=“90”更倾向于“还款风险”=“低”; “上下游企业合作密切度”=“高”更倾向于“还款风险”=“低”。3.结论朴素贝叶斯分类算法成立的前提是属性独立假定,即假定各属性之间互相独立, 这一假定称作类条件独立。作此假定是为了简化所需计算,并在此意义下称为“朴素的”。贝叶斯分类的效率如何?理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定 (如类条件独立)是不容易达到的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域该分类算法可以与之媲美,在处理海量数据时也表现出了较高的分类准确性和运算性能。在本文金融供应链中信用风险的各变量之间也存在一定的关系。比如资产报酬率和营业活动收益质量等,从结果看来,朴素贝叶斯仍在金融供应链信用风险预测中取得了很好的效果,这样也就促进了金融机构在发放贷款时候的信用管理,为金融机构和中小企业之间合作提供了方便。4. 参考

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论