




免费预览已结束,剩余9页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘课 程 论 文基于决策树数据挖掘技术在还贷信用度中的应用连馥莉任课教师姓名 曹慧荣 所在学院 数信学院 专业名称 信息与计算科学专业 论文提交日期 2010.6 . 28 所在高等院校 廊坊师范学院 2010年5月27日1.摘要数据挖掘、OLAP是当前基于大型数据库或数据仓库的新型信息分析技术,在许多领域得到广泛应用,取得了很好的成效。如何将其应用于财务决策以提高决策的正确性、及时性,降低决策的风险,已成为财务管理领域的重要研究课题。本文在介绍数据挖掘、OLAP技术及其相互关系的基础上,分析了财务决策领域应用这两种技术的现实必要性,并进一步论述了财务决策中数据挖掘和OLAP的应用流程。2.数据挖掘(Data Mining)概述2.1数据挖掘的定义数据挖掘,又称数据库中的知识发现,是指从大量的不完全的,有噪声的,模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。关于数据挖掘,一种较为公认的定义是由G.Piatetsky-Shapiro等人提出的。他们认为:数据挖掘是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的,潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域。它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘的一个重要功能是分类。分类是指将数据映射到预先定义好的群组或类。因为在分析测试数据之前,类别就已经被确定了,所以分类通常被称作有指导学习。常用的分类方法有基于统计的方法、基于距离的方法、基于决策树的方法、基于神经网络的方法、基于规则的方法等。用决策树进行分类,生成规则易于理解并且高效,由于树的规模独立于数据库规模,所以决策树对于大规模数据库具有很好的扩展性。决策树算法存在的缺点是:不易于处理连续数据;对缺失数据的处理也很困难;决策树过程忽略了数据库中属性之间的相关性。1986年Quinlan提出了著名的ID3算法, ID3算法是发展的比较完善也是比较简单易懂的一种决策树算法。在ID3算法的基础上,1993年Quinlan又提出了C4.5算法,它在ID3基础上增加了-对连续属性的离散化。C5.0算法是C4.5算法应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进,因此本文仅就C5.0算法进行讨论。2.1.1数据挖掘的功能 (1)分类。分类可以找出描述并区分数据类别或概念的属性或模型,以便能够使用模型预测未知的对象,导出模型基于对训练数据集的分类分析。 (2)关联分析。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网,生成的规则一般带有一定的可信度。 (3)聚类。数据库中的数据记录可被划分为一系列的子集,即聚类。聚类增强了对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括模式识别方法和数学分类学等。 (4)偏差检测。偏差检测指从数据库中检测出一些异常记录的偏差。偏差包括很多知识,如分类中的反常实例、不满足规则的特例、模型预测值与观测结果的偏差等等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别回。 (5)概念描述。概念描述就是对对象内涵进行描述,并概括对象的相关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共性,后者描述不同类的区别。生成一个类的特征性描述只涉及该类对象的共性。生成区别性描述的方法包括决策树方法和遗传算法等。 (6)自动预测趋势和行为。以往需要进行大量手工分析的问题,借助数据挖掘可自动在大型数据库中寻找预测性信息。2.1.2数据挖掘的分类 (1)归纳学习类。归纳学习类可分为基于信息论方法挖掘类如决策树分类方法等)和基于集合论方法挖掘类(如粗糙集理论方法等)。 (2)仿生物技术类。可分为神经网络方法类和遗传算法类。 (3)公式发现类。在科学实验与工程数据库中,用人工智能方法寻找和发现连续属性之间的关系,建立变量之间的公式,从而把大量的数据概括在公式中。 (4)统计分析类。由于统计分析能对数据库中数据求出各种不同的统计信息和知识,所以也构成了数据挖掘中的一大类方法。 (5)模糊数学类。模糊数学是反映人类思维方式的数学概念。将模糊数学应用于数据挖掘中,就形成了模糊数据挖掘类,如模糊聚类、模糊分类和模糊关联规则等。 (6)可视化技术类。可视化技术是一种图形显示技术。对数据的分布规律进行可视化显示或对数据挖掘过程进行可视化显示,会明显提高人们对数据挖掘的兴趣和挖掘效果。 2.2 数据挖掘的过程数据源数据源数据目标数据预处理后的数据信息知识数据准备数据挖掘结果表达和解释结果表达和解释数据挖掘数据集成数据选择数据预处理一般地,数据挖掘在任何一个应用问题上的应用,均可以大致分为以下三个阶段,如图所示。 数据挖掘的三个阶段(1)数据准备阶段。确定分析目标,以及与该问题相关的数据库。 (2)数据挖掘阶段。借助各种数据挖掘工具,从数据库中找出有可能解决问题的知识。 (3)结果表示和解释阶段。将发现的知识表示成容易被为用户理解的形式,以便于解决实际问题,并根据问题解决程度决定下一步行动。2.3 数据挖掘经典技术概述(1)决策树。在数据挖掘中,决策树分类方法是一种从数据集中以决策树形式构造分类模型的方法,这种方法具有计算复杂性小,分类精度高等优点。(2)统计挖掘技术。统计挖掘技术是目前数据挖掘技术中应用最多最成熟的方法之一,包括相关分析、回归分析、单变量分析、多变量分析、聚类分析、判别分析、主成分分析、因子分析等等。(3)人工神经网络。人工神经网络是在生物神经网络研究的基础上模拟人类的形象知觉思维,根据生物神经元和神经网的特点,通过简化归纳提炼总结出来的一类并行处理网络。(4)可视化。可视化是一种将抽象符号转化为几何图形的计算方法,以便研究者能够观察其模拟和计算的过程和结果。它主要研究人和计算机怎样协调一致地接受、使用和交流视觉信息。数据可视化主要包括数据、模型和过程三方面的可视化。(5)遗传算法。遗传算法是一种模拟达尔文生物进化的自然选择过程的计算机模型,它是一种新的全局优化搜索算法,主要是模拟生物进化的过程。它由4个算子组成:繁殖、交叉、变异和自然选择。(6)粗糙集。粗糙集理论是基于等价类的思想,等价类中的元素在粗糙集中被视为不可区分的,基本原理是用粗糙集近似的方法将信息系统中的属性值进行离散化,对每一个属性划分等价类,利用集合的等价关系进行信息系统的约简,得到最小决策关系,从而便于获得规则。(7)关联规则。关联规则挖掘方法是一种从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识的方法。其核心方法是频集理论的递推方法。关联规则反映了数据库中数据项目之间的关联关系,而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。3.决策树中C5.0算法的产生及应用领域决策树算法是一种逼近离散函数值的方法。决策树算法的优点如下:(1)分类精度高;(2)成的模式简单;(3)对噪声数据有很好的健壮性;因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。用决策树进行分类分两步走:第一步是利用训练集生成一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程;第二步是利用生成的决策树对输入数据进行分类。对输入的纪录,从根节点依次测试记录的属性值,直到到达某个叶子节点,从而找到该记录所在的类。ID3算法的核心是:在决策树各级结点上用信息增益(information gain)作为属性的选择标准,以使得在每一个非叶结点进行测试时,能获得关于被测试纪录最大的类别信息,它可以用来对新的样本进行分类。C5.0是经典的决策树模型的算法之一,可生成多分支的决策树,目标变量为分类变量。使用C5.0算法可以生成决策树(decision tree)或者规则集(rule sets)。C5.0模型根据能够带来最大信息增益(information gain)的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。 其优点为:(1)C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。(2)C5.0模型通常不需要很长的训练次数进行估计。(3)C5.0模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释。(4)C5.0也提供强大的增强技术以提高分类的精度。 4.决策树中C5.0算法的原理以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。(1)信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵,信息(i=1,2,r)的发生概率组成信源数学模型,;信息量(单位是bit,对的底数取2)。(2)信息熵(先验不确定性)信息熵H(U)的性质: H(U)=0时,表示只存在唯一的可能性,不存在不确定性。如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大。 差别越小, H(U)就越大; 差别大, H(U)就越小。决策树中熵的应用设S是一个样本集合,目标变量C有k个分类,freq(C,S)表示S中属于Ci类的样本数,|S|表示样本集合S的样本数。则集合S的信息熵定义为:如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为:属性变量T带来的信息增益为:5.C5.0算法在信贷问题中的应用及分析笔者在对贷款使用者还贷情况调查时,通过调查问卷可以得到下面一些数据集,用于决策银行是否适合贷款给某类人群。而影响贷款者有无还贷不良记录的属性包括:居住区域、年龄、月收入、性别、职业等因素。表4.1 顾客情况调查表编号居住区域年龄月收入性别职业还贷不良记录1市区31-402000-3000男职工无2市区31-403000男职工无3市区31-402000-3000女职工有4市区31-402000-3000女教师有5乡镇21-301000-2000男农民有6市郊402000-3000男职工无7乡镇31-401000-2000男农民无8市郊403000男干部无9市区403000女教师无10乡镇21-301000-2000女农民有(1)由上述算法,在开始构建决策树时,决策树包含了一个空的根节点,设定根节点为目前的节点C,则C集合包含了贷款者,由上表知,C中有6个无还贷不良记录及4个有还贷不良记录的人,经计算还贷不良记录的期望信息为:H(还贷不良记录)=0.9709H(还贷不良记录|居住区域)=0.7610,H(还贷不良记录|年龄)=0.4856,H(还贷不良记录|月收入)=0.6755,H(还贷不良记录|性别)=0.7144,H(还贷不良记录|职业)=0.8000Gain(职业) Gain(居住区域) Gain(性别) Gain(月收入) Gain(年龄)由此可知属性变量带来的信息增益中年龄属性最大,故年龄为当前分裂变量。(2)在(1)的基础上继续计算:H(还贷不良记录)=0.9709H(还贷不良记录|居住区域)=0.8000,H(还贷不良记录|月收入)=0.5510,H(还贷不良记录|性别)=0.0000,H(还贷不良记录|职业)=0.5510Gain(居住区域) Gain(职业)= Gain(月收入)40乡镇1000-2000男农民有乡镇1000-2000女农民有市郊2000-3000男职工无市郊3000男干部无市区3000女教师无市区2000-3000男职工无市区3000男职工无市区2000-3000女职工有市区2000-3000女教师有乡镇1000-2000男农民无 市区2000-3000职工有市区2000-3000教师有 男 女市区2000-3000职工无市区3000职工无乡镇1000-2000农民无6.基于Clementine的C5.0算法实现的步骤Step1: 建立数据流如下。以表格形式输出数据如下:Step2: 运行数据流,查看生成的决策树及各个分支上的支持度,改变上边的查看方式,会给展示出不同形式。Step3:生成规则集,通过展开各个规则可以看到其中的具体内容。决策树地图:经过Clementine操作可得下面的决策树:生成的规则集:规则用于 无 - 包含 2 个规则规则 1 用于 无 if 年龄 = 31-40 and 性别 = 男 then 无规则 2 用于 无 if
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 视频文件标签管理办法
- 个人贷款期限管理办法
- 中国毒性中药管理办法
- 融通代管项目管理办法
- 2025年移动医疗APP用户留存与转化策略研究报告
- 2025年直播带货在服装零售行业的应用与创新模式研究报告
- 2025年中国邮政集团甘肃省分公司社会招聘备考考试题库附答案解析
- 2025江苏镇江市市级机关遴选和选调公务员31人备考考试题库附答案解析
- 机井工程合同(标准版)
- 互联网+宠物用品销售合作协议
- 《新能源汽车概论》课件-项目一 新能源汽车的认知与发展趋势
- 泰戈尔简介课件
- 2025年继电保护实操考试题带答案
- (2025)国库知识竞赛题库及答案
- (2025年标准)产假提前上班协议书
- 医院价格委员会管理制度及实施
- 2025年重庆市面向社会公开选拔社区专职工作者后备库人选考试(综合知识)历年参考题库含答案详解(5套)
- 《全球哮喘管理和预防策略(GINA 2025)》解读
- 2025年广东省中考语文试卷(含答案解析)
- 山东淄博小升初数学真题试卷
- 网约车公司风险管理制度
评论
0/150
提交评论