基于C0决策树进行分类预测_第1页
基于C0决策树进行分类预测_第2页
基于C0决策树进行分类预测_第3页
基于C0决策树进行分类预测_第4页
基于C0决策树进行分类预测_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘课程论文基于C5.0决策树进行分类预测任课教师姓名所在学院专业名称论文提交日期所在高等院校1、引言随着高校招生规模的扩人和信息化程度的提高,社会调查机构以及高校管理机关搜集了大量数据,这些数据中蕴涵有人量有价值的规律,挖掘这些规律并应于招生,教育资源的合理利用方面,可促进教育事业的良好发展,使其科学化、合理化、系统化,将数据挖掘技术应用于高校等级划分排名上,可以客观的评价一所学校的竞争力,为高校自身提供了改进的参考,为国家对高等教育事业进行政策制定提供了可靠依据,同时为广大高考毕业生填报志愿提供了参考。对高校自身的改革和发展的培养等方面具有重要的作用和意义。国内已有部分研究者以C5.0

2、决策树为数据处理模型面向高校综合等级排名信息开展了数据挖掘工作,应用于高等院校评价、高校管理决策、教学资源决策、毕业生就业指导、个性化人才培养等领域,向决策者、高校和同学提供信息支持,有利于推动学校资源的优化和建设的全面发展。本文尝试将C5.0挖掘技术应用于高校评级,发现高校各种资源之间的相关性规律。以发现的规律为依据,分析学校各种资源配置,提出有针对性的高校评级信息,以提高高校建设的预知性,为同学合理地选择报考学校、高校自身性建设提供了参考依据。因评级预测信息具有很强的针对性,简单地应用C5.0挖掘技术难以解决问题。为此,本文开展了以下工作:提出了一种基于C5.0决策树的预测评级模型,以系统

3、地进行评级预警分析,以现实数据为数据源,开展实验研究。验证所提出的模型和方法的有效性。2.C5.0决策树算法(1)决策树是一种类似于流程图的树结构,其结构是一棵倒置的树,它主要围绕生长和剪枝两大核心问题展开.决策树获取的知识用树的形式表示出来,其中包括分类树和回归树,分类或预测的结果均体现在决策树的叶节点上.分类树叶节点所含样本中,其输出变量的众数类别就是分类结果;回归树叶节点所含样本中,其输出变量的平均值就是预测结果.决策树直观易懂且其归纳学习和分类步骤简单快速,并且具有很好的准确率.(2)C5.0算法最为典型的决策树学习算法是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树.C4.

4、5是改进后的原始决策树分析ID3算法,而C5.0与C4.5不同之处在于C5.0可以处理多种数据类型,包括了日期(date)、时间(times)、时间戳(timestamps)、序列(discreteattributes)等等.除了处理数据部分丢失的问题,C5.0还可以将部分属性标记为不适合,以使得分析时仍能保持资料的完整性.C5.0可用来处理数值型或分类型的资料,它的分类预测是基于逻辑的,即通过对输入变量取值的布尔比较实现对输出变量的分类预测,在众多的输出变量中选择一个当前最佳的分组变量,并从分组变量的众多取值中找到一个最佳的分割点.且为了清楚的表示分析结果,可用决策树(decisiontre

5、es)或是if-then的关系显示.C5.0基本算法可以描述如下,设R是非标称属性集;C是标称属性;S是训练集;trees()是决策树生成的函数:trees(R,C,S)函数返回值类型为决策树/*相关定义*乜|j=1,2,m为属性D的值;*包|j=1,2,m)为S的子集,分别包含属性D的不同值d;*/if(S为空)then返回单一失败节点;if(R包含的记录的标称属性值均相同)then返回具有该标称属性值的单一节点;if(R为空)then返回用S的最常见值赋值的单一节点;/*此时为出错,记录没有被适当分类*/在R中找寻具有最大信息增益的属性D;生成一棵以D为根的树,分支为d1,d2,,dm;递

6、归调用函数trees(R-D,C,S);trees(RD,CS);,trees(R-D,C,Sm);)3 .基于C5.0算法的决策树构造3.1 数据预处理本文原始数据为2011年全国师范类大学的综合各项的测评分数,对其综合资源、成果、学生情况、教师资源、物资资源进行统计分析,观察是否有缺失值,观察后发现在数据中,发现资源和成果两项缺失值过多,所以不对着两项进行处理.将处理后的数据记录到一个EXCE仪件中,作为分析数据源.3.2 建立决策树并分析本文利用这些数据,来建立综合、学生情况、声誉、教师资源、物资资源和学校等级的关系决策树模型,从而对决策树模型的建立与挖掘工程进行详细的分析.挖掘过程采用

7、SPSSClementine作为工具,在Clementine中建立的挖掘模型,如图1所示.图一数据挖掘模型由于经过决策树分析的数据是历史数据,因此,需要检验这些决策是否能套用在参加考研的分析中,所以所建立的模型分为训练数据和测试数据,训练数据是在产生决策规则的过程中,用于进行训练决策规则的数据,训练错误率指的是在决策规则产生后,将这些训练数据放到决策规则中发生错误的比率(及实际资料的分类与按决策规则进行分类的结果不同);测试数据是已经产生决策规则后,用来进行测试新决策规则属于原本的训练数据集,测试错误率则是指使用测试数据后产生的错误比率.这两种错误率将会在决策规则验证时作为各种不同分析的比较指

8、标.在该模型中将训练数据、测试数据分别占50%,则训练样本个数大约为40个,测试样本个数大约为40个,数据分区如图2所示:等级的分析目叵区I3文件®二翁辑回Hl®3®!队全部折费(C)能全部展开(E)I-输出手段等侬的结果各比较$C-等皴与等级;芬区T_»正错总确谍计3485%3587.6%615%512.5%4040分析注解图三C5.0挖掘分析结果4 .基于C5.0算法分析结果C5.0算法的分析结果如图二所示,从图中可以明显得出C5.0算法的训练分析错误率为15%和测试分析错误率为12.5%,算法错误率不算高,综合排名决定了其等级的排名情况。5 .结束语本文首先分析了数据挖掘技术应用于日常生活和教学质量监督的必要性,进一步对数据挖掘中的决策树算法C5.0决策树算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论