版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树算法在高职院校成绩分析中的应用研究的论文摘要:高职院校的学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文研究了使用决策树算法对学生的成绩进行挖掘分析,分析学生的毕业设计成绩与基础类课程、专业类课程以及专项实践类课程之间隐藏的内在联系,指导教师在今后的教学中加强学生实践操作能力的训练,进而提高教学质量。关键词:决策树;ID3算法;数据挖掘;学生成绩分析引言高职院校在多年的教学和管理工作中,积累了大量的教学管理数据,这些数据中蕴含了很多有价值的信息。如果利用数据挖掘技术对学院教务管理系统中教师和学生的数据进行挖掘,可以使教师更好的把握学生、把握教学过程,实现教学过程动态化管理,为学校合理设置课程、优化教育资源配置、提高教学质量提供可靠的数据依据,同时对提高学校教学和管理水平也有一定的帮助。[1]数据挖掘(DataMining),即数据库中的知识发现,就是对庞大的数据集或数据库进行分析,挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则,可以为用户提供决策的依据[2]。决策树算法是数据挖掘的核心算法之一,决策树方法以树型结构表达最终分类结果的,也能生成If-Then形式的规则,便于使用者理解。在教务管理系统中,学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文中研究使用决策树算法对学生的成绩进行挖掘分析,全面地分析学生的毕业设计成绩与实践类课程、专业类及基础类课程中隐藏的内在联系,体现出学生课程之间有一定的相互关联关系,可以及时指导教师在以后的教学工作中采取恰当的方法,加强学生实践操作能力的训练,指导学生进行专业、基础类课程的学习,提高教学质量。决策树算法2.1决策树算法基本概念决策树是一种常用的、直观的分类归纳算法。决策树是一种类似流程图的树状结构,根据层次的不同,结点分为根结点、内部结点和叶结点三种类型。[3]每个结点对应一个样本集,树的最高层结点就是根结点,对应整个样本集,内部结点对应一个类标志。根结点和内部结点都包含一个对样本属性的测试,根据测试的结果将样本集划分为两个或多个子集,每个子集生成一个分支,分支用测试属性值来标识。叶结点包含一个类标志,表示对应样本集的类别。决策树的中间结点通常用矩形表示;而叶子结点常用椭圆表示。决策树的构造包括两个步骤,一是生成决策树,二是进行剪枝。决策树的生成是从一个根结点开始,从下到下的递归过程,通过不断地将训练样本分割成子集来构造决策树,从根结点开始对该样本的属性进行测试,根据测试结果确定下一个结点,直至到达叶结点为止。决策树的剪枝是对树结构进行修剪,删除多余分支的过程,得到一棵最小期望错误率的决策树。2.2ID3算法ID3算法是决策树学习算法中最有影响力、使用最广泛的一种决策树算法。ID3的基本思想是自顶向下递归地使用搜索训练样本集,是一种典型的贪心算法,在决策树的每个结点处测试每一个属性,用信息增益作为属性的'选择标准,选择信息增益最大的属性作为决策树结点,从而构建决策树。[4]在算法中,在决策树结点属性的选择上使用信息论中熵(Entropy)的概念来完成。2.2.1信息熵信息熵是各自信息量的期望,用信息熵可以用来度量整个信息源X整体的不确性。设样本数据集为X,n是信号源所有可能的符号数,ai是可能取到的值,P(ai)是取值为ai的概率。其信息熵如下:2.2.3平均信息增益信息增益表示两个信息量之间的差值,在进行分类属性的选择时,应该选择最大的信息增益作为分类属性。信息增益如下:Gain(XY)=H(X)-H(XY)决策树算法在教学质量分析中的应用学生的毕业设计通常是学生对三年来所学的各种基础素养类课程、专业类课程、专项实践类课程的综合掌握,是体现一个学生的综合素质的重要依据,也是教师培养学生的教学质量的重要体现。因此,通过对学生的毕业设计和各种基础课、专业课及专业实践课的考试成绩的挖掘,分析出其中的关系,为今后教师调整教学方案提供依据。决策树算法对学生成绩进行分析,是将决策树的相关算法应用于学生成绩挖掘,对大量的考试成绩数据进行分析,从而更好的分析和预测成绩数据。[5]其主要过程如下:3.1数据收集数据收集阶段主要工作是从教务管理系统中收集与挖掘相关的学生成绩数据,并进行简单的统计分析,检查这些学生成绩数据是否完整。在进行数据挖掘之前,主要收集了我院2008级软件技术专业0801班42名学生不同学期的课程成绩作为原始数据,一共选择了9门课程。学生成绩表的主要内容包括学号及各门课程成绩。进行分类整理后,得到学生成绩数据表。学号计算机网络基础C语言程序设计WEB开发技术数据库原理与应用程序设计C#程序设计数据库设计与开发基于C#的应用程序设计基于C#的Windows应用程序设计毕业设计100080563808076749089良好良好良好中等100080575858688769294良好优秀优秀优秀100080593607595697980中等及格及格及格其中计算机网络基础、C语言程序设计、WEB开发技术三门为基础类课程,数据库原理与应用程序设计、C#程序设计三门为专业类课程,数据库设计与开发、基于C#的应用程序设计、基于C#的Windows应用程序设计三门为专项实践类课程。3.2数据预处理数据预处理的主要工作就是检查数据库中不完整的、含噪声的,不一致的的数据,并且进行清理,除去噪音,填补记录中遗漏的数据值、删除无效数据等,提高挖掘算法的精度和有效性。并且要对数据进行转换,生成新的属性或记录,使之适合数据挖掘处理的格式,预处理后的数据可以节省数据处理的时间。在学生成绩表中,对学生因缺考、缓考、违纪、休学、退学等情况产生的成绩记录的缺失,可考虑进行清理,删除这些记录,确保表格数据的完整。最后形成有效数据共42条记录。3.3数据转换将收集到的数据信息转换为一个数据模型,决策树算法中使用的是离散型数据,学生成绩是连续型的,因此,要将其数据属性进行离散化处理。学生成绩的成绩评价指标可分为三个等级,A:85-100(优秀),B:70-84(良好),C:69以下(一般)。离散化后的学生成绩表如下图所示:学号基础课专业课专项实践课毕业设计100080563BBB100080575AAAA100080593BCCC3.4数据分类挖掘根据生成的分析模型,利用决策树算法对数据进行挖掘,具体情况如下。学生成绩表中样本类别属性为毕业设计,首先计算出毕业设计的信息熵。毕业设计成绩分为A(优秀)、B(良好)、C(一般)三种类别,其中优秀为3人,良好为28人,一般为11人,根据公式计算其信息熵如下:(3)根据专项实践课成绩计算条件熵。专项实践课成绩为〃A〃人数为7人。其中毕业设计成绩为〃A〃的2人,为"B〃的5人,为〃C〃的0人。专项实践课成绩为〃B〃人数为25人,其中毕业设计成绩为〃A〃的1人,为〃B〃的16人,为〃C〃的8人。专项实践课成绩为〃C〃人数为10人。其中毕业设计成绩为〃A〃的0人,为〃B〃的7人,为〃C〃的3人。因此其条件熵为:H(X专项实践课)二=1.022其信息增益为:Gain(专项实践课)=1.168-1.022=0.146由上述计算可见,专项实践课成绩属性所获得的信息增益最大,被作为根结点,并依次取专业课成绩、基础课成绩属性做为分支结点。通过构造和剪枝后,形成如图所示的决策树:3.5结果分析通过对上述决策树的分析,可得出如下结论:专项实践、专业课、基础课成绩均优秀的同学,毕业设计成绩优秀。专项实践优秀、专业课成绩一般的同学,无论基础课成绩如何,毕业设计成绩均为一般。由决策树分析可见,专项实践、专业课、基础课在学生的综合素质的培养中起到了不同程度的作用。专项实践课对学生的综合能力的培养有重要的影响,但不是绝对因素,基础课和专业课的教学安排,对学生的实践能力的训练起到了很大的支撑作用。因此,在专业的课程安排和教师的教学组织中,要注重学生的知识的学习与技能的训练的有机结合,提高学生的综合能力。4.结束语利用决策树分类算法的ID3算法对学生的成绩进行分析,构造出学生成绩分析决策树,可以挖掘出学生的毕业设计成绩与基础课程、专业课程、专项实践课程之间的隐藏关系,同时也挖掘出各类课程的学习对学生综合素质培养的影响。教师可以根据分析结果在今后的教学过程中,注重加强学生的专业能力培养、实践能力训练,培养出合格的高端技能型人才。参考文献:丁智斌,袁方,董贺伟•数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计.2006.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- FM收音机电路原理分析课程设计
- 贝叶斯网络在医疗诊断中的建模前沿课程设计
- 基于LBS的附近商家系统边缘计算课程设计
- 单片机温湿度系统优化方案课程设计
- 《既有建筑民俗空间数字化展示建设方案》
- 数字示波器设计(FPGA实现)性能优化课程设计
- 饮用水管网巡检维护管理方案
- 污水管网新建项目建议书
- 市政雨水管网施工方案
- 一般工业固体废物渗滤液收集方案
- 2026山东青岛城市建设投资(集团)有限责任公司招聘9人笔试历年常考点试题专练附带答案详解
- 2026年军事高技术练习题带答案详解(精练)
- 2025年国企常见面试题及参考答案
- 知识产权合规管理体系建设方案
- 2026百万英才汇南粤广东东莞市东城社区卫生服务中心招聘纳入岗位管理编制外人员12人笔试备考试题及答案解析
- GB/T 16301-2008船舶机舱辅机振动烈度的测量和评价
- GB/T 1185-2006光学零件表面疵病
- 商务星球版七年级下册地理知识点归纳
- 公司治理课件讲义
- 大学生心理健康教育考试题库(200题)
- 第二章幼儿的生长发育课件(1)市公开课金奖市赛课一等奖课件
评论
0/150
提交评论