




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在高校学生成绩分析中的应用研究论文 摘要:本文主要讨论的是决策树挖掘技术在学生成绩分析中的应用。通过确定数据挖掘的对象、数据选择、数据分类挖掘,最后由决策树产生分类规则,得出挖掘结果和运用这个结果的指导作用。希望本文的研究能够为相关领域提供一些指导和帮助。 关键词:数据挖掘;高校学生;成绩分析 1.确定数据挖掘的对象 本文数据挖掘的对象主要是以本人所授的大学计算机基础课程的数据为例,对象是本校学生,总人数250人,采用授课方法是在机房上课,周学时为三节课。根据学生的基本情况来分析挖掘出哪些因素对学生的学习成绩是有影响的,如性别、基础程度、每周上机时间、生源地、出勤情况等等,分析考试成绩为在优、良、中、及格、不及格这五个等级之间分布的学生人数与上面哪些因素有关系,并希望用得到的分析结果来指导今后的教学工作,提高教学质量、改革教学方法。 2.数据选择 2.1学生的基本情况信息 数据结构包含以下属性信息:学号、姓名、性别、专业、家庭住址、籍贯、联系方式、班级、生源地。这些信息可以通过学院的“学生教务管理信息系统”来获取,存入“学生基本情况数据库”中,内部的数据结构包含以上九个属性。 2.2需要向学生调查的数据信息 需要调查的信息包括:对计算机课程是否感兴趣、基础程度、每周上机时间等。这些信息是通过对学生的调查才能得到。把调查所得到的数据存放到“调查信息数据库”中。“调查信息数据库”的数据结构包含以下属性信息:学号、姓名、是否对计算机课程感兴趣、基础程度、每周上机时间五个属性。其中是否对计算机课程感兴趣属性有感兴趣、不感兴趣两个属性值;基础程度属性有好、一般、差三个属性值;上机时间量有0、1、12、2四个属性值。 2.3学生的考试成绩数据 学生的考试成绩是教师在期末考试后统计的,通过学院已有的“教务管理系统”来完成录入收集的,其数据结构包含以下内容:学号、姓名、专业名称、班级、课程名称、成绩。录入的学生成绩保存在“学生成绩数据库”中,数据结构包含以下属性:学号、姓名、专业、成绩四个属性。 3.数据分类挖掘 数据分类挖掘的主要目的就是要建立学生成绩分析决策树的模型。 3.1算法的选择 本文运用决策树技术的两个经典算法ID3算法和C4.5算法,因ID3算法是利用信息增益,作为分类评价函数来选取最优属性,这种选择容易倾向于选择取值较大的属性,但取值较大的属性并不一定是最重要的属性。且ID3算法只能处理离散值的属性,没有考虑数据中的缺值问题。C4.5算法能有效处理数值的离散化,考虑了缺值问题,因此选用了C4.5算法建立决策树进行数据挖掘分析。 3.2建立决策树模型 用于挖掘的学生成绩表中的属性很多,本文选取了与成绩属性相关性较大的性别、基础程度、每周上机时间三个属性作为建立成绩分类决策树模型的依据。建立决策树模型的步骤如下: (1)对每个属性分别计算该属性的信息增益率。 (2)选取信息增益比率最大的属性作为根结点,并按其值划分数据集合,如果该属性只有一个值则停止划分。 (3)对划分的每个子数据集递归执行(1)(2)。 4.生成分类规则 决策树的最大优点是能直接提取分类规则,可以以IFTHEN形式的分类规则表示。IFTHEN规则易于理解,特别是当给定的决策树很大时很实用。提取IFTHEN规则的主要做法是:对从根到叶节点的每条路径创建一个规则,沿着给定路径上的每个属性值对形成规则前面部分的一个合取项。叶节点包含类预测,形成规则的后面部分。 5.决策树挖掘结果分析 通过应用决策树算法对学生成绩进行析,可得如下结论: (1)基础程度好的学生且每周上机时间不少于1小时的学生,成绩基本上都是优秀的。 (2)基础程度一般的学生且每周上机时间不少于1小时的学生,成绩基本上是良好的。 (3)基础程度一般的学生且每周上机时间小于1小时的学生,成绩基本是属于中等水平。 (4)基础程度差的学生但每周上机时间不少于1小时的学生,成绩大部分集中在及格左右。 (5)基础程度差的学生且每周上机时间少于1小时的学生,成绩基本上都是不及格。 (6)而从结果来看性别是不能决定成绩的。 6.决策树方法分析结果的指导作用 通过对学生成绩的决策树分析,教师可以了解到哪些因素对学生成绩有影响,根据这些影响因素,教师可以在今后的教学过程当中进行课程改革、改善教学过程当中的不足之处,可以提高学生的学习成绩,学到更多的知识。 从生成的分类规则,可以了解到,学生基础程度好且能保证每周有相当的时间来学习,那么这样的学生成绩基本上都是优秀,而基础程度差且每周能用来学习的时间比较少的那些学生,成绩基本上是属于不及格的。而基础程度一般且每周用来上机的时间相对比较多的学生,成绩大部分是集中在中、良这两个阶段。基础程度一般且每周用来上机时间比较少的那部分学生,成绩集中在及格与不及格之间。所以可以知道学生的基础程度好与差、每周能用来学习的上机时间的多与少,是影响学生成绩的主要因素。但性别不是影响学生成绩的主要因素,从决策树来看,无论从哪个分支都看不出是男生成绩好还是女生成绩好,所以性别不是能影响学生成绩的主要因素。 针对这些主次要因素,教师在教学过程当中要进行适当的教学改革。而不能再用传统的教学方法,不管基础程度好与差,一概而论;也不管学生对知识掌握与否,一堂课都是老师在讲,学生只能听。这样会使程度好的学生因为没有新知识可学而失去对这门课的兴趣,而程度差的学生因为听不明白、学不到知识,也对这门课失去兴趣,结果会使整体的教学效果不好,学生的成绩没有得到提高,因此教师要改变这样的传统教学模式,才能提高学生对知识的掌握。改革的重点是要把程度差和程度好的学生进行分开教学,对于程度好的学生可以做一些更深层次的授课,而程度差的学生在授课的时候就要有针对性的授课,必须做到提高学生学习的积极
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省凉山彝族自治州2026届化学高二上期末经典模拟试题含答案
- GB∕T 24353-2022 《风险管理 指南》之10:“6风险管理过程-6.7记录和报告”专业深度解读和实践应用培训指导材料(2025C1升级版)(可编辑!)
- 民法典解释课件
- 2025年CPA考试会计科目冲刺押题卷含考点预测
- 2025年公共营养师考试冲刺押题专项训练试卷
- 2026届山东枣庄八中高三化学第一学期期末达标检测试题含解析
- 测试工程师的岗位职责是什么
- 岩土面试题目及答案高中
- 智能穿戴行业市场分析报告
- 云南省玉溪市新平一中2026届高三化学第一学期期中经典试题含解析
- 初中军训方案
- 2023年起重机械检验员资格考核试题及答案
- DLT 671-2010 发电机变压器组保护装置通.用技术条件
- 文物行业操作人员安全培训
- 养老院安全培训课件
- 《数理经济学讲义》课件
- 工程造价咨询服务方案(技术方案)
- 立式气液分离器计算
- 高中休学半年后复学申请书
- 旧变压器移位专项方案
- 订单采购模板
评论
0/150
提交评论