数据挖掘技术在中小学成绩分析中的应用研究_第1页
数据挖掘技术在中小学成绩分析中的应用研究_第2页
数据挖掘技术在中小学成绩分析中的应用研究_第3页
数据挖掘技术在中小学成绩分析中的应用研究_第4页
数据挖掘技术在中小学成绩分析中的应用研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目数据挖掘技术在中小学成绩分析中的应用研究姓数据挖掘技术在中小学成绩分析中的应用研究摘要随着科学技术的不断发展,数据挖掘技术被应用于各个领域。在非常多的领域取得了不错的效果。现如今,教育行业也开始尝试使用数据挖掘技术来应用于学生成绩的分析、教学管理系统的改进等。本文从数据挖掘技术出发,介绍了数据挖掘的概念、方法。流程等。应用关联规则和决策树算法对中小学成绩进行了分析和预测,取得了较好的效果。关键词:数据挖掘;关联规则;决策树;中小学成绩AbstractWiththecontinuousdevelopmentofscienceandtechnology,dataminingtechnologyhasbeenappliedinvariousfields.Ithasachievedgoodresultsinmanyfields.Nowadays,theeducationindustryisalsotryingtousedataminingtechnologytoanalyzestudents'performanceandimprovetheteachingmanagementsystem.Startingfromdataminingtechnology,thispaperintroducestheconceptandmethodofdatamining.Processandsoon.Theresultsofprimaryandsecondaryschoolsareanalyzedandpredictedbyassociationrulesanddecisiontreealgorithm,andgoodresultsareobtained.Keywords:datamining;associationrules;decisiontree;primaryandsecondaryschoolperformance目录27103摘要 427296Abstract 4253911绪论 5541.1研究意义 5285341.2国内外研究现状 5326172数据挖掘相关知识 5257042.1数据挖掘概述 5115392.2数据挖掘方法 624412.3数据挖掘流程 6144543关联规则算法在中小学成绩中的应用 7192173.1关联规则概述 777153.2关联规则步骤 7317933.3关联规则的应用 7123314决策树算法在中小学成绩中的应用 8281624.1决策树概述 868094.2决策树算法步骤 9184764.3决策树算法的的应用 9134055总结与展望 9绪论研究意义数据挖掘技术是一个多门学科交叉融合的学科,可以在大量的数据信息中,提取有用的数据信息。随着信息技术的不断发展,数据挖掘技术被应用于各行各业[1]。中小学积累了很多学生的用户数据及成绩信息,如何利用这些信息,从中提取对教学有用的方法,提高办学成绩,是一个待解决的问题。数据挖掘的目的不仅是在海量的数据中挖掘知识规律,最重要的还是懂的如何利用这些规律,使其能充分被利用,创造出更好的价值[2]。本文利用关联规则算法和决策树算法,将他们和中小学考试成绩的分析结合起来,发掘出他们之间潜在的规律,有很重要的现实意义[3]。通过利用数据挖掘技术,可以得到影响学生成绩的重要因素,从而学习可以根据得到的结果指定合理的教学计划。除此之外,发现成绩之间的潜在规律,还可以有效的帮助学生提高成绩,取长补短。可以为学校的课程规划提供依据,帮助学校提高教学水平。国内外研究现状数据挖掘的概念最早是在八十年代提出的,这个概念一开始就受到了国际各大期刊,会议的重点关注。很短的时间内,发达国家救灾数据挖掘领域取得了非常多的成果。并且将数据挖掘技术运用在商业领域,研究消费者的消费习惯,个性化推荐等。近些年来,在很多学校也开始应用数据挖掘技术,例如帮助学生选课、预测学生毕业后各个专业的就业情况等[4]。我国对于数据挖掘技术起步比较晚,但是近些年来,在教育行业对数据挖掘技术研究也日益增多起来;董欢、刘志妩针对学生的期末考试成绩,利用决策树算法建立了分析预测模型,能够通过模型完成对成绩较为准确的预测分析[5]。丁勇、武玉艳等通过决策树算法对学生成绩进行分类预测;申义彩、杨枫等应用关联算法对不同科目之间的成绩进行了分析[6]。数据挖掘相关知识数据挖掘概述数据挖掘技术是一个融合了很多专业技术的学科,其中包含统计学、机器学习等方面各学科的信息[7]。数据挖掘的主要作用就是从大规模、杂乱无章的数据中提取出有用的信息。主要内容包含如下[8]:首先要挖掘的信息必须是有用的信息,不是无效信息。其次原始的数据源必须是真实可靠的,不是虚假数据,这样所做的挖掘才有意义。挖掘的目的并不是挖掘所有的只是和规律,也不是纯粹的挖掘数学公式,而是在某些特定的条件下,发现特定的有价值的知识。数据挖掘方法数据挖掘的方法有很多,主要目的有的是为了挖掘关联关系有的是为了预测某种行为,下面介绍几种比较常用的数据挖掘方法。分类:分类技术主要是指从特定的数据源中寻找特定的分了方法,数据源中含有众多的字段,每一个字段代表不同的属性,其中有连续性数值也有离散型数值。分类中常有的算法,主要有决策树模型、神经网络模型。随着组合模型的不断发展,随机森林、adaboost,xgboost这些组合的分类模型也被广泛应用。本文将使用分类算法中的决策树模型对学生成绩是否通过进行建模[9]。通过样本数据分析和模型找到影响学生成绩的主要和直接影响因素,预测分类结果,为学校教务教师课程设计和安排提供辅助决策。聚类:根据规则将数据源划分为若干个子集,每个子集都有很强的相关性。总的来说就是将越相似的数据化为一组。使得具有相同或相似特征的数据组成新的集合。主要作用可以用来用户分群,划分到每个子集的用户具有较大的特征,而不同自己的用户差异较大。较常用的聚类算法有kmeans算法,dbscan算法等[10]。关联规则:关联规则用来发现数据集中不同数据项的关联性。发现数据潜在的隐藏关联关系。例如在淘宝、京东购买东西时,推荐列表推荐的东西就和用户浏览或者购买过的商品有某种关联,这些都是用数据挖掘算法计算得出的。本文将使用经典的关联算法Apriori来推算不同课程直接的关联性[11]。预测:利用已知数据集规则来推算新的数据集规则,比如可以用来进行销量预测等,学生入学人数预测等。数据挖掘流程数据挖掘技术是知识发现的过程,一般流程为数据准备和数据清洗、数据发现和采集、数据结果表示和解释(1)数据准备在数据挖掘整个过程中,数据准备和数据清洗是非常重要的步骤,大概可以占到数据挖掘整个流程工作的50%工作量。数据集成是将一个或多个数据库中的数据、一个或多个文件进行数据整合,这个步骤主要是消除数据中的噪声、消除数据间的不一致和模糊性。数据预处理主要包含数据空值处理、数据异常值处理、数据标准化、数据规约等[12]。这部分主要是将数据处理成数据挖掘可以用的数据。提高数据质量。将不符合规则的数据进行删除或者替换。(2)数据探索数据探索对预处理完后的数据进行探索分析,发现其规律。探索和目标变量的关系,探索变量和变量之间的关系。(3)算法选择根据不同的目标选择合适的算法,如何选择适合的算法将直接影响数据挖掘的结果。数据分类常用的算法有贝叶斯算法、决策树算法、神经网络算法等。聚类常有的算法有kmeans算法、基于划分的算法、基于层次的算法等。序列的算法有时间序列算法。关联算法常用来发现事物之间的存在的关联性[13]。(4)结果评估数据挖掘最后要对挖掘的结果进行评估,实际验证。以此来评估模型的好坏。还要根据数据挖掘的结果形成分析报告,给出准确的表达和解释。数据挖掘的结果会有很多,这一过程要求挑选出客户最关心的数据进行表达,而去除客户不关心的数据,以减少数据过多带来的烦扰。如果客户对最终的数据结果不满意或者有数据遗漏,则需要重复以上步骤对数据进行新一轮的数据挖掘直至结果满意[14]。关联规则算法在中小学成绩中的应用关联规则概述关联规则在数据挖掘领域是一个经常被用到的算法。主要用来计算一个事物和其它事物之间的关系,从而得出一些使用的规则。最早的关联规则的剔除就是购物篮问题,主要目的是发现商场中不同商品之间的关联,帮助上架分析顾客的购买习惯,从而可以帮助上架排货。最著名的关林规则就是沃尔玛超市的啤酒和尿不湿。合理的利用关联规则,可以同时增加两者的销售量,对市场营销有很重要的价值[15]。关联规则步骤首先一个要有一个数据库D,里面包含了一些可能有关联的商品。管理规则挖掘的主要目的,就是计算最小支持度和最小置信度。主要的挖掘过程如下:首先,从数据库中找出所有大于最小支持度的频繁项目集。其次,利用第一步所得到的频繁项目集合最小支持度计算出关联规则。第一步是整个算法的核心。如何快速专区的找出所有频繁项目集,是关联规则的挖掘标准[16]。关联规则产生的计算结果,可以是一对一的关系,也可以是多对多的关系。并且可以根据需求设置置信度和支持度的阈值,来筛选关联规则的数量。关联规则的应用本文利用关联规则。选择python中的Apriori算法包来分析一些不同课程之间可能存在的关系。数据来源主要来自某所学校的期末考试成绩,主要有三门学科,语文、数学、英语。随机抽样了200名学生。数据如下表所示。学号语文数学英语18790802788175393888547469705869088665626678884828797278987899210768182……由于关联规则只能处理离散型变量,不可以处理连续型变量所以对原始数据进行处理,将考试分数大于80分的标记为良,原始数据变为如下格式。学号语文数学英语11112010311140005111600071118000911110011……代入关联规则算法最后计算得出找出满足最小置信度阈值50%的规则,最终产生的强关联规则如下:(1)英语良好时,数学、语文也是良好的概率值大于50%;(2)数学、英语良好时,语文也是良好的概率值大于66.1%;(3)语文、英语良好时,数学也是良好的概率值大于74%;某些课程学的好会促进另一些课程的学习,根据挖掘规则,我们可以得出一些课程之间存在的关联关系。通过计算结果,可以发现一些课程的好坏可能会影响其他一些课程的成绩。例如当一个学生的英语、语文成绩非常好时,这个学生数学好的概率可以到74%。从此条结论也可以推算出,可能会有部分的学生存在偏科现象,这些计算结果对于提高教学质量都有很好的借鉴意义。决策树算法在中小学成绩中的应用决策树概述在数据挖掘算法中,分类算法有很多。比较著名的有基于概率的贝叶斯算法、神经网络算法、决策树算法等。决策树算法计算速度较快,并且得出的结论具有很好的解释性。不同于神经网络速度较慢,并且是黑盒算法,对于算法的解释很难。本文利用决策树算法对学生考试成绩进行分析。决策树是通过计算信息嫡选择分裂属性的,而信息嫡正是该属性重要性的度量标准[17]。从直观上看,决策树结点越接近根结点,该结点所代表的属性就越重要,相反结点所代表的属性对此次分类的作用就越小。决策树算法步骤决策树算法是一种以实例为基础的数据挖掘分类算法,决策树算法从一组无规则、无次序的数据入手,生成分类规则以对未知数据进行分类、预测。在决策树中,每个叶结点都赋予一个类标号。非终结点(包括根结点和内部结点)包含属性的测试条件,用以分开具有不同特性的记录[18]。决策树算法构建决策树的过程采用的是自上而下的递归的方式。换言之在实际的研究中,构建决策树则是将数据根据某种属性进行分类的过程。决策树算法的的应用本文采用决策树算法中C4.5算法对学生成绩进行分类处理,通过学生日常的学习情况以及上机情况等来预测学生考试成绩情况。研究数据同样采取抽样获取,通过基础程度、课程学习情况、课后的商机量等来预测学生成绩是否会良好。当学生的考试成绩大于等于80分时认定为良好,小于80分时认为否。学号课堂学习情况基础程度上机时间量成绩是否良好1完全掌握好3-5是2基本掌握一般≤3否3基本掌握差3-5否4不够好一般≥5否5很差好3-5否6完全掌握差≥5是7不够好好≥5是8基本掌握一般≤3否9不够好好3-5是10完全掌握一般≤3是11很差一般≥5否12不够好差3-5否13基本掌握好≤3否14基本掌握好≥5是……………原始数据按照1:3比例进行建模,分类为训练集和测试集。可以根据课堂学习情况,基础程度以及上机时间量来推算学生成绩的好坏。经过测试集验证,模型取得了很高的准确率,模型算法的准确率可以到83%。总结与展望数据挖掘技术主要是对海量信息进行处理,发掘有用信息的过程。如何采用不同的挖掘算法,依据不同的挖掘场景不同的挖掘目标而定。本文介绍了数据挖掘概念。利用关联规则和决策树算法对学生成绩进行了分析和预测。所做的主要工作主要如下:阐述了本文研究的背景以及数据挖掘在中小学成绩研究中的国内外现状。介绍了数据挖掘的基础概念,以及主要流程和挖掘步骤。利用了Apriori算法包来分析挖掘了学生的语文、数学、外语考试成绩之间的影响关系,最终产生关联规则,从而发现一些课程学的好会促进另一些课程的学习,反之,就会起到消极的作用。(4)利用数据挖掘中的决策树算法,来实现对学生成绩是否会取得良好的预测,取得了较好的准确率。通过本文的研究,初步实现了数据挖掘技术在高校学生成绩中的应用。但是,这其中仍然存在着许多问题,需要我们进一步研究:(1)原始数据数据量并不是很大,只是采取了某一学校的成绩。数据预处理的过程也不够完善,需要进一步优化。(2)实验过程中难免会产生一些误差。其原因在于数据属性选择的问题上,还有很多没有考虑到的因素,这些因素也可能影响学生的成绩。参考文献[1]陈明忠.基于数据挖掘的成绩管理系统的研究与设计[J].福建电脑,2009,8(5):120-121.[2]李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安石油大学,2010.[3]倪现君.基于数据挖掘分类技术的高校教学方法研究.科学技术与工程,2006,6(4):390-400.[4]邓娜,边小凡,数据挖掘及其在教学实践中的应用,河北农业大学学报2004,6(4):41-42.[5]孙艳数据仓库与数据挖掘技术在高校教学管理系统中的应用研究东营:中国石油大学2010.[6]陈昌川.数据挖掘在大学英语考试中的应用研究[D].重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论