版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、通过教育数据挖掘来分析学生成绩摘要:高等教育机构的主要目的是向学生提供优质教育。通过特定的课程的学生人数的预测,传统课堂教学模式的异化,在线考试不正当手段应用的检测,学生成绩表中异常值的检测,对学生的能力的预测等方式,来实现高等教育体系中的最高质量水平。这些结论是隐藏的教育数据组之间,通过数据挖掘技术可以提取出来。本文通过一个在高等教育系统的数据挖掘模型,证明了数据挖掘技术在高等教育领域的能力。在这项研究中,分类任务是被用来评估学生的表现,和许多数据分类的方法一样,决策树方法也被用在这里。通过这些,我们可以得到学生在学期末考试成绩。它有助于及时发现辍学的学生和需要特别注意的学生,并且允许教师提
2、供适当的建议/辅导。关键词:教育数据挖掘(EDM);分类;数据库知识发现(KDD);ID3算法。一、引言信息技术在各领域的出现使得大量的数据存储在各种格式,如记录,文件,文档,图像,声音,视频,科学数据以及许多新的数据格式。收集自不同的应用程序的数据需要适当的方式,才能够从大量的知识库提取信息,以此更好地进行决策的。数据库知识发现(KDD),通常称为数据挖掘,旨在从大量数据收集有用的信息 1 。数据挖掘的主要功能是应用各种方法和算法,以发现和提取数据存储模式 2 。数据挖掘和知识发现的应用已经得到了丰富的关注,由于其决策的意义,它已成为各种组织的重要组成部分。数据挖掘技术已被引入到数据库,统计
3、,机器学习,模式识别,人工智能和计算能力等新的领域。数据挖掘技术越来越多地被使用在教育研究领域。这个新兴的领域,称为教育数据挖掘, 着重于改进从来源于教育环境的数据发现知识的方式。3教育数据挖掘使用了许多技术,如决策树,神经网络,朴素贝叶斯,K-最近邻,和许多其他算法。通过这些技术,可以发现大量信息中的关联规则,对其分类和聚类。发现的知识可以用于对特定课程的学生人数的预测,传统的课堂教学模式的异化,用不正当的手段检测在线考试,学生的异常值检测结果表,学生等性能预测。本文的主要目的是利用数据挖掘方法研究学生的课程成绩。数据挖掘提供了许多研究学生成绩的方式。在此研究中,和许多数据分类的方法一样,分
4、类任务是用来评估学生成绩,决策树方法被用了这里。信诸如考勤、课堂测试、研讨会和作业的分数等信息被学生管理系统采集,来预测在学期结束时的成绩。本研究验证了决策树技术用于预测学生成绩的准确性。二。数据挖掘的定义及技术数据挖掘,也俗称为知识发现,是指从大量数据中提取或“挖掘”知识。数据挖掘技术被用来处理大量的数据,以此发现隐藏的模式和有助于决策的关系。虽然数据挖掘和知识发现数据库中经常被视为同义词,但数据挖掘其实是知识发现过程的一部分。在数据提取知识步骤如图1所示诸如分类,聚类分析,回归分析,人工智能,神经网络,关联规则,决策树,遗传算法,最近邻法等不同的算法和技术,被用于从数据库中发现知识。这些技
5、术和在数据挖掘方法需要有更好的理解。A.分类分类是最常用的数据挖掘技术,它采用一组预先分类的例子来开发一个可以分类大大量在录人员的模型。该方法通常采用决策树或神经网络的分类算法。数据分类过程包括学习和分类。在学习中,通过分类算法分析训练数据。在分类中,测试数据用以估计的分类规则的准确性。如果精度是可接受的,规则可以适用于新的数据元组。分类器的训练算法使用这些预分类样本确定适当的识别所需的参数设置。该算法将编码这些参数为模型,这个模型被称为分类器。B.聚类聚类可以说是同类对象类的识别。利用聚类技术,我可以进一步识别的对象空间中的密集和稀疏区域,并且可以发现数据之间的属性和关系的总体分布格局。分类
6、方法通常是区分组或类的对象的有效手段,由于其的稀有使得聚类可以被用作属性子集选择和分类的预处理方法。C预测回归技术可以用于预测。回归分析可用于模拟一个或多个自变量和因变量之间的关系。数据挖掘中自变量是已知的属性,响应变量是我们想要预测的。不幸的是,许多现实问题并不能简单的预测。因此,更复杂的技术(如:逻辑回归、决策树、神经网络)也许对预测未来值很有必要。相同的模型通常可以用于回归和分类。例如,分类回归(分类和回归树)决策树算法既可用于构建分类树(分类响应变量)还可用于构建回归树(预测连续响应变量)。神经网络也可以创建分类和回归模型。D .关联规则关联和相关通常用来在大型数据集中发现常用项目集。
7、这种类型的发现有助于企业做出某些决定,如产品目录设计、交叉营销和顾客购物行为分析。关联规则算法需要能够和小于1的信心值生成规则。但是对于一个给定的数据集,可能的关联规则数量通常是非常大的,并且在通常价值很低的规则(如果有的话)中占有高比例。E.神经网络神经网络是一组连接的输入/输出的单元组,并且每个连接都和它有个权值。在学习阶段,网络学习通过调整权重,能够预测输入元组的正确的类标签。神经网络有非凡的能力来自复杂的或不精确的数据,可用于提取模型和检测那些太复杂而无法被人类或其他计算机技术注意到的趋势。这些也都是适合持续有价值的输入和输出。神经网络在识别模式或趋势上是最好的,同时也适合于预测或预测
8、的需要。F .决策树决策树是代表决策的树形结构。这些决策生成数据集的分类规则。具体的决策树方法包括分类和回归树(CART)和x平方分布自动交互检测(CHAID)。G .最近邻方法最近邻方法是在一个数据集里的每个记录分类的一门技术,其中数据集是基于在历史数据集中最相似的k记录(或记录集)的组合类(k是大于或等于1)。有时也被称为k-最临近技术。三、相关工作高等教育中的数据挖掘是近年来兴起的研究领域,由于其在教育领域的潜力,越来越受到关注。Alaa El Halees 4 认为,在教育领域应用数据挖掘技术,可以提高我们的学习过程的理解,专注于识别、提取和评价与学生的学习过程。在教育领域的数据挖掘被
9、称为教育数据挖掘。Han和Kamber3认为,数据挖掘软件是允许用户从不同维度的数据分析、归类和总结、挖掘过程中发现的关系。Pandey和PAL 13 基于来自程度进行选取5个不同的大学600名开设印度法扎巴德(Faizabad India)的阿瓦赫(Awadh)大学DR.M. L. BCA(计算机应用专业)课程的学生进行学生成绩研究。通过对语言,背景条件运用贝叶斯分类,发现新来的学生是否进行表述。Hijazi and Naqvi 6在巴基斯坦Punjab大学附属学院进行了一组样本容量为300的学生成绩研究(225名男性,75名女性)。研究中假设, 学生的上课态度、课后基础学习的时间、学生的家
10、庭收入、学生的母亲的年龄和母亲的教育与学生的表现是相关的。通过简单的线性回归分析可以发现,如母亲的受教育水平和学生家庭收入等因素与学生学业成绩高度相关。Khan 7 在印度 Aligarh邦 Muslim大学的附属高中进行了一项400人(200名女性、200名男性)的研究,旨在建立不同的认知方式,个人因素和人口统计变量等因素在科学领域影响其成功的预期价值。该选择基于整体抽样技术,参加测试的人被分组或者集群,选择中随机抽取样本。结果发现,通常具有较高社会经济地位的女孩在科学领域内有较高的学术成果,而社会经济地位较低的男生亦然。GALIT 8 做了一个案例研究,使用数据分析学生学习行为来预测考试结
11、果并且在期末考试前警告有风险的学生。AL radaideh等人 9 在2005年应用决策树模型来预测在Yarmouk大学研究了C+课程的学生的最终成绩。三种不同的分类方法,即ID3算法,C4.5算法,和被用到的朴素Bayes算法。研究结果表明,决策树模型比其他模型能更好的预测。Pandey和PAL 10 以印度Faizabad邦 Awadh大学M. L. 博士的60名学生为研究对象。通过关联规则发现学生选择课程与课程的教学语言有关。Ayesha, Mustafa, Sattar and Khan 11描述了使用k-均值聚类算法来预测学生的学习活动。数据挖掘技术所产生的信息可以帮助教师和学生。B
12、ray 12,,在其私人辅导及其影响的研究中,发现在印度接受私人辅导的学生相对比例相比在马来西亚,新加坡,日本,中国和斯里兰卡高。有人还指出,学习成绩与私人辅导的力度和私人家教的强度这种变化增强取决于集体的因素,即社会经济条件。 Bhardwaj和PAL 13 基于来自5个不同程度的大学300名开设印度法扎巴德(Faizabad India)的阿瓦赫(Awadh)大学DR.M. L. BCA(计算机应用专业)课程的学生进行学生成绩研究。通过对17个属性应用贝叶斯分类方法,发现诸如在高中的考试成绩,居住地,教学媒体,母亲的资格,学生的其他习惯,学生的家庭年收入和家庭状况等因素和学生的学业成绩高度
13、相关。四、挖掘的过程在目前的教育体制,学生的表现是由内部评价和期末考核确定。内部评价是基于学生在教育活动中的课堂测试,研讨会,作业,老师的分配,一般的能力,出勤率和实验室工作业绩。期末考核是在学期结束考试学生得分。每个学生必须获得最低标记,通过一个学期内以及学期末考试。A.数据准备本研究中使用的数据集是从Jaunpur邦VBS purvanchal大学计算机应用部门MCA(计算机应用硕士)处抽样获得,研究时间从2007届到2010。原始数据大小是50。在这一步,存储在不同表中的数据在移除处理过程中的错误之后被整理成了一个表。B.数据选择和转换在这一步,选择需要数据挖掘的领域。一些衍生变量的选择
14、。有些信息是从数据库中提取的变量。所参考的预测变量和响应变量均来自了表一中给出的数据。表一 学生相关的变量变量 描述 可取值 PSM 上学期成绩1值 > 60% 2值>45 & <60% 3值 >36 & <45% 及格 < 36% CTG 课堂测试成绩 差 , 中等, 良好 SEM 研讨会表现差 , 中等, 良好 ASS 任务分配是, 否 GP 通用能力表现是, 否 ATT 考勤差 , 中等, 良好 LW 实验室工作是, 否 ESM 期末评价1值 > 60% 2值>45 & <60% 3值 >36 &
15、 <45% 不合格 < 36%在本调查定义的变量的域值被为如下:·PSM上学期成绩:上学期在MCA课程获得成绩等级。它分为五类:1值> 60%,60%2值45%,45%3值36%,不合格< 40%。·CTG课堂测试成绩:在每学期两次课堂测试,取两次课堂测试成绩的平均值作为标记。课堂测试成绩分为三类:差40%,40%中等60%,良好> 60%。·SEM研讨会表现所得:在每学期组织研讨会检查学生表现。研讨会表现分为三类:差演讲和沟通技巧是低,平均演示或沟通能力有一项好,良好演示文稿沟通能力都好。·ASS任务分配: 每个老师在每学
16、期分配给学生两项任务。任务成绩是分为两类:是的学生提交作业,否-学生不提交作业。·GP-通用能力表现,和研讨会一样,每学期都会组织。通用能力测试分为两类:是学生参加普通水平,没有学生不参加普通水平。·ATT学生考勤:少于70%的出勤率不能参加期末考试。考虑在特殊情况下,低出席的学生也参加期末考试的事实。考勤成绩分为三类:差60%,60%一般< 80% ,80%好。·LW实验室工作:实验室里工作分为两类:是学生完成实验室工作,否学生不完成实验室工作。·ESM -期末成绩:MCA期末成绩为响应变量。它分为五类:1值> 60%,60%2值45%,4
17、5%3值36%,不合格40%。C.决策树决策树中,每个分支节点树表示一批选择,每个叶节点代表一种选择。决策树通常用于获取决策制定的信息。决策树从一个含有用户可采取行动的根节点开始。从这个节点起,每个用户节点根据决策树学习算法递归分裂。最终的结果是一个每个分支代表一个可能决策和的的决策树。三个广泛使用的决策树学习算法:ID3, ASSISTANT and C4.5. D. ID3决策树ID3是一个一共由Ross Quinlan14开发的简单决策树学习算法。ID3算法的基本思想是通过采用自上而下,贪婪搜索通过给定集来测试每个属性在每个树节点来构造决策树。为了选择是分类的特定集合最有用的属性,我们引
18、入一个度量信息增益。寻找分类学习集的最佳途径,我们需要做的是尽量减少被问的问题(即最小化树的深度)。为此,我们需要一些量化函数,将问题进行最均衡的拆分。信息增益度量起这样的功能。E.测量杂质测量的纯粹性(或异构性)基于给定包含的属性和类的属性的表。如果它仅包含一个单独的类,我们就说纯粹的或一致的。如果一个数据表包含多个类,然后我们说这个表是不纯粹或异构的。有多个指标来衡量测量的杂质度。最著名的测度杂质指标是熵,基尼指数,和分类错误。Entropy(熵) = jpjlog2pj一个纯粹表的熵(包含单一类)为零,因为概率是1并且log(1)= 0。当表中所有类的概率相等时,熵达到最大值时。Gini
19、 Index(基尼指数) = 1-jpj2由单个类构成的纯粹表的基尼系数是零,因为概率是1并且1-12= 0。和熵类似,在所有的类表有相同的概率时,基尼指数也达到最大值时。Classification Erro(分类错误)=1-max P j 类似于熵和基尼系数,一个纯粹的表(包含一个单一类)分类错误索引为零,因为概率是1并且1-max(1)= 0。错误分类索引的值始终介于0和1之间。事实上,一个给定多个类的基尼系数的最大值总是等于其最大错误分类指数,对于多个类n,我们设其每一项概率是相等的p=1n ,并且当1-n1n2 =1-1n 时其基尼系数最大,当1-max1n=1-1n时其分类错误指数
20、最大,F.分裂标准应用信息增益方式可以确定树中节点的最佳属性。信息增益、增益(S,A)的一个属性、相对于实例S的集合间的关系定义为:Gain(S,A)=Entropy(S)-vValues(A)|Sv|S|Entropy(Sv)增益方程中的第一项是的原始集合S的熵,第二项是对集合S使用属性A分区后熵的预期值的。第二项中熵的预期值是各个子集的熵的总和,通过对属于Gain(S,A)的实例分数加权|Sv|S|,得出预期熵的减少是因为给出了属性A的值。Split Information (S, A)=-i=1n|Si|S|log2|Si|S|和Gain Ratio(S, A) =Gain (S, A)
21、 Split Information(S,A)对于每个非终端后代节点重复选择一个新的属性和分割训练实例的过程。在已纳入高等树的属性被排除在外,这样任何给定的属性就会沿任意路径最多一次通过树。持续这一过程,直到每个新的叶节满足这两个条件:1.每一个属性已包含在通过这个树的路径,或者2.这个叶节点关联的训练实例都有相同的目标属性值(即,他们的熵为零)。G. ID3 算法ID3(Examples(实例),Target_attribute(目标_属性),Attribute(属性) AAttributes中分类Examples能力最好*的属性·创建树的根节点·如果Exam
22、ples都为正,那么返回label =+ 的单结点树Root。·如果Examples都为反,那么返回 label = - 的单结点树Root。·如果Attributes为空,那么返回单结点树Root,label=Examples中最普遍的Target_attribute值。·否则o A=最佳分类实例子集的属性 o添加一个新的树枝下面的根,对应于测试= VI。o令 Examples VI为Examples中满足A属性值为Vi的子集o一个o如果Examples(VI)是空的o然后下面这个新的枝加叶节点标签=最常见的在目标值的例子o下面这个新的分支添加其他子树ID3(实
23、例(VI),target_attributeo 一),属性·结束·返回Root五、结果与讨论50套学生在这项研究中使用的数据从Jaunpur邦VBS purvanchal大学计算机应用系(硕士课程中计算机应用从2007到2010次)得来。表二 数据集S.否. PSM CTG SEM ASS GP ATT LW ESM 1. 2值 良好 良好 是 是 良好 是 2值 2. 2值 良好 一般 是 否 良好 是 2值 3. 2值 良好 一般 否 否 一般 否 2值 4. 2值 一般 良好 否 否 良好 是 2值 5. 2值 一般 一般 否 是 良好 是 2值 6. 2值 差 一般
24、 否 否 一般 是 2值 7. 2值 差 一般 否 否 差 是 2值 8. 2值 一般 差 是 是 一般 否 2值 9. 2值 差 差 否 否 差 否 3值 10. 2值 一般 一般 是 是 良好 否 2值 11. 2值 良好 良好 是 是 良好 是 2值 12. 2值 良好 一般 是 是 良好 是 2值 13. 2值 良好 一般 是 否 良好 否 2值 14. 2值 一般 良好 是 是 良好 否 2值 15. 2值 良好 一般 是 是 一般 是 2值 16. 2值 良好 一般 是 是 差 是 2值 17. 2值 一般 一般 是 是 良好 是 2值 18. 2值 一般 一般 是 是 差 是 2
25、值 19. 2值 差 一般 否 是 良好 是 2值 20. 2值 一般 差 是 否 一般 是 2值 21. 2值 差 一般 否 是 差 否 3值 22. 2值 差 差 是 是 一般 是 3值 23. 2值 差 差 否 否 一般 是 3值 24. 2值 差 差 是 是 良好 是 2值 25. 2值 差 差 是 是 差 是 3值 26. 2值 差 差 否 否 差 是 不合格27. 3值 良好 良好 是 是 良好 是 2值 28. 3值 一般 良好 是 是 良好 是 2值 29. 3值 良好 一般 是 是 良好 是 2值 30. 3值 良好 良好 是 是 一般 是 2值 31. 3值 良好 良好 否
26、 否 良好 是 2值 32. 3值一般 一般 是 是 良好 是 2值 33. 3值 一般 一般 否 是 一般 是 3值 34. 3值 一般 良好 否 否 良好 是 3值 35. 3值 良好 一般 否 是 一般 是 3值 36. 3值 一般 差 否 否 一般 是 3值 37. 3值 差 一般 是 否 一般 是 3值 38. 3值 差 一般 否 是 差 是 不合格39. 3值 一般 一般 否 是 差 是 3值 40. 3值 差 差 否 否 良好 否 3值 41. 3值 差 差 否 是 差 是 不合格42. 3值 差 差 否 否 差 否 不合格43. 不合格良好 良好 是 是 良好 是 2值 44.
27、 不合格良好 良好 是 是 一般 是 2值 45. 不合格一般 良好 是 是 一般 是 3值 46. 不合格差 差 是 是 一般 否 不合格47. 不合格良好 差 否 是 差 是 不合格48. 不合格差 差 否 否 差 是 不合格49. 不合格一般 一般 是 是 良好 是 2值 50. 不合格差 良好 否 否 差 否 不合格要制定出A相对于S信息增益为,我们首先需要计算S的熵。在这里,S的熵 ,是50例中的一组包括14个“1值 ”,15个“2值 ”,13个“3值”和8个“不合格”。使用信息的方法,我们可以确定树中特定节点的最佳属性。信息增益,增益(S,A)的一个属性,相对于实例S的集合。表三
28、增益值增益取值 增益(S, PSM) 0.577036 增益(S, CTG) 0.515173 增益(S, SEM) 0.365881 增益(S, ASS) 0.218628 增益(S, GP) 0.043936 增益(S, ATT) 0.451942 增益(S, LW) 0.453513 PSM具有最高的增益,因此它作为根节点,如图2所示。图2。PSM作为根节点PSM1值2值值3值不合格增益率可以用于属性选择,计算增益比率前的分裂信息表、如表IV所示。分裂信息取值分裂(S, PSM)1.386579分裂 (S, CTG)1.448442分裂 (S, SEM)1.597734分裂 (S, AS
29、S)1.744987分裂 (S, GP)1.91968分裂 (S, ATT)1.511673分裂 (S, LW)1.510102增益率见表V。表五 增益比增益比取值增益比 (S, PSM)0.416158增益比 (S, CTG)0.355674增益比 (S, SEM)0.229增益比 (S, ASS)0.125289增益比 (S, GP)0.022887增益比 (S, ATT)0.298968增益比 (S, LW)0.30032持续进行这个过程直到到所有数据完全归类,或者用完所有的属性。决策树的内容可以被提取并以IF-THEN规则的形式表示。图3 规则集决策树生的成IF PSM = 1值 AN
30、D ATT = 良好 AND CTG = 良好 or 一般 THEN ESM = 1值 IF PSM = 1值 AND CTG = ;良好 AND ATT = 良好OR 一般 THEN ESM = 1值 IF PSM = 2值 AND ATT = 良好 AND ASS = Yes THEN ESM = 1值 IF PSM = 2值 AND CTG = 一般 AND LW = Yes THEN ESM = 2值 IF PSM = 3值 AND CTG = 良好 OR 一般AND ATT = 良好 OR 一般 THEN PSM = 2值 IF PSM = 3值 AND ASS = 否 AND AT
31、T = 一般 THEN PSM = 3值IF PSM = 不合格 AND CTG = 差 AND ATT = 差 THEN PSM = 不合格从每个终端节点到根节点的每条路径可以产生一个分类规则。删除少于对象的期望数量节点可以完成精简。图3可以更容易理解IF- THEN规则。结论本文通过分类任务是在学生数据库的应用来预测在已有数据库的基础上的学生划分。与其他数据分类的方法一样,决策树方也用在了这里。从学生的过往数据库收集诸如考勤、课堂测试、研讨会和作业的分数等信息,来预测在学期结束时其的表现。本文的研究将有助于学生和教师提高学生的分工。研究还将有助于识别出那些通过特别方式来减少失败率的学生,并且在下学期考试采取适当的行动。参考文献【1】Heikki Mannila,数据挖掘,机器学习,统计,和数据库,IEEE,1996。 2 美国fayadd,piatesky,G.夏皮罗,P.史密
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年扬州市职业大学单招职业适应性测试模拟试题及答案解析
- 2026年西南财经大学天府学院单招职业适应性测试模拟试题及答案解析
- 2026年湘中幼儿师范高等专科学校单招职业适应性测试模拟试题及答案解析
- 2026年湖南高速铁路职业技术学院单招职业适应性考试模拟试题及答案解析
- 2026年长沙南方职业学院单招职业适应性测试模拟试题及答案解析
- 医院感染控制科主任工作重点
- 医疗卫生政策效果监测与评价
- 机构与学校合作协议书
- 2026云南省卫生健康委员会所属部分事业单位开展第二批校园招聘83人笔试参考题库及答案解析
- 2025新疆伊犁州霍城县大西沟镇面向社会招聘村干部备考考试题库及答案解析
- AI工具在小学信息科技学科教学中的应用
- 政协提案范文标准模板
- (2025年标准)酒水行业合伙协议书
- 2025教育考试院考务人员网上培训试题(附答案)
- 创新模式2025年高端定制农产品商业模式商业计划书
- 临床成人术后谵妄预防与护理解读与实践
- 影像科工作量汇报
- 支架式教学法案例分析
- 2025至2030中国变压器拆卸和回收服务行业市场深度研究与战略咨询分析报告
- msd元件管理办法
- 智能合约中的漏洞分析与修复技术-洞察阐释
评论
0/150
提交评论