基于数据挖掘的学生选课及学习行为分析算法研究_第1页
基于数据挖掘的学生选课及学习行为分析算法研究_第2页
基于数据挖掘的学生选课及学习行为分析算法研究_第3页
基于数据挖掘的学生选课及学习行为分析算法研究_第4页
基于数据挖掘的学生选课及学习行为分析算法研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据挖掘的学生选课及学习行为分析算法研究 摘 要: 依据教育数据挖掘技术,通过关联规则挖掘中的确定因素法和序列模式挖掘,分别对学生课程选择的最小关联规则和学生的临时兴趣学习模式进行挖掘,以此进行学生的行为分析。首先,通过最小关联规则挖掘中的确定因素(DF)法,从课程数据库中挖掘学生课程选择的最小关联规则。其次,通过临时兴趣序列模式(TIPS)技术,在学习活动序列中发现短期的学习行为模式。最后,通过数据实验验证该算法具有实际意义 关键词: 数据挖掘; 关联规则; 确定因素法; 序列模式 中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)

2、13?0145?04 Abstract: According to the educational data mining (EDM) technology, the minimum association rule of students course selection and student temporary interest learning pattern are mined respectively by means of definite factor method and sequence pattern mining in association rules mining

3、to analyze the student behavior. The definite factors (DF) method in minimum association rule mining is used to mine the minimum association rules of students course selection in the courses database. And then, the temporary interest sequence pattern (TIPS) technique is used to find out the short?te

4、rm learning behavior pattern in learning activity sequences. The experimental verification results show this algorithm has a practical significance. Keywords: data mining; association rule; definite factor method; sequence pattern 近些年,围绕着大数据可被用于造福教育与学习科学这一共同利益,两个方面的技术逐渐得到了发展,这两个方面就是教育数据挖掘(EDM) 以及学习分

5、析1。随着教育数据挖掘的快速发展,数据挖掘中的各项技术,诸如关联规则挖掘,序列模式挖掘等技术都相继得到了应用,这也进一步促进了教育数据挖掘技术的发展。同时,通过教育数据挖掘对教育数据进行的数据挖掘而得到的潜在信息或是关联规则也得到了更多的应用,通过这些潜在信息和关联规则,管理者可以更好地制定管理策略和教学策略,这对提高学校的管理和教学有着非常重要的意义2 1 学生课程选择的最小关联规则的挖掘 学生的课程选择是大学生日常学习生活中必须接触到的,并且会直接影响到学生在校学习,所以课程选择显然是一种重要的学生行为3。因此,采用确定因素法,从课程数据库中挖掘学生课程可以采用最小关联规则挖掘技术 1.1

6、 关联规则 (1) 关联规则的挖掘 关联关系可以采用置信度、支持度、期望置信度、作用度四个标量进行表述。通常来说,置信度就是关联规则下准确度的衡量标准,而支持度则体现了重要性标准。支持度越大,说明这个关联规则就更加重要。如果在数据挖掘中,存在关联规则的置信度较高,但是支持度却相对较低,那么这种规则的实际应用效果就很难保障4 (2) 关联规则挖掘的过程 关联规则的挖掘需要通过两个阶段来实现:第一个阶段就是从现有的数据集合中找到高频项目组,并进行整合;第二个阶段就是通过这些高频项目组构建关联规则 在第一个阶段中涉及到的高频项目组中的高频内涵指的是其中某一个具体的项目组出现的频率,只有这个项目组在记

7、录中出现的频率达到了某一个水平,那么就叫做高频项目组。而且一个项目组出现的频率实际上就是支持度。比如以包含了物品集合和物品集合的项目为例,通过式(1)就能够获得的项目支持度 通过式(1)计算出来的支持度如果大于设定的最小支持度,那么A,B这个项目组就可以称作高频项目组。比如某个项目组K?满足了这个最小支持度,就说明这个项目组K?是高频项目组,可以使用Large k表示这种高频项目组。然后关联算法就从Large k中进行延伸,从而产生Large k+1,直到找到了所有的高频项目组 关联规则的第二个阶段自然就是找到关联规则。实际上很多高频项目组就是产生关联规则的摇篮。利用第一个过程中的项目组K?获

8、得关联规则。在设置最小置信度的门槛下,如果每一个关联规则超过了这个置信度,那么这个规则就能够作为有意义的关联规则进行评估和可视化 1.2 教育数据挖掘中的最小关联规则 教育类数据是挖掘明显的最小关联规则中的一种潜在资源,这些规则对于协助高校的管理者或是高校的教师在做出正确的决策和制定完善的教学方案时有着非常好的作用。这一研究的重要性在于,它能够发现所选的课程中不寻常的关联5。进一步而言,它还可以反映在大学的课程问题上频繁和最低规则的结合中可能存在的规则。这一研究的结果可以让学校老师给某一类的学生提供合适的课程作出指导。事实上,它可以帮助大学政策制定者理解和提高目前的教学水平,整体提升管理流程水

9、平6。 采用确定因素(Definite Factors,DF)法检测学生已选择的大学课程之间的不寻常关系。事实上,确定因素法可以考虑到大学课程之间的频繁和最低的结合因素,用以生成想要的最低管理规则。在生成这些规则之前采用LP?3和LP?增长算法 1.3 确定因素法 设指的是一系列称为常数值的项目,指的是一系列非负实数称为权重的项目,指的是业务中的数据集,而业务中的是一系列特别的项目,每个业务可以由一个特殊的识别码TID进行识别 (1) 定义 针对本文中所使用的算法,为了使其易于理解,在这里,先给出一些定义 定义1 设为一个项目集,该项目集合为项目K?,称为项目集K? 定义2 该项目集的支持值是

10、即supp(X)被定义为一项包括了业务的项目数据 定义3 设为一个项目集,和之间的关联规则是在的情况下,其中,和分别表示原因和结果 定义4 关联规则支持值即supp则定义为包括了业务中的数据 定义5 关联规则的置信区间,即conf,定义为包含的业务中的数据的一种概率。所以,conf的计算公式如下: 定义6 确定因素是在不同的项目集里,通过一个项目集的频繁程度与基准频率进行对比,开发支持值的公式。项目集的基准频率应假设为统计上是独立的 确定因素,即DF,且: (2) 最低关联规则的构造定义 若一个规则符合以下两个条件归类为最小相关规则定义(SLAR) 。一是,相关规则的DF必须大于预设的最低DF

11、。最小DF是在01之间。二是,相关规则的因果条件必须既不是最低项目也不是频繁项目7。每个相关规则DF的计算都应该采用定义6的方法确定。DLAR算法构建的完整过程如下: 1.4 实验结果 用确定因素方法取得实验文本,所有关联规则的权重都会根据这一方法进行分配。在此,学生可以在原始图表中根据固定定位选择8个课程。每个课程的实际定位是根据固定课程进行设置的。在某大学里,共计为某届学生提供822个本科课程。根据这些数据,160名学生选择了342个本科课程,可以归类为47个类型领域。从中抽出了5个课程列在表1中。同时,在实验中还用到了确定因素法中的LP?树和LP?成长算法 经过实验,共有4 177个相关

12、规则被成功提取出来,如图1所示,学生一共选择了一些(或没有选择) 相关的计算机课程,大约有32%的学生没有申请计算机科学课程,大约有36%的学生选择了4门计算机课程。如图2所示为采用不同支持范围的相关规则的总数。较高的相关规则数支持值低于1%,而最低值相关规则的支持范围应为2%3%,进一步分析表明,专注于支持值大于3%的规则。3%的最小支持值相当于在本项目中必须至少出现五次的项目集。表2列举了前十位最小值为3%的相关规则 表3给出了根据表2的相关规则的意义。由于课程领域的矛盾,第一个规则到第五个规则是比较奇怪的。第六个规则就非常真实,因为在基础要求上两个项目有着相似之处。第六到第十个规则,解释

13、起来则比较难比较复杂,因为这些课程中并无相关的兴趣。据此,可以看到,学生们在选择大学课程的过程中混淆了他们的几种兴趣。总之,在大学选课数据库中现存的相关规则是有例外的。这一信息对全面了解学生的兴趣以及如何引导他们选择更合适的大学课程是非常有意义的 2 挖掘具有临时兴趣的学习行为模式 2.1 识别临时兴趣模式 在这一环节里,使用序列技术展现临时兴趣序列模式(TIPS) 技术并使其与兴趣方法相符,从而辨识出学生行为中最具临时兴趣的部分,然后对其进行视觉化处理8。每名学生的一系列不同行为都具有与其相关的序列,TIPS技术主要由四个基础步骤组成: (1) 通过在学生的学习活动序列中应用序列模式挖掘法并

14、生成候选模式(频率底线为50%) ; (2) 通过把每个候选模式映射到它在活动序列中发生的位置,算出其临时覆盖区域; (3) 使用一种被应用于每种模式的临时覆盖范围中的理论兴趣方法来提供候选模式的排名; (4) 对于那些排名较高的模式,使用热量地图对其临时覆盖范围做出视觉化处理,从而更轻易地获取其用法趋势和峰值 为了定义TIPS技术的信息增益应用表现出了两个重要观点: (1) 当使两种模式的总发生几率相同时,更具时间特异性(即特定时间域内具有更多独特活动)的模式则会具有更高的排名; (2) 当使两种模式在相临时域内总发生几率相同时,总计频度更高的模式则会具有更高的排名 2.2 Betty的大脑

15、数据 在“Betty的大脑”这款软件中,学生的学习和教导任务主要围绕以下7种展开:阅读相关材料获取信息;在因果联系图中添加或移除联系以组织联系,然后把这些信息教授给Betty;询问Betty对基于因果联系图域的看法;让Betty参加由导师制作出的小测验以检验其对于当前图中各种联系的正误理解;让Betty说明她会使用哪种关系来回答小测验中的问题;记下笔记以供日后参考;标注出联系以记录下通过测试与阅读环节决定的正确性 2.3 实验结果 从68名学生活动的序列来看,序列模式挖掘法识别出了超过一半的学生都具有的215种行为模式。为了获取关于其用途随着时间变化而发生演变的广泛性,把各模式的出现值归入活动范围的以内 表4给出了由TIPS技术识别出的每位学生身上最常见的30种行为模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论