教育数据挖掘技术应用研究_第1页
教育数据挖掘技术应用研究_第2页
教育数据挖掘技术应用研究_第3页
教育数据挖掘技术应用研究_第4页
教育数据挖掘技术应用研究_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 教育数据挖掘技术应用研究 摘 要 教育数据挖掘是将数据挖 掘技术应用于教育领域,以发现教育中 的潜在问题。介绍教育数据挖掘的发展 历程和研究现状,采用文献计量和内容 分析法对教育数据挖掘从教育环境、应 用类型和技术方法三方面进行分析,并 对教育数据挖掘的应用有所发现。 中国论文网 /9/view-13014427.htm 关键词 数据挖掘;教育数据挖 掘;e-learning 中图分类号:G642.0 文献标识 码:A 文章编号:1671-489X(2017) 18-0001-06 Applied Research of Education -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 Data Mining Technology/PENG Ya, YU CUIBo, ZHANG Xu Abstract Education Data Mining (EDM) belongs to a multidiscipli-nary research field which applies data mining technology to educa- tion for finding the hidden value of data. This paper firstly introduces the concept, development history and present research status of EDM, then researches and analyzes EDM from aspects of education envi- ronment , application type and the technical methods and last discusses the current research status of EDM. Key words data mining; education data mining; e-learning 1 前言 稻萃诰蚴谴哟罅康氖 据中通 过算法发现有用信息的过程,最早出现 在数据库领域,与计算机科学和统计学 联系紧密。数据挖掘用到了包括抽样、 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 估计、建模、人工智能、模式识别、可 视化等技术,并在近 30 年的时间里得 到快速发展,目前已广泛应用在各个领 域。 教育数据挖掘(Education Data Mining,EDM)是将数据挖掘技术应用 于教育领域,并结合了教育学、计算机 科学、统计学等学科的理论和技术,用 以提高学习、教学和管理三方面水平的 新兴的多学科交叉研究领域。教育数据 挖掘技术可用来解决教学工作和教育研 究中遇到的很多问题,比如了解学生喜 好、辅助教学管理人员做出决策、帮助 教师改进课程、对比学生知识掌握情况 等。根据数据挖掘技术应用的业务领域, 可以将数据挖掘分为 e-learning 数据挖 掘、e-management 数据挖掘和 e- research 数据挖掘。 E-learning 数据挖掘 应用在教学领域,进行学习者特征识别、 在线学习行为分析、师生交互分析等, 数据来源于课堂教学、远程教学系统、 学习软件系统等。E-management 数据挖 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 掘应用在教学管理领域,其数据来源于 各种教学管理系统中。E-research 数据 挖掘应用科研领域,用以提高科研效率, 数据主要是来源于各种科研数据库。 2 教育数据挖掘研究现状 关于教育数据挖掘的研究发展历 程,起初是智能辅导系统(ITS) 、人工 智能教育(AIED )和用户建模( UM) 等众多研究领域中的一个子方向。从 2005 年开始,国际上许多计算机应用 (如 ITS 等)的相关会议都设置了关于 EDM 的议题。不同时间、不同会议上 的 EDM 议题虽有差别,但宗旨一致。 2007 年,欧洲技术促进学习协会 (EATEL)在希腊克里特岛举办第二届 欧洲技术促进学习会议(EC-TEL2007) , 其间举办了“Apply Data Mining in E-Learning”研讨会(ADML 2007) ; 之后,该领域研究者组成国际教育数据 挖掘工作组,并创办在线学术期 刊教育数据挖掘杂志 ;2008 年 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 开始,该工作组每年都会召开教育数据 挖掘国际会议;2011 年成立国际教育数 据挖掘协会(IEDMS) 。EDM 的研究历 程见图 1 所示。 目前与 EDM 相关的学术会议主 要有 International Con- ference on Educational Data mining(EDM) 、Interna- tional Conference on Learning Analytics and Knowle-dge(LAK) 、 International Conference on Artificial Intelligence in Education(AIED ) 、 International Con- ference on Intelligence Tutoring Systems(ITS )等。 与 EDM 相关的主要期刊有 Journal of Engineering Education(JEE) 、 Computers and Education(CAE) 、 Journal of the Learning Sciences(JLS) 、 Expert System with Applications( ESWA) 、Journal of Educational Data Mining(JEDM)等。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 此外,关于 EDM 的书籍,国际上主要 有 2010 年 Romero 等人编写的 Handbook of Educational Data Mining, 该书详细讲述了 EDM 的概念、技术以 及案例等;国内主要有葛道凯、张少刚、 魏顺平等人编写的教育数据挖掘方法 与应用 ,程艳编写的教育数据挖掘 与教育虚拟社区群集智能化构建方法 等。 在 Google Scholar 中以包含 Educational data mining 的完整字句对已有论文进行搜索, 用每年论文发表数目体现教育数据挖掘 的发展状况,能够形象地展示出教育数 据挖掘的发展研究趋势。20082015 年, 教育数据挖掘论文发表数目随时间变化 趋势如图 2 所示。 从图中可以看出,EDM 论文数 目呈现总体上升趋势。20082011 年增 长趋势比较平缓,2008 年发表的关于 EDM 论文数量仅有不足 200 篇;2010 和 2011 分别约为 400 篇;但从 2011 年 以后,关于 EDM 论文数量递增的趋势 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 明显增大,数目已达到近 1800 篇。因 此,关于教育数据挖掘的研究呈总体递 增趋势,且关注度逐步增长,国内外研 究持续上升。 3 教育数据挖掘研究与分析结果 本次研究样本主要是来源于 The 8th International Conference on Educational Data Mining(EDM2015) 的论文集。EDM 会议是关于教育数据 挖掘的一个领先的高质量的国际会议, 主要关注教学研究和学生学习过程,相 关研究的数据集分别来自 ITS、MOOC、教育游戏、学习软件、 教学管理系统等。其中,EDM2015 论 文集中收录长论文(Full Papers)42 篇、 短论文(Short Papers)48 篇、海报与 展示论文(Poster and Demo Papers)46 篇、博士交流(DC Papers)12 篇。选 择论文集中质量较高的长论文和短论文 作为本次的研究对象;另外在 Google Scholar 上搜索教育数据挖掘相关的论 文,并选取 20092014 年间下载次数 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 超过 50 的 16 篇论文作为补充。如此一 来,本次研究的论文样本总数计 106 篇。 研究过程采用定量分析与定性分析相结 合的方法,从教学环境、应用类型及数 据挖掘技术方法三个方面对这些样本进 行分析研究。 EDM 应用的教学环境 教学环境 是教师进行教学活动或者学生进行学习 必不可少的软硬件及基础设施的组合, 可以是物理上的教室,也可以是虚拟的 互联网系统或学习软件等。教学环境是 教、学活动实际进行的场所,其中产生 的数据可以作为 EDM 研究数据的来源, 同时也是实施调整、改进教师教学或者 学生学习的实验场地。将教学环境主要 分为相对较少采用现代信息科技系统的 传统教学环境、以开放式的互联网信息 系统为主的网络教学环境和大数据时代 背景下涌现出的新型教学场所或载体的 大数据教学环境。 通过对论文样本的教学环境进行 分析和归类,在本文选取的 106 篇样本 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 中,传统教学环境的有 15 篇,占论文 总数的 14.1%;网络教学环境的有 32 篇,占比 40.6%;大数据教学环境的有 29 篇,占比 25.5%;此外还有一些论文 没有指出具体某种教学环境类型,称为 其他,有 14 篇,占比 19.8%,见表 1 所示。各种主要教学环境在样本中的分 布情况见图 3。 由表 1 和图 3 可见,来自网络教 学环境下的论文数量最多,占比 40.6%;来自大数据环境下的论文数量 次之,比例达到总数的 25.5%,且多于 传统教学环境下的 14.1%。这是因为相 比于传统环境,数字化的网络环境与大 数据环境下,教、学过程中的数据采集、 存储及处理更方便、快捷。另外,虽然 目前大数据环境下的教育数据挖掘研究 还不算最多,但由于它可以在短时间对 上万名学生的数据完成建模、预测等, 其受到的关注度会越来越高。 传统教学环境下 EDM 的研究通 常采用统计学方法对搜集的数据进行分 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 析比对,以便于帮助教师根据学生的知 识掌握情况相应地变动教学方案。传统 教学环境下研究的数据来源有学生考试 成绩、作业习题和课堂情况记录等。此 类数据获取通常比较烦琐,需要逐个统 计并录入,数据量也相对较小。传统教 学环境下 EDM 的研究结果有通过学生 的课堂表现来预测学生学习情况,以便 于了解学生的知识掌握程度1,根据学 生上课回答问题情况对问题进行自动分 类,有助于教师优化教学计划2,对学 生的 CET 成绩进行可视化分析和评价3。 虽然各种新型的教学环境不断涌现出来, 面对面教学的传统教学环境依然占当今 校园教学的主流,因此,这些研究结果 有利于改进课堂教学。 随着互联网的快速发展,网络技 术也越来越多地运用到教学领域中形成 网络教学环境,数字化的网络教学环境 下产生的数据种类丰富、数量众多,获 取容易。网络环境下用于 EDM 的数据 来源可以是服务器,也可以是客户端的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 用户活动记录,这些数据包括学生的登 录次数、学习记录和作业成绩等。在网 络教学环境中最典型的应用就是智能导 学系统(ITS) ,目前流行的 ITS 有 MOODLE 和 ASSISTMent,以及其他一 些小范围的智能导学系统。在教学应用 中,可以基于 ITS 对个人学习曲线进行 混合建模,比较几种模型优势并构建最 适合的模型来描述学生学习,对学习情 况进行估计4。将智能导学推荐系统用 于在线教育系统中,使用分类的方法在 网络教育环境中检索最合适的课程,可 以帮助学习者找到最适合的课程5。网 络教学环境中的数据获取相较于传统教 学环境更方便,教学活动可以根据每个 用户的特点自适应调整。 大数据教学环境的特点是拥有海 量的学习活动数据,其数据来源有 MOOC、益智类游戏记录数据、在线问 卷访谈等,此类环境下的数据量最大。 目前的 MOOC 平台有 Coursera、edX、Udacity 等。与传统课 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 堂和一般网络课堂的区别是,大数据环 境下的 MOOC 课堂通常有数万甚至数 十万名学生,因此,记录的数据量是极 大的,需要在大数据平台上处理。如通 过将学生进行分类来强调学生之间的差 异,并确定他们在 MOOC 中成功完成 课程的路径和方法6。 此外,除了上述三种环境下的论 文,本次研究中还有一些论文的数据集 来源于网络上公开的数据集,如 KDDCup、 PSLC DataShop 等。此类论文通 常是将模型进行优化,把几种 EDM 方 法进行分析并对比优劣,或者是对 EDM 方法进行改进等,有助于教师或 者管理人员制定学习方法或教W 策略 等。 以上三种学习环境中,通 常可假设传统教学环境下学生学习动机 相同、知识水平类似,而且此环境下学 生数量及可获取的数据相对较少,因此, 用到的数据挖掘技术方法也相对简单。 一般的网络教育相对于传统教育的特点 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 是数据易于获取,学生更多;而大数据 教学环境相较于一般网络教育的优点是 课程更加丰富,自由度更大。目前教学 中已开始尝试将在线教学应用于传统课 堂并对学生学习情况进行预测,比较高 中、大学和在线教学环境的交互学习情 况等。 EDM 的应用类型 在研究中,根 据 EDM 结果的不同用途,将 EDM 的 应用类型分成可视化(Visualization, 即 VS) 、学生建模(Student Modeling, 即 SM) 、学生表现预测(Pre- dicting Student Performance,即 PSP) 、推荐系统(Reco- mmender System,即 RS) 、自适 应系统(Adaptive System, 即 AS)五类。VS 是指将信息或 数据用图的形式形象化地展示出来; SM 是指通过对学生的行为、动机和学 习习惯等建立模型,揭示学生的学习特 征;PSP 是指通过已经掌握的数据去预 测未知的结果;RS 是指根据学生的特 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 14 点向其推荐书籍、课程或者学习方法等; AS 是指根据学生建模的结果做自适应 变化的学习系统。 通过对论文样本进行分析,可知 用于可视化(VS)的有 19 篇,占论文 总数的 17.9%;研究学生建模(SM)的 有 32 篇,占论文总数的 30.2%;进行 学生表现预测(PSP)的有 29 篇,占 27.4%;用于推荐系统(RS )的有 14 篇,占 30.2%;用于自适应系统(AS) 研究的有 12 篇,占 11.3%,如表 2 所 示。各种用途分类结果在样本中的分布 情况见图 4。 选中的样本中,用于学生建模 (SM)研究的论文数量最多。EDM 中 学生建模采用贝叶斯网、序列模式挖掘、 关联规则和逻辑回归等方法,对学生特 点和学习行为进行自动建模。对学生建 模,可以帮助教师及研究人员等更好地 了解学生的学习特征,关注学习过程和 教学研究。例如:利用最受欢迎的 BKT 推理模型推断学生的知识和能力,了解 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 15 学生的学习情况7;将多功能分层序列 模式挖掘和水平分泳用于学习行为 特征中,并进行对比,找出更适合的方 式8。此外,学生建模还可以对集中模 型进行优化、改进,从而得到最适合的 模型,如针对 Duolingo 这一系统进行模 型优化4。 进行学生表现预测(PSP)研究 的论文数量仅次于 SM。在 EDM 中, PSP 的例子有预测学生的学习成绩、预 测学生是否能完成某项任务以及学生未 来表现等。PSP 是目前非常流行的应用, 用到的最主要的方法有分类、回归、决 策树等。例如:利用分类器对学生成绩 进行预测;用逻辑回归和贝叶斯知识追 踪的方法,根据某中学的学生在 ASSISTMent 系统交互的数据,预测这 个学校学生的大学入学率;根据学生参 与论坛在线讨论的情况,用分类和聚类 的方法来预测学生最终的成绩。 可视化(VS)研究可以帮助人们 更加直观地理解教育数据,如在线评估 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 16 过程中产生的数据、考试成绩、用户论 坛数据等。可视化还可以帮助人们形象 地对比不同的 EDM 技术与方法的差距, 如在传统教育环境中,将可视化数据挖 掘用于高等教育评价体系3。 推荐系统(RS)研究可以根据人 们以往的购书内容以及浏览内容向其推 荐合适的书籍,或者根据学生的学历、 专业等向其推荐合适的课程等。例如: 用分类的方法在网络教育环境中检索最 合适的课程5;用目前最先进的主题细 分模型对课程进行选择9。 自适应系统(AS)的研究是根据 学生建模的结果自适应地调整学习内容, 即学习系统可以根据学生每段时间的学 习状况,相应地去调整该学生下一阶段 的学习计划。如用支持向量机和逻辑回 归对资源进行优化以适应学生进行学习 10。在自适应辅导系统中,首先要准 确评估一个学生的能力,并对学生的表 现进行预测,然后基于类型进行自适应。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 17 由于本次研究的样本主要来自 EDM2015,而 EDM2015 会议主题是关 注教育研究问题和隐藏学习过程的,因 此,研究用途为学生建模(SM)和学 生表现预测(PSP)的较多,自适应系 统(AS)和推荐系统(RS)相对较少。 但在教学中,自适应系统(AS)和推荐 系统(RS )同样非常重要,尤其是在网 络教育环境及大数据教学环境中,自适 应系统(AS)和推荐系统(RS)能够 给学生的学习及教师的教学提供极大的 方便。 EDM 的技术方法 从本次调研的 论文以及综合 Romero 和 Venture、Baker 和 Yacef 对 EDM 的分 类了解到,统计分析与可视化、预测、 聚类、关系挖掘是 EDM 研究中最常用 的技术,同时也是最基本、最成熟的技 术。此外,还有一些技术如文本挖掘、 协同过滤等也会在 EDM 中用到,但出 现的概率都很低,本文将其归为其他。 通过对样本论文的分析,发现部 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 18 分论文的研究过程中会用到不止一种技 术方法,因此,计算某种技术方法所占 百分比,是按照用到该种方法的论文数 占总论文的比例计算的。本次研究的论 文中,以统计分析与可视化方法为主的 是 21 篇,占比 19.8%;以预测技术为 主的是 48 篇,占比 45.3%;以聚类技 术为主的是 22 篇,占比 20.8%;以关 系挖掘方法为主的是 28 篇,占比 26.4%; 其他方法的有 14 篇,占论文总数的 13.2%。可将此次研究的论文中的长论 文、短论文、其他代表性论文等按照 EDM 的技术方法进行分类,得到分类 数目见表 3。各种主要 EDM 技术方法 在样本中的分布情况见图 5。 由表 3 和图 5 可见,预测是 EDM 研究中最常用的技术,跟随其后 的依次是关系挖掘、聚类、统计分析与 可视化,而文本挖掘、协同过滤等其他 技术在研究中则用到得较少。在几种技 术中,聚类包括聚类和离群点分析,预 测包括分类、回归以及决策树,关系挖 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 19 掘包括关联规则挖掘、序列模式挖掘等。 统计分析与可视化通常不算数据 挖掘技术,但因可处理数据挖掘问题, 因此也算教育数据挖掘的方法。统计的 过程是先形成假设,然后在可视化中将 数据转化为易于理解的图像来进行检验。 统计分析与可视化的应用可以使研究人 员更加直观地对数据进行理解和分析, 如基于小的 ITS 样本对几种模型进行分 析,并用统计分析与可视化的方法对几 种效用进行评估11 。 预测是根 据已知属性来预测未知属性的情况,分 类、回归以及决策树均可实现预测功能。 当未知属性为类别型时,特指分类,如 用分类的方法来实现对学生课程完成情 况的预测,并用自然语言处理检测是否 成功预测12 。回归中被估计的目标属 性通常是连续的,常常会用到最小二乘 和梯度下降算法,如使用回归对自适应 系统中的命令的有效性进行预测,以实 现将自适应系统用于教学中的功能13。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 20 决策树是一种树型结构,可根据某一属 性对数据进行分裂,以达到某一标准的 最优值。但在运用决策树的过程中要注 意如何分裂以及如何停止分裂两个过程, 如先将学生课堂表现是否活跃进行分类, 将学生分为“ 积极” 和“非 e 极两类”; 之后将“非积极 ”的学生根据是否自愿购 买课程进行分类6。决策树算法是目前 预测算法中运用频率最高的。 将数据按照内在相似性划分成多 个类别是聚类算法,其中较普遍的方法 是 EM 算法和 K-means 算法等。如用聚 类的方法,根据 McGraw-Hill 网络教育 平台的学生登录数据来洞察学生的学习 经验,其中有用到 K-means 算法14; 将几种模型进行对比,选出最适合论文 中 Duolingo 数据集的模型并进行优化4。 聚类与分类不同,它是一种在不知道样 本类别及个数的情况下的无指导的学习 过程。根据学生的学习信息,可以对学 生进行个性化分类,如组成协作学习小 组、实现个性化课程管理以及对学生分 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 21 类推荐课程等。 关系挖掘是从关系数据库中的多 个表中挖掘有意义的模式,可以挖掘空 间上的共现关系,也可以挖掘时间上的 序列关系,其包括关联规则挖掘、序列 模式挖掘等。关联规则挖掘是挖掘空间 共现关系,根据规则发现数据集中隐藏 关联。如通过 peer-submitted 和 peer- reviewed 的关系,分析学生行为和学习 成果15;选取远程教育的在线学生为 样本进行分析,根据年龄的不同来比较 他们的学习能力差异以及学习态度,通 过关联规则发现额外信息,并更好地帮 助教师教学和学生学习。序列模式挖掘 即是在某一时间相继产生的关系16, 教学中可以将序列模式挖掘技术用于学 生学习过程。研究中有论述多功能分层 序列模式挖掘,并对现有的序列模式挖 掘算法进行扩展等。目前,国内外的关 系挖掘研究虽仍面临一些挑战,但也已 经获得大量成果。 文本挖掘即文本数据挖掘,数据 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 22 一般是指文本处理过程中产生的高质量 信息。典型的文本挖掘方法有文本分类、 文本聚类、信息抽取、自动分词等。比 如可以将数据挖掘技术用在跟踪学生整 个学期学习情况的文本集上,并要求学 生写课后评论,发现其中隐含知识,以 此来预测学生学习成绩等。 4 结论与未来研究 本次研究的贡献与意义 本次研 究调研了教育数据挖掘技术的发展历程 及研究现状,并采用文献计量和内容分 析法,重点对 EDM 从教育环境、应用 类型和技术方法三方面进行了研究分析, 有助于在实际应用中把各种应用与具体 的数据挖掘情况相结合,找出适合的技 术方法。例如:用学生建模(SM)来 分析学生的学习效果以及绘制或预测学 生的行为模式,帮助教师和学生更加清 楚学习情况等;而学生表现预测 (PSP)可以对学生的成绩、未来表现 等进行预测等。针对不同的研究对象而 言,对教师的信息进行挖掘,可以帮助 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 23 教师改进教学方法,制订教学方案等; 对学生的信息挖掘,可以了解学生的行 为特征、日常学习情况、知识掌握程度 等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论