版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、葛道凯葛道凯 教育部职业教育与成人教育司教育部职业教育与成人教育司20112011年年1111月月1717日日 北京北京2011中国国际远程教育大会E-LearningE-Learning学习过程中的数据挖掘学习过程中的数据挖掘提提 纲纲四、结论和启示四、结论和启示三、主要发现三、主要发现二、挖掘方法二、挖掘方法一、问题的提出一、问题的提出四、结论和启示四、结论和启示三、主要发现三、主要发现二、挖掘方法二、挖掘方法一、问题的提出一、问题的提出1 1 问题的提出问题的提出v据美国物理学家组织网、科学杂志等网站报道: 利用数字存储和模拟设备,目前人类能存储至利用数字存储和模拟设备,目前人类能存储至
2、少少295295安比特(安比特(exabytesexabytes,1 1安比特安比特=10=101818比特)比特)的信息量,这是全世界沙粒数量的的信息量,这是全世界沙粒数量的315315倍。倍。 如果把这如果把这295295安比特信息存储在只读光盘(安比特信息存储在只读光盘(CD-CD-ROMsROMs)上,这些光盘将从地球堆到月球。)上,这些光盘将从地球堆到月球。L人们淹没在数据的海洋中,却又忍受着信息的饥渴。1 1 问题的提出问题的提出v数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其
3、中的、人随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识们事先不知道的、但又是潜在有用的信息和知识的过程。的过程。1 1 问题的提出问题的提出v在过去的10余年,随着教育信息化工作的大力推进特别是数字化校园建设和网络高等教育的大力推进,在教育领域已经部署了众多的软件系统,并且这些软件系统中存储着海量的教育数据。v如何利用这些教育数据,使这些数据转变为信息、知识,并为教育决策、教学优化服务?1 1 问题的提出问题的提出v运用数据挖掘技术是否存在将是否存在将E-LearningE-Learning软件系统的原始数据转换为软件系统的原始数据转换为有用知识的模式与方
4、法?有用知识的模式与方法?能否产生有利于教育教学决策、教学过程优化的有能否产生有利于教育教学决策、教学过程优化的有用信息、知识和工具?用信息、知识和工具?vE-Learning学习过程中的数据挖掘将来自各种将来自各种E-LearningE-Learning软件系统(主要是网络教学软件系统(主要是网络教学平台)的原始数据转换为有用信息的过程,这些有平台)的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究与管理人用信息可为教师、学生、家长、教育研究与管理人员以及员以及E-LearningE-Learning软件系统开发人员所利用。软件系统开发人员所利用。四、结论和启示四、结
5、论和启示三、主要发现三、主要发现二、挖掘方法二、挖掘方法一、问题的提出一、问题的提出2 2 挖掘方法挖掘方法构建方法采集数据应用技术v研究过程2 2 挖掘方法挖掘方法v用到的主要数据挖掘方法 从已有研究来看,关系挖掘、预测挖掘等两类方法最为常从已有研究来看,关系挖掘、预测挖掘等两类方法最为常用。用。统计分析与可视化聚类预测关系挖掘文本挖掘2 2 挖掘方法挖掘方法v用到的主要数据挖掘工具目前存在多种典型的数据挖掘工具,它们各有专目前存在多种典型的数据挖掘工具,它们各有专长,需要组合应用才能完成复杂任务。长,需要组合应用才能完成复杂任务。 SSAS(微软一数据挖掘工具) SPSS13.0(统计工具
6、) Excel2007(电子表格处理工具) UCINET6.0(社会网络分析软件) Weka(开源数据挖掘工具) ICTCLAS5.0(中文分词工具)2 2 挖掘方法挖掘方法v根据任务情境,构建相应的数据挖掘工具集成应用方案。 学生特征分析学生特征分析 学习过程分析学习过程分析 修业结果分析修业结果分析 文献分析文献分析 政策文本内容分析政策文本内容分析用于学生特征分析的集成应用方案用于学生特征分析的集成应用方案任务特点:学生数量统计与趋势预测、学生特征分类与相关分析方法特点:时序分析、回归分析、聚类分析用于学习过程分析的集成应用方案用于学习过程分析的集成应用方案任务特点:学生登录行为分析、学
7、生资源浏览模式分析、师生交互论坛分析和学生行为影响因素分析方法特点:聚类分析与顺序分析、关联规则、社会网络分析用于修业结果分析的集成应用方案用于修业结果分析的集成应用方案任务特点:毕业(辍学)时间影响因素分析、毕业(辍学)时间预测方法特点:生存分析方法、决策树算法。用于文献分析的集成应用方案用于文献分析的集成应用方案任务特点:文献搜集、文献整理、文献综述方法特点:网络爬虫算法、信息抽取算法、术语提取算法、社会网络分析用于政策文本内容分析的集成应用方案用于政策文本内容分析的集成应用方案任务特点:高频主题词发现、主题词语义关系分析、主题词共现关系可视化、政策文本自动分类方法特点:主题词提取、社会网
8、络分析、文本分类四、结论和启示四、结论和启示三、主要发现三、主要发现二、挖掘方法二、挖掘方法一、问题的提出一、问题的提出3 3 主要发现主要发现v数据挖掘方法在E-Learning学习过程分析中是有效的,较好地拓展了对E-Learning关键要素认识的完整性对对“谁在学谁在学”有了有了更更全面认识全面认识对对“学什么、怎么学学什么、怎么学”有了有了更更准确认识准确认识对对“学习的结果如何学习的结果如何”有了有了更更深入认识深入认识3.1 3.1 对对“谁在学谁在学”有了更全面认识有了更全面认识v3.1.1 3.1.1 发现了远程开放教育学生构成特点及其变发现了远程开放教育学生构成特点及其变化趋
9、势化趋势 以中央电大开放教育12年约700万专科和本科学生数据为研究样本。 非高等教育适龄人口(22岁)学生为主体,但高等教育适龄人口(1822岁)学生在逐年增加。 男生、女生比例相当,女生略多于男生,并且女生比重逐年增加。 未婚学生为主,已婚学生为辅,并且已婚学生比重在逐年降低 入学时具有中等职业教育背景的学生最多,普通高中背景的学生在专科学生中的比重逐年增加。 “专业层次”、“性别”、“婚姻状况”、“年龄”等构成的变化存在显著相关性,表明这些变化之间具有互动性。各类学生构成的互动性各类学生构成的互动性 * Correlation is significant at the 0.01 lev
10、el (2-tailed) * Correlation is significant at the 0.05 level (2-tailed).3.1 3.1 对对“谁在学谁在学”有了更全面认识有了更全面认识v3.1.2 远程开放教育学生数量在逐年增加,并与国内经济发展、普通高校学生数量之间存在显著正相关关系 以电大高等教育为样本,自1989年以来,电大高等教育招生数、在校生数在逐年增加,并与普通高等教育学生数量以及国内生产总值存在显著正相关关系。 可构建历年普通高等教育在校生数与电大高等教育在校生数线性回归方程。 电大高等教育在校生数 =32.549+0.113*普通高等教育在校生数2.2
11、2.2 对对“学什么、怎么学学什么、怎么学”有了更准确认识有了更准确认识v2.2.1 学生基本以评价为导向,只浏览评价所要求浏览的资源,而很少浏览其他资源,并且在12天时间内突击完成所有资源的浏览任务。 以某网络课程学习为例,学生一旦进入该网络课程“课程章节”或“体验区”模块,则主要是在本模块活动,期间几乎不去访问其他模块直至离开,其访问跳转的序列模式如上图所示。3.2 3.2 对对“学什么、怎么学学什么、怎么学”有了更准确认识有了更准确认识v3.2.2 从群体角度看,学生在线学习行为在时间的分布上是相对均匀的 下图是某网络课程各周学生登录率情况 登录率最高的一周为30.2%,多数时间学生登录
12、率在10%至20%之间,未出现集中学习的现象。3.2 3.2 对对“学什么、怎么学学什么、怎么学”有了更准确认识有了更准确认识v3.2.3 从个体角度看,学生在线学习时间投入少 以中央电大开放教育学习指南网络课程学习为样本,有近80%的学生(78.6%)登录天数在4天及以下,50%学生的登录天数在2天及以下。 影响学生学习时间投入的内在因素有性别、年龄和专业层次。 倾向于“登录天数”“少于3天”的学生有“专业层次=专科,性别=男,年龄=小于25岁”或“专业层次=课程开放,年龄=不小于25岁”等两个群体。3.2 3.2 对对“学什么、怎么学学什么、怎么学”有了更准确认识有了更准确认识v3.2.4
13、 师生交互程度低,交互论坛主要是答疑功能;教师在交互中扮演着“领导者”和“中介者”的角色,学生的主体作用未能充分发挥。3.3 3.3 对对“学习的结果如何学习的结果如何”有了更深入认识有了更深入认识v2.3.1 远程开放教育学生总体毕业时间集中在第5、6、7、8等学期,毕业时间跨度平均为12.35学期。3.3 3.3 对对“学习的结果如何学习的结果如何”有了更深入认识有了更深入认识v3.3.2 在远程开放教育学生中 人文与社会科学类专业学生毕业率略高于非人文与社会科学类专业。 20岁29岁和30岁39岁两个年龄段学生毕业率高于其他年龄段学生。 女性学生毕业率高于男性学生。3.3 3.3 对对“
14、学习的结果如何学习的结果如何”有了更深入认识有了更深入认识v3.3.3 远程开放教育中具有不同特征的学生,其毕业时间存在明显差异,婚姻状况、籍贯、文化程度、年龄等变量是毕业时间的主要影响因素。 以中央电大开放教育专科学生为例,在毕业时间差异方面, 女性学生毕业时间显著少于男性学生。 已婚学生毕业时间要显著少于未婚学生。 本地学生的毕业时间要少于非本地学生。 中职学历学生毕业时间要少于普通高中学历学生,普通高中学历学生毕业时间要少于专科学历学生。3.3 3.3 对对“学习的结果如何学习的结果如何”有了更深入认识有了更深入认识v3.3.4 发现了预测远程开放教育学生毕业时间的若干规则。 以中央电大
15、开放教育专科学生为例,采用Microsoft决策树算法构建了以5项个人特征(婚姻状况、年龄、籍贯、文化程度、性别)作为输入值,以毕业时间为预测值的毕业时间决策树模型。毕业时间早于第毕业时间早于第6 6学期的学生预测规则学期的学生预测规则序号规则(决策树路径)支持事例毕业时间=41223633.59%2婚姻状况=已婚,籍贯=本地学生,文化程度=中专,年龄412584525.66%3婚姻状况=已婚,籍贯=本地学生,文化程度中专,年龄=23879121.49%4婚姻状况=未婚,年龄=29 and 年龄=34 and 年龄=8概率1婚姻状况=未婚, 年龄=23 and 年龄29,性别=男,籍贯=非本地
16、34127.58%2婚姻状况=未婚,年龄23,性别=男682925.94%3婚姻状况=未婚,年龄23,性别=女1200320.31%4婚姻状况=已婚,籍贯=本地,文化程度中专,年龄=41 98219.27%其他发现其他发现v在文献研究和政策研究中应用文本挖掘方法,可以大大提高研究人员把握问题、分析问题的效率和效果其他发现其他发现利用专业检索可提高文献的查全率和查准率,编写得到的检索语句可使其他研究者重复这一检索过程。 以CNKI中国期刊数据库为例,编写如下检索语句来搜集“协作学习”研究相关的文献。 (关键词=CSCL OR 关键词=合作学习 OR 关键词=协作学习 OR 关键词=协同学习) A
17、ND (摘要=协作学习 OR 摘要=CSCL OR 摘要=合作学习 OR 摘要=协同学习) AND (中文刊名=中国电化教育 OR 中文刊名=现代教育技术 OR 中文刊名=中国远程教育 OR 中文刊名=开放教育研究 OR 中文刊名=现代远距离教育 OR 中文刊名=电化教育研究)其他发现其他发现利用信息抽取技术可将所获取的各类文献信息或政策文本批量转换为数据库,研究者可在研究过程中快速提取相关信息,并可与其他研究者共享。利用术语提取、中文分词、社会网络分析、信息查询等技术,研究人员可快速把握研究重点,了解研究机构和研究人员,并描绘成(可表征相关研究领域成熟度的)知识网络图。其他发现其他发现 反映
18、某一研究主题成熟程度的知识网络图反映某一研究主题成熟程度的知识网络图 利用UCINET软件绘制的“终身教育与远程教育”知识网络图其他发现其他发现采用社会网络分析方法中的凝聚子群分析来采用社会网络分析方法中的凝聚子群分析来表征科研团队及其成员关系情况表征科研团队及其成员关系情况其他发现其他发现利用中文分词技术、术语提取技术、元搜索技术和社会网络分析方法可重构政策文本内容分析流程,提高政策研究的效益和效率。四、结论和启示四、结论和启示三、主要发现三、主要发现二、挖掘方法二、挖掘方法一、问题的提出一、问题的提出4 4 结论和启示结论和启示现有的数据挖掘工具在现有的数据挖掘工具在E-Learning学习过程分析中需要学习过程分析中需要整合,针对典型任务情境构建数据挖掘工具集成应用方整合,针对典型任务情境构建数据挖掘工具集成应用方案便捷可行案便捷可行数据挖掘方法在数据挖掘方法在E-Learning学习过程分析中是有效的,学习过程分析中是有效的,可较好地拓展对可较好地拓展对E-Learning关键要素认识的完整性关键要素认识的完整性在文献研究和政策研究中应用文本挖掘方法,可大大提在文献研究和政策研究中应用文本挖掘方法,可大大提高研究人员把握问题、分析问题的效率和效果高研究人员把握问题、分析问题的效率和效果v主要结论主要结论4 4 结论和启示结论和启示v主要启示恰当运用数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床护理操作教学课件
- 皮肤基础护理:环境因素对肌肤的影响
- 输血患者评估
- 体育经济管理就业前景
- 国家人工智能战略解读
- 提升护理实习带教质量的策略
- 护理沟通技巧练习题
- 产科解剖护理综合实践
- 肩周炎康复训练中的注意事项
- 安全培训董直播间课件
- YDT 4394.4-2023自然语言处理技术及产品评估方法 第4部分:机器同传系统
- 罗茨鼓风机行业发展趋势报告
- 慢性阻塞性肺疾病患者非肺部手术麻醉及围术期管理的专家共识
- 肉牛养殖投资计划书
- 中建办公商业楼有限空间作业专项施工方案
- 四川省成都市青羊区2023年九年级一诊英语试卷
- 拆零药品登记表
- 附件1北京建筑大学新办本科专业教学评估方案
- 第12课 水陆交通的变迁 高二历史 课件(选择性必修2:经济与社会生活)
- 七年级上册语文期末考试卷及答案浙教版
- 解决问题的五原则-培训资料
评论
0/150
提交评论