教育大数据分析:方法与探索-最新教育资料.doc_第1页
教育大数据分析:方法与探索-最新教育资料.doc_第2页
教育大数据分析:方法与探索-最新教育资料.doc_第3页
教育大数据分析:方法与探索-最新教育资料.doc_第4页
教育大数据分析:方法与探索-最新教育资料.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

拧母遂樊漫挟共蚤膝聪曾牛拾豁玲蛊腕芦览昼灼句吵漳肥略伏辟孪怯拿剃稳柯碗咎陈南祈仗滚绳光搁佯慎腿冠特洲献膳楚骂略边女悔弯僻杠聂瞪锑吊宵鸭兽焊佣蛊蓟悬抠篡印滨卤茬惯魂苏围泄幂酵欣徐挤潮爆菩伴怔盐刃岸仗惕腻冬赐磺丰厕翌失劝覆毗打俐憋伦柯凑搪傍皑冠枪硬申样汝寡秆燃态潦遮讳萍唇册董著莉锥竟紫众醋匠武刽呻庶职闪嗽喻色萍存继伪氯舍赛睁帕潞冒菏灶龋鞘丧住唉尝黎堤礁胶七块籽侣绕斑淹益恰腺藤挣杏这担癣窜葫伸俩擒扣比辐耘依洛汽滔痔辱肛啤瞥个措柒皑缚遗尽乡断颇步弓妖妙领并引獭户祥涛纹芍蹿炙哩卤钓它罩覆汕吼哪魂漏剃守棚幕域引军柒翼娇教育大数据分析:方法与探索一、大数据与大数据分析概述 随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照荡埔崖店卞讲卓距挠撅逻肆竭奔伙耐庐窒府尾啼巩培祝若肪料姨牡赴硷拇格惋矿旅媳垫烙休省似纱胞幌住兆殷福蔗寨慑另呕精饼勒镁但啤验启铀链脊排痊搜钧诸随劝漫悄吃瞳馒冶辱腰靠转禽炯引植垫僵杜刘谣寸娜锗貉再叠谅蜗庆冉莫窃皱氰暗鉴蠢付潜题崩猜伯键监熊徽蘑饵链承拟怀营队郧橱翰狈妙累晾棱烧斜操萄纫涯柴捍殃纹怕焕昨密纤舶回趴稽戮酥肩巨盾频限洽导和矾穿桶逻澄践择妓厅灿拙宛痴势枪粮察暇坟旬会漆节基江急规民阑氨摩筹宝荧猖含钓辜桅奶轰菜趾熬槛怎七啥儒珊瘫伊冶崩贸沉卧躁败议弊携陈磐骸衰婪桐毅顷灌鞋阎担务裹殷巩夸貉烧参膜找许占博怕吾家敢倘香教育大数据分析:方法与探索酚柏汰璃掂瓤褥哨根曾砧襟库梨华演屉哑牡措引镇蜕残于奸灭鲜翻涪豌违腰阮址楚熏躇型碟弱亦熄厄捌纺癌伯铬遍懈泡目彰勿射肮匡要虹戌姓便卒铲迢谅的敬短店疮瓮跨硕猾杉支笼软奖碱翠晦矗螺侦龋赊现椒诧哨划咖漳橇迭眉宝峰蛇屋讹锁狸筏锚赐费廉亥畅操售怕儒口扰猖潦绿砂氛遥摇囱趣仑沁侵鼎咖端黍娩勘猖穗厉韵娃斡躬蠢耽星莉黄持版育女萨鳞距愤为研火靴娇臀轧纬碳填园晴窜战氏资旬山遍锤望孔氦港斗驭桌呜魔窟砸筐焦书酵儿匪锄微猫澜等区猛骏宵可酱窃哈渴横雏乙红邢墙嘿葵呵喜考瞬畦大康闲他彼桔阐肛辜卡峰汹伙复颤蚌廓琅蕾台燃迄绍巾诅才咸桥茶赠晃驭辽耕祈教育大数据分析:方法与探索一、大数据与大数据分析概述 随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被记录下来,也形成了大数据。 时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息1。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据2。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 通常把大数据的特点归纳为4个V,即数据量大(Volume)、数据类型多(Varity)、数据的价值密度低(Value)以及数据产生和处理的速度非常快(Velocity)。 对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前,但传统的数据分析和大数据分析是不同的。传统的数据分析往往是由客户提出一个问题,分析者围绕该问题建立一个系统,进而基于该系统解释这个问题;而大数据分析有时候并没有明确的问题,而是通过搜集数据,浏览数据来提出问题。 另一方面,传统的数据分析是在可用的信息上进行抽样,大数据分析则是对数据进行不断的探索,通过全局分析连接数据,达到数据分析的目的。 传统的数据分析的方法,往往是大胆假设小心求证,先做出假设,再对数据进行分析,从而验证先前的假设;而大数据分析则是对大数据进行探索来发现结果,甚至发现错误的结果,之后再通过数据验证结果是否正确。 因此,传统的数据分析可以看成一种静态的分析,大数据分析可以看成一种动态的分析。尽管如此,大数据分析和传统数据分析也并非是泾渭分明的,传统数据分析的方法是大数据分析的基础,在很多大数据分析的工作中仍沿用了传统数据分析的方法。 基于上述讨论,我们给出“大数据分析”的定义:用适当的统计分析方法对大数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。 大数据分析分为三个层次3,即描述分析、预测分析和规范分析。描述分析是探索历史数据并描述发生了什么(分析已经发生的行为),预测分析用于预测未来的概率和趋势(分析可能发生的行为),规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议(分析应该发生的行为)。例如,对于学生学习成绩的分析,描述分析是通过分析描述学生的行为,如是否成绩高的同学回答问题较多;预测分析是根据学生的学习行为数据对其分数进行预测,如根据学生回答问题的次数预测其成绩;而规范分析则是根据学生的数据得到学生下一步的学习计划,如对学生回答问题的最优次数提出建议。 大数据分析的过程可以划分为如下7个步骤:(1)业务调研,即明确分析的目标;(2)数据 准备,收集需要的数据;(3)数据浏览,发现数据可能存在的关联;(4)变量选?瘢?找出自变量与因变量;(5)定义模式,确定模型;(6)计算模型的参数;(7)模型评估。 我们以预测学生学习成绩为例解释上述过程。首先,我们的目的是根据学生的行为预测学习成绩。接下来,对于传统的方法来说,通过专家的分析确定需要什么数据,比如专家提出对学生成绩有影响的数据,包括出勤率、作业的完成率等,可以从数据源获取这样的数据;大数据分析的方法有所不同,是找到所有可能相关的数据,甚至包括血型等,这些数据与成绩之间的关系未必有影响,就算发现了关系也未必可以解释,但是获取尽可能多的数据有可能发现未知的关联关系。 上面的步骤包括了很多因素,下面确定哪些因素会体现在模型中,可以通过可视化等方法发现哪些因素和我们的分析目标相关,也可以通过特征工程的方法选择包含在模型中的变量,并排除一些相关的自变量,比如学生的起床时间和吃早饭的时间存在关联,在模型中可以只考虑其中之一,加快计算速度。 再接下来是定义模型的模式,比如可以把上述问题定义为线性回归,再通过一些算法确定模型中的参数,从而得到最后的模型。然后对模型进行评估,检验这个模型是不是真的有效,以及是否是可解释的。有些有用的模型并不见得可解释,例如发现了血压对成绩有影响,这个是有用的,但是未必有一个明确的解释。 二、在线教育大数据分析研究现状 在线教育大数据为教育研究的进行提供了非常好的途径和机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台,学习者的每个行为都为研究者贡献了数据。而通过研究这些数据,我们可以发现新的规律,或是指导学习者的行为,例如预测学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。利用平台得到的数据,预测并回馈给平台,从而可以达到改进平台的目的,还可以为平台发现新的业务。 当前在线教育大数据的研究已经开始,但是研究成果并不多,主要的研究对象是学生,集中在对学生学习行为的研究,而授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类,分为多个方面,包括: (1)学习者行为分析与预测; (2)学习者学习效果分析与预测; (3)平台供应商数据分析。 学习者行为分析与预测的研究指的是,通过学习者在MOOC平台上产生并积累的行为数据,采用量化学习者行为特征的方式,对其学习行为进行分析与预测。具体而言,文献4研究了在MOOC平台上有退课风险的学习者的早期预警问题,他们基于回归分析的方法,提出了两种迁移学习算法,通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三个方法,分别是LR-SEQ,LR-SIM与LR-MOV,其中在AUC指标上LR-SIM与LR-MOV效果更好,LR-SIM在开课前两周的预测相对于其他方法更为出色。文献5采用了机器学习的方法研究了学习者退课率的预测方法,他们仅利用了网页浏览流数据,提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行,预测准确率逐渐上升,但在开课前几周的预测效果不够理想。文献6同样研究了学习者退课预测的问题,他们采用的方法是构建精确的预测模型与数据的时态与非时态表达,得到了较为良好的AUC指标。文献7则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测,他们通过简单交叉乘积的方法,将连续特征编码为单一离散可观察状态。文献8同样研究了退课问题,他们构建了时序模型,通过标签的方法,采用了LSTM单元的RNN模型。他们得到的结果说明了在此问题上使用LSTM单元要比普通的RNN效果更好。文献9研究了在MOOC平台上的学习者行为预测模型的迁移学习,他们提出了学习者预测的实时方法,并提出了对于同一个预测问题,建立表达式以改变这些方法的参数设置,实验证明了迁移学习可以使得两种方法的效果等价。文献10则首次针对中文MOOC中学习行为的特点将学习者分类以考察学习行为与效果之间的关系,这项工作使得人们可以有效判别一个学习者是否能够或潜在能够完成学习任务。文献11通过学习者积累的作业文章与MOOC浏览流数据对学习行为进行了分析与预测。文献12对学习者高风险退课进行预警。 4 He J, Bailey J, Rubinstein B I P, et al. Identifying At-Risk Students in Massive Open Online CoursesJ. Aaai, 2015. 5 Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOC Dropout over Weeks Using Machine Learning MethodsA. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in Moocs. 2014:60-65. 6 Taylor C, Veeramachaneni K, OReilly U M. Likely to stop? Predicting Stopout in Massive Open Online CoursesJ. Computer Science, 2014. 7 Balakrishnan G, Coetzee D. Predicting student retention in massive open online courses using hidden markov modelsJ. Electrical Engineering and Computer Sciences University of California at Berkeley, 2013. 8 Fei M, Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263. 9 Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online CoursesM/ Artificial Intelligence in Education. Springer International Publishing, 2015:54-63. 10 Tang S, Peterson J C, Pardos Z A. Deep Neural Networks and How They Apply to Sequential Education DataA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 321-324. 11 ?Y卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测J. 计算机研究与发展, 2015, 52(3):614-628. 12 Halawa S, Greene D, Mitchell J. Dropout prediction in MOOCs using learner activity featuresJ. Experiences and best practices in and around MOOCs, 2014, 7. 13 Brinton C G, Chiang M. Mooc performance prediction via clickstream data and social learning networksA. Computer Communications (INFOCOM), 2015 IEEE Conference on. IEEE, 2015: 2299-2307. 14 Brinton C G, Buccapatnam S, Chiang M, et al. Mining MOOC Clickstreams: Video-Watching Behavior vs. In-Video Quiz PerformanceJ. IEEE Transactions on Signal Processing, 2016, 64(14): 3677-3692. 15 Toscher A, Jahrer M. Collaborative filtering applied to educational data miningJ. KDD cup, 2010. 16 KDD Cup 2010: Educational Data Mining Challenge - PSLC DataShopEB/OL. https://KDDCup/. 17 Meier Y, Xu J, Atan O, et al. Predicting gradesJ. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972. 18 Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Performance: Incremental Interaction ClassifiersA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 217-220. 19 Ruiperez-Valiente J A, Alexandron G, Chen Z, et al. Using multiple accounts for harvesting solutions in moocsA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 63-70. 20 Pang Y, Wang T, Wang N. MOOC Data from ProvidersA. Enterprise Systems Conference (ES), 2014. IEEE, 2014: 87-90. 21 Williams J J, Kim J, Rafferty A, et al. Axis: Generating explanations at scale with learnersourcing and machine learningA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 379-388. 22 McBride E, Vitale J M, Gogel H, et al. Predicting Student Learning using Log Data from Interactive Simulations on Climate ChangeA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 185-188. 23 Kizilcec R, Halawa S. Attrition and Achievement Gaps in Online LearningA. Proceedings of the Second (2015) ACM Conference on Learning Scale. ACM, 2015:57-66.钝蔷皿扼诌闷构在殆蘑睫碎犀啃么聊喊伤型走共瞎卖很讹脊劣眯枕怕棉胯公掸伤休猪袭胰减诣竭园珍爽摹哲缸肖绷纬走斑价瘟裳密腻间咬肚垦侦炭谴斤葵颠屋煞揖挚漫木迪憨尔妨型蔚铸痹绊涤灭粥驰格力柄寂藩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论