MOOCs交互模式聚类研究_第1页
MOOCs交互模式聚类研究_第2页
MOOCs交互模式聚类研究_第3页
MOOCs交互模式聚类研究_第4页
MOOCs交互模式聚类研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    moocs交互模式聚类研究    摘要:聚类分析是学习分析和数据挖掘的常见方法,其核心在于通过分析对象特征属性集合的相似程度来进行分类。聚类分析在远程教育中有着广阔的应用空间,可以对在线学习行为模型和绩效水平进行有效划分,使之成为后续研究的重要基础。对在线学习领域的典型聚类研究进行分析,将聚类研究的流程和要点进行总结,着重探讨了聚类变量选择和有效性检验等方面,并对252门moocs的在线交互状况进行了聚类分析。研究发现,我国大多数moocs交互水平较低,教师在交互中并不活跃,没有进行积极的答疑辅导和交互组织;随着教师发布主题帖数量的增加,课程的交

2、互水平会随之提高;教师的积极参与能够促进课程交互水平,但在交互水平较高的课程中,教师投入的增加并没有带来课程交互水平的增长;教师需要对学生的交互进行有效组织,才能促进交互水平的进一步提高。关键词:聚类,mooc,学习分析,交互分析基金项目:本文系北京师范大学自主科研基金项目“学习者在线学习状态分析与可视化工具研发”课题成果,获得中央高校基本科研业务费专项资金资助。随着moocs的蓬勃发展,在线学习数据不断激增,学习分析和教育大数据也越来越受到关注。如何通过数据提升教育教学质量,提高教学管理水平,促进有效学习发生,吸引着越来越多的研究者和实践者。对在线学习过程数据的分析并非新生事物。从分析方法上

3、,学习分析将统计分析、机器学习和复杂网络等方法进行了整合应用;从数据来源上,由于教育自身的特殊规律,在线教育大数据之“大”不同于医疗、交通乃至其他互联网领域,分析方法也有着不同的情境,需要远程教育领域的研究作为指导。聚类分析是数据挖掘和机器学习的常见方法之一,属于无监督学习(unsupervised learning),其核心在于分析对象特征属性集合。通过分析对象属性集合的相似程度,将其划分为不同的类别,使类别内的数据相似度较大而类别间的数据相似度较小。从本质上,聚类分析是一种具有相对性的分析方法。在应用过程中,聚类分析可以对没有客观评价标准的对象属性进行分析,从而获得隐含的模式分类。聚类分析

4、是研究在线学习的重要方法,在远程教育中有着广阔的应用空间,适用于在线教学中的多类问题解决。本文通过对在线学习领域的典型聚类研究进行分析,将此类聚类研究的流程和要点进行了总结,并通过聚类对252门moocs的在线交互状况进行分析。一、在线学习领域的聚类研究在线学习领域的聚类多针对在线学习主体的属性进行相似性分析并确定其类别。通过聚类分析学习者在学习环境或学习任务中的行为模式,分析学习者的特征属性(如人口学特征),或探索多类属性(如学习策略与学习绩效等)之间的关系。现有的聚类研究中,较常见的方式是通过在线学习平台日志中的数据直接进行聚类分析,并以聚类结果为基础分析学习者的行为模式或绩效特征。例如,

5、amershi和conati(2006)在智能教学系统中对学习者的算法学习过程进行了分析,采用k-means基于描述学习者创建、修改和测试行为的24种变量进行聚类分析。该研究发现,通过聚类分析可以将学习者划分为不同类别,不同类别的学习者呈现出不同的学习行为和学习绩效特征。魏顺平(2011)以moodle教学平台的forum、course、wiki、assignment、resource、user行为为聚类变量,将学生分成了三类,分析了学生活跃度集中于forum、course和wiki,但resource模块的访问频次却很低,并分析了这一现象的可能成因。田娜和陈明选(2014)根据网络学习平台的

6、系统日志对学生进行了k-means聚类分析,将学生分成了两类:一类是学前测试和学后测试成绩优秀的学生,另一类是学习比较活跃和花费时间较多的学生。研究者进而根据聚类结果对聚类影响因素进行了分析。随着moocs的发展,在线学习数据日益丰富。聚类研究也随之走向深入,研究者试图通过聚类来分析更为复杂的学习者特征。聚类分析的输入变量渐渐由直接提取日志变量,变为通过日志中的单一变量进行整合和汇聚,试图揭示深层次的学习规律。例如,斯坦福大学的kizilcec等人(2013)以学生在moocs平台上观看视频和完成测验的行为数据为基础,设计了四类取值来表示学习者的学习状态。其中,o为“out”,表示完全没有参与

7、到课程中;1为“auditing”,表示没有完成测验但是观看了视频;2为“behind”,表示在指定的时间点之后完成测验;3为“on track”,表示学生按时完成测验。研究者进而根据这些状态变量对来自三门课程中的超过9万名学生进行聚类,最终将学习者分为四类,包括“完成者”(completing)“旁听者”(auditing)“低参与度者”(disengaging)和“筛选者”(sampling)。英国开放大学的ferguson和clow(2015)同样采取了这种学习者状态评定的研究方法,最终获得了更为细致的七个学习者分类。基于这一趋势,我们对在线学习聚类研究的流程和要点进行了总结,并通过这一

8、流程对在线学习中的典型聚类研究进行了解析。二、在线学习研究中聚类的一般流程1.变量选择聚类研究的核心思路是通过一组变量的取值计算变量对应的对象相似程度。变量参数的选取对聚类研究有着非常重要的影响。基于各自的研究问题,研究者需要从可获得的数据中选择或设计能够表征学习特征的变量作为输入到聚类算法中的原始参数。这些分析变量有些可以从学习平台中直接获得。例如,beal等人(2006)根据学习者自我报告的动机数据对学习者进行聚类。amershi和conati(2006)选用描述学习者与学习环境之间各种交互的频率以及两次交互之间的时间间隔作为聚类变量,通过聚类得出学习者与学习环境交互的不同模式。基于此类变

9、量选择的聚类分析较为简便易行。但当涉及学习行为数据分析时,学习管理平台记录下来的数据往往较为琐碎,难以体现足够的教学意义。例如moodle平台(2.6以上版本)中仅view类行为就超过30种,通过这些行为直接进行聚类可能会使结果难以解读。因此,为了确保聚类结果的实际意义,越来越多的研究者倾向于对学习平台中的数据进行处理,聚合成新的、具有更强解释力的数据。kizilcec等人(2013)通过对测验和视频观看情况分析获得的参数,能够更好地对学习者的学习状态进行表征。该研究抓住观看视频和完成测验这两个moocs学习中的常见行为,将学习者行为分成了四种情况,构建了学习过程评价的指标。基于这些指标参数进

10、行了聚类,更好地对学习者类别进行了划分。通过上述分析可见,聚类分析的变量选择可以简单选取描述研究对象的某一类参数(如学习动机、交互频次等),也可以通过该对象的多个相关参数进行聚合(如通过观看视频和完成测验进行构建)。2.聚类过程聚类分析通过对象属性的相似性进行分类。对象相似性比较有多种方法,对应的聚类算法可以分为四类:层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法(孙吉贵等,2008)。目前,采用较多的聚类算法包括k均值(k-means)聚类、kohonen聚类和层次聚类(hierarchical cluster)等。由于相似度比较具有一定程度的相对性,聚类结果(包括类

11、别个数和对象特征)具有不确定性。不同聚类方法获得的结果可能有所不同。聚类分析往往需要经过多轮迭代才能获得有效的最终结果,在迭代过程中需要对不同聚类结果进行对比。3.类别分析对聚类获得的各类别的分析和解释主要基于各类别原始参数的组内变量值域分布和组间值域差异。对于聚类结果的解释和分析需要对各类对象进行概括的描述。通过取值高低来衡量活跃水平和学习绩效等是常用的分析方法。例如,amershi和conati(2006)通过分析获得的各类别学习绩效的平均值,将聚类结果描述为高绩效组和低绩效组。同时,根据对高绩效组和低绩效组的比较,研究者进一步发现了低绩效组较频繁地对其算法设计进行调整,而每次调整之间的间

12、隔较短。但在更多的研究中,单纯的变量数值高低难以对聚类结果进行有效解释,需要进一步结合教学过程进行更加深入的解读。kizilcec等人(2013)根据聚合的状态指标将moocs中的学习者划分为四类:“完成者”,此类学习者完成了课程中大部分测验;“旁听者”,此类学习者持续观看课程视频,但是很少完成测验;“低参与度者”,此类学习者在课程初期完成测验,但是之后没有持续下去;“筛选者”,此类学习者在课程进行过程中仅选择性地观看视频并完成测验。此类分析对学习过程进行了更为深入的解读。值得注意的是,聚类结果的分析往往和聚类过程迭代进行。由于聚类方法的相对性,聚类结果并不一定可以获得有效解释。研究者往往需要

13、对聚类的类别个数和聚类变量等进行不断调整,才能最终获得具有教学意义的有效解释。4.有效性检验聚类分析有效性的分析主要包括两个方面,聚类变量自身的统计有效性和其他变量的意义一致性。统计意义上的有效性主要通过各类统计指标判断。研究者可以通过调整类别数对比统计指标来获取较好的聚类方案。例如,ferguson和clow(2015)采用了侧影(silhouette)指数来衡量某个聚类结果中同类别中对象之间的相似度以及不同类别之间对象的差异度。平均侧影指数最大值为1,其值越接近1,聚类效果越好。在这两个moocs学习者分类研究中,平均silhouette指数分别约为0.8和0.5。此外,聚类结果各组内方差

14、和(within group sum of square)也是常用的指数之一,衡量各组内成员之间的距离。组内方差和越小,聚类效果越好。聚类轮廓系数是另一种常用聚类质量评价指标(朱连江等,2010),对聚类结果(聚类簇)的凝聚度和分离度进行整合,较为有效地对聚类有效性进行了评价。此外,聚类结果的意义一致性需要根据聚类结果对聚类变量之外的变量进行分析,以此来判断所获得的类别中其他变量的取值情况是否符合类别分析。例如,通过分析moocs中“旁听者”的学习成果,发现这类学习者中没有人最终获得课程证书,与这类学习者的行为特征相符。beal等人(2006)的研究中,对学习者自我报告的动机数据的聚类结果和教

15、师对学习者动机和绩效的评价相一致。5.扩展研究聚类分析的重要性在于在没有目标变量参照的情况下对研究对象进行分类,并可以成为后续研究的重要基础。基于聚类结果,研究者既可以通过调查研究和理论研究,深入挖掘各类别对象的特性,也可以通过有监督学习(supervised learning)探索影响因素和关联关系,还可以作为教学干预研究的起点。kizilcec等人(2013)在聚类分析结果的基础上,对四类moocs学习者的性别、年龄、工作状态、学习目的、学习满意度以及论坛参与情况等展开了调查和对比,丰富了对各个类别学习者的理解。通过对各类别学习者学习满意度的分析,研究者发现“旁听者”自我报告了与“完成者”

16、类似的较高的学习满意度,进而认为“旁听者”与“完成者”之间学习行为的差异可能来源于两类学习者不同的学习偏好,而未来的课程设计需要进一步发现“旁听者”,并为他们提供针对性的服务。berland等人(2013)对新手程序员学习过程中的编程结果进行描述和聚类,发现了六种不同的学习状态。在学习理论的支持下,该研究者发现了新手程序员学习的三个主要阶段,包括探索阶段、基于探索的修改阶段以及改良阶段,并根据数据对基于探索的修改阶段进行了重新定义,加深了对程序员学习过程的认识。amershi和conati(2006)在其关于探索性学习环境中聚类分析的研究中通过收集到的完整数据进行聚类之后,将聚类结果用于学习者

17、实时数据分析中,通过聚类方法对学习者的学习进行实时监控和测评,并基于聚类结果进行了教学干预。该研究还对聚类方法进行了优化,分析了数据点采集的数量和分类结果准确性之间的关系,发现基于10%的数据也能够对学习者进行较为准确的分类。三、moocs交互聚类案例研究1.研究目标与数据来源案例研究旨在通过对我国moocs交互数据进行聚类分析,发现其交互现状,并对其交互特征进行探索。本研究的数据来自我国现有14个主要moocs平台中的课程。在这14个平台中所有可见的1,388门课程中,有622门课程(占44.8%)在研究者访问阶段是可以浏览的,其他课程已经结束或还未正式开课,无法获得完整的课程信息(郑勤华等

18、,2015)。由于moocs中的交互主要发生在课程论坛中,发帖和回帖是交互的主要形式(barak et al.,2016),因此,本研究分析的是论坛交互。分析发现,622门课程中产生了交互的仅有295门,占47.4%,327门课程(占52.6%)中没有论坛交互。针对主题帖数量进行深入分析可以发现,交互状况极度不平衡(孙洪涛等,2016),在全部课程中仅有252门课程能够采集到交互数据。本研究针对这些课程进行了分析。2.分析方法本研究通过k-means聚类分析对存在有效交互的课程进行了分析。k-means聚类算法是聚类分析中使用最为广泛的算法之一。该算法选取k个初始聚类中心,按最小距离原则将各样

19、本分配到k类中的某一类,之后不断地计算类别中心,并调整各样本的类别,最终使各样本到其所属类别中心的距离平方之和最小(周世兵等,2010)。本研究采用的分析工具是spss modeler 14.1。在聚类变量选取方面,为了更好地表征moocs交互特征,我们采取了数量变量和状态变量相结合的方式。在论坛交互中,帖子数量、回帖的时间特性和教师的交互投入情况是表征论坛交互状况的重要方面。在本研究中,我们采用了主题帖数、教师发布的主题帖数、教师答疑辅导帖数、回帖热度和回帖时间间隔五个变量对moocs中的交互总量、交互时间和教师投入进行了分析。其中,主题帖、教师主题帖和答疑辅导帖等指标直接采用数量;回帖热度采用等级表示,0为未回帖,1为每主题帖平均3个以下回帖,2为平均4-8个回帖,3为平均8个以上回帖;回帖时间间隔也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论