网络课程资源自动量化评价研究.doc_第1页
网络课程资源自动量化评价研究.doc_第2页
网络课程资源自动量化评价研究.doc_第3页
网络课程资源自动量化评价研究.doc_第4页
网络课程资源自动量化评价研究.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络课程资源自动量化评价研究*基金项目:本文系全国教育科学“十一五”规划2009年度教育部青年专项课题“网络课程使用现状自动量化评价系统研究”(课题编号:ECA090441)的研究成果之一。王满 徐朝军(南京师范大学 教育技术系 江苏南京 210097)摘要为了提高高校网络课程评价的效率以及客观性,本文引入数据挖掘和信息抽取技术,提出网络课程资源量化评价指标,构建网络课程资源量化评价系统模型,对资源实时跟踪监测,输出数据作为专家主观评价的补充,初步实验表明该量化评价方案具有较强的客观性和可行性。关键字网络课程 数据挖掘 信息抽取分类号G434Study on Automatic Quantitative Evaluation of Web Course ResourcesWang ManXu Chaojun(Department of Educational Technology, Nanjing Normal University, Nanjing, Jiangsu 210097,China)Abstract In order to improve the efficiency and objectivity of web course evaluation in university, this paper imports data mining and information extraction techniques, introduces web course resources quantitative evaluation index, and builds a model for quantitative evaluation system for real-time tracking and monitoring key indicators, this model exports data as the supplementary of experts subjective evaluation. Preliminary experiment shows that this quantitative evaluation of the program has strong objectivity and feasibility.KeywordsWeb CourseData Mining Information Extraction1引言互联网和媒体技术的飞速发展,推动人类信息传播走向以数字技术、网络技术和多媒体技术为特征的网络传播时代。计算机数据挖掘技术因其自动运算及可以发现Web资源潜在规律和模式促进了其在教育领域的研究应用。本文从客观量化的角度,提出网络课程资源量化评价实施方案,从海量课程数据中自动提取能够有效体现资源建设和使用过程的相关信息,加以统计处理,输出客观的量化数据,为各级主管部门的网络课程建设和评价工作提供决策依据。2网络课程量化评价指标体系目前,计算机自动处理技术在网络课程评价中的应用研究主要涉及到以下几个方面:应用数据挖掘技术动态选择和生成相应学习资源的网络课程智能模型1、针对学习者访问模式的web日志挖掘2,3、基于Apriori算法的多媒体关联规则挖掘4、基于模糊数学方法的网络课程评价系统5,6等。本文从网络课程评价理论7,8,9出发,结合技术实现的可行性,从网络课程的可用性、资源建设、交互设计三个一级指标、八个二级指标对网络课程资源使用过程进行量化评价。具体指标描述见表1。表1 网络课程资源量化评价指标一级指标二级指标指标说明可用性网站连通性定期访问网站首页,网站的连通性 = 连通次数 / 尝试连通次数。链接可用性定期统计在某一网站内可以访问的链接比例,包含动态网页、静态网页、Office文档、图片、Flash动画、教学视频等多媒体链接,链接可用性 = 可以正常访问的连接总数 / 网站链接总数。资源建设资源增长率定期统计新增资源链接,资源增长率 = 新增链接数 / 网站链接总数。资源更新定期统计所有网络链接中,内容发生变化链接比例,资源更新率 = 内容发生变化的资源链接数 / 网站链接总数。资源类型比定期统计各种类型的网络教学资源的比例,主要包括:各类网页、Office文档、图片、Flash动画、教学视频等。交互设计参与人数定期统计师生交互论坛或留言板中新增注册用户数。发帖数定期统计师生交互论坛或留言板中新增发帖数。中心发言人数定期统计师生交互论坛或留言板中中心发言人数。中心发言人一般是指在论坛中的教师、学习积极分子等,构建论坛或留言板中发言人的共现网络,网络中的关键节点即为中心发言人。说明:大学课程教学周期一般为一年,故上述指标统计周期一般为一年。所有指标项都可以通过自动化的网络数据采集程序从网络课程站点自动采集、统计,无需人工干预。在对采集的数据清洗过滤,对上述指标项归一化处理后,再结合其权重计算该课程的总分S为:(1)3系统设计与实现网络课程网站除了具有一般网站的特点以外还具有很强的主题相关性,因此本系统采用面向特定领域的主题搜索策略,经过统计分析和基于规则的信息抽取,提取评价数据,该系统的框架结构如图1所示。图1系统框架结构图3.1定点数据采集数据采集模块利用主题网络蜘蛛技术,从待评价网络课程网站提取所有原始数据,具体包括下载、分析站内每一个网页、教案、课件、教学视频等教学资源,从中抽取文件大小、发布时间等物理数据,以及实现论坛信息抽取。在蜘蛛爬行策略上,蜘蛛只集中在指定的课程网站上进行URL遍历,并高效识别课程中新增资源链接和其它变化。3.2数据清洗过滤课程网站除教与学的内容外,还包括大量的装饰性图片、动画、文字,以及对课程评价无用的链接,为保证统计数据的准确性,本文采用基于规则的数据清洗策略,首先根据锚文本描述过滤站内链接,然后通过网页标题来判断该页面是否有用,对资源的过滤策略主要有文件字节数、图片物理尺寸、出现频度等,如:装饰性图片、Flash在物理尺寸上一般是长条形且出现频度较高,导航性、提示性小图标的文件尺寸相对于教学图片要小得多。3.3 基于LCS算法的领域词典自动生成在网络课程领域,与主题相关的术语频繁分布在网站的文本中,且与主题相关度越高的术语出现的频率越高,因此本文采用基于LCS算法的领域词典构建技术,结合相似度计算抽取网络课程领域中整体出现频率较高的术语,经过处理自动生成领域词典。(1)改进的LCS算法经典的LCS算法10可以提取非连续的公共子串,在中文领域词典的构建中,这些非连续的词不能作为领域词,本文采用动态规划LCS算法,并改进算法的执行效率,提取连续的最大公共子序列。原理如下:用矩阵来记录两个字符串两两字符之间的匹配情况,若不匹配,则该位置标志为0,若匹配,则该位置的值是它前一位的值再加1,例如S1=ABCDE,S2=EBCHAD,其匹配矩阵如图2所示:图2 LCS矩阵该矩阵中,最大数2为这两个字符串连续最大公共子串的长度,字符串匹配的开始位置数组标号为:最大数值所在的数组标号-最大公共子串的长度+1,即(2-2+1=1)。则提取的最大公共字串为字符串S1中从数组标号1开始长度为2的子字符串,即“BC”。(2)生成领域词典基于LCS算法的领域词典自动生成实现流程如图3所示:图3 基于LCS的领域词典自动生成流程图预处理模块完成去除网页集中所有HTML标记和乱码等“噪声”,过滤无效页面,去停用词,消除词形词缀变化(动词的时态语态变化、形容词副词的比较级与最高级、名词复数等)。在汉语中,标点符号是对文本进行的最基本、最完整的语义单元划分,因此对抽取的网页文本按标点符号自然切分,存储长度大于1的字符串集合形成切分文档集。两两比较切分文档集中语句片段的相似度,提取相似度最高的两语句片段的最大公共子串,同时统计最大公共子串的词频。将词频大于1的所有子串作为候选领域词的集合,结合人工判断多次递归抽取后,利用规则优化候选领域词,过滤错误的组合模式,生成网络课程领域的主题词典。3.4 基于模版的论坛信息抽取网络课程常常采用留言板或学习论坛的形式跟学习者交互,反馈学习结果,因此本文以论坛或留言板等页面的抽取数据作为课程交互设计的评价依据。通过对网络课程网站论坛页面HTML源码进行分析,我们发现同一网站的发帖页面格式几乎相同,不同的只是发帖内容和时间等文本数据,书写均比较规范。因此本文采用基于模版的论坛信息抽取技术11。首先自动过滤无用标记,如、等以及所有标记内的属性。下面以一门网络课程中的留言板页面为例,其页面主题结构如图4所示。图4 留言板DOM树型结构图本文采用基于正则表达式的渐进式模式匹配策略提取论坛数据。结合.NET平台支持的正则表达式平衡组技术,匹配嵌套的最大信息块,如上文匹配嵌套的最大DIV标签的正则表达式模式设计为:(?*(?)|(?)|sS)*)(?(o)(?!)(2)得到存放论坛数据的信息块后,再根据各个模块的匹配模式提取数据到相应的命名组中,以上留言板的信息匹配模式见表2。表2 发帖信息匹配模式提取内容匹配模式标题(titleText)(?titleText(悄悄话留言)|(?=)+(?=)发言人(authorText)(?authorText(?=)+(?=)发言时间(timeText)(?timeText(?=)+(?=by)发言文本(maintext)(?mainText(此留言仅管理员可见)|(?=)(|)+(?=)回复人(returnAuthor)(?returnAuthor(w+(?=回复:)回复时间(returnTime)(?returnTime(?=w+回复:)+)回复文本(returnText)(?returnText(?=w+回复:+)(|)+(?=)3.5 短文本主题相关度计算常见句子相似度计算主要有两种方法:基于空间向量模型和基于语义的方法12。论坛等交互性页面中发帖内容多为短文本,且语言形式和内容均比较自由,因此笔者建议在前者的基础上加以改进,如许晓昕等人13提出利用按主题分类的历史缓存来提高对这类文本的处理能力。本文通过预先构建论坛垃圾词库,结合公共子串提取对论坛文本初步过滤。4实验和数据分析笔者以Visual Studio 2003 C# 、SQL Server 2005为开发环境,开发了网络课程资源量化评价系统模型,系统运行硬件环境为P4 2.8G CPU,512M内存。在确定样本后进行了测试,结果显示,该方法可以有效地对网络课程资源建设、使用过程进行自动的量化评价。4.1样本选择本文选取了教育部2007年12月21日公布的教育部财政部关于批准2007年度国家精品课程建设项目的通知(教高函200720号)中的411门本科课程作为实验对象。参考国家精品课程集成项目优质资源共享网站(/crsp/websiteInfo.do?method=index)中提供的网址,结合人工查找,得到411个网站实验样本。4.2实验数据系统对网站的可用性、资源建设两个一级指标中的连通性、资源增长、资源更新、链接可用性、资源类型等二级指标进行了跟踪统计,其中网站连通性、资源更新两个指标是宏观层面上的统计,后两个指标是针对选取的某几门课程网站做的微观统计,对交互设计指标项的实验是通过对几个代表性的网站留言板页面提取分析,从而得出实验数据。(1)可用性系统在5个不同的时间,对上述411个网站进行了跟踪,平均每月有120.8个网站不能正常访问,占29.39%,且成逐月上升趋势。平均每月有2个网站所用的服务器发生了变化,占0.49%。具体数据见表3。表3 网站连通性跟踪统计跟踪时间2008.112009.12009.22009.32009.5不能访问网站数89118116139142百分比21.65%28.71%28.22%33.82%34.55%平均值29.39%服务器变化数30232百分比0.73%0.00%0.49%0.73%0.49%平均值0.49%(2)资源增长在这5次跟踪中,部分网站的资源链接数有了少量增加,见表4。在2008年11月份至2009年5月期间,411个网站中只有33个网站(占8.03%)个网站的资源链接有了增加,链接增加总数为136,平均每个网站增加的资源数还不到1个。表4 资源更新统计跟踪时间2008.112009.12009.22009.32009.5资源增加的网站数76389总和33资源链接增加数78861421总和136(3)链接可用性、资源类型比例在上述宏观统计的基础上,笔者选取了八门课程(理学、工学、材料学、医学、法学等),在2009年6月份对其链接可用性和资源类型进行了统计,见表5。在这些网站中,图片和文档类型的资源占资源总数的大部分,动画和音视频资源相对较少,有些网站还含有其他类型的资源,如安装程序、打包资源等等。表5 链接可用性、资源更新、资源类型统计站网价评型源类资图片动画视音频文档其他资源不能访问链接课程一2900433课程二1104437157课程三77108072课程四5595481555课程五40203602课程六8803975503课程七1052045075课程八11200300占资源或url总数的比例64.29%3.97%0.64%8.44%22.66%6.91%(4)论坛交互利用开发的网路课程资源自动量化评价系统,笔者提取了样本中411门课程信息,得到了论坛页面的交互使用情况统计数据,见表6。由表中数据我们可以看出,高校网络课程中,对论坛或留言板等交互设计不是很重视,现有的交互平台没有真正的应用起来,仅有7.06%的网站的交互页面真正投入使用。表6 2007年国家精品课程网站统计结果统计项目数量比例找不到网址或网站不通14535.28%网站中不含交互版块16239.42%含交互版块但不可用348.27%交互页面需访问权限163.89%有效发帖10或很少交互256.08%发帖量10较多交互297.06%笔者从29门交互良好的网站中,根据帖子数量状态分布和论坛的可抽取程度,选择了十门课程作为实验对象,在2010年1月份提取网站交互数据,由于网络课程网站领域内的论坛较少更新,因此本文只给出这十门课程所有发帖的时间分布图,如图5所示。2007年评出的国家精品课程网站大部分都是在评估期间建立起来的,我们可以看出,在2007年网站内的交互页面发帖比较频繁,08年到09年期间发帖相对较少,而且时间波动幅度较大,间歇性发帖现象普遍,由此可见,存在有些网站在评估结束后较少关注该门课程网站的使用。 图5 发帖时间分布针对论坛用户行为,笔者统计了样本网站用户发帖数量分布,如图6所示。大部分的网络课程论坛用户活跃度不高,发帖数为1或2的用户占绝大部分,很少用户对课程长时间的关注和交流。图6 用户发帖数量分布以其中一门课程为例,系统输出用户交互矩阵,导入到UCINET 6.0社会网络分析软件中,分析网络整体结构。从宏观层面上反应社会网络的特征有许多指标,如网络规格与密度、特征向量中心度、互惠性、连通性等14。本文从网络课程评价的角度,着重体现社群网络的密度和中心度,通过矩阵运算,得到该网络的密度为0.0696, 中心度为23.22%,说明该网络较为稀疏,成员之间联系松散,互动较少。导入NetDraw中得到这门课程的用户交互网络图15,如图7所示。图7 用户交互网络通过图示我们可以看到该网络的核心发言人是“Admin”、“admin01”、“tianzj”用户,显然处于整个网络的领导地位,一般为课程教师,只存在一个边缘用户“田老师”,经核实为课程主讲人,之所以没有和网络中任一节点存在交互,是因为有一条发帖是课程主讲教师发布的通知,且网站只有管理员才有权限回复,所以其他节点之间均没有交互,但课程主讲教师对学习者提出的问题或自由评价均给予了反馈。5结语从上述实验数据来看,网络课程网站的稳定性不够,资源建设更新不足,交互设计页面没有得到很好的推广使用,已有网络课程的使用现状很不乐观。通过本系统的实验研究,本文证实制定的网络课程资源量化评价指标均可实现,相应的指标数据能反映网络课程资源的使用现状和存在的问题,而且此系统需要较少的人工干预、容易操作、运行效率较高,在网络课程评价领域具有较强的通用性和实用性。由于实验周期较短,所监测抽取的数据还不是很全面,受网页语义分析、主题识别与跟踪等技术的影响,对师生交互有效性等语义信息的抽取还不够。因此,进一步扩大实验规模和周期,加强师生交互信息分析,丰富和完善量化评价指标体系,增强评价系统的通用性和实用性是我们后续工作的重点,为网络课程建设和评价提供新的思路和解决方案。参考文献1 黄勇,李玉华.数据挖掘在大学物理网络教学中的应用J.计算机技术与发展,2006(11):229-234.2 Cssia Blondet Baruque, Marlia A. Amaral, Alexandre Barcellos, Joo Carlos da Silva Freitas, Carlos Juliano Longo. Analysing users access logs in Moodle to improve e learningJ. EATIS 07: Proceedings of the 2007 Euro American conference on Telematics and information systems,2007(5):325-334.3 褚红丹,焦素云,马威.用户访问兴趣路径挖掘方法J.计算机工程与应用,2008,44(35):19-25.4 羊牧,周激流,胡艳梅.网格环境下多媒体关联规则数据挖掘方法研究J.现代图书情报技术,2007(7):8-12.5 胡水星.基于模糊理论的网络课程评价系统设计与实现J.电化教育研究,2006,158(6):52-58.6 李兴敏.基于模糊数学方法综合评价网络课程的新思考J.现代远距离教育,2008,118(4):49-52.7 余菜花.网络课程评价标准研究J.继续教育研究,2008(4):64-66.8 Sandy Britain, Oleg Liber. A Framework for Pedagogical Eval

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论