(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf_第1页
(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf_第2页
(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf_第3页
(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf_第4页
(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(教育技术学专业论文)数据挖掘技术在网络教育平台中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术在网络教育平台中的应用研究 摘要 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。近十几 年来,数据挖掘技术已经得到了广泛的研究,并在商业、金融、医疗等众多领域 得到了成功地应用,但在教育领域中应用的还很少。随着信息技术的发展,信息 技术在教学中的应用也越来越广泛,出现了各种各样的教育教学平台,在网络教 育平台快速发展的同时,积累了很多数据,如用户的访问日志信息、注册信息、 考试成绩信息、交流信息等,人们往往忽视了这些数据的重要性,造成了资源的 极大浪费,这些缺点限制了网络教育平台的继续发展。 本文针对这一问题提出了将数据挖掘技术运用于网络教育平台的观点,指出 了数据挖掘技术能够很好的解决网络教学中的许多问题,数据挖掘在网络教育平 台的应用大有前景。 本文主要进行了以下几个方面的研究: 1 数据挖掘基本知识的深入研究与探讨,为后面各章节的运用奠定基础。 2 课程推荐模块中聚类规则的应用研究。首先分析了课程推荐在网络教育平 台中的重要性,然后详细阐述了聚类规则挖掘在课程推荐模块的应用过程。 3 成绩分析模块中分类规则的应用研究。分析了现有成绩分析的不足,指出 考试系统中学习者基本信息与考试成绩间是存在某种联系的,通过决策树分类规 则挖掘技术在成绩分析中的应用,实现对学习者成绩的预测。 4 数据挖掘技术在辅助教师决策进行学习者信息分析方面的应用研究。 关键词:数据挖掘网络教育平台个性化推荐成绩分析 t h ea p p l i c a t i o no fd a t am 矾q g 矾w e b b a s e dl e a r n 矾gp l j a i t f o r m d a t am i n i n gt e c h n o l o g yi sap r o c e d u r eo fd i s t i l l i n ga v a i l a b l ei n f o r m a t i o na n d k n o w l e d g ef r o mm a s s ,i n c o m p l e t e da n dr a n d o md a t a d a t am i n i n gh a sb e e ns t u d i e d a n da p p l i e dr e c e n t l y ,a n di th a sb e e na p p li e di nm a n yd o m a i n ss u c c e s s f u l l y ,s u c h a sb u s i n e s s ,f i n a n c ea n dm e d i c a lt r e a t m e n t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o n t e c h n o l o g y , i n f o r m a t i o nt e c h n o l o g yh a sb e e nw i d e l ya p p l i e di ne d u c a t i o na n dm a n y e d u c a t i o np l a t f o r m sa p p e a r e dt op r o m o t et h ed e v e l o p m e n to f1 i f e l o n g1 e a r n i n ga n d c i v i l1 e a r n i n g b u tw i t ht h ef a s td e v e l o p m e n to ft h o s ep l a t f o r m s , t h e y h a v e a c c u m u l a t e dg r e a tq u a n t i t yo fd a t a ,a n dt h ed a t ao f t e na r ei g n o r e d 0 nt h eo n eh a n d , w ea r ea ta1 0 s st oh a n d l et h o s ec o m p l e xe d u c a t i o np l a t f o r m s ,a n do nt h eo t h e rh a n d , m a n yu s e f u ld a t aa r ei g n o r e da n dw a s t e d t h i sp a p e ri st os o l v et h i sp r o b l e m t h i s p a p e rd o e sar e s e a r c ho nh o wt oa p p l yd a t am i n i n gt oe d u c a t i o np l a t f o r m s ,a n dp o i n t o u td a t am i n i n gc a ns o l v em a n yp r o b l e m si no u rw e b b a s e dl e a r n i n g i ti sp r o m i s i n g f o rd a t am i n i n gt ob eu s e di nw e b b a s e dl e a r n i n gp l a t f o r m s t h em a i n w o r ko ft h i sp a p e ri sf o l l o w e d : 1 t h er e s e a r c ha n dd i s c u s s i n go ft h eb a s i ck n o w l e d g eo fd a t am i n i n g 2 t h er e s e a r c ho fa p p l y i n gc l u s t e r b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c q m m e n d a t i o n t e c h n o l o g y t oc o u r s er e c o m m e n d a ti o nm o d u l e t h ei m p o r t a n c eo fc o u r s e r e c o m m e n d a ti o n i nw e b - b a s e1 e a r n i n gist h e np o i n to u t ,a n dt h e nt h ep r o c e s so f a p p l y i n gc l u s t e r b a s e dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o nt e c h n 0 1 0 9 yt o c o u r s er e c o m m e n d a t i o nm o d u l ei sa n a l y z e di nd e t a i l 3 t h er e s e a r c ho fa p p l y i n gd a t am i n i n gt os c o r ea n a l y s i sm o d u l e t h er e l a t i o n s h i p b e t w e e nt h es t u d e n t sb a s i ci n f o r m a t i o na n dh i s h e rs c o r ei sa n a l y z e d i t b e c o m e sp o s s i b l et op r e d i c ts t u d e n t s s c o r ew i t ht h ed e c i s i o nt r e e c l a s s i f i c a t i o nr u l em i n i n g 4 t h er e s e a r c ho fa p p l y i n gd a t am i n i n gt oh e l pt e a c h e rm a k ed e e i s i o na n dg e t f a m i l i a rw i t ht h es t u d e n t s a c t i v i t i e s k e y 、舳r d s :d a t a m i n i n g,w e b b a s e d1 e a r n i n gp l a t f o r m,p e r s o n a l i z e d r e c o m m e n d a t i o n ,s c o r ea n a l y s i s l i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得苤壅! 至基盘堂或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:五酗耻日期:丝盟 学位论文版权使用授权书 本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位论文 的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇 编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签名: 曼丕i 影 导师签名: 1 1 课题研究背景与意义 1 1 1 研究背景 第一章绪论 网络教育是随着计算机网络技术的发展在计算机辅助教育的基础上兴起的 一种先进的现代远程教育方式。随着网络技术的成熟及i n t e r n e t 的迅速普及, 网络教育的发展也是如火如荼。网络教育克服了传统教育对教学双方在时间、空 间和即时交互等各方面的局限性,使学习者在学习内容、学习形式、学习时间、 学习地点等各方面更加灵活、自由,充分调动学习者的积极性。这些特点无疑使 得网络教育是实现终身教育的最好途径。网络教育实现了教育的公平性:对象开 放、时空开放、资源丌放;网络教育实现了学习的自主性;网络教育实现了教育 的高效性;网络教育实现了教育的多样性陆1 。正是由于网络教育如此多的优点使 得网络教学作为教育信息化的产物得到了空前的发展,各种各样的网络教育平台 也是层出不穷。然而仔细观察这些形式繁荣的教育平台,仍然存在一些问题。 ( 1 ) 缺少个性化,很难真正实现因材施教 由于技术上的原因,基于w e b 的网络教育平台通常以网站为中心,每个学习 者看到的都是相同的固定的预先设计好的内容。如果平台上的内容( 学习资源) 不多,问题暴露不出来,随着平台上资源的增加,常常出现的问题是学习者希望 学习的内容不知道放在哪里,不管他登陆多少次,都要一边又一边的重复固定路 径,除非他收藏了该内容的链接,但是学习者如果没有固定机器,则无法收藏 该文件了。这种情况下,人们越来越希望基于w e b 的学习平台能够从原先的以网 站为中心的学习模式转变为以学习者为中心的模式,自动或者半自动的调整网页 内容以适合每个学习者的兴趣,让每个学习者感觉到平台就是为他一个人提供服 务。 ( 2 ) 缺少对学习过程的监控,缺少形成性评价 传统课堂式的教学方式,教师可以根据学习者课堂表现洞悉学习者学习情 况,而网络教育是师生分离的个性化学习,一般情况是,学习资源放上去就不再 改变,拉远了教师与学习者的距离,缺乏对学习者学习情况的了解以及缺乏学习 者之问的交流,而且网络教育是全民学习,学习者差异很大,不便于教师全面了 解学习者的学习情况,难以对学习的过程进行控制。形成性评价指的是在某项教 学活动过程中,为使教学活动更好而不断进行的评价。它能及时了解教学的效果 和学习者学习的进展情况、存在问题等,以便及时反馈,及时调整和改进教学。 建构主义认为应该注重对学习者的学习过程的分析和评价,支持和鼓励创新思维 和能力的培养,从而正确的对学习者的最终学习效果评价。所以在网络教学中应 该注重在实时的教学和学习的过程中,对网络教学系统进行跟踪和反馈,及时发 现问题,反馈给评价对象或依据补救措施执行补救方案,减少损失。 ( 3 ) 迷航问题 网络教学中知识的安排是非线性的结构,从满足不同的学习者的需要来说具 有优势,但如果缺少良好的导航系统,很容易使学习者迷失在复杂的超链接中, 另外由于知识具有一定的顺序性,对于学习能力较差的学习者来说,没有个性化 的学习指导,很容易对学习产生茫然的感觉。 ( 4 ) 资源浪费 站点上积累了大量有助于教学的信息,如用户的访问日志文件、注册信息、 答疑信息、考试信息、交流信息和学习进度信息等,这些信息在很多网络教学平 台中都没有的得到有效利用,造成了资源的极大浪费。 1 1 2 实际意义 数据挖掘技术因“数据爆炸但知识贫乏”应运而生,并因其强大的生命力成 为继网络技术之后的新技术热点。目前,数据挖掘技术已经在多个领域取得了令 人满意的应用,如零售业、电信业等。尽管网络教育中也积累了大量数据,但是 很多教育工作者都没有对这些数据进行充分利用。事实上,在教育信息数据库中 同样蕴含着很有价值的规律,需要我们运用数据挖掘这一新型工具去发现这些规 律,来辅助我们在课程设置,素质教育和创新人才培养等方面进行决策。 本文的研究是以天津市教委的项目基于数据挖掘的网络教学平台中用户知 识的自动获取为背景,在该课题的基础上,将数据挖掘技术用于该课题的终身 教育平台实践中,使该教育平台更加科学化、智能化、人性化。 1 2 主要研究内容 本文以终身教育平台为例,将数据挖掘技术运用于该平台的不同方面。本文 的主要研究内容,可以分为以下几个方面:首先介绍数据挖掘知识以及常用的挖 掘技术;其次,介绍数据挖掘技术在该终身教育平台中课程推荐模块中的应用; 2 第三,介绍数据挖掘技术在该终身教育平台中成绩分析方面的应用;最后,介绍 了数据挖掘技术在该终身教育平台中辅助教师决策方面的应用。 将数据挖掘技术引入网络教育领域是一个有益的尝试,数据挖掘技术是一个 涵盖面很广的领域,本文将仅从上面三个方面讨论数据挖掘在网络教育中的应 用,随着数据挖掘技术和教育信息化技术的发展,相信将会有更多、更新的技术 应用到网络教育平台中,使网络教育更加智能化、人性化。 1 3 本文的章节结构 本文共分为六章,各章主要内容为: 第一章绪论,阐明了本文选题的背景和研究意义,综述了网络教育平台中存在 的问题,指出本文所要做的主要工作是将数据挖掘技术运用于网络教育 平台。 第二章数据挖掘技术介绍,对国内外数据挖掘技术研究现状、数据挖掘的涵义、 数据挖掘流程、以及数据挖掘的典型方法( 聚类、分类和关联规则) 做 了详细的分析,为以后章节的运用奠定基础。 第三章数据挖掘技术在网络课程推荐模块中的应用。分析了个性化推荐在网络 学习中的重要性,详细论述了基于聚类的协同过滤方法在网络课程推荐 中的应用过程,促进个性化学习的实现。 第四章数据挖掘技术在成绩分析中的应用。首先指出了可以利用学生的基本信 息对学生成绩进行预测,后详细分析了决策树分类规则挖掘在利用学生 基本信息对学生成绩预测中的应用过程。 第五章数据挖掘技术在辅助教师决策中的应用。针对网络教育平台信息复杂的 情况,提出首先利用统计分析模块对信息整合,探索了关联规则在辅助 教师决策中的应用,帮助教师更好的了解学生的学习情况,以便做出恰 当的形成性评价。 第六章结束语。主要总结了笔者在论文研究各阶段的工作,并对数据挖掘技术 在网络教育平台中的应用状况进行了进一步的分析与展望。 第二章数据挖掘的基本知识 2 1 数据挖掘的相关概念 2 1 1 数据挖掘的国内外现状 1 9 8 9 年8 月,在第1 l 届国际人工智能联合会议的专题讨论会上,首次提出 基于数据库的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 技术。该技 术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据 可视化和高性能计算领域。1 9 9 5 年,在美国计算机年会( a c m ) 上,提出了数据挖 掘( d a t am i n i n g ,d m ) 的概念,即通过从数据库中抽取隐含的、未知的、具有 潜在使用价值信息的过程。数据挖掘是k d d 过程中最为关键的步骤,在实际应用 中对数据挖掘和k d d 这两个术语往往不加区别。数据挖掘诞生后,诸多因素促进 了数据挖掘技术的发展和应用,大规模数据库,尤其是数据仓库的出现,促使数 据挖掘技术得到迅速发展和应用;计算机技术,尤其是网络技术和并行处理体系 的发展,速度快、运算能力强的计算系统为数据挖掘的实现提供了良好的环境; 全球经济一体化的进程日益加快,企业所面临的市场竞争压力日趋严重,企业经 营管理者希望能够从企业积累的大量历史数据中找到经营管理中存在的问题和 解决问题的对策;相关科学的发展也促进了数据挖掘技术的应用。 在经过十几年的技术发展之后,国外在数据挖掘技术上取得了丰富的经验。 不但在研究方面使各个学科的经验向该领域集中,而且出现了大量的软件产品, 在社会的各个领域的应用也取得了丰硕的成果,国际上比较有影响的数据挖掘系 统有s a s 公司的e n t e r p r i s em i n e r ,i b m 公司的i n t e l l i g e n tm i n e r ,s g i 公司 的s e tm i n e r ,s p s s 公司的c 1 e m e n t i n e ,s y b a s e 公司的w a r e h o u s es t u d i o ,加 拿大s i m o nf r a s e r 大学的d b m i n e r 等。 在国内,数据挖掘技术已经从单纯的研究走向了产品的开发及技术的应用, 随着市场经济的不断完善,数据挖掘的市场需求正在高速增长。数据挖掘与其他 软件不同,由于需要不断的试验和评估,不懂原理或没有核心软件技术,其应用 效果将大打折扣。在数据挖掘领域,我国的国产商品软件刚刚起步,但发展速度 很快,随着市场的成熟与应用水平的提高,将会出现大量的国产软件产品。 近年来数据挖掘的研究重点逐渐从方法研究转向系统应用。研究主要集中在 以下几个方面:研究各种数据挖掘算法,研究专门用于知识发现的数据挖掘语言, 4 寻求数据挖掘过程中的可视化方法,研究各种非结构化数据( 如文本数据、图形 图像数据、多媒体数据) 的挖掘技术,研究在网络环境下的数据挖掘技术。有些 技术定位于大型数据库的挖掘,出现了除关系数据库的数据挖掘外,还有面向对 象数据库的数据挖掘、面向非结构化数据库的数据挖掘( 如文本数据挖掘) 等: 随着i n t e r n e t 的广泛应用,出现了基于网络异构数据源的数据挖掘,如电子商 务系统中的数据挖掘等:由于新的数据库技术的发展,多媒体数据库的数据挖掘、 时态数据库的数据挖掘、空间数据库的数据挖掘等也引起了人们的关注;随着第 3 代通信移动计算的出现,有关移动数据的数据挖掘也在研究之中。 数据挖掘在教育层面上的研究还只能算是新生事物,处于发展的初级阶段。 在教育信息化的大趋势下,将数据挖掘技术应用于教育领域的各个方面:学习者 招募、市场分析、生源分析、课程分析、学习评价度量、学习者生涯规划、网络 课程个性化服务,必然有十分广阔的前景。 2 1 2 数据挖掘的定义 数据挖掘的定义:数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜 在有用的信息和知识的过程砸1 。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的 信息应具有未知、有效和可用性三个特征。先前未知的信息是指该信息是预先未 曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违 背直觉的信息或知识,挖掘出的信息越是出乎意料就可能越有价值。信息的有效 性要求挖掘前要对被挖掘的数据进行仔细检查,只有保证信息( 或数据) 的有效 性,才能保证挖掘出来的信息的有效性。最为重要的是要求所得的信息是有可实 用性,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值 和可实现的。 2 1 3 数据挖掘的过程 数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、数据挖掘、结果 分析表述和挖掘应用这几个主要阶段组成。数据挖掘可以描述为这几个阶段的反 复过程。 首先确定目标、明确数据挖掘任务。 ( 1 ) 数据准备 数据准备阶段又可进一步分成四个子步骤:数据集成、数据选择、数据预处 理和数据转换。 a 数据集成。数据集成是将多文件或多数据库运行环境中的数据进行合并处 理,解决语义模糊性,处理数据中的遗漏和清洗数据等。 b 数据选择。数据选择指为数据挖掘目标搜集和选择有关的数据,这包括不 同格式数据的转换以及不同部门数据的统一和汇总。数据选择的目的是辨别出需 要分析的数据集和,缩小处理范围,提高数据挖掘的质量。 c 数据预处理。数据预处理是对数据进行清理和充实等工作。数据库中重 要的数据是准确的,不重要的数据可能存在污染。预处理就是为了克服目前数据 挖掘工具的局限性。 d 数据转换。数据转换的一个重要工作就是对数据进行编码。数据库中字段 ( 属性) 的不同取值转换成数码形式经有利于搜索。 ( 2 ) 数据挖掘 这个阶段将进行实际的挖掘操作,即利用机器学习、统计分析等方法,从数 据库中发现有用的模式或知识( 这里模式是浓缩数据的信息形式,如精炼数据库、 表格、产生式规则、决策树、神经网络的权值等) 。 a 选择数据挖掘方法。如统计分析、机器学习、模式识别方法和人工神经元 方法等。 b 选择数据挖掘算法。选择用来查找模式或符合数据的模型的算法,确定合 适的模型和参数。另外,数据挖掘方法必须和目标相匹配。 c 数据挖掘。查找感兴趣的模式。模式一般表示为一种特殊的形式或一套表 达方式,如关联规则,分类规则或分类树,回归结构和聚类集等。 除了选择合适的挖掘算法外,其余的一切工作都可自动完成。 ( 3 ) 数据挖掘结果分析表述和挖掘应用 a 结果表达。尽量直观的表示挖掘结果,便于用户理解和使用,可利用可视 化方法表示为图表等形式。 b 结果评价。筛选和评价挖掘结果中的有用部分,查找可接受的结果。可定 义兴趣指标,考虑结果的正确度、新颖度、有用性和简单性。把信息从输出中过 6 滤出来。利用可视化方法帮助用户决定所提取知识的有效性或对基本的数据或现 象作出结论。 c 知识巩固。把挖掘出的信息结合到执行系统中,了解这些信息的作用或证 明这些信息。用预先知道且可信的信息来检查和验证所挖掘的信息,解决可能存 在的矛盾。 2 1 4 数据挖掘的分类 数据挖掘技术的分类方法有很多,根据挖掘任务,可以分为关联规则挖掘、 数据分类规则挖掘、聚类规则挖掘、依赖性分析和依赖性模型发现,以及概念描 述、偏差分析、趋势分析和模式分析等:根据所挖掘的数据库来看,可以分为关 系型数据库、面向对象型数据库、空间型数据库、时间型数据库、多媒体型数据 库和异构型数据库等;根据所采用的技术分类,可以分为人工神经网络、决策树、 遗传算法、邻域原则和可视觉化等。下边三节将详细介绍一下聚类规则挖掘、数 据分类规则挖掘和关联规则挖掘。 2 2 聚类规则挖掘 2 2 1 聚类的介绍 聚类( c l u s t e r i n g ) 是把一组物理或抽象对象按相似性归为若干类别,也称 为“无指导分类 。其目的是使同一类别中的对象间的距离仅可能小,而不同类 别中对象间距离尽可能大n 刳。 聚类分析中的“类( c l u s t e r ) 和分类的“类( c l a s s ) 是不同的,对 c l u s t e r 更加准确的翻译应该是“簇”,换言之,聚类的任务是把所有的实例分 配到若干个簇中,使得同一个簇的实例聚集在一个簇中心的周围,他们之间距离 的比较近,而不同簇实例之间的距离比较远。 2 2 2 聚类的应用与算法介绍 聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数 据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习 惯,聚类分析在电子商务领域已经取得了广泛应用。它作为数据挖掘中的一个模 块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括 7 出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且, 聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。 在网络教育平台中,通过对学习者进行聚类分析,可以区分不同的学习者群 体,并且概括出每个群体的特征,还可以发现某个群体潜在的特点。通常将聚类 用于个性化服务方面,针对不同的群体提供不同的服务。 聚类分析的算法可以分为分裂法( p a r t i t i o n i n gm e t h o d s ) 、层次法 ( h i e r a r c h i c a lm e t h o d s ) 、基于密度的方法( d e n s i t y _ b a s e dm e t h o d s ) 、基 于网格的方法( g r id _ b a s e dm e t h o d s ) 、基于模型的方法( m o d e 卜b a s e dm e t h o d s ) 。 k m e a n s 聚类算法是分裂法的一种,也是生成聚类的最常用方法之一,几乎任何 商业数据挖掘应用程序都在不同程度上集成了这种聚类方法。 2 2 3k 均值( k m e a n s ) 算法简介 k 一均值算法首先随机的指定k 个簇中心,然后1 ) 将每个实例分配到距它最 近的簇中心,得到k 个簇;2 ) 分别计算各簇中所有实例的均值,把计算后的均 值作为各簇的新的簇中心,重复1 ) 2 ) ,直到k 个簇中心的位置都固定,簇的 分配也就固定了。 k m e a n s 的算法描述如下: 给定一个包含n 个数据对象的数据库,以及要生成的簇的数目k ,一个划分 类的算法将数据对象组织为k 个划分( k o 显然,当q = 1 时,明氏距离会变成街区距离;当q = 2 时,明氏距离会变为 欧式距离;因此,欧式距离和街区距离实际上就是明氏距离的特例。两个对象之 间的距离越小,表示两个对象越相似;两个对象之间的距离越大,表示两个对象 越不相似。 在本例中,选择欧式距离计算相似度。 3 2 6 寻找近邻 对用户进行聚类以后,本系统将根据聚类结果,在用户所属聚类中为该用户 找若干个近邻,这样可以缩小找近邻的范围,从而减少计算量,提高系统效率。 常用的找邻居的方法基本上可以分为两种:一种方法是基于中心的邻居 ( c e n t e r b a s e dn e i g h b o r h o o d ) ,直接选出距离该对象最近的若干个邻居即可; 另一种方法是集合邻居( a g g r e g a t en e i 曲b o r h o o d ) ,第一步先选出距离该对象 最近的邻居,第二步求出目前邻居集合的中心,然后选出距离邻居集合中心最近 的邻居,重复执行第二步,直到为该对象选出足够数目的邻居。 在本例中,选用第一种方法,在前边聚类的结果上,进行邻居选择: 首先,明确所在的簇,明确所要求的邻居数目; 其次,计算簇中每个对象到该对象的欧式距离,用临时变量标记下来。 如果这个是最小的距离,并且该距离小于我们设定的某个经验阂值,则把这 个对象加到计算对象的邻居数组中。 得到邻居列表。 a 算法输入,r ;是待求邻居的用户,n u m 是需要求的邻居数量。 s ;是该用户所属的簇,b 为相似度的经验阈值 算法输出:按照相似度大小顺序排列的邻居列表n e i g h l is t 。水 f o rr = 1 ,2 ,n 对于所有用户 i fr j s = s 。t h e n r j 属于这个簇 ( ( ,p o ,p ) 2 ) l 佗 t e m p ( j ) = p 。l计算r j 和r ;的欧式距离 i ft e m p ( j ) dt h e n n e i g h l i s t r j 把r j 按顺序插入到邻居列表n e i 曲1 i s t 中。 最后得到该用户的邻居列表,按照列表对用户进行课程推荐。 3 2 7 形成推荐 本课程推荐系统在为学习者提供相关课程推荐的过程中,涉及到了数据库中 的多个表,其中最主要的一个表是:c o u r s e r e c o 姗e n d 。c o u r s e r e c o 咖e n d 表在 课程推荐过程中用得最多,也是最重要的一个表,该表用来存储课程推荐过程中 所需用到的数据以及所产生的结果。c o u r s e r e c o 姗e n d 表的结构如表3 3 所示。 表3 3c o u r s e r e c o 姗e n d 表结构 列名含义类型 i d 学习者标识 b i g i n t i t e m d a t a 学习者交互数据s t r i n g 口 r e c o m m e n d l i s t 推荐列表v a r c l 帜( 3 0 0 ) 下面对该表的每一列进行简要的说明: i d 列存储学习者的标识。每个学习者在入库的时候,系统会自动为该学习 者分配一个唯一的标识。c o u r s e r e c o 舢e n d 表中的每一条记录就是由该列标识的 课程的相关信息。i t e m d a t a 列存储的是学习者与课程的交互信息,该列存储的 内容是经过稠密化处理后的信息矩阵。当学习者与课程进行交互时,系统会自动 获取交互信息,经过简单的预处理后,把此次的交互信息存储到该资源对应记录 的i t e i i i d a t a 列中。r e c o 姗e n d l i s t 列用来存储该学习者的相关课程推荐列表。 学习者登录后,该学习者对应记录中r e c o 硼e n d l i s t 列的内容将作为该学习者的 相关课程以超链接的形式显示给学习者。图3 2 是推荐结果显示图。学习者登录 后,首先显示该部分,用于学习者课程导航。 3 3 本章小结 删课程名。计算讥义汜基础 课程编号:1 0 0 唱 任课教师:李冬阳 霞薹目课程名计算机绦作系统 课程编号:1 0 0 0 t 任谋教师:张楠 暂无 【夕课程名。讲霉摹讥,一 讲座 误程编号:1 0 0 1 2 任课救d 币:芏鳢强 ( 笋课程名。网络技术导论 课程编号:1 1 4 任课教口币:王亮 ( 笋t 幂程名。数据库原理 课程编号:1 0 0 0 5 任镰教师:习s 冬阳 图3 2 课程推荐图 本章主要介绍了数据挖掘技术在课程推荐模块的运用。详细介绍了数据挖掘 中的聚类技术结合协作推荐技术在实现对学习者课程推荐过程中的运用,有利于 实现学生的个性化学习,方便用户导航。 第四章决策树分类规则挖掘在成绩分析中的运用 4 1 考试系统与成绩分析 4 1 1 考试系统中成绩分析的重要性 教育的重点和关键是提高整个教学质量,而学习者成绩恰是评估教学质量的 重要依据,也是学习者是否掌握好所学知识的重要标志。所以对学习者的成绩进 行分析评估有着重要的意义,并可以把获取信息反馈到教学研究工作中去。只有 很好地利用了这些信息,才能准确的了解教学工作,并有效的提高教学质量。因 此对考试结果的数据进行挖掘的意义大,可以科学的评价教学质量,进一步做好 以后的教学工作,改进教学方法。 考试成绩是对学习者学业的检查和评定,是从一个侧面对学校培养专门人才 的质量检验,通过对学习者的学习成绩进行分析处理,可以及时得到学习者的评 价结果,对学习者出现的不良学习行为进行及时指正。另外,还能够克服教师主 观评价的不公正、不客观的弱点,减轻教师的工作量。成绩作为考试的结果,不 仅是对学习者学业和教师教学效果的检查和评定,进而激励学习者学习及教师工 作;更是一种息,具有反馈于教学活动、服务于教育决策、为教育科研提供资料 等作用。通对考试成绩的正确分析,教师可以获得有关教的效果的信息,学习者 可以获得有关学的效果的信息,从而可以使教师及时了解学习者对教材、教法的 适用情况,以调整教学内容和教学方法,改进教与学的关系,以适应学习者的特 点和满足其需要,学习者及时地调整和改进自己的学习( 如加强薄弱环节的学习 和改进学习方法等,充分发挥考试的效能,综合评价命题质量,及时反馈教学效 果,沟通教学信息,所以教学部门对考试成绩进行统计分析和总结是不可缺少的, 且是非常必要的。 4 1 2 现在对成绩评估的不足 目前,许多学校的在校生人数已经达到上万甚至十几万的规模,教师的人数 也在千人以上,在成绩方面已经积累了大量的数据。教务处的工作人员和任课教 师只能通过简单的统计或排序等功能获得表面的信息,由于缺乏信息意识和技 术,隐藏在这些数据中的信息一直没有得到应用。如何对这些数据进行重新利用, 将现有的数据转化为可使用的知识,提高教师对学习者的掌握效果的了解,提高 教学水平和质量,是许多学校正在考虑的问题。 通过数据挖掘技术,在一定程度上能够解决这些问题,使学习者成绩数据得 到最大程度的利用,为教学工作提供更多的信息。数据挖掘是通过公正客观的统 计和分析,从大量数据中发现潜在规律,找出隐含的模式,准确掌握学习者的学 习动态信息。 4 2 数据挖掘在成绩分析中的应用 4 2 1 数据挖掘在考试系统中的作用 数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理 而出现的,能从中提取出隐藏在数据之后的有用的信息,正被越来越多的领域所 采用,并取得了良好的效果,为人们的正确决策提供了很大的帮助。我们将数据 挖掘技术应用于成绩评估方面是非常有益的,它可以通过对相关数据的全面分 析,发现考试成绩与各种因素之间隐藏的内在联系,比如,经过对学习者相关数 据进行分析,数据挖掘工具可以回答诸如“哪些因素对学习者成绩可能有影响” 等类似的问题,这是传统评价方法所不具备的。 本节中我们将利用决策树方法,选择注册人数比较多的“网站设计”这门课 为例,共有5 9 2 个学习者,通过对这些学习者的个人信息和成绩之间的分析,探 寻对学习者成绩有影响的各个因素,以期对学习者成绩进行预测。 4 2 2 数据采集 首先进行学习者信息采集。学习者的基本情况信息数据结构包含以下属性信 息:学号、姓名、性别、学习者来源、学历。这些信息可以通过“学习者注册 来获取,存入“学习者基本情况数据库”中,涉及到s t u d e n t 表、s s t u d y 表。 表4 1s t u d e n t 表 字段名字符类型字段说明 i di n t 学习者标识 s t u d e n t n ov a r c h a r 学号 u s e r n a m ev a r c h a r 姓名 p a ss w o r dv a r c h a r 密码 g e n d e r v a r c h a r性别 s t u d e n t t y p e i n t学习者类型( 选修或者必 修) e m a i lv a r c h a r 邮箱 a d d r e s s v a r c h a r地址 x u e l i v a r c h a r最高学历 r e g t i m e d a t e ti m e 注册时间 l o g ti m e s i n t 登录次数 ss t u d y 定义了课程学习的行为数据。 表4 2s s t u d y 表 字段名字符类型说明 s t u d e n t n ov a r c h a r 学号 c o u r s e i di n t课程代码 c a t e g o r y i d i n t栏目代号 s t a r t ti m en u m e r i c 开始时间 e n d t i m en u m e r i c离开时间 l a s t ti m ei n t 停留时问 t o t a l t i m e si n t学习次数 还有一些信息如:学习者学习时间,学习次数,这些通过隐式获得。 其次是学习者成绩数据的获取。s e x a m 表中包括了学习者的考试成绩。这 个数据库由教师在教学过程中产生。成绩数据库包括老师的平时成绩,用于对学 习者进行形成性评价,便于及时了解学习者的学习状况。该数据库主要包括:学 号、平时成绩列表、综合成绩三个属性。s e x a m 表是每次考试信息的纪录。 表4 3s - e x 硼 字段名字符类型说明 s t u d e n t n ov a r c h a r 学号 c o u r s e i di n t 课程代码 e x a mt i m en u m e r i c 考试时间 s c o r ei n t 成绩 4 2 3 数据预处理 数据集成:是将多个数据源中的数据结合起来存放在一个一致的数据存储 中。本研究中,采用的是数据库技术,所以将收集得到的多个数据库文件,利用 数据库中表的连接操作,集成合并生成“学习者考试信息分析表 。“学习者考 试信息分析表”的数据结构包含以下属性:学号、姓名、性别、学历、课程号、 上机时间量、成绩共七个属性。 表4 4 学习者考试信息分析表 字段名说明 s t u d e n t n o 学号 u s e r n a m e姓名 g e n d e r 性别 x u e l i 学历 c o u r s e i d 课程号 l a s t t i m e持续时间 s c o r e 成绩 数据清理:数据清理的主要工作是处理不完整的数据。通过观察数据集成阶 段生成的“学习者考试信息分析表 ,我们可以看到,有些我们感兴趣的属性出 现了空缺,缺少了属性值。例如学习者由于某种原因没有参加最后考试,造成总 成绩空缺。对于这些空缺的属性,可以使用数据清理技术来填充,例如,取平均 值填充、人工填写空缺值、或者利用某个特定字符填充等等。将数据清理后的数 据信息转换成适合于挖掘的形式,建立一个真正适合挖掘算法的分析模型。因为 要使用i d 3 决策树方法需要将一些属性进行离散化。 例如上机时间可以分为几个等级( 本系统分为5 级) 。上机时间等级分配如 下: 0 1 a s t t i m e 1 0h o u r s :1 级;1 0h o u r s 1 a s t t i m e 2 0h o u r s :2 级; 2 0h o u r s l a s t t i m e 3 0h o u r s :3 级;3 0h o u r s 1 a s t t i m e 4 0h o u r s :4 级; 4 0h o u r s l a s t t i m e :5 级 学历分为研究生及以上,本专科,专科以下三个等级分别用a ,b ,c 表示。 成绩也分为及格与不及格两个等级。成绩等级分配如下: 0 s c o r e 6 0 :不及格;6 0 1 0 h o u r st h e n 成绩及格 i f 学历= 研究生及以上a n d 上机时间 1 0 h o u r sa n d 性别= “男 t h e n 成 绩及格 i f 学历= 研究生及以上a n d 上机时间 lo ,卜时t h e n 成绩= 及格 i f 学历:研究生及以上a n d 上机时间 i0 ,h 时a r i d 性别= 文t h e n 成绩- 不及格 “学历= 研究生及l ;l 上执d 上机时问 l 少卜时a n d 性:5 5 i = 男t h 弧成绩:及格 4 3 本章小结 图4 5 决策规则的显示 本章首先分析了现有成绩分析的不足,指出考试系统中学习者基本信息与考 试成绩间存在某种联系的,并完整实现了决策树分类规则挖掘技术在成绩分析中 的应用,实现利用决策树模型对学生成绩的预测。 3 9 第五章统计分析与关联规则挖掘在辅助教师决策中的应用 5 1 学习者信息分析 5 1 1 学习者情况分析的重要性 在传统课堂教学方式下教师可以通过考试、作业、课堂听讲、回答问题、课 堂表现来评估学习者,掌握学习者的情况。而在网络教育中,学习者要以计算机 网络为依托,靠网络教学系统进行远程个性化学习。学习者在网上学习时间、学 习方式随意性,学习者来源的广泛性,使得教师很难对学习者的学习情况和个人 情况进行掌握,进而很难对学习者进行适当的评价与指导。 由于网络教学平台缺少对学习过程的监控。学习者基本情况、辅导答疑情况、 作业考试情况、论坛讨论情况等各个板块相互独立,没有有机的结合起来,教师 只能通过分别对这几个数据库进行简单的统计,来了解学习者的情况。事实上, 学习者的学习情况一方面受自身因素的制约也将自身学习特点反映到学习的各 个环节,简单的统计分析很难发现其中的规律,难以发现其中潜在的反映学习者 特点的信息,不利于教师对学习者进行整体评价,不利于教师做出决策,不利于 教师对学习者进行反馈和改进措施。 决策支持功能模块包括:可以为教师提供学习者相关内容分析,包括学习者 的注册信息、学习活动分析、学习者作业分析、评价学习者等功能,还可以为教 师提供与课程使用情况的相关信息分析。 5 1 2 数据挖掘与学习者信息分析 数据挖掘是一种决策支持过程,它对大量数据进行抽取、转换、分析以及模 型化处理,从中提取辅助决策的关键性数据。数据挖掘是深层次的数据信息分析 方法,在本节我们将数据挖掘技术的关联规则挖掘技术引入对学习者学习行为的 评估中,通过对学习者在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论