(通信与信息系统专业论文)在线学习系统的数据挖掘研究.pdf_第1页
(通信与信息系统专业论文)在线学习系统的数据挖掘研究.pdf_第2页
(通信与信息系统专业论文)在线学习系统的数据挖掘研究.pdf_第3页
(通信与信息系统专业论文)在线学习系统的数据挖掘研究.pdf_第4页
(通信与信息系统专业论文)在线学习系统的数据挖掘研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 随着网络的发展,越来越多的人开始通过互联网进行在线学习。相比于传 统的学习方式,在线学习的优势在于学习者可以根据自己的时间表安排学习计 划,可以根据自己现在的知识储备状况选择更适合自己的章节内容,有针对的 对想要学习的知识进行学习,提高了自我能动性及学习效果。但由于指导者也 是通过网络对学习者进行指导,难以避免地无法细致的分析各个学生的学习状 况,如何解决个性化学习所带来的指导困难的问题成为人们非常关注的课题。 针对这个问题,本文进行了深入研究,通过将数据挖掘技术运用到在线学习系 统中,解决了如何对各个学习者的学习效果进行预测,并根据预测结果对每一 个学习者提供个性化的指导,提高学习者的学习效率。 数据挖掘在对数据进行分析方面具有广泛的应用价值并能够满足现实需 求,特别是当今网络开始成为人们主要的活动方式之一的情况下,数据挖掘的 价值就更加体现出来。 本文通过决策树算法的运用,深层次地对隐藏在数据中的信息进行挖掘, 以对学习者的学习习惯,学习状态进行分析,产生相应于各个学习者的分析结 果,并给出指导意见。 本文通过超文本传输协议对学习者学习状况进行研究,学习者通过网页形 式进行学习、讨论、测试,并将全部学习活动传递到提供学习功能的服务器中, 服务器收集并储存学习者学习情况,并将收集到的所有数据交给逻辑模块部分, 逻辑模块通过运用i d 3 算法,科学的分析出导致参加学习者学习结果的原因, 并给出众多学习因素之间的关系,指导学习者如何通过调整以上的学习习惯来 提高自己的学习效果。 本文运用了j 2 e e 技术,用j a v a 代码来实现各个算法,以j s p 页面完成显 示功能,系统提供文字、视频资料供学习者学习,记录其在各个板块的学习时 间、测试结果以得到原始数据,然后进行运算分析,最终得出影响学习者学习 效果的各个因素关系,指导学习者进行改进。服务器与数据库之间利用的是 j d b c 技术,来进行记录查询功能。 关键词:数据挖掘,网络,算法 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t , m o r ea n dm o r ep e o p l eh a v eb e g a nt os t u d y o v e rt h en e t w o r k c o m p a r ew i t ht r a d i t i o n a ll e a r n i n gm e t h o d s ,o n l i n el e a r n i n gh a st h e a d v a n t a g eo fl e a r n e r sc a ns c h e d u l ea c c o r d i n gt ot h e i ro w nl e a r n i n gp l a n l e a r n e r s a l s oc a na c c o r d i n gt ot h e i rk n o w l e d g eo ft h ec u r r e n tr e s e r v ep o s i t i o ni sm o r es u i t e dt o t h e i rc h a p t e r sc h o o s et h ec o n t e n t a n dl e a r n e r sa l s oc a n i m p r o v et h ee f f e c t i v e n e s so f s e l f - i n i t i a t i v ea n dl e a r n i n g h o w e v e r , a si sa l s ot h ei n s t r u c t o rt og u i d el e a r n e r s t h r o u g ht h en e t w o r k , t h e yi n e v i t a b l yc a l ln o tb ed e t a i l e da n a l y s i so fi n d i v i d u a ls t u d e n t l e a r n i n gs i t u a t i o n t h e r e f o r e ,l e a r n i n gh o wt os o l v et h ep e r s o n a l i z e dg u i d a n c eo f d i f f i c u l tp r o b l e m sb e c o m e sav e r yc o n c e r n e ds u b j e c t a c c o r d i n gt ot h i sp r o b l e mi n d e p t hs t u d y , t h ep a p e ru s i n gt h ed a t am i n i n gt e c h n o l o g yt ot h eo n l i n el e a r n i n gs y s t e m t os o l v eh o wt op r e d i c te a c hl e a r n e r sl e a r n i n g a n dt h es y s t e mp r o v i d e sp e r s o n a l i z e d g u i d a n c ef o re v e r y o n et oi m p r o v et h el e a r n e r sl e a r n i n ge f f i c i e n c yb yp r e d i c t e d r e s u l t s d a t am i n i n gi nt h ea n a l y s i so ft h ed a t ah a saw i d er a n g eo fa p p l i c a t i o n sa n db e a b l et om e e tt h ep r a c t i c a ln e e d s e s p e c i a l l yi nt h ec u r r e n tn e t w o r ks t a r t e dt ob e c o m e o n eo ft h ew a y sp e o p l ea r et h em a i na c t i v i t i e s ,t h ev a l u eo fd a t am i n i n gi se v e nm o r e r e f l e c t e d t h i sa r t i c l ew i l lu s et h ed e c i s i o nt r e er u l e sd e e p - s e a t e da g a i n s th i d i n gt h e i n f o r m a t i o ni nt h ed a t ai no r d e rt oa n a l y s i st h el e a r n e r ss t u d yh a b i t sa n dl e a r n i n g s t a t u s a n dt h es y s t e mc a no b t a i n e dt h ec o r r e s p o n d i n gr e s u l t so ft h ea n a l y s i si na l l l e a r n e r sa n dg i v eg u i d a n c e i nt h i sp a p e r , t h es y s t e mr e s e a r c ho nt h ec o n d i t i o n sf o rl e a r n e r so nt h eu s eo f h y p e r t e x tt r a n s f e rp r o t o c 0 1 l e a r n e r ss t u d y , d i s c u s s ,t e s tt h r o u g haw e b a l ll e a r n i n g a c t i v i t i e sw i l lb ed e l i v e r e dt ot h es e r v e rw h i c hp r o v i d e sl e a r n i n gi n t e r f a c eb yt h e s y s t e m t h es e r v e rc o l l e c t sa n ds t o r el e a r n e r sl e a r n i n gl e v e l ,a n dc o l l e c t e da l lt h ed a t a t ot h el o g i cm o d u l es e c t i o n t h el o g i cm o d u l es c i e n t i f i c a l l ya n a l y z e st h er e a s o n s l e a d i n gt ot h er e s u l t so fa c a d e m i ct h r o u g ht h eu s eo fi d 3 a l g o r i t h m a n dt h el o g i c m o d u l eg u i d e sl e a r n e r sh o wt oi m p r o v et h e i ra c a d e m i cp e r f o r m a n c eb ya d j u s t i n gt h e 武汉理工大学硕士学位论文 a b o v es t u d yh a b i t s i nt h i sp a p e r , t h es y s t e mu s e st h ej 2 e et e c h n o l o g y , u s e sj a v ac o d et o i m p l e m e n tt h ev a r i o u sa l g o r i t h m s ,u s e sj a v as e r v e rp a g e st oc o m p l e t et h ed i s p l a y f u n c t i o n t h es y s t e mp r o v i d e st e x t ,v i d e od a t af o rl e a r n e r st ol e a r n , r e c o r d so f l e a r n i n gt i m ea n dt e s tr e s u l t si ne a c hp l a t ei no r d e r t oo b t a i nt h eo r i g i n a ld a t a ,t h e nt h e s y s t e mm a t h e m a t i c a lo p e r a t i o na n da n a l y z e d ,a n dg e t st h er e l a t i o n s h i ph o w v a r i o u s f a c t o r si n f l u e n c el e a r n e r sa tl a s t ,g u i d et h el e a r n e r st oi m p r o v e b e t w e e nt h es e r v e r a n dd a t a b a s et h es y s t e mm a k e su s eo fj d b ct e c h n o l o g yt oc o m p l e t et h er e c o r d i n q u i r yf u n c t i o n k e y w o r d s :d a t am i n i n g ,n e t w o r k , a l g o r i t h m 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示了谢意。 签名:童尘至基 日期:圣21 1 :三笸 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :英j 琼导师( 签 期z olo 了2 ( i 武汉理工大学硕士学位论文 1 1 课题背景 第1 章绪论 计算机网络技术的发展给人们的生活带来了翻天腹地的变化,许多以前得 花费很多时间、精力的事情都可以在互联网上轻松便捷的解决。在线学习系统 就是通过互联网而实现的一种现代化的学习系统【1 1 ,人们通过自己的p c 机与提 供教学的服务器端进行连接,服务器端根据学习者的操作给出相关回应( 显示 页面) ,以实现学习者学习的功能。这种学习方式大大提高了学习效率,学生不 用再把宝贵的时间花费在去教室的路上,学生可以根据自己的学习水平选择最 适合自己现在学习的章节内容,不会因为像传统教学方式那样因为掉课后无法 跟随老师的学习进度而越掉越多,也不会因为老师教学速度过慢导致无法学到 更多知识。在线学习是一种自主的学习方式,自己可根据自己的学习计划安排 学习内容,不论是时间零碎到不到一个小时还是放假休息的一整天。可以说在 线学习是今后教育模式发展的方向,但是,相比于传统的学习方式,在线学习 还有一个重要的问题需要解决,就是如何对学习的学习状态提供指导。不仅仅 只是提高某一门课的学习成绩,更重要的是如何提高学习的学习效果,指导学 习者应该如何去学习。由于在线学习时教学者无法面对面的接触学生,那如果 准确的给各个学生适合他们自己的指导就是一个非常有意义的研究课题。 网络学习系统在老师和学生之间建立了一个电子平台,其可以作为学生、 老师因为某种原因( 比如疾病或其他突发事件) ,无法出席像传统学习课堂的时 候的一种重要的解决方法,是传统学习模式的一种提升。每个学生与电子学习 系统之间进行的互动及其学习的状况都存储在数据库( 或系统日志) 中。在大 多数电子学习系统中,除非是要进行一个简单的总结统计,否则这个数据一般 是不会被使用的。而当有人开始提出将这些数据作为一个非常有用的知识来源 时,许多人都会觉得这种情况是非常难以理解的1 2 j 。随着数据挖掘技术的引入, 我们可以从数据中分析出那些难以用眼睛发现的数据联系来创建模式并对数据 进行分组。将等到的模式运用到电子学习系统,可以使得系统更加有效,比如 个性化学习过程( 建议型系统) ,提供作者反馈源帮助其制定教学内容、入侵检 测工具等【3 1 。 武汉理工大学硕士学位论文 数据挖掘技术作为2 0 世纪末刚刚兴起的数据智能分析技术【4 l ,以其在数据 分析领域的强大作用备受人们青睐,在许多学科都被广泛的运用。数据挖掘工 作就是运用其数据挖掘算法:分类算法,聚类算法,关联分析算法【5 】对原始数 据进行挖掘,是从大量数据中抽取隐含在数据背后的有意义的规律的过程。利 用了数据挖掘技术,就能得到更多的信息,而且是很多人们平常不易发现的甚 至初看会觉得与常理相反的规律。而这些规律必须通过以上的算法,对数据进 行清洗、取样、运算,最终得出的【6 】。有了这些规律就可以知道使用者如何消除 产生坏影响的因子,增强产生好影响的因子,以提高人们的工作效率等。如能 将其运用到在线学习系统中,对学习者的学习行为进行分析,挖掘出隐藏在数 据之中,导致学习者学习效率好坏的关键因素,必能为提高学习者的学习成绩、 效率。 1 2 国内外研究现状 如今,各种各样的技术被用来改善教育和学习。然而,技术的有效利用, 以提高教学质量和实践仍然是一个非常具有挑战性的问题。 数据挖掘又被称作基于数据库的知识发现,是指从大量数据中提取有效的、 新颖的、潜在有用的、最终可被理解的模式的非平凡过程1 7 1 。数据挖掘是整个 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 过程中的一个重要步骤,运用一些 算法从数据库中提取用户感兴趣的知识。k d d 一词首次出现在1 9 8 9 年【剐, 随后,很多学者在该领域开展研究工作。目前,关于数据挖掘与知识发现 的研究工作已经被众多领域关注,如信息管理、过程控制、金融、医疗、 商业等领域1 9 j 。作为大规模数据库中先进的数据分析工具,数据挖掘已经成 为数据库及人工智能领域的研究热点之一【1 0 l 。 k d d 是近年来一个十分活跃的研究领域从数据库中发现知识一词首先出 现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上到日前为止,由美国 人工智能协会举办的k d d 国际研讨会己召开了8 次【1 1 】,规模由原来的专题讨论 会发展到国际学术大会,仅以1 9 9 9 年为例,就有近2 0 个国际会议列有k d d 专 题这两年国内也有相当多的数据挖掘和知识发现方面的研究成果,许多学术会 议上都设有专题进行学术交流日前,k d d 的研究重点逐渐从发现方法的研究转 向实际的系统应用【1 2 。国际上有影响的典型数据挖掘系统有s a s 公司的e n t e r r i s em i n e r , 1 3 m 公司的i n t e l l i g e n tm i n e r , s c i 公司的s e t h i 盯等【1 3 】 2 武汉理工大学硕士学位论文 数据挖掘要解决的问题,就是从个巨大的数据库中发现有价值的隐藏事 件,并分析、获得有意义的信息,将有用的总结的结构,作为决策的依据。只 要该行业有此等需求分析并且提供了数据库,便可利用挖掘工具进行挖掘,探 讨分析出结果。一般情况下的应用主要出现在零售业,制造业,金融,保险, 通讯和医疗服务行业【1 4 1 。 有些公司使用数据挖掘的成功故事,展示了数据挖掘具有强大的生命力。 美国a u t o t r a d e r c o m 是世界上最大的汽车销售网站,其使用了s a s 软件对每天 在此网站点击信息的用户的信息进行数据挖掘【1 5 1 ,数据分析。以确定用户喜欢 点击的模型,找出客户对各种汽车的喜欢程度以确定和建立一个特定的服务。 r e u t e r e s 是世界领先的金融信息服务公司,其对外部数据的使用,这种数据 的质量是企业生存的关键,我们必须检测数据元素的错误。r e u t e r e s 使用s p s s 数据挖掘工具s p s s c l e m e n t i n e l l 6 1 ,建立数据挖掘模型,大大改善了错误检测率, 以确保信息的准确性和权威。 现在,以网络为依托的在线学习模式已经是当代教育发展的一种趋势。进 入二十世纪以来,全球有超过了一百多个国家推行了网络学习模式,根据一份 调查记录可以得出全球百分之八十五的高等教育学校建立了自己的网络服务系 统,在此之中又有四分之一的高校已经提供了在线学习的科目供学生学习1 1 7 l 。 由于西方国家的计算机技术发展是处在世界的前列,其在线学习课程也是全球 规模最大的i m j 。 美国,在其信息技术高速发展的基础之上,其在线学习环境在全球范围内 是遥遥领先的,无论是公立还是私人大学,百分之六十以上的大学已经拥有了 自己的在线学习课程,总计课程数量已超过4 9 万之多1 1 9 1 。排名第二的德国,在 其一万多的拥有自己的网络服务平台的高校之中,有三千以上的学校提供了在 线学习科目【硎。而同属欧洲的英国,更是把在线学习当做继续保持其作为世界 数一数二的教育大国地位的重要手段【2 。而在亚洲,我们的邻国韩国,现在也 已经拥有了一千多的在线学习网点,并以每年两百左右的速度持续增长着【2 2 】。 同样,在我国,网络学习模式也随着互联网技术的迅猛发展而蒸蒸日上。 全国也建立起了几十个网络教育点,许多都已经正式运行起来,每年可以给许 多人提供远距离的高等教育的机会。而那些还没有正式运行的,也已经筹备的 差不多了,马上就可以退出自己的网络学习课程【矧。这给我们这一个拥有1 3 亿 人民的大国提供多少个学习机会,想到与多少个大学。当网络学习在我国更加 成熟之后,我国的教育事业、人才资源储备将大大的提升。国家发展速度的增 3 武汉理工大学硕士学位论文 长将不可估量【川。 基于现代远程教育模型的学习与传统教学相比可以最大化学习者的主动 性,既能采取个性教学也可以采取协作型教学模式来教学,还可以将“个人化” 和“协作化”结合因此是一个新网络教学模式【硼。相对于传统的课堂研究性学习 模式,学生可以随时随地通过这个平台进行练习。此外,相比与使所有的信息 集中,我们提出了一个更好的方法,此方法可以帮助服务器从而降低了对分布 式客户端设备的要求,此方法可对学习者的个体行为进行分析,并更新到服务 器并自动计算工作量。 这样的教学方式,可以充分根据个人需要,无论是教学内容,教学时间, 指导教师可以按照自己的意愿和学习者的需要进行综合比较。这种模式可为学 习者提供色彩丰富,视听兼有的互动人机界面满足人的联想思维、记忆特性, 并通过大规模的超文本知识和信息,激发学生的学习兴趣,为学习者的发现式 学习创造有利条件。因此,可能让学习者获取知识、建立知识体系、以实现其 自我提高,甚至创造新知识的理想和目标。 1 3 本论文的主要研究工作 本文通过完成了一个j 2 e e 系统来对数据挖掘在网络学习系统中的运用进行 分析,用户通过网页形式进入客户端。系统将学习模块的内容以超文本的方式 发给客户端,客户端浏览器负责显示学习内容。在客户端完成学习事务,客户 端将使用者的学习数据发送到服务器端,服务器端对学习内容进行处理并保存。 服务器端从数据库中取出所保存的数据,对数据进行筛选去除掉脏数据后交给 数据挖掘模块进行数据挖掘,并将挖掘结果返回给客户端,显示影响其学习成 绩好坏的原因,并指导其如何调整学习状态以提高学习效果。数据挖掘算法以 j a v a 语言实现,完成数据挖掘功能。 数据库存储利用j d b c 技术,数据库为m y s q l 。在数据库中建立了学生表 用以存储使用者在各个学习板块学习的情况,包括资料学习时间,在线讨论时 间,在线测试成绩等。每个使用者进入系统后,系统有产生一个对象对应此学 生,学生的属性对应表的各个元素,以记录学生学习情况。这些记录即为被用 作数据挖掘的原始数据。 4 武汉理工大学硕士学位论文 1 4 本论文结构 本文共分为五章,各章的内容划分如下: 第一章绪论,介绍了本课题的研究背景、国内外现状以及本文的内容结构。 第二章首先介绍了传统在线学习系统的,包括其运行原理及存在的问题。 然后提出了一个解决问题的方法,即将数据挖掘技术应用进来,并介绍了数据 挖掘技术原理。 第三章根据上一章的原理,对在线学习系统进行设计,包括各个模块功能 的设计,利用1 1 ) 3 算法对学生学习数据进行分析,产生学习成绩决策树,并根 据决策树产生分类规则来对学习者的学习进行指导。 第四章实现了整个在线学习系统,并通过一个学生事例及一个管理员事例 对整个系统的功能效果进行演示。 第五章对全文工作进行总结,思考系统仍需改进的部分,提出后面要完善 的不足,以及后面要进行的工作。 5 武汉理工大学硕士学位论文 2 1 系统介绍 第2 章网络学习系统原理 网络学习系统是指通过互联网模式,学生坐在电脑前面连接到学习系统所 在的服务器端,使用者仅仅只需要在电脑上面根据系统呈现出的页面就可以进 行学习活动。而上述功能的实现是依靠超文本传输协议来完成的,因为利用超 文本系统能把服务器端的内容传递到客户端( 使用者的家用电脑) ,客户端利用 自己电脑上的浏览器对超文本进行解析,并把内容展现出来,所以使用者只需 要在家里登陆到学习系统就可以进行学习了,在线学习原理图如同2 1 所示。 客户端客户端客户端 图2 1 在线学习原理图 当学习者在本地的电脑上看到学习内容后就可以在本机上进行学习,然后 把学习的结果通过互联网传递到服务器端,服务器端可以根据已经设定的内容 对学习者的学习进行反馈。 2 1 1 传统的在线学习系统 传统的在线学习系统都是采用的教师仅仅对学生练习的对错进行批改,给 6 武汉理工大学硕士学位论文 出其最后得分,传统的在线学习系统结构图如图2 - 2 所示,而无法分析出为什么 学生的练习会是这个结果,也就更加谈不上通过指导学习提高学习效率。相反 的,教师仅仅只能够立足于这一个练习题上,对这一个题进行解答。这样学生 也只能理解这道题本身,而无法更好提高自己的学习质量【2 6 j 。 抽取试题卜 学 结果反馈 教 生 师 v 练 v 指 习导 图2 - 2 传统的在线学习系统结构图 为了解决如何提高学习者的学习效果,本系统将数据挖掘技术运用进来以 解决上述问题。 2 1 2 引入了数据挖掘功能的在线学习系统 将数据挖掘技术引入到在线学习系统之中的原理如图2 3 所示。 图2 3 含有数据挖掘功能的在线学习系统原理图 改进后的在线学习系统除了包含有传统的学习系统的效果,更重要的是, 它还加入了数据挖掘的功能。系统提供学习环境给学习者进行学习,在学习者 学习的过程当中,系统监控者学习者的所有学习动作,并将这些数据全部收集 到数据库之中。然后再由数据挖掘模块将数据从数据库中提取出来进行数据挖 掘工作,带数据挖掘完成后再将结果传给学习者的计算机进行显示。 2 2 数据挖掘的基本概念 随着现代信息技术的发展,计算机技术的研究成为当今最重要的技术,伴 7 o 爪入 武汉理工大学硕士学位论文 随着网络技术的发展,人们工作学习的效率在飞快地提高,各行各业的竞争压 力也在不断增大,迫使人们要有更高效的工作能力1 2 7 j 。与此同时,大量数据也 随之产生,积累在服务器和计算机上面。企业为了能在如此激烈的竞争中不被 淘汰,纷纷建立自己的信息化部门,将各种业务通过计算机网络来实现。大量 产品、客户、原材料、人员、市场等等方面的数据都堆积在计算机上面。就连 科研单位、政府部门也都开始了像数字化方向进行转型i 捌。但是,面对如此庞 大的数据信息,仅仅是依靠人的力量,想从数以亿计的数据之中找出那些能为 公司、政府带来关键性指导的信息,就如大海捞针。只有将数据挖掘技术运用 进来才能解决从庞大的数据中找出有用信息的问题例。 2 2 1 数据挖掘的定义 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、 不完全的、有噪声的、模糊的、随机的、杂乱的实际应用数据中发现隐含的、 规律性的、人们是先未知的,但又是潜在有用的并且最终可理解的信息和知识 的非平凡过程。 2 2 2 数据挖掘过程 数据挖掘工作的流程图如图2 4 所示,过程可以分为如下几个阶段,但每个 阶段都不是孤立存在的,经常在某个时候会反馈到前面一个或多个步骤之中进 行反复的数据挖掘工作,直至完成所有的数据挖掘工作。 i t t k 潭 : 目标勰 :预处理过期: 已转换黼 : 模式 知w 规刘 : 一一一一一一一一一 l 一一一- 一。: ! 一一一一一一一一一一一一一一一j 图2 4 数据挖掘流程图 8 武汉理工大学硕士学位论文 1 确定数据源对象 明确数据挖掘的目的,认清楚此次数据挖掘的数据源对象是进行数据挖掘 的第一步也是非常重要的一步,如果一开始对数据挖掘的目标意义都不是特别 清晰,那挖掘的结果肯定是无法满足挖掘需要的,虽然挖掘的结果有许多不确 定性,但至少要有个大致的方向,知道像什么方向开始进行挖掘,所以确定数 据源对象是非常重要的步骤。 2 确定目标数据 当确定了数据源对象之后,就要从中选择目标数据出来进行挖掘工作,但 并不是所有的数据源对象都是有用的目标数据,因为在原始数据被输入到数据 库的过程之中,会因为种种原因导致数据输入时产生错误,比如管理人员输入 时的错误,计算机某个时候的出错等等。为了让后面的挖掘工作不受这些错误 数据的影响而出错,就必须在选择目标数据的时候进行排除工作,将那些明显 错误的数据排除在目标数据之外。 3 预处理及转换数据 拿到了目标数据以后,要将得到的目标数据用于算法中进行挖掘之前,要 将数据进行初步的处理,往往初始的数据无法进行运算,如学生的分数一般是 百分制,而进行数据挖掘的时候对学生的分类往往只是3 ,4 种,则需要对学生 的考试成绩由百分制映射成用于数据挖掘的分类之中。 4 产生模式 模式提取时一个挑选算法、确定参数并加以实施的过程,是数据挖掘的核 心步骤,数据挖掘的目的就是通过发现令人感兴趣的模式来帮助人们理解大量 的原始数据【3 。随着要解决的问题不同,数据的侧重点不同,往往产生的模式 也是不相同的,模式与问题之间有很强的联系性。 5 生成规则 有了上面产生的模式,并不能马上的就说挖掘成功了,因为得到的模式可 能是没有意义或者没有实际可用性的甚至是与实际相反的,我们必须对产生的 模式进行验证评估,确定数据挖掘是否存在偏差,结果是否正确【3 2 1 。待验证完 成后,我们就可以得出正确的规则来指导数据的分析了。 9 武汉理工大学硕士学位论文 2 2 3 数据挖掘功能 数据挖掘主要有预测( 验证) 功能和描述功能【3 3 】。预测功能是指用已收集到得 信息去推测或者验证其他的未知信息,图2 5 显示了预测功能的主要应用;描叙 功能是指利用数据找到描述数据的模式,图2 - 6 显示了描述功能的主要应用。 图2 5 预测,验证功能应用图 图2 - 6 描述功能应用 基于数据挖掘的上述功能,我们发现将数据挖掘技术运用到在线学习系统 之中能解决如何对学习者的学习情况进行深入分析,找出影响其学习成绩好坏 的原因并指导其调整学习习惯进而提高学习效率。 2 3 本章小结 本章通过对传统的网络学习系统进行分析,找出此种学习系统存在问题, 然后探究了数据挖掘技术,讨论了数据挖掘技术的步骤及其能解决的问题,发 现了将数据挖掘技术应用到在线学习系统之中可以解决前面留下的问题,对学 习者学习质量的提高有很大帮助。 1 0 武汉理工大学硕士学位论文 第3 章网络学习系统设计 本文按照功能将系统分为三个主要模块:输入输出模块、学习模块和数据 挖掘模块。下面分别就两个模块的设计进行讨论。 3 1 输入输出模块 输入输出是人机交互的关键,计算机所有运行的结果往往都是些比较零碎 或专业性太强的数据,对于那些对计算机算法不是很了解的用户来说,把这些 东西展现在他们面前时非常不负责任的。所以通过输入输出模块,将专业的软 件代码内容转化成友好的图形显示界面,方便普通使用者的使用,然后将使用 者输入的内容通过输入模块发送到服务器中,进行数据转换等等用于系统处理。 系统处理完后的数据又通过输出模块发送到使用者的电脑中进行展示,这种方 式可使学习者感觉到方便快捷。 3 2 学习模块 学习模块为学习者提供所有相关的学习内容,图3 - 1 显示了学习功能模块的 具体内容。 图3 1 学习功能模块图 武汉理工大学硕士学位论文 学习者登陆到系统之后就进入到学习模块进行学习,可以在系统参看相关 学习资料,有问题可以在线提问,老师可以根据学习的提问进行回答,b b s 讨 论区是给学生交流学习经验的地方,在线测试可以让学习进行查漏补缺,在学 生一段时间学习结束后学生都可以利用在线测试对自己现有的知识进行测试。 3 3 数据挖掘模块 数据挖掘模块是本系统的精髓所在,对学生学习状况的分析都是靠此模块 完成的。此模块运用决策树的分类效果对学习者学习成绩进行挖掘,运用了i d 3 算法建立学习成绩决策树,实现决策树产生的全过程,最后在此决策树的基础 上产生分类规程,展现出了学习成绩与众多学习环节之间的关系,此关系可指 导学生者、教师调整提高学习质量。 3 3 1 决策树的概念 一个数据库d = d 1 , d 2 ,d n ,其中d i = ,数据库包含下列属性 a l , a 2 , ,a h ,给点类别集合l = l 1 ,l 忸) ,对于数据库d 来说,决策树是含有如 下性质的树1 3 4 j : ( 1 ) 每个内部节点都和一个属性趟相对应; ( 2 ) 每条弧都被用来对父节点进行判断,根据父节点所对应的属性值判决决 策的方向; ( 3 ) 每个叶子节点都是一个完全分好了的类,所有的叶子节点组成了对样本 数据的所有分类情况。 图3 2 显示了决策树的模型,决策树分为三个部分:根节点、内部节点及叶 子节点。内部节点表示数据集得某一个属性,用矩形图标表示;根节点表示数 据分类的开始,然后通过根节点所对应的属性进行判断,判断后面应往哪条分 支进行继续分类,判断完成后进入下一个节点,如果进入的是一个内部节点, 就继续按照上面的判断方法继续分类进行,当进入到了叶子节点( 以椭圆型图 标表示) ,则分类过程停止,此数据就被分类到此种类型之中【3 5 l 。 1 2 武汉理工大学硕士学位论文 图3 2 决策树模型图 3 3 2 决策树的建立 决策树的生成分为学习和测试两个阶段,图3 - 3 显示了决策的生成过程。 图3 3 决策树生成过程 决策树算法能够把一堆无序、无规律的事务理顺,找出它们之间的规律, 每一次从根节点出发分类,一直到某一个叶子节点结束,每一条路径就是一种 分类规则,然后把这些规则组合在一起就是成了分类器,就可以用来进行预测。 因为决策树算法的实质是归纳学习算法【蚓,是以实际数据为基础的,所有就要 武汉理工大学硕士学位论文 求所有进行分类的属性必须是离散的,要处理连续属性时,必须将其离散化, 最后可用i f - t h e n 规则来描述决策树。 决策树算法分两步进行1 3 刀:第一步,生成树,将所有数据都放在根节点, 然后利用递归的思想对数据进行划分,生成所有的叶子节点;第二步,修剪树, 除去那些会产生干扰、错误的数据。停止决策树发散的条件为:某一个节点上 的数据都已经是同一个类别了或者已经没有剩下的属性来对数据分类了。 3 3 3l d 3 算法 1 0 3 是最著名最经典的决策树归纳算法,算法将所有样本放在根节点处,选 择一个属性作为测试属性,将所有样本依次通过此属性,属性的每一个值产生 一个分支,就将初始的训练样本第一次分开,然后在各个分支之中,再选择出 下一个属性来作为测试属性继续将样本化分得更细,指导所有剩下的样本都属 于同一个属性之中。该算法的基本策略如下【3 8 】: 1 树以代表训练样本的单个节点开始。 2 如果样本在同一个类型中,则这个节点成为树叶节点,并用该类标记。 3 否则,算法使用称为信息增益的熵度量作为启发信息,选择能够最好的 将样本分类的属性,该属性成为节点的测试或判定属性。 4 对测试属性的每个已知的值创建一个分支,并据此划分样本。 5 算法使用类似的方法递归地形成每个划分上的样本决策树。一旦一个属 性出现在一个节点上,就不必在该节点的后代上考虑这个属性。 6 整个递归过程在下列条件之一成立时停止: ( 1 ) 给定节点的所有样本属于同类。 ( 2 ) 没有剩余属性可以进一步划分样本,这时候将该节点作为树叶,并用剩 余样本中所出现最多的类型作为叶子节点的类型。 ( 3 ) 某一分支没有样本,在这种情况下以训练样本集中多数的类创建一个树 叶。 生成决策树的基本算法描述如下: 算法:有已经等到的样本数据生成一颗决策树d e s t r e e 输入:训练样本集d a t a s ,待划分样本的属性集合a t t l i s t 输出:决策树 图3 4 显示了决策树产生流程【3 9 】: 1 4 武汉理工大学硕士学位论文 图3 4 决策树算法流程图 武汉理工大学硕士学位论文 ( 1 ) 产生一个节点n 作为根节点; ( 2 ) i f d a t a s 都属于同一个类别l ,t h e n ; ( 3 ) 返回n 为一个叶子节点,标记为类l ; ( 4 ) i fa t t l i s t 为n u l l ,t h e n : ( 5 ) 返回n 为一个叶子节点,以d a t a s 中最普通的类进行标记; ( 6 ) 计算a t t l i s t 中信息增益最大的属性做为下一个测试属性t e s a t t r i b u t e ; 将节点n 标记为t e s a t t r i b u t e ; ( 8 ) 循环遍历t e s a t t r i b u t e 能够取得的每一个值a i ; ( 9 ) 在节点n 上,引出一条满足t c s a t t r i b u t e = a i 的分支; ( 1 0 ) 将d a t a s 中t e s a t t r i b u t e = a i 的数据样本作为一个集合c i ; ( n ) 如果c i 为空,t h e n : ( 1 2 ) 生成一个叶子,将其以d a t a s 中普通的类别进行标记; ( 1 3 ) e l s e ,以递归的方式对剩下的样本进行生成子树d e c t r e e ( c i ,a t t l i s t , t e s a t t r i b u t e ) 。 在分支节点处属性的选择上,i d 3 使用了信息论中的互信息的概念,通过计 算分支属性,这样保证了对训练样本子集进行分类时所需要信息最小,从而确 保所产生的决策树最为简单。 i d 3 算法的优点在于算法在选择属性时利用了信息增益的概念,算法的基础 理论清晰,实现较简单,学习能力较强,适于处理大规模的学习问题,决策树 的每个分支都对应一个分类规则,因此产生的分类规则易于理解;同时,分类 速度较快,准确率较高。i d 3 算法的不足在于: ( 1 ) 不能够处理连续的属性值。i d 3 算法最初定义时是假设所有属性值是离 散的,但在现实环境中,很多属性值是连续的。 ( 2 ) 计算信息增益时偏于选择取值较多的属性,这样不太合理。 ( 3 ) i d 3 在建树时,每个节点仅含一个特征,特征间的相关性强调不够。 ( 4 ) 对训练集中特征值或类别输入错误的数据较为敏感。 ( 5 ) 当训练集增加时,i d 3 决策树会随之变化。在构造树的过程中,需要对 数据集进行多次的顺序扫描和排序,因而导致算法的低效。 3 3 4 属性的选择计算 在树的每个节点上使用信息增益度量选择测试属性,这种度量被称为属性 1 6 武汉理工大学硕士学位论文 选择度量。通过选择具有最高信息增益的属性作为当前节点的测试属性,使得 对结果划分中的样本分类所需的信息量最小,从而确保所产生的决策树最简单。 定义3 1 :设s 是s 个数据样本的集合,且具有1 1 1 个不同值的类别属性,定 义m 个不同类c ;( i = 1 ,m ) ,假设s ;是类c ;中的样本个数,则对于一个给 定的样本分类所需要的期望值为【4 0 1 : 旦 i ( s 1 ,s 2 ,s 功) 一一罗p jl 0 9 2 ( p i ) ( 3 - 1 ) 其中p i 是任意样本属于c i 的概率,p i s i s ,s s 1 + s 2 + + s 。对数函 数以2 为底,因为信息用二进制编码。 定义3 2 :设属性a 具有v 个不同的离散属性值 a 。,a :,a 。可以利 用属性a 将集合s 划分为v 个子集 s ,s :,s , ,其中s ;包含了s 集合中属 性a 取a ;值的数据样本。若属性a 被选为测试属性,即用属性a 对当前样本集 进行划分。设s 。为子集s ;中属于c ;类别的样本数。根据由a 划分成子集的熵由 下式给出1 4 l 】: e ( a ) - - 。;霎! ! ! - :! :! 警( s # ,s :j ,s 。崎) ( 3 - 2 ) 当划分后的子集中的类别越统一,则熵值越小。最后由上面两个公式可算 得用属性a 作为测试属性的信息增益值【4 2 l : g a i n ( a ) 一l ( s 1 ,s 2 ,s m ) 一e ( a ) ( 3 - 3 ) 在属性的选择时选择信息增益值最大做为测试属性,可以使得划分样本所 需要的信息量最小,确保找到简单的决策树。 3 3 5 由决策树产生分类规则 由上面生成的决策树就可以得到分类规则,规则由i f - t h e n 语句进行描述【4 3 1 , 从决策树的根节点到每一个叶子节点的过程就形成了一条规则,所得到的规则 可用于对其他数据进行预测分析,由数据中的原因属性根据分类规则来预测其 结果属性的取值。 1 7 武汉理工大学硕士学位论文 3 4 对系统中的数据进行决策树挖掘 3 4 1 数据预处理 在进行数据挖掘之前要将数据转换成能够方便运用决策树挖掘的数据,这 就需要在进行挖掘之前对数据进行预处理,将系统收集的数据进行如下的预处 理步骤: 1 数据清理 在数据收集的过程中由于人为地输入错误或者是计算机系统突发产生小问 题等等原因,都会使得收集的数据中存在错误,遗漏的地方,为了使数据挖掘 过程准确,我们对系统中的数据进行下面两种清理: ( 1 ) 当原因属性部分为空时,我们将此原因属性的所有样本进行平均运算, 将得到的平均值作为次空白处的数据; ( 2 ) 当结果属性部分为空时,我们无法利用其进行分类,所以直接将其忽略。 2 数据转化 ( 1 ) 对于原因属性中,因为本系统是以学生在学习模块的各个板块之中的点 击次数作为原始数据,为了进行有效的分类,我们将阿拉伯数字表示的次数分 为三个区间,每个区间为一个属性值,当点击次数大于等于6 次的,为“多”,当 点击次数为4 或者5 的为“中”,当点击次数小于等于3 的为“少”,这样就将四个 原因属性的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论