(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的个性化学习系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 目前,随着远程教育的开展,基于w e b 的学习获得了长足进展:但也存 在一些问题。例如,网络教学中普遍存在教学模式单一,教学资源简单堆积, 智能化程度低等问题,而接受教育对象的学习能力、个人兴趣和习惯、个人 学习基础、努力程度,都存在巨大的差异。由此带来的是网络教学平台不能 适应学习者个性化需求的矛盾。因此,如何使网络学习系统支持个性化服务, 是网络教育领域亟待解决的问题之一。 本文针对网络学习行为和数据挖掘技术的特点,就个性化学习系统的构建进 行了分析与研究,主要工作如下: 研究了网络学习行为和学习者个性化分析的算法基础数据挖掘和聚类 分析。 结合网络学习者浏览行为研究了基于f l a a t 的频繁w e b 用户浏览路径的挖掘 算法,并以实例分析了在搜索学习者偏爱浏览路径时考虑了不同前缀的相同子路 径的合并问题,使得挖掘信息更完善。 给出了学习者偏爱路径挖掘算法学习者模糊加权偏爱浏览路径的挖掘 算法m i n g l e a r n e r 。该算法重点考虑了教学网页的权重,而此权重是由教师或教 学专家给出的语义性评估用模糊数学方法计算而得。因而更加符合学习规律,更 能体现学习者的兴趣和偏爱。结合网络学习者行为事务,提出了一种基于模糊相 似关系的聚类算法,并结合实例对学习者行为聚类进一步作了分析。 构建了数据挖掘在个性化学习系统建设中的应用模式,重点研究了个性化学 习系统中的个性化学习推荐模块和数据挖掘处理模块。最后总结了全文并展望今 后进一步的工作。 关键字:数据挖掘,网络学习行为,个性化学习系统,个性化推荐 a b s t r a c t c u r r e n t l y , l e a r n i n gb a s e do nw e bh a sm a d ec o n s i d e r a b l ep r o g r e s s e su n d e rt h e g u i d i n go fe d u c a t i o nt h e o r y , b u tt h e r e a r es t i l ls o m ep r o b l e m se x i s t e d , s u c ha s s i n g u l a r i t yt e a c h i n gm o d e ,e d u c a t i o n a lr e s o u r c es t a c k i n gs i m p l y , l o wi n t e l l i g e n t i z e d l e v e le t c b u td i f f e r e n ts t u d e n th a sd i f f e r e n tt e a m i n gc a p a b i l i t y , p e r s o n a li n t e r e s t , p e r s o n a l l e a r n i n g f o u n d a t i o na n ds t r u g g l i n gl e v e l c o n t r a d i c t i o ng r o w su p b e t w e e nd i s t a n c ee d u c a t i o na n dp e r s o n a ld e m a n do fs t u d e n t t h e r e f o r e t h e s ei s s u e s s h o u l db es t u d i e da n dr e s o l v e df u r t h e r t h o r o u g hr e s e a r c h e sa r em a d et ou n d e r s t a n dt h ec h a r a c t e r i s t i co fl e a r n e r a c c e s sp a t t e r n sb yc o n s t r u c t i n gt h ep e r s o n a ll e a r n i n gs y s t e m m a j o rw o r k sa r el i s t e d a sf o l l o w s : t h er e s e a r c ho ne 1 e a r n i n gb e h a v i o ra n dw e bd a t am i n i n g ,w h i c hi st h ek e y t e c h n o l o g yf o rd e s i g n i n gp e r s o n a ll e a r n i n gs y s t e m ,i sc a r r i e do u t a n a l y s i st h ea l g o r i t h mb a s e do nf r e q u e n tl i n ka n da c c e s st r e e ( f l a a t ) , w h i c hi sp r o p o s e dt om i n ef r e q u e n tu s e ra c c e s sp a t t e r n s f l a a ts t o r e sa l lu s e ra c c e s s i n f o r m a t i o na n dc o n s i d e r st h em e r g eo fs a m er o u t e sw i t hd i f f e r e n tp r e f i x e st om a k e t h ei n t e g r a t i o no fm i n e di n f o r m a t i o nd u r i n gs e a r c ho ff r e q u e n tu s e ra c c e s sd a t t e r a s a ne f f i c i e n ta l g o r i t h mi sp r o v i d e dt om i n el e a m e rp r e f e r r e da c c e s sp a t t e r n s b a s e do nt h ec o n e e p t ,w h i c hi sa l o n gw i t hs u p p o r tt od i s c l o s el e a m e ri n t e r e s ta n d p r e f e r e n c e i tc o n s i d e r sa l lp o s s i b l ef a c t o r s ,w e i g h to fw e bp a g ea n dr e l a t i v ea c c e s s f r e q u e n c yo fw e bp a g e n u si tm o r ed e e p l yr e v e a l sl e a r n e ri n t e r e s ta n dp r e f e r e n c e a n daf u z z ya p p r o a c hi sp r o p o s e dt oc l u s t e rl e a r n e ra c c e s sp a t t e r n sf r o mw e bl o g s 1 1 1 ep a p e rc o n s t r u c t st h ea p p l i c a t i o nm o d e lo fd a t am i n i n gi nt h ep e r s o n a l l e a r n i n gs y s t e m , a n dd i s c u s s e st h ep e r s o n a ll e a r n i n gm o d e la n dd a t ar u i n gm o d e l f i n a l l y , w em a k eac o n c l u s i o no ft i l ep e ra n dp o i n to u tw h a tt od oi nt h ef u t u r e k e yw o r d s :d a t a m i n i n g ,e - l e a r n i n gb e h a v i o r ,p e r s o n a ll e a m i n gs y s t e m , p e r s o n a lr e c o m m e n d a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤注盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学能文储躲粉秀j , - 签字吼一年厂月日 学位论文版权使用授权书 本学位论文作者完全了解丞盗盘堂有关保留、使用学位论文的规定。 特授权墨洼盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者躲殴备参 签字日期:岬年6 月1 9 日 导师签名: + 、 ) l 可丞属 签字日期:凯司年f 月穆日 第一章绪论 1 1 研究背景 第一章绪论 在当今信息社会的飞速发展中,信息扮演着十分重要的角色,知识在人们的 学习、生活和工作中变得越来越重要,学习已经成为人们日常生活中很重要的一 部分。网络学 - jr ”是于2 0 世纪9 0 年代出现的一种师生分离的、非面对面的、凭 借媒体所进行的教育模式,它以计算机网络技术、通信技术为基础,以多媒体技 术为丰要手段,它对人们的终身学习起到非常重要的作用。据统计,在美国通过 网络进行学习的人数正以每年3 0 0 以上的速度增长。1 9 9 9 年,已经有超过7 0 0 0 万的美国人通过网络学习获得知识和技能,有6 0 以上的企业通过网络进行员工 培训和继续教育【2 】。在国内的网络远程教育出现不到十年的时间( 以教育部1 9 9 8 年的批准第一批四所院校成立网络教育学院计算) ,到目前为止已经取得了巨大 的成绩【3 】。大力发展网络教育,对于促进我国教育的普及和建立终生学习体系, 实现教育的跨越式发展,具有重大的现实意义【2 】【4 1 。由此,在未来的信息社会中, 网络学习将对人们的继续教育和终身学习起着非常重要的作用。 在网络学习中,学习者不再是被动地接受教师传授的知识,而是学习者以自 主学习为主,主动地学习相关内容和知识。然而参与网络学习的学习者来自各行 各业,没有一个统一的起点,基础和能力参差不齐,兴趣爱好各异,而且人类的 知识结构是联想式的网状组织形式【,这就要求组织教学信息时既要采用超文本 技术又要考虑学习者的个性特征。这样,学习者可以根据个人兴趣、偏好和习惯 等安排制定自己的学习计划,教学资源可以根据学习者的选择动态构建。因此, 为每一位学习者提供个性化服务是网络学习的关键所在。 然而,目前的网络学习系统虽然都采用超文本技术组织教学信息,但大多数 以系统自身为中心,最为突出的是其模式单一,学生只能被动地接受完全相同的 学习内容,甚至有的教学内容是教学材料的堆砌,没有充分考虑到学习者的个性 需求与学习习惯,要求学习者适应系统而不是系统去适应学习者,没有充分按照 第一章绪论 人的学习规律进行设计,所以造成个性化差、智能性差,学习效果不明显等诸多 问题。 为解决这些问题,根本的方案是根据网络学习行为特征分析制定个性化的学 习服务。不同的学习者在使用学习系统时会有不同的行为方式,这些行为方式代 表了学习者的习惯、兴趣和偏好,根据不同学习者的特点提供不同的学习服务。 这就需要从海量的数据和信息中高效地获取有用的知识和最新信息,提高信息检 索和推送的智能水平,满足各种学习者不同的个性化需求【5 】。个性化的网络学习 系统为每一个学习者提供了适应其学习行为特征的学习资源,使网络学习系统能 根据学习者知识结构、学习行为等个性特征进行个性化服务,以提高学习者学习 的积极性和主动性,增强学习者的内部动机,提高学习效率。本文将数据挖掘技 术应用于网络学习系统对学习者的学习访问路径,相关记录信息聚类分析,针对 学习者不同的学习习惯、偏好及行为特征等构建个性化的学习系统。 1 2 个性化学习系统的发展现状及问题 网络教育就是指学生在老师的引导和协助下,利用多媒体技术、计算机技术 和网络技术获得学习指导和信息资源,并采用最有效的方式实现学习目标的新型 教育模式【6 】。 为了满足学习者个性化和自主化学习的需要,网络教育的方式也是多种多样 的,如自适应性学习方式,网络视频会议系统进行双向实时教学的方式,利用局 域网或光盘进行课件点播的学习方式等。除此之外还有一些辅助性的支持服务, 如智能答疑、b b s 交流、电子邮件答疑、多点共享讨论等。可以说,从国家、 社会到各类学校,对于网络教育的研究与投入已经具备了相当大的规模。 面对大量网络学习资源,如何高效的组织和利用是突出的问题。简单的将教 学资源数字化、网络化虽然能发挥远程教育的异地资源共性的优势,但却很难实 现学习资源的个性化。随着w e b 技术发展,逐渐出现了一些新的研究,如文献【7 】 中提出的自适应w e b 、文献嘲中提出的自适应超媒体、文献【9 】提出的自适应的交 互和文献【3 i 】中提出的适应性学习等等,都在个性化网络学习的应用中做出有益 的尝试研究。另外,许多学者纷纷给出个性化学习模型,如上海交通大学远程教 育中心的研究者【】【1 2 】在远程教育系统中引入自适应机制,针对远程教育中学习 第一章绪论 者的特点,提供不同的学习资源,提供个性化学习导航系统;西南师范大学的研 究者【1 3 】【1 4 1 讨论了如何收集、分析学习者在学习过程中的动态和静态信息,如学 习者的认知风格、学习习惯、态度倾向等,提出了学习者特征分析系统设计的理 论模块。 近年来,一些研究者将数据挖掘技术应用于远程教育,在实现网络个性化教 育方面做了有益的尝试。如华东师范大学的研究者【1 5 】采用数据挖掘和知识发现 技术,在远程教育中使用数据挖掘技术建立个性化服务的模型:北京科技大学的 研究者【3 4 】对基于w e b 的文本挖掘进行了分析研究,在w e b 挖掘和数据挖掘研究 的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型;东北师范 大学研究者【3 5 1 在w e b 挖掘在远程教育个性化服务中的应用中,提出了网络远程 教育学习者特征分析的方法模型,采用调查表、决策树、属性加权i d 3 算法获得 学习者个性特征等。这些研究中的数据挖掘算法大都采用经典的a p r i o r i 算法、 i d 3 算法、f p 增长算法以及它们的改进等。实现个性化的教育是一项长期而困 难的工作。以上的研究对实现个性化网络教学做出了有益的探究,但这些研究工 作仍存在许多不足之处: ( 1 ) 网络学习大多还处于教学资源共享的状态,只是将传统课堂教育简单移 植到远程教育上,教学系统模式单一,以系统自身为中心,学生只能被动地接受 完全相同的学习内容,系统并没有给学习者提供个性化的服务,只是提供了一个 统一的学习界面和丰富的学习资源。 ( 2 ) 系统的智能性较低。不能根据学习者的学习行为特征提供适用的、个性 化的学习环境,以调动学习者的学习兴趣。 ( 3 ) 许多研究仍然停留在教学理论研究上。从传统教学模式的行为主义学习 理论到认知主义学习理论再到建构主义学习理论的转变【3 1 1 ,为基于网络的教学 提供了理论基础,但是由于个性化服务的复杂性,在实际的网络远程教育中还没 有特别成功的应用实例。 ( 4 ) 良好的网络教学系统常局限在对个别学科的个别化教学上。例如文献【9 】 中提出的a c t i v e m a t h 就是一个基于w e b 的数学学习系统,它能够根据学生的爱 好、能力和知识水平动态产生自适应的交互课程,这些个别化的教学方法对于学 习者在学习某门课程时是有益的,但是这些远远不能满足当前越来越多的综合性 3 第一章绪论 远程教育平台的教学要求。 针对以上问题,进一步研究网络学习中个性化学习服务是必要和高效的,个 性化学习推荐可以提供给学习者符合个人学习习惯和学习兴趣特征的教学资源, 从而调动学习者的积极性,提高了学习效率。进一步研究数据挖掘算法和聚类算 法在个性化学习系统中的应用,更好地为学习者提供个性化服务,也是有必要和 有实际意义的。 1 3 论文的研究意义与内容组织 在网络课程学习过程中,w e b 服务器、客户端以及代理服务器等计算机上的 网络日志文件,能够清晰地记录学习者的访问行为。但它呈现的原始数据是海量 的,我们已经很难再按照传统的方法从大量数据中寻找决策依据。而w e b 挖掘是 数据挖掘的一个研究领域,w e b 挖掘通常被定义为从w w w 上发现和分析有用 信息【1 0 】。因此,将w e b 数据挖掘技术应用于个性化的网络学习系统,通过获取 学习者在w e b 上的学习过程行为数据,如访问频度、内容、访问时问以及偏好 等,经过数据挖掘发现隐藏的规律或模式,从而为教育网站建设、网络课程设计 的决策提供更有效的支持,使网络教育更能够满足每位学习者的个性化需求。 w e b 数据挖掘是数据挖掘的一项重要应用。w e b 数据挖掘是从与w w w 相 关的资源和行为中抽取感兴趣的、有用的模式和隐含信息的过程。w w w 分析就 是为网站运行提供深入、准确、详细的分析数据和有价值的以及易理解的分析知 识 2 9 】。通过提供这些数据和信息,可以解决以下问题: ( 1 ) 有利于实现个性化学习模式 针对不同的学习者,发现学习者访问模式,了解学习者的知识结构,按照其 个人的兴趣和爱好,向学习者动态提供浏览w e b 页面的建议,自动提供个性化 的服务。 ( 2 ) 对改进网络学习系统更加有目的、有依据,提高学习者满意度 通过对学习者学习行为的挖掘,发现学习者的访问模式,进而重构页面之间 的链接,以符合学习者的访问习惯,把学习者想要的信息以更快、更有效的方式 展现给学习者。 ( 3 ) 为教学管理者提供重要的、有价值的信息 4 第一章绪论 通过对学习者的学习路径分析,了解教学知识点之间、章节之间、课程与课 程之问以及课程与课外之问的关联性;了解学习者的学习兴趣以及其他一些有用 的信息,用来指导教学、修改网络课程等。 从以上可以看出,进一步研究数据挖掘技术在网络学习系统中的应用具有重 要的意义。 本文共分为六章,内容组织如下: 第一章绪论研究了当前网络学习的发展现状及存在的问题,提出将数据 挖掘技术引入网络学习系统,讨论了问题研究的意义。 第二章相关理论及技术基础 主要给出了本文用到的网络学习行为的理 论、数据挖掘和聚类分析的基础知识和模糊变量的基本理论知识。 第三章w e b 学习者访问路径的挖掘根据单独树结构挖掘算法有丢失信息 的缺点,分析了一种存储用户浏览信息的有效存储结构f l a a t ( 频繁链表加存取 树结构) ,并研究了从f l a a t 结构中挖掘用户偏爱的浏览路径算法,结合笔者设 计的实例分析了挖掘学习者偏爱的访问路径的过程。分析了该算法不仅可以保障 挖掘信息的完整性,而且提高了挖掘的效率。 第四章学习者个性化分析算法研究结合网络学习行为属性特征和基于 f l a a t 的频繁w e b 用户浏览模式的挖掘算法的特点,提出了学习者偏爱路径挖 掘算法二_ 学习者模糊加权偏爱浏览路径的挖掘算法m i n g l e a m e r 。该算法重点 考虑了教学网页的权重,而此权重是由教师或教学专家给出的语义性评估用模糊 数学的方法计算而得。因而更加符合学习规律,更能体现学习者的兴趣和偏爱。 并给出了利于理解挖掘过程的具体例子。结合网络学习的实际情况,运用模糊变 量提出了一种基于模糊相似关系的聚类算法,并结合实例对学习者行为聚类进一 步作了分析。 第五章数据挖掘在个性化学习系统中的应用结合网络学习行为属性特征 和w e b 数据挖掘技术构建了个性化网络学习系统模型。引入了个性化推荐模块, 并研究了该模型的组成和处理过程。 第六章总结与展望总结本文工作,提出了进一步的研究方向。 第二章相关理论及技术基础 第二章相关理论及技术基础 2 1 网络学习行为的内涵 2 1 1 网络学习行为 目前国内外关于网络学习行为的概念还没有明确的界定”引。与网络学习行为 一词相近的概念有:“远程学习行为”、“网络自主学习行为”和“协作学习行为” 等。这些概念主要描述的是:学习者利用计算机网络媒体,主动地运用和调控自 己的认知、动机和行为进行网络课程的学习活动。其特征是充分利用网络平台提 供的各种信息资源、交流工具等,强调学习者“自我导向、自我激励、自我监控”, 强调时空分离和媒体教学。 但是,网络学习行为作为新的学习理念、学习模式下的产物,应被赋予更丰 富的内涵。包括引:网络学习行为是借助于互联网所开展的一种多维度多层次学 习形式;是一种学生自律、自我控制的学习行为,行为主体具有充分的自主权来 决定学习目标、学习进度、学习策略、学习资源,以及整个学习行为的发生、发 展以及变化等;学习者可以借助网络提供的各种便捷的交流沟通工具,进行主题 研讨和交流,实现网上远程协作学习;学习者在学习的过程中,能够及时获取来 自教师、学习伙伴、学科专家、学习支持系统等的支持和帮助。 综上所述,可以认为,网络学习行为是指学习者在由现代信息技术所创设的、 具有全新沟通机制与丰富资源的学习环境中,开展的远程自主学习行为,行为发 生、发展以及变化由学习者自己控制。控制能力的强弱受学习者的内部心理因素 和外部环境因素的影响。比较重要的内部心理因素有n 6 1 :学习准备、学习动机、 归因和自我效能感以及学习者所掌握的学习策略等。比较重要的外部环境因素 有:学习材料的多媒体表现形式、内容的组织结构、学习工具的易用性以及支持 系统的及时性、个性化服务等等。不同影响因素发挥作用的不同也势必导致学习 行为的不同表现形式。 6 第二章相关理论及技术基础 2 1 2 网络学习行为属性分析 网络学习过程中,学习者的背景各不相同,而且学习者和教师在时空上分离, 教师很难通过传统的方式观察学习者的行为特征,也难以给学习者提供个别化的 有针对性的帮助和指导。教师要掌握学习者的行为特征,要借助于网络媒介。教 师或者是智能化的系统可以通过记录和分析网络教学支撑平台中的各种行为信 息,实现对学习者行为特征的获取。根据网络学习行为客体的客观特征,可以选 择部分或全部特征作为网络学习行为的可统计属性。如根据讨论区发表文章( 发 言) 的主题和数量,登入课程的次数、时刻以及逗留时间等信息。根据网络学习 过程中表现出来的这些属性信息,可以对网络学习行为进行量化,为数据统计和 挖掘提供依据。 合理地选取网络学习行为的量化参数,一方面可以帮助了解学习者的行为和 个性特征,建立学习者信息模型;另一方面,对网络学习行为属性的统计分析, 还可以直接获得网络学习行为客体的学习特性。 几种常见的网络学习行为的属性参数列表如t t l 6 】【1 7 】: 表2 1 常见的网络学习行为的属性 网上行为行为属性 浏览网页网址、标题、主题字、时间( 进入页面、离开页面) 浏览学习资源学习丰题、时间( 进入页面、离开页面、登入频率) 、 学习状态 、 信息检索关键词、搜索结果、搜索引擎 下载保存来源、关键词、说明、形式 收藏网站网址、网站名称、网站说明 收发邮件地址、邮件丰题 b b s 讨论讨论主题、读帖次数、发帖次数、频率、时问、被删文 章数量 提出问题主题、频率、回复次数 回答问题主题、频率、正确次数、错误次数 实时交流使用工具、交流时间、交流主题、内容 电子笔记时间、标题、内容、关联网页 查看学习记录评语、成绩 作品发布 使用工具、作品名称、媒体类型、发布数量 第二章相关理论及技术基础 网络学习过程中呈现的原始数据将是海量的。对行为量化参数的选择,需要 借助学习行为的元数据。在数据采集过程中,数据库首先要按照元数据标准进行 清理、集成和变换,去掉数据中的“噪声”等不一致的数据,再将原始数据存储 在数据仓库中。元数据规定了对数据抽取、净化和转化以及最后在数据仓库存储 的方式,决定了数据挖掘的效率。 2 2 数据挖掘 2 2 1 数据挖掘定义 数据挖掘( d a t am i n i n g ) 是从大量的数据中,抽取出潜在的、有价值的知识 ( 模型或规则) 的过程【1 8 】。 目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、 神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。 数据挖掘过程一般分为4 个阶段: ( 1 ) 收集数据:确定数据源,收集所需数据。 ( 2 ) 数据预处理:将收集到的数据整理成可供数据挖掘使用的有用数据。 ( 3 ) 模式发现:对经过预处理的数据进行数据挖掘,从中发现知识、规则和 模式。 ( 4 ) 模式分析:过滤掉无用的模式,将有用的潜在的模式以人们可以理解的 形式表现出来。 2 2 2w e b 挖掘 1 w e b 挖掘的定义 w e b 挖掘是- - f 交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智 能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。 从广义的角度出发,可以对w e b 挖掘作如下的定义: 定义2 i t l 9 i :w e b 挖掘是指从大量非结构化、异构的w e b 信息源集合中发现 有效的、新颖的、潜在可用的及最终可理解的知识包括概念( c o n c e p t s ) 、模式 8 第二章相关理论及技术基础 ( p a t t e r n s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、约束( c o n s t r a i n t s ) 及可视化 ( v i s u a l i z a t i o n s ) 等形式的非平凡过程。 以上定义借鉴了数据挖掘的传统定义。因此w e b 挖掘在部分方法和技术研 究方面也与数据挖掘相似,具有相通之处。 如果从实用性开发的角度来考虑的话,可以对w e b 挖掘做出如下的定义。 定义2 2 2 0 】:w e b 挖掘是针对包括w e b 页面内容、页面之间的结构、用户访 问信息、电子商务信息等在内的各种w e b 数据源,在一定基础上应用数据挖掘 的方法以发现有用的知识帮助人们从w w w 中提取知识,改进站点设计,更好 地开展电子商务等应用。 2 w e b 挖掘的分类 w e b 挖掘是一个更具有挑战性的课题,它实现对w e b 存取模式w e b 结构和 规则,以及动态的w e b 内容的查找。一般地,w 曲挖掘可分为三类【1 8 】:w e b 结 构挖掘( w e bs n l j c m r em i n i n g ) ,w e b 内容挖掘( w e bc o n t e n tm i n i n g ) ,和w e b 使用记录挖掘( w e bu s a g em i n i n g ) 。 ( 1 ) w e b 结构挖掘 w e b 结构挖掘是从人为的链接结构中获取有用的知识的过程。 大量的w e b 链接信息提供了丰富的关于w e b 内容相关性、质量和结构方面 的信息,为w e b 挖掘提供了一个可以利用的重要资源。这一思想激发了一些有 趣的权威w e b 页面挖掘的研究工作。 ( 2 ) w e b 内容挖掘 w e b 内容挖掘是指在人为组织的w e b 上,从文件内容及其描述中获取有用 的信息的过程。w 曲的内容挖掘可以说是数据挖掘技术在网络信息处理中的应 用。不同于传统的数据挖掘技术,w e b 内容挖掘丰要是针对各种非结构化的数据, 如文本数据、音频数据、视频数据、图形图像数据等多种数据相融合的多媒体数 据挖掘。 ( 3 ) w e b 使用记录挖掘 w e b 使用记录挖掘是指通过挖掘存储在w e b 上的访问日志,来发现有趣的 信息( 用户浏览模式、发现潜在客户信息等) 的过程。包括三种模式:数据预处 理、模式发现及模式分析。 9 第二章相关理论及技术基础 由于每个w e b 服务器都有访问日志文件,访问日志文件记录了访问者访问 和交互的信息。因此,w e b 使用记录挖掘主要是指w e b 日志文件的挖掘,它的 主要目标是从w e b 网站的访问日志记录中获取感兴趣的模式。通过挖掘w e b 日 志记录,不仅可以发现用户访问w e b 页面的模式,还可以分析和探究w e b 日志 记录中的规律,帮助网站管理者了解用户的行为和w e b 站点结构,从而改进站 点设计,为用户提供个性化的服务。 3 w e b 日志挖掘 w e b 日志挖掘属于w e b 使用挖掘的范畴,是指采用数据挖掘的技术,通过 对w e b 服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴 趣爱好等有趣、新颖、潜在有用以及可理解的未知信息和知识,用于分析站点的 使用情况,从而辅助管理和支持决策。 不同用户对同一网站的兴趣存在差异,但多多少少会有某些相同之处,这能 够从他们在服务器日志中留下的访问记录反映出来,因此通过对日志的挖掘,可 以发现用户的共同偏好和兴趣。另一方面,同一用户在不同时期可能有不同的访 问浏览模式,但从长期来看,也会表现出一定的规律和趋势,能够反映用户的兴 趣。因为统计数据表明:大多数用户在网站上的活动范围是很有限的,因而他们 的活动中必然包含了许多重复的动作,也就是说,用户的行为是有规律可循的, w e b 日志挖掘能够发现这些规律【2 l 】。此外,由于w e b 服务器日志中记录了该服 务器被外部访问的所有过程信息,通过对这些过程信息的分析,可以客观地反映 服务器的内部结构、组成、内容、访问频度等有关该服务器的重要信息,对于评 价和改进网站的服务质量来说都是非常宝贵的资源。同时,在任何一个服务器上 都可以很方便地得到它的日志文件,数据的来源很方便,文件结构较为良好,而 且数据挖掘技术的日趋成熟使得对这一不断增长的巨大数据文件的处理成为可 能【2 2 】。 w e b 日志挖掘的一般过程如下所述: ( 1 ) 数据的预处理:就是将来自于不同数据源的数据,如使用模式等信息重 新组织成为模式发现所必需的数据结构。 ( 2 ) 模式发现:对数据预处理所形成的文件,利用数据挖掘的一些有效算 法( 如关联规则、聚类、分类、序列模式等) 来发现隐藏的模式和规则。 1 0 第二章相关理论及技术基础 ( 3 ) 模式分析:主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣 的模式,提供可视化的结果输出。 通过分析和探究w e b 日志记录中的规律,可以合理建造网站及合理设计服 务器;帮助更好地组织设计w e b 主页,并改进w e b 服务器系统的性能;识别潜 在用户,增强对最终用户的因特网信息服务的质量;帮助改进决策,如把相关信 息放在适当的w e b 页上或更好地理解用户的兴趣。 2 3 聚类分析 聚类分析1 8 1 是在没有先验知识的情况下,将物理的或抽象的对象集合划分 为由类似的对象组成多个簇,使得处于同簇中的对象具有最大的相似性,处于不 同簇的对象具有最大的差异性【幅】。它属于一种无指导的学习,许多研究者将其 用于w e b 个性化服务理论和技术研究。 聚类算法的选择取决于数据的类型、聚类的目的和应用。大体上,主要的聚类 算法可以分为如下几类【1 8 】【2 3 】: ( 1 ) 划分方法( p a r t i t i o n i n gm e t h o d ) 给定要构建的划分的数目k ,划分方法首先创建一个初始划分。然后采用一 种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的 准则是:在同一个类中的对象之间尽可能接近或相关,而不同类中的对象之间尽 可能远离或不同。为了达到全局最优,基于划分的聚类穷举了所有可能的划分。 ( 2 ) 层次方法( h i e r a r c h i c a lm e t h o d ) 层次的方法对给定的数据对象集合进行层次的分解。层次方法有两种分解形 式:凝聚和分裂。凝聚方法也称为自底向上的方法,初始将每个对象作为单独的 一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个( 层次的最 顶层) ,或者达到一个中止条件。分裂方法也称为自顶向下方法,初始将所有的 对象置于一个组中,在迭代的过程中,一个组被分裂为更小的组,直到最终每个 对象在单独的一个组中,或者达到一个中止条件。 ( 3 ) 基于密度的方法( d e n s i t y - b a s e dm e t h o d ) 基于距离的聚类方法只能发现球状的簇,而在发现任意形状的簇上遇到了困 难,为此提出了基于密度的聚类。其中心思想是只要临近区域的密度( 对象或数 第二章相关理论及技术基础 据点的数目) 超过某个阈值就继续聚类。也就是说,对类中的每个数据点,在一 个给定范围的区域中必须至少包含某个数目的点。这种方法可以用来过滤噪声数 据,发现任意形状的簇。 ( 4 ) 基于网格的方法( g r i d b a s e dm e t h o d ) 基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构,所 有的聚类操作都在这个网格结构( 即量化空间) 上进行。 ( 5 ) 基于模型的方法( m o d e l b a s e dm e t h o d ) 基于模型的方法试图优化给定的数据和某些数学模型之间的适应性。这样的 方法经常是基于这样的假设:数据时根据潜在的概率分布生成的。基于模型的方 法主要有统计学方法和神经网络方法。 在统计学方法中,聚类主要研究基于几何距离的聚类,如欧几里得距离等。 在机器学习中,聚类称作无监督归纳,聚类的数据需要由聚类学习算法自动确定, 并且此时的距离不再是统计方法中的几何距离,而是根据概念描述确定的概念距 离【2 3 】。 在w e b 访问模式挖掘中,主要存在两种聚类,分别是用户聚类和页面聚类。 用户聚类是将具有相似访问行为的用户聚成一类,由此网站可以分类发现用户感 兴趣的信息,为用户提供个性化服务。页面聚类是将有相关内容的页面聚成一类, 优化网站结构,便于用户访问。 2 4 模糊数学理论 在经典集合论中,论域u 上的一个普通集合a 定义为u 中某些元素x 组成 的群体。每个元素或者属于集合a ,或者不属于集合a 。然而在很多情形下这 种隶属关系并不是明确的。例如,日常生活中的大、小、长、短、年轻、强壮 等等,这些概念所表达的含义并不是具体、明确的。在这种情况下,经典集合论 并不适用。为了处理这类问题,引入模糊集的概念。 定义2 3 f 2 4 】:设u 为论域,j 为u 的一个子集,对任意元素工u ,函数 j :u 一 o ,1 指定了一个值j ( x ) 0 ,l 】与之对应。j ( x ) 在元素x 处的值反映了元素x 属 第二章相关理论及技术基础 于j 的程度。称集合j 为模糊子集,而tj ( x ) 称为j 的隶属函数。 定义2 4 【2 6 】:假设( o ,p ( o ) ,p o s ) 是可能性空间,a 为幂集p ( o ) 中的一 个元素,事件a 的可信性测度为 1 c r = ( 胁 么 + n e c a ) 二 定义2 5 t 2 5 】f 2 7 】:假设善为一从可能性空间( ,p ( o ) ,p o s ) 到实数集的函 数,则称孝是一个模糊变量。 假设孝是可能性空间( ,p ( o ) ,p o s ) 上的模糊变量,它的隶属函数可由 可能性测度p o s 导出,即 2 5 本章小结 ( 工) = p o s o i 孝( 秒) = 石 ,工r 本章主要给出了本文用到的网络学习行为的理论、数据挖掘和聚类分析的基 础知识和模糊变量的基本理论知识。 第三章w e b 用户浏览路径挖掘 第三章w e b 学习者访问路径挖掘 在网络学习模式下,学习者学习的过程就是在远程教育网站中活动的过程, 学习者的每个活动都是对学习网站上的一个页面对象的点击操作,而这些点击操 作被完整地记录在日志文件中。通过对学习者访问学习网站留下的日志文件进行 w e b 数据挖掘以发现隐藏的模式,揭示学习者偏爱访问路径,发现w e b 学习者 访问路径的趋势和规律,帮助理解学习者的学习行为,从而改进站点的结构,为 学习者提供个性化服务。 3 1 数据收集及数据预处理 3 1 1 数据收集 在w e b 日志数据挖掘中数据最直接的来源是在w e b 服务器。w e b 服务器通 常都保留了对w e b 页面的每一次访问的日志项,记录了关于用户访问和交互的 信息。w - e b 服务器日志有普通型和扩展型两种格式【3 6 1 ,本文利用从基于数据挖 掘的个性化学习系统的服务器上收集的w e b 日志作为研究对象,属于普通型日 志,格式如下: 2 0 0 7 0 3 1 60 0 :0 0 :0 42 0 2 2 0 7 1 7 4 3 5 2 0 2 2 0 7 1 6 0 38 0 g e t h o m e h t m l h t t p :w w w s x n u e d u ”i e 6 0 ” 2 0 0 7 0 3 - 1 60 0 :0 0 :0 62 0 2 2 0 7 1 7 4 3 5 2 0 2 2 0 7 1 6 0 38 0 g e t r e s e a r c h r e s e a r c h h t m l i n d e x h t m l”i e 6 0 ” 2 0 0 7 0 3 160 0 :0 0 :0 62 0 2 2 0 7 17 4 3 5 2 0 2 2 0 7 16 0 38 0 g e t r e s e a r c h s j x y i n d e x h t m l h t t p :w w w s x n u e d u ”i e 6 0 ” 这是使用同一个i p 地址2 0 2 2 0 7 1 6 0 3 在不同时刻进行的不同页面的访问, 所使用的浏览器均为”i e 6 0 ”,访问到的页面有h o m e h t m l 、r e s e a r c h r e s e a r c h h t m l 和r e s e a r c h s j x y i n d e x h t m l 。 w e b 日志的组成要素: 1 4 第三章w e b 用户浏览路径挖掘 ( 1 ) 日期 ( 2 ) 时间 ( 3 ) 客户端i p 地址 ( 4 ) 服务器i p 地址 ( 5 ) 端口号 ( 6 ) 所使用的方法 ( 7 ) u r l ( 统一资源定位器) 地址 ( 8 ) r e t u r nc o d e ( 返回代码或者请求的状态) ( 9 ) r e f e r r e r p a g eu r l ( 请求链接到的u r l 地址) ( 1 0 ) 所使用的浏览器 3 1 2w e b 数据预处理 w e b 日志文件中数据多半是不完整的、有噪音的和不一致的,很难直接使用, 需要进行数据预处理。数据预处理【1 8 】的h 的是将w 曲日志转化为适合数据挖掘 的可靠的精确数据。 w e b 日志原始数据需要进行数据净化、用户识别、会话识别、路径补充和事 务识别等预处理。 数据净化指删除w 曲服务器日志中与挖掘算法无关的数据。w e b 服务器上 的每一页都是通过一个单独的链接所指定的。当用户发出对于某个页面请求的时 候,在这个页面中所包含的图形、脚本、图像等资源都会自动下载,并写入访问 日志中,而这些内容对于数据挖掘来说是噪音数据,w e b 数据挖掘所关心的是网 页本身。 在w e b 访问日志中去除噪音数据的方法一般是根据请求文件的后缀来识别 被请求资源的类型,然后剪掉这些记录,如后缀为g i f , j p e g 、j p g 等的图形文件。 预处理后的日志可以表示成 的集合,其中,u r l r 表示引用页,u r l 表 示访问的页面。 这样一个会话期s i ( 1 s i 9 ) 可以被表示成如下的形式: s i = ( u r l r i l ,u r l i i ) ,( u r u k ,u d u ) ,( u r l r i m ,u r l i m ) ) 其中m 表示该会话期内请求页面的总数,且u r l r i k + 1 = u r l i k ( 1 5 k m 1 ) 。 第三章w e b 用户浏览路径挖掘 由于u r l r i k + 1 = u r l i k ( 1 蛐1 ) ,把会话期s i ( 1 s i n ) 简化成如下的形式: s i = u r l i l ,u r l i 2 ,u r l i m ) 例如一个简化的会话期形式: s i = h o m e h t m l , r e s e a r c h r e s e a r c h h t m l , r e s e a r c h s j x y i n d e x h t m l , r e s e a r c h s j x y j s j k x j s j k x h t m l , r e s e a r c h s j x y js j k x p r o j e c t s i n d e x h t m l , r e s e a r c h s j x y j s j k x p r o j e c t s x r n s b i n d e x h t m l 用户识别是从日志中识别出每个访问网站的用户。这一任务因为本地缓存、 防火墙和代理服务器的存在变得复杂,所以通常使用日志文件中的下列属性值来 识别一个用户的会话期。 c i d i 用户的口地址; t i 存取的时间: u i 存取的u r l 地址;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论