




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)用户访问模式挖掘及自适应web研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名:盔:当叠日期: 2 舶t4 ,r 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本 学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:查 鱼篮导师签名:丝生b期:三型生f c 山东大学硕士学位论文 摘要 当今基于b s 的互联网应用日益广泛,各类网站所提供的功能和服务也越来 越丰富,然而在智能化方面表现得不够理想。比如,网站结构缺乏灵活性;提供 的服务或信息分布不合理,未能充分考虑到用户的需求;信息的访问路径未能考 虑到信息的重要性和普遍关注性等等。如果网站能够根据用户的行为模式自动的 学习,改良自身的组织结构和表现形式,即所谓自适应w 曲站点,无疑将极大 的方便用户的使用。 本文在分析了w e b 日志记录结构及涵义的基础上,结合山东大学威海分校 研究生处w w w 站点,对w 曲用户访问模式挖掘的整个过程进行了详细的描述, 并提出了若干建设性的技术方法。 本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应w e b 站点 的应用上,将数据挖掘技术、数掘库技术与w e b 技术相结合,在分析网站逻辑 结构的基础上,通过对用户访问模式的数掘挖掘,对己存在的w e b 站点的结构 及站点内的页面进行调整和改善,使其具有自适应能力和优化能力,使各类信息 和服务以更有效的方式提供给用户首先分析进行w e b 日志挖掘的数掘基础及 在进行挖掘前需要的数据准备工作,包括数据清洗、用户识别、会话识别等数据 预处理过程其次,提出一种基于w e b 拓扑结构( 图结构) 挖掘用户访问模式的方 法,区别于常用的基于树形结构的w e b 路径分析技术,在候选集的生成和剪除 过程中减少了候选集的数量,提高了发现模式的精确性和效率,并且避免了“交 易变质”的问题同时还考虑到增量日志挖掘技术的问题。利用w e b 日志挖掘 获得的规则和模式对已存在的w e b 站点的结构及站点内的页面进行调整和改 善包括链接位置的变动,增加删除页面间的链接等,运用页面聚类的结果可 方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面等,从而实现站 点组织结构的优化 运用数据挖掘技术分析用户的访问模式,同时考虑到多种相关因素,可动态 的改变网站的组织结构。通过这种网站结构的调节,可以优化网站结构,提高动 态网站的服务性能和服务质量,具有很大的研究和应用价值。 利用w e b 日志挖掘得到的用户访问模式来调整和改善w e b 站点的结构及站 点内的页面,在理论上和应用中都还存在着一些问题需要做进一步的研究。如分 山东大学硕士学位论文 布式w c b 同志挖掘的研究如何把整个站点的w e b 日志挖掘任务分布到各w e b 服 务器上并将分布的结果结合起来,获得访问模式,将具有重要的意义 关键词:数掘挖掘,w e b 日志挖掘,用户访问模式,w e b 拓扑结构,自适应站点 山东大学硕士学位论文 a b s t r a c t n o wt h ei n t e r n e ta p p l i c a t i o nb a s e do nt h eb si sw i d e s p r e a dd a yb yd a y ,t h e f u n c t i o na n ds e r v i c et h a te a c hk i n do fw e b s i t e sp r o v i d ei sm o 鹳a n dm o r er i c h , h o w e v e ri t si r , s u f f i c i e n ti nr ei m e ! l e c t u a l i z e da s p e c t 。i :o rj m s l a n c e , t h ew e b s i t e s t r u c i u r el a c k st h ef l e x i b i l i t y ;t h ed i s t r i b u l i o no fs e r v i c eo ri n f o r m a t i o ni s u n r e a s o n a b l et h a th a sn o tc o n s i d e r e dt h en e e do fn s e r sf u l l y ;t h ea c c e s sw a yo f i n f o r m a t i o nh a s n tc o n s i d e r e dt h ei m p o r t a n c ea n dt h eu n i v e r s a la t t e n t i o na n ds oo n i f t h ew e b s i t e sc a l ls t u d yt h e m s e l v e sa n di m p r o v et h e i ro r g a n i z a t i o na n dp r e s e n t a t i o n a u t o m a t i c a l l y ,a si sc a l l e da d a p t i v ew e bs i t e ,t h e yw i l lb em o r ec o n v e n i e n ta n dm o r e e f f e c l i v ef o rt h eu s e r s b a s e do nt h ea n a l y s i so fs t r u c t u r ea n dm e a n i n go fw e bl o gr e c o r d s ,c o m b i n e d w i t ht h ew e b s i t eo fg r a d u a t es c h o o lo fs h a n d o n gu n i v e r s i t ya tw e i h a ia n di t sp a r t i a l l o g s t h i st h e s i sg i v e sad e t a i t e d6 e s c f i p t i o na b o u tt h ew h 0 1 ec o w s eo fw g b u s e r a c c e s sp a t t e r n sm i n i n g ,a n dp r o p o s e st h r e ec o n s t r u c t i v em e t h o d s t h i st h e s i sf o c u so nt h eu s e ra c c e s sp a t t e r n sm i n i n gb a s e do nt h eg r a p hs t r u c t u r e a n dt h ea p p l i c a t i o no nt h ea d a p t i v ew e b s i t e s ,b a s e do nt h ea n a l y s i so fs t r u c t u r eo f w e b s i t e sa n dc o m b i n a t i o no ft e c h n i q u eo fd a t am i n i n g , d a t a b a s ea n dw e b 。a d 脚a g a n di m p r o v i n gt h ee x i s t e dw e b s i t e s s t r u c t u r ea n di t sw e bp a g e st oe n a b l et h e mt ob e s e l f - a d a p t i n ga n do p t i m i z i n gt h r o u g ht h ed a t am i n i n go fu s e ra c c e s sp a t t e r n s ,s oa st o p r o v i d eu s e r sw i t hi n f o r m a t i o na n ds e r v i c ei nal n o r ee f f i c i e n tw a y f i r s t , i ta n a l y s e s t h ed a t as t r u c t u r eo ft h el o ga n dd a t ap r e p r o c e s s i n gs u c ha st h ed a t ac l e a n i n g ,u s e r i d e n t i f i c a t i o n , a n 6s e s s i o ni d e n t i f i c a t i o na n ds oo nb e f o r ew e bl o gm i n i n g s e c o n d , i t p r e s e d 岱am e t h o dt om i n eu s f f ra c c e s sp a t t e r n sb a s e do nt h et o p o l o g yo faw e bs i t e ( g r a p hs t r u c t u r e ) o nt h eu s e rs e s s i o nf i l e ,t h i sm e t h o di sd i f f e r e n tf r o mt h ec o m m o n o n eb a s e do nt h et r e es t r u c t u r e ,a n dr e d u c et h en u m b e ro ft h ec a n d i d a t ei nt h ep e r i o d o ft h ec a n d i d a t eg e n e r a t i o na n dp r u n i n g ,s oi ti m p r o v e st h ep r e c i f i o no ft h ep a t t e r n s a n dm i n i n ge f f i c i e n c y ,a n da v o i dt h e ”c o r r u p t e dt r a n s a c t i o n ”a tt h es , n et i m ei ta l s o c o n s i d e r st h ep r o b l e mo ft h ei n c r e m e n t a ll o gm i n i n gt e c h n o l o g y f i n a l l y , a d j u s t i n g a n di m p r o v i n gt h es t r u c t u r ea n dp a g e so ft h ee x i s tw e b s i t et h r o u g ht h er u l e sa n d p a t t e r n sf r o mw e bl o gm i n i n gi n c l u d i n gc h a n g i n gt h el i n kp o s i t i o n , i n c r e a s i n go r 5 山东大学硕士学位论文 d e l e t i n gt h el i n ko f p a g e sa n dr e c o m m e n d i n gt h ep a g e sw h i c hh a v es i m i l a rs u b j e c tt o t h eu s e rg r o u pw i t hs i m i l a rb r o w s i n gp a t t e r n sa n ds oo n , s oi tr e a l i z e st h eo p t i m i z a t i o n o f t h ew e b s i t eo r g a n i z a t i o ns t r u c t u r e t h em e t h o di so fah i 。g hv a l u ef o rr e s e a r c ha n da p p l i c a t i o n , w h i c hc o n s i d e r s m a n ya s p e c t sa b o u td a t am i n i n ga n a l y s i s 5 0t h a ti tc a ni m p r o v et h ew e b s i t e o r g a n i z a t i o ns t r u c t u r ed y n a m i c a l l ya n dm a k et h ep e r f o r m a n c ea n dq u a l i t yo ft h e s e r v i c eb e t t e r b u ti t si n s u f f i c i e n tb o t hi nt h e o r ya n di np r a c t i c e ,w h i c h1 1 5 0t h er i s e ra c c e s s p a t t e r n st oa d j u s ta n di m p r o v et h es t l m c t u r e a n dp a g e so fw e b s i t e s i tw i l lb e s i g n i f i c a n tt h a th o wt oc o m b i n et h er e s u l t sa n dg e tt h ea c c e s sp a t t e r n sb yd i s p e r s i n g t h ew h o l ew e bl o gm i n i n gt a s kt oe v e r yw e b5 0 v e r k e yw o r d s :d a t am i n i n g ,w e bl o gm i n i n g ,u s e ra c c c s sp a t t e r n s ,w e b s i t e s t o p o l o g y , a d a p t i v ew e b s i t e 6 山东大学硕士学位论文 1 i 引言 第一章概述 近几年因特网己经成为一个巨大的、分布广泛的和全球性的信息服务中心, 逐渐渗透到人们的日常工作、生活及其它领域,它为用户提供了各种信息然而, 网站在结构越来越复杂的同时,却往往在智能化方面表现得不够理想。主要表现 在:网站的内容虽多却不易寻找。这样的后果是显而易见的:用户面对一堆杂乱 无章的信息往往花费了大量的精力却无法找到理想的结果。如何有效得分析用户 的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,己经成 为一项迫切而重要的课题 解决这些问题的一个途径,就是将传统的数据挖掘技术与w e b 结合起来,进 行w e b 数据挖掘其中的w e b 日志挖掘可以掌握用户在浏览站点时的行为,并且 将挖掘出的用户访问模式应用于网站上,在改善w e b 站点的结构以及页面问的超 链接结构,提高站点的服务质量等方面有重要的意义。使网站能够根据用户的行 为模式,改良自身的组织结构和表现形式,即所谓自适应w e b 站点这无疑将极 大的方便用户的使用 1 2 国内外研究现状 w e b 数据挖掘的概念最早在文 1 】,【2 】中提出,该领域的研究成果有力的促 进了w e b 站点、w e b 站点服务、w e b 站点导航以及电子商务等的优化设计工作。 同时,数据挖掘技术也在不断发展成熟,目前在w e b 数据挖掘领域,主要致力 于将数掘挖掘在关系数据库领域取得的成果与w e b 数据挖掘相结合。构建w e b 数据挖掘系统 国际上,关于w e b 数据挖掘的研究与应用主要有: h u m b o l d t 大学研制的w u m ( w e bu t i l i z a t i o nm i n e o 四,是一序列模式挖掘工 具。主要目标是分析w e b 站点用户的浏览行为,它最适合于从任何类型的日 志文件中发现序列模式; w e b w m c h e 一4 ) 提出了基于w e b 日志挖掘的个性化服务,用户的每一个页面 请求都要经过w e b w a t c h e r 的代理服务器。代理服务器基于用户的兴趣、收 集的网页的位置和相关性,引导用户沿着合适的路径浏览 7 山东大学硕士学位论文 m i n g - s y a nc h e n i t 等人提出浏览路径挖掘,引入了最大向前引用的概念,用 来对w e b 站点日志进行分析浏览路径是指用户依时间顺序访问的站点页面 构成的序列。 w e b m i n e r 系统i s 提供了对w e b 日志进行挖掘的框架,并能够对用户访问的 文件之间的关系进行分析 j i a i l p e i 等人在【6 】中提出了简明的高度压缩的w a p - t r e e 结构,基于该结构的 挖掘算法简化了用户浏览路径模式的产生过程 华盛顿大学的研究人员致力于自适应网站的系统优化,他们所设计的系统从 w e b 站点日志中提取频繁出现的访问摸式,据此对网站的结构进行调整,从 而提高网站对大多数用户的服务性能。 国内的w e b 使用挖掘研究,主要侧重于理论研究 东南大学提出了一种新颖的m b p 算法m ,利用关联规则挖掘发现的频繁项目集 以加快速度,能找出所有满足阈值约束的频繁浏览路径。 在文献 8 v p 提出了一种新的w e b 的序列模式,访问序列模式,并提出了识别 最大向前访问路径和发现频繁访问路径的算法 在文献 9 l q b 提出了一种智能w e b 预取技术,用来加快用户浏览w e b 页面时获 4 取页面的速度。 上海交通大学提出了一种w e b h 志预处理阶段的f r a m e 页而过滤算法d o 。 中科院提出t k - p a t h s 路径聚类方法,根据用户访问兴趣对用户集进行划分 【1 1 】 西安交通大学在w e b 挖掘研究方面做了多项工作 1 2 1 1 3 1 4 1 1 3 论文工作介绍 本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应w e b 站 点的应用上,将数据挖掘技术、数据库技术与w e b 技术相结合,在分析网站逻 辑结构的基础上,通过对用户访问模式的数据挖掘对己存在的w e b 站点的结 构及站点内的页面进行调整和改善,使其具有自适应能力和优化能力。使各类信 息和服务以更有效的方式提供给用户首先分析进行w e b 日志挖掘的数据基础 及在进行挖掘前需要的数据准各工作,包括数据清洗、用户识别、会话识别等数 据预处理过程。其次,提出一种基于w e b 拓扑结构( 图结构) 挖掘用户访问模 式的方法,区别于常用的基于树形结构的w e b 路径分析技术,在候选集的生成 山东大学硕士学位论文 和剪除过程中减少了候选集的数量,提高了发现模式的精确性和效率,并且避免 了“交易变质”【3 8 】的问题同时还考虑到增量日志挖掘技术的问题利用w e b 日志挖掘获得的规则和模式对已存在的w e b 站点的结构及站点内的页面进行调 整和改善。包括链接位置的变动,增j e i 删除页面问的链接等,运用页面聚类的 结果可方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面等,从而 实现站点组织结构的优化 1 4 论文的组织 第一章概述:简单介绍了本文的课题鹜景、研究现状,以及论文的主要工作。 第二章数据挖掘和w e b 数据挖掘:本章概括的讲述了数据挖掘和w e b 数据挖 掘的基本知识 第三章日志挖掘的数据预处理:讨论了w e b 数掘挖掘的数据源及预处理的步 骤,为下一步的模式挖掘打好基础 第四章用户访问模式挖掘:采用一种基于w e b 拓扑结构( 图结构) 挖掘用户访 问模式的方法,在候选集的生成和剪除过程中减少了候选集的数量,提 高了发现模式的精确性和效率,并且避免了“交易变质”【3 s 的问题。 同时还考虑到增量日志挖掘技术的问题。 第五章挖掘结果的应用:利用w e b 日志挖掘获得的规则和模式对己存在的w e b 站点的结构及站点内的页面进行调整和改善,同时给出了自适应站点的 体系结构 第六章总结:对论文的工作进行总结,并给出进一步的工作计划。 9 山东大学硕士学位论文 第二章数据挖掘和w e b 数据挖掘概述 2 1 数据挖掘概述 2 1 1 数据挖掘的定义 数据挖掘首先是在数据库领域发展起来的,称为数据库中知识发现 ( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ,简称k d d ) i s l 随着大量的大规模的数据库 迅速不断的增长,数据的丰富带来了对强有力的数据分析工具的需求。如果没有 强有力的工具,数据库中蕴涵的丰富知识,就得不到充分的发掘和利用,从而造 成了信息的浪费,由此也会产生大量的数据垃圾从人工智能应用来看,专家系 统的研究虽然取得了一定进展,但是,仍依赖用户或专家人工的将知识输入知识 库,容易造成偏差和错误,并耗时、费用高。因此,有必要考虑从数据库中自动 发掘新的知识这些都需要新的数据处理技术,k d d 便应运而生k d d 研究的内容 是,能自动地去处理数据库中大量的原始数据,从中挖掘出潜在的可能关系模式 【1 7 。但是由于数量太大。因此想搜索到有用模式,必须借用人工智能技术,特 别是来自机器学习领域的方法。 数据挖掘这一术语出现于1 9 8 9 年,其定义几经变动。本文中引用u f a y y a d l j 6 】 等对数掘挖掘的定义:从数据集中识别出有效的,新颖的,潜在有用的,并且最 终可以理解的模式的非平凡的过程。通俗地讲。数据挖掘是在一些事实或观察数 据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库,也可以是 文件系统或其他任何组织在一起的数据集合。 2 1 2 数据挖掘的过程 正如定义所说,数据挖掘实际上是一个从数据库中发现知识的过程。整个知 识挖掘( k d d ) 过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的个主要步 骤。数掘挖掘包含数据收集、数据预处理、模式提取和模式解释与评估,该过程 可用图1 来表示数据挖掘可以描述为这4 个阶段的反复过程。下面具体说明这4 个阶段: 1 0 山东大学硕士学位论文 评估解释 图l敷据挖掘过程 ( 1 ) 数据收集:这个阶段的目的是确定任务的操作对象,即目标数据。它是根 据用户的需要从原始数据库中抽取的一组数据,缩小了处理范围。提高数据挖掘 的质量。 ( 2 ) 数据预处理:就是对数据收集产生的数据进行再加工,检查数掘的完整 性及数掘的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方 法进行填补。 ( 3 ) 数据挖掘( 模式提取) :此过程利用数据挖掘算法,对预处理后的数掘进行 挖掘,提取出用户所需要的知识。数据挖掘的方法有很多种,特定的问题要用特 定的挖掘技术来求解。根据数据挖掘的任务、数据的类型和挖掘所提取的模式特 点等选择相应的数据挖掘算法 ( 4 ) 模式解释与评估:为了使数据挖掘得到的模式容易被用户理解和接受,通 常要用文档、图表和可视化等易于被人接受的技术将它直观的表达出来这一步 骤的任务不仅是把结果表达出来,还要对信息进行过滤处理。如果不能令决策者 满意,需要重复以上数据挖掘的过程验证所得知识与已有可信知识,用正确的 知识指导行为 2 2w e b 数据挖掘概述 2 2 1w e b 数据挖掘的定义 w e b 数据挖掘是一项综合技术,涉及w e b 、数据挖掘、信息学、统计学等多 个领域a 不同研究者从自身的领域出发,对w e b 挖掘的含义有着不同的理解。【1 8 】 将w c b 挖掘定义为:针对包括w e b 页面内容、页面之间的结构、用户访问信息、 山东大学硕士学位论文 电子商务信息等在内的各种w e b 数据,应用数据挖掘方法以发现有用垂勺知识来帮 助人们从万维网( w w w ) 中提取知识,改进站点设计,更好地开展电子商务 我们这里采用一个更一般的定义【3 9 】:w e b 数据挖掘是指从与w w w 相关的资源 和行为中抽取感兴趣的、有用的模式和隐含信息 2 2 2w e b 数据挖掘的分类 w e b 数据挖掘建立在数据挖掘理论的基础之上,是针对w e b 页面内容、站点 拓扑结丰白、用户访闯信息、用户注册信息以及电子商务交易信息等在内的各种数 据,应用数据挖掘方法以发现有用知识的过程w e b 上的信息不同于数据库中的 数据。数掘库中有规范的数掘结构,而w e b 上包括文本、图片、v i d e o 等多种信 息,它们是半结构化的。w e b 信息的多样性决定t w c b 挖掘任务的多样性,w e b 数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类,如图2 所示: 图2w e b 数据挖掘分类 ( 1 ) w e b 内容挖掘 w e b g j 容挖掘是指从w e b 文档内容或其描述中发现有用信息的过程有两种 w e b l 勾容挖掘方法:一种是直接挖掘w e b 文档内容当前的研究集中在对结构化 文档、超文本及半结构化文档的信息检索方面,一般局限于己知的文档组,用定 制的包装器将文档内容映射为内部表示另一种是在其他工具搜索的基础上进行 挖掘。主要是对搜索引擎的查询结果进行深层次的加工以得到更精确和有用者 信息 对文档进行有效的信息提取的主要障碍是缺少元数据,以及一种描述、操纵 和交换数掘的标准方式。可扩展标记语言( x 札) 的提出,可望解决这个问题。 ( 2 ) w e b 结构挖掘 1 2 山东大学硕士学位论文 w e b 结构挖掘是指从w e b 结构中发现潜在的链接模式的过程由于文档之间 存在着超链接,w w w - 可以通过这种超链接揭示出文档内容之外的一些有价值的 信息例如指向一个页面的超链接数目就表明了该文档受欢迎的程度,而其包含 的超链接数目就表明该文档主题的丰富程度结构挖掘的功能是通过发现w c b 页面的结构模式。找到权威页面,为用户提供与请求相关度较大的w e b 页面,提 高搜索引擎的精度 ( 3 ) w e b 同志挖掘 w e b 日志挖掘也称w e b 使用挖掘,是指从w e b 使用数据中自动抽取用户访问 模式的过程。w e b 系统作为目前i n t e r n e t 的主要信息发布渠道,w e b 站点的服务质 量成为衡量站点成功的关键因素,包括站点设计,w e b 服务器设计和方便用户浏 览等。因此有必要分析和掌握用户在浏览站点时的行为模式。w e b b 志挖掘的主 要目标是从w e b 的访问记录中抽取感兴趣的模式【嘲w w w 中的每个服务器 都保留了访问日志( w e ba c c e s s l o g ,简称w a l ) ,记录了用户访问站点时的相关 信息每当站点被访问一次,w a l 就在日志数据库中追加相应的记录。如果将 w a l 视为关系表,利用数据挖掘技术,可以发现更多有价值的信息。这些信息 中隐含着用户对特定内容的兴趣度,对w e b 站点管理员来说,分析这些数据,掌 握用户在浏览站点时的行为,可以有助于改善w e b 站点的结构以及页面间的超链 接结构,合理的设置广告,或者为用户提供个性化的服务,进行个人信息的定制 和网页预测推荐等,以提高站点的服务质量 本文主要研究的是w e b e l 志挖掘,即w e b 使用挖掘。由于内容数据和结构数 据都是以设计者为中心的。只有使用数据是直接面对用户的,因而在分析用户需 求时,一般都从使用数据着手,这遵守了一个以使用者为中心的原则。 在传统的k d d 中包括如下几个主要过程 3 9 】: 1 ) 了解领域,建立商业闯题, 2 ) 建立数据库, 3 ) 数据预处理, 4 ) 数据挖掘, 5 ) 解释并评价结果, 6 ) 应用知识。 在对w e b 日志数据进行知识发现时,也应遵循与之类似的步骤,但又要体现 出其特殊性,其主要步骤如下: 山东大学硕士学位论文 1 ) 了解w e b 的相关技术,数据格式,模型,数据源等, 2 ) 为应用目的选择数据( 这里主要指使用数据) ,并分析数据, 3 ) 对使用数据的预处理, 4 ) 数据挖掘, 5 ) 访问模式分析及评价, 6 ) 应用到网站实践 2 2 3w e b 数据挖掘的应用领域 我们主要讨论w e b j 志挖掘的应用,从w e b 使用数据中挖掘出的访问模式可 以应用到广阔的领域,以下介绍几种主要的应用 ( 1 ) 个性化服务 根据网站用户的访问情况,为用户提供个性化信息服务,这是许多互联网应 用,尤其是互联网信息服务或电子商务( 网站) 所追求的目标。根据用户的访问行 为和档案向使用者进行动态的推荐,对许多应用都有很大的吸引力w e b 日志挖 掘是一个能够出色地完成这个目标的方式。 例如 1 7 :s i t e h e l p e r 可以通过分析每个用户的网页访问情况,了解用户的 爱好,并从用户浏览时闻较长的网页中抽取出相应关键字,汇总后给用户,获锝 反馈后,再向用户推荐网站中其他类似或相关网页又如:w c b w a t c h c r “跟踪” 用户洌览网页过程,识别用户可能感兴趣的链接,w e b w a l e h e r 根据用户本人和 其他类似用户的浏览情况,对每个新网页进行评估,以帮助用户能够及时地浏览 自己感兴趣的网页 ( 2 ) 系统改良 系统服务的性能和质量对于用户是否满意网站的信息服务等至关重要通过 w e b 日志挖掘可以了解网络通信行为,从而了解诸如网络缓冲,网络传播,负载 平衡,数据分布等情况此外,安全性对于保证网络的服务也是必不可少的一部 分,尤其在电子商务以指数级增长的今天w e b 日志挖掘可以帮助进行入侵检测 等网络安全工作 ( 3 ) 完善网站设计 一个网站的内容和结构决定了它的吸引度,对于许多网络应用来说这是非常 重要的,w c b 日志挖掘可以提供用户访问行为的详细反馈信息,从而能够为网站 山东大学硕士学位论文 设计者改进网站的设计提供决策依据w e b e 志挖掘可以帮助网站进行有效测 试此外,也可以利用w e b 了志挖掘的结果来探讨网站结构的改进问题 ( 4 ) 商业智钍m 有关用户访问网站的行为模式,对于电子商务中的市场人员来说是非常重要 的,通过定义w e b 使用日志的超维数据立方,将w e b 使用数据与电子商务应用数 据有机地结合在一起。这样就可以利用数据挖掘方法与技术来为客户关系管理中 的四个重要阶段( 吸引顾客,保留顾客。交叉销售,顾客离开) 提供决策支持。例 如:w e b l o g m i n e r 可将w e b 日志数据转换为超维数据立方的形式以便能够进行 o l a p 分析处理和数掘挖掘工作。在w e b l o g m i n e r 系统中还使用了关联规则,分 类和序列模式分析等数据挖掘方法,得到了电子商务交易行为序列、特征和交易 预期的分析 山东大学硕士学位论文 第三章w e b 日志挖掘的数据准备 上一章我们提到,w e b 数据挖掘有三类,其中w e b 日志挖掘是通过处理 w e b 使用数据,以发现用户的访问模式,理解用户的行为用户访问模式挖掘 的过程就是通过数据挖掘技术从w e b 使用数据中自动抽取访问模式的过程我 们将w e b 日志挖掘过程划分为三个阶段,即数据准备阶段、用户访问模式挖掘 算法实施阶段和模式应用阶段( 站点调整阶段) 本章详细讨论w e b 日志挖掘的第一个阶段。即数据准备阶段这个阶段又 分为w e b 数据源和数据预处理两个过程本章最后还描述了数据预处理过程的 实验结果。 3 1w e b 数据源 数掘挖掘中一个关键的步骤是为数掘挖掘收集和创建合适的目标数据集合。 w e b 上的信息异常丰富,但是并不能直接作为w e b 数据挖掘的对象。这就需要对 w e b 信息抽象出合适的数据模型 在w e b 日志挖掘中,w e b 使用数据可以从服务器端、用户端、代理服务器端 或者是应用所需的数据库中进行采集。 3 1 1w e b 服务器端数据 w e b 服务器端的数据主要从w e b 日志文件和网络监视器中获得目前的w e b 日志挖掘的数据源主要是w e b 服务器日志文件,它记录了用户访问站点的数据, 每当站点上的页面被访问一次,w e b 服务器就在日志中增加一条相应的记录。服 务器上的日志不仅详细记录了站点访问者的浏览行为,而且汇集了访问同一站点 的多个访问者的行为。通常应用于w e b 服务器中的日志文件格式很多,常用的有 n c s a 的普通日志格式c l f ( c o m m o n l o g f o r m a t ) 、n c s a 的扩展日志通用格式 e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) 和w 3 c 的扩展日志文件e x l f ( e x t e n d e d c o m m o n l o g f i l e f o r m a t ) 目前w e b 服务器日志一般采用e c l f 日志模式它的 大体结构如表l : 1 6 山东大学硕士学位论文 表1h b 服务器日志的结构 字段名称名称意义描述 日期 客户i p 地址 用户名 服务器 请求 状态 引用 字节数 用户代理 请求的日期时间信息 访问服务器的远程客户i p 地址 访问服务器的用户名 服务器名称、i p 地址及端口号 被请求文件的u r l 及获取的方法 返回到客户端的h t t p 状态码 本页的上一页 传送和接收的字节数 客户机上使用的浏览器 下面给出实际环境中的一个服务器日志文件的部分内容( 两条记录) 样l2 0 0 4 - 0 9 - 2 60 0 :0 0 :1 02 1 9 2 3 1 1 6 1 1 5 5 g e t d o w n l o a d o 弼t b g s d o e 8 0 2 0 2 9 6 6 3 3 u s e r - a g e n t :+ m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 5 5 ;+ w i n d o w s + n t + 5 0 ) 4 0 6 6 5 1 群22 0 0 4 - 0 9 - 2 60 0 :0 4 :1 82 1 9 2 3 1 1 6 1 1 5 5g e t y j s c i n d e x a s p 8 0 - 2 1 8 5 9 1 7 1 6 2 m o z i l l a 9 4 o + 1 0 c o m p a t i b l e ;+ m s i e + 5 0 1 ;+ w m d o w s + n t + 5 0 ) 2 0 01 3 4 6 其中各字段的具体含义如下: ( 1 ) i p 地址( t pa d d r e s s ) m 地址是i 向w e b 服务器发出请求的机器的i n t e r a c t 地址,这个地址可能是用户 机器的地址。由于客户端与w e b 服务器之间代理服务器的存在,该字段记录的也 可能是客户端经过的最后代理服务器的球地址,而不是最初发出请求的客户端的 i p 地址 ( 2 ) 文件访问时刻( d a c e ) 文件访问时刻表示服务器响应客户端请求,并向客户端返回被请求的资源的 时刻。在上面的例子中第一条记录为2 0 0 4 0 9 2 60 0 :0 0 :1 0 ( 3 ) 请求( r e q u e s t ) 指来自客户端的h 1 - r p 请求到达后为这个请求建立的第一次连接。如果被请 求的文件存在的话,这个域将确定这个被请求文件的u r l ,以及获取这个文件的 山东大学硕士学位论文 方法。在上面的例子中,请求豹方式是g e t g e t 方式是从w e b 服务器上得到一个 对象( 例子中第二条记录是站点蠹g y j s o i n d e x a s p 文件) 其他的请求方式包括 p o s t h e a d e r ,0 p t i o n s ,p u t 等。通常只是使用g e t 和p o s t 请求方式,其中p o s t 方式用束将附加的信息体存放在被请求的资源中,主要用于接受h t m l 的f o r m q a 的 内容。 ( 4 ) 状态代码( s t a t u sc o d e ) 状态代码指的是服务器响应浏览器请求的返回代码表示为三位数字状态 代码共分五类,其中第一位数字代表了服务器响应所属的类别。下面是5 种状态 代码含义列表: ( i ) i x x :信息一这类状态代码是信息码。服务器管理者和开发者可以利用这 些信息码提供附加信息。 ( i i ) 2 x x :操作成功一这类状态代码是说明请求己经被成功接受并响应。例 如,在上面的例子中,状态代码2 0 0 表示资源请求被完全成功的接受 ( i i i ) 3 x x :重定向一这类状态代码指示为完成客户端请求,服务器必须采取 进一步的动作例如,状态代码3 0 4 表示如果浏览器发请求一已查看过的资源, 而该资源自最后次加载后未被更新过,则服务器返回该代码,并不向浏览器返 回资源的实体内容 ( i v ) 4 x x :客户端错误一这类状态代码表示浏览器发出的是错误的请求。最常 见的错误是在未授权的情况下试图访问特殊文件或访问的文件不存在一个无效 的链接也被认为是一个客户错误,比如错误码为4 0 4 的错误。 ( v ) 5 x x :服务端错误一这类状态代码表明服务器因为本身或者网络问题使 得请求不能被响应 ( 5 ) 引用( r e f e r r e r ) 引用域是一个完整的u r l ,通常保存着在用户连接到站点之前,最后访问的 页面的u r l 如果用户在浏览器地址栏中键入u r l 或者将浏览器设置成启动时自动 加载这个页面,对该引用字段为空。该字段可以帮助服务器生成历史链接记录集, 用来进行日志管理,缓冲区优化及错误请求跟踪分析等。 ( 6 ) 传输的字节数( b y t e s ) 这个字段保存响应请求而传输的字节总数,它的大小应该和文件的大小完全 相等。传输内容不包括h t t p 头和c o o l d e ,上例中第一条记录表示服务器向客户端 山东大学硕士学位论文 传输了6 5 1 个字节 ( 7 ) 用户代理( u s e r - a g e n t ) 用户代理字段记录了产生请求的用户代理的信息,包括产品代号、用户浏览 器和用户操作系统的类型。如上例记录在代理日志中的 m o z i l l a 4 0 ( c o m p a t i b l e ;m s i e 5 o l ;w i n d o w s n t ) 表示用户操作系统为w i n d o w s n t , 所用浏览器类型为m si e 5 0 1 3 1 2 用户端数据 用户端数据是另一个潜在的数据源。客户端记录了单个用户在其整个浏览过 程中的行为数据,用户的浏览过程一般涉及多个站点,因此客户端收集的是单用 户一多站点的信息。数据收集可以使用诸如j a v a s e r i p t 或钧a v aa p p l e t 这样的远程 代理或经过修改加强了数据收集能力的浏览嚣( 如m o s a i c 或m o z i l l a ) 来实现。用户 端的数据收集特别需要用户的合作,因为直接从用户端取得数据需要考虑用户的 隐私和占用用户的机器和网络资源。从用户端收集数据最大的优点是可以直接取 得用户的各种真实信息,这些信息的完整性和真实性都要好于服务器上的例如 目前服务器上的任何方法都难以取得用户的点击信息,特别是点击后退和刷新按 钮 3 1 3 代理服务器端数据 代理服务器作为客户浏览器和w e b 服务器中间的缓存而存在,它接受客户端 的请求,并为客户从服务器端取回相应的页面,最后将页面返回给客户端。从代 理上可以得到从多用户到多w e b 服务器的访问记录。但是代理服务器的缓冲对其 收集数据的准确性的影晌程度与被访问的站点是否为动态网站有很大关系。对予 动态网站,如电子商务网站,用户的请求就要至u w e b 服务器上取得所需数据,影 响并不大。如果页面是静态的,那么用户通过代理服务器访问该页面时,就不需 要从w e b 服务器上取得数据,可以将该静态页面直接发给用户,从而影响了数据 的准确性 3 1 4 本文所采用的数据源 前面介绍的三种数据都可以用来作为w e b 日志挖掘的数据来源,且各具优缺 点代理服务器端收集数据便于提供多用户一多站点的信息,但是本文主要考虑 1 9 山东大学硕士学位论文 的是单站点一多用户的情况,所以代理服务器端数据并不适合作为我们的数据 源。用户端数据是从用户浏览行为发生处进行收集,包含的信息较全面,也避免 了缓冲带来的会话识别的困难。但是,客户端的数据收集涉及用户的隐私的程度 较深,同时,它也需要用户的配合相对而言。从服务器端收集数据就具有收集 简单、通用、全面且涉及隐私的程度小等优点,所以本文主要采用服务器端收集 的数据作为数掘源 3 2 数据预处理 确定好w e b 志挖掘的数据源,其准备阶段的第二个过程是对原始数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 魅力新疆解说课件
- 高铁铁路授课课件
- 电脑耗材培训知识课件
- 电能仪表工艺知识培训课件
- 电缆附件安装知识培训课件
- 电站电工基础知识培训课件
- 电磁灶用电安全知识培训课件
- 高热惊厥业务学习课件
- 3-4-Dihydroxybenzeneacetic-acid-13C-18O2-生命科学试剂-MCE
- 高校戏曲鉴赏课件
- 2025秋外研新版三起点小学英语四年级上册教学计划
- 2025北师大版(2024)三年级上册数学教学计划
- 2025云南省腾冲市边防办招聘边境专职联防员(10人)笔试参考题库附答案解析
- 中职乐理课教学课件
- 中小会计师所发展困境及对策
- 2025至2030中国微波器件行业市场调研分析及竞争形势与投资发展报告
- 2025-2026学年人教鄂教版(2017)小学科学六年级上册教学计划及进度表
- 心理委员基本知识培训课件
- 2025年12123学法减分考试题库及答案
- 外伤出血急救课件
- 医院感染管理手卫生
评论
0/150
提交评论