(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机科学与技术专业论文)一种web日志数据挖掘系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕上学位论文;一种w e b 日忠数据挖掘系统的设计与实现 一种w e b 日志数据挖掘系统的设计与实现 摘要 随着i n t e m e t 技术的不断发展和应用,w e b 站点产生的信息也随之飞 速增长,如何开发和利用w e b 站点提供的丰富信息资源成为人们普遍关注 的问题。w e b 站点提供的丰富信息资源体现在两个层面:一方面,w e b 站 点自身提供了丰富的信息内容;另一方面,人们对w e b 站点所带来的庞大 的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构 想。如何利用w e b 站点的现有访问信息提高站点的性能和更好地为用户服 务,成为计算机应用领域的热门话题之一。本文以w e b 日志为特征展开研 究,在分析w e b 访问数据结构的基础上,引入w e b 数据挖掘方法,针对计 算机科学与技术学院的w e b 站点,设计并实现了一个特定的分析系统,获 得了一些有价值的分析结论。 w e b 数据挖掘是将数据挖掘方法运用于w e b 数据,提取隐藏其中的、 有用的、新颖的模式或知识发现的过程。其中一个主要分支是w e b 日志挖 掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、 用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了 解w e b 站点的使用情况和使用w e b 站点的用户行为模式,从而对w e b 站点 优化组织,更好地为用户提供服务,提高w e b 站点的访问量和性能。 北京邮电大学硕士学位论文:一种w e b 日志数据挖掘系统的设计与实现 基于以上背景介绍,本文以学院网站w r e b 服务器日志为研究素材,给 出了一个w e b 日志数据挖掘系统的解决方案。通过本系统,不仅可以获得 学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而 且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类 算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度 出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度 量标准和字典向量存储,保证了聚类的准确度和存储效率。 本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了w e b 日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相 关的算法。最后结合本课题的算法,给出了系统的详细设计。并在n e t 平台上实现了本系统。 关键词:w e b 日志挖掘,模式识别,频繁遍历模式,聚类分析 北京邮电大学硕士学位论文:一种w e b 日志数据挖掘系统的设计与实现 o n ed e s i g na n di n 口l e m e n t i o no f 吧bl o gd a am i n i n gs y s t e m a bs t r a c t a st h ei n t e r n e tt e c h n o l o g yi sc o n t i n u o u s l yd e v e l o p i n ga n da p p l i e d ,t h e w e bs i t ei n f o r m a t i o nw i l lb eg r o w i n ga tar a p i ds p e e d h o wt od e v e l o pa n d m a k eg o o du s eo ft h er i c hi n f o r m a t i o nr e s o u r c e sp r o v i d e db yw e bs i t e b e c o m e sa ni s s u eo fg e n e r a lc o n c e r n 。t h a tt h ew e bs i t ep r o v i d e st h er i c h i n f o r m a t i o nr e s o u r c e sm a i n l yi n c l u d e st w oa s p e c t s :o n ei st h er i c hc o n t e n t so f w e bs i t eb yi t s e l fa n dt h eo t h e ri st h a tp e o p l eo nt h ew e bs i t eb e c o m em o r e c o n c e i v i n gw i t ht h ev o l u m ed a t aa c c e s sr e s o u r c e so fw e bs i t e ,c o m p l e xd a t a s t r u c t u r ea n du s e rb e h a v i o rp u r p o s e t h e r e f o r eh o wt ou s et h ee x i s t i n ga c c e s s i n f o r m a t i o nt oi m p r o v et h ew e bs i t ep e r f o r m a n c ea n ds e r v e ru s e r sb e t t e ri s o n eo ft h eh o tt o p i c si nc o m p u t e ra p p l i c a t i o nf i e l d t h i sp a p e rs t u d i e st h e c h a r a c t e r i s t i c so fw e bl o go nt h eb a s i so fa n a l y i n gt h ew e ba c c e s sd a t a s t r u c t u r ea n di m p o r t st h em e t h o d so fw e bd a t am i n i n g t h e nw ed e s i g na 北京邮电大学硕士学位论文:一种w e b 日志数据挖掘系统的设计与实现 c e r t a i na n y a l y s i ss y s t e mf o ro u rc o m p u t e rs c i e n c ea n dt e c h n o l o g ys c h o o lw e b s i t ea n do b t a i ns o m ev a l u a b l ea n a l y s i sc o n c l u s i o n s w e bd a t am i n i n ga p p l i e st h ed a t am i n i n gm e t h o d st ow e bd a t ae x t r a c t i n g u s e f u la n di n n o v a t i v ep a t t e r n sf r o mt h eh i d i n gi n f o r m a t i o no rap r o c e s so f k n o w l e d g ed i s c o v e r yi nd a t a b a s e o n eo ft h em a i nb r a n di sw e bl o gm i n i n g , w h i c hi n v o l v e sm i n i n gt h ef r e q u e n c yt r a v e r s a l sp a t t e r n ,u s e ra c c e s sp a t t e r n s a n du s e rg r o u p si n f o r m a t i o nf r o mt h eh u g eo fw e ba c c e s sh i s t o r i c a lr e c o r d st o m a k ep e o p l ef u l l yu n d e r s t a n dt h ew e bs i t eu s ea n du s e ra c c e s sp a t t e r n s , t h e r e b yo p t i m i z i n gt h ew e b s i t et o p o l o g ya n dp r o v i d i n gb e t t e rs e r v i c e sf o r u s e r st oi m p r o v et h ew e bs i t et r a f f i ca n dp e r f o r m a n c e b a s e do nt h ea b o v eb a c k g r o u n d ,t h i sp a p e rp u t sf o r w a r do n es o l u t i o nt o t h ew e bd a t am i n i n gs y s t e mw i t ht h es c h o o l sw e b s i t es e r v e rl o ga sr e s e a r c h m a t e r i a l s w i t hs y s t e mw eo b t a i nn o to n l yt h eb a s i cs t a t i s t i c a li n f o r m a t i o no f s c h o o lw e bs i t e ,s u c ha st h eu s eo fi ta n ds e r v e rr e s p o n s e ,b u ta l s ot h eu s e r a c c e s sp a t t e r n sa n dt h eu s e rc l u s t e r i n gi n f o r m a t i o n i nt h ep o i n to fs i m p l i c i t y , e f f i c i e n c ya n dp r a c t i c a b i l i t y , t h ec l u s t e r i n ga l g o r i t h mi si m p r o v e d , w h i c hu s e s s e s s i o na c c e s ss e q u e n c es i m i l a r i t ym e t r i c sa sam e a s u r e m e n ta n dt h e d i c t i o n a r yv e c t o ra st h es t o r a g es t r u c t u r ei ng u a r a n t e eo ft h ea c c u r a c yo f c l u s t e r i n ga n ds t o r a g ee f f i c i e n c y f i r s t ,w ei n t r o d u c et h eg e n e r a t i n gb a c k g r o u n da n ds t u d yo nt h es t a t u sa t h o m ea n da b r o a d s e c o n d ,w es u m m a r i z et h ew e bl o gm i n i n gp r o c e s s i n g 北京邮电大学硕士学位论文:一种w e b 日志数据挖掘系统的设计与实现 m o d e la n dt h ep r o c e d u r eo fd a t ap r e p r o c e s s i n gs t a g e s f i n a l l y , w ed i s c u s st h e d e t a i ld e s i g no fs y s t e ma n di m p l e m e n tt h es y s t e mb a s e do n n e tp l a t f o r m w i t ht h ei s s u ea l g o r i t h m s k e yw o r d s :w e bl o gm i n i n g ,p a t t e mr e c o g n i z e ,f r e q u e n c yt r a v e r s a l p a t t e r n s ,c l u s t e r i n ga n a l y s i s 北京邮电大学硕:学位论文:一种w e b 同志数据挖掘系统的设计与实现 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:丝坚宣日期:型堑二i 二三! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:竺璺茎重。日期:! 竺兰二! : 导师签名:j e f 氇 _ 傅 日期:至翌尘二互二_ 垄 第一章绪论 1 1 研究背景 第一章绪论弟一早珀下匕 随着计算机互联网技术的不断发展和应用,w e b 站点已普及到人类的各个生活 角落,金融、远程教育、交通、工业、电子商务、搜索引擎、娱乐、科技等领域无处 不在,无时不用。w e b 站点在带给人们丰富信息和极大便利的同时,如何开发和利 用访问w e b 站点所产生的丰富信息资源就成了人们普遍关注的问题。加之人们对 w e b 站点的要求越来越高、w e b 庞大的数据资源、复杂的数据结构和使用者的行为 目的不同,利用w e b 站点中的现有信息提高网站的性能和更好地为客户服务,成为 计算机网络应用领域研究的热门话题之一。 分析以w e b 日志为特征,结构浩繁的w e b 访问数据,依赖的主要是数据挖掘技 术。w 曲日志记录了用户的一系列点击流信息,而对于用户的一次请求相应地在服 务器上记录多条信息且各记录之间并无直接的关联关系,因此分析w e ;b 日志就需要 依靠数据挖掘技术从w e b 日志中大量的、噪音、随机的点击流数据中提取有用的信 息。数据挖掘( d a t a m i n i n g ,d m ) 是从大量的、不安全的、噪音的、模糊的、随机 的实际应用数据中,抽取隐含在其中的、用户不知道的、但又是潜在有用的信息和知 识的过程。从更广义的角度讲,数据挖掘就是从一些事实或者观察数据集合中寻找模 式的决策支持过程,发现的知识可被用于信息管理、查询优化、决策支持、过程控制 等领域,因此数据挖掘是数据库研究中一个很有应用价值的新领域,它又是- - ! 7 交叉 学科,融合了数据库技术、人工智能、机器学习、神经网络、统计学等多个领域的理 论和技术。 w e b 挖掘是将数据挖掘方法运用于w e b 数据,提取隐藏其中的、有用的、新颖 的模式或知识发现的过程l l j 。w e b 日志挖掘是w e b 挖掘的一个主要分支,它旨在从 大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有 相似行为的用户群等信息,使人们能够充分了解w e b 站点的使用情况和使用w e b 站 点的用户行为模式,从而对w c b 站点优化组织和更好地为用户提供服务,提高w e b 站点的访问量和性能。 第一章绪论 1 2 国内外研究现状 目前,国内外基于w e b 日志挖掘的研究工作大致可以分为3 类瞄1 。 ( 1 ) 以分析w e b 站点性能为目标:主要从统计学的角度,对日志数据项进行简 单的统计,得到用户频繁访问页、单位时间访问数、访问数量随时间分布图等。绝大 多数商用及免费的w e b 日志分析工具均属此类。 ( 2 ) 以理解用户意图为目标:c h e r tms 等提出的路径遍历模式( p a t ht r a v e r s a l p a t t e r n ) 的发现算法,以及z a i a n e 等使用的数据立方体方法,便是此类的典型代表。 ( 3 ) 以改进w e b 站点设计为目标:通过挖掘用户的频繁访问路径和用户聚类, 重构站点的页面之间的链接关系,以更适应用户的访问习惯,同时为用户提供个性化 的信息服务。 c h e nms 【3 j 等人首先将数据挖掘技术应用于w e b 服务器日志挖掘,发现用户的 浏览模式。提出最大向前引用( m a x i m a lf o r w a r dr e f e r e n c e ,m f r ) 系列的概念。将 用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路径。 b u c h n e rag ,m u l v e n n amd r 4 1 等人首次提出将数据挖掘技术应用于电子商务的 环境下,以发现市场智能。挖掘的对象不仅包括日志、w 曲页面,也包括市场数据, 并且给出了在电子商务环境下挖掘的一个总框架。 一 m y r as p i l i o p o u l o u t 5 j 等人提出了一套类似s q l 的挖掘语言m i n t ,允许用户人为 指定感兴趣的频繁路径的特征,然后根据用户的要求挖掘满足条件的结果。 z a i a n e l 6 j 等人将w e b 服务器日志保存为数据立方体( d a t ac u b e ) ,然后在其上 执行在线数据分析处理( o l a p ) 的各种操作,如提升、钻取等,用于发现用户的访 问模式。 s h a l l a b p 等人提出的日志挖掘系统依赖于客户端的数据收集,客户端的代理为服 务器返回用户请求的页面及时间等数据。 国内的学者在w e b 日志挖掘方面也开展了大量的研究工作。西安交通大学沈均 毅教授( 8 l 等人提出在日志挖掘中使用关联矩阵模型:以u r l 为列,u s e r i d 为行,访 问次数为矩阵元素值,建立u r l - u s e r l d 关联矩阵,对矩阵的行向量和列向量分别处 理得到相似页面群和相似用户群。并提出了w e b 页面和用户群体的模糊聚类算法; 中国科技大学王熙法教授等人提出基于神经网络的w e b 用户行为聚类分析方法,即 首先对w 曲服务器的日志进行分析,再进行会话分析,从会话向量中找出频繁数据 集,进行规一化处理后,生成模式向量,采用s o f m 模型进行聚类,最后生成用户 2 第一章绪论 聚类;西安交通大学的陆丽娜教授等人,采用基于事务的方法,研究w e b 日志挖掘 预处理与用户访问序列模式方法,提出了一种基于扩展有向树模型进行用户浏览模式 识别的w e b 日志挖掘方法;华中理工大学胡和平教授等人提出了应用多维立方体挖 掘w e b 日志的多维关联规则的方法。 1 3 本文工作与组织形式 w e b 日志挖掘的处理模型主要 4 1 由数据预处理、模式识别( 数据挖掘算法实施) 、 模式分析三个部分组成。 在本文的研究中,介绍了国内与国外w e b 日志挖掘方向的学术成果和应用成果, 以w e b 日志挖掘技术为出发点,结合实际的应用对w e b 日志挖掘的数据预处理和模 式识别进行了研究分析,并以北京邮电大学计算机科学与技术学院w e b 服务器日志 为研究素材,实现了一个w e b 日志数据挖掘系统。主要工作如下:。 ( 1 ) 研究了w e b 日志的格式、特点以及对w e b 日志进行数据预处理的过程, 探讨了日志海量数据处理中出现的问题和采用后台日志数据自动采样的可行性。 ( 2 ) 统计分析w e b 站点性能:最受欢迎的页面、页面访问的成功失败率、最经 常访问的用户信息、平均上传下载流量等。 ( 3 ) 采用路径遍历算法挖掘用户的频繁访问路径,然后对获得的结构加以分析, 对网站的站点结构提出了建设性的改进意见。,。 ( 4 ) 研究了聚类算法,并对聚类算法提出了一定的改进。利用改进后的算法对 用户进行聚类分析,得出相似用户群。 ( 5 ) 介绍了w e b 日志数据挖掘系统的主要模块的设计与实现。 论文的全文组织形式如下: 第一章:绪论。介绍了w e b 日志挖掘的研究背景、国内外研究现状和本文的工 作。 第二章:w e b 日志挖掘概述。首先介绍了w e b 日志的特点,包括日志的形成、 日志记录数据格式的结构分析说明。然后介绍了w e b 日志挖掘的处理模型,并对处 理模型中的数据预处理各阶段的处理过程进行了详细介绍。 第三章:系统总体结构。介绍了w e b 日志数据挖掘系统的总体情况,包括系统 的设计目标、主要功能、系统的物理结构和系统的软件体系结构。 第四章:系统相关算法的研究。介绍了系统主要相关算法的原理。首先介绍了频 第一章绪论 繁遍历路径的算法原理,包括最大向前引用算法、寻找大引用序列和最大引用序列算 法,然后通过实例对算法进行解释分析。最后介绍了用户聚类的基本算法,并对基本 算法从算法准确度和空间利用率上提出了改进,给出了一种改进的聚类算法。 第五章:系统关键模块的设计与实现。首先介绍了系统关键模块的设计原理与具 体的实现,包括后台采样任务、数据预处理、公共服务模块、模式识别。然后介绍了 系统的实验分析结果。 第六章:总结与展望。对本文的工作进行总结和展望,提出需改进和补充的部分。 4 第二章w e b 日志挖掘概述 第二章w e b 日志挖掘概述 w e b 日志挖掘是w e b 挖掘的一个主要分支,是数据挖掘技术在w e b 日志数据上 的应用。因此本章首先介绍w 曲日志的形成及日志数据的结构分析,再次介绍w e b 日志挖掘的处理模型和数据预处理过程。 2 1 w r e b 日志的特点 2 1 1 w 曲日志的形成 w w w 体系一般都基于浏览器( b r o w a c ) 服务器( s e r v e r ) 模式,其工作方式采 用典型的请求响应方式,主要的处理流程如下p j 。 ( 1 ) 客户端向w e b 服务器或者通过代理发出请求,根据h t t p 协议,请求中包 含了客户端的地址、浏览器的类型、浏览的时间、请求的u r l 等一系列信息。 ( 2 ) w e b 服务器收到请求后,根据请求将客户要求的信息内容直接或者通过代 理返回到客户端。如果出现错误,则报告出错信息。浏览器显示得到的页面,并将其 保存在本地高速缓存中。如果请求响应通过代理,则代理也缓存下传来的页面。 ( 3 ) w e b 服务器同时将访问信息和状态信息等记录到日志文件中。客户每发出 一次w e b 请求,上述流程就重复一次,服务器则在日志文件中增加一条相应的记录。 因此日志文件比较详细地记载了用户的整个浏览过程。 w e b 日志记录用户访问该站点时每一个页面的请求信息。日志记录的格式主要 分为两种:通用日志格式( c o m m o nl o gf o r m a t ,c l f ) 和扩展型日志格式( e x t e n d e d c o m m o n l o gf o r m a t ,e c l f ) 。其主要结构如下表2 - 1 所示: 表2 1w e b 日志记录结构表 5 第二章w e bu 忐挖掘概述 如下是w i n d o w so s 典型的日志记录形式: # s o f t - w a r e :m i c r o s o f ti n t e m e ti n f o r m a t i o ns e r v i c e s5 1 # v e r s i o n :1 o # d a t e :2 0 0 7 1 2 - - 0 50 8 :2 1 :5 1 # f i e l d s : d a t et i m e e - i pc s 1 珞锄锄ec s - m e t h o d c s u r i - s t e ms c , - s t a t 啷 s o - b y t e sc s - b y t e s t i m e t a k e ne s ( u s e r - a g e n t ) c s ( r e f e r e r ) 2 0 0 7 1 2 0 50 8 :2 1 :5 11 2 7 0 0 1 g e t b u p t c s l a b a d m i n h t m2 0 04 2 0 22 5 53 9 0 m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 ;+ s v l ;+ n e t + c l r + 1 1 4 3 2 2 ;+ n e t + c l r + 2 0 5 0 7 2 7 ) 2 1 2 w e b 日志记录数据的结构分析 由表2 1 可知,w e b 日志记录数据结构主要包括:用户的i p 地址( c s 口) 、用 户的登录名( c s u s e r n a m e ) 、时间戳( c s l o g t i m e ) 、方法( c s m e t h o d ,如g e t 、 p o s t 、h e a d ) 、被请求文件的u r l ( u r l ) 、超文本传输协议的版本号( c s v e r s i o n ) 、 协议状态码( c s s t a t u s ,请求的状态、成功或错误码) 、传输字节数( s c b y t e s 和 c s b y t e s ) 、代理( 用户使用的浏览器和操作系统类型) 。只有当请求文件需要认证时, 用户的登录名字段才会有数据,否则一般用“刀表示;时间戳字段,记录用户发出 该请求的时间;方法字段记录用户的请求方法,一般有g e t 、p o s t 、h e a d 三种方 法:g e t 表示从w e b 服务器请求了一个对象,p o s t 表示向服务器发送一个请求, h e a d 只从w 曲服务器获取一个对象的头部信息;u r l 字段记录本地文件系统的一 个页面或者响应请求的可执行文件;版本号字段记录用户的超文本传输协议的版本 6 第二章w e b 日志挖掘概述 号;协议状态码记录对一个请求的响应情况:2 0 0 2 9 9 表示成功,3 0 0 3 9 9 表示页面 重新定向,4 0 0 - 4 9 9 表示处理一个请求时失败了,5 0 0 5 9 9 表示w e b 服务器出错,其 中,最常见的错误是4 0 4 ,表示请求的文件没有找到;传输字节数包括两个字段: s c b y t e s 表示服务器处理请求向用户发送了多少字节,c s b y t e s 表示用户发出请求 向服务器发送了多少字节,即服务器接收的字节数;代理字段记录用户的浏览器和操 作系统软件版本信息。 表2 2w e b 日志记录数据结构分析表 图2 1 是学院网站日志片段信息,它记录了学院w e b 站点在某一段时间内用户 访问站点的信息。 7 第二章w e bh 志挖掘概述 2 2 w e b 日志挖掘的处理模型 w e b 同志挖掘的处理模型主要4 由数据预处理、模式识别( 数据挖掘算法实施) 、 模式分析三个部分组成。如图2 2 所示。 匝尸甲甲 救槲麒处理 j r l 熊茎翌;型l 丽雨翮质砥;而订厦奚;两订辱丽硐 l l 选塞坌堑l 厂百百门厂鬲孤云再n 厅两订e j 巧翮 图2 2w e b 日志挖掘处理模型 ( 1 ) 数据预处理:根据挖掘的目的和挖掘算法的需要,对原始日志文件中的数 据进行提取、分解、合并,最后转化为适合进行数据挖掘的数据格式,并保存到关系 型数据库表或数据仓库中,等待进一步处理。 ( 2 ) 模式识别:运用各种算法对处理后的数据进行挖掘,生成模式。 ( 3 ) 模式分析:进行用户访问模式的分析,从而将有价值的模式提取出来的过 程。 2 3 w r e b 日志数据预处理 第二章w e b 日志挖掘概述 由于本地缓存( 如在i e 中通过b a c k 后退) 或者代理服务器缓存的影响,w e b 服务器不能精确地记录用户的所有请求,直接对其挖掘并不能反映用户的实际浏览行 为,所以w e b 日志挖掘必须对日志文件进行数据预处理。数据预处理包括数据清洗、 用户识别、会话识别、路径补充【m j 等过程,数据预处理的过程不是绝对的、固定的, 视挖掘的目的和数据源的情况而定。 2 3 1 数据清洗 i - b 厘备- 日 ll 碰州厦备1 日止l 上j | l 曼喳i 塑造j 陌瓣霸酾网愿霖网 j r l 羔堕缱皇煎j 南 图2 - 3 数据预处理过程 w e b 日志数据无论是结构性的还是记录性的内容对于分析而言并不都是必要的, 因此在进行数据挖掘前,要对w e b 日志数据进行必要的预处理,这个预处理被称为 数据清洗。数据清洗包括删除无关紧用的数据、合并某些记录、对用户请求页面发生 错误的记录进行适当的处理、。抽取某些记录等等,获得与挖掘任务相关的数据。 当用户请求一个网页时,页面中包含的图片、音频、广告、脚本文件及样式表等 都被自动下载,并记录在日志文件中。在挖掘用户访问模式中,只有用户主动请求的 u r l 对分析挖掘的目的才有用处,故应剔除那些因一个u r l 访问而连带请求的其他 u r l 日志记录。这是数据清洗的主要内容。在数据清洗的过程中有多种处理方法, 如可以检查u r l 的后缀名,去掉后缀名为j p g 、百f 、b m p 、m p 3 、p n g 、c g i 、j s 、c s s 等u r l 访问记录。但在进行网络流量分析时,自动下载的图片、音频等信息又显得 格外重要,所以必要时在删除这些记录之前一定要把相关信息记录保留下来。 根据特定的w e b 日志数据挖掘需求可以定义一个缺省的数据清洗规则来确定要 删除的记录类型,且这个规则可以根据正在分析的网站类型进行动态的修改。例如, 对于主要包含图形的站点,日志中的图形文件可能代表了用户的显示请求,此时就不 能把图形文件访问记录删除。可以根据不同的网站类型,分别建立对应的规则列表, 确定我们要分析的网站类型,根据此网站的规则列表,对日志记录进行数据清洗。 在本文研究过程中,作者以计算机科学与技术学院网站日志为目标进行分析,计 算机科学与技术学院网站主要是提供给学生、家长、教师、专家、领导等文字信息, 9 第二章w e b 日志挖掘概述 图片娱乐信息只是作为美化界面的功能,日志中的图片、音频、视频、脚本等信息, 都与挖掘任务无关,故将包含此类型的后缀名定义到规则库中,删除u r l 记录。分 析用户访问模式,作为挖掘任务的数据源应该是用户请求成功的u r l 记录,因此对 于请求失败的u r l 记录不予考虑。 2 3 2 用户识别 用户识别的目的是为了在日志记录中区分不同的用户。由于缓存、代理服务器( 包 括网吧、局域网等环境) 和防火墙等技术的使用,使得识别用户这一处理变得比较复 杂。 ( 1 ) 不同的用户可以在同一时间内通过一个简单的代理访问w e b 服务器。 ( 2 ) 同一个用户可能在不同的网络设备上访问w e b 服务器。 ( 3 ) 同一个用户可能在相同机器上使用不同的浏览器访问同一w e b 服务器,而 当不同的用户使用同一网络设备浏览某一站点时也会造成混淆。 目前,用户识别的常用方法有口地址a g e n t 、注册、使用c o o k i e s 等,简介如下: m 地址a g e n t :假定每一个p 代理地址对应一个用户。此方法不需要特殊的附 加技术,容易实施,但不能保证用户与p 代理一一对应。 注册:用户在网站上注册并且登录,可以跟踪一个用户的访问情况,但并不是所 有用户都愿意注册,且每次访问都愿意登录。 使用c o o k i e s :在客户端写入一个标志,可以跟踪重复访问,但涉及到用户隐私。 一般最常用的w e b 日志挖掘工具使用的技术是基于日志站点的方法,采用以下 一些启发规则用于用户识别【l l 】: ( 1 ) i p 优先考虑,即i p 不同代表不同的用户。 ( 2 ) i p 相同时,考虑浏览器和操作系统类型,默认不同的浏览器和操作系统为 不同的用户。 ( 3 ) 将访问日志、引用日志和站点拓扑结构结合,构造每一位用户的浏览路径。 如果用户请求的页面同已浏览过的页面之间没有超级链接关系,则认为是具有相同口 地址的多个用户。 但是此规则并不能在任何情况下都能准确地识别用户,具有相同l p 地址的用户 若在同样类型的机器上使用同种浏览器,并且请求的页面集合相同,那么很容易混淆: 一个用户使用两种类型的浏览器,或者没有使用站点的链接结构直接输入u r l ,则 容易被认为是多个用户【l 翻。而计算机科学与技术学院网站的用户群主要是学生、教师、 学生家长、学科专家、领导等,访问的主要目的是获取学院本科和研究生培养的信息 1 0 第二章w e b 日志挖掘概述 为主,据不完全统计,9 0 以上的访问用户来自通过校园网或者公网。不管校园网还 是公网,在访问的一段连续时间内的i p 是固定的,所以可以认为某个时间段内一个 i p 对应一个用户,而只有少数人通过代理服务器访问i n t e r n e t ,因此本文采用以用户 访问口标志来区分用户,假定一个口对应一个用户。 2 3 3 会话识别 目前,有两种会话的定义: ( 1 ) 时间段定义:一个从用户进入站点时刻起至他离开时刻止所请求的一系列 链接的集合【1 3 】。 ( 2 ) 访问内容定义:一个用户在站点中关于某一个话题所请求的一系列链接的 集合1 3 1 。 第( 2 ) 种定义是将第( 1 ) 种定义按照话题进行细化。为了发现用户的访问行为 和浏览兴趣,本文采用第( 2 ) 种定义法。 会话识别的常用方法有三种: 4 一一 一是c o o l e y 等人提出了一种事务识别会话的方法,称为序列长度法【1 0 1 。经过研 究,用户浏览页面的模式一般是通过辅助页面到达内容页面,而且用户在内容页面停 留的时间往往要比辅助页面的长。这样,如果已知内容和辅助页面的集合,在顺序读 取日志记录时,一旦遇到内容页面就找到了会话的边界。但在多数情况下,用户浏览 一个站点不可能只对一个内容页面感兴趣,因此该方法形成的会话必然与真实会话有 一定的差距。 二是最大向前序列的方法,该方法是根据用户访问行为划分会话,一旦用户回退 浏览已经浏览过的页面时,就找到了会话的边界 3 】。这种方法简便,也易于实现,但 是由于所发现的会话只表达了用户的部分行为,具有很大的局限性。 三是t i m e o u t 方法,该方法设置t i m e o u t 值,如果用户访问页面的时间段大于了 这个值,则认为用户开始了一个新的会话。许多商业产品都采用3 0 分钟作为缺省的 t i m e o u t 值,但是【1 4 c a t l e d g el 和p i t k o wj 由实验得出t i m e o u t 值设为2 5 5 分钟会更 接近于真实会话。 上述三种会话识别方法,最常用的方法是t i m e o u t 方法【b 】。本文采用t i m e o u t 方法,其中t i m e o u t 值可设置调整。 2 3 4 路径补充 路径补充的主要目的是为了补全访问日志中没有被记录的用户请求,获得完整的 第二章w e b 日志挖掘概述 用户访问路径,这样才能正确地识别出有意义的用户访问路径。用户在浏览网页时通 过浏览器上的“后退按钮得到的页面是从本地缓冲区中得到的,在日志文件中没有 记录,从而导致该页与用户上一次请求的页面之间没有超链接信息。这种情况,可以 根据网站的拓扑结构图,把用户的访问路径填充完整。如果用户访问的历史记录中有 多个页面都包括与当前页面的链接,则选择请求时间最接近于当前页的页面作为当前 请求的来源。 本文中,数据源采用计算机科学与技术学院w e b 服务器日志,由于计算机科学 与技术学院网站服务器日志缺少引用字段,故挖掘用户访问行为时,必须充分利用 w e b 日志和w e b 站点结构,将遗漏的页面请求添加到用户的会话文件中。 图2 4 是一个简单的站点树形示意图l l6 j ( 注:网站页面未按照分类划分页面) 图2 - 4 一个简单的w e b 站点结构图 在此图中h 页不能直接达到o 页,这就意味着请求h 页前使用了“b a c k 一按 钮,所以f 页和b 页也应该添加到同一个用户的会话中。当然用户也有可能直接输 入页h 的u r l ,但是这种情况比较少,一般不影响挖掘算法的结果,因而可以忽略 这种情况。路径补充后的结果如表2 3 所示。 表2 3 路径补充后的结果 2 4 本章小结 会话路径结果 a b f - o g a d a b c - j l r a b f o f b g a d a - b - a c j l r 本章介绍了w e b 日志的形成、日志记录数据的结构分析、处理模型和数据预处 第二章w e b 日志挖掘概述 理过程,并对数据预处理的各阶段的具体方法进行了详细介绍,结合计算机科学与技 术学院w e b 服务器日志的特点,提出了适合学院w e b 日志的数据预处理方法。 w e b 日志挖掘数据预处理的工作基本完成后,下一步就是模式分析。目前的模 式分析的方法主要有:统计分析、关联规则、聚类、分类、序列模式和依赖性建模。 对于本文中使用的挖掘算法,将在第四章节中详细介绍。 第三章系统总体结构 第三章系统总体结构 3 1 系统设计目标及功能 3 1 1 系统设计目标 本文基于第一章绪论中的课题背景介绍,以北京邮电大学计算机科学与技术学院 的网站为研究素材,设计并实现一个w e b 日志数据挖掘系统以实现对计算机科学与 技术学院w e b 日志数据进行分析,对站点的使用情况、用户情况和站点结构得出一 些结论和建设性意见。 该系统的设计目标已在1 2 国内外研究现状( 1 ) 、( 2 ) 、( 3 ) 中予以表述。一是 对w e b 日志数据采样处理后,通过数学统计方法,获得w e b 站点的使用情况和w e b 服务器对用户的响应情况;二是对采样后的日志进行数据预处理,采用基于( 2 ) 和 ( 3 ) 中提到的路径遍历模式、类关联算法、聚类分析算法以及结合实际改进的部分 算法对处理后的数据进行模式分析,获得w e b 站点用户的访问模式、频繁遍历路径 和用户聚类群。 该系统允许管理员登入,进行挖掘参数的配置,如会话超时时间、网站类型过滤 设置、支持度阈值。若管理员不对挖掘参数进行配置,系统支持默认参数( 实验经验 值,如会话超时时间为2 5 5 分钟) 。管理员修改后台定时任务配置文件中的采样时间 ( 单位为天) ,运行后台定时任务,对计算机科学与技术学院网站的原始w e b 访问日 志进行采样,转存入数据库中作为系统w e b 日志挖掘的直接数据源。普通用户使用 该系统,对数据源进行统计分析、用户识别、会话识别、路径补充等操作,获得网站 的平均每小时的上下传字节信息、最受欢迎的页面柱状图、访问次数最多的用户情况、 w e b 服务器对用户的响应柱状图、频繁遍历路径、用户访问行为模式、用户群等信息。 本系统的工作活动图如图3 - 1 所示: 1 4 第三章系统总体结构 图3 1 系统工作活动图 本系统的主要处理步骤包括: ( 1 ) 后台采样定时任务以学院w e b 日志海量数据作为数据源,读取配置文件的 采样时间段作为采样日志的时间依据,获得的采样日志作为系统w e b 日志挖掘的直。 接数据源。 ( 2 ) 管理员登录系统,配置挖掘参数。 ( 3 ) 用户登录系统,进行采样日志的基本统计分析。 ( 4 ) 对采样日志进行数据预处理操作,包括用户识别、会话识别、路径补充。 ( 5 ) 对预处理后的数据进行模式识别,包括统计分析、频繁遍历路径、用户聚 t 类。 3 1 2 系统功能介绍 系统的功能主要包括管理员和用户两部分,管理员部分主要配置系统运行时的参 数、后台定时采样日志、网站拓扑结构信息;用户部分主要实施w e b 日志挖掘:统 计分析、用户识别、会话识别、路径补充、频繁遍历路径、用户聚类。系统的功能用 例图如图3 2 所示。 1 5 1 一 筑一 前一 计一 囊,嚣一i 羔丫 , 、 f 、 第三章系统总体结构 护信息幢理 e l 志采样 用户聚类 伽mt 崖曼用神 忡m - 置量用椰 帅m 用户用- 口 图3 2 系统的功能用例图 下面分两部分详细介绍系统的功能。 ( 1 ) 管理员端功能 后台采样任务 功能描述:实现从海量w e b 日志数据中选取基于配置文件中的采样时间段的日 志数据的功能,并将采样后的日志生成小日志表存储到数据库中。管理员通过修改配 置文件来更改采样时间段( 单位是天) ,默认采样时间段是3 天。 挖掘参数配置 功能描述:实现挖掘参数会话超时时间、网站类型过滤表、支持度阈值的配置。 其中会话超时时间实验经验值为2 5 5 分钟,管理员在修改此值时不能设置地过大或 过小,否则会影响挖掘的结果;网站类型过滤表是设置网站类型及对应的后缀过滤类 型,由第二章2 3 节可知,数据清洗时需根据网站的类型预定义过滤类型,管理员可 修改网站类型过滤表;支持度阈值作为寻找频繁遍历路径的标准,支持度阈值不可设 置过大,否则挖掘出的频繁遍历路径可用性小,也不可过小,否则会导致挖掘出的频 繁遍历路径的置信度不高。一般设置为平均访问路径长度。 i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论