(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf_第1页
(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf_第2页
(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf_第3页
(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf_第4页
(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)web日志用户会话识别及聚类分析研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学工学硕士研究生学位论文 w e b 日志用户会话识别及聚类分析研究 摘要 随着i n t e r n e t 在流量、规模和复杂度等方面的飞速增长,网络成为人 们进行信息交流和信息处理的平台。面对网络上如此巨大的信息量,如何 有效地发现个性化的信息,成为困扰用户的一大难题。为此,w e b 挖掘技术 应运而生,其中w e b 日志挖掘是w e b 挖掘研究领域中一个重要的方面,它 是将数据挖掘技术应用于w e b 服务器日志,通过分析日志文件发现用户访 问站点的浏览模式。基于w e b 的日志挖掘一般分为三个过程:数据预处理 阶段、模式发现阶段及模式分析阶段。 在w e b 日志挖掘过程中,首先要进行的是数据预处理,因为现实世界 中的数据多半是不完整的、含噪声的和不一致的,而且这些数据的格式多 种多样。对于数据挖掘算法而言,不正确的输入数据可能导致错误或者不 准确的挖掘结果,同时数据挖掘算法通常处理的是具有固定格式的数据, 现实中存在的数据各式各样,因此需要将这些数据加工处理成可以被挖掘 算法使用的数据。如何修补现实世界的数据的不完整及不一致、如何剔除 噪声数据、如何将现有的数据转化为挖掘算法可用的格式、如何抽取有用 的数据、如何将多个数据源集成在一起,这些都是数据预处理中要完成的 任务。数据预处理技术是整个数据挖掘过程的主要组成部分,数据预处理 的结果是挖掘算法的输入,它直接影响挖掘的质量。因此,数据预处理技 术也是w e b 日志挖掘中的重要研究方向。 数据预处理是在将日志文件转换成数据库文件时进行的,它包括数据 t 太原理工大学工学硕士研究生学位论文 清洗、用户识别、会话识别、事务识别四个阶段。 本文深入学习研究了数据预处理的主要任务,提出了一种新的w e b 日 志预处理会话识别及根据用户浏览兴趣进行事务识别的方法。该方法根据 用户的下载时间、用户对页面内容的兴趣度及页面的信息量及页面的链入、 链出数等几个参数的综合得到每个用户对每个页面的访问时间阈值,然后 根据该个性化阈值来识别用户会话。会话识别后,根据用户访问页面的时 间、页面的兴趣度删除用户不感兴趣的页面和链接页面,重新定义用户的 w e b 访问事务,成为最终有效的w e b 页面访问序列。 实验证明,本文提出的方法可以识别出页面浏览时间较长的会话,也 可以把小于固定阈值的页面划入下一会话,发现的真实会话比例大,贴近 用户真实的访问目的,同时依据用户浏览页面的兴趣度来删除无关链接页 面,形成新的w e b 访问事务,为下一步的聚类分析提供了良好的数据,提 高了聚类的效率。 数据经过预处理后,就可以根据具体的需求来选择聚类、分类等挖掘技 术。本文研究分析了聚类技术及当前的w e b 聚类的内容和方法,通过聚类 用户访问的w e b 事务,发现相似的用户群。 关键词:w e b 日志挖掘,会话识别,兴趣度事务,聚类 i i 太原理工大学工学硕士研究生学位论文 r e s e a r c ho nu s e rs e ss i o na 小i ) c l u s t e r i n g t e c h n o l o g yo f 呢bl o g 皿蜘 n g w i t ht h es w i f td e v e l o p m e n to fi n t e r n e ti na m o u n t ,s c a l ea n dc o m p l e x i t y , w e bh a sb e c o m ea ne f f e c t i v ep l a t f o r mo nw h i c hp e o p l ec o m m u n i c a t ea n d p r o c e s si n f o r m a t i o n b a s e do ns ot r e m e n d o u si n f o r m a t i o ni nn e t w o r k ,h o wt o d i s c o v e ri n d i v i d u a li n f o r m a t i o ne f f e c t i v e l yh a sb e c o m ead i f f i c u l t yt ou s e r s s o t e c h n i q u eo fw e bm i n i n ge m e r g e sa st h et i m er e q u i r e s ,a n dt h et e c h n i q u eo f w e bl o gm i n i n gi sa ni m p o r t a n tp a r ti nt h er e s e a r c hf i e l do fw e bm i n i n g i t a p p l i e st h et e c h n i q u eo f d a t am i n i n gt ow e bs e r v e rl o g ,a n da n a l y s e sl o gf il e st o d i s c o v e ru s e r s v i s i t i n gp a t t e r no fa c c e s s i n gs i t e s t h e r ea r et h r e ep r o c e s s e si n w e bl o gm i n i n g :d a t ap r e p r o c e s s i n g ,p a t t e md i s c o v e r i n ga n dp a t t e r na n a l y s i s i nw e b l o gm i n i n g ,t h ef i r s tp r o c e s si sd a t ap r e p r o c e s s i n g b e c a u s em o s t a m o u n t so fd a t aa r eh a l f - b a k e d ,n o i s y ,a n di n c o n s i s t e n t ,a n dt h e i rf o r m a t sa r e v a r i o u si nr e a lw o r l d f o ra l g o r i t h mo fd a t am i n i n g ,i n c o r r e c ti n p u tm a yr e s u l t i nf a u l to ri n a c c u r a t er e s u l t ,a tt h es a m et i m e ,a l g o r i t h mo fd a t am i n i n gu s u a l l y p r o c e s sd a t aw i t hf i x e df o r m a t t h e r ea r ev a r i o u sd a t ai nr e a lw o r l d ,s ot h e s e d a t an e e dt ob ep r o c e s s e di n t oo t h e rd a t aw h i c hc a nb eu s e di nm i n i n ga l g o r i t h m d a t ap r e p r o c e s s i n gs h o u l da c c o m p l i s ht h e s et a s k s ,s u c ha s ,h o wt or e s t o r ed a t a s h a l f - b a k e da n di n c o n s i s t e n ti nr e a lw o r l d ,h o wt oe l i m i n a t en o i s yd a t a ,h o wt o i i i 太原理工大学工学硕士研究生学位论文 t r a n s f o r me x i s t i n gd a t at ot h ef o r m a tc a nb eu s e di nm i n i n ga l g o r i t h m ,h o wt o e x t r a c tu s e f u ld a t a , h o wt oi n t e g r a t em u l t i p l ed a t as o u r c e ,a n ds oo n d a t a p r e p r o c e s s i n gi s am a i np a r ti nt h ew h o l ed a t am i n i n gp r o c e s s t h er e s u l to f d a t ap r e p r o c e s s i n gi st h ei n p u to fm i n i n ga l g o r i t h m ,i tc a ni n f l u e n c em i n i n g q u a l i t yd i r e c t l y s ot h et e c h n i q u eo fd a t ap r e p r o c e s s i n gi sa ni m p o r t a n tr e s e a r c h a s p e c ti nw e bl o gm i m n g d a t ap r e p r o c e s s i n gi sp r o c e s s e dw h e nt o gf i l e sa r e t r a n s f o r m e dt od a t a b a s ef i l e s i ti n c l u d e sf o u rp h a s e s :d a t ac l e a n o u t ,u s e rs e s s i o n , s e s s i o ni d e n t i f i c a t i o n ,t r a n s a c t i o ni d e n t i f i c a t i o n t h i sp a p e rf u i t l l e rs t u d i e st h em a i nt a s ko fd a t ap r e p r o c e s s i n g ,a n dp u t s f o r w a r dan e wm e t h o da b o u ts e s s i o ni d e n t i f i c a t i o ni nw e bl o gp r e p r o c e s s i n g a n dt r a n s a c t i o ni d e n t i f i c a t i o na c c o r d i n gt ou s e r s v i s i t i n gi n t e r e s t t h i sm e t h o d i n t e g r a t e ss u c hp a r a m e t e r sa su s e r s d o w n l o a d i n gt i m e ,t h eu s e r s i n t e r e s tt o p a g e s ,p a g e s i n f o r m a t i o na n dp a g e sl i n k i n gi n t oa n do u tt oc a l c u l a t ee v e r yu s e r s v i s i t i n gt i m ef o re v e r yw e bp a g e ,t h e nd i v i d e ss e s s i o n sa c c o r d i n gt oi n d i v i d u a l t h r e s h o l d a f t e rs e s s i o ni d e n t i f i c a t i o n ,a c c o r d i n gt ot h eu s e r s v i s i t i n gt i m ea n d p a g e s i n t e r e s td e l e t e st h ep a g e st h a tt h eu s e r sa r en o ti n t e r e s t e di na n dl i n k e d p a g e s ,a n dr e d e f i n e st h ew e bt r a n s a c t i o n w h i c hi se f f e c t i v ep a g ev i s i t i n g s e q u e n c e e x p e r i m e n tt u r n so u tt h a tt h em e t h o di nt h i sp a p e rc a ni d e n t i f ys e s s i o ni n w h i c hu s e r st a k el o n gt i m et ov i s i tp a g e s ,a n dm e r g e sp a g e sw h o s et h r e s h o l di s l e s st h a nf i x e dt h r e s h o l dt on e x ts e s s i o n ,d i s c o v e r a b l er e a ls e s s i o na c c o u n t sf o r g r e a tp r o p o r t i o n ,a n db es i m i l a rt ou s e r s r e a lv i s i t i n gi n t e n t i o n a tt h es a m et i m e , i v 太原理工大学工学硕士研究生学位论文 d e l e t e si n d e p e n d e n tp a g e sa c c o r d i n gt ou s e r s i n t e r e s tt op a g e s ,a n df o r m sn e w w e bt r a n s a c t i o n i tp r o v i d e sv a l u a b l ed a t af o rc l u s t e r i n ga n a l y s i s ,a n di m p r o v e s c l u s t e r se f f i c i e n c y a f t e rd a t ap r e p r o c e s s i n g ,i ti st i m et os e l e c tam i n i n gt e c h n i q u es u c ha s c l u s t e r i n g ,c l a s s i f y i n ga c c o r d i n g t o s p e c i f i cd e m a n d t h i sp a p e ra n a l y s e s c l u s t e r st e c h n i q u ea n dc u r r e n tw e bc l u s t e r sc o n t e n ta n dm e t h o d s t h r o u g h c l u s t e r i n gw e bt r a n s a c t i o n ,w ec a nf i n dt h es i m i l a r u s e r s k e yw o r d s :w e bl o gm i n i n g ,s e s s i o ni d e n t i f i c a t i o n ,i n t e r e s td e g r e et r a n s a c t i o n , u s e rc l u s t e r v 声明尸明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:日期:笙! 墨:! :! : 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名:卫l1 _ | 导师签名: 日期:竺呈:! ! ! 日期: y 1 玉i1 、 太原理工大学工学硕士研究生学位论文 1 1 课题背景 第一章绪论 随着i n t e r n e t 的飞速发展和广泛应用,万维网已经成为一个巨大的、分布广泛的、 全球性的信息服务中心,它为用户提供了数量巨大而丰富的各种信息,同时,也给人们 带来了一些挑战,用户需要质量更高、效果更好的w e b 服务,希望可以根据自己的兴趣 对网页的风格以及内容进行定制,希望网站可以根据用户的兴趣所在,为用户推荐可能 感兴趣但是尚未阅读的内容,以减少用户搜索信息的时间。如此的需求就为网站的设计 提出了更高的要求:如何从海量的网络信息中迅速的找到用户最为关心的信息,如何更 加人性化的给用户提供服务,如何合理地组织网站建设,成为学者们越来越关心的课题。 w e b 日志挖掘就是通过挖掘有相对清晰结构的用户访问情况的w e b 日志,采用相应 的数据挖掘算法,从海量的网络数据( 网络文档、网络日志和网络多媒体数据) 中发现 有用的信息和知识,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据 挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而 指导网站的建设。 1 2 研究现状 数据挖掘从2 0 世纪8 0 年代出现以来,就一直受到学者们的广泛关注。 目前,数据挖掘的方法主要有三种:自顶向下、自下而上和混合法。数据挖掘技术 和算法包括智能超市搜索、决策树、神经网络、相关分析、遗传算法、模糊逻辑、粗糙 集、概念学习、归纳逻辑程序和聚类等等。目前使用较多的是关联规则分析、聚类分析、 分类和预测、复杂型数据的数据挖掘等,这些大多应用在生物医学、商业、金融和电信 方面。 迄今为止,w e b 日志的挖掘方法主要有两大类:一类是基于w e b 事务的方法,即 将数据挖掘技术应用于w e b 服务器日志,以期发现用户浏览模式。这类方法提出了最 大向前引用序列m f r 的概念,并用它将用户会话分割成一系列的事务,然后采用与关 联规则相似的方法挖掘频繁浏览路径。第二类方法是基于数据立方体的方法,即根据 太原理工大学工学硕士研究生学位论文 w e b 日志建立数据立方体,然后对数据立方体进行数据挖掘和联机事务处理( o l a p ) 。 但在上述第二类w e b 日志挖掘的技术方法中,必须要考虑如下三个问题:第一, 虽然w e b 日志分析可以有许多潜在应用,但重要的一点是此类应用的成功与否要依赖 于从这一海量原始日志数据中能够发现什么样可靠和有效的知识,能发现多少。通常, 原始的w e b 日志数据需要经过清洗、浓缩和转换,以便于检索和分析有意义和有用的 信息。这类技术包括数据清理、数据集成和变换、数据归约等,此外还有数据的离散化 及概念分层。第二,基于u r l 、时间、口地址和w e b 页面内容信息,可以在w e b 日志 数据库上构造多维视图、进行多维o l a p 分析,用于找出前n 个用户、前n 个被访问 页面、最频繁访问时间期等等,这有助于发现潜在客户、用户和市场等。第三,在w e b l o g 记录上可以进行数据挖掘,用于找出关联模式、序列模式和w 曲访问趋势等。对 w e b 访问模式挖掘,通常需要采用进一步的手段获得用户访问的附加信息,以便于做更 为详细的w e b 日志分析。此类附加信息包括w e b 服务器缓冲区中用户浏览w e b 页面的 序列等。 除了上面提到的基于w e b 日志的挖掘外,目前各种信息检索工具的研制也是 i m e m e 侧w 信息检索与数据挖掘研究的重点。在1 9 9 9 年召开的d a s f a a 9 9 会议上, 日本学者提交了w e b 文档交互分类方面的文章,提出了利用自组织映射和搜索引擎, 通过w e b 与数据库、人工智能的集成进行w e b 文档分类的方法。 基于w e b 服务器的日志数据的研究大致可分为3 类: l 、以分析w e b 站点性能为目标:主要从统计学的角度,对日志数据项进行简单的 统计,得到用户频繁访问页、单位时间访问数、访问数量随时间分布图等。绝大多数商 用及免费的w e b 访问信息分析工具都属此类。 2 、以理解用户意图为目标:例如c h e n 等提出的路径游历模式( p a t ht r a v e r s a lp a t t e r n ) 发现算法以及韩家炜等使用的数据立方体方法便是典型代表。 3 、以改进w e b 站点设计为目标:通过挖掘用户的频繁访问路径和用户聚类,重构 站点的页面之间的连接关系,以更适应用户的访问习惯,同时为用户提供个性化的信息 服务等,例如沈均毅教授提出的w e b 页面和客户群体的模糊聚类算法便是这类的典型 代表。 由于目标的不同,所采用的技术也有所不同。如采用统计学方法分析频繁访问的网 页、单位时间访问的次数、访问时间分布图等,另外还有路径遍历模式的发现算法等。 2 太原理工大学工学硕士研究生学位论文 周斌等人还提出了基于e o e m 的数据模型及算法,以从数据中挖掘出更有意义的知识。 该算法克服了以往算法的缺点,提供了从大量顾客数据及日志数据中挖掘有意义的用户 访问模式及潜在用户群的数据模型,以便于商家制定促销策略。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学 基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知 识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空 军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发 现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理 工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开 展了对关联规则开采算法的优化和改造,南京大学、四川联合大学和上海交通大学等单 位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。 当前,在日志挖掘中,研究热点主要集中在:日志预处理的研究【l 】、相似度的定义、 日志特征的提取、日志聚类算法的改进 2 1 、日志分析模型【3 1 、打分函数的设计 4 1 、网页 推荐模型的研究和日志挖掘可视化的研究。对于个性化定制服务,目前常用的方法包括 w e b 使用记录挖掘与合作式过滤、矩阵聚类【5 1 、挖掘间接关联规则f 6 1 、数据立方体【刀、 第一马尔可夫传输链【s 1 、m 1 m t h o r d e rm a r k o vm o d e l 9 1 、p r e d i c t i o nb yp a r t i a l m a t c h 9 1 、概 念分层【,i n t e r - b a s e dc o a r s e n i n g 【1 1 】等等。 w e b 挖掘是一项综合技术,涉及w e b 、数据挖掘、计算语言学、信息学等多个领域。 不同研究者从自身的领域出发,对w e b 挖掘的含义有着不同的理解,项目开发也各有 其侧重点。但和其它技术一样,w e b 挖掘也需要时间和精力来研究、开发和逐步成熟, 最终被人们接受。目前已有很多通用的w e b 挖掘系统,如d bm i n e r , w u m 等,但是还 不能打到期望的指定系统那样。随着国际大公司的介入,w e b 挖掘受到越来越多的关注, 一些问题得到解决,而另一些处于研究阶段。然而,这些问题将继续刺激进一步的研究 和改进。相信,随着w e b 挖掘任务和方法的发展,一定能带给人们更多的利益,可以 节约时间和金钱,并发现新的知识。 1 3 本文组织结构 本文认真研究w e b 日志挖掘中数据预处理过程,分析了当前会话识别中存在的问 题,提出了新的个性化会话切分方法,然后又根据用户对页面内容兴趣度、浏览特性, 3 太原理工大学工学硕士研究生学位论文 提出了新的事务界定规则,从而删除会话中的链接页面和用户不感兴趣的页面,生成一 种有效的页面访问序列,同时,进行了用户的会话聚类分析。 本文首先阐述本课题的背景、研究现状及基于w e b 的日志挖掘技术的研究现状。 然后对w e b 数据挖掘、w e b 日志挖掘的基本概念和方法进行了阐述,并且认真研究了 w e b 日志预处理的相关知识和技术、预处理过程的基本环节和相关定义,并发现了会话 识别中存在的问题,提出了新的会话切分的方法。 会话识别后,根据用户对页面的兴趣度的比较,给出了新的事务定义规则及方法, 生成一种有效的页面访问序列。然后对w e b 日志进行了聚类分析,把访问模式相似的 用户聚在一起。 4 太原理工大学工学硕士研究生学位论文 第二章w e b 数据挖掘概述 随着w e b 的发展,信息量的不断增加,人们越来越发现自己“淹没 在庞大的数 据中,不能从海量的数据中得到自己真正需要的规则或者找到这些数据之间的规律。如 何及时地、准确地从这些海量并且不断增长的数据中提取出我们需要的信息、得到这些 数据所蕴涵的潜在信息,就迫切需要- i - j 新的学科来研究,为此,w e b 挖掘技术应用而 生。w e b 挖掘是数据挖掘的一个分支,它与数据挖掘不同的地方就是数据源的不同,w e b 挖掘的对象是网络上的数据。按照w e b 挖掘对象的不同可分为内容挖掘、文本挖掘和结 构挖掘。本文研究的就是w e b 日志挖掘,而w e b 日志挖掘数据预处理技术的研究是w e b 日志挖掘的一个重要方面。 2 1 数据挖掘及w e b 挖掘 2 1 1 数据挖掘 数据挖掘是一门交叉性学科,融合了人工智能、统计学、机器学习、数据库和 知识库很多学科的技术,所以在不同的领域也有着不同的理解以及相关的术语。除 了“数据挖掘”外,在有的领域也叫做“知识发现”或者“知识提取 。一般来说, 数据挖掘主要流行于统计界( 最早出现于统计文献中) 、数据分析、数据库和管理 信息系统界,而知识发现则主要流行于人工智能和机器学习界。从而使不同的学者 对其有不同的定义,其中,最其影响的是f a y y a d 对知识发现的定义u 引:“知识发 现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可以理解的模式的 非平凡过程 。下面对定义中涉及到的数据集、模式、非平凡过程、有效性、新颖 性、潜在有用性和可理解性做出进一步的解释。 数据集:数据集是一组事实f ,例如关系数据库的记录。 模式:模式是个用语言l 来表示的表达式e ,它用来描述数据集f 的某个子 f e ,e 作为一个模式,要求它比数据子集f e 枚举要简单,即所用的信息量要少。 5 太原理工大学工学硕士研究生学位论文 非平凡性:非平凡性是指数据挖掘过程必须具有一定程度的智能性、自动性, 仅仅给出所有数据的总和不能够算作一个发现过程。智能性和自动性是非平凡性的 一个重要体现。 有效性:有效性是指发现的新模式对于数据集仍要保持一定程度的可信性,必 须在一定程度上有效的支持了数据集。 新颖性:新颖性是发现的模式必须是新颖的,过去没有发现的。 潜在的可用性:潜在的可用性是指发现的知识将来有一定的作用,能够具体的 利用在实际的领域产生一定的效益。 最终可理解性:最终的可理解性是要求发现的模式能够被用户理解其含义,能 够用比较简洁的形式将知识揭示出来。 有效性、新颖性、潜在的有用性和最终可理解性合在一起被称作兴趣性。在具 体的应用中,有可能需要建立对应的函数来衡量这几个特性。 而许多学者认为数据挖掘和知识发现是等价的概念,也有人把知识发现看作是发 现知识的完整过程,而将数据挖掘视为其中的一个基本步骤【1 3 1 4 1 2 1 2w e b 挖掘 w e b 挖掘是一项综合技术,涉及计算机网络、数据库与数据仓库、人工智能、信息 检索、可视化、自然语言理解等多个领域。w e b 挖掘是从数据挖掘发展而来,其定义与 传统的数据挖掘定义类似,但w e b 挖掘与数据挖掘相比有好多不同之处:w e b 挖掘的对 象是异构的网络数据,w e b 在逻辑上是一个由文档节点和超链接构成的,而数据挖掘的 对象是数据库中的结构化数据。w e b 数据挖掘建立在对大量的网络数据进行分析的基础 上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据 转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户 习惯、发现用户浏览w e b 页面的模式。它可用于分析网站流量模式、发现系统性能瓶颈、 优化站点结构、提高效率、提高用户访问的有效性、发现用户的需要和兴趣等。 2 1 3w e b 挖掘的过程 基于w e b 的数据挖掘一般分为过程三个过程: 6 太原理工大学工学硕士研究生学位论文 ( 1 ) 数据处理阶段:对需要分析的数据进行预处理,比如清除“噪声数据 ; ( 2 ) 模式发现阶段:应用不同的方法从预处理后的数据中得到潜在的模式; ( 3 ) 具体应用阶段:对上步得到的模式进行分析,从而利用到具体的应用中。 2 1 4w e b 数据挖掘的分类 w e b 信息的多样性决定了w e b 数据挖掘任务的多样性。按照处理对象的不同,一 般将w e b 数据挖掘分为三类:w e b 内容挖掘、结构挖掘和使用记录挖掘。如图2 1 所示。 图2 - 1w e b 数据挖掘分类 f i g 2 - 1c l a s s i f i c a t i o no f w e bd a t am i n i n g ( 1 ) w e b 结构挖掘 w e b 结构挖掘是从w e b 的组织结构和链接关系中推导知识。它不仅仅局限于文档之 间的超链接结构,还包括文档内部的结构,文档中的u r l 目录路径的结构等。w e b 结构挖 掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序、寻找个人主页 和相似网页、提高w e b 搜索蜘蛛在网上的爬行效率、沿着超链接优先爬行。w e b 结构 挖掘还可以用于对w e b 页面进行分类、预测用户的w e b 链接使用及w e b 链接属性的可 视化。对各个商业搜索引擎索引用的页数量进行统计分析等。 ( 2 ) w e b 内容挖掘 w e b 内容挖掘是指从文档的内容中提取知识。w e b 内容挖掘又分为文本挖掘和多媒 体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,w e b 文本挖掘已经有了比较实用 的功能。w e b 文本挖掘可以对w e b 上大量文档集合的内容进行总结、分类、聚类、关 联分析以及利用w e b 文档进行趋势预测等。w e b 文档中的标记,例如 和 等蕴涵了额外的信息,可以利用这些信息来加强w e b 文本挖掘的作用。 ( 3 ) w e b 日志挖掘 7 太原理工大学工学硕士研究生学位论文 w e b 日志挖掘是指从w e b 的日志记录中提取感兴趣的模式。目前w e b 日志挖掘方面 的研究较多,唧中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息, 可以通过分析和研究w e b 日志记录中的规律,来识别网站的潜在用户;可以用基于扩展 有向树模型来识别用户浏览序列模式,从而进行w e b 日志挖掘;可以根据用户访问w e b 日志来挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测 的依据,从而为用户预取一些w e b 页面,加快用户获取页面的速度,分析这些数据还可以 帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。 2 1 5w e b 挖掘的应用 w 曲挖掘的应用【1 5 】主要体现在: ( 1 ) 个性化:根据从网页的使用情况中提取的模式和当前用户的使用记录,预测用户 将来的网页需求,从而为当前的访问者预先发送或者推荐网页。 ( 2 ) 网页推荐:用户通过输入一定的关键词,系统为用户根据这些关键词来检索在互 联网中的信息,然后根据一定的支持度来从高到低的展示给用户,这是大多数搜索引擎 的任务。 ( 3 ) 站点结构改进:从w r e b 使用挖掘和结构挖掘的结果中,发现站点结构的不足从 而改进网站的结构。 ( 4 ) 商业智能:将从使用知识发现中得到的模式来指导商业的实践和辅助商业决策的 制定。 ( 5 ) 系统改进:对w e b 系统的特性数据进行分析,得出结论以供w e b 系统性能改进。 如:可以提供w e b 流量行为的分析,利用它来进行w e b 缓存、存取平衡等。另外,随着 电子商务以指数形式增长,安全问题成为基于w e b b 艮务的重点,w e b 日志挖掘也可以提 供有用的挖掘模式来检测w e b 站点侵入、欺骗等。 2 2w e b 日志挖掘简介 w e b 日志挖掘是将数据挖掘技术应用于w e b 服务器日志,通过分析日志文件发现 用户访问站点的浏览模式,主要包括关联规则、聚类分析、频繁遍历的路径、频繁访问 页面等。随着w e b 站点逐渐变得庞大和复杂,w e b 日志挖掘成为辅助站点维护人员优 化站点的重要手段。w e b 日志挖掘的过程一般分为四个阶段:预处理阶段、挖掘算法 8 太原理工大学工学硕士研究生学位论文 实施阶段、模式分析阶段和可视化阶段。然而,由于w e b 页面的多样性,数据预处理 技术就成为w e b 日志挖掘中的关键问题。 2 2 1w e b 日志挖掘数据 在w ,e b 使用挖掘过程中,有多种数据可作为w e b 挖掘的处理对象,包括:s e r v e r l o g 、 p r o x ys e r v e rl o g 、c l i e n t 端的c o o k i el o g 、用户简介、注册信息、用户对话或交易信息 等,主要是w e b 服务器上的l o g 日志。这些数据可分为: ( 1 ) 内容数据:用户在网页上看到和使用的真实数据,主要是文本和图像。 ( 2 ) 结构数据:描述网页内容如何组织的数据,网页内的结构可用h t m l ,x m l 表 示为树型结构,h t m l 标志为树的根;网页间结构可用连接不同网页的超链接来表示。 ( 3 ) 使用数据:描述网页使用模式的数据,如i p 地址、u r l 、网页引用、访问时间 和日期等,表示用户的行为模式。典型的使用数据来自服务器日志。 ( 4 ) 用户资料:有关w e b 站点用户的统计信息,包括用户注册信息和个人资料,如 用户名、学历、职务、年龄等。 2 2 2w e b 日志挖掘数据源 在数据库的知识发现中,一个关键的步骤是数据的收集和创建合适的目标数据集。 由于h 下r p 协议的无状态链接特性而很难得到准确的用户浏览信息,j a i d e e ps r i v a s t a v a 1 6 】 和c y r u ss h a h a b i i l 7 1 , 提出从w 曲的结构出发,多层次地进行w 如站点信息采集。在 w e b 使用模式数据挖掘中数据可来源于服务器、客户端、代理服务器或从某个机构的数 据库。各种不同的数据不仅来源和类型不同,其使用方式也不相同。从不同数据源采集 的使用数据将代表w e b 流量中不同部分的导航模式,从单用户单站点浏览行为到多用 户多站点的存取模式。服务器级日志文件描述了多用户单站点的浏览行为,客户级日 志文件通常给出了单用户多站点的用户浏览行为,代理级服务器日志文件跟踪多用户 多站点的使用行为。其数据收集可分为以下几种形式。 ( 1 ) 服务器端的数据收集 主要包括从w e b 服务器日志中收集和从网络监视器中收集。w e b 服务器日志文件 是执行w e b 使用挖掘的重要数据来源,该日志文件记录了用户访问站点的数据,每当 站点上的网页被访问一次,w e b 服务器就在日志文件中增加一条相应的记录。这些记录 9 太原理工大学工学硕士研究生学位论文 数据反映了多个用户( 可能同时) 对w e b 站点( 单站点) 的( 存取) 访问行为。由于w e b 环境 中存在多级别的缓存( 如用户的本地缓存和代理服务器缓存) 和防火墙,用户浏览缓存的 页面不在服务器端日志上,防火墙使得不同的用户请求在w e b 服务器的日志中记录的 都是防火墙的p 地址,所以日志中的网站使用数据并不完全可用( 未采集到所有访问页 面、采集时间不够准确、浏览用户的确定不够准确) 。因此,用服务器端的记录数据进 行w e b 使用模式挖掘也是不完全可靠的。要想得到页面浏览的准确时间需采用客户端 收集方法。另外,如果用户请求是通过p o s t 方法传送的,那么参数在日志相应栏中就不 可见,但通过监视器视察可以直接获取参数来进行分析。监视器负责监视和分析用户向 w e b 服务器发出的请求,它直接从t c p i p 包中抽取功能数据进行分析,可以检查到 h r r p 头之外的信息,可扩展性能较好。w e b 服务器日志文件可以不同的格式存储,常 用的有通用日志格式( c l f , c o m m o nl o gf i l e ) 或扩展日志格式( e c l f , e x t e n d e dc o m m o n l o gf i l e ) 。 ( 2 ) 客户端的数据收集 客户端的数据收集比服务器端的数据收集更具有优越性,它是建立在用户行为源上 的,可准确地捕获用户的行为,能准确地确定浏览用户。用户的浏览路径和浏览时间都 可精确地测量,但它需要用户的许可,有可能会触及到用户的隐私。从客户端收集数据 比从服务器端收集数据能更好地解决缓存问题和会话识别问题。客户端的数据收集需要 用到远程代理( 如j a v a s c r i p t ) i 网页跟踪帧或者需要修改已有浏览器( 如i e ,n e t s e a p e ) 的源 程序代码来增强浏览器软件的数据收集能力。j a v a 脚本或j a v aa p p l e t s 方法只能解决单 用户网站的用户浏览行为。j a v a a p p l e t 。以j a v a a p p l e t 的方式动态插入网页,执行跟踪 任务。当用户刚来访问w e b 服务器时把a p p l e t 下载到客户的浏览器上运行。a p p l e t 在 第一次被下载执行时可能会花费一些时间。另外,它需要用户使j a v a a p p l e t 生效,如打 开j a v aa p p l e t 的允许开关。 ( 3 ) 代理服务器端的数据收集 代理服务器相当于一个在客户端浏览器w e b 服务器之间提供了缓存功能的中介服 务器,它使用户和i n t e m e t 间接相连,主要用于减少用户下载网页的时间以及服务器与 客户机之间的网络流量。从代理服务器可以得到从多个用户到w e b 服务器的访问记录 ( 不需用户许可) 。若代理访问站点网页是通过w e b 应用程序动态生成的,对于用户的每 次请求,代理需从w e b 服务器取得数据。该收集方法不能准确地确定浏览用户,对访 l o 太原理工大学工学硕士研究生学位论文 问页面的采集不够全面,采集时间不准确。另外,还可以利用应用服务器上的应用程序 来记录用户的个人信息和以自定义的格式动态记录用户的浏览信息( 需用户许可) 。该收 集方法在用户确定方面的准确性较服务器级高,但大量的应用程序会降低系统的效率。 在本文中谈到的w e b 日志的挖掘如没有特殊注明,都是指服务器端的日志挖掘。 2 2 3w e b 日志挖掘过程 原始日志文件 用户日志文件规则模式感兴趣的规则模式 图2 3w e b 日志挖掘的过程 f i g 2 - 3p r o c e s so f w e bl o gm i n i n g 一般而言,w e b 日志挖掘又可以分为数据预处理阶段、模式发现阶段和模式分析阶 段。由于原始日志文件是简单的平面文本文件,包括了一些不完整的、冗余的、错误的数 据,同时原始w e be l 志文件具有半结构化的特点,于是需要对原始日志文件进行处理,否则 将影响挖掘的效果。 2 2 4w e b 日志记录的内容 对目前大多数的w e b 日志挖掘来说,w e b 服务器日志是主要数据来源,它记录了多个 用户对该服务器进行访问时的页面请求信息。目前日志文件以多种数据格式存储在w e b 服务器上。常见的日志数据格式是w 3 c 联盟( w o r l dw i d ew e bc o n s o r t i u m ) 规定的常规 日志格式( c o m m o nl o gf o r m a t ) 和扩展日志格式( e x t e n d e dc o m m o nl o gf o r m a t ) ,其结 构如表2 1 所示。表中打黑点的部分是扩展型日志格式中添加的记录项,其中一些内容 在实际应用中是用不到的,如c o o k i e 和u r l 查询。用户i d 是在被访问的页面需要进行 用户认证时才有的,一般都为空,用户代理记录的是客户端使用的操作系统和浏览器的类 型和版本。这里需要说明的是u r i 是一个比u i u 更通用的定义,而且前者包括后者。 为保证数据挖掘的一致性,w 3 c 1 5 】为此专门制定了一个适用于网络使用分析的网络 数据项草案。下面列出该文将用到的几种抽象数据类型: 太原理工大学工学硕士研究生学位论文 表2 - 1w e b 日志记录的主要信息 t a b l e2 - 1i n f o r m a t i o na b o u tw e bl o gr e c o r d 域描述 日期( d a t e ) 用户请求页面的日期 时间( t i m e ) 用户请求页面的具体时间 客户口地址(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论