(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf_第1页
(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf_第2页
(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf_第3页
(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf_第4页
(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(计算机软件与理论专业论文)网络日志中用户兴趣的挖掘及利用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络h 忐中用户兴趣的挖掘及利用:摘要 摘要 网络日志挖掘旨在通过对网络同志进行有效的数据挖掘,发掘隐藏在日志数 据背后的w e b 用户访问模式。这个目标基于这样的假设:网络同志中确实蕴含 _ 用户访问w e b 的某些规律性特性,这些特性反映在某些模式中,这些模式可 以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一假设发掘出 r 各种有用的w e b 用户访问模式。但是网络f _ i 志中是否确实蕴含了用户访问w e b 的规律性特性? 如果有,这些特性能否用语言描述出来? 如何利用这些特性? 论 文的核心工作就是围绕这些问题,使用统计分析、聚类和依赖关系的建模等挖掘 技术,针对w e b 访问特性、w e b 信息检索、w e b 站点辅助设计和系统优化等领 域作了较深入的研究。 论文的工作与贡献主要有四个方向: ( 1 ) 网络日志中是否确实蕴含了用户访问w e b 的规律性特性? 如果有,这些特 性能否用语言描述出来? 论文针对这些问题对实际网络曰志进行了实证性 的规模统计分析。研究了网络日志规模与用户数、w e b 页面数以及单位用户 访问的w e b 页面数的关系,并研究了用户访问w e b 的动机。得出了一些有 用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。 ( 2 ) 基于( 1 ) 所得结论,论文提出了基于w e b 用户行为的相关页面检索模型 w u b i r m ( w e b u s a g e b a s e di rm o d e l ) 和搜索引擎系统s i s i ( s i m i l a ri n t e r e s t s , s i m i l a ra c c e s so ni n t e m e t ) 原型。目前的信息检索技术主要是基于文本分析 和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能 地模拟人对页面相关性的判断,论文从真正的网页使用者网络用户的角 度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判 定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术,从海量 信息中快速而准确的检索相关页面具有不可替代的重要意义。 f 3 ) 基于( 1 ) 所得结论,以及用户空间( 用户访问频率矩阵) 的变换,论文提出了 用户兴趣空间的概念,并提出两种用户兴趣空间的构造方法:一是利用因子 分析理论;二是利用用户空问中用户聚类和w e b 文档聚类在权重之间的对 偶关系。与用户空间相比较,用户兴趣空间突出了用户的共同兴趣,是一个 正交空间。分别在用户空间和两种用户兴趣空间中作w e b 页面聚类,实验 结果表明,用户兴趣空间的w e b 页面聚类效果优于用户空间的聚类,且从 用户空间向用户兴趣空间的转换达到了数据压缩的效果,其中在利用因子分 析理论构造的用户兴趣空间中的w e b 页面聚类效果最好。 ( 4 ) 论文分析了隐藏在w e b 缓存行为背后的w e b 用户行为,认为缓存的替换策 略应该充分考虑用户访问w e b 的特性。论文提出了w e b 缓存替换策略 s u l r u ( s i z e u s e rl r u l 。s u l r u 充分利用了用户访问w e b 的特性,并具 有一定的自适应能力,提高了缓存的智能特性。模拟实验结果表明s u l r u 取得了较好的页面命中率和页面字节命中率。s u l r u 实现起来也t e 较容易, 是一个较好的缓存替换策略。 略 关键词:网络同志挖掘,用户兴趣,信息检索,因子分析,w e b 缓存替换策 刚络l j 志中用户兴趣的挖掘及利用:a b s t r a c t m i n i n i n g a n d u t i l i z i n gu s e r s i n t e r e s t si nw e bl o g s g u o y a h ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yb a is h u o w e b l o gm i n i n ga i m e dt om i n ew e b u s e ra c c e s sp a t t e r n sf r o mw 曲l o g s w h i c h b a s e do ns u c hh y p o t h e s i st h a tt h e r ei ss o m ec h a r a c t e r i s t i c so fu s e ra c c e s s i n gw e b e x i s ti nw e bl o g s ,a n dt h e s ec h a r a c t e r i s t i c sa r er e f l e c t e di ns o m ep a t t e r n s a n dt h e p a t t e r n sc a nb em i n e da n du t i l i z e d l o t so fr e s e a r c h e so nw 曲一l o gm i n i n ga r eb a s e d o nt h eh y p o t h e s i s i st h e r er e a l ys o m ec h a r a c t e r i s t i c so fu s e ra c c e s s i n gw e be x i s ti n w e b l o g s ? a n d i fy e s c a nt h e s ec h a r a c t e r i s t i c sb ed e s c r i b e dc l e a r l y ? a n dh o wt ou s e t h ec h a r a c t e r i s t i c s ? t o t r y t oa n s w e rt h e s e q u e s t i o n s ,t h ed i s s e r t a t i o n u s e ss u c h t e c h n i q u e sa ss t a t i s t i c s ,c l u s t e r i n ga n dm o d e l i n gi ns u c hr e s e a r c h e sa sm i n i n gw 曲 u s e ra c c e s sc h a r a c t e r i s t i c s w b bi r w e bs i t e o p t i m i z i n ga n dw b bp e r f o r m a n c e i m p r o v i n g t h ec o n t r i b u t i o no f 也ed i s s e r t a t i o ni sa sf o l l o w : f1 1i st h e r er e a l ys o m ec h a r a c t e r i s t i c so fu s e ra c c e s s i n gw e be x i s ti nw e b l o g s ? a n d i f y e s ,c a nt h e s ec h a r a c t e r i s t i c sb ed e s c r i b e dc l e a r l y ? i no r d e rt oa n s w e rt h e q u e s t i o n s t h ed i s s e r t a t i o na n a l y z e sr e a l 舱6l o g sb yp o s i t i v es t a t i s t i c s ,白em a i n w o r ki n c l u d e s :a ss c a l eo fw e b l o g si n c r e a s i n g h o wd o e st h eu s e r s c o u n t w e b p a g e s c o u n ta n d t h ea v e r a g eo fw e b p a g e s c o u n ta c c e s s e db y o n eu s e rc h a n g e ? a n dw h a ti st h em o t i v a t i o no fu s e ra c c e s s i n gw e b ? t h ec o n c l u s i o n sd r a w sf r o m e x p e r i m e n ta r ev e r yu s e f u l ,a n dt h e yc a np r o v i d es o m ef o u n d a t i o n sf o rr e s e a r c h o n w e b l o gm i n i n g ( 2 1t h ed i s s e r t a t i o np r e s e n t sa ni rm o d e ln a m e dw u b i r m ( w e bu s a g eb a s e di r m o d e l ) a n dap r o t o t y p eo fs e a r c he n g i n en a m e ds t s i ( s i m i l a ri n t e r e s t s ,s i m i l a r a c c e s so ni n t e m e t ) b a s e do nw e bu s e ra c c e s sm a n n e r s n o w a d a y sw e bi ri s m a i n l yb a s e d o nc o n t e n tm i n i n ga n ds t r u c t u r em i n i n 2 t h ed i s s e r t a t i o nd e e m st h a t h u m a ns h o u l db et h eb e s to n et oi u d g ew h i c hp a g e sa r er e l a t e d i no r d e rt o s i m u l a t eh u m a n j u d g m e n t i nr e l a t e dp a g e s ,t h ed i s s e r t a t i o nd i s c u s s e sw e bi rf r o m t h ew bu s e r s p o i n to fv i e w , a n di tt r i e st om a k eg o o du s eo fl a t e n th u m a n j u d g m e n ti n r e l a t e d p a g e sc o n t a i n e d i nw 曲l o g st om i n er e l a t e d p a g e s t h e r e s e a r c hc a na c t u a l l yh e l pt o i m p r o v et r a d i t i o n a l i ra n dr e u i e v er e l a t e dp a g e s f r 0 1 1m a s si n f o r m a t i o ns o o na n d p r e c i s e l y , w h i c hi so f i n d i s p e n s a b l es i g n i f i c a n c e ( 3 ) b a s e do nt r a n s f o r m a t i o n o fu s e r - s p a c e ( u s e r s a c c e s s f r e q u e n c y m a t r i x ) ,t h e d i s s e r t a t i o np r e s e n t st h ec o n c e p to fu s e r i n t e r e s t s p a c ea n dt w oa l g o r i t h m st o c o n s t r u c tu s e r i n t e r e s ts p a c e :o n ei sb a s e do ng e n e a n a l y s i s a n da n o t h e ri sb a s e d o nad u p l e xp h e n o m e n o nb e t w e e nt h eu s e r sc l u s t e r i n ga n dp a g e sc l u s t e r i n gi n u s e r s p a c e c o m p a r e dw i t hu s e r s p a c e ,u s e r i n t e r e s ts p a c eg i v e sp r o m i n e n c et o u s e r s c o m m o ni n t e r e s t sa n di sa c t u a l l yo r t h o d o x v t h e nt oc l u s t e rw e b p a g e si n u s e r s p a c e a n dt w ou s e r i n t e r e s t s p a c e s ,a n de x p e r i m e n t a l r e s u l t ss h o wt h a t c o n t r a s tt oc l u s t e r i n gw e bp a g e si nu s e r s p a c e c l u s t e r i n gi nu s e r i n t e r e s ts p a c e c a ng e tb e t t e rr e s u l t s ,a n dt h ec o n v e r s i o nf r o mu s e r s p a c et ou s e r i n t e r e s ts p a c e c a n c o m p r e s s d a t aw e l l ,a n d c l u s t e r i n g i nu s e r i n t e r e s t s p a c e c o n s t r u c t e d b y 卿络日志中用户兴趣的挖掘及利用:a b s t r a c ! g e n e a n a l y s i si st h e b e s t f 4 、t h ed i s s e r t a t i o na n a l y z e sw 如l l s e ra c c e s sm a n n e r sb e h i n dw e b c a c h e sm a n n e r s , a n dd e e m st h a tw e bc a c h er e p l a c e m e n tp o l i c ys h o u l dm a k e g o o du s eo fw e b u s e r a c c e s sc h a r a c t e r i s t i c st h ed i s s e r t a t i o np r e s e n t saw e bc a c h er e p l a c e m e n tp o l i c y n a m e ds u l r u ( s i z e & u s e rl r u ) s u l r um a k e sf u l lu s eo fw e bu s e ra c c e s s c h a r a c t e r i s t i c s ,a n ds u l r u c a nm a k ec a c h eb ea d a p t i v ea n dm o r ei n t e l l i g e n t s i m u l a t i o nr e s u l t ss h o wt h a ts u l r uh a sg o o dh i tr a t ea n db y t eh i tr a t e s u l r u c a nb ec a r r i e do u te a s i l y ,a n di ti sa g o o dc a c h er e p l a c e m e n tp o l i c y k e y w o r d s :w e b l o gm i n i n g 。u s e r s i n t e r e s t s ,i r ,g e n e a n a l y s i s ,w e b c a c h e r e p l a c e m e n tp o l i c y 声明 本人声明所呈交的论文足我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 作者签名: 匆名 f 关于论文使用授权的说明 日期:2 卯牛争2 ; 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 作者签名:匆寰导师签名:彳r 磊趸日期:研争毋 第1 章绪论 第1 章绪论 1 1w e b 使用信息挖掘的研究背景及意义 随着i n t e r a c t 在流量、规模和复杂度等方面的匕速增长,w w w 成为一个巨 大的、分布广泛的、全球性的信息服务中心,它涉及到新闻、广告、金融管理、 教育、电子政务、电子商务等各方面的信息服务。w e b 中包含了w e b 页面的内 容信息、丰富的超链接信息,以及w e b 页面的访问和使用信息,为数据挖掘提 供了丰富的资源。 数据挖掘是指从大量的数据中提取隐含的、先前未知的、有潜在应用价值的 模式、规则和知识,它包括关联分析、分类分析、聚类分析、特征分析、模式序 列分析、偏差分析、趋势分析等。w e b 挖掘旨在使用数据挖掘技术从w e b 资源 中发掘出有用的规律和模式。w e b 挖掘利用数据挖掘的原则和思想,针对w e b 信息的特性,对传统的挖掘方法进行扩展和改进,将其应用到w e b 信息上进行 挖掘,得到有用的知识。 w e b 挖掘可以分为三类 9 0 1 : ( 1 1w e b 内容挖掘( w e bc o n t e n tm i n i n g ) :对w 曲页面的内容进行挖掘。主 要包括: 基于传统的信息检索技术从w w w 上提取信息的搜索引擎,如l y c o s , v i s t a ,w e b c r a w l e r ,a l i w e b ,m e t a c r a w l e r 9 1 1 。它们对w e b 页面作基 于关键字或者基于全文的索引,从而能够定位包含某关键字或待匹配字 符串的w e b 页面。利用搜索引擎,有经验的用户可以通过提供一组紧密 相关的关键字、待匹配字符串和词组,快速定位到所需的页面。 基于新近的人工智能技术从w w w 上更智能地提取信息的搜索工具,包 括i n t e l l i g e n tw e ba g e m ,i n f o r m a t i o nf i l t e r i n g c a t e g o r i z a t i o n ,p e r s o n a l i z e d w e b a g e n t s 9 2 1 。它们对h t m l 页面内容进行挖掘,对页面中的文本进 行文本挖掘 9 3 】,对页面中的多媒体信息进行多媒体信息挖掘 9 4 。包括 对页面内容作摘要、分类、聚类、过滤、信息提取、关联规则发现以及 某种程度的个性化。 基于本体的重构方法:对于半结构化甚至非结构化的w 曲信息,按照某 种本体论体系( 例如s e m a n t i cw 曲) 进行重构,使之具有诸如关系式数 据库或者x m l 等更为良好的结构化特性。然后就可以使用标准化的数 据库查询机制和数据挖掘方法进行分析 9 3 1 ,或利用一套具有语义内涵 的x m l 标签体系进行查询和挖掘。 ( 2 ) w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) :对w e b 页面之间的结构进行挖 掘。我们所使用的w e b ,是通过页面之间大量引用、链接关系而关联在一起的。 在整个w e b 空i b 】里,有用的知识不仅包含在w e b 页面的内容之中,而且也包含 在页面的链接结构之中。例如,如果我们发现一个论文页面经常被引用,那么这 个页面一定是非常重要的。发现的这种知识可以被用来改进传统的搜索引擎。目 前的主要方法是p a g e r a n k 9 7 1 0 7 和h i t s 5 9 8 】。 ( 3 1w 曲使用信息挖掘( w e bu s a g em i n i n g ) :对用户访问w e b 时留下的访阍 嗍络f : 志中用户兴趣的挖掘及利用 记录进行挖掘。常用的挖掘技术有统计分析,关联规则发现,生成序列模式,聚 类和分类,以及依赖关系的建模等。挖掘出来的模式可用于提供w e b 个性化服 务,系统优化,w e b 站点辅助设计,商业智能,w e b 使用特性的研究等。w e b 使用信息体现了用户使用w e b 资源的行为特点,以及隐藏在行为背后的更深层 次的动因和规律。因此,w e b 使用信息的挖掘作为w e b 挖掘的一个重要组成部 分,有其独特的理论和实践意义。 随着i n t e m e t 和w w w 的迅速发展,w e b 使用信息广泛、海量地遍及于其上。 w e b 使用信息数据具有如下特点1 9 0 1 : ( 1 ) w 曲使用信息数据是大规模的海量的数据信息,其分布广泛,形态多样, 具有丰富的内涵而且结构化程度高。 数据是大规模且海量的:一个中等大小的网站每天可以记载几m b 的 用户访问信息,记载着数万次用户的访问,随着时间的推移,所记载 的用户访问量信息更是非常庞大。 数据广泛分布于世界各处:世界上每一台w e b 服务器或w e b 代理服 务器都会遵循w 3 c 0 0 的w e b 使用信息标准,记录来自不同的地区、 种族、阶层等的访问者的访问信息。 数据时时刻刻地产生:只要用户对站点进行访问,那么用户访问信息 就会被记录;只要用户访问i n t e m e t ,那么必然至少有一个服务器记录 其访问行为。 访问信息形态多样:访问信息的格式在遵循w 3 c 1 0 标准的基础上, 各个服务器可以根据各自的特定的需求,制定新的扩展格式,以记载 更加详细的用户访问信息。访问信息格式的扩展,是当前w e b 服务发 展的一个新趋势。 访问信息具有丰富的内涵:访问信息记载了来访者,被访问页面,访 问时间等一系列信息。当这些信息被事务化,提取出访问页面特性, 访问路径特性,访问时间特性,以及将这些特性和网站原有的丰富的 拓扑结构和内容分布结合起来后,这些信息就具有了非常丰富的内 涵。 结构化程度高:访问信息一般都按照确定的数据格式由系统自动记 录,遵循w 3 c 1 0 标准的访问信息记录格式,可以很方便地转化成关 系式数据库进行结构化的处理,便于进行分类、聚类、统计分析和深 层次的挖掘。 ( 2 ) w e b 使用信息数据记录的是每个用户的访问行为,代表每个用户的个性: 同一类用户的访问,代表同一类用户的个性:一段时期的访问数据记载的 是群体用户的访问行为和群体用户的共性。 每个用户的访问特点可咀用来辨识该用户的特性。 群体用户的访问行为可以被分割为不同的类别,以体现各个类别用户 的共同特性。 基于同一类用户的特性,可以给该类中的每个用户提供推荐。 群体用户特性可以用来改变站点的设计结构,方便群体用户的访问。 ( 3 ) w e b 使用信息数据是网站的设计者和访问者进行沟通的桥梁。 由于网站的特点,网站的设计者不可能直接面对每一个访问者,那 么设计者如何能够得到访问者的反馈意见从而改进其服务呢? w e b 使用 2 第1 章绪论 信息挖掘为这种沟通提供了可能,成为网站设计者和访问者进行沟通的 主要桥梁。访问信息是自动记录的,双方通过这种“零干扰”的方式互 相了解、沟通,服务方据此改进自身的服务,访问者依此提高访问效率 或得到有价值的推荐。 ( 4 ) w e b 使用信息数据是开展数据挖掘研究的良好的对象。 数据挖掘的宗旨就是利用机器学习,模式识别,统计等一系列方法 和手段对现实世界中的数据进行分析和研究,以提取出有价值的知识。 于是对这些具有海量、广泛、形态多样、内涵丰富、结构化程度高等特 性的w e b 使用信息数据进行挖掘就自然成为数据挖掘研究的一个新兴 的、重要的研究领域。 w e b 使用信息从各方面详尽反映出用户访问w e b 的细节,是取之不尽、用之 不竭的宝贵资源。为了不浪费这宝贵丽丰富的资源,开展w e b 使用信息挖掘这 项研究具有广泛地普遍意义。通过对w e b 使用信息进行有效的数据挖掘,可以 帮助我们更好地理解w e b 和w e b 用户访问模式,这对于开发w 曲的最大经济潜 力是非常关键的。 基于以上理由,我选择w e b 使用信息的挖掘作为博士学位论文的研究主题。 1 2w e b 使用信息挖掘的研究现状 在w e b 迅猛发展的今天,几乎所有的公司、企业及政府部门都创建了网站, 提供w e b 服务,如网上购物、产品介绍、信息发布等等。于是,w e b 使用信息 成了取之不尽、用之不竭的宝贵资源,如何利用这宝贵的资源也成为大家关注的 热点。 第一次提出将数据挖掘技术用于w 曲使用信息这概念的文献是【6 】【7 】【8 】。 文献f 6 1 提出最大前向引用( m a x i m a lf o r w a r dr e f e r e n c e s ) 的概念,用于在w e b 日 志预处理阶段辨识用户访问事务。文献 7 】从w e b 日志中发掘频繁访问路径。文 献【8 】利用w e b 日志对w e b 访问者进行聚类。 w e b 使用信息挖掘旨在对w e b 使用信息进行各种定量或定性分析,揭示隐藏 在数据背后的各种关系,如关联关系,时序关系,页面类属关系,客户类属关系 等,找出频繁访问路径和频繁访问页面,从而向w 曲用户提供个性化服务,提 高w e b 服务质量,为w e b 站点的设计者提供优化站点的参考,为企业制定更有 效的市场营销策略提供依据,帮助企业确认目标市场,改进决策,获得更大的竞 争优势。 一般来说,w e b 使用信息挖掘包含三个阶段:数据预处理,模式发现和模 式分析。本节将以这三个阶段为框架,详细介绍w 曲使用信息挖掘的国内外研 究现状。文献 1 对2 0 0 0 年以前w e b 使用信息挖掘领域的研究作了综述。文献【2 】 从w e b 个性化角度对近年来的w e b 使用信息挖掘研究作了总结。文献【3 】着重介 绍了w e b 使用信息挖掘中的数据预处理,并对1 9 9 9 年以前w e b 使用信息挖掘方 面的研究作了小结。本节的部分内容将参考文献【l 】【2 】【3 】,此外还将介绍近年来 相关领域的主要研究成果。 网络f l 志中用户兴趣的挖掘及利用 1 2 1 数据预处理 数据预处理阶段是要把从各种数据源得到的使用信息、内容信息和结构信息 转换成模式发现阶段需要的数据抽象。 1 2 1 1 数据的收集 1 2 1 1 1 可使用的数据 可用于w e b 使用信息挖掘的数据主要有以下四类: 使用数据( u s a g e ) :描述w e b 页面的使用模式的数据,如i p 地址、页 面访问时间等,主要存在于服务器闩志中; 简档( u s e r p r o f i l e ) :描述w e b 用户的个人信息包括注册信息以及其他 一些显式或隐式的用户信息,如用户对产品、电影等对象的评价; 内容数据( c o n t e n t ) :w e b 页面的实际数据,如文本和图片: 结构数据( s t r u c t u r e ) :描述w e b 页面内容组织的数据,常用的结构信息 是w e b 页面之间的超链接。 1 2 1 1 2 数据源 以上可用于w e b 使用信息挖掘的数据主要从w e b 服务器( w e bs e r v e r ) ,客 户端( c l i e n t ) 和w e b 代理服务器( w e bp r o x y ) 这三个级别收集。 w e b 服务器的同志显式地记录了多个w e b 用户对单个站点的访问行为,是 w e b 使用信息挖掘的重要数据源,但w e b 的多级缓存会使日志变得不那么可靠。 此外,也可以利用捕包技术( p a c k e ts n i f f i n g ) 直接从流入w e b 服务器的t c p i p 包中收集使用数据。w e b 服务器还利用c o o k i e s 和查询日志保存使用信息。除了 提供使用数据,w e b 服务器还提供内容数据、结构数据和w e b 页面的元信息( 例 如文件的大小和文件的更新时间) 。 从客户端收集数据可以比较全面、准确地收集到用户数据。可以使用远程 代理( r e m o t ea g e n t ) ,如j a v a s c r i p t 或j a v aa p p l e t s 也可以通过修改测览器的源 代码达到收集数据的目的。但客户端的数据收集需要用户的合作,要么用户允许 j a v a s c r i p 和j a v aa p p l e t s 功能,要么用户自愿使用修改过的浏览器,这也是在客 户端收集数据的困难所在。 w e b 代理服务器作为w e b 服务器和客户端之间的中间级缓存,能够减少用户 下载w e b 页面的时间,减少w e b 服务器和客户端之间的网络流量。w e b 代理服 务器的同志记录了多个w e b 用户向多个w e b 服务器的请求,可以用来辨识共享 同一一台w e b 代理服务器的用户组的访问行为。 服务器的日志格式一般都遵从w 3 c 1 0 l 标准,如表1 1 所示。 4 第1 章绪论 表1 1 服务器日志示例 伊a d d r e s su $ c f 【dn m em ec h o d ,u p p r o t o c o ls t a u t ss i z c l o d e c 2 0 0 3l23 41 6 _ 0 6 0 0。g er i m a g e s g a a tg i f h t n v lr2 0 0 2 0 3 。28 75i 0 d e c 2 0 0 31 2 :3 4 :3 2 - 0 6 0 21 g e t g r a d u a t eh t mh 丁r p ,ii 2 0 0 2 0 3 1 0 18 251 0 k ) e c 2 0 0 3 :1 2 :3 4 :3 24 ) 6 0 0“g e t i m a g e s h a h aj p g h r r p ,ll “ 1 8 4 8 l 2 0 3 1 4j8 69 lo ,d e c ,2 0 0 3 1 2 :3 4 :4 8 _ 0 6 0 0”g e t r e s u l th i mh t i p ,10 ”1 2 3 0 2 2 0 0 13 725 21 0 d e c 2 0 0 3 :i2 :3 4 :5 8 _ 0 6 0 0g e t s t r u c t u r eh t mh 1 t l l “2 0 03 6 7 2 0 51 2 855 8】0 d e c ,2 0 0 31 23 45 8 0 6 0 0“g e l a b c i n d e xh t mh 兀甲il “ 2 0 04 3 7 0 2 0 8l5 39 9 7 81 0 d e c 2 0 0 3 1 23 4 。5 8 0 6 0 0”g e t a b c c o n t e n th t m h t t p ,li 2 0 0 2 0 61 6 0s 58 81 0 d e c 2 0 0 3 。1 23 4 :5 8 埘0 0 ”g e t i m a g e s g t y j p g r r t p 1 l “ 1 2 1 2 数据的抽取 对数据源提供的数据需要进行抽象抽取。为了保证抽取结果的一致性,w 3 c w e b c h a r a c t e r i z a t i o n a c t i v i t y ( w c a ) 9 】发布了w e b 使用信息挖掘的一些概念, 以下为其中的一部分: 用户( u s e r ) :一个用户是通过浏览器访问一个或多个w e b 服务器的个 体。这个定义很简单,但实际上辨识用户是一件很困难的事情( 参见 1 2 1 3 1 ) 。 页面文件( p a g ef i l e ) :一个页面文件是w e b 服务器通过h r r p 请求发给 用户的文件。页面文件往往在w e b 服务器上静态存在,有时候w e b 服务 器为了响应用户的请求,会动态生成一些页面文件。 页面视图( p a g ev i e w ) :一个页面视图由一组页面文件组成,如f r a m e 、 图片和s c r i p t 等,它们在用户浏览器上同时显示。在分析用户行为时, 不是页面视图中的所有文件都有用( 参见1 2 1 3 i ) 。页面视图通常与一 个用户的行为相关,如一次鼠标点击( 本章以下内容中的“页面”如无 特别说明,均指页面视图) 。 点击流( c l i c ks t r e a m ) :也称连续h t t p 请求序列。是由用户从客户端 浏览器上连续发出的h 丁r p 请求序列。 一次访问用户( o n e u s e r a t a t i m e ) :是指一位通过一个客户端浏览器向 一个w e b 服务器发出连续h t t p 请求序列的访问者。这个访问者是针对 w e b 服务器而言的,是w e b 服务器所能辨识的用户,通常和一个真实用 户的一次访问相对应。如果一个真实的用户每隔一段较长的时间对一个 w e b 服务器发出一次连续h t t p 请求序列,那么对该w e b 服务器而言, 就有多个一次访问用户进行了访问。如果一个真实的用户通过不同的客 户端浏览器对一个w e b 服务器发出连续h t t p 请求序列,那么对该w e b 服务器而言,就有不同的一次访问用户进行了访问。这个概念的提出将 一个真实的用户和该用户的一次访问作了区分。 用户访问会话( u s e rs e s s i o n ) :是指由一个用户发出的对w e b 的一次连 续h t t p 请求序列。 服务器用户访问会话( s e r v e rs e s s i o n ) :简称用户访问事务( u s e r t r a n s a c t i o n ) 。是指一个用户对一个w e b 服务器的一次访问,由这次访问 嘲络日忐中用户兴趣的挖掘及利用 中的请求页面序列组成。 访问片断( e p i s o d e ) :任何有意义的用户访问会话或用户访问事务的子 集。 w 3 cw e bc h a r a c t e r i z a t i o na c t i v i t y ( w c a ) 发布的这些概念是整个w e b 使用 信息挖掘的基础。有些文献还在这些概念上提出了一些扩展的概念,比如【6 】提 出了最大前向引用( m a x i m a lf o r w a r dr e f e r e n c e s ) 的概念,是指用户在一次访问 中,点击浏览器中的回退( b a c k ) 键之前访问的最后一个页面。例如,一个用 户访问会话中包含这样的访问请求序列:a 斗b 。爿斗c 斗d 叶c ,那么这个 会话的最大前向引用就是b 和d 。最大前向引用的意义在于用户回退后访问的 页面一定是已经访问过的页面。这个概念的提出有助于辨识用户访问事务。 1 2 1 3 数据的预处理 1 2 1 3 1 使用数据的预处理 使用信息的预处理主要是服务器日志的预处理,一般包括以下五个步骤: ( 1 ) 数据清洗( d a t ac l e a n i n g ) :用户的一次请求可能会让浏览器自动下载多个 附属物,如一些图片等,下载的所有文件构成一个夏面视图( 参见1 2 1 2 ) ,造 成一次请求对应多个同志项的情况。数据清洗就是要除去这些附属物对应的日志 项。一般采用的方法是除去u r l 中包含后缀为g i f ,g i f ,i p e g ,j p e g ,j p g ,j p g , m a p 等的文件的同志项。 ( 2 ) 用户辨识( u s e ri d e n t i f i c a t i o n ) :辨识用户的困难主要是由本地缓存和代 理服务器造成的。为了提高网络的性能。减少网络流量,绝大多数w e b 浏览器 缓存已请求到的页面,这样,当一个用户点击回退键时,缓存的页面则被显示出 来,而w e b 服务器并不知道页面被再次访问了。w e b 代理服务器提供了一个中 间层的缓存,给用户的辨识带来了更多的麻烦,例如所有通过一个w e b 代理服 务器的请求都具有相同的i p 地址,造成多个用户的请求被误认为单个用户请求 的情况。那么如何较好地辨识用户呢? c o o k i e s 是w e b 设计者用来标记和跟踪访 问用户的,可以使用c o o k i e s 来辨识用户,但这需要用户允许浏览器使用c o o k i e s 。 还可以通过用户注册来标记用户,但注册往往被看成是一种对隐私的侵犯,用户 往往不愿意登录需要注册的w e b 站点。这些依赖用户的合作,辨识用户的方法 虽然简单,但因为涉及隐私问题,所以不容易实现。一些启发式信息可以用来帮 助辨识用户。例如,对于i p 地址相同的目志记录,可以观察日志记录中主机代 理( a g e n t ) 这个字段,这个字段记录了访问者使用的浏览器或操作系统的版本, 如w i n 9 5 、i r i x 6 2 等。如果该字段显示浏览器或操作系统有所变化,那么可以 假设是不同的用户使用了同样的i p 地址。另一种辨识用户的启发式信息是通过 访问同志和站点拓扑结构为每个用户构造的浏览路径。如果发现一个用户的一次 请求的页面不可能通过陔用户这次请求之前已访问的任何一个页面的链接直接 到达,那么可以假设这个请求是具有同一i p 地址的另一个用户发出的。但这些 仅仅是启发式信息,不能完全依赖它们辨识用户。比如两个用户使用同样的i p 地址,同样机器上的浏览器,而且他们访问同样的w e b 页面集,那么根据启发 6 第l 章绪论 信息,他们很可能被看成是同一个用户。如果一个用户在同一台机器上运行了两 个不同的浏览器,或者他在浏览器中直接敲入u r l ,没有使用站点链接结构, 那么根据启发信息,很可能被误认为多个用户。 ( 3 ) 用户会话辨识( s e s s i o ni d e n t i f i c a t i o n ) :如果一个用户的日志记录跨度很 长的时间,那么可以猜测,该用户多次访问了w e b 。用户会话的辨识就是把用户 的访问日志分割成一个个的会话。一般地,以一段固定时间作为时限,如3 0 分 钟,一个用户每3 0 分钟以内的访问序列被看作是该用户的一个会话。时限的选 择可以通过同志的统计分析来确定。 ( 4 ) 补全路径( p a t hc o m p l e t i o n ) :由于缓存等原因使得访问同志中并没有完 全记录用户的访问行为,补全路径就是要将用户会话中的访问路径补全,从而更 好地反映用户的访问过程。用于辨识用户的方法都可用来补全路径。例如,如果 一个用户的一次请求的页面不是从上一次请求的页面中链接而来,而且这次请求 的页面是用户最近曾经请求过的页面,那么可以假设用户使用了浏览器的回退 键,重新使用了缓存的页面副本。和辨识用户会话类似,也可以使用站点拓扑结 构来帮助补全路径。 f 5 ) 事务辨识( t r a n s a c t i o ni d e n t i f i c a t i o n ) :从用户访问会话中找出有意义的页 面访问序列。有不少用于辨识事务的算法,如基于最大前向引用的事务辨识【6 】 和基于访问长度的事务辨识【1 l 】。基于访问长度的事务辨识方法基于这样的假设: 一个用户驻留在一个页面上的时间和这个页面对于该用户来说是否重要成正比。 以上这五个步骤不一定都需要,要根据具体分析和应用的目标决定。比如, 本文的研究是针对w 曲用户潜在兴趣的挖掘,这些潜在的兴趣存在于长期的日 志中,所以只需要数据清洗和辨识用户这两个步骤,也就大大降低了预处理的难 度。 1 2 1 3 2 内容和结构数据的预处理 内容和结构数据的预处理是根据具体的应用把w e b 页面中的文本、图像、 s c r i p t 以及w e b 页面间的超链接等数据转化成用于w e b 使用信息挖掘的格式。例 如根据一个w e b 页面的文本内容,描述该页面涉及的概念主题,用于w e b 页面 的聚类 1 2 1 3 1 :根据w e b 页面之间的超链接信息构造w e b 站点的拓扑结构图, 用于辨识用户。 1 2 1 3 3 数据预处理的结果 经过以上的预处理后,可以得到一个页面集合p = p 。,p :,p 。 ,和一个用 户事务集合t = f 。,f 2 ,t 。) ,其中t t 是p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论