




已阅读5页,还剩57页未读, 继续免费阅读
(通信与信息系统专业论文)web使用挖掘的个性化推荐系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着电子商务,w e b 服务以及基于w e b 的信息系统的持续壮大和发展,基于 互联网的信息量以及信息交互量越来越大。如何从这海量的数据中发现有用的 信息,为访问者提供更个性化的服务,满足用户需求给我们带来了一个严峻的 挑战。由此,w e b 数据挖掘孕育而生,而作为分析用户行为的重要组成部分, w e b 使用挖掘( 也称日志挖掘) 日渐成为研究重点。w e b 使用挖掘旨在从用户 聚集的大量点击流( c l i c k s t r e a m ) 和用户数据( u s e rd a t a ) 中分析产品设计,评 估页面相关性,优化w c b 应用程序的功能,从而为访问者提供更个性化的内容。 本文以服务器访问日志为数据源,利用w e b 使用挖掘和个性化推荐相关理 论,综合分析大量w e b 个性化推荐方面论文,通过建立聚类模型和分析w e b 访 问行为来理解线上用户的信息需求,提出了一个由线上和线下系统组成的w e b 个性化推荐系统的设计框架并实现。其中重点就数据预处理方法,访问模式页 面聚类,相似性页面的分类推荐三个方面进行了深入研究。具体工作如下: ( 1 ) 作为w e b 日志挖掘的必要工作,研究了数据预处理的过程和方法,包 括数据清理,用户识别技术和会话识别技术。并根据本系统情况采用其中一种 算法并适用。 ( 2 ) 页面聚类可以发现用户的访问模式,本文根据前人的一种页面聚类算 法( s u g g e s t 系统) 提出一种新的基于图分割的聚类算法:根据不同的页面相 关度计算公式建立无向图,然后用深度优先搜索算法( d f s ) 进行聚类。 ( 3 ) 系统预测和推荐方面,设计了一种以计算页面访问序列相似度为基础 的推荐方案,根据当前用户的活动会话和上一步存储的页面聚类结果用l c s 算 法进行相似度匹配,得出推荐页面列表反馈给用户。 ( 4 ) 最后根据提出的算法,进行了实际数据的实验验证和结果分析,证明 本文的算法和设计的实际可行和有效。 关键词:w e b 使用挖掘,d f s ,个性化推荐,l c s 武汉理工大学硕士学位论文 a b s t r a c t a se - c o m m e r c e ,w e bs e r v i c e sa n dw e b - b a s e di n f o r m a t i o ns y s t e mc o n t i n u e d g r o w t h a n d d e v e l o p m e n t g r o w i n g i n t e r n e t b a s e di n f o r m a t i o nc o n t e n ta n d i n f o r m a t i o ne x c h a n g e ,i ti sas e r i o u sc h a l l e n g eh o wt of i n du s e f u li n f o r m a t i o nf r o m t h i sv a s ta m o u n t so fd a t at op r o v i d em o r ep e r s o n a l i z e ds e r v i c et om e e tc u s t o m e r n e e d st h u s ,w e bd a t am i n i n gb r e d , a s 锄i m p o r t a n tp a r to ft h ea n a l y s i so fu s e r b e h a v i o r , w e bu s a g em i n i n g ( a l s ok n o w na sl o gm i n i n g ) i sb e c o m i n gar e s e a r c hf o c u s w e bu s a g em i n i n ga i m sg a t h e r e df r o mt h eu s e rc l i c k - s t r e a ma n du s e rd a t aa n a l y s i so f p r o d u c td e s i g n , a s s e s st h er e s u l t sp a g e ,t oo p t i m i z et h ef u n c t i o n a l i t yo ft h ew e b a p p l i c a t i o n , w h i c hp r o v i d e sv i s i t o r sa m o r ep e r s o n a l i z e dc o n t e n t t h es e r v e ra c c e s sl o gd a t as o u r c e su s i n gw e bu s a g em i n i n ga n dp e r s o n a l i z a t i o n r e c o m m e n d a t i o nr e l a t e dt h e o r i e s ,c o m p r e h e n s i v ea n a l y s i so fal a r g en u m b e ro fw e b p e r s o n a l i z e dr e c o m m e n d a t i o na s p e c t so ft h ep a p e r , m o d e l i n ga n da n a l y s i so fw e b a c c e s sb e h a v i o rt ou n d e r s t a n do n l i n eu s e r s i n f o r m a t i o nn e e d s ,aw e bp e r s o n a l i z e d r e c o m m e n d a t i o n s y s t e mc o n s i s t i n go fb o t l l o n l i n ea n do f f i i n e s y s t e md e s i g n f r a m e w o r k w h i c hf o c u s e so nd a t ap r e p r o c e s s i n gm e t h o d s ,a c c e s sm o d ep a g e c l u s t e r i n g ,t h es i m i l a r i t yo f t h ec l a s s i f i c a t i o no ft h ep a g et or e c o m m e n dt h r e ei n - d e p t h s t u d y s p e c i f i ca c t i v i t i e si n c l u d et h ef o l l o w i n g : ( 1 ) n e c e s s a r yt ow o r ka saw e bl o gm i n i n g ,r e s e a r c hp r o c e s sa n dm e t h o d so f d a t ap r e p r o c e s s i n g ,d a t ac l e a n i n g ,u s e ri d e n t i f i c a t i o na n ds e s s i o ni d e n t i f i c a t i o n t e c h n o l o g y a c c o r d i n gt ot h i ss y s t e mu s i n ga na p p r o p r i a t ea l g o r i t h ma n da p p l y ( 2 ) p a g ec l u s t e r i n gc 锄b ef o u n di nt h eu s e r sa c c e s sp a t t e r n s ,a c c o r d i n gt oa p r e v i o u sp a g ec l u s t e r i n g ( s u g g e s ts y s t e m s ) t op r o p o s ean e wc l u s t e r i n ga l g o r i t h m b a s e do ng r a p hp a r t i t i o n :t h ee s t a b l i s h m e n to fa nu n d i r e c t e dg r a p ha c c o r d i n gt ot h e d i f f e r e n tp a g e sc o r r e l a t i o nf o r m u l a , a n dc l u s t e ra c c o r d i n gu s i n gt h ed e p t h - f i r s t s e a r c ha l g o r i t h m ( d f s ) ( 3 ) f o r e c a s t sa n dr e c o m m e n d e da s p e c t so fac a l c u l a t i o no fp a g ev i e w ss e q u e n c e 武汉理工大学硕士学位论文 s i m i l a r i t yb a s e do nt h er e c o m m e n d a t i o no fm ep r o g r a m ,a c c o r d i n gt o t h ec u r r e n t u s e r sa c t i v es e s s i o na n dt h es t e pi ss t o r e do nt h ep a g ec l u s t e r i n ga l g o r i t h ml c s s i m i l a r i t ym a t c h i n g ,c o m et or e c o m m e n d t h ep a g el i s tf e e d b a c kt ot h eu s e r ( 4 ) f i n a l l y , t h ep r o p o s e da l g o r i t h mt oc a r r yo u tt h ee x p e r i m e n t sa n da n a l y z i n g t h er e s u l t so ft h ea c t u a ld a t at op r o v et h a tt h ea l g o r i t h ma n dd e s i g no ft h i sp a p e ri s p r a c t i c a la n d e f f e c t i v e k e y w o r d s :w e bu s a g em i m n g ,d f s ,p e r s o n a l i z e dr e c o m m e n d a t i o n ,l c s i i i 武汉理工大学硕士学位论文 第1 章绪论 1 1 研究的背景和意义 过去的2 0 年,是互联网飞速发展的阶段,于是其逐渐变成了世界上规模最 大的公共数据库。它具有的很多特点,使得对知识任务和有用信息的挖掘变得 充满吸引力并富有挑战。概括来说包括以下特点: ( 1 ) 互联网上很多信息是互连的。网站内部和网站之间的网页通过超链接 建立联系。如在一个网站内部,超链接是一种有效的信息组织方式,而在多个 网站之间,超链接将成为本网页和目标网页连接的纽带。一般来说被多次链接 的页面通常具有较高的网页质量,从而成为权威页面。 ( 2 ) 互联网上的数据量巨大,可以用t b 来衡量,并且依然在不断增长。 而且这些数据内容多样且主题广泛,用户几乎可以在上面找到任何信息。 ( 3 ) 互联网上的各种类型的数据信息一般是异构( h e t e r o g e n e o u s ) 的。不 仅仅网页的作者不同,即使相同作者,多数相同或者相似内容的网页也可能会 使用完全不同的格式或文字。这使得整合多网页的信息成为了一种挑战。 ( 4 ) 最后还有大量的数据隐藏在页面背后,集中在w | e b 站点的日志上。 w 曲站点记录了w - e b 页面浏览者的所有动作,即大量点击流( c l i c k s t r e a m ) 和 用户数据( u s e rd a t a ) 。 如何利用这个机会,从以上这些大量且看似毫无意义的繁琐数据中得到大 家都能看得懂,有价值的信息和知识是我们面临的问题。所以出现了数据挖掘 技术在w e b 分析方面的应用,即w e b 挖掘【l j 。 目前w e b 的数据挖掘有很大一部分集中在w e b 站点的日志上。w e b 日志基 本记录的浏览用户的所有动作,将w e b 日志为作为挖掘对象由以下3 个方面的 原因【2 l : 首先,w e b 日志是一个更新及时,内容丰富的数据源,里面记录了用户每 天的各种访问,操作行为,数据可以不断积累,为用户和产品分析提供了充分 的数据源;其次,w e b 日志的获取方式简单,且覆盖广泛,成本很低,相比网 页内容的无序、杂乱,日志的半结构化存储方式也让应用变得更为简单。最后, 武汉理工大学硕士学位论文 日志还是用户和产品之间的纽带,记录的是用户真实的使用行为,准确反映了 用户的实际意图,是一份非常客观、真实的研究数据。因此,日志是w e b 挖掘 的重要数据源,w e b 使用记录挖掘( 也叫日志挖掘) 具有一定的研究意义和广 阔的应用前景。 w e b 使用记录挖掘中的一个主要应用方面就是通过建立用户预测模型实现 个性化。在当今这个信息社会,w e b 站点管理人员如何能够更加了解客户,满 足不同客户的不同需求以吸引客户,就成为了一项十分重要紧迫的研究课题。 以上需求,催生了w e b 使用挖掘技术的发展,w e b 使用挖掘通过研究分析用户 访问w e b 服务器时记录的日志文件,以发现用户访问站点的浏览模式,为站点 管理员提供各种利于w 曲站点改进或者可以带来经济效益的有用信息。因此w r e b 日志数据挖掘,已经成为现在的一个研究热点。 1 2 国内外研究现状 w e b 日益增长的访问量和信息量越来越大,针对访问日志的w e b 使用挖掘 孕育而生,目前国内外的对w e b 使用挖掘的研究主要集中在关联规则分析,聚 类分析和预测,复杂型数据的数据挖掘等领域。而目前的研究工作的主要分以 下三个目标进行【3 】: ( 1 ) 改进w e b 站点设计 通过对用户的频繁访问路径的挖掘和建立用户聚类,来重构站点内页面之 间的链接关系,以适应用户的访问习惯,同时为用户提供个性化的信息服务, 即应用信息推广技术构建智能化w e b 站点,其中自适应站点【4 5 】都属于此类。 ( 2 ) 分析w e b 站点性能 这种挖掘主要是从统计学的角度进行,对日志数据项进行简单的统计,得 到用户频繁访问页、访问数量随时间分布图,单位时间的访问数等参数。对于 此类已经很有很成熟的商业和非商业的w e b 日志分析工具1 6 7 , 8 1 。 ( 3 ) 理解用户意图 主要是通过用户与w e b 服务交互过程来收集用户的信息,包括前端c o o k i e 信息和服务器日志记录信息等,服务器根据这些信息做一定的处理后对用户请 求的页面进行裁剪,为用户返回定制的页面,或者提供推荐页面以达到预测用 户未来行为的目的。 目前国内外对w e b 使用挖掘有两种主要方法。第一种是h a n 等人提的1 9 】基 2 武汉理工大学硕士学位论文 于数据立方体的方法,他根据w e b 日志文件,建立数据立方体( d a t ac u b e ) , 然后对数据立方体行数据挖掘和联机分析处理( o l a p ) 。这种方法的核一t l , 在于 将w e b 日志变为结构化的数据立方体,能从多角度全面地进行挖掘和分析,并 能引入各种成熟的数据挖掘技术,有利于w e b 挖掘与数据挖掘技术的迅速融合 与发展。具体过程如图1 1 所示。 多维视图 - - - 4 ) 汇总分析 分类分析,关联分析 i w e b l 日g 逐层细分分析特征分析,性能分析 l 切片分析趋势分析,预测分析 。 过滤 切块分析时间序列分析 转换 数据库 图1 1基于数据立方体的方法 第二种是c h e n 1 0 1 等提出的基于w e b 事务的方法,这种方法用以发现用户的 访问模式。他们提出了最大向前引用算法m f r ( m a x i m a lf o r w a r dr e f e r e n c e ) 概 念,并用该算法将会话分割成一系列的事务,然后采用类似关联规则的方法挖 掘用户的频繁访问路径,这是最早通过用户会话来分析日志中隐含的访问关系。 这种方法如图1 2 所描述。后来的研究者对于用户会话或页面的聚类进行了大量 研究,并提出多种会话的相似性度量方法和聚类的算法。 数据预处理 序列模式识别 i 眦日志卜 数据过滤 一嗍法h 麴霉驴 用户识别 序列模式分析会话识别 页面过滤 路径补充 析h 用户攀果 图1 2 基于w e b 事务的方法 一般w e b 使用挖掘( w u m ) 包括三个主要过程:数据预处理,数据挖掘和 模式分析l 】。近年来,很多w e b 使用挖掘( w u m ) 系统被提出来预测用户的偏 爱和他们的访问行为。 a n a l o g ( y a n ,j a c o b s e n ,g a r c i a m o l i n a ,& d a y a l ,1 9 9 6 ) 是第一个w u m 系 统【1 2 l 。这个系统由线下部分和线上部分组成。线下部分通过分析服务器日志记 录的用户行为构建一个会话聚类。线上部分构建了活跃用户会话,然后根据建 武汉理工大学硕士学位论文 立好的模型来分类。分类用来确定活跃会话中的相关页面,返回一个推荐页面 列表。考虑到结果集的规模和有效性,这个用来聚类的几何方法受到很多方面 的限制。然而这个结构方案的提出推动了后续的研究。 h u a n 和k a m b e r ( 2 0 0 0 ) 提出一个w e b 挖掘方法1 1 3 1 ,一个应用于挖掘w e b 数据的新的统一方法。然而,w e b 挖掘工具目标是从w e b 中抽取知识,而不是 检索信息。 m o b a s h e r ,c o o l e y ,s r i v a s t a v a ( 2 0 0 0 ) 和n a k a g a w a ,m o b a s h c r ( 2 0 0 3 ) 提出了一个w e b p e r s o n a l i z e r 系统【1 4 1 ,这个体统给用户提供一个动态变化的超链 接表。这个方案基于匿名数据和网站超链接结构。数据挖掘技术( 聚类,关联 规则,序列模式发现等) 用来预处理总的日志文件。在这部分中,w e b 服务日 志将转为由访问页面序列组成的聚类,这些页面聚类有共同的特征。在线部分 利用活跃用户会话来发现用户活动和已经挖掘的聚类间的相似性。相似的条目 插入页面最后组成超链接列表。在个性化系统中w e b p e r s o n a l i z e r 是一个很不错 的两层结构的例子。 在开发自适应网站中一个基于图分割理论的方法被提出来,这个方法能自 适应的调整网站结构和利用使用挖掘来展现个性化推荐( p e r k o w i z & e t z i o n i , 2 0 0 0 b ) 1 4 1 。这个系统的核心在于一个新的聚类方法,一个利用页面聚集算法 ( p a g e g a t h e r ) 的聚类挖掘。这个算法把用户会话( 一列被访问页面) 做输入。 用这些数据,算法创建出一个图,每个页面一个节点,如果两个页面共同出现 在超过一定数量的会话中,两个节点的边会被连上。这个算法优势在于创建了 重叠聚类。进一步说相对于其他聚类算法,通过这个方法产生的聚类用户特点 更直接。这意味这每个聚类表示网站中相关页面的一个唯一的访问行为模式。 但是,基于图的的算法计算花费是很大,尤其应用在这种聚类计算。 另一个聚类分区方法是w e b c a n v a s ,能够使每个聚类中的用户访问路径 可视化( c a d e z ,h e c k e r m a n ,m e e k ,s m y t h ,& 帅i t e ,2 0 0 0 ) 1 1 5 】系统中,用户会话按 w e b 页面的主题分类展现。还有一些w e b 日志文件中的u r l 被分给预定义的分 类,用来构建用户会话。 b a r a g l i a 和p a l m e r i n i 提出了一个w u m 系统,称为s u g g e s t ,帮助挖掘 w e b 访问模式从而优化w 曲服务性能【l6 1 。s u g g e s t 采用两级结构,由线下历 史知识发现和线上推荐引擎组成。当请求到达系统模块,就会根据当前用户会 4 武汉理工大学硕士学位论文 话和之前的聚类结果来更新页面结构。 国内研究起步较晚,但也有不少新颖的观点和成果。 一种用神经网络对w ,e b 用户行为进行聚类分析旧的方法最初由王熙法等人 提出,这个方法首先对w e b 服务器的日志进行分析,再进行会话分析,从会话 向量中找出频繁数据集,进行归一化处理生成模式向量,最后采用s o f m 模型 进行聚类操作来生成用户聚类。 刘青【l8 】主要就用户会话识别,会话聚类,网页聚集三个问题进行了主要研 究。建立基于时间和频率的会话向量矩阵,为会话的聚类建立模型:用户聚集 方面提出将粒子群优化算法( p s o ) 和k m e a n s 算法结合,在p s o 算法达到最 优解附近时,转向k m e a n s 算法。 沈均刻1 9 1 等人提出以w e b 站点日志中的u r l 为行,以u s e r l d 为列,建立 出u r l u s e r l d 的关联矩阵,矩阵的元素值为用户的访问次数。然后,对行向量 进相似性分析可以获得相关w e b 页面,对列向量进行相似性分析得到相似客户 群体;最后得到频繁访问路径。论文最后以此为根据提出了w ,e b 页面和用户群 体的模糊聚类算法。 刘坤1 2 0 j 设计了一个实时分析l o g 日志的个性化推荐页面系统。模式挖掘( 线 下部分) 主要用a p r i o r i 关联规则算法并做了实验,线上部分采用滑动窗1 2 来实 现,当还需要知道网站拓扑结构,对经常更新的页面分析并不好。 1 3 论文内容和组织结构 本文最开始讨论了w e b 使用挖掘数据预处理方法,然后研究了聚类算法尤 其是页面聚类挖掘的相关方法,将系统分为线下聚类部分和线上推荐部分。论 文基于图分割的方法提出一个新的用于生成用户访问模式的聚类方法,以此来 挖掘日志中的用户访问模式。在线上预测模型中提出一个基于最长子序列( l c s 算法) 的方法来分类用户访问模式,给出推荐页面来预测用户未来行为。最后 对以上算法和系统设计进行了实验,聚类算法和推荐系统中对比了s u g g e s t 系统提出的方法。 论文共分五章,具体组织结构如下: 第一章绪论,主要介绍了本文研究的背景和意义,国内外对于w e b 使用挖 掘,基于w e b 使用挖掘的个性化推荐方面的发展和现状,以及存在的问题,最 后是论文的组织结构。 武汉理工大学硕士学位论文 第二章介绍了w e b 数据挖掘的概念,以及w e b 使用挖掘的研究方法和研究 的过程。还有基于w e b 使用挖掘的聚类方法和个性化推荐系统的研究,分析了 一般系统的框架结构。 第三章主要是系统的研究和设计方案,包括线下聚类和线上推荐。首先, 针对w e b 使用挖掘中的页面聚类算法进行研究,提出一个根据图分割算法的页 面聚类方法,这个方法是根据用户访问页面相关度创建一个无向图,并用一个 合适的公式来表示无向图边的权重,最后用d f s 图搜索算法产生页面聚类。利 用以上方法能够从预处理后的日志数据中挖掘出用户访问模式;线上部分,用 最长子序列( l c s ) 算法找到与当前的用户访问序列最相似的访问模式,并产生 推荐集合。 第四章详细说明了系统实现,和实验评估方法和实验对比结果,并给出图 表分析得出结论。 第五章总结与展望,总结了论文的主要工作和其中的不足,并对下一步工 作进行了展望。 6 武汉理工大学硕士学位论文 第2 章w e b 使用挖掘和个性化推荐 2 1w e b 数据挖掘 2 1 1w e b 数据挖掘的概念 w e b 数据挖掘( w e bd a t am i n i n g ) ,简称w e b 挖掘,是一个涉及w e b 数 据挖掘,信息学,计算机语言学等多个领域的综合技术。w e b 数据挖掘( w e b m i n i n g ) 是从w 曲文档和w e b 活动中抽取感兴趣的、潜在的有用模式和隐藏 的信息,w e b 数据挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行 挖掘,确定权威页面,w e b 文档分类,w e b 日志挖掘,职能查询,建立w e b 元数据仓库等。 一般来说,w e b 数据挖掘,是指从大量w e b 文件的集合c 中发现隐含模式p 和知识g 的结果s 。因此,w e b 数据挖掘的过程就是从输入到输出的一个映射 孝:c 专s ( p ,g ) 2 1 1 。指通过一定的算法,从大量的,不完全的,随机的w ,e b 数据 中抽取模式,提取知识的过程,其实质是一种从数据中学习的方法。 2 1 2w e b 数据挖掘的分类 w e b 数据挖掘是为了从w e b 页面的超链接结构,网页内容和服务器日志中 查找和发掘出有用的信息。因此,根据以上数据源和数据类别,w e b 数据挖掘 的任务可以划分为三种主要类型【捌:w e b 结构挖掘( w | e bs t r u c t u r em i n i n g :w s m ) 、 w ,e b 内容挖掘( w e bc o n t e n tm i n i n g :w c m ) 和w e b 使用挖掘( w e bu s a g em i n i n g : w u m ) 。如图2 1 所示。 7 武汉理工大学硕士学位论文 w e b 数据挖掘 w e b l 内容挖掘ii w e b 使用挖掘ii w e b 结构挖掘 w e b 文本挖掘ll 裟嚣ll 访最篓式ii 德龄li 超警挖il 嘿嬲 图2 1w - e b 数据挖掘的分类 ( 1 ) w e b 结构挖掘。w e b 结构挖掘从页面的超链接中寻找有用的知识。从 这些链接中,我们可以找出哪些是重要的网页,并进行权重排序,这搜索引擎 的一项重要技术。 ( 2 ) w e b 内容挖掘:w r e b 内容挖掘是从网页丰富的内容中抽取有用的信息 和知识。根据网页的主题,可以进行自动聚类和分类。也可以根据模式从网页 中抽取有用的信息,如论坛回贴,商品描述等,而这些挖掘出来的信息可以被 用作进一步分析来挖掘出用户意图。 ( 3 ) w e b 使用挖掘:w e b 使用挖掘从记录每个用户点击情况开始,使用日 志来挖掘用户的访问模式。使用挖掘使用了许多数据挖掘算法,其中一项重要 的部分是点击流数据的预处理,生成可以用来挖掘的合适数据。w e b 使用挖掘 主要分为两个研究方面:访问模式挖掘和个性化推荐挖掘。前者通过w e b 日志 记录来了解用户的访问模式和倾向。后者则倾向于分析单个用户偏好。 2 2w e b 使用挖掘 2 2 1w e b 使用挖掘概述 w e b 使用挖掘是w e b 数据挖掘的重要组成部分,它把数据挖掘技术作用于 w e b 服务器日志文件或者其他记录用户行为的文件,通过对w e b 服务器日志数 据记录深入分析,来发现用户的访问模式和兴趣爱好等潜在的有用的信息,从 而有利于设计人员掌握用户的喜好和访问习惯,进而改进w e b 站点设计结构, 提高w e b 服务器的服务质量,更好地为用户提供服务。 8 武汉理工大学硕士学位论文 w e b 使用挖掘的一般流程包括:数据的获取与预处理、模式发现和模式分 析。流程如图2 2 所示。 源数据预处理模式发现 模式分析 图2 2w e b 使用挖掘的一般过程 2 2 2 数据来源和预处理 数据预处理的目的,是通过对w e b 日志文件的提取,分解过滤,合并的过 程,最后转换为合适数据挖掘的数据格式,比如保存到关系型数据库表或者数 据仓库中,等待下一步处理。日志文件的预处理流程如图2 3 所示。 图2 3 数据预处理过程 ( 1 ) 挖掘数据源 w e b 使用记录挖掘中的主要数据来源是服务器日志文件,日志文件包括w e b 服务器访问日志和应用服务日志。总结来说,各个方面的数据被分为4 个基本 部分。 1 ) 站点记录的应用交互数据 这类数据一般是有某个w e b 站点根据自己的应用方向和目的,有针对性的 记录用户页面上的交互行为。如搜索引擎记录的用户搜索关键词、电子商务网 站记录的用户鼠轨迹等。这类数据的针对性很强,范围只局限于拥有这种记录 模块的个别网页,同时记录模块也会对w e b 服务器的性能产生一定的影响。 2 ) 客户端记录的浏览交互数据 这类日志数据通过浏览器插件或者一些客户端软件才能实现,这个数据能 真实的有针对性的记录了用户浏览器上的访问行为,最全面的用户访问行为的 9 武汉理工大学硕士学位论文 记录。然后实时传送给日志服务器,不影响w e b 服务和用户访问体验,能够快 捷、准确的识别出户会话,分析用户行为。 3 ) 服务器记录的h t t p 协议数据 这类数据记录在服务器的访问日志文件中,主要包括浏览器请求的地址、 请求的u r l ,时间,长度等协议数据,目前几乎所有的w e b 服务器都会自动记 录w e b 日志。因此,这类数据也成了w e b 日志挖掘研究中最常见的数据源。 4 ) 网络硬件记录的t c p i p 通信数据 这类数据是较为底层的日志信息,主要是网关、防火墙,路由等网络硬件 上记录的t c p i p 协议层的信息。这类数据在w e b 日志挖掘中存在可靠性的问题, 不能很好的识别追踪用户会话,且对s s l 加密数据无法处理,一般不常用。 本文使用以上第三条所述中最常用的日志记录数据源,即服务器记录的 h t t p 协议数据,又称服务器l o g 日志。用户浏览w e b 页面时,服务器一般会产 生两种类型的日志文件:s e v e rl o g ,e r r o rl o g 。 s e r v e r l o g s e r v e rl o g 记录主要分为两种:通用日志格式c l f ( c o m m o nl o gf o r m a t ) 和扩展日志格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) 。通用日志文格式规定须 有以下内容:用户请求的时间、u r l 、i p 地址、请求方法( 如p o s t 、g e t 、 h e a d ) 、传输协议( h n p 的版本号) ,返回码( 相应请求的状态,如2 0 0 表示 成功) ,传输的字节数( 发送和接收) 等。而扩展的日志格式加了c o o k i e ,来源 页面( r e f e r r e r ) 等记录。表2 1 是扩展的日志的记录结构表。 表2 1日志记录结构表 属性域 描述 日期( d a t e )用户请求页面的日期 时间( t i m e )用户请求页面的时间 服务器名( s e r v i c en a m e )运行在客户端的网络服务器的名字 访问主机( r e m o t eh o s t )客户端主机i p 地址或者d n s 出口 授权用户( a u t h u s e r )记录浏览者进行身份验证时提供的名字,大 多数网站的日志这项也都是为空的。 服务器i p 地址s e r v e ri pa d d r e s s 服务器端的i p 地址 l o 武汉理工大学硕士学位论文 属性域描述 服务器端口s e r v e rp o r t服务器端的端口号 请求方法m e t h o d页面执行的请求方法( g e t ,p o s t ) 访问页u r l s t e m被访问的资源 u r i 查询u r iq u e r y客户端提交的参数( 2 0 0 ,4 0 0 等) 协议状态p r o t o c o ls t a t u sh t t p 协议的状态标识 发送字节数b y t e ss e n t 发送数据的字节数 接收字节数b y t e sr e c e i v e d 接收数据的字节数 花费时间t i m et a k e n浏览消耗的时间( 以毫秒为单位) 协议版本p r o t o c o lv e r s i o n h t t p 协议的版本 服务器名s e r v e rn a m e服务器的名字 用户代理u s e r a g e n t 客户端的浏览器类型,版本以及所运行的操 作系统 c o o k i e 发送或者接收到c o o k i e 数据 来源页面r e f e r r a lp a g e用于表示浏览者在访问该页面之前所浏览 的页面 其中带号的是扩展日志中增加的项,而其他的是通用日志和扩展日志都存 在的项。 一条典型的e c l f 日志记录如下,其中各个域( f i e l d ) 之间用空格隔开,用 表格2 2 进行格式化显示: 219 14 4 2 2 2 2 5 3 - - 【16 a u g 2 0 0 4 :15 :3 6 + 0 8 0 0 】“g e t i m a g e d lr 3c 2 j p g h t t p 1 1 2 0 04 1 8h t t p :2 0 2 1 1 7 1 6 1 1 9 :8 0 8 9 i n d e x h t m l “m o z i l l a 4 0 ( c o m p a t i b l e ; m s i e6 o :w i n d o w sn t5 1 ) 武汉理工大学硕士学位论文 表2 - 2w e b 日志实例 属性 含义 2 1 9 1 4 4 2 2 2 2 5 3 用户i p 地址( u i p ) 【1 6 a u g 2 0 0 4 :1 5 :3 6 + 0 8 0 0 】 请求时间( d a t e ) g e t 请求方法( m e t h o d ) i m a g e s 1r 3c 2 j p g 请求页面( u r i ) h t t p 1 1传输协议版本( v e r s i o n ) 2 0 0返回肌p 的状态标识( s t a t u s ) 4 1 8 服务器发送字节数( b y t e s ) h t t p :2 0 2 1 1 7 1 6 1 1 9 :8 0 8 9 i n d e x h t m l用户浏览的上一页( r e 衙u 融) m o z i l l a 4 o ( c o m p a t i b l e ;m s i e6 0 ;w i n d o w s 浏览器代理及操作系统( b r o w s e r o s ) n t 5 1 ) e r r o r l o g e r r o rl o g 用来存放前端请求失败的数据,如请求连接丢失,请求超时或者授 权失败等。一般在w e b 使用挖掘中不考虑这些错误数据。 ( 2 ) 数据清洗 w e b 服务器会按时间或者日志数据大小对日志文件进行分割,所以w e b 日 志数据通常被存放在多个日志文件中,这种情况不利于数据挖掘算法的读取。 因此在一般在w e b 日志数据清洗阶段,还需要对w e b 日志文件进行合并,并且 转化为易于数据挖掘算法读取分析的存储形式。一般分为以下几个步骤田j : 1 ) 日志合并。通常做法是对日志文件记录的各个域进行解析,并将所有文 件的所有日志记录依次转存到关系数据库或者特定格式的数据文件( 例如x m l ) 中。剔除不相关的日志记录。但用户请求一个网页时,该页面往往包含者图像, 声音,动画,广告以及脚本等附属文件。这些对于数据挖掘没有任何意义,因 此在对日志文件进行分析前,我们需要删除与这些附属文件相关的日志记录。 通常的做法是将请求域中的被请求的文件后缀名为g i f , j p e g 、j p g 、s w f 、c s s 、j s 、 c g i 和m a p 的同志记录删除。 2 ) r o b o t 访问的剔除。由于搜索引擎、网络爬虫或其他一些自动代理( r o b o t ) 1 2 武汉理工大学硕士学位论文 的存在,w e b 日志中含有大量由它们发出的请求,即r o b o t 请求。而这些请求 并不能代表用户的兴趣。一般来说r o b o t 请求由远程主机定时重复发出,并且访 问时间异常的短,一般不带有u s e r a g e n t 字段。可以根据这些特征来剔除r o b o t 请求。 3 ) 对错误请求码请求的剔除。比如请求失败,w e b 服务器会将这些页面记 录在日志里,还有一些比如客户端错误,服务器不可访问等等,也都会保存在 日志中,它们对于日志挖掘没有意义,只会带来数据上的冗余。因此状态码的 值小于2 0 0 或大于2 9 9 的日志记录都需要删除。如3 0 1 ( 永久删除) ,4 0 4 ( 没有 找到该链接) ,5 0 0 ( 内部服务器错误) 等。 4 ) g e t 以外的请求删除。h t t p 协议常见的请求方法有g e t ,p o s t 和h e a d , g e t 请求代表向服务器请求页面信息;h e a d 表示向服务器请求页面头部;p o s t 请求一般用户与表单提交,是从客户机向服务器传送数据,让c g i ( 公共网关接 口) 程序处理。由此可见,只有g e t 方法反映了用户的访问行为,可以用来挖 掘用户信息,所以将g e t 以外的请求通过检查方法域进行删除。 5 ) 规范化u r l 。在许多网站中,服务器会把对目录的请求理解为对页面 d e f a u l t h t m l 或i n d e x h t m l 请求。例如w w w b a i d u c o m 和w w w b a i d u t o m i n d e x h t m l 是同一个页面。因此我们必须为这种情况选择一个共同的形式。 ( 3 ) 用户识别 为了从海量日志记录中了解用户的访问兴趣,首先必须知道这些日志记录 中记录的被访问页面与哪个用户相关联。用户识别就是看似混乱的日志将用户 和其所请求的页面相互关联起来。虽然日志记录中包含远程主机的i p 地址,但 由于代理服务器,局域网网关,n a t 等技术的存在,该信息并不能用来唯一的 识别用户。且使得用户识别过程还会遇到如下一些困难: 1 ) 相同的i p 地址可能对应的是不同的用户。对于使用同一个代理服务器的 不同用户来说,他们在w e b 服务器日志记录中的i p 地址都为代理服务器i p 地 址。所以服务器日志记录中的i p 地址均相等,并不能反映出是不同用户的访问。 2 ) 不同的i p 地址可能对应相同的用户。同一个用户可以使用不同的代理服 务器访问同一个网站。此时,网站服务器日志记录中的i p 地址的值不同。即同 一个用户对应的日志记录中远程主机这一项的值不同,却其实是一个用户的访 问。 目前为止,仅从w e b 日志中精确识别用户还是相对比较困难。尽管如此, 武汉理工大学硕士学位论文 我们仍然可以借助一些启发式规则来完成该任务】:如果两条记录中用户代理 所指示的浏览器和操作系统的信息不同,则可以认为这两条记录来自于不同的 用户。还有种通常的识别方法是采用c o o k i e 来区分不同的使用者【2 5 】。c o o k i e 不 是代码块,虽然唯一但不可查对,只用来区别使用者,不涉及隐私。但也有可 能因为用户更新系统或者禁用c o o k i e 而失效。 ( 4 ) 会话识别 对于一个长期访问某一网站的用户来说,与其相关的日志记录所显示的请 求时间的跨度往往很大。这说明该用户曾经在不同的时间段不止一次的访问该 网站。 会话识别就是将一个用户的所有页面分割成一个个会话,即把用户在不同 会话期间内对网站的访问记录划分开来。研究中一般定义一个二元向量组瞄1 的集合来表示用户会话s ,它是指一个用户在规定的时间内 请求所有w e b 页面的序列。其中,u s e r l d 标识用户号,【纠砌愆是用户在某一 段时间内请求的w e b 页面和时间( u r l ,t i m e ) 的集合。用户会话s 可以表示为如下: s = 会话识别有很多方法,而在实际应用中,通常采用超时方法识别用户会话。 对于超时阈值的设定目前有两种方案,第一种是设定整个用户会话的超时时间: t i m e , 一砌畅t ( r 为系统设置的超时阈值) 第二种方案是设定日志中相邻请求之间的超时时间,如果两页面请求时间 的差值超过一定的阈值则认为用户开始了一个新会话: t i m e i 一砌喝一l t ( 1 fs 七,t 为系统设置的超时阈值) 设定不同的超时阈值产生的用户会话文件也不同,因此超时阈值的大小直 接影响w e b 日志数据预处理的结果,从而影响最终w e b 日志的挖掘结果。 2 2 3 模式发现和分析 在数据预处理阶段对日志进行会话或者事务划分后,就可以根据具体的需 求和目的采用不同的访问模式发现技术,来挖掘出有效的信息。由于目标不同 就需要采用不同的挖掘技术,实际处理中主要应用的技术有序列和访问模式发 现,关联及相关度分析,会话和访问者分析,聚类分析等。 ( 1 ) 序列和访问模式发现 序列模式挖掘是用来发现会话间的模式,如在一组按时间顺序排列的会话 1 4 武汉理工大学硕士学位论文 或事务中一个访问组合跟在另一个组合的后面。通过分析访问按时间的序列方 法,在电子商务中,销售商可以预测未来的访问模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 3 What's your name教学设计-2025-2026学年小学英语新世纪英语一年级上册-新世纪英语
- 第16课 回顾·拓展教学设计-2025-2026学年小学书法练习指导六年级上册人美版
- 心理预期测试题及答案解析
- 农业智能温室设施建设与维护合同
- 工业园区环保改造工程合同书
- 2025-2030租赁行业数字化转型与政策支持分析
- 城市公共交通系统优化方案合同
- 机械厂会议资料管理控制规定
- 战略合作协议与资源整合计划大纲书
- 农民专业合作社种植养殖联合协议
- 篮球训练营规章制度范本
- 园林给排水工程
- Rexroth (博世力士乐)VFC 3610系列变频器使用说明书
- ×××学校“学校学生资助管理机构成立文件”
- 动词过去式和过去分词的变化规则练习及答案
- 第四章 土壤污染调查与风险评价
- GB/T 9877-2008液压传动旋转轴唇形密封圈设计规范
- 共享服务中心(HRSSC)课件
- 工程结构检测鉴定与加固第1章工程结构检测鉴定与加固概论课件
- 高中心理健康课程《人际关系-寝室篇》课件
- 数字色彩课件
评论
0/150
提交评论