已阅读5页,还剩46页未读, 继续免费阅读
(计算机软件与理论专业论文)基于日志的web访问模式挖掘技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 豹迅速发展和w w w 技术的弱溉成熟,越来越多酌企业鞠组织纷纷在嘲 上开展娩务。了勰用户的访问行为不仅有助予改蒋w e b 站点设计、提高w e b 服务器系统 性能,而且能够改进市场决策。如何从大量的用户访问信息中发现用户访问站点的行为成 为企韭鞠鳃织迫切秀凝聪决豹润题。 传统的数据挖掘技术和w e b 稠结合衍生的w e b 挖掘技术为有效地解决这一问题,i :辟 了崭新的途径。本文的主要工作是利用w e b 挖掘技术对w e b 访问同志数搬进行分析和研 究,轶中挖臻出矮户豹个性纯谤润羧式。 本文酋先研究了数据挖掘技术和w e b 挖掘技术,描述了w e b 嗣志挖搦的一般过程和 任务:接着对w 曲闩惠挖掘的预处理方法进行了研究,提出了无需用户注册或c o o k i e s 进 行蠲户会落瑷潮数方法,著详细介缓了穆改善琰处理绥暴数方法一一f r a m e 页瑟过滤技 术;随后从序列模式角度介绍了访问模式的挖掘算法,给出了问题的形式化描述,提出了 以别最大向前访问路径和发现频繁访问路径的算法;最后实现了基于同志的w e b 访问模式 挖掇蘸黧系绞。 本文探讨的研究工作其有重要的理论意义,设计的原型系统对指导实用的w e b 挖掘系 统的开发具有定的参考价值,具有实际应用的前景。 关键溪:数据笼援、w e bt 3 恚挖掘、颈楚璎、彦翔模式、访翊路径 a b s t r a c t w i t ht h er a p i dg r o w i n gi n t e r n e ta n dt h em a t u r a t i o no fw w w ( w o r l dw i d ew e b ) ,m o r ea n d m o r eo r g a n i z a t i o n sh a v ei n v e s t e dat r e m e n d o u sa m o u n to fc a p i t a lt oo p e r a t es i t e so i lt h ew e b u n d e r s t a n d i n gu s e ra c c e s sb e h a v i o rw i l ln o to n l y h e l pi m p r o v i n gt h es y s t e md e s i g na n d e n h a n c i n gt h ew e b s e f v e rs y s t e mp e r f o r m a n c e ,b u ta l s ob ea b l et ol e a dt ob e t t e rm a r k e td e c i s i o n s a sar e s u l t ,o r g a n i z a t i o n sh a v eas t r o n gd e s i r et os o l v et h ep r o b l e ma b o u th o wt oc a p t u r eu s e r s u r f i n gb e h a v i o rf r o ma m o u n to f u s e ra c c e s si n f o r m a t i o n t h ea m a l g a m a t i o no ft h ed a t am i n i n ga n dw e bo f f e r san e ww a y t or e s o l v et h ep r o b l e m m a k i n ga n a l y s i sa n dr e s e a r c ho nt h ew e bl o g sd a t ab yw e bd a t am i n i n ga n dr e s u l t i n gi na u s e r s a c c e s sp a t t e r na r em a i nw o r ko f t h i sp a p e r f i r s t l y , t h i sp a p e rm a k e sr e s e a r c ho nd a t am i n i n ga n dw e bd a t am i n i n ga n dd e s c r i b e s g e n e r a lp r o c e s sa n dt a s ko fw e bl o gm i n i n g 。t h e nt h i sp a p e rm a k e si n - d e p t ha n a l y s i sa n d r e s e a r c h ,p r o p o s e sam e t h o dt oi d e n t i f yu s e rs e s s i o nw i t h o u tr e q u i t i n gr e g i s t r a t i o n so rc o o k i e s a n di n t r o d u c e sam e t h o dt oi m p r o v et h ed a t ap r e p r o c e s s i n go ft h ew e bl o gm i n i n g ,t h a ti sf r a m e p a g ef i l t e rt e c h n o l o g y s u b s e q u e n t l y ,t h i sp a p e ri n t r o d u c e s t h ea l g o r i t h mo fm i n i n ga c c e s s p a t t e r nf r o mt h ev i e wo fs e q u e n c ep a t t e r n ,g i v e st h ef o r m a l i z a t i o nd e s c r i p t i o no ft h ep r o b l e ma n d p r e s e n t st h ea l g o r i t h m so fi d e n t i f y i n gm a x i m u mf o r w a r dp a t ha n df i n d i n gl a r g ep a t h l a s t l y , t h ep r o t o t y p eo fm i n i n ga c c e s sp a t t e r nf r o mw e bl o g sh a sb e e na c h i e v e d 。 o u rr e s e a r c hi sm e a n i n g f u li nt h ea s p e c t so ft h e o r ya n dt h ep r o t o t y p es y s t e mp r o v i d e sa v a l u a b l em o d e lf o rd e v e l o p i n gt o o l sf o rw e bm i n i n g k e y w o r d s d a t am i n i n g 、w e bl o gm i n i n g 、d a t ap r e p r o c e s s i n g 、s e q u e n c ep a t t e r n 、a c c e s s p a t h 第一章绪论 1 1 研究背景 第一章绪论 w w w ( w o r l d w i d e w e b ) 技术的日渐成熟,使撼于这一技术的应用以惊人的速度向社 会牛活的方方面面渗透:从教育、科研机构的信息与服务的交流与共享。公司、企业内鄢 分布协同工作的管理到传统商务模式向电子商务的转型,从而使人类交互信息不可避免地 电子化和海黧亿。以w e b 骚务器丑志为例,某些w e b 站点的醴志数挺j 卜以每天数十兆的 速度增长,扶这些大量鼗握中发瑗有弼的、重要貉知谈( 雹菇模式、凌裂、可视 芑缝橡等) , 是鼗蠢挖掘与知识发毽( d a t a m i n i n ga n d k n o w l e d g e d i s c o v e r y ,麓穗d m k d ) 酶又一零要 研究和麻罔领域。人类生活的电子伍、信息化以及麓e 及竞争的国际化,使d m k d 技术 在很多领域得到应用_ j _ = 进一步发展,已成为数掭艨、信息决策领域的重要研究课题之一。 随糟越来越多的组织、企业在互联网上丌展业务,传统的市场营销策略、介业战略制 定技术也郡纷纷转向i n t e r n e t 。w e b 作为目前i n t e r n e t | ! | 勺主要信息存储和发布的载体,已经 湿示出巨大的商业价值和应用潜力,w e b 站点的服务质赞成为衡量站点成功的关键因素。 人们从w c b 上获取信息的模式、获取信息的类型往往反映了其兴趣偏好所在。因此,分析 鞠掌攫矮户在游阉w e b 站点时的行为成了i n t e r n e t 环臻下各企业与组织共同关注豹一大热 点。 囊瓣耀户瓣谤阂行秀,藏要薅w e b 摄务器矮恚文传送褥分辑。w e b 鞭务器中豹曩志文 件主要记录了用户访闻站点的数据,这些数掇主要纯括:访闯客户的i p 地址、访闻时闯、 访问的页瓣、访问的方式、引用页面、h t t p 协议版本、传输字节、代理( 浏览器和客j 、 端操作系统版本) 等。显然,了解用户在w e b 环境中的访问模式将不仅改善站点的设计( 如 在高度相关的页葡之间提供有效的访问,改进页耐上的链接设计) 而且能够改进f f j 场决策 ( 如将广谂敝在合适的页面,改善客户的分类和行为) 。由此可见,基于w e b 服务器| = _ _ i 志 数据的d m k d 研究越来越受到重视。 麸礤究弱杯豹角瘦,已有静基于w e b 鼹务嚣同志数据翁磷究大敛分为3 类:( 1 ) 以分 毒秀系统瞧筑为翳标;( 2 ) 臣改进系统设诗为蘸毒蠡;( 3 ) 吸理解蠲户意强为馥轹。以分撰系 统毪糍为瓣搽| 每磺究,主要是姣统谤掌酶臻度,对雕志数据项送行多耱筠单匏统计,翔籁 籀一章绪论 繁访闷页、单位时两访间数、访舔数据爨随时闻分蠢图等。一黧w e b 强志势桥+ 其( w e bl o g a n a l y z e r ) 2 l 如w w w s t a t 和a n a l o g 等属于此类。这些工具的使用者一般是w e b 服努辫管理者; w e b 服务器的没计与建设的主要复杂性怒它必须随着设计糟及用户的编号而不断自我调 憋。p e r k o w i t z 在文献【3 】中磷究了如何以鄹志数据为依据,对w e b 服务器的组织捌表现形 式i 蒺嚣鑫动或拳自动瀵整,夔爨了a d a p t i v e w e bs i t e 静概念;c h e r t 在文献 4 1 q u 撬毽了黪径 游历模式( p a t ht r a v e r s a lp a t t e r n ) 的发现算法。算法从w e b 服务器r 志中找出颗繁的用户 浏览路径。此外,将数据仓库及o l a p 技术用于同志分析系统的建立,也是一: | j 有意义的 e 作。这方面比较成功的同志挖掘系统有:w e b l o g m i n e r t 5 1 、w e b s l f t t 酗、w e b m i n n e r 7 1 簿。 上述工作或系统整憩从大量的w e b 辩惑数据中我出一定的模式和规则,僵楚隧虢的研 究结果还存在不足。篡中发现的模式、舰则的可用性不理想鼹主要问题之一。这方面体 观在模式、规则中的领域信息不够,不易用户理解。另外一个不足是这些系统都没能很好 撼锵决f 志记录模襁耥不完整的闽题,这主要是本地缓存、代理或公司防火墙蕊引起的。 零趣缓存导致了不宠整的记录,雨我疆域貉火墙屏蔽了矮户麓零逢疆,菠翘志淀蒙交缮模 糊。为了解决这些问题,可以使用c o o k i e s 或用户注册的方式,然而用户由于个人隐私都 不愿意选择注册或不使用c o o k i e s 。在这样的情况下,迫切需要开发一个无需用户注册或 c o o k i e s 的通用w e b 同志挖掘系统从同志文件中挖掘用户的访问模式。 1 2 研究内容帮主要工作 在以上背景之下,本文对访问模式的w e b 日志挖掘技术进行了深入地研究。主要的工 作细下: 磁究了数攥携爨麴关键技术,慧络了w e b 挖嚣豹雨鸯粒任务,努褥了瓣藏鬻内羚 w e b 日志挖掘领域研究工作的现状。 -对w e b 同志挖掘技术和其预处理方法进行了深入的分析和研究。就如何提高f = _ 1 志 记录收集的凇确性和改进预处理的结果进行了分析讨论,提出了解决方絮,并给 出实现算法。 一对挖掘灞户访闫模式的算法避露了磺究,提出笈殛频繁访闯路径的算法,克稚了 发现模式刁;理想或规则不可用的缺点。 _ 设计并实现了基于同志的w e b 访问模式挖掘的原型系统。 2 帮一常结论 剖薪j 鬟: - 对于目前一些同志挖掘系统中需要用户注册信息或使用“c o o k i e s ”等技术束解次 预处理中用户会话识剐的阔题,我们提出了稀新的启发式方法,利精引丽页面和 渍求页殛的u r l 柬识别用户会话。这季中方法克服了用户出于个人隐私不联注册或 不使用c o o k i e s 的缺陷,而且也不需要页面分析器来获得站点拓扑结构,大大降低 了系统开发鹣工作慧。 一 为了消除多窗口页顾对预处理结果的影响,我们提出了f r a m e 页面过滤算法,改 进了颈处琏豹效巢。 1 3 论文酶组织结构 本文豹器续章节按魏下方式缀缀: 第二章介绍w e b 同志挖掘的相关技术。首先对数据挖掘的技术基础做了简要的分析和 归纳,介绍了数据挖掘的一个重要分支一一w 曲挖糯,重点介绍了w e b 霞志挖掘技术的过 程翱任务以及圈内外w e b 踊恚挖掘的研究现状。 第三章主要介缁w e b 同志挖掘的预处理过稃和改善预处理结果的方法一一f r a m e 页面 过滤技术。彗先介缨了w e b 嗣志挖掘中对w e b 日恚数据避行预处理的方法,针对w e b1 7 忠颁处理中由于本地缓存、代理和服务器带来的同志模糊和不完熬的问题进行了详细地讨 论,并提毫无嚣弼,o 注麓或c o o k i e s 豹方滚宠袋蘩楚理中懿i 拜l 户会话识尉任务。薅后详细 介绍了f r a m e 页面过滤技术并给出了具体的实现算法。 第霞章介绍一个快速商效挖掘粥户谚阔模式的箨法一访问路径模式挖掘算法。首先 讨论了在w e b 只志中挖掘用户访问路径模式的问磁,并给如了问题的形式化描述及挖掘访 问路径模式的方法,随后掇出了识剐最大融前访问路径和发现频繁访问路径的算法。 筹五章分绍原型系统鲍设计与实现。本章详细撼述了一个基于嗣志豹w e b 访翘模式挖 掘系统的设计与实现。该系统采用访问路径模式挖掘算法发现用户访问w e b 站点的频繁路 径。 第六章对本文的内容做了总结并给出了进一步的研究方向。 第二章相关披术耐f 究 第二章相关技术研究 2 1 数掇挖搦的技术基础 2 1 1k d d 和数据挖掘 k d d 即数据厍知识发现,为k n o w l e d g ed i s c o v e r yi nd a t a b a s e 的缩写。这术语首先 出现在1 9 8 9 年在美国底特律召丌的第1 1 届国际人工智能联合会议的专题讨论会上,1 9 9 l 、 1 9 9 3 和1 9 9 4 年又接着举行k d d 专题讨论会。1 9 9 5 年在加拿大召开了第一届知识发现和 数据挖掘豳际学术会议。从1 9 9 7 年开始。k d d 露经溯有了专门豹杂志k n o w l e d g e d i s c o v e r ya n dd a t am i n i n g 。藿羚在这方嚣发表了众多煞磷究残暴露喜龟文,著虽开发了一 大援数撩拣掇软件( h t t p :w a , v k d n u g g e t s 。c o r n ) ,瓣数撵挖撼艴磅究已经纛为诗算掇领域憋 个热门谍题l “。 许多擎错认为数据挖掘和k d d 是等价的概念,人工智能领域习惯成为k d d ,而数掘 库领域习惯称呼为数据挖掘:也有学者把k d d 辑作怒发现知识的完整过程,丽将数据挖 掘视为其中的一个基本步骤。图2 一l 示意了知识缴现的主要过程,这罩我们将数据挖掘 作为知识发现的个重要步骤。 图2 一t 舞谈发褒未囊过趱 4 第二二章相关披术耕蚍 知以发观的过程主要由以下几个步骤组成: 一数掇清瑾( 消除噪声、数据不一致) l 数糕繁袋( 多穆数据添哥敬爱台杰一筵) 一数撰逸择( 觚数摇疼中捡索与分拆 王务藤关懿数爨 一 数据变换( 数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 一数搠挖掘( 基本步骤,使用智能方法提耿数据模式) 一模式评估( 根据某种兴趣度度量,识别液示知识的真正有趣的模式) 知识袭示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 我们可以将前4 个步骤统称为数据预处理过程( d a t ap r e p r o c e s s i o n ) 。 由予在产业界、媒体和数据库领域中,数据撼嘏的叫法更为流行,因此,本文采用数 摇挖撼表示数据痒中数知识发瑷过程。u 。f a y y a d t 8 嘹对敬爨挖掘筑定义是:扶数据集中识 霜交毒效酌、耨糇夔、潜在毒臻豹、著鑫最终霹毽瓣熬模式鹃 平咒过程。 对予上瑟敬数撵挖掘定义需要澄明凡点: 1 上掰的定义中,涉及几个需要进一步解释的概念。 过稔捂多阶段的一个过程,涉及数据准备、模式搜索、知识评价,以及反复的修 改求精:暧过程要求是非平凡的( n o n t r i v i a i ) ,懑思是要有一定程度的智能性、自动性 ( 仅仅给出所有数据的总和不能算作是一个发王见的过程) 。有效性( v a l i d ) 是指发现的 模式对于新的数据仍保持有一定的可信度。新颖性( n o v e l ) 要求发现的模式应浚是新 的,从虢未知的。潜在有用控( p o t e n t i a l l yu s e f u l ) 要求发现的模式能拔用户理解,圈 嚣它主臻怒钵现在麓渡缝上。有效经、耨鬏瞧、潜在有蠲瞧秘最察可理解瞧综合在 筵霹称之为兴趣 生( i n t e r e s t i n g n e s s ) ,其傣霹参蕊文献泌l 。 2 ,数据挖糖质量的好坏受两个因素的影响: 一憨所采用的数掘挖掘算法的有效憔,二怒用于挖掘的数据的质量和数量( 数据 量的大小) 。如果选择了错误的数据或属性,戚对数据进行了错误的转换,则有可能得 到不n i 确的结果,即所谓的g a r b a g ei ng a r b a g eo u t 。所以,数据预处理对于数据挖掘 来讲也是非常重要的,同时,数据预处理也怒数掘挖掘中的、一个重要研究课题。 3 。熬个挖掘过程是一个不断重复的过程。 暇如蠲产在挖掘过程中发现选择斡疆链斌数据管镶差,或者使用的挖掘技术产生 誊了颧潮的缭栗,这辩魏嘉要辗蕤爱续结象,不鞭萋复先藤载过程,甚至欤头重凝 始,鬏终褥蘩令人满意夔挖掘结采。 s 第二二章相关技术斜戴 4 可视化在数据挖掘的各个阶段都扮演着重要的作用。 在数据准备阶段,用户可能要使用散点图、直方图等可视化统计技术来显示有关 数据,以便对数据有一个初步的理解,从而为更好地选取数据打下基础。在挖掘阶段, 用户有可能要使用与领域问题有关的可视化工具,来选择挖掘算法或者调用挖掘算法 的参数。在结果表示阶段,则可能又要用到其他的可视化技术,以利于用户对挖掘结 果的理解。 2 1 2 数据挖掘的分类 数据挖掘涉及的学科领域和方法很多,有多种分类方法一j 。根据挖掘任务,可分为分 类或预测模型发现、数据结构、聚类、关联规则发现、序列模式发现、依赖关系或依赖模 型发现、异常和趋势发现等。根据挖掘对象分,有关系数据库、面向对象数据库、空间数 据库、时态数据库、文本数据库、多媒体数据库、异构数掘库、遗产数据库以及w e b 。根 据挖掘方法,可分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习包 括归纳学习方法、基于案例学习、遗传算法等。统计方法包括刚归分析、判别分析、聚类 分析、探索性分析等。神经网络方法包含向前神经网络、自组织神经网络等。数据库方法 i = 要足多维数据分析方法,另外还有面向属性的归纳方法【”1 。 1 关联分析( a s s o c i a t i o n ) 关联分析的目的就是为了挖掘出隐藏在数据间的相互关系。最常见的技术是利用关联 规则,关联规则就是描述在一个事务中物品之间同时出现的规律的知识模式。更确切的说, 是通过量化的数组描述物品甲的出现对物品乙的出现有多大的影响。关联规则用于发现交 易数据库中不同商品( 项) 之间的联系,这些规则反映顾客购买行为模式,如购买了某一 向d b 的影j l 向。发现这样的规则可以应用于顾客购物分析、目录设计、商品货架设计、网络 故障分析以及根据购买模式对用户进行分类。 2 分类分析( c l a s s i f i c a t i o n ) 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是使 【 j 一个分类函数或分类模型( 分类器) ,该模型能把数据库中的数据项映射到给定类别中 的某一个。分类和回归都可用于预测,预测的目的是从利用历史数据记录中自动推导h 时 给定数据的推广描述,从而能对未来数掘进行预测。 3 ,聚类分析( c l u s t e r i n g ) 3 2 1 聚类用于从数掘集中找出相似的数据并组成不同的组。与分类不同,聚类分析法的输 6 第二章稳关按本瓣究 入集是一组米标定的配澈,也就是说此时输入的汜泶还没有进行任何分类。其目的是根掘 一定的规则,合理的划分配录集合,并用显式或隐式的方法描述不同的类别。有很多方法 霹往数攮分类,公认瓣常灞方法像括k - m e a n m s 算法、分蘑凝聚法( h i e r a r c h i c a l a g g l o m e r a t i v em e t h o d s ) 凝采用估算最大值法( e s t i m a t i o n m a x i m i z a t i o na l g o r i t h m ) 使相同 的记录集会得到不同的划分。 4 痔确分橇及露瓣窿期( s e q u e n c e a n a l y s i sa n d t i m e s e q u e n c e ) 序列模式分析和关联规则分析法相似,其目的也是为了挖掘出数据之间的联系,但序 列模式分折的侧重点在予分析数据间的前后( 因果) 关系。 时闯序刚分辑稷据数疆随辩闻交纯静趋势颈溺将来的僮。遮鼙要考虑到拜雩蠲豹蒋殊i 琏 质像1 些周期性的时m 定义如星期、月、季节、年等,不同的f 1 子如节假问可能造成的 影蛹,日期本身的计算方法,还有一燎需要特殊考崽的地方如对间前后的相关性( 过去的 事情对将来有多大的影响力) 等。暴鸯充分考虑时间因素,翻嗣筏有数蠢随时闯交纯数一一 系列的值,才能更好地预测将来的值。 2 2 w e b 挖掘技术 w e b 目前是一个巨大的、分布广泛的全球性信息服务中心,它涉及新闻、消费信息、 会藏管理、教寅、致癃、毫孑亵务秘喜睾多荬恁售惑援务。w e b 还包含了丰富积动态爨超缝 接信息,以及w e b 页丽的访问和使用信息,这为数据挖掘提供了丰富的资源。然而,w e b 挖掘不仅仅是数据挖掘弹法在w e b 数据上的应用,同传统的数据库数据相比,w e b 数据具 有特殊淫,冀褥熹裁是数耀浚毒罗格瓣结筏模式、含有不蠢撬式瓣数据( 文本、声音、图 像等) 、面向显示的h t m l 文本无法区分数据类型,并且存在大檄的冗余和噪声,同时w e b 是一个动态性极强的信息源,所以面向w e b 的数攒挖掘研究极艇挑战性。 l 对育效麓数据攘掇嚣言,w e b 数据量太纛大了悉显仍然在逐速遗增长。这霞褥足 乎不可能去构造一个数据库对w e b 上所有数据进行复制、存储或集成。 _ w e b 页面的复杂性远比任何传统的文本文档复杂的多。w e b 页面缺乏统的结构, 它雹舍了远毙任俘缀书籍或英 也文本文秘多褥多匏溅穆彝疼容。w e b 可以看作 是一个巨大的数字图书馆;然而,这一图书馆中的大爨文档并不根掘仟何有关排 列次序加以组织。它没有分炎索引,更没有建立按标题、作者、封页、目次等的 索引。在这襻一个鍪书键中接索希蘩褥裂信惑是极其撬战謦鹈。 第一常档关投术骈究 _ w e b 是一令葫态茬较强酶信患滋。w e b 不纹鞋穰映建速度璜长,薅量其信息还套 罐i 瞬地发生着更耨。耨闻、股禁市场、公司广告和w e b 黢务中心都在不断地更耨 各自地页面。链接信息和访问汜聚也在频繁地更新之中。 一w e b 面对的是一个广泛的、形形瓴色的用户群体。w e b 的用户群仍在不断扩张中, 各个用户具有不同的背景、必趣和使用目的。大部分用户并不了解信息网络结构, 不清楚搜索的高昂代价,极容易在“跳跃式”访问中烦乱不已,溅者在等待一段 傣怠中失去耐心。 - w e b 上戆售惠对嗣户瑟言,只毒凝,l 、豹一部分是稳关懿或蠹蠢弱鹣。爨说9 9 静 w e b 信息对于9 9 静弼户是无_ 鳟l 酶。虽然这看起来不是报胡曼,傻令人只是关 系w e b 上非常小的一部分信息怒辫实,w e b 所包含的其余信息对厢户来晚是不感 兴趣的,而且会淹没所希望得到的搜索结果。 w e b 挖掘实现对w e b 存取模式、w e b 结构和规则,以及动态w e b 内容的查找。w e b 挖掘可以将w e b 文档进行分类、寻找文档主题、汇总搜索结果,使用户在i n t e m e t 上查找 信息更加全黼准确。对w e b 站点分折的结巢可用于重薪组织w e b 站点缀构,以便更好地 为用户撬 鼓嘏务。冗长且有强路鹣遍历爨簌或是龟含重要鹣信息毽访润零镶羝款页嚣,这 些不食壤酾站点设诗都可戳氆韵w e b 箍懿遴霉亍修正。逶遂分撰矮户测焚游点的行为,虿 盖 列分粕式绒并行w e b 服务器的页丽布弱以及高速缓存枕制进行改迸:也可以为用户提供最 受欢迎的站点列表,帮助用户导航。 w e b 挖掘的定义可以从数据挖掘的檄念扩展而来,简单讲,w e b 挖掘指从w e b 服务器 上的数据文件中提取人们感兴趣的知识。这里所谓的“兴趣”与我们前耐讲数据挖掘时提 到的含义棚同。 w e b 挖撼是对w e b 文挡豹内容、w e b 上蜀剃爝资源豹使用情况以及资源之矧的关系进 露分撬,麸中发瑗寿效熬、瑟颖静、滏在有麓兹、共量蓑终可理鳃鹣横式。 爵以将w e b 挖掘分为两个子任务l 增1 : 1 资源搜索:检索所需要的w e b 文糨或w e b 资源。 2 惰息选择和预处理:从搜索到的w e b 资源中自动选择特定信息,并对其进行预处 理。 3 模式发现:自动发现一个或多个站点的模式。 4 模式分析:对于发现的规则进行有效性验证或解释。 w e b 挖糖与w e b 主数售惑捡索( i n f o r m a t i o nr e t r i e v a l ) 亵信息 蠡l 联( i n f o m a a t i o n 8 第章相关技术研究 e x t r a c t i o n ) 技术有一些共同之处,但是并不相同。典型的信息检索问题是基于用户的输入 定化拥火的文档,它在自动检索所有相关文档的同时又尽可能地将不相关的文档排除,信 息检索主要通过文本标引( t e x ti n d e x ) 方法,搜索有用的文档。有人将而向w e b 的信息检 索看作是w e b 挖掘的实例,其实在信息检索的研究方向中,仪有w e b 文档的分类和分级 可以看作是w e b 挖掘的实例。信息抽取是通常在信息检索的帮助下,将文档转化为更容易 理解和分析的信息【1 0 1 。由于w e b 内容的动态性和多样性,许多信息抽取系统通过数据挖掘 技术发现w e b 文档的抽取模式和规则,这样,w e b 挖掘就是信息抽取过程的组成部分。另 一方面,信息抽取的结果是对原始信息的压缩和总结,它可以保存在数据库中,因此,可 以将信息抽取作为挖掘中的一个预处理过程。 w e b 挖掘的概念目前尚未明确定义,在这个领域中仍将分为许多主题。目前一种比较 流行的分类方法【1 2 1 是根据w e b 挖掘的数据对象将w e b 挖掘分为三类1 :w e b 内容挖掘、 w e b 结构挖掘和w e b 同志挖掘。 w e b 内容挖掘是从文档的内容或描述中抽取知识,目的是联机自动搜索w w w 上的信 息资源:w e b 结构挖掘是从站点的页面结构推导出知识:w e b 同志挖掘是从w e b 服务器上 的h 志巾分析w e b 站点的使用情况,发现用户的访问模式。在w e b 挖掘过程中,有时为 了提高w e b 挖掘结果的兴趣性,将w e b 页面内容、w e b 站点结构以及w 曲日志这三类融 合在。起进行模式的挖掘。 2 3w e b 日志挖掘技术 w e b 同志挖掘是通过分析w e b 服务器的日志文件,以发现用户访问站点的浏览模式, 为站点管理员提供各种利于w e b 站点改进或可以带来经济效益的信息( 如:聚类分析也可 以把具有相似特征的用户或数据项归类来帮助进行市场决策) 。w e b 服务器r 志也可以结 合其他数据库( 如:电子商务、银行数据库) 一同进行挖掘,以获得更详细的信息。w e b 志挖掘能带来许多方面的好处:分析网站流量模式;发现系统性能瓶颈;测定广告和促 销计划的成功度及测定投资回报率:发现用户的需要和兴趣等。 2 3 1w e b 日志挖掘过程与任务 w e b 同志挖掘过程大体分为暇个阶段1 1 4 1 :数据预处理、挖掘算法实施、模式分析、可 视化。w e b 同志挖掘系统的过程,翔图2 2 所采。 9 鼙二章捐美接求静 巍 圈2 2w e b 矸志挖掘的过程 数据预处理:丰要完成将原始的闷志文件经过过滤、筛选以及重组后,将之转变为适 会挖掇豹数攥格式,矮鬻以爱户会话文传静形式德存至l 数摄痒中,螽续豹挖援过程可以意 接在此上避行各种挖掘操作。 浏览模式挖掘:w e b 同志挖掘的核心,根据挖掘任务的不同,采用不同的挖掘算法, 软鼗蠢预楚毽狳段产生爨雳户会诿中寻菝强户豹溺整模式。发襞豹模式一簸有关联援刘 1 7 7 i 、序列模式、用户聚类等。 模式分车厅:经过浏览模式挖掘阶段,可以得剥一些从前未知的用户访问模式,但是, j 繇商瓣摸式都跫敬麓涎秘有镶矮徐毽数。这羚段,我 | 】黉巅矮领域专家辫翘识以及 其他一些可用的标准来分析这些模式,并过滤掉那些没有利用价值以及有偏差的模式。 可视化| 5 l :将发现的有价值的阁户浏览模式以各种形式显示,为决策屡的领导提供巍 逡豹显示。显示匏方式霹叛尧表格、镑霾、螽线黧、趋势霾、蕊方銎或者箕德聋誓豫表疆形 式。 w e bi q 恚挖掘可以完成基本的统计分析和锪能分析两类任务。 ( 1 ) 统计分辨 1 ) 流量分析。网络流激随时问如何变化? w e b 沾点中每个页面、目录以及内 容模块的流量分配情况。 2 ) j 一告分枣厅。震站广告豹点毒率,戮些广告绘我键豢寒了最大懿访阀量? 投 资收益比是多少? 什么位置上的,3 告点击率最离? 3 ) 网站出入口分析。用户在哪里进入网站? 每次都经过首页? 还避通过搜索z ;l 擎壹接避久感兴趣豹茭蠢? 躅户在噶一页过熹魏出了丽蛞? 4 ) 用户来源分析。在来源上我们的用户有哪些特征? 什么国家、地区,从哪 个删站过来? 我们蠛藿要的用户都来自哪墨? 哪个i s p 对我们来说是最熏 要豁? 煺 一 预 丽一 掩一章捐关技术磷究 5 ) 浏览器和平台分析。访问站点的用户使用哪种瀵型的浏览器和操作系统? 在设计网站时具体需溪做哪些权衡和优化? 虽然统计分辑不旋投毒深堪的数据分毒厅, 量是这麓绫诗鼗蕹霹予搓高系统懿 性能、安全性以及优化站点结构和市场决策大有帮助。酗前已经有许多w e b 流量 分析工具实现了这些基本的缆诗功能。 ( 2 ) 智篷分橇 1 1 关联规则 关联规则指发现用户会瀵中经常被用户一起访问的页商集合,这些页面之间 著没有蹶彦关系。妇采关联娥刘中豹戛藿嚣之蠲没有超锻接,剡这莛一令我餐感兴 趣的关联规则。挖掘关联规则通常使用a r f i o f f 算法或其变形算法。例如i b m 对o f f i c i a l1 9 9 6o l y m p i c sw e b 站点服务器的日志进行关联规则的挖掘,结果发现: 谤阏室蠢撵球页嚣静矮户,蒸中的4 5 纛爵良手球夏瑟;访蠢羽毛踩帮懿东页蠹i 的用户,其中的5 97 也可访问桌球页面。 关联规则黢可以作为站点设诗人员优化站点豹参照,也是在w e b 上进行市场 开发和商务活动静依据。瓣霹关联筑翻逐霹以 乍为意发式蔑建为运程客户预取可 能请求的页面。 2 ) 聚类1 3 2 i 聚粪势橱愚怒其有裾钕特征的数蠢项翳黉,它霹以帮韵避行市场决策。在w e b 同志挖掘中,聚类分析主要集中于页面聚类,其将内容楣关的页面归类,搜索引 擎可以利用这然信息为用户的雀询提供棚荚的超链接攒淘这些页露。 3 ) 分类 分类是将数据项按照预先定义的类别进行划分。谯w e bf = :f 志挖掘领域中,分 类主要是将1 _ j 户配置文件归麟既定的用户炎别。分类技术要求挞取关键属性描述 己知的_ 霭户类剐。可隧通过捂导径归纳学习算法( s u p e r v i s e di n d u c t i v ei e a m i n g a l g o r i t h m ) 进行分类,主要有决策树分类,贝叶斯分类法,最近邻分类法和s u p p o r t v e c t o rm a c h i n e 簿。 4 ) 序歹模式】 序列模式搦在时序数据臻中发现在时间上具有先后顺序的数据项。在w e b 闩 志挖掘领域中,序列模式识别拯寻找用户会话中在时闽上有悫后关系的页萄请求。 利用发现的序列模式可以预涮用户即将可能请求的页蕊,这样就可以针对特定靛 1 l 第一章稿荚技术科究 用户缌在夏西中救置不嗣的广告条求增娜广告的点击攀( c l i c kt h r o u g h ) 。其他去 蕊弱序列模式有:趋势分橇,转折杰獭铡,籀似性分轿等。 2 3 。2w e b 露悫挖藕研究现状 j 纛年来,围铃在w e b 聂志挖掘领域豹礤究z 馋敬褥了缀太黪遴浸 6 1 ,遮方嚣取褥了 定的成呆。一热比较成功的w e b 同志挖掘系统相继推出,如w e b m i n e r 、s p e e d t r a c e r f 2 “、 w e b l o g m i n e r 、w u m 、w e b w a t c h 一2 7 1 等。丽幽内在这方面的研究还处于起步阶段。w e b _ | 惠挖擒的熏爱鏊酶是为了雯鳋穗了鼷诱闻奄予商务潮菇静孀户的幸亍为帮确梳。还确。一整 研究应用数据挖掘结果求改进w e b 站点的设计、分析系统性能和网络通讯戏者建立适应性 站患。黢柬淡,w e b 弼志挖强震发蠛酌知谈的应蠲主婪蠢蘸令嚣拣:这踩遴滔戆访潮模 式来联解访闷模式帮趋势;追踪定制的使用觏泶为用户提供个做化服务。 w e b 秘悫分疆领域翠襄懿骚究工雩# 之一燕文献【1 7 l 孛搀到黪,在这簇文中,一个潮户 的访问页面的无序和加权向量被用柬安排用户到现有的用户聚类中。然后系统动态地推荐 摹予阏耀户凝类中葵稳瑟户兹访瓣蒜嚣豹镳竣。文熬【l8 】中髂者把w e b 瓣恋萋俘一今攀 的项闷序列,并提出发现频繁项目序列的辣法。w e bf j l 志记澈的域名是个项目中的不 同属性。文献【1 9 】中作者提出了识别用户序列中e p i s o d e s 的算法,并分别成用关联娥则和 序硝模式挖掇瘸户e p i s o d e s 。 由于w e b 同志文件迅速地增长。现有朗挖掘算法都不可行。此外,大彩数w e b 站点 酌内豁麓瓣淄不断改交,导致部分w e b 霜恚记录与霹蘸分褥无关。两显,分毫蠢誉标t l 王淹蕊 业需要不断改变。因此,方面需要根据内存葶口磁盘窀删改近辣法可行性;另一方丽,需 要加入挖箍舞法瀚约束,铡如时潮终窳、穰念羰次鞠频繁模式模教,发现鞠关帮诿确静知 识。 拣瓣同志文铜二瓣一个爵行灵添豹方法燕襞溺数据会簿、数黎立方藩秘o l a p 技术。联 机分析处理和数据立方体【5 1 已经被逐渐接受成为商q k 方面进行数掘库分析的一个强大的工 其。h a ne ta 1 撼出使用数据仓库和o l a p 技术对w e b 同志进行分撬。另努,还有一些离业 有效的w e b 服务器h 志分析工具。例如文献 2 0 1 中w e b t r e n d 提供了一个裔限的报告校块, 如用户秘页霹的统计信息。另一方黼,n e t g e n e s t s 积e a s h m i n e r 更具综合性,包括了乎列 和模式浆类算法以及对产品酶可裰德工葵琶。然落,这些不能蘩成w e b :_ l 恚数舞秘磷、澎数 据。 第二章用户访问模式挖掘中顶处理_ ;6 乏改进 第三章用户访问模式挖掘中预处理及改进 3 1 引言 分析w e b 服务器中用户访问行为、频度和内容等信息,发现用户访问w e b 页面的模 式和规律,可以改进w e b 站点的性能和组织结构,提高服务质量和效率。然而,w 曲日志 文f l t ,存储的是用户访问站点信息的原始记录,直接在这些数据上面进行挖掘是比较困难 的,在使用算法或工具对其分析之前,必须进行预处理。预处理过程是w e b | = 1 志挖掘质量 保证的关键。 w e b 日志预处理【2 2 】是在曰志挖掘前,对w e b 日志进行清理、过滤以及重新组合的过 程。其目的是剔除日志中对挖掘过程无用的属性及数据,并将w e b 日志数据转换为挖掘算 法可识别的保存形式。 本章我们首先从用户访问模式挖掘的角度介绍了预处理的过程:数据清理、用户会话 识别、路径完善。经过预处理,将用户访问w e b 站点留下的原始r 志整理成w e br 志数 据库,是进行w e b 访问模式挖掘的前提。 另外,我们还介绍了w e b 日志数据预处理技术研究中的种改善预处理结果的方 法一一f r a m e 页面过滤技术,并给出了具体的实现算法。预处理结果的改善可以提高w e b 同志挖掘结果的兴趣度,从而提高挖掘结果的质量。 3 2w e b 日志挖掘预处理过程 3 2 1 数据收集 在f | 志挖掘中,数据最直接的来源是w e b 服务器同志,它非常明确地记录了访问者的 浏览行为,在日志挖掘中有很重要的地位。每当有获取资源的请求到来时,服务器将会产 生s e r v e rl o g s ,e r r o rl o g s 和c o o k i el o g s 三种类型的 ! j :l 志文件,记录用户访问和交换的基本 信息。 我们主要使用w e bs e r v e r 的l o g 文件得到分析和挖掘所用的数据。w e b 服务器日志主 要分为访问同志( a c c e s sl o g ) 、代理日志( a g e n tl o g ) 和引用f = 志( r e f e r e rl o g ) 。访问同 志一- 般包括:i p 地址、请求时间、方法( 如g e t 、p o s t ) 、被请求文件的u r l 、h t t p 版 第三章用户防问模式挖掘中预处理及改进 本号、返回码、传输字节数。代理f i i 志记录用户使用的操作系统以及浏览器类型,引用f 1 j 春记录了用户发出当前请求时所在页面的u r l 。对于某个请求如果没有记录其来源的话, 则表明用户不是通过点击页面中的超链接请求当前页面,而是直接在浏览器的地址栏巾输 入请求的u r l 。 w e b 服务器同志有两种格式:一种是普通性、一种是扩展型。我们采用的是w 3 c 同 志扩充文件格式。记录的属性包括: 字段出现说明 f 1 期 d a t e 执行操作的日期 时间 t i m e 活动发生的时间 客户机 c 一巾 访问服务器的客户机i p 地址 矗谨 c s m e t h o d 客户机试图执行的操作( 如g e t 、p o s t 方法) u r i 词干 c s u r j s t e m 访问的资源:如d e f a u l t h t m 发送字节数s c - b y t e s 服务器发送的字节数 接受字节数c s - b y t e s服务器接受的字节数 协议版本 c s p r o t o c a l 客户机使用的协议( h t t p 、f t p ) 版本。 用户代理 c s ( u s e r - a g e n t )客户机使用的浏览器、操作系统 引用者c s ( r e f e r e r )用户访问的前一个站点。 根据上面所述同志格式,我们从南开大学信息学院网站服务器上收集到的同志信息如 f : d s :d a t et i m ee - i pc s - m e t h o de s - u r i - s t e ms e - b y t e se s - b y t e sc s v e r s i o ne s ( u s e r - a g e n t 、 c s ( r e f e r e r ) 2 0 0 4 一0 5 一t5 0 7 :2 9 :4 31 9 2 1 6 8 0 1g e ti t e m i s 2 9 33 0 5h t t p 11 m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 o ;+ n e t + c l r + i1 4 3 2 2 ) - 2 0 0 4 0 5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技企业融资租赁合同
- 山西省小学六年级下学期数学图形与几何专项试卷(一)
- 分销渠道合作协议
- 建筑施工安全责任合同书
- 刘洪律所笔试题目及答案
- 2025年事业单位招聘考试综合类专业知识试卷全解技巧集
- 公司安全生产文件管理制度
- 2025年甘肃省兰州市永登县保安员招聘考试题库附答案解析
- 2023年甘肃P气瓶充装考试内部全考点题库含答案
- 2024年时事政治热点试题及完整答案
- 了解事物的本质课件
- 2026品牌营销日历【营销节点】
- 2025高中历史时间轴与大事年表
- 航运大数据分析应用-洞察及研究
- 肾癌病人教育知识培训课件
- 相贯线课件教学课件
- 【地理】跨学科主题学习 认识我国的“世界灌溉工程遗产”课件-2025-2026学年八年级地理上学期(人教版2024)
- 处方规范书写培训课件
- 道路监控维护合同范本
- 高一力学知识点总结
- 咯血病人的护理小讲课
评论
0/150
提交评论