(计算机软件与理论专业论文)web日志挖掘技术应用研究.pdf_第1页
(计算机软件与理论专业论文)web日志挖掘技术应用研究.pdf_第2页
(计算机软件与理论专业论文)web日志挖掘技术应用研究.pdf_第3页
(计算机软件与理论专业论文)web日志挖掘技术应用研究.pdf_第4页
(计算机软件与理论专业论文)web日志挖掘技术应用研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网的迅速普及和广泛应用,w e b 上产生的信息也随之飞速增长,如 何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。w e b 网站无论是在 访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像w e b 站 点设计、w e b 服务设计和一些通过w 曲网站进行简单的导航模式设计也都增大 了设计的难度。为了更好地设计w | e b 服务器,一个更好的方式就是分析原来的 网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被 访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的 访问路径模式等。w e b 日志挖掘就是运用数据挖掘的思想来对服务器日志进行分 析处理,从而解决上面提出的各种问题。 本文在筒述了w e b 日志挖掘的概念、研究内容、关键技术和目前的国内外 研究状况的基础上,钍对我校网塑鳆迹鲤旦骞,采用数据挖掘技术进行数据分析, 从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论 文所做的主要工作是:首先对w 曲日志的预处理进行了研究,坌当i 亟丝望笪 流程并分析了其中的难点,包括数据清理、会话识别、用户识别和片断识别,并 一_ _ - _ - _ _ _ _ - _ - _ _ 一 尝试将其用到我校网站的挖掘之中;其次对基于f p 屯的关联规则挖掘算法鲎 j _ _ _ 。、_ _ - _ l - _ _ 、一- _ ,_ _ - _ 。_ - _ 。_ 一 行了研究,然后将其用到我校网站的挖掘之中,并依据挖掘结果给邀纣过达旦站 的改进建议;最后对路径遍历模式挖掘进行了研究,将其用到我校网站的挖掘之 中,并依据挖掘结果给出针对该网站的改进建议。 关键词:数据挖掘w 曲日志挖掘关联规则路径遍历模式 中图分类号:t p 3 9 1 4 a b s t r a c t a st h ef a s td e v e l o p i n ga n ds p r e a d i n go fi n t e m e t , w e bu s a g ei n f o r m a t i o ng r o w s q u i c k l y p e o p l eb e g i nt op a yd o s ea t t e n t i o nt om i n i n gv a l u a b l ei n f o l l l l t r i o l lf r o m 姆 a m o u n to fd a t a t h ew o r l dw i d ew e bc o n t i n u e st og r o wa ta na s t o u n d i n gr a t ei nb o t h t h es h e e rv o l u m eo ft r a f f i ca n dt h es i z ea n dc o m p l e x i t yo fw e bs i t e s t h ec o m p l e x i t y o f t a s k ss u c ka sw e bs i t ed e s i g n , w e bs e r v e rd e s i g n , a n do fs i m p l yn a v i g a t i n gt h r o u s h aw e bs i t eh a v ei n c r e a s e da l o n gw i t ht h i sg r o w t h a ni m p o r t a n ti n p mt ot h e s ed e s i g n t a s k si st h e a n a l y s i s0 fh o wi t w e bs i t ei s b e i n gu s e d l o sa n s a y s i s i n c l u d e s s t r a i s h f f o r w a n ls t a t i s t i c s , s u c ha s p a g e a c o 鸭s f r e q u e n c y , 够w e l l a s m o r es o p h i s t i c a t e df o r m so fa n a l y s i s , s u c h 酗f i n d i n gt h ec o m m o nt r a v e r s a lp a t h s t h r o n s haw e bs i t e w e bl o gm i n i n gi st h ea p p l i c a t i o no fd a t am i n i n gt e c h n i q u e st o s e r v e rl o g so fl a r g ew e bd a t ar e p o s i t o r i e si no r d e rt op r o d u c 圮r e s u l t st h a tc 锄b eu s e d i nt h ed e s i g nt a s k sm e n t i o n e da b o v e i no u rr e s e a r c h , w ee x p l a i nt h ec o n c e p t , r e s e a r c hw o r k s ,k e yt e c h n o l o g i e so f w e bl o gm i n i n ga n dr e l a t e dr e s e a r c ha th o m ea n da b r o a d , a n dt h e n u s ed a t a m i n i n gt e c h n o l o g y t oa n a l y z et h ew e bu s a g ei n f o r m a t i o no fm yc o l l e g es o 鼬t of i n do u tt h eu s a g ep a t t e r na n dp r e f e r e n c eo f 即删s 鹤a n di n d i v i d u a l s t h e b e t t e rd e c i s i o n - m a k i n ga i df o rw e b s i t ee x e c u t i v e s t h et h e s i sa c h i e v e st h ef o l l o w i n g t a s k s :f i r s t , 咖d y i n st h ep r e p r o c e s s i n go fl a ww e bl o g , a n a l y z i n gt h ed i f f i c u l t i e sa n d d e s c r i b i n g t h e p r o c e s s , s u c h a sd a t a c l e a n i n g , u s e r i d e n t i f i c a t i o n , s e s s i o n i d e n t i f i c a t i o n , e p i s o d ai d e n t i f i c a t i o n , a n da p p l y i n gi ti nt h em i n i n go ft h ew e b s i t eo f m yc o l l e g e ;s e c o n d , s t u d y i n gt h ef p - t r e e sa s s o c i a t i o nr u l em i n i n ga 1 9 0 她t h e n a p p l y i n gi ti nt h em i n i n go ft h ew e b s i t eo fm yc o l l e g e , a n dg i v i n ga d v i c et oi m p r o v e t h ew e b s i t eo fm yc o l l e g e ;f i n a l l y , 咖蛳n gt h ep a t hp a t t e r nm i n i n gt e c h n o l o g y ,t h e n a p p l y i n gi t i nt h em i n i n go ft h ew e b s i t eo f m yc o l l e g e , a n dg i v i n ga d v i c et o i m p r o v et h ew e b s i t eo fm yc o l l e g e k e yw o r d s :d a t am i n i n g w e b l o gm i n i n ga s s o c i a t i o nr u l e p a t hp a t t e r n 5 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体己经发表或撰写过的科研成果。 对本文的研究曾做出重要贡献的个人和集体,均已在文中以明确 方式标明口本人完全意识到本声明的法律责任由本人承担。 论文作者签名:量煎 日 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进4 - i - 检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规触 论文作者签名:丛鱼导师签名: 第一章引言 1 i w e b 日志挖掘的研究背景 随着i n t e r n e t 的迅猛发展,w e b 相关的应用技术也迅速发展起来。早期的 w e b 是以信息共享为主的,近年来,电子商务、电子图书馆、远程教育等己成 为w e b 的主要应用,促使w e b 以更快的速度发展,同时,对w e b 站点的设计 和功能提出了更高的要求。要求w e b 具有智能性,能快速、准确地找到用户所 需信息;能为不同用户提供不同的服务;能允许用户根据自己的需要定制页面; 能为用户提供产品营销策略信息等等。 完全彻底地实现以上所有功能是困难的,它需要在人工智能和自然语言理解 等方面有突破性进展。近来,国际上很多人利用对w 曲信息的挖掘来提高w e b 的功能。但是,数据挖掘技术所涉及的是结构化数据,而w e b 是一个无集中控 制、无统一结构、无完整性约束、无事务管理、无标准查询语言和数据模型、可 无限扩充的一个松散的分布式信息系统,从理论上讲,对其挖掘是困难的,获取 的知识是不可靠的。然而,w 曲服务器日志( w e bl o g ) 却有完美的结构,它记载 了用户访问站点的数据,这些数据包括:访问客户的i p 地址,访问时间,访问的 页面,页面的大小,浏览器类型,响应状态等。每当站点被访问一次,w e b 日志 就在日志数据库内追加相应的记录。w e b 日志数据库提供了有关w e b 动态的丰富 信息。因此,研究复杂的w e b 日志挖掘技术十分重要。 1 2 w 奄b 日志挖掘的研究意义 随着i n t e m e t 上w e b 服务的迅速发展,构建或正在建设的网站也越来越多, 而对w e b 服务器的运行和访问情况进行详细和周全的分析对于了解网站运行情 况、发现网站存在的不足、促进网站更好发展,其重要性是不言而喻的。为了更 好地提供电子商务服务,监控w e b 服务器的运行情况,了解网站内容的详细访 问状况,必须通过对w e b 服务器的日志文件进行完善的统计和分析。 i n t e m e t 用户群体表现出多样性的特点,全球互连网大约有数千万个w 曲两 站,其访闯用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大 量的w e b 访问和使用信息。尤其是大型电子商务网站每天都可能有上百万次的 在线交易,生成大量的w e b 日志和登记表单。w e b 日志挖掘是w e b 数据挖掘研 6 究领域中一个最重要的应用方面。w e b 日志挖掘就是运用数据挖掘的思想来对服 务器日志进行分析处理,揭示其中的关联关系、时序关系、页面类属关系、客户 类属关系和频繁访问路径等,用以优化w e b 站点的组织结构,发现用户测览站 点的共同行为,对不同的客户群进行分类以提供个性化的服务,对站点的智能化 设计具有重大意义,更可以提高网站的经济效益。 l 删e b 日志挖掘的研究现状 通过使用w e b 日志文件可以进行一些研究工作,如系统性能分析、通过 w e b 缓存改进系统设计、w e b 页面预取、w e b 页面交换。认识w e b 信息访问的 性质,理解用户的反映和动机,还有助于建立针对个体用户的定制w e b 服务。 下面我们从两个方面来介绍一下w 曲日志挖掘的研究现状。 l 、从研究的角度来看,现有的基于w e b 服务器日志数据的研究大致可以分 为三个方向:( 1 ) 分析系统性能;( 2 ) 改进系统设计l ( 3 ) 理解用户意图。由于它们 针对的功能不同,采取的主要技术也不同。 以分析系统性能为目标的研究,主要是从统计学的角度,对日志数据项进行 多种简单的统计,如频繁访问的网页,单位时间访问数,访问数据量随时问分布 图等。目前己有的绝大多数商用及免费的w e b 日志分析工具都属于这种类型, 这些工具的用户一般是w e b 服务器的管理者。通过这些统计数据,管理员可以 对w e b 服务器作相应的调节,如缓冲设置,镜像站点设置等。更进一步。如果 将w e b 日志视做关系表,利用数据挖掘技术还可以发现许多有价值的信息,如 利用关联规则可能发现用户所在地区与某被访问页面问的关系。此外,许多数据 挖掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于w e b 日志的 分析,帮助管理员发现用户的访问规律。 以改进系统设计为目标的研究,由于w e b 服务器的设计与建设的主要复杂 性是它能随着设计者及用户的变化而不断自我调整,研究如何以日志数据为依 据,对w e b 服务器的组织和表现形式进行自动或半自动调整,从人机交互和软 件a g e n t 领域提出a d a p t i v ew e bs i t e 的概念,它在技术手段上与数据挖掘技术有 某些交叉和重叠。 以理解用户意图为目标的研究,一般是通过算法从w e b 服务器日志中找 出频繁的用户访问路径或访问模式。这些都是为了从大量的w e b 日志数据中 7 找出一定的模式和规则。 2 、从挖掘的方法来看,迄今为止w e b 日志挖掘方法主要有两大类:( 1 ) 基 于w e b 事务的方法,即将数据挖掘技术应用于w e b 服务器日志,以期发现用户 浏览模式。这类方法提出了最大前向引用序列m f r 的概念,并用它将用户会话 分割成系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路径。( 2 ) 基于数据立方体的方法,即根据w e b 日志建立数据立方体,然后对数据立方体 进行数据挖掘和联机事务处理( o i p ) 。 在这一类w e b 日志挖掘的技术中,可能要考虑如下问题。首先,虽然w e b 日志分析可以设想出许多激动人心的潜在应用,但重要的一点是此类应用的成功 要依赖于从这一巨大原始日志数据中能够发现什么样可靠和有效的知识,能发现 多少。通常,原始的w e b 日志数据需要经过清洗,浓缩和转换,以便于检索和 分析有意义和有用的信息。这类技术包括数据清理,数据集成和变换,数据归约 等,此外还有数据的离散化及概念分层。 其次,基于u r l 、时间、口地址和w e b 页面内容信息,可以在w e b 日志数 据库上构造多维视图,进行多维o l a p 分析,用于找出头n 个用户,头n 个被 访问页面,最频繁访问时间期,等等,这有助于发现潜在客户,用户和市场等。 再次,在w e b 日志记录上可以进行数据挖掘,用于找出关联模式,序列模 式和w e b 访问趋势等。对w e b 访问模式挖掘,通常需要采用进一步的手段获得 用户访问的附加信息,以便于做更为详细的w e b 日志分析。此类附加信息包括 w e b 服务器缓冲区中用户浏览w 曲页面的序列等。 1 4 论文的组织 论文的全文组织如下z 第l 章:论述了w e b 日志挖掘的研究背景、研究意义;综述了目前的 研究现状;明确了本文的研究内容。 第2 章;先简单介绍了w e b 挖掘相关内容,然后介绍了w e b 日志挖掘 应用及挖掘过程,最后介绍了w e b 日志挖掘的分析方法。 第3 章:讲述w e b 日志挖掘的预处理实现,包括数据清理、用户识别、 会话识别、片断识别。然后描述了各个步骤的实现过程,并具体应用到某网站中 进行说明。 g 第4 章:主要是对关联规则中的f p - g r o w t h 算法进行分析,使其适用到 网站日志挖掘中,并具体应用到某网站中进行说明。 第5 章:主要是对类a p r i o r i 算法进行分析。使其适用到网站日志挖掘 中,通过挖掘频繁遍历路径来了解用户的浏览模式,并具体应用到某网站中进行 说明。 最后,对本文的工作和研究内容做了一个全面的总结,并提出了不足与 未来的研究发展方向。 9 第二章w e b 挖掘技术 2 1 数据挖掘和w 曲挖掘 2 1 1 数据挖掘 数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程1 3 0 l 。何为知识? 从广义上理解,数据、信息也是知识的表现形 式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作 是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的, 如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至 是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学 的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优 化,决策支持和过程控制等。还可以用于数据自身的维护。 数据挖掘是一个完整的过程,该过程从大型的数据库中挖掘先前未知的、有 效的、可使用的信息,并使用这些信息做出决策或丰富知识。数据挖掘的基本过 程和主要步骤如下: l 、确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结果是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 2 、数据准备 ( 1 ) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中 选择出适用于数据挖掘应用的数据。 ( 2 ) 数据的预处理:研究数据的质量,为进步的分析做准备,并确定将要 进行的挖掘操作的类型。 ( 3 ) 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算 法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 、数据挖掘 选择合适的挖掘算法对经过转换所得到的数据进行挖掘,从中发现知识、规 1 0 则和模式。 4 、结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用 到可视化技术。 2 1 2 w 曲挖掘 w e b 挖掘就是将数据挖掘的思想和方法应用到w e b 上,从大量非结构化、 异构的w e b 信息资源中发现有效的、新颖的、潜在可用的及最终可以理解的知 i r ( 包括概念、模式、规则、规律、约束及可视化等形式) 的非平凡过程,帮助人 们从互联网中提取知识,改进站点设计【姗。 w e b 挖掘相对于传统的数据挖掘技术有其自己的特点和难点。首先,它的挖 掘对象是海量的、分布的文档,并且在不断地发生更新,是一个动态性极强的信 息源;其次,w e b 本身的无结构、半结构,且缺乏机器可以理解的语义,导致 w e b 页面的复杂性高于任何传统的文本文档,对页面信息的抽取和特征表示等预 处理显得更加重要;第三,w e b 在逻辑上是一个由文档节点和超链接构成的图结 构,所以,w e b 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的;最后,w e b 面对的用户具有不同的背景、不同的兴趣和不同的使用目的, 使得w e b 的用户群体表现出多样性的特点,如何建立有效的动态模型来反映不 同类型用户的实际需求是一件比较困难的事。 2 1 3 w 曲挖掘分类 w e b 信息的多样性决定了挖掘任务的多样性。按照w e b 处理对象的不同,一 般将w e b 挖掘分为3 类;w e b 内容挖掘、w e b 结构挖掘和w e b 日志挖掘 【1 n 。如图2 _ l 所示: 图卜lw e b 挖掘分类 l 、w e b 结构挖掘 w e b 结构挖掘是从w e b 的组织结构和链接关系中推导知识。它不仅仅局限 于文档之间的超链接结构,还包括文档内部的结构。文档中的u r l 目录路径的 结构等。w e b 结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进 行相关度排序,寻找个人主页和相似网页,提高w e b 搜索蜘蛛在网上的爬行效率, 沿着超链接优先爬行。w e b 结构挖掘还可以用于对w e b 页进行分类、预测用户 的w e b 链接使用及w e b 链接属性的可视化。对各个商业搜索引擎索引用的页 数量进行统计分析等。 2 、w e b 内容挖掘 w e b 内容挖掘是指从文档的内容中提取知识。w e b 内容挖掘又分为文本挖 掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,w e b 文本挖掘已 经有了比较实用的功能。w e b 文本挖掘可以对w e b 上大量文档集合的内容进行 总结、分类、聚类、关联分析,以及利用w e b 文档进行趋势预测等。w e b 文档 中的标记,例如c f i t l e 和 等蕴含了额外的信息,可以利用这些信息来加 强w - e b 文本挖掘的作用。 3 、w e b 日志挖掘 w e b 日志挖掘是指在服务端对用户访问网络的活动记录进行挖掘,目前应用 最为广泛。w w w 中的每个服务器都保留了访问日志,记录了关于用户访问和交 互的信息,可以通过分析和研究w e b 日志记录中的规律,来识别网站的潜在用 户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行w e b 日志挖 掘;可以根据用户访问的w e b 日志记录挖掘用户的兴趣关联规则,存放在兴趣关 联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些w e b 页面,加 快用户获取页面的速度。分析这些数据还可以帮助理解用户的行为,从而改进站 点的结构,或为用户提供个性化的服务等。 2 2 w e b 日志挖掘 2 2 1 w 曲日恚挖掘的应用 w e b 日志挖掘主要应用在以下几个方面1 1 2 l : l 、个性化服务与定制 ( 1 ) 通过对用户存取日志文件中的存取事务进行聚类分析、发现用户的个性 化搜索兴趣模式,根据个人的喜好为每个用户定制符合其个人特色的w e b 站 点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等 方面动态进行定制。 ( 2 ) 根据对用户访问路径的分析,生成用于导航的用户局部网络视图。如根 据用户一般对某些特定的资源感兴趣,且其浏览需求往往是重复的这一特点,提 出了浏览区域的概念,将用户在一次浏览过程中从某个u r l 开始的、彼此间由 超链接连接的的被访问的网页划分为一个单位,并由此产生该用户的浏览虚拟视 图,进行导航f 1 3 l 。 ( 3 ) 基于用户共同兴趣进行信息导航。通常首先对用户群体进行聚类,找出 各用户簇的共同特征,即该用户簇所有用户的共同检索兴趣、习惯和模式,并据 此进行信息定制。 ( 4 ) 用户访问行为预测。包括单用户和用户簇的行为预测。 2 、改进系统性能和结构 主要是从统计学的角度,对w e b 系统的特性数据( 主要是w e b 日志数据) 进 行多种分析和统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等, 从而改进系统性能和结构。 3 、站点修改 对所有用户的浏览路径、访问模式及倾向进行分析挖掘,发现其中某些页面 的逻辑关联,获得用户访问模式信息。充分利用这些信息,改进w e b 站点的服 务质量。把一组频繁访问的页面直接链接,可以改善站点结构。 4 、商业智能 通过用户行为和购物关系的挖掘,能更好理解用户的购买意图,发现其中的 用户购物特征和购买趋势,识别电子商务的潜在客户,确定电子商务的潜在客户 群,以此进行商业智能、支持商业决策,合理制订网络广告策略。 5 、页面推荐 收集和统计活动用户对站点的近期访问信息,分析其浏览路径,并与挖掘的 模式进行比较匹配,并根据匹配程度进行排序,为活动用户预测下一步只有可能 访问的页面,并将排序结果附加在现行用户请求页面之后,从而进行页面推荐。 2 2 2 w e b 日志挖掘的过程 w e b 日志挖掘的过程一般分为3 部分:预处理阶段、挖掘算法实施阶段和模 式分析阶段。如图2 - - 2 所示: 图2 1 w r e b 日志挖掘过程 w e b 日志挖掘首先是对日志进行预处理,此阶段的主要任务是,从原始日志 文件中选取出供用户浏览模式发现算法使用的规范化数据,其结果将直接影响到 算法处理结果的准确度与可信度。数据预处理阶段包括数据净化、用户识别、会 话识别和路径补充等过程。数据净化就是删除挖掘过程中不需要的数据,用户识 别是将用户和请求的页面相关联的过程,其中主要处理多个用户通过代理服务器 或防火墙访问站点的情况。在用户识别的过程中,不仅需要服务器日志,还需要 知道站点的拓扑结构,会话识别是将一个用户在一段时间内所有的请求页面进行 分解以得到用户会话,路径补充过程就是将本地或代理服务器缓存所造成的遗留 请求也补充完整。执行上面的操作后,就得到了事务识别阶段所需的输入信息一 用户会话文件,该文件中包含访问w e b 站点的用户,用户请求的页面及请求发 生的顺序,每一页测览的时间等信息。 挖掘算法实施阶段涉及到两个方面:事务识别以及对事务识别阶段的结果施 用挖掘算法产生规则和模式。事务识别是对用户会话进行语义分组,例如在市场 分析中,事务的含义是:用户一次结帐时购买的所有物品。在w e b 日志挖掘领 域中,唯一具备自然事务特征的对象是用户会话,但是它对于挖掘任务来说粒度 太粗,所以需要特定的算法将用户会话分割成更小的事务。分割后事务的具体意 1 4 义是:用户为获得一项有意义的信息所点击的页面序列,也就是用户会话中的每 一次前进测览的第一页到回退的前一页组成的路径。例如一个用户会话中请求的 页面顺序是a b 肫d 大写字母标记页面) ,则对应的事务为a b 和a c d 。 这种方法的基本模型是事务中的最后一页是内容页( 也叫做最大向前引用) ,在此 之前的页面都是辅助页。这种事务也叫最大向前引用路径( 简称脚) 。而具体挖 掘算法实施主要采用某种挖掘算法( 关联规则算法、序列模式识别算法等) ,这一 阶段的结果中包括一般的统计,如每页的访问数,最频繁访问的页面每页的平 均浏览时问等,还包括其它的一些挖掘结果,如序列模式。关联规则,聚类等。 最后。模式分析阶段是通过模式发现算法找到的模式集合中筛选出有意义的 模式、规则。采用可视化技术提出有意义、感兴趣的规则与模式作为挖掘结果。 2 2 3 w e b 日志挖掘主要分析方法 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智 能、机器学习。这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据 集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 数据挖掘技术越来越成熟,使得w 曲日志挖掘的分析方法变得多样化。 w 曲日志挖掘方法有多种,常用的w e b 日志挖掘技术有统计分析、序列模式分 析、关联规则、分类和聚类等f 1 4 1 。 l 、统计分析 统计分析是最常用的从w e b 用户行为中抽取知识的方法。对w e b 日志进行 统计分析可以获得有关站点使用的基本信息,如页面访闯次数、页面的平均访问 人数、最频繁访问的页面、浏览站点的路径平均长度等;还可以进行有限的错误 分析。如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的 浏览路径和路径长度以及用户的访问行为和习惯等信息。这种分析虽然看起来不 能进行深层次的数据分析,但是分析结果往往对提高系统性能、加强系统安全性, 优化站点结构,提供市场决策等方面大有帮助。 2 、序列模式 序列模式指在时序数据集中发现在时间上具有先后顺序的数据项。在w e b 日志挖掘中,序列模式识别指寻找用户会话中在时间上有先后关系的页面请求。 在w e b 服务器日志里,用户的访问是以时间为单位记载的。经数据预处理后,成 为一个间断的时间序列,这些序列模式可以预测用户即将可能请求的页面,这样就 可以针对特定的用户组在页面中放置不同的广告条来增加广告的点击率,还可 以进行商业和市场的决策,站点结构的优化。 3 、关联规则 关联规则技术主要用于发现用户会话中经常被用户一起访问的页面集合这 些页面之间没有顺序关系。挖掘关联规则通常使用a p d o r i 算法或其变形算法,从 事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出的用户访 问模式。关联规则可以作为站点设计者优化站点的参照。也是在w e b 上进行商业 和市场决策的依据,而且还可以作为启发式规则为远程客户预取可能请求的页 面。c h e n 等人最早提出基于w e b 事务的w 曲日志挖掘技术。将数据挖掘技术应 用于w e b 服务器日志文件,提出最大前向引用( m 嫡m a lf o r w a r d r e f e r e n ,简称 矾) 系列的概念,用于在日志预处理阶段辨识用户访问事务,然后采用与关联规 则相似的方法挖掘频繁访问路径,以发现用户浏览模式。 4 、分类和聚类 分类是将一个对象分到事先已定义好的类中。在w e b 日志挖掘中,分类可以 用来为一组特定的用户建立简档,这就要求抽取关键属性描述已知的用户类别。 可以使用监督学习算法来分类,如决策树分类法、贝叶斯分类法、最近邻分类法、 支持向量机等。 聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支,在模 式识别、图像分割、特征提取等领域中得到了广泛应用。对于一个特定的w e b 站点,其拓扑结构、页面个数都是已知的,虽然同一个用户在不同时期可能有不同 的浏览模式,但其长期趋势应该是稳定的。因此,分析一定时期内用户的访问信息 便可以了解用户的访问模式,实现用户聚类和页面聚类。用户聚类主要是把用户 划分成若干组。具有相似浏览模式的用户分在一组,这类知识在电子商务和为用户 提供个性化服务等应用中特别有用;页面聚类则可以找出具有相关内容的页面集, 这对网上搜索引擎和调整页面结构等很有用。 1 6 第三章w e b 日志预处理技术 数据预处理,就是根据挖掘的目的,对原始w e b 日志文件中的数据进行提 取、分解、合并,最后转化为适合进行数据挖掘的数据格式,其结果将直接影响 到挖掘算法处理的准确度与可信度,是整个w e b 日志挖掘过程的基础和实施有 效挖掘算法的前提。 3 1 w b b 日志介绍 w e b 服务器日志记录着用户访问该站点时每个页面的请求信息。一般面言, w e b 日志文件都是纯文本文件,采用实际长度记录,用回车换行符作为记录结束 标志。日志文件格式多种多样,因不同的w e bs e r v e r 、不同的版本有所区别,即 使同一个版本的w 曲s e r v e r ,由于用户的设置不同也不一样,但总体来看,所有 国际通用的w e bs e r v e 日志都必须遵从w 3 c 标准。一般而言,目前常用的w e b s e r v e 日志格式可以分成两类:通用日志格式( c o m m o nl o gf o r m a t l f ) 和扩展 型日志格式( e x t e n d e dl o gf o r m a t e l f ) 。其主要结构如表3 ,一l 所示。 表中一些内容在实际应用中是用不到的,如c o o k i e 和u r i 查询。c o o k i e 是在服务器端产生的,记录用户的状态或访问路径。但是由于涉及到隐私问题, c o o k i e 的使用需要用户的配合;u r i 查询是用户查询所需要的信息时在服务器端 产生的记录。 由于服务器并不记录用户的浏览行为。所以如果用户的请求是通过本地( 如 在m 浏览器中按“后退键一) 或p r o x y 端的缓冲区得到满足则服务器端并不记 录此次请求,因此日志文件中的记录并不能完全地反映用户的访问行为。 1 7 w e b 日志记录的主要信息 撞赴 d “二i 茳耋t 直当日j 蜊 一j 且蝴建立血虹址监h j 盔z 蔓皂u 曲u 地址直m _ j 盎主蔓注山世二益一 1 嵋置器名称 一l 一雌釜蛩芷j 韭亟: 盥箍量衄端生 川,型游a 盔一 盎_ 一一 生性址i 过j 垒咝一l 3 2 基本概念 w 3 c 国际组织已经为w e b 访问信息定义了一些基本概念。在这些概念的基 础上,一些扩展的概念构成开展w e b 访问信息挖掘的基础。 ( 1 ) 用户( u s e r ) 用户被定义为一个通过浏览器访问一个或者多个w e b 服务器的访问者。对 服务器而言,即使c o o k i e 也很难唯一和重复地识别一个用户。例如一个用户通 过几台计算机访问w e b 或在一台机器上使用多个浏览器或几个用户使用一台机 器上的一个浏览器进行浏览。 ( 2 ) 页面文件( p a g ef i l e ) 一个页面文件是通过h t t p 请求发给用户的文件。页面文件一般静态存在于 w e b 服务器上。一些动态页面文件源于数据库或j a v as c r i p t 。p h p , a s p , j s p 等技 术,由w e b 服务器动态生成响应用户的请示。 ( 3 ) 页面视图( p a g ev i e w ) 滋鬻撼然 一个页面视图由一个集合的页面文件组成,在用户浏览器上同时显示。页面 视图通常与一个用户的行为相关。其通常由一些文件组成如框架( f r a m e ) ,图片 和s c r i p t 等。 ( 4 ) 客户浏览器( c l i e n tb r o w s e r ) 是指具有一个独立p 地址的,用户通过其访问w e b 服务器的浏览器软件。 客户端包括代理服务器软件。 ( 5 ) w e b 服务器( w e bs e r v e r ) 是指运行在互联网服务提供方主机上的w w w 服务软件,目的是响应客户 端发生的h t t p 请求。 ( 6 ) 点击流( c l i c ks t r e a m ) 是指连续h t t p 请求序列。指从客户端浏览器上,由用户连续发出的h t t p 请求序列。 ( 7 ) 一次访问用户( o n eu s e r a ta t u n e ) 是指一个通过一个客户端浏览器发出连续h i i p 请求序列的对一个w e b 服 务器进行访闯的访问者。如果个真实的用户每隔一段较长的时间对一个w e b 服务器发出一个连续h t r p 请求序列那么对该w e b 服务器而言就有多个一次访 问用户进行了访问。如果一个真实的用户通过不同的客户端对一个w e b 发出一 个连续h t t p 请求序列,那么对该w e b 服务器而言就有不同的访问用户进行了 访问。该概念的提出将一个真实的用户和该用户的一次访问进行了分离。 ( 8 ) 用户访问会话( u s e rs e s s i o n ) 是指由用户发出的对w 曲世界的一次连续h t t p 请求序列 ( 9 ) 服务器访问会话( s e r v e rs e s s i o n ) 简称用户访问事务( u s e rt r a n s a c t i o n ) 是指一次访问用户的对一个w e b 服务器 的一次访问由该一次访问用户所请求的页面序列组成。 ( 1 0 ) 片断( e p i s o d e ) 用户会话中一段有意义的点击流。 3 3 日志预处理方法 数据预处理是在将日志文件转换成数据库文件以后进行的,其目的是把 w - e b 日志转化为适合进行数据挖掘的可靠的精确的数据。这个过程主要包括四个 1 9 阶段:数据清理、用户识别、用户会话识别和片断识别f l 甜。 3 3 1 数据清理 数据清理是指根据需求,对日志文件进行处理,包括删除无关紧要的数据, 合并某些记录,对用户请求页面时发生错误的记录进行适当的处理等等。 当用户请求一个网页时,与这个网页有关的图片、音频等信息会自动下载, 并记录在目志文件中;而如果我们挖掘的目的是用户访问模式,这些信息对我们 来说显然用处不大( 除非图片、音频等是用户显示请求的,即用户所需要的内容正 是这些图片和音频等文件) ,所以可以把日志中文件的后缀为g i f 、j p g 、j p e g 、 鲫、j p i g 、麟等的记录删除。但是,当挖掘的目的是为了进行网络流量分析 或为页面缓冲与预取提供依据时,这些信息又会显得格外重要,所以在删除这些 记录的时候一定要把相关信息记录下来。我们选择将其中的。发送字节数一和“接 收字节效打这两个域的内容记录下来。此外,后缀名为画、j s 和j s 的脚本文 件因对后面的分析处理不造成任何影响,所以应该删除。 我们可以定义一个缺省的规则库来帮助删除记录,而且这个规则库可以根 据正在分析的网站类型进行修改。例如,对于主要包含图形的站点,日志中的图 形文件可能代表了用户的显式请求,此时就不能将图形文件删除。我们可以预先 将网站分为一般网站、图片网站、音视频网站等,分别建立对应的规则库:确定 要分析的网站属于那一类,然后按照该类网站的规则库进行数据清理。当然,我 们还可以根据自己的需要对规则库进行删改。 3 3 2 用户识别 如若进行用户访问模式的挖掘或对用户进行聚类分析,用户识别问题则显 得至关重要,因为群体是由个体组成的,只有对个体有了清楚的了解,才能识别 群体的特征。由于缓存、代理服务器( 包括网吧、局域网等环境) 和防火墙的使 用,使得识别用户这一步变得很复杂z 不同的用户可以在同一时间通过一个简单的代理访问w e b 服务器: 同一个用户可能在不同的机器上访闯w e b 服务器; 一个用户可能在同一台机器上使用不同的流览器访问w e b 服务器;而当 不同的用户使用同一台机器浏览某一站点时也会造成混淆。为此,我们提出了如 下的启发式规则来识别用户: 不同的口地址代表着不同的用户: 当坤地址相同时。我们默认不同的操作系统或浏览器代表不同的用户; 在p 地址相同,用户使用的操作系统和测览器也相同的情况下,则我们 根据网站的拓扑结构图对用户进行识别:如果用户请求的某个页面不能从已访问 的任何页面到达,则判断这是又一个新的用户。当然,这些规则并不能非常准确 的识别出每一个用户。例如,一个用户使用多种浏览器或者直接在地址栏中输入 u r l 信息,此时会被认为是多个用户:具有相同坤的用户使用同种操作系统和 同种测览器浏览网站,并且测览的页面集合相同,则会被认为是同一个用户。 3 a 3 会话识别 用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,可以 获得他在网站中的访问行为和浏览兴趣。 日志文件中不同用户访问的页面当然属于不同的会话。当某个用户的页面请 求在时间上跨度比较大时,就有可能是该用户多次访问同一个网站,可以将用户 的访问记录分成多个会话来处理。最简单的方法就是设置一个t i m c o u t 值,如果 用户访问页面的时间差超过了这个值,则认为用户开始了一个新的会话。 3 3 4 片断识别 识别片断就是找出用户会话中有意义的访问路径 3 1 。在识别片断之前,我们 所要做的准备工作是进行路径填充。填充路径的目的在于补全访问日志中没有记 录的用户请求,获得用户完整的访问路径,这样才能正确地识别用户的有意义的 访阎路径。用户在测览网页时,通过按下浏览器上的搿后退挣按钮得到的页面是 从本地缓冲区中得到的,在日志文件中是没有记录的,从而导致该页与用户上一 次请求的页面之间没有超链接信息:在这种情况下,可以根据网站的拓扑结构, 把用户的访问路径填充完整。如果用户访问的历史记录中有多个页面都包括与当 前页面的连接,则选择请求时间最接近于当前页的页面作为当前请求的来源。 路径填充完毕后,就可以进行片断的识别了。一般来说,用户从缓冲区中取 得的网页不是用户真正想测览的网页,用户只是将其作为桥梁来访问其他的网 页,并没有实在的意义,反而会影响o l a p 统计分析和用户访问模式挖掘的效 果。例如有浏览路径a b - d 帅b - c ,很显然,用户是在访问完a 孙f 后 通过d - b 的回退,在b 页面上选择了另一个连接页面c ;所以,经过片断识 2 l 别,我们识别出两个有意义的访问路径,即a - b d - f 和a b 。这无形中表明, 用户在访问b 页面时很可能对其上提供的连接页面d 和c 同样感兴趣。 识别片断所用的方法是识别最大向前引用( m a x i m a lf o r w a r dr e f e r e n c e ) 路径。 一个最大向前引用路径就相当于一个片断。向后引用意味着同一个用户再次请求 其浏览过的页面( 如用户按下了“返回,按钮) 。当一个向后引用发生时,说明 向前引用中止,则得到的向前引用的路径即是一个最大向前引用;或者当这个用 户会话结束时,也获得一个最大向前引用。算法如下; 对于用户会话中的每一次请求,定义一个序偶( s i , d i ) ,字符串x 用来存放当前的 向前引用路径

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论