(计算机软件与理论专业论文)基于web日志挖掘的智能化站点研究.pdf_第1页
(计算机软件与理论专业论文)基于web日志挖掘的智能化站点研究.pdf_第2页
(计算机软件与理论专业论文)基于web日志挖掘的智能化站点研究.pdf_第3页
(计算机软件与理论专业论文)基于web日志挖掘的智能化站点研究.pdf_第4页
(计算机软件与理论专业论文)基于web日志挖掘的智能化站点研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于w e b 日志挖掘的智能化站点研究 y 6 3 8 9 9 3 摘要 随着网络规模的迅猛发展以及用户需求的膨胀,i n t e r n e t 已成为人们信息发布,娱 乐和交流的媒体。尽管i n t e r n e t 提供大量的信息和搜索门户网站,但用户往往无法找到 自己所需的内容。w e b 站点的日志数据记录了浏览用户对此w e b 站点访问时的大量 路径信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人 员可以用来对网站的结构进行优化和页面重组。更重要的是智能化站点能够通过历史日 志数据自动对用户未来访问页面进行预测。 本文首先对w e b 挖掘技术分类进行介绍,并针对w e b 日志挖掘系统体系结构进 行分析,重点介绍预处理过程的步骤及难点。其后将关联规则挖掘技术应用到日志事务 会话中,会绍了传统的关联规则发现的a n o r i 挖掘算法,在对曰恚数据的特性分析的 基础上提出类a p r i o r i 挖掘算法。 本文对类a p r i o r i 挖掘算法得到的频繁项集如何有效提取关联规则提出五种方法, 通过试验对比,我们得出了最有效的方法。在实际应用中,如何从多个匹配的关联规则 中选择合适的规则,本文提出两种匹配规则思想。 最后简单介绍聚类思想,提出基于密度的递归聚类应用到日志的挖掘算法。通过递 归聚类算法找到几组相关页面集合,从而可能为推荐系统提供与当前用户访问会话序列 符合的页组,推荐系统根据此页组预测可能访问的后继页面。 关键词:w e b 日志挖掘,关联规则,数据挖掘,密度聚类 a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n to fc o m p u t e rn e t w o r ks c a l ea n dt h ei n f l a t i o no fc u s t o m e r n e e d ,i n t e r n e t h a sb e c o m et h e e x c h a n g e m e d i ab yw h i c hp e o p l e p u b l i s hi n f o r m a t i o n , c o m m u n i c a t e a l t h o u g hi n t e m e ts t o r e sal o to fi n f o r m a t i o na n dp r o v i d e ss e a r c he n g i n e e r , c u s t o m e r sc a nn o ts t i l lf i n do u t o n e s e l f n e e d i n g c o n t e n t s t h e d a l l yl o g d a t ao fw e bs i t er e c o r d sl o t so f v i s i t i n g p a t h i n f o r m a t i o nf o rt h ew e b w e c a nd r a wt h eu s e rh o b b yi n f o r m a t i o nf r o ml o gf i l e w e bs i t e sd e s i g n e rp r o c e e d e dt h ep a g e r e o r g a n i z a t i o na n d e v e n i n t e l l i g e n tw e b c a n p r e d i c tt h en e x tv i s i t e dp a g e i nt h ef u t u r e t h ep a p e ri n t r o d u c e st h ec l a s s i f i c a t i o no fd a t am i n i n gt e c h n i q u ef i r s ta n da n a l y s i st h e s y s t e mc o n s t r u c t i o no f w e b l o gm i n i n g t h ep a p e re m p h a s e sp r e p a r i n g - p r o c e s s s e c o n d l yw e t r yt oi n t r o d u c e t h en o t i o no f a s s o c i a t i o nr u l ei n t ot h ew e b m i n i n gs y s t e ma n dp r o v i d es i m i l a r a p f i o f i i nt h i sp a p e r , i tb r i n g sf o r w a r df i v em e t h o d sa b o u ta b s t r a c t i n gr u l e sf r o mt h ef r e q u e n c y i t e m w es e l e c tt h eb e s tm e t h o dt h r o u g ht h ee x p e r i m e n t i nt h ep r a c t i c a l i t y , t h ep a p e r p r o v i d e s t w o m a t c h i n g r u l ei d e ao f c h o o s i n ga p p m p i l a t er u l e s i nt h e l a s t ,w ep r o p o s er e c u r s i v ec l u s t e ra l g o r i t h m t of i n ds o m eu r ls e t s m r e m a n d i n ge n g i n e e rp r e d i c t st h en e x t u r lf r o mt h ef i tu r ls e t s k e y w o r d s :w e bl o gm i n i n g ,a s s o c i a t i o nr u l e ,d a t am i n i n g ,d e n s i t y c l u s t e r i i 基于w e bi _ 志挖掘的智能化站点研究 第一章绪论 1 1 课题意义及国内外研究现状 近年来,随着网络规模的迅猛发展以及用户需求的膨胀,i n t e r a c t 已成为人们信息 发布,娱乐和交流的媒体。调查显示i n t e m e t 上网页已超过l o 亿,尽管h t t e m e t 提供大 量的信息和搜索门户网站,但用户往往无法找到自己所需的内容。同时对每个网站提出 一个严峻的问题:网站如何设计和组织自己网站的网页使用户迅速找到所需要的内容, 这样节约用户的访问时间。 目前,国内站点与日俱增,但是大部分站点设计人员根据站点的需要根据自己的经 验对网站信息分类,并未考虑w e b 访问用户的测览行为,然后从使用者角度对站点进 行优化和为用户提供个性化服务【1 1 。 智能化w e b 站点翻翻( i n t e l l i g e n tw e bs i t e ) :利用w e b 服务器日志获取用户的访问 模式,根据当前用户的浏览模式,定制个性化页面内容和修改站点结构,为用户提供个 性化服务。 虽然w e b 服务器日志记录每一位访问者的请求信息,站点的维护人员( w e b m a s t e r ) 可以根据日志数据改进站点结构和内容,但是对于一个日访问量上万个页面( p a g e v i e w ) 的小型网站,直接分析这些原始的日志数据一般不可能的,为此我们借助于数据挖掘技 术,将它运用于日志数据中,自动、快速的发现访问者的浏览模式( 如频繁访问页面流, 频繁访问页组、用户聚类等) ,在得到访问者的浏览模式下,一种方法是手工改进站点 结构,达到方便用户浏览的目的。另一种方法是高效的、自动的根据每个访问者的浏览 模式,动态的调整、定制站点的结构与页面的内容,为每个访潞者提供个性化服务。只 有提供个性化服务才能较好的吸引大量的访问者。如果智能化w e b 站点技术应用在商 务网站,企业决策层对w w w 上的访问模式进行分析,这样可以帮助企业确定用户的 消费模式和消费心态,制定市场策略,还可以根据客户的兴趣提供个性化服务。如可以 为每个用户推荐不同的可能购买的商品等。 1 2 论文研究的主要内容 本论文根据日志信息,应用数据挖掘技术,深入研究智能化w e b 站点的理论及相 关实现技术,实现自动的根据每个访问者的浏览模式,动态的定制页面的内容,为每个 第l 页 基于w e b 日志挖掘的智能化站点研究 访问者提供个性化服务。利用中原工学院计科系网站进行验证。 具体研究内容: 1 从日志文件识别及提取用户会话s e s s i o n 。 2 应用关联规则发现频繁项目集,雩导出用户访问模式。 3 提出关联规则的表示( 抽取) 法,并对算法进行评估。 4 应用聚类算法对页面u r l 聚类,根据页面u r l 类预测可能的请求页面。 1 3 论文的结构安排 第一章为绪论,介绍课题的意义及主要研究内容。第二章介绍数据挖掘的基本概 念、分析方法和范围。第三章介绍智能w e b 站点体系结构。第四章介绍w e b 挖掘的分类, 并针对日志挖掘的体系结构进行了分析,着重介绍日志挖掘的预处理过程。 第五章介绍基于关联规则的a p r i o r i 思想的类a p r i o r i 挖掘算法,并对如何在频繁 项中提出有效的规则模式提出了五种方法。如何从多个匹配的关联规则中选择合适的规 则,本文提出两种匹配规则思想。第六章提出应用改进的密度聚类发现u r l 组来预测 可能的请求页面。第七章对本论文进行了总结和展望。 第2 页 基于w e b 日志挖掘的智能化站点研究 第二章数据挖掘概述 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据 是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对 数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去 的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量 急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽 取出来,将为公司创造很多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来 的。 确切地说,数据挖掘( d a t a m i n i n g ) ,又称数据库中的知识发现( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ,k d d ) ,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的 及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融 合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比 如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如“哪个客户对我们 公司的邮件推销活动最有可能作出反应,为什么”等类似的问题。有些数据挖掘工具还 能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出 一些专家们不易察觉的极有用的信息。 2 1 历史的回顾 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。研究数据挖掘的历 史,可以发现数据挖掘的快速增长是和商业数据库的空前速度增长分不开的,并且九十 年代较为成熟的数据仓库正同样广泛地应用于各种商业领域。从商业数据到商业信息的 进化过程中,每一步前进都是建立在上一步的基础上的。下表2 1 给出了数据进化的四 个阶段,从中可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的 数据库技术已经可以快速地回答商业上的很多问题了。 第3 页 基于w e b 日志挖掘的智能化站点研究 进化阶段时间段技术支持生产厂家产品特点 数据搜集6 0 年代计算机、磁带等 i b m c d c 提供静态历史数据 数据访问8 0 年代关系数据库、结构 o r a c l e 、 动态历史数据信息 化查询语言s q l s y b a s e 、i n f o r m i x 、 i b m 、m i c r o s o f l 数据仓库9 0 年代联机分析处理、多 p i l o t 、a r b o r 、 在各层次提供回溯的 维数据库 c o m s h a r e 动态的历史数据 数据挖掘正在流行高级算法、多处理 p i l o t 、1 1 3 m 、 可提供预测性信息 系统、海量算法 l o c k h e e d 、s g i 、 其他初创公司 表2 - 1 数据进化的四个阶段 2 2 数据挖掘分析方法 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机 器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成, 让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 数据挖掘利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技 术不适用的问题,其它方法即可能奏效,这主要取决于问题的类型以及数据的类型和规 模。数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分类分析、聚 类分析等1 4 1 。 1 、关联分析 关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的 研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如a p r i o r i 、s t e m 、 a i s 、d h p 等算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库 中形如“9 0 的顾客在一次购买活动中购买商品a 的同时购买商品b ”之类的知识。 2 、序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式 分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间 内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a b c 出现的频 度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序 第倾 基于w e b 日志挖掘的智自b 化站点研究 列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返 回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置 信度c 和最小支持度s 。 3 、分类分析 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记录都赋 予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示 例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然 后用这个分类规则对其它数据库中的记录进行分类。举一个简单的例子,信用卡公司的 数据库中保存着各持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类:良好、 一般、较差。并且类剐标记已赋给了各个记录。分类分析就是分析该数据库的记录数据, 对每个信誉等级做出准确描述或挖掘分类规则,如“信誉良好的客户是指那些年收入在 5 万元以上,年龄在4 0 5 0 岁之间的人士”,然后根据分类规则对其它相同属性的数据 库记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归 模型、决策树模型、基本规则模型和神经网络模型。 4 、聚类分析 与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事 先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理 地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定 的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊 聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结 果。 聚类分析和分类分析是一个互逆的过程。例如在最初的分析中,分析人员根据以往 的经验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合,挖 掘出每个类别的分类规则;接着用这些分类规则重新对这个集合( 抛弃原来的划分结果) 进行划分,以获得更好的分类结果。这样分析人员可以循环使用这两种分析方法直至得 到满意的结果。 2 3 数据挖掘的范围 追根溯源,“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏。 在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息。这两种过程都需 第5 页 基于w e b 日志挖掘的智能化站点研究 要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给 定了太小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会: 1 、自动趋势预测。数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统 上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个 典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推 销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。 2 、自动探测以前未发现的模式。数据挖掘工具扫描整个数据库并辨认出那些隐藏 着的模式,比如通过分析零售数据来辨别出表面上看起来没联系的产品,实际上有很多 情况下是一起被售出的情况。 3 、数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新 开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数 分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析 数据,让分析的结果更加准确可靠,并且易于理解。 此外,数据库可以由此拓展深度和广度。深度上,允许有更多的列存在。以往,在 进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量数量加以限 制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。 现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参 选的变量都被考虑进去,再不需要选择变量的子集来进行运算了。广度上,允许有更多 的行存在。更大的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出 一些虽小但颇为重要的结论。 2 4 数据挖掘的体系结构 现有很多数据挖掘工具是独立于数据仓库以外的,它们需要独立地输入输出数据, 以及进行相对独立的数据分析。为了最大限度地发挥数据挖掘工具的潜力,它们必须象 很多商业分析软件一样,紧密地和数据仓库集成起来。这样,在人们对参数和分析深度 进行变化的时候,高集成度就能大大地简化数据挖掘过程。 集成后的数据挖掘体系有自己的特点。应用数据挖掘技术,较为理想的起点就是从 一个数据仓库开始,这个数据仓库里面应保存着所有客户的合同信息,并且还应有相应 的市场竞争对手的相关数据。这样的数据库可以是各种市场上的数据库:s y b a s e 、o r a c l e 、 r e d b d c k 、和其他等等,并且可以针对其中的数据进行速度上和灵活性上的优化。 第6 页 基于w e b 日志挖掘的智能化站点研究 联机分析系统o l a p 服务器可以使一个十分复杂的最终用户商业模型应用于数据 仓库中。数据库的多维结构可以让用户从不同角度,比如产品分类,地域分类,或者其 他关键角度来分析和观察他们的生意运营状况。数据挖掘服务器在这种情况下必须和联 机分析服务器,以及数据仓库紧密地集成起来,这样就可以直接跟踪数据和并辅助用户 快速作出商业决策,并且用户还可以在更新数据的时候不断发现更好的行为模式,并将 其运用于未来的决策当中。 数据挖掘系统的出现代表着常规决策支持系统的基础结构的转变。不象查询和报表 语言仅仅是将数据查询结果反馈给最终用户那样,数据挖掘高级分析服务器把用户的商 业模型直接应用于其数据仓库之上,并且反馈给用户一个相关信息的分析结果。这个结 果是一个经过分析和抽象的动态视图层,通常会根据用户的不同需求而变化。基于这个 视图,各种报表工具和可视化工具就可以将分析结果展现在用户面前,以帮助用户计划 将采取怎样的行动。 2 5 数据挖掘中最常用的技术 1 、人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式 识别。 2 、决策树:代表着决策集的树形结构。 3 、遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计 方法的优化技术。 4 、近邻算法:将数据集合中每一个记录进行分类的方法。 5 、规则推导:从统计意义上对数据中的”如果那么”规则进行寻找和推导。 采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所 面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据 仓库和联机分析系统中去了。 面对新经济时代,全面集成了客户、供应者以及市场信息的大型数据仓库导致公司 内的信息呈爆炸性增长,企业在市场竞争中,需要及时而准确地对这些信息作复杂的分 析。为了更加及时地,更加准确地作出利于企业的抉择,建立在关系数据库和联机分析 技术上的数据挖掘工具为我们带来了一个新的转机。目前,数据挖掘工具正以前所未有 的速度发展,并且扩大着用户群体,在未来越加激烈的市场竞争中,拥有数据挖掘技术 必将比别人获得更快速的反应,赢得更多的商业机会。 第7 页 基于w e b 日志挖掘的智能化站点研究 第三章智能w e b 站点 概括地讲,智能w e b 站点( i n t e l l i g e n t w e bs i t e ) 技术是从用户的浏览行为中自动学习 用户的浏览模式,包括频繁访问页组、页面聚类、用户聚类等,并根据这些知识智能地 为用户提供更加方便和个性化服务。 3 1 智能w e b 站点体系结构 智能w e b 站点利用w e be t 志挖掘技术从w e b 日志中获取用户的访问模式,根据用 户的访问情况,实时推荐用户可能感兴趣的超链接。智能w e b 站点也称为自适应站点 ( a d a p t i v ew e b s i t e ) ,主要分两个模块实现: ( 1 ) 离线部分:包括数据准备、生成访问会话集、产生模式( 规则) 库。 此部分主要从日志文件中发现网站访问者的浏览模式,对这些模式筛选后,建立模 式库。 日 志 挖 掘 算 图3 1 智能w e b 站点离线部分 ( 2 ) 在线部分: 实时推荐引擎识别用户的当前会话( s e s s i o n ) ,得到每个用户的当前访问序列,然 后把序列送入模式库中,运算得到用户的下一些可能访问的页面,这些页面的地址可以 附加到用户当前访问页面的底部,以进行推荐。 图3 - 2 智能w e b 站点在线部分 第8 页 基于w e b 曰志挖掘的智能化站点研究 第四章w e b 挖掘 离线部分主要使用w e b 挖掘技术。 w e b 挖掘技术【5 】是与w e b 相关的数据挖掘技术,是指将数据挖掘技术用于从w e b 数据中发现知识。在w e b 挖掘中所处理的数据可以来源于服务器、客户端或者代理服 务器,也可以来自其他相关的数剧源。目前w e b 挖掘主要分为三类: w e b 内容挖掘( w e bc o n t e n tm i n i n g ) :即对w w w 上网页包含的数据,也就是 w e b 网页上的文本和图形,进行知识提取来满足不同用户的信息需求。w e b 文本挖掘、 基于代理的页面搜索技术( w w w g o o g l e c o r n ) 都属于w e b 内容挖掘。 w e b 结构挖掘( w e bs 仇l c t u r e m i n i n g ) :结构是指页面内容的组织形式。分为 页内结构( i n t r a - p a g e ) 和页间结构( i n t e r - p a g e ) 。页内结构即指一张网页内部各部分是 如何组织的,表现为各h t m l 和x m l 标记问的关系,可用树状结构来描述一个页面。 其中 标签是树的根。页间结构主要是网页之间的超链接信息。 w e b 结构挖掘主要是通过对w e b 站点的结构进行分析、变形和归纳,将w e b 页 面进行分类,以利于信息的搜索。因为超文本网页之间的相互连接,网页显示的信息远 比文档内容多。例如:指向文档的超链接数目表明该文档的受欢迎程度,而其中包含的 超链接数就表明该文档主题的丰富程度。这就类似参考文献的引用,如果一篇论文经常 被弓l 用就说明它比较重要。 w e b 使用挖掘( w e bu s a g em i n i n g ) :也称为日志挖掘,日志记录了网页被使用 的信息,如i p 地址、访问时间、哪一页、字节大小等。 目志挖掘从服务器的l o g 文件或其他数据中分析用户的访问模式。这些信息可以作 为优化站点的依据,也可以作为设置页面中广告投放点的依据等。 w e b 挖掘分类如图4 - 1 所示: 图4 1w e b 挖掘分类 本研究主要讨论w e b 日志挖掘,它是智能站点技术的基础。 第9 页 基于w e b 日志挖掘的智能化站点研究 4 1w e b 日志挖掘系统的体系结构 w e b 日志挖掘在国内外处于起步阶段,虽然出现了一些日志分析与挖掘的工具,但 大多数是试验室产品或者是对日志简单统计,w e b 日志挖掘技术在许多方面有待提高。 躁蚺r 右文件用户台话文件删和穗连( 摩兴趣曲) 耀划和攫式 图4 - 1 w e b 日志挖掘过程 w e b 日志挖掘过程嘲大体分为:数据预处理、挖掘算法实施、模式分析。经过模式 分析得到用户感兴趣的规则和模式,以友好的界面展示给用户。 4 2w e b 日志挖掘的预处理流程 4 2 。1 典型的w e b 服务器日志 现在,越来越多的企业利用i n t e m e t 进行商务活动,客户在w e b 站点上的商业活动 和浏览访问的大部分信息都记录在l o g 文件中,典型的w e b 服务器日志t 6 】包括以下信 息: c i p 地址:访问服务器的客户机的口地址。 用户i d ( c s - u s c r f l a l n e ) :是在被访问页面需要进行用户认证时才有的,该例中并 没有对任何一个页面进行认证,所以为空。 s i p :被访问服务器的i p 地址。 s - p o r t :被访问服务器的端口。 c s - m e t h o d :是指客户访问的方式,例如是g e t 还是p o s t ;有些还记录所采用的 协议如h t t p 或如等。 c s - u r i s t e m :是指访问的统一资源定位,即所访问的页面。 s e s t a t u s :反映了访问的最后状态( 结果) ,典型的有,2 0 0 代表成功,4 0 4 代表找 不都所请求的页面。 第1 0 页 基于w e b 日志挖掘的智能化站点研究 s i z e :代表请求的页面的大小。 r e f e r e r :反映了所请求页面所处在那个视图中。 c s ( u s e r - a g e n t ) :表示客户机的浏览器的类型,版本,以及所运行的操作系统。 以下是中原工学院计算机科学系w e b 服务器2 0 0 2 1 0 - 2 9 的日志片断: 日志头行 # s o f t w a r e :m i c r o s o f ti n t e r n e t i n f o r m a t i o ns e r v i c e s5 0 # v e r s i o n :1 0 # d a t e :2 0 0 2 一1 0 2 9o o :0 3 :5 1 # f i e l d s :d a t et i m ec - i pc s - u s e r n a m es - i ps - p o r tc s m e t h o dc s u r i s t e mc s u r i q u e r y s c s t a t u sc s ( u s e r a g e n t ) 2 0 0 2 1 0 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0g e t m o v i e m o v i e a s pp a g e = l2 0 0 m o z i l l a 4 0 + ( c o m p a t i b l e :+ m s i e + 6 o :+ w i n d o w s + n t + 5 0 ) 2 0 0 2 一1 0 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0g e t m o v i e i m a g e s f i i m t o p g i f 2 0 0m o z i l l a 4 0 + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 0 ) 2 0 0 2 1 0 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0g e t m o v i e i m a g e s f i i m t o p _ j e g i f 一2 0 0m o z i i l a 4 o + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 o ) 2 0 0 2 - 1 0 - 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0 g e l m o v i e i m a g e s f i i m _ s i d eb g g i f2 0 0m o z i l l a 4 o + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 0 ) 2 0 0 2 1 0 - 2 90 3 :2 7 :0 32 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0g e t t e x t i n d e x h t m l 一2 0 0 m o z i l l a 4 o + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 0 ) 2 0 0 2 - 1 0 - 2 90 3 :2 9 :1 32 0 2 1 9 6 4 0 3 2 2 0 2 1 9 6 3 5 18 0g e t t e x t w 2 h z m l2 0 0 m o z i i l a 4 o + ( c o m p a t i b l e ;+ m s i e + 6 0 :+ w i n d o m s + n t + 5 0 ) 2 0 0 2 - 1 0 2 90 3 :2 9 :1 32 0 2 1 9 6 4 0 3 2 2 0 2 1 9 6 3 5 18 0g e t t e x t w 2 2 h t m l2 0 0 m o z i1l a 4 0 + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 0 ) 2 0 0 2 1 0 - 2 90 3 :2 9 :1 32 0 2 1 9 6 4 0 3 2 2 0 2 1 9 6 3 5 18 0g e t t e x t w 2 3 h t m l2 0 0 e o z i l l a 4 o + ( c o m p a t i b l e ;+ m s i e + 6 o ;+ w i n d o w s + n t + 5 0 ) 表4 - 1 日志文件实际信息 第l l 页 基于w e b 日志挖掘的智能化站点研究 序号日期时间用户i p服务器i p端口n e t h o d l2 0 0 2 1 0 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 9 6 3 5 18 0g e t 22 0 0 2 - 1 0 2 9 0 3 :1 3 :5 i2 0 2 1 9 6 3 2 7 92 0 2 。1 9 6 3 5 18 0g e t 32 0 0 2 1 0 一2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 ,7 92 0 2 1 9 6 3 5 18 0g e t 42 0 0 2 一l o 一2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 9 2 0 2 1 0 6 3 5 18 0g e t 52 0 0 2 一1 0 - 2 9 0 3 :1 3 :5 12 0 2 1 9 6 3 2 7 92 0 2 1 9 6 3 5 18 0g e t 62 0 0 2 - i o _ 2 90 3 :1 3 :5 12 0 2 1 9 6 3 2 7 92 0 2 1 9 0 3 5 18 0g e t 72 0 0 2 - 1 0 2 90 3 :2 7 :0 32 0 2 1 9 6 4 0 3 2 z 0 2 1 9 6 3 5 18 0g e t 82 0 0 2 一l o 一2 9 0 3 :2 9 :1 32 0 2 1 9 6 4 0 3 22 0 2 1 9 6 3 5 18 0g e t 92 0 0 2 一1 0 2 90 3 :3 3 :0 42 0 2 1 9 6 4 0 3 22 0 2 1 9 6 3 5 。i8 0g e r 1 02 0 0 2 - 1 0 2 90 3 :3 7 :0 22 0 2 1 9 6 4 0 3 2z 0 2 1 9 6 3 5 18 0g e t 序s c 用户请求页面引用代理 号s t a t u s u s e r a g e n t l 2 0 0 m o v i e l v i e a s pp a g e = ib e f a u l a s p s l 22 0 0 m o v i e i m a g e s f i l m t o p g i f s i 32 0 0 m o v i e i = a g e s f i l m t o p _ j c g i f s 1 42 0 0 皿o v i e i m a g e s f il = s i d e _ b g g i f s 1 52 0 0 r o v i e p i c n o p i c j p g s l 6 4 0 4 l * a v i e i m g e s r e a l p l a y e r g i f s l 72 0 0 t e x t i n d e x h t m ls 2 82 0 0t e x t l , 2 h t m l t e x t i n d e x h t m l s 2 92 0 0t e x t w 2 2 h t m lt e x t w 2 ,h t m ls 2 1 0 2 0 0t e x t w 2 3 h t m lt e x t w 2 2 h t m l s 2 表4 2 一个简单的访问序列 表格中: s l 代表m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 ,0 ;+ w i n d o w s + n t + 5 0 ) s 2 代表m o z i l l a 4 0 + ( c o m p a t i b l c ;+ m s i e + 5 0 ;+ w m d o w s + 9 8 ;+ d i g e x t ) w e b 日志挖掘主要是提供面向用户的信息分析,所以首先要从w e b 日志中识别用户 会话作为信息分析的基础。 4 2 2 用户会话“u s e rs e s s i o n ” 定义1 :用户会话“u s e rs e s s i o n ” 我们用“u s e rs e s s i o n ”的概念来表示一个用户在段时间内访问某个网站的网页 的有序集合。我们可以根据某段时间内( 比如一天,一周) 的所有“s e s s i o n ”,得到一 些规则,例如d i j d j ,这几d i ,d j 都是( u r l s ) 。对于这个规则的理解是如果当d i 被请求了以后,过了一段时间很可能d j 就会被请求,因为历史情况记录的是如此。 第1 2 页 基于w e b 日志挖掘的智能化站点研究 图4 2 一个简单的网站示意图 例如:w e b 日志文件包含以下访问页面序列: t i m eu $ e r i p 访问页面 2 0 0 2 - 1 0 - 2 91 0 :0 3 :5 1u 1a 2 0 0 2 1 0 2 91 0 :0 3 :5 5u 2a 2 0 0 2 - 1 0 2 91 0 :0 3 :5 7u 2c 2 0 0 2 - 1 0 - 2 91 0 :0 4 :0 1u 3a 2 0 0 2 1 0 2 91 0 :0 4 :1 0u 1e 2 0 0 2 - 1 0 2 91 0 :0 4 :1 0u 3d 表4 3 用户访问页面序列 这个序列可以根据u s e ri p 得出用户会话“u s e rs e s s i o n ”; u s e t i p 访问页面 u 1a ,e - 一 u 2a c 一 u 3a d - 表4 4 用户访问会话序列 由于代理服务器和客户端的缓存,w e b 服务器日志并没有完整的记录了所有请求, 所以w e b 日志挖掘不能完全依赖于服务器日志,所以进行用户会话的识别是比较困难 的。 第1 3 页 基于w e b 日志挖掘的智能化站点研究 4 2 3 预处理过程 通常情况下,w e b 日志挖掘的预处理【6 】 7 就是将原始的日志文件结合站点的结构和 w e b 页面的内容,经过一系列的数据处理转化为用户会话,主要包括:数据净化、用户 识别、路径完善、会话识别。如图所示: 图4 - 3w e b 日志挖掘的预处理过程 一、数据净化 清除服务器日志中的无关条目是各类w e b 访问数据挖掘的重要阶段。关联规则和 访问统计的有效性完全在于日志是否能够准确的描述用户对站点的访问行为。 r 丌p 协 议是一个无连接协议,用户每下载一个文件,它都会在日志中增加一条记录。通常,用 户的一个h t m l 页面请求会产生几条日志记录,因为页面中通常包含对一些图片或其 他资源的引用,图片的下载也会在日志中增加一条记录。通常,只有用户请求的h t m l 页面才真正的代表用户的意图,应该用于用户的访问的统计。这是因为用户通常不会请 求页面的某个图片,它们都是由于包含此图片的页面被访问而浏览器自动下载的。由于 用户访问模式的日志挖掘在于发现用户访问行为规律,在数据集中包含不是用户明确请 求的内容对于挖掘无任何意义。消除无关项或冗余项可以简单的通过删除特定后缀的记 录实现。 例如:在l o g 文件中,扩展名为g i f , i e o 、c s s 、j p g 的l o g 记录可以删去,而并不 会对挖掘分析产生影响。再例如,通常首页中会有一个计数器的脚本文件“c o u n t e g i ”, 这也同样可以删除。 当然,也并不是完全如此,一个专门展示图片的网站肯定不希望把所有的后 缀g i f , i c o 、c 8 s 、j p g 的l o g 记录删除。因为这时,图片或许正是用户所请求的内容, 需要被保留分析。 二、用户识别 第1 4 页 基于w e b 日志挖掘的智能化站点研究 用户识别是w e b 挖掘的重要一环,它的成功与否直接关系到挖掘结果的准确性, 同时也是用户个性化聚类分析和个性化智能推荐服务的基础,也是阐述的重点。 每一个用户需要被明确的区分开来。这项工作的难点在于,一些通过代理服务器或 防火墙访问站点的用户所留下的是相同的i p 地址,或许我们还可以通过用户的i d 来区 分,可是往往得不到用户的1 d 。这时可以通过一些启发式规则【8 1 来区别用户。例如,如 果相同的i p 地址,日志记录的代理字段不同,我们可以认为是不同得用户。另一个规 则是,使用用户请求的引用与站点的网页拓扑关系来确定用户。如果一个网页不能通过 已有的用户访问集链接到,我们认为,它属于另一个用户。 三、路径完善 能够可靠识别不同用户的访问操作的一个关键问题就是要确定重要的访问是否记 录在l o g 文件中,这一问题称为路径完善嘲r i ( p a t hc o m p l e t i o n ) 。这是由于c a c h e 的存 在使得有的访问直接从本地提取即用户可能采用历史后退的方法获取的请求w e b 页, 而在服务器端没有反映出来。此时可采用站点的网页结构来进行页面完善。例如:以上 站点结构图为例,会话序列a bfo g 中页面g 不能直接通过页面o 链接访问,通过 日志分析,假设通过b 访问页面g 。这说明用户返回到页面b ,然后请求页面g 。所 以,页面b 加入到上述会话序列中,得到a b f o b g 。当然可能用户知道页面g 的 u r l 而直接键入此网址,然而此情况毕竟少数,不足影响我们的挖掘算法。 四、会话识别 在得到一个用户的所有访问后,我们首先需要将它们划分成不同的会话( s e s s i o n ) 。 例如那些时间跨度很大的记录,很可能就是用户多次访问的结果。会话识别的目的是划 分用户的访问到不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论