




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)web日志挖掘及其实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨1 = 程大学硕十学位论文 摘要 伴随着i m e 加e t 技术的发展,w w w 的应用也越来越多,w e b 站点越来 越普及。在当前竞争激烈的网络经济中,只有赢得用户才能获得竞争中的优 势。客户浏览行为的数字化,使得通过收集大量用户浏览行为数据来深入研 究客户行为变为可能。如何利用这个机会,从这些“无意义”并且繁琐的数 据中得到有价值知识和信息成为目前面临的最紧要的问题之一。为了解决这 个问题w e b 站点的数据挖掘技术诞生了。 本文重点研究了日志挖掘技术及其步骤,研究了数据预处理的过程和其 中难点的解决方法,包括用户识别技术,路径补充技术等技术。详细介绍了 关联规则的经典算法a p d o f i 算法。在研究一些a p f i 商改进算法的基础上, 本文通过缩减数据库和对连接方法进行改进实现了对a 陋耐算法的改进,提 出了ia 叫o r i 算法,并且在理论上证明了ia p f i o n 算法的空间复杂度和时间 复杂度比a p f i o f i 算法小。为了验证所提出的i a 砸o r i 算法的空间复杂度与 时间复杂度,并且把所研究的技术应用到实际应用中去,本文以哈尔滨工程 大学5 0 周年校庆网站为日志挖掘对象,分别使用a 删o r i 算法和ia p d o d 算 法对经过数据预处理后的日志文件进行分析。实验的结果表明i 算法apdofi 的空间复杂度和时间复杂度都比a p r i o d 算法有改善。为了使比较结果具有普 遍性,在给定不同的最小支持度的情况下,把a p f i 嘶算法和ia p d o d 算法 分别对同样的同志文件进行挖掘,实验结果表明在给定不同的最小支持度的 情况下,l a p f i 商算法的效率比a p f i o f i 算法高。最后,通过采用ia p f i o d 算法对日志文件进行分析找到了在网站结构和内容中存在的问题,并且给出 了解决方案。 关键词:w e b 日志挖掘;关联规则;数据预处理;a p f i 嘶算法;缩减数据库 哈尔滨1 = 程大学硕士学位论文 a b s t r a c t w i t ht h eh e l po ft h ed e v e l o p m e n to ft h et e 圮m l o l o g yo nt h ef i e l do fi n t e m e t , w w v v b e c o m e sm o r ea n dm o r ep o p u l a r a sa r e s u l t , m a n y w e b s i t e sa r c b e i n gb u i l t a st h ev i o l e n tc o m p e t i t i o ni nt h ei n t e r n c te c o n o m y , o n l yt h eo n ew h oa t t r a c t st h e c t l 瞎t o m e r sc a r ls u r v i v e t h eb e h a v i o r so ft h ec u s t o m e r sb e c o m ed i g i t a l ,w h i c h m a k e si tp o s s i b l et oc o l l e c tal o to f d a t ai no r d e rt of u r t h e ri n v e s t i g a t et h eb e h a v i o r o f t h ec u s t o m e r s i ti so n eo f t h em o s ti m p o r t a n tp r o b l e m sw h i c hw ec o n f r o n tt h a t h o wt of r e dt h ev a l u a b l ea n du n d e r s t a n d a b l ei n f o r m a t i o nf r o mt h e ”n os e n s e ”a n d b o r i n gd a t a t h et e c l l i l o l o g yo fw e bd a t am i n i n gi st h em e t h o dt os o l v et h i s p r o b l e m i nt h i st h e s i s ,t h ei n v e s t i g a t i o no ft h ew e bl o gm i n i n gt e c h n o l o g ya n di t s p r o c e s sa r ef o c u s e do na n dt h ep r o c e s so ft h ed a t ap r e p r o c e s s ,m e t h o do ft h i s p r o c e s sa n dt h es o l u t i o no ft h ep r o b l e m s ,i n c l u d i n gi d e n t i f y i n gt h eu s e r sa n d c o m p l e t i n g t h ep a t ho ft h eu s e r sa r ei n v e s t i g a t e d t h ec l a s s i c a l g o r i t h mo f a s s o c i a t i o nr u l ea p r i o r ia l g o r i t h mi si n t r o d u c e d a f t e ri n v e s t i g a t i n gs o m eo ft h e i m p r o v e m e n to ft h ea p r i o r ia l g o r i t h m 。t h ei _ a p r i o r ia l g o r i t h mi sg i v e n , w h i c hi s b a s e do nt h e t h et e c h n o l o g yo fr e d u c et h es c a l eo ft h ed a t a b a s ea n dt h e i m p r o v e m e n to f t h ep r o c e s so f j o i n t h et i m ec o m p l e x i t ya n ds p a c ec o m p l e x i t yo f i _ a p r i o r ia l g o r i t h mi s l e s st h a na p r i o r ii nt h e o r y i no r d e rt od e m o n s t r a t et h e e f f i c i e n c yo fl a p r i o r ia l g o r i t h ma n dt oa p p l yt h et e c h n o l o g i e sw h i c ha r e i n v e s t i g a t e di m op r a c t i c e ,t h el o g so f t h e5 0 t hb i r t h d a yo f h e uc e l e b r a t i o nw e b s i t e a l ep r o c e s s e da n da n a l y s e dt h r o u g hi a p r i o r ia l g o r i t h ma n da p r i o r ia l g o r i t h m r e s p e c t i v e l y t h er e s u l to f t h i se x p e r i m e n ts h o w st h a tia p r i o r ia l g o r i t h mi sm u c h b e t t e rt h a na p r i o r ia l g o r i t h mi nt i m ec o m p l e x i t ya n ds p a c ec o m p l e x i t y i no r d e rt o m a k et h ec o m p a r e i o nm o r eu n i v e r s a l i t y , a f t e rg i v e nd i f f e r e n tm i n s u p p ,t h e $ a n l e l o g sa r ea n a l y s e db yia p r i o r ia l g o r i t h ma n da p r i o r ia l g o r i t h mr e s p e c t i v e l y , t h e r e s u l to ft h i se x p e r i m e n ts h o w st h a ti a 面o r ia l g o r i t h mi sm o r ee f f i c i e n tt h a n 哈尔滨丁程大学硕士学位论文 a p f i o da l g o r i t h mw h e ng :i v e nd i f f e r e n tm i n s u p p f i n a l l y , t h el o g so ft h ew e b s i t e a l ea n a l y s e db yi _ a p r i o r ia l g o r i t h m w i t ht h eh e l po f t h er e s u l tt h ed i s a d v a n t a g e s o f t h ew e b s i t ea r ef o u n da n dt h e nt h ei m p r o v e m e n t sa l eg i v e n k e y w o r d s :w e bl o gm k 血g ;a s s o c i a t i o nn i l e ;d a t a p r e p r o e e s s i n g ;a p d o n a l g o r i t h m ;r e d u c e dd a t a b a s e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :斗壅 日期:2 0 1 年2 月多日 哈尔滨+ 丁= 程大学硕士学位论文 第1 章绪论 1 1 本课题研究的意义 伴随着i n t e m e t 技术的发展,网络资源同时迅速增长。其重要性也越来 越被人们所注意到。客户浏览行为数字化,使得通过收集大量用户行为数据 来深入研究客户行为变成可能。如何利用这个机会,从这些“无意义”的繁 琐数据中找出大家都看得懂的、有价值的知识和信息是目前面临最紧要的问 题之一。解决这个问题的办法之一就是应用w 曲数据挖掘技术,即通过挖掘 服务器中的日志文件,来得到用户的访问模式,从而得到对改进网站的结构 和服务都有用处的信息。 目前网站的数据挖掘主要应用于对w e b 站点的日志挖掘。w e b 站点的日 志文件记录了浏览者全部行为,通过对这些记录的挖掘可以找出浏览者的浏 览规律,从而为踊站的管理者提供网站改进资料,使网站的管理者可以对站 点进行有针对性地改进和设计,来达到使w e b 站点吸引更多的客户的目的, 这点在电子商务网站中更加明显“,因为吸引浏览者就意味着吸引潜在的客 户。因此对w e b 站点的日志进行挖掘对于经营者和管理者有极其现实的意义。 1 2 数据挖掘技术 1 2 1 数据挖掘技术简介 数据挖掘就是从数据中得到知识的过程。数据挖掘这一术语最早出现在 1 9 8 9 年,被广泛接受的定义是u f a y y a d 等人给出的:数据挖掘就是从数据 集中识别有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过 程”1 。下面对定义中的几个概念进行一下解释,有效性是指发现的模式对于新 的数据有一定的可信度;过程通常指几个阶段的一个过程,涉及数据准备、 哈尔滨t 程大学硕士学位论文 模式搜索、知识评价和反复的修改过程。这个过程不是平凡的过程,即要求 具有一定程度的智能性和自动性;新颖性要求发现的模式是前所未知的;潜 在有用性是指发现的知识在未来有实际效用;最终可理解性是指发现的模式 可以被人们所理解。有效性、潜在有用性、新颖性和最终可理解性综合在一 起称为兴趣性( i n t e r e s t i n g n e s s ) “,。传统的数据挖掘( t r a d i t i o n a ld a t am i n i n g ) 技术就是从规模巨大的数据库中挖掘出有用的信息的技术,就是通过对数据 库采取半自动的方法来寻找特定的模式关联规则、异常信息等具有统计意义 的事件和结构。 数据挖掘是数据库知识发现发展的产物,这个概念首先在人工智能的机 器学习领域中提出,它的含义是通过一定的学习方法,从已知状态的数据集 ( d a t as e t ) n ,中来获取知识。与此同时,数据库技术己经发展得非常的成熟, 并且得到了广泛的应用,众多企业都已积累了丰富的数据资源,因此非常需 要一种能够帮助他们从数据中发掘出其中的规律的技术,数据挖掘技术就是 能帮助他们的一种技术。 1 2 2 数据挖掘系统的分类 数据挖掘是一个交叉学科,因为它起源于多门学科,其中主要包括数据 库,统计学和机器学习这三个主要技术。按照不同的数据挖掘的应用背景和 挖掘的数据,出现了多种数据挖掘技术,同时,出现了大量的不同类型的数 据挖掘系统”。从不同的角度进行研究,就有不同的分类方法,主要有以下几 个方面: 1 按照其发现的模式的功能分类 按照这种分类方法可以将数据挖掘系统分成回归模式、聚类模式、序列 模式、分类模式、关联模式、时间序列模式。 2 按照挖掘知识的抽象水平和细度分类 将数据挖掘系统算法分为基本层次知识的挖掘、多层次知识的挖掘、高 度抽象知识的挖掘。 3 按照所使用的技术分类 可以用于数据挖掘的技术有很多,以下是几种常用的技术: 2 哈尔滨_ 程大学硕士学位论文 ( 1 ) 粗糙集( r o u g hs e t ) 方法:用于数据约简、属性重要性评价、对 象相似或差异性分析、关联规则发现等。它是通过条件属性上的等价集合与 决策属性上的等价集合之间的包含关系寻找规则。 ( 2 ) k - 最近邻方法( n e a m e s tn e i g h b o r ) :通过k 个最与之相似的历史 记录的组合来辨识未知的数据对象。这种技术可以用作聚类、偏差分析等挖 掘任务。 ( 3 ) 归纳规则( r u l ei n d u c t i o n ) :通过统计方法归纳,提取有价值的 “i f t h e n ”规则。规则归纳技术在数据挖掘中应用广泛,如关联规则挖掘。 ( 4 ) 决策树( d e c i s i o nt r e e ) :用于分类,用树形结构表示决策集合, 这些决策集合通过对数据集的分类产生规则。典型的决策方法有分类回归树 ( c 越h ) ,一般用于分类规则挖掘。 ( 5 ) 遗传算法( g e n e t i ca l g o r i t h m ) :用于分类、关联规则发现等。它 是基于生物进化的理论,采用基因组合、交叉、变异和自然选择等方法的优 化技术,通过设计一系列的过程来达到优化的目的。 ( 6 ) 可视化( v i s u a l i z a t i o n ) :采用直观的图形方式将模式知识、数据 趋势呈现给用户,用户可以通过可视化技术直观地分析和理解数据关系n ,。 1 3w e b 数据挖掘 1 3 1w e b 挖掘技术简介 i n t e m e t 的迅速发展使得w e b 为人们提供了内容丰富并且数量大的信息, 使用简单的信息搜索已经不足以满足人们的应用需要。伴随着数据挖掘技术 的出现以及其发展的日趋成熟,数据挖掘逐渐被应用于w e b 数据,来发现隐 藏在w 曲上的知识,以便更好地了解w e b 文档之间的相互关系、组织形式 和用户对这些文档的使用状况,以此为基础来优化w e b 内容以及组织结构。 面向w e b 的数据挖掘技术简称为w e b 挖掘( w e bm i n i n g ) n ,其定义可 以通过从数据挖掘的概念扩展而来。简单说,w e b 挖掘指从w e b 服务器上的 数据文件中提取能引起人们兴趣的知识。w e b 挖掘实质上就是对w e b 文档的 哈尔滨丁稃大学硕士学位论文 内容、资源之间的关系以及可利用资源的使用情况进行分析。w e b 上包含的 海量的页面,连接这些页恧的链接和用户访问w e b 页面的使用信息,这些信 息全可以成为数据挖掘应用的对象n ,。与w e b 的数据相比较,传统的数据库 中的数据结构性非常的强,就是说其中的数据是彻底的结构化数据,而w e b 上的数据的特点就是并非完全结构化,即半结构化的。这里所指的半结构化 是对比完全结构化的传统数据库的数据而说的。很明显,对w e b 进行数据挖 掘比对于单个数据仓库的数据挖掘要更加复杂。 1 3 2w e b 日志挖掘应用现状 当前,一些国外的专业研究数据挖掘的主页上已经出现了一些相对简单 的对用户访问日志进行分析的工具。其主要是统计每个页面用户访问的频率 和用户访问页面的时间分布状况,当中相对成功的软件已经可以统计全部类 型的错误访问信息。伴随着互联网的飞速发展,网站管理者对于用户访阀日 志分析工具的需求也更加追切,许多国家重点资助这方面的研究项目,表1 1 是外国最近几年中数据挖掘研究大型的项目,可以看出国外对w e b 数据挖掘 的研究已经非常的充分了。 表1 1国# b w e b 数据挖掘工具 工其 功能工具功能 r e x f o r d 提高系统效率 a g g a r w a l 提高系统效率 s i t eh e l p e r 个性化服务 s h e c h t e r 提高系统效率 a n a l o g y 个性化服务 m a n | e y用户分类 k r i s l m a p u r a m 个性化服务 p i t k o w 用户分类 w e bw a t c h e r 个性化服务a i m e i d a 用户分类 b u c h n e r商业t u z h i l i n 商业 l e t i z i a 个性化服务 p a g e g a t h e r 网站结构设计 中国数据挖掘研究情况是这样的,一些研究机构已经着手进行w e b 数据 挖掘方面的研究,w e b 挖掘相关的论坛也相继在网上出现,很多研究人员也 4 哈尔滨工程大学硕十学位论文 投入到w c b 挖掘中,并发表了大量相关的论文,可见w e b 数据挖掘己经引起 人们的关注,然丽目前很少有成功的工具和相关案例研究,并且中国大多数 网站经营管理者对从访问日志中发掘有用信息的重要性认识不充分,网络管 理人员还停留在关注服务器性能阶段,没有达到关注网站服务质量的层次一,。 这说明,中国在w c b 日志挖掘方面的研究还不够充分。 1 3 3w e b 数据挖掘分类 在一般来情况下,w e b 挖掘可以分为w e b 内容挖掘( w e bc o n t e n t m i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 日志挖掘( w e bl o g m i n i n g ) 三类。图1 1 为三类w e b 挖掘之间的关系及其内容“。 图1 1w e b 挖掘分类 1 w e b 内容挖掘 w e b 内容数据挖掘是从w e b 数据中抽取知识,以实现w e b 资源的自动 检索,提高w e b 数据的利用效率。w e b 数据分布范围很广,有在f t p 上的、 在g o p h e r 中的、在数字图书馆中的,还有企业自己w e b 网站上的,也有隐 形的私人数据和动态查询结果。数据的形式也是多样,除此之外还有图形、 5 哈尔滨1 :程大学硕七学位论文 声音等数据。因此,多媒体数据挖掘也是w e b 内容数据挖掘之一。这些都是 非结构化的数据,人们把数据挖掘技术用于从半结构化或非结构化文档发现 有价值的信息称作知识发现技术( k n o w l e d g ed i s c o v e r yt e c h n o l o g y ,k d t ) 。 2 w e b 结构挖掘 w 曲结构挖掘是从w e b 组织结构和链接关系中推导知识。根据科学引文 分析理论,文档之间的互连数据中蕴涵着丰富有用的信息。在通常的搜索引 擎中没有考虑到结构的复杂性,仅将w e b 看作是一个平面文档的集合,忽略 其结构信息。挖掘页面的结构和w e b 结构,可以用来指导对页面进行分类和 聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指 导网页采集工作,提高采集效率。w e b 结构挖掘分为w e b 文档内部结构挖掘 和文档间的链接结构挖掘。 3 w e b 用户访问日志挖掘 w e b 用户访问日志挖掘是应用数据挖掘技术挖掘并分析用户访问所留下 的日志文件,对其进行挖掘来得到户访问模式,可以为结构调整和网站经营 管理提供决策上的支持,为企业找到新的市场机会,来进行市场决策,达到 提高网站营销效果和为企业提供有价值的潜在的信息的目的n ”。 w 曲日志数据包括w e b 服务器的日志、代理服务器上的日志、浏览器的 日志、用户注册相关数据和用户访问的信息等。 1 4 课题的主要工作和组织 1 4 1 论文主要工作 本文重点研究了日志挖掘技术及其过程,论述了数据预处理的过程,方 法和难点的解决,其中包括用户识别技术,路径补充技术等技术,并且对关 联规则经典的a p r i o d 算法进行了改进,大大提高了算法的效率。最后把文章 中所讨论的技术应用到实际应用中去,实验结果证明改进的a p d o r i 算法的效 率有所提高。在实验的过程中解决了日志挖掘中所遇到的很多具体的问题, 并且通过对日志文件的分析找到了网站中存在的问题并且给出了解决方案。 6 哈尔滨丁程大学硕十学位论文 1 4 2 论文的组织 基于研究的目的与内容,本论文组织结构如下: 第1 章首先介绍了本课题的研究意义接着介绍了数据挖掘和w e b 挖掘技 术及国内外研究现状。 第2 章详细介绍了w e b 日志挖掘技术,包括难点及其解决方法。研究了 w e b 日志挖掘流程其中重点介绍了数据预处理技术。 第3 章主要详细介绍了关联规则及其算法。 第4 章重点对a p r i o r i 算法进行了分析,并且对其进行了改进从而提高其 执行效率,使其适合应用于网站日志挖掘。 第5 章将第2 章,第3 章和第4 章中讨论的技术应用到实际的网站日志 挖掘中。采用哈尔滨工程大学5 0 周年校庆网站为实验对象。通过实验达到检 验ia p r i o r i 算法效率的目的,实验结果反映出网站设计中存在的问题,并对 这些问题提出改进的建议。 最后,对本文的工作和研究内容傲了一个全面的总结,说明了本文的不 足与未来的研究发展方向。 7 哈尔滨工程大学硕十学位论文 第2 章w e b 日志挖掘技术 2 1w e b 日志挖掘概述 w e b 日志挖掘是通过分析w e b 服务器中的日志文件,来发现用户访问站 点的浏览规律,给站点管理员提供各种利于w e b 站点改进或能够带来经济效 益的信息,例如聚类分析可以把具有相似特征的用户或数据项归类来帮助进 行市场决策m 。w e b 服务器日志也可以结合其他的数据库。例如与电子商务、 银行数据库等一同进行挖掘,以获得更详细的信息。w e b 日志挖掘能带来许 多好处,例如可以用其对网站流量模式进行分析;用来评定广告的成功与否: 统计投资的回报率和找到用户的兴趣和需要等方面的好处m 1 。 与传统的数据仓库的数据挖掘技术相比较,w e b 曰志挖掘的不同之处就 是数据源不相同,w e b 臼志挖掘的对象通常是服务器的目志文件,然而数据 仓库挖掘的对象是关系型的数据库。w e b 日志( w e bl o g ) 记录了用户访问 站点的全部信息,这些信息有访问w e b 服务器客户的婵地址、访问的时间、 访问的网页、网页的大小等信息。每当访问一次站点,w e b 日志就在日志数 据库中添加相应的记录。热门的w e b 站点每天都记录大量的w e b 日志记录。 w e b 日志数据库提供了关于w e b 的大量的信息n ”。可见研究w e b 日志挖掘技 术非常的重要。 2 2w e b 日志挖掘中的难点及解决方法 2 2 1 用户识别 一个用户能够在多个客户端提交请求,不同用户也可以在同一个客户端 提交请求。因为缓存技术、防火墙和代理服务器技术的应用使得准确确定每 个用户非常的困难。研究人员设计的启发式推断用户的方法n n ,只有通过在 s 哈尔滨1 = 程大学硕士学位论文 客户端跟踪用户的行踪得到访问资料,才能准确确定用户。但是这样又涉及 到用户的个人隐私,只有用户的配合才可以。然两在用户访闯日志数据挖掘 中,只依照服务器端日志数据确定用户存在误差。因此,准确确定用户并且 不涉及到用户隐私这个阔题一直得到大家关注。在实践中常常要按照网站具 体运行模式来选择最终确定采用的方法。 2 2 2 确定用户访问时间 用户请求页面和浏览页面的准确时间非常难确定。服务器记载的用户浏 览页面时问有较大的偏差,服务器端记载的用户浏览页面时间明显要比客户 端实际的测览时间长。受客户端连接处理速度、页面大小和网络拥挤程度的 影响,服务器记载的用户浏览页面时问误差大小甚至可以达到几分钟,因此, 无法准确确定用户访问时间。实际中一般忽略这一种误差,把一次用户会话 中连续两次点击之间的时间间隔作为用户浏览页面的时间“。 2 ,2 3 路径补充 由于网站构建技术中采用浏览器缓存技术、代理服务器缓存技术等技术 的原因,部分用户请求信息在日志文件中无法体现出来,从而造成用户访问 会话不完整,这会对结果造成定的影响。因此需要有效的方法来对路径补 充。对路径进行补充的方法可以参考网站拓扑结构信息和一般的经验,从而 最大可能地降低这些方面对结果造成的影响m 。 2 2 4 用户行为假定 通常情况下需要通过依照对一般的网上行为模式的了解来对用户在客户 端的浏览行为进行假定,方法如下: ( 1 ) 假定用户每次访闯只有一个主题,并且都是从辅助页面开始浏览, 最终目的是为了浏览一个内容页面,期间没有进行其它操作; ( 2 ) 假定用户花在个页面上的时间与该页面对用户是辅助页面还是内 9 哈尔滨工程大学硕士学位论文 容页有关; ( 3 ) 用户访问过程中只有在改变访闯主题时,才会访问前珏访闯过的页 面以跳转到另外的页面; ( 4 ) 假定用户一次访闯的时间都不会超过一个最大的限制对闻窗口 ( t i m ew i n d o w ) 。 通过以上的假定,很可能会产生误差,但是在对大量数据进行分析的时 候,由于上述假设所产生的误差基本上不影响最后的结果,因此可以忽略所 产生的误差对结果造成的影响。 2 3w e b 日志挖掘流程 通过前面的论述,可以了解w e b 挖掘的重要任务是对w e b 日志进行挖掘, 它通过分析和研究w e b 5 志中的规律来发现用户的浏览模式,保证为用户提 供良好的服务质量,还可以对w e b n 务器系统的性能和结构进行改进:分析 用户访问w e b 的规律;提高网站的效率。此外对那些通过w w w 发送广告的 企业,分析用户访问模式有助于有针对性地在某些用户经常访问的地方插播 广告条“。既然知道了w e b 日志挖掘的用处和重要性,那么下面就该对具体 的日志挖掘步骤进行研究了。w e b h 志挖掘的研究依然遵循数据挖掘的思路, w e b 日志挖掘的步骤如图2 1 一- t 所示。 w e b 日志挖掘可以分为四个阶段:源数据收集、数据预处理、模式挖掘 和对挖掘出来的模式进行分析。 源数据收集数据预处理 模式挖掘结果分析 服务访问 关联规则 模 事务数 器日序列 序列模式式 - 据库 恚数数据 聚类与分分 据库库类 析 图2 1日志挖掘步骤 1 0 哈尔滨t 程大学硕士学位论文 2 3 1 源数据收集 在数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 有一个 很重要的步骤就是要为挖掘算法找到合适的数据。在w e b 日志挖掘技术中, 数据的来源主要有以下两个方面: ( 1 ) 服务器端数据的收集( s e r v e rl e v e lc o l l e c t i o n ) 可以从w e b 服务器、 代理服务器的w c b 日志文件中收集数据。此部分信息是最简单也是最方便的 数据来源,它记录了每一次网页请求信息。启动w e b ) 眼务器的目志记录功能 后,当用户通过浏览器请求一个网页时,这个请求就被记录在访问日志中。 代理服务器就把所记录的信息保存在文本文件中,通常以“t x t ”或“1 0 9 ” 作为文件的扩展名。w e b 日志文件是由记录组成的,一条记录只记录了用户 对w e b 页面的一次访问。 另外,w e b 服务器还可以存储其它的w e b 使用信息,比如c o o k i e ,以及 用户提交的查询数据。c o o k i e 是由服务器产生的,用来记录用户的状态或者 访问路径。由于涉及到用户的隐私问题,使用c o o k i e 需要客户的配合。查询 数据是用户在查询信息时在服务器端产生的记录,同时服务器也记录了文件 的有关信息,例如文件的创建者、修改时间等。 ( 2 ) 包检测技术( p a c k e ts n i f f i n gt e c h n o l o g y ) 。监视所有到达服务器 的数据,提取其中的h t r p 请求信息。此部分数据主要来自浏览者的点击流 ( c l i c ks t r e a m ) 来考察用户的行为表现“。 网络底层信息监听了整个网络的所有信息流量,并根据信息源主机、目 标主机、服务协议端口等信息过滤掉不关心的垃圾数据,然后进行迸步处 理,如关键字搜索等,最终将用户感兴趣的数据发送到给定的数据接受程序 并且存储到数据库中进行分析统计n ”。 2 3 ,2 数据预处理 在w e b 服务器的日志文件中记录了用户访问站点的所有信息,这些信息 有用户的i p 地址、用户访问的时间、用户访问的端口、所访问的页面、采用 l l 哈尔滨丁稃大学硕士学位论文 的协议、发送字节数和传输的字节数等信息。每当站点被访问次。w e b h 志就在日志数据库内追加与之相应的记录“”。伴随着i n t e m e t 的飞速发展,站 点的规模和复杂程度日渐增大,若采用通常的概率方法进行统计研究已经不 能够满足站点的要求。这样就需要通过对服务器的日志文件进行挖掘来得出 用户的访问模式,从而深入分析和研究日志文件的规律来达到给出网站的改 进意见的最终目的。 数据预处理是整个w e b 日志挖掘的基础也是实施挖掘算法的前提,数据 预处理的结果直接关系到整个w e b 日志挖掘的成败,它在w e b 日志挖掘中 有相当重要的作用。 f | 志文件通常是简单的平面文本文件,其记录了用户访问站点的详细信 息,其中包含了些不全的、重复的甚至错误的数据,所以需要进行处理, 否则就会影响挖掘的结果。此外,分析工具和挖掘算法的采用也需要规范化 的数据源,因为这些工具和算法无法对不符合规则的数进行处理。所以在这 一个阶段还要对数据存储的格式进行转换,来配合所采用的挖掘方法。 为了研究数据预处理技术,需要首先介绍一下w e b 日志记录的相关内容。 w - e b 服务器日志记录着用户访闯该站点时每个页面的请求信息。日志记 录的格式主要分为两种:通用日志格式c l f ( c o m m o nl o gf o m m t ) 和扩展 型日志格式( e x t e n d e dl o g f o r m a t ) 。w e b 日志记录中的主要内容及其描述如 表2 1 所示n ”。 表2 1w e b 同志记录的主要信息表 域描述 日期( d a t e )用户请求页面的日期 时闯( t i m e )用户请求页面的具体时间 客户i p 地址( c i p ) 客户端主机的i p 地址或d n s 入口 客户名( c s - u s e r n a m e )客户端的用户名 服务器名( s - c o m p u t e m a m e ) 服务器名称 服务器i p 地址( s - i p ) 服务器的i p 她址 服务器端口( s - p o r t ) 服务器的端口号 方法( c s - i n e - c h o d )用户的请求方法 哈尔滨工稃大学硕士学位论文 表2 1w e b 同志记录的主要信息表( 续表) 域 描述 u r l 资源( c s - u r i s t e m ) 用户的请求页面 u r l 查询( c s - u d - q u e r y ) 用户欲进行的查询 发送字节数( s c - b y t c s ) 服务器发送的字节数 接收字 节数( c s b y m s ) 服务器收到的字节数 所花时阃( f i m c - t a k e n )完成浏览所花费的时问 协议版本( c s - v e r s i o n ) 传输用的协议版本 主机( c s - h o s t ) 服务器的操作系统 用户代理( c s ( u s e r - a g c n t ) ) 服务的提供者 c o o k i e ( c s ( c o o k i e ) )c o o k i c 标识符 参照( c s ( r e f e r e r ) )用户浏览的上页 具体w e b 日志文件的格式如图2 2 所示 1 s o f t v a r e :毗c r u s u f tl m t e r n e ti a f o r s a t i e ns e r v i c e ss i i t u e r s t o n :1 - 静j t e :2 m 一舅一- i :髓:射 w i e l d s :d a t et i mc - l pc s u $ i 吖u a n es i - s 一 r tc s - g w t h o dc 5 - - r l - s t e rc s - | r t - q u e r ,s c s t a t u s c s ( u s e r f l u e n t ) 2 9 d 6 一1 1 3 - 1 48 1 :1 0 :4 12 8 2 ,6 。1 1 1 1 2 2 2 1 2 1 1 8 1 7 0 。3 8 g e t i n f u s h a 畦n , f u a s pi n f u | d = 3 9 5 2 0 0n o z i l l a l s c c m l p a t t b l e ;+ y a h o o t s l u r p + c h i n a :+ h t t p :1 1 i d s c 9 a h a o c o n o n h e l p h t m l ) 2 一一n :钾:t 66 8 1 艟2 k g t 9 k 一2 眨1 1 8 1 7 6 a g e tl i n f o s h a 证n f o a s pi n f o l d 7 22 0 9 m o z i ) l a l s h ( c o 呻a t i b l e ;+ v a l o u r * s l u r p ;+ b t t p :h e ) p g a b 6 0 c o n h p l p ,u s ,p e a r c h ,s l u 叩) 2 d i d 一8 2 - e 由1 1 :1 0 :m2 8 2 1 6 0 。1 7 8 1 5 6 2 8 2 1 1 8 1 7 6 a 8 0g e t r o b o t s t u t 一_ m z i l l a s ( c o m p a t i b l e ;+ y a h o o l s i u r p + c h i n a ;+ h t t p :i m i s c 9 a h o u c a m c n h e l p h t n l ) 2 0 0 6 - 8 2 - 讪0 0 :1 :0 62 8 2 1 6 0 1 7 1 一2 8 2 1 1 8 1 7 6 a g e t d e f a u l t l a s p 一2 _ n e z t l l a $ p ( c o m p a t i b l e :v j n t s l u r p + c h i n a ;* h t t p :,吐s c p a h o o c 0 1 c n l h e l p h t m l ) 2 0 0 6 1 3 - m0 9 :1 3 :3 1 ,2 3 1 臻2 1 7 2 髭,1 7 6 3 0 g e t r o b o t s t x t 一 i b z i l l l l 5 - ( c o 叩a t i b l e ;y a h 0 4 t + s l u r p ;* h t t p :l l h e l p p a h a o - c o u h e l p l u s l g s e a r c h s l u r p ) 2 0 - 1 3 - 曲0 8 :1 3 :3 27 2 3 - 1 8 2 1 6 1 2 8 2 1 1 d 1 7 6 3 0 g e ti t u f 0 s h o v t n f o a s pl n f o i d = g i s2 n o z l l l a 5 。扣c o j t p a t t b l e ;+ y a b u a f * s l u r p ;e h t t p :h e l p p a d u a c 口r h e l p ,u s 曲s e a r c h l s l u r p ) 2 0 0 6 - 1 0 - n :2 6 :3 72 8 2 1 1 8 1 6 0 1 7 1 2 蛇1 1 8 1 7 6 a l g e ti d n h h t m 一2 0 0n o z l l l a 4 ( c o m p a t i b l e :+ 幅l e + 6 :蚍n d o 啊* h t _ 5 町 2 0 0 6 - i o - 0 40 0 :2 6 :3 72 1 1 8 1 8 0 1 7 1 2 髓1 1 0 1 7 0 a g e l s 啦;c s s 一2 1 1h o z t l l a k 卜 ( c o p a t i b l e :嘟i + 6 :* k ;i n d a v s + 1 4 t + 5 村 2 6 0 6 - 一nl i :2 6 :3 72 舷1 伯t e 0 1 7 1 2 幢1 1 0 1 7 6 a - - g e tf l m q e s 5 8 两l f 一2 h o z i l l a o + ( c o m p a t i b l e ;+ f i s i e + 6 t + 毗n d 口蛞+ 岍s 2 0 0 6 8 2 - 8 k0 0 :2 6 :3 72 0 2 1 1 8 1 8 0 1 7 1 2 8 2 1 1 8 1 7 6 a - - g e ti l j u g e s l d e d b j p o 一2 0 0 ,h z l l h ,1 o + ( c o p a t i h l e : 嚣i ”1 ;+ m ! b d o v j ;* k t s 2 0 0 6 - 8 3 - 0 40 0 :2 6 :3 72 般1 1 8 1 9 0 1 7 1 2 8 2 1 1 8 1 7 6 0 g e t j j t a 曩e s l d l ,加一2 0 h o z i l l a e c c o n p a t i b ) e :雌l e 6 i 毗n d o 啊+ 町+ ,_ ) 2 d i m 一舅一nl i ;z 6 :3 72 8 2 1 0 1 1 1 7 1 2 8 2 1 馑1 7 6 3 1 g e y ,- 如以s i t a s pk t n d - x q f w2 0 0 n o z i l l a 4 卜c o m p a t i b l e : 瞄| e 6 ;+ 砒“d o 啊+ 町+ s , 图2 2 日志文件片断 哈尔滨丁程丈学硕士学位论文 ;iii;i;宣iii一一ii i ;i ; 在明确了需要处理的数据的格式和特点后,下面重点讨论数据预处理的 技术。 1 数据抽象 万维网协会w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 为了表述数据预处理工 程,定义了一些概念,如下所示: ( 1 ) 用户( u s e r ) :通过浏览器访问网页的个体,用户可以在不同的地 方通过不同的机器使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 墨模制作工特殊工艺考核试卷及答案
- 洪山区潜水施工方案
- 【道法】走进社会生活单元思考与行动课件-2025-2026学年统编版道德与法治八年级上册
- 金堂市场咨询方案公示
- 虹口区营销公司注册方案
- 咨询公司方案评估流程
- 建筑方案设计服务保障书
- 外墙氟碳涂装施工方案
- 高中篮球节活动方案策划
- 建筑外立面方案设计合同
- 儿童游乐园活动方案
- 诊疗器械器具和物品清洁消毒
- 2025-2030中国钙钛矿光伏产业运行态势展望与投资前景规模研究研究报告
- T/CAPE 11005-2023光伏电站光伏组件清洗技术规范
- 理性思维的重要性试题及答案
- 2024江苏苏州市常熟农商银行网络金融部招聘4人笔试历年典型考题及考点剖析附带答案详解
- 钢结构主体验收评估报告
- 人教版历史与社会七下第八单元第三课《中华文明探源》教学设计
- 更换钢板施工方案
- 2025至2030中国电力巡检无人机行业深度评估与投资风险预警报告
- 大学生职业规划大赛《机械电子工程专业》生涯发展展示
评论
0/150
提交评论