




已阅读5页,还剩71页未读, 继续免费阅读
(计算机软件与理论专业论文)web站点日志数据挖掘的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 w c b 站点日志的数据挖掘是对用户与w 曲服务器的交互产生的日志数据使 用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式和用户的兴趣, 从而为用户的个性化服务提供依据,同时将一些可疑的访问信息及时反馈给网 站管理员以加强网站的安全性。本系统以w 曲日志和w 曲拓扑结构作为数据源, 从数据收集、数据预处理和数据挖掘分析三个阶段阐述系统的整体结构和实现, 系统采用图论来表现关联规则挖掘的优化算法并给出部分j a 、,a 代码实现。引入 关联规则挖掘,对关联规则基本概念作了介绍,提出了关联规则的分类方法。 对挖掘算法的介绍,对传统相似度聚类分析进行了研究并做出了改进。基于安 全的考虑提出了正常浏览模式、异常浏览模式的概念并利用改进的相似度进行 挖掘。对传统的a p r i 删算法进行改进,提出了用图论的方法即大图法来挖掘用 户偏好路径,发现用户的访问兴趣。提出了基于w 曲日志挖掘技术的站点日志 挖掘体系结构,为进一步实现w 曲站点智能化服务打下基础。 本论文的结构如下: 第1 章:对目前的数据挖掘技术进行了分析,着重指出了w 曲挖掘的国内 外研究现状和热点,阐述了最新的数据挖掘分类,并提出了研究站点日志挖掘 的主要内容和意义。第2 章:详细讲述w 曲数据挖掘,阐述当前w 曲数据挖掘 的最新分类和由于数据的结构性不同所面临的困难,最后重点讲述日志和日志 挖掘实现流程。第3 章:讲述了w 曲日志挖掘中的信息收集。不同信息源分析 和信息收集的过程。第4 章:从数据预处理的目的、过程、程序实现以及相关 数据库建立等方面分析了日志挖掘的数据预处理过程,重点阐述了数据净化、 用户识别、路径补充和事务识别。第5 章:讨论如何进行日志挖掘和相应的算 法分析。包括采用会话相似度分析将日志记录分为正常访问模式和异常访问记 录,引入大图法采用关联规则分析用户的偏好路径。第6 章:给出了日志挖掘 系统的实验体系和部分实验结果。第7 章:总结了本课题研究成果主要有四点, 指出了需要进一步改进的方面。 关键字:数据挖掘:w e b 使用挖掘;w e b 站点日志;用户访问模式 武汉理工大学硕士学位论文 a b s t r a c t w e bs i t el o g sa n a l y s i sa n dr e s e a r c hs y s 锄b a s e do nd a t am i l l i n gu n c o v e r st l l e h i d d e nr e g u l a t i o n sa i n o n gt l l ei n t e r a c 石v cd a t ab e t w e e 工law e bs e n ,e ra i l di t su s e r si n o r d e rt oi m p m v es e r 、,i c eo fw e b 粗de n l l a i l c es e c 埘钒 a c c o r d i n gt od a t ar n i l l i n g , t h i ss y s t e ma i m st of i n dn o r m a la n da b 咀o r m a la c c e s sp a t c e m sa n d 油把r e s t e dp a = c h s , t h e ns u p p l yb e t c e ra n dp e r s o 删i z e ds e r v i c e sa n dg i v ea d v i c e st oa d n i l i g t r a t o rt o e n h a n c es e c u r i 锣o fw 曲s i t e t h ed a t ar e s o u r c e so ft h i ss y s t e ma r ew e bl o g sa n dw e b s i t et o p o l o g y w bp a ym o r ea t t e n t i o nu p o ns i m i i a r i 哆a n a l y s i sa l g o r i t l l m so nm i n i n g b r o w s i n gp 甜e m 姐dm a k eac o m p a 础o nb e 似e e nc l a s s i c a ls i r n j l 州可a l g o r i t s 埘t 1 1o u rp r o p o s a lo n e t h ec o m p 删i o nt e i l su st i l e0 p t i m i z e ds i m i l a r i 哆a l g o r i 山mi s a d v 锄t a g e t h e n i n 廿0 d u c ean c ww a yt o 丘n du s c r si n t e r e s t e dp a t l lu p o nm e o p t i m i z e d “g o r i m ml a 糟e 擎_ a p hf o mc l a s s i c a la p r i o r ia l g o r i 也m s t b t a ls y s t e n ni sa b a s eo f t h en e x ts t e pt or e 融i z e 、c bs i t ei m e l l i g c n t i z a t i o n t h i st l l e s i si sc o m p o s e do f m ef o l l o w i 工1 9s e v e nc h a p t e r s c h a p t e r1 :t h i sc h a p t e rc h i e n ym 们d u c e st 1 1 ed a t am i n i n gt e c h n o l o g ya n d c u r r e n ts t a t u si nc h i n aa i l df o r e i g nc o u n t r i e s i tc o m e so u t 也em a i nc o n t e n ta 1 1 d s i g n i f l c a t i o i l s c h 印t e r2 :1 h sc h 印t e rd e s c 曲e sd a t am i n i n gi nd e t a i la 1 1 dt h ef 配i n g d i m c _ l 1 l t i e sb e c a u s eo fd 澄爸r e n td a t ac o n s t n l c t i o n s na l s oi n t r o d u c e s1 0 9d a t aa 1 1 d p m c e d u r et 0m 主n i n g1 0 9 s c h a p t e r3 :h 0 wt oc o l l e c t i n gd a t af o rl o g sm i n i n ga n di t s c h a n n e l sa i l dn o wc h a n sa r ed i s c u s s e di nt 1 1 i sc h 印t e r c h a p t e r4 :i nt h i sc h a p t e r p r e p r o c e s s i n gp h a s ei si n 仃o d u c e df o mt l l et a r g e t ,p r o c e d u r ea n da l g o r i 血mo fd a t a c l e a n i n ga n dh o wt o b u i l dd a t a b a s e i ta l s o f o c l l s e so nu s e ri d e n t i f i c a t i o n ,p a t l l i d e n t i f i c a t i o na n d 觚融ri d e m i f i c a t i o na n ds oo n c h 印t e r5 :1 h sc h a p t e rd i s c u s s e s s e v e r a l1 0 9 sm i l l i n ga l g o r i m m s m c l u d i n gc l a s s i 母i 1 1 9l o g sd a t ai n t ot w op a r t s :n o 肋a l a n da b n o r m a l 出吐at oe 1 1 :h a n c en e ts e 吼埔毋b yc a l c u l a :t i r 培s e s s i o ns i m i l a r i 也f i n d i n g i n t e r e s t e dp a t hb yl a 唱eg r 印ha 1 9 0 r i t h mu k ea p r i o r i c h a p t e r6 :i nt h i sc h a p t e f 吐地r e c o n c l u d ei n t oas y s t e ms t r u c t u r eo fl o g sm i n j n ga n dp r o p o s ep a n i a l e x p e r i m e n t r e s u l t s c h a p t e r7 :i nt 1 1 i sc h 印t e r 、r e v i e wo u rr e s e a r c ha i l dp r o p o s ec o n c i u s i o n s i n c l u d i n ga d v a n t a g ea n dd i s a d v a n t a g ep o i l l t s k e yw o r d s :d 砒am i n i n g ; w e bu s a g em i n i n g :w e bs i t ei o g s ; u s e ra c c e s sp a t t e m i i 武汉理工大学硕士学位论文 第1 章引言 互联网络的迅速发展,给人类社会带来了巨大的变化,网络已经成为人们 日常生活必不可少的工具,近几年万维网的发展十分迅速已经成为一个巨大的、 分布广泛的和全球性的信息资源服务中心 它提供了强大的搜索功能、极强的 实时性和超强的交互性,其中w 曲作为实时交流和获取知识信息的平台正为广 大网民所钟爱。然而,由于万维网的复杂和庞大,如何帮助用户从因特网的信 息海洋中迅速发现他们所要寻找或者感兴趣的资源和增强网站的可维护性和安 全性,已经成为迫切需要解决的问题。 1 1 研究的意义 统计数据表明,全世界每年w 曲服务器数量都以超过3 0 的比例增长,w 曲 页面以6 0 的比例快速增长,在每个用户面前汇成了一个信息的海洋i l 】。如何能 迅速找到自己需要的信息,已成为用户和w 曲运行商日益关注的问题。网站应 能根据用户期望提供个性化的服务,网站可以根据用户的兴趣所在,为用户推 荐可能感兴趣但尚未阅读的内容,这就为网站的设计提出了更高的要求。朗讯 科技贝尔实验室总裁耐特拉瓦利在贝尔中国研究院成立时对互联网的发展做出 了七大预言,其中有一条就是:“因特网将从一个单纯的大型数据中心发展成为 一个更加聪明的高智商网络”。1 2 1 如何提高w 曲服务质量,了解访问者在网站的 活动情况,从庞大的用户群的数据海洋中挖掘客户活动信息等,正在成为当前 的热点研究课题之一。 面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发 现( d m k d ) 技术将在这一领域显示出强大的生命力。 w 曲站点智能化借助数据挖掘技术可以主动地为用户提供感兴趣的信息, 而不是把所有的信息都提供给用户,在一定程度上帮助用户更快速地寻找到需 要的信息,并可及时对可疑访客予以警觉。由该指导思想发展起来的自适应站 点就是一种智能化w 曲站点,它通过观察用户的访问模式,自动改进站点的结 构和表现形式,以反映用户的兴趣所在。自适应站点建立的基本方法是 3 】:发现 用,。聚类。然后为每个聚类的用户建立配置文件( p r o 珏l e ) ,并将之保存在w 曲服 武汉理工大学硕士学位论文 务器中。当用户访问站点时,服务器判断当前用户属于哪个聚类,寻找聚类相 应的配置文件,并将用户请求的页面经过变形后返回给用户。 1 2 数据挖掘技术 1 2 1 数据挖掘概述 数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质 量问题。数据挖掘最初是一些大型的商业数据库,通过数据描述、统计和计算, 并用图表直观地表现,进而找出数据之间的相关性,即发现知识,提供解决问 题的依据。w e b 数据挖掘的对象包括:服务器日志数据( l o g s ) 、在线业务数据、 w 曲页面中的文本、w 曲上的多媒体数据、w 如页面超级链接关系( u r l s ) 、用 户注册等其他信息。发现的知识可以用于信息管理、查询优化、决策支持、过 程控制等,还可以用于数据自身的维护。数据挖掘汇聚了不同领域的研究者, 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程 技术人员f 4 】。 特别要指出的是,数据挖掘从一开始就是面向应用的。它不仅是面向特定 数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统 计、分析、综合和推理,企图发现事件间的相互关联,利用数据对未来的活动 进行预测。例如,加拿大卑斯省电话公司要求加拿大s i m o n f r 船e r 大学k d d 研 究组根据拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法, 制定既有利于公司又有利于客户的优惠政策。美国国家篮球队( n b a ) 的教练 曾利用某公司提供的数据挖掘技术,临场决定替换队员,一度在数据库界被传 为佳话。总之,人们对数据的应用,需要从低层次的末端查询操作,提高到为 各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同 时需要指出的是,这里所说的知识发现,是指有特定前提和约束条件、面向特 定领域的,易于被用户理解,最好能用自然语言表达的发现结果。因此d m k d 的研究成果很讲求实际。1 9 9 7 年第3 届k d d 国际学术大会上进行的实实在在的 数据挖掘工具的竞赛评奖活动,就是一个生动的证明。最近,已有不少d m k d 产品用来筛选i m e m e t 上的新闻,保护用户不受无聊电子邮件的干扰和商业推销, 受到极大的欢迎口l 。 2 武汉理工大学硕士学位论文 1 2 2 数据挖掘系统的分类 数据挖掘的方法通常可以分为两大类:一类是统计型,常用的技术有概率 分析、相关分析、聚类分析和判别分析等;另一类是人工智能中的机器学习型, 通过训练和学习样本集得出需要的知识。数据挖掘的目标是发现有价值的知识 和信息,各种方法有自身的特点及适用领域,数据挖掘方法的选择将影响最后 结果的质量和效果。通常可以将多种方法结合使用,形成优势互补。下面对数 据挖掘中常用的关联分析、决策树和神经网络等几种方法进行简单介绍【6 】_ f 1 2 】。 ( 1 ) 关联规则方法。 关联规则挖掘是由r 矗k e s ha p w a i 等人首先提出的。两个或两个以上变量的 取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要 的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的 目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关 联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符 合需求。例如,购买商品a 和b 的客户有8 5 同时也购买了商品c ,用规则表 示为a ,b c ( 8 5 ) 。典型的关联规则挖掘算法有a p r i o r i 和d h p ,它们都属于 数据库遍历算法。 ( 2 ) 决策树方法。 决策树方法是利用实例集生成一个基于熵的计算的测试函数,根据测试函 数值建立树的分支;在每个分支子集中重复建立下层结点和分支,从而生成一 棵决策树。然后对决策树进行剪枝处理。最后把决策树转化为规则集,利用规 则集可以对新实例进行分类。 ( 3 ) 神经网络方法。 神经网络是模拟人脑的神经元结构而建立的多种神经网络模型。神经网络 的知识体现在网络连接的权值上。神经网络方法用于非线性数据和含噪声的数 据时具有更大的优越性,比较适合于市场数据库的分析和建模。 ( 4 ) 聚类分析和模式识别。 聚类分析主要是根据事物的特征对其进行聚类或分类,以期从中发现规律 和典型模式。这类技术是数据挖掘的最重要技术之一。除传统的基于多元统计 分析的聚类方法外,近年来模糊聚类和神经网络聚类方法也有了长足的发展。 c l a r a 是统计学中常眉的聚类算法,c i ,a r a n s 是在c l a r a 和p a m 的基础 武汉理工大学硕士学位论文 上发展起来的一个基于随机搜索的聚类算法,c l a r a 在每一个搜索阶段均有一 个固定样本,而c l a r a n s 在每一步搜索中都是随机地选择样本。c l a r a n s 也有不足的地方,有人就将c l a r a n s 同r 树集成。但是r 树并不总是可靠, 并且它的构建可能是很费时间的,所以在r 树的基础上又产生了另一种算法 b i r c h ,用来对大数据集进行聚类。 ( 5 ) 最近邻方法。 最近邻方法( k n c a r e s tn e i 曲b o r ,简称l 烈n ) 是一种简洁而有效的非参数分类方 法。它的工作原理是首先找到被分类对象在训练数据集中的k 个最近的邻居, 然后根据这些邻居的分类属性进行投票,将得出的预测值赋给被分类对象的分 类属性。这种方法也被称为延迟学习( 1 a 巧1 e a n l i n g ) 。这种技术可用于聚类和偏差 分析等。 ( 6 ) 统计分析方法。 统计分析方法是利用统计学、概率论的原理对关系中各属性进行统计分析, 从而找出它们之间的关系和规律。在数据库字段项之间存在两种关系:函数关 系( 能用函数公式表示的确定性关系) 和相关关系( 不能用函数公式表示,但仍是 相关确定性关系) ,对它们的分析可采用统计学方法,即利用统计学原理对数据 库中的信息进行分析。可进行常用统计( 求大量数据中的最大值、最小值、总和、 平均值等) 、回归分析( 用回归方程来表示变量间的数量关系) 、相关分析( 用相关 系数来度量变量间的相关程度) 、差异分析( 从样本统计量的值得出差异来确定总 体参数之间是否存在差异) 等。统计分析方法是最基本的数据挖掘技术方法之一。 1 2 3 国内外的研究现状 当前,d m k d 研究方兴未艾,其研究与开发的总体水平相当于数据库技术 在7 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系统和s q l 查询语言 等理论和方法的指导,才能使d m k d 的应用得以普遍推广。预计在本世纪, d m k d 的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面 1 8 】: 1 ) 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也 许会像s q l 语言一样走向形式化和标准化; 2 ) 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解, 也便于在知识发现的过程中进行人机交互; 4 武汉理工大学硕士学位论文 3 ) 研究在网络环境下的数据挖掘技术( w e b m i n i n g ) ,特别是在因特网上建 立d m k d 服务器,并且与数据库服务器配合,实现w c b m i m n g ; 4 ) 加强对各种非结构化数据的开采( d a t a m i n i n g f b r a u d i o v i d e o ) ,如对文 本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或 者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析 和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和 复杂数据准备的一些工具和软件。以及交互式发现、知识的维护更新等。 但是,不管怎样,需求牵引与市场推动是永恒的,d m k d 将首先满足信息 时代用户的急需,大量的基于d m k d 的决策支持软件产品将会问世。 只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的 思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源 相媲美的资源,信息时代才会真正到来。 就目前来看,将来的几个热点包括网站的数据挖掘( w 曲s i t ed a t a m i i l i n 2 ) 、 生物信息或基因( b i o i n f o m a t i c s 倌e n o m i c s ) 的数据挖掘及其文本的数据挖掘 ( t e x t l l a lm i n m g ) 【。下面就这几个方面加以简单介绍。 ( 1 ) 网站的数据挖掘( w e bs i t ed a t am i n i n g ) 随着w 曲技术的发展,各类电子商务网站风起云涌,建立起一个电子商务 网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须 吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务 竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转 换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、 奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去 客户的因素。而同时电子商务网站每天都可能有上百万次的在线事务,生成大 量的记录文件( l o g f i l e s ) 和登记表,如何对这些数据进行分析和挖掘,充分了 解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群 体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中 生存进而获胜,就要比您的竞争对手更了解客户。 电子商务网站数据挖掘 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是 客户的背景信息,此部分信息主要来自于客户的登记表:而另外一部分数据主 武汉理工大学硕士学位论文 要来自浏览者的点击流( c l i c k s t r e 姗) ,此部分数据主要用于考察客户的行为表 现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在 登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从 浏览者的表现数据中来推测客户的背景信息,进而再加以利用。 就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘 差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据 格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商 务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力 于开发专门用于网站挖掘的软件。 ( 2 ) 生物信息或基因的数据挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多 大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的 人的基因和正常人的基因到底差别多大? 能否找出其中不同的地方,进而对其 不同之处加以改变,使之成为正常基因? 这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复 杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法 上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。 但就技术和软件而言,还远没有达到成熟的地步。 ( 3 ) 文本的数据挖掘( 1 l e x t l l a l m i n i n g ) 人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心, 把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服 务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以 看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到 的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方 法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分 方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真 正的分析功能。 随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、 越来越复杂,数据挖掘将发挥出越来越大的作用。 6 武汉理工大学硕士学位论文 1 3 本课题解决的问题 m t e m e t 的发展推动了w 曲服务质量的提高,为此出现了个性化服务、自适 应站点以及推荐系统。 千篇律的商务站点缺乏传统商业活动中入的情感交流和互动,就如大量 散发的没有针对性的印刷广告,难以吸引顾客。有针对性地开展个性化服务, 才能使商务站点吸引更多的用户。个性化站点对用户的服务包括 2 0 】: 1 ) 个性化操作与显示。用户可以根据其个人爱好,选定特定的操作与显示 方式。新一代的w 曲文档中,显示格式不再是内嵌在文档数据内部,而是存放 在与文档的数据分离的样式文件中。文档可根据不同的样式文件,因人而异地 控制显示方式,使显示具有多样性和灵活性。 2 ) 个性化问询与导航。每当用户登录,网站会根据各个用户的特定情况给 出有针对性的问题。 3 ) 个性化信息报送。网站根据用户自定义或自动分析用户最可能需要的信 息,在用户预订或进行一定操作后,自动把信息推荐给用户。 而实现个性化站点的前提就是要挖掘用户行为,那么挖掘用户行为的用处 在哪里? 【2 1 1 ( 1 ) 改善系统设计。在高关联的网页之间提供有效的访问通道,提供更好 的网页组织和个性化的数字库,了解用户访问模式来建立自适应站点并优化服 务器文件的存放。 ( 2 ) 通过传送更高质量的互联网信息服务给最终用户加强服务质量,改善 服务的可靠性,理解网络交通和监视系统性能和网络通信的本质。 ( 3 ) 引导在适当位置投放广告、采取合适的价格策略、提升客户的忠诚度 和留住客户等方面的更好的市场决策。 7 武汉理工大学硕士学位论文 2 1w e b 挖掘概述 第2 章w e b 挖掘 w e b 是一个动态性极强的信息源。w 曲不仅以极快的速度增长,而且其信 息还在不断发生着更新。新闻、股票市场、公司广告和w 曲服务中心都在不断 更新各自的页面。链接信患和访问记录也在频繁地更新之中。 w 曲面对的是一个广泛的、形形色色的用户群体。中国互联网络信息中心 ( c n n i c ) 公布的最新报告显示,截至2 0 0 5 年1 2 月3 1 日,全球互联网用户人 数达到1 0 8 亿,我国上网用户总数为1 1 1 亿人,其中宽带上网人数达到6 4 3 0 万人。目前,我国网民数和宽带上网人数均位居世界第二【2 2 】。同时w 曲用户群 仍在不断扩张中,各个用户具有不同的背景、兴趣和使用目的。大部分用户并 不了解信息网络结构,不清楚搜索的高昂代价,极容易在“黑暗”的网络中迷 失方向,也极容易在“跳跃式”访问中烦乱不已,或者在等待一段信息中失去 耐心。 w 曲上的信息对用户而言,只有很小的一部分是相关的或有用的。据说9 9 的w 曲信息对于9 9 的用户是无用的【2 3 。虽然这看起来不是很明显,但一个 人只是关心w 曲上非常小的一部分信息确是事实,w 曲所包含的其余信息对用 户来说是不感兴趣的,而且会淹没所希望得到的搜索结果。 w e b 页面的复杂性远比任何传统的文本文档复杂得多。w 曲页面缺乏统一 的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。w 曲 可以看作是一个巨大的数字图书馆;然而,这一图书馆中的大量文档并不根据 任何有关排列次序加以组织。它没有分类索引,更没有建立按标题、作者、封 面页、目次等索引。在这样一个“图书馆”中搜索希望得到信息是极具挑战性 的。 这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。 因此,w e b 挖掘也就成为数据挖掘领域一个新的研究方向。 2 1 1w e b 挖掘的特点 与基于数据库或数据仓库的数据挖掘相比较,w 曲数据挖掘有自身的特点口4 8 武汉理工大学硕士学位论文 1 ) w 曲挖掘的对象是海量的、异构的和分布的文档,其中对w e b 服务器上 的日志和用户信息等数据展开的挖掘,属于传统的数据挖掘的范畴。 2 ) w e b 在逻辑上是一个由文档结点和超链接构成的图,因此w e b 的挖掘所 得到的模式可能是关于w 曲内容的,也可能是关于w 曲结构的。 3 ) 由于w 曲文档是半结构化或无结构的,且缺乏机器理解的语义,而数据 挖掘的对象局限于数据库中的结构化数据,并可利用关系表格等存储结构来发 现知识,因此有些数据库挖掘技术并不能直接的应用于w 曲数据挖掘,需要对 w e b 文档进行预处理。 数据挖掘的对象可以是数据仓库、各种文本数据、多媒体信息等,也可以 是w 曲。在w 曲上进行的数据挖掘,就是w 曲挖掘。w 曲挖掘就是从w 曲服 务器的数据库中挖掘出一系列用户感兴趣的内容,发现一定的规律性。 2 1 2w e b 挖掘对象分类 w e b 上的信息是多样性的,包括w e b 的文档内容、样式,w 曲的结构内容 以及w e b 的使用信息, 根据w 曲挖掘中数据对象的不同,可以将w e b 挖掘分 为四类: 2 5 】。【2 6 】 1 ) w 曲内容挖掘( w 曲c o n t e mm i i l i n g ) 。 w c b 内容挖掘指在人为组织的w 曲上,从文件内容及其描述中获取有用信 息的过程。 2 ) w e b 结构挖掘( w 曲s t r u c 衄m i l l i n g ) 。 w e b 结构挖掘是从人为的链接结构、文档的内部结构、文档u r l 中的路径 结构中获取有用知识的过程。 3 ) w 曲样式挖掘( w 曲s t y l e m i n i n g ) 。 w e b 样式挖掘是从文档的样式表达上挖掘有用信息的过程。 4 ) w e b 日志挖掘或使用挖掘( w 曲l o g sm i n i n g 或w 曲u s a g em i n i n g ) 。 w e b 日志挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上 的浏览者和顾客的行为模式。 其分类如图2 1 所示【2 7 】: 9 武汉理工大学硕士学位论文 w 曲挖掘 歹7 弋 啊,e b 内容挖掘、b 结构挖掘w 曲样式挖掘 、b 日志挖掘 e b 文档自动分类 搜索结果归纳用户访问模式分析自适应w 曲站点 图2 1w 曲挖掘对象分类 ( 1 ) w e b 内容挖掘 w 曲内容挖掘是指对w 如页面内容及后台数据库进行挖掘,从w e b 文档的 内容信息中获取有用知识。w 曲内容挖掘可以从两个方面来看:面向i r 的w 曲 内容挖掘和面向d b 的w 曲内容挖掘。前者的目的是为了改善w 曲信息检索或 信息过滤的性能,其挖掘的数据包括文本文档、超文本文档,可应用于:w e b 文档的分类、聚类、关联分析,w e b 主题发现与跟踪、预测、分析,w 曲内容 变化规律检测和构建用户模型等等。后者通过挖掘数据模式,实现数据集成和 结构化w 曲数据查询,可应用于频繁子结构发现、站点数据模式挖掘和数据集 成等。 ( 2 ) w e b 结构挖掘 w e b 结构包括页面内部的结构以及页面之间的结构。通过挖掘w 曲结构信 息,对于导航用户测览行为、改进站点设计、评价页面的重要性等都非常重要。 p a g e r a n k 算法和c l e v e r 算法利用w 曲网页间的链接信息来查找“权威” ( a u t l l o r i t i e s ) 网页和“集线器”( h u b s ) 。w 曲结构挖掘通常需要整个w 曲的全 局数据,因此,在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。 此外,在多层次w 曲数据仓库( m l d b ) 中也利用了页面的链接结构。 ( 3 ) w e b 样式挖掘 w e b 样式挖掘强调设计w e b 网页的样式和表达,从浏览器显示的文档样式 中挖掘有价值的信息。w c b 样式挖掘可用于:基于样式的特征选择,样式索引, 样式聚类,产生样式和样式定位。 ( 4 ) w 曲使用挖掘 w e b 使用挖掘是从一个或者多个w 曲服务器中发现用户访问模式,并抽取 感兴趣的模式。通常为w e b 使用挖掘提供数据的是w 曲服务器的日志,w w w 1 0 武汉理工大学硕士学位论文 中的每个服务器都保留了访问日志( w 曲a c c e s sl o 曲,记录了关于用户访问和交 互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或 为用户提供个性化的服务。这方面的研究主要有两个方向:一般的访问模式追 踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用 户的访问模式和倾向,以改进站点的组织结构。个性化的使用记录追踪倾向于 分柝单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定 制的站点。 表2 1 对w 曲内容挖掘、w e b 结构挖掘和w e b 日志挖掘中的数据特征、表 现形式、挖掘方法以及应用领域等方面进行了比较。 表2 1w 曲内番挖掘、结构挖掘和日志挖掘比较 w e b 挖掘 w e b 内容挖掘 w e b 结构挖掘w e b 日志挖掘 信息检索领域数据库领域 一文本文档一超文本文档一链接结构一w e b 服务器日志 数据一超文本文档一p r o x y 目志 一浏览器日志 一非结构化一半结构化一链接结构 一交互式数据 一半结构化一w e b 站点看作 数据特征 是一个数据 库 一无序有序的单一对象交换 一图 关系表 数据 词集合模型( o 跚)一图 一术语和短语一关系曲线 表示形式 一概念实体 一关系曲线 t f i d e f一专利算法一专利算法 一机器学习 及变形 一i l p 一统计 一机器学习一关联规则及一关联规则及变 方法 一统计( n l p )变形形 一聚类 一序列模式 一分类一发现频繁子一分类 一站点结构管理 一聚类结构一聚类 及优化 应用领域 一寻找抽取规则 一提取w e b 站一网络销售 一寻找文本模式 点大纲 一用户建模 一用户建模一推荐系统 武汉理工大学硕士学位论文 2 1 3w e b 数据挖掘的困难 面向w e b 的数据挖掘比面向数据仓库的数据挖掘要复杂得多,困难得多。1 2 驯 ( 1 ) 异构数据环境 w 西上的每一个站点就是一个数据源,每一站点之间的信息和组织都不一 样,因此,w 曲数据挖掘的数据源是异构的。如果要利用这些数据进行数据挖 掘,首先,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都 集成起来,提供一个统一的视图,才有可能从巨大的数据资源中获取所需的东 西。其次,要解决w 曲的数据查询问题,如果所需的数据不能很有效地得到, 对这些数据进行分析、集成、处理就无从谈起。 ( 2 ) 半结构化数据源 w e b 数据源与数据库中的数据不同,数据库都有一定的数据模型,可以根 据模型来具体描述特定的数据。而w 曲数据非常复杂,没有特定的模型描述, 每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因 而,w 如是一种非完全结构化的数据,或称之为半结构化数据。 ( 3 ) 半结构化数据模型 w 曲数据挖掘首先要解决半结构化数据源模型和基于半结构化数据模型的 数据查询与集成问题。针对w e b 上的数据半结构化的特点,需要有一个模型来 清晰地描述w 曲上的数据。除了要定义一个半结构化数据模型外,还需要与之 相关联的一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模 型的技术。 2 2w e b 日志挖掘 2 2 ,1w e b 日志 w c b 服务器日志记录了w b b 服务器接收请求以及运行状态的各种原始信息。 通过对这些信息的统计、分析与综合,就能有效地掌握服务器的运行状况,诊 断差错事故、了解访问流量以及用户集中访问是哪些网页,从而加强系统的维 护、管理,也有利于网站管理员更好的改进网页。 w 乩服务的模型如图2 2 所示。【2 川 1 2 武汉理工大学硕士学位论文 图2 2w 如船甥弗型 客户端( b r o w s e r ) 向w e bs e “e r 发出请求,根据h t t p 协议,这个请求中包含 了客户端的i p 地址、浏览器的类型、请求的u r l 等一系列信息。 服务器端( w e bs e r v e r ) 收到请求后,根据请求将客户端要求的信息内容返 回到客户端。如果出现错误,那么返回错误代码。 服务器端将访问信息和错误信息记录到日志文件里。 市场上存在许多w e b 日志分析软件,例如:w e b t r e n d s ,l o g a n a l y z e r 或者 m a r k e t w a v e 公司的h i t l i s tp r 0 ,通过这些软件的分析可以生成高质量的访问报 告。这两种产品提供一个用于日志分析和访问报告生成的强大组件。两种分析 工具都在任何基于w i n d o w s 的机器上运行,读入日志文件,输出相对简单的访 问报告格式数据。每个产品生成的访问报告都是h i m l 格式的,但是用户可以 方便地在多种o m c e 兼容的格式间转换,其中包括e x c e l 、w b r d 和文本格式。 w c b t r e n d s 扫描w 曲服务器日志的过程很慢,而且资源占用量非常大,很容易 使主机发生死锁。h i t l i s tp r o 是把日志文件复制成一个通用格式( a c c e s s 、s o l s e r v e r 或o r a c l e ) ,然后从这个本地数据库上处理所有的访问报告。因此,创建 任意多的访问报告只需要一次到日志文件的连接。这使应用稳定得多,不会使 工作站趋于崩溃。但是当首次提交曰志文件时,引入到数据库的过程可能会很 慢,而且每次日志文件被修改后,都不得不更新本地日志文件数据库,这也是 项繁琐和耗费资源的事情。这些产品都是通过分析日志,产生访问报告,我 们首先有必要剖析一下r e b 日志格式: 以a p a c h e 的访问日志为例来介绍w 曲日志格式f 3 0 】,a p a c h e 内建了记录服 务器活动的功能,这就是它的日志功能。如果a p a c h e 的安装方式是默认安装, 服务器一旦运行就会有两个日志文件生成。这两个文件是a c c e s s1 0 2 ( 在w 血d o w s 上是a c c e s s 1 0 9 ) 和e o l l o g ( 在w i n d o 上是e r m l l o g ) 。采用默认安装方式时, 武汉理工大学硕士学位论文 这些文件可以在,u s r 1 0 c a l ,a p a c h “1 0 9 s 下找到。对于w i n d o w s 系统,这些目志文 件将保存在a p a c h e 安装目录的l o g s 子目录下。日志文件有可能放到不同的位置, 需要查找其他的地方,或者通过配置文件查看这些日志文件配置的位置。 访问日志记录了所有对w c b 服务器的访问活动。默认情况下,日志格式遵 循c o r m o nl o gf o m a t ( c l f ) 规范,c l f 文件为每一个请求包含一个分隔开的记 录,一条记录由7 项组成,项之间由空格隔开: h o s ti d e n ta u m e u s e rd a l - ar e q u e s ts t a t u sb y t e s 下面是访问曰志中一个典型的记录: 2 0 2 1 1 4 鼢3 7 一- 1 9 ,a u 非0 0 4 :1 4 :4 7 :3 7 _ 0 4 帅】t g e t ,h t t p ,i o ”2 6 5 4 第一项信息是远程主机的地址,郎它表明访问网站的主机地址。在上例中, 访问网站的主机i p 地址是2 0 2 1 1 4 8 8 3 7 。默认情况下,第一项信息只是远程主 机的i p 地址,可以要求a p a c h e 查出所有的主机域名,并在日志文件中用主机域 名来替代i p 地址。然而,这种做法通常不值得推荐,因为它将极大地影响服务 器记录日志的速度,从而也就减低了整个网站的效率。另外,有许多工具能够 将日志文件中的i p 地址转换成主机域名,因此要求a p a c h e 记录主机域名替代 i p 地址是得不偿失的。 上例日志记录中的第二项是空白,用一个“”占位符替代。第二项用于记录 浏览者的标识,这不只是浏览者的登录名字,而且是浏览者的e m a i l 地址或者其 他唯一标识符。浏览者的标识信息由i d e 砌项代表。很早的时候,那时n e t s c a d e 还占据着统治地位,这个位置往往记录着浏览者的e m a i l 地址。然而,由于有人 用它来收集邮件地址和发送垃圾邮件,所以它未能保留多久,市场上几乎所有 的浏览器取消了这项功能。因此,在日志记录的第二项看到浏览器e m a i l 地址的 机会已经微乎其微了。 日志记录的第三项也是空白。第三项用于记录浏览者进行身份验证时提供 的名字。当然,如果网站的某些内容要求用户进行身份验证,那么第三项信息 是不会空白的。但是,对于大多数网站来说,这一项仍旧是空白的。 日志记录的第四项是请求的时间。这个信息用方括号包括,采用“公共日志 格式”或“标准英文格式”。上例日志记录表示请求的时间是2 0 0 4 年8 月1 9 日 1 4 :4 7 :3 7 。时间信息最后的“一0 4 0 0 ”表示服务器所处时区位于u t c ( 世界标准时 间) 之前的4 小时。 1 4 武汉理工大学硕士学位论文 目志记录的第五项是日志记录中最有用的信息,它表示服务器收到的是一 个什么样的请求。该项信息的典型格式是“m e t h o dr e s o u r c ep r o t o c o l ”, 即“方法资源协议”。 在上例中,m e t h o d 是g e t ,其他经常可能出现的m e t h o d 还有p o s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45785-2025压缩空气站能源绩效评价
- 2024年中国四苯硼钠行业调查报告
- 2025年中国电网改造市场评估分析及投资发展盈利预测报告
- 2025年中国激光功率监视器行业市场发展前景及发展趋势与投资战略研究报告
- 脑梗死护理指南
- 理财培训课件
- 2025-2030年中国140g瓦楞纸箱行业深度研究分析报告
- 中国浓缩鱼油软胶囊行业市场深度研究及投资战略规划建议报告
- 切朴机行业深度研究分析报告(2024-2030版)
- 中国六角钻尾钉行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 2025年度安全生产月培训课件
- 2025春季学期国开电大本科《人文英语4》一平台机考真题及答案(第七套)
- 2025年全国二卷高考英语作文深度解析及写作指导
- 2025年河北省万唯中考定心卷生物(一)
- 2025冬季四川成都湔江投资集团限公司招聘32人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年全国保密教育线上培训考试试题库带答案(典型题)含答案详解
- 甘肃兰州2025年公开招聘农村(村务)工作者笔试题带答案分析
- 大健康项目商业计划书
- 2025全国交通运输行业职业技能竞赛学生组技术方案
- 常用仪表使用方法铁道信号综合实训课件
- 2025云南黄金矿业集团股份限公司招聘114人易考易错模拟试题(共500题)试卷后附参考答案
评论
0/150
提交评论