(计算机应用技术专业论文)web日志挖掘技术的研究.pdf_第1页
(计算机应用技术专业论文)web日志挖掘技术的研究.pdf_第2页
(计算机应用技术专业论文)web日志挖掘技术的研究.pdf_第3页
(计算机应用技术专业论文)web日志挖掘技术的研究.pdf_第4页
(计算机应用技术专业论文)web日志挖掘技术的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)web日志挖掘技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

w e b 日志挖掘技术的研究 摘要 i n t e m e t 的快速发展,w w w 的广泛应用以及所有客户行为的电子化,使得收集用户的行为数据, 深入研究用户行为成为可能。如何利用这些繁琐的数据得到大家都看得懂的、有价值的信息和知识 就是我们面临的问题,由此产生w e b 日志挖掘。 w e b 日志挖掘是对用户与w e b 服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性 知识,得到用户访问站点的频繁程度和行为模式,从而改善w e b 站点结构及页面间的超链接结构, 提高站点的服务质量,改进站点性能,同时将一些可疑信息及时反馈给网站管理员以加强网站的安 全性。 本篇论文主要从以下几个方面对w c b 日志挖掘进行系统的分析和研究。首先阐述本篇论文的研 究背景及w e b 日志挖掘的国内外研究现状,并对数据挖掘、w e b 数据挖掘和w e b 日志挖掘进行了 概述,并给出他们之间的关系;其次对w e b 日志挖掘中的数据预处理技术进行了分析与研究,详细 分析了传统的数据预处理阶段中的各项任务,并在此基础上提出一种简化预处理步骤的算法,实验 证明这种算法可以在不降低预处理精度的情况下提高预处理的速度;接着本篇论文对数据挖掘中常 用的几种算法进行简单介绍,并重点研究了关联规则算法中的a p d o r i 算法,对a p n o r i 算法常用的 几种改进方法作对比,提出采用数字化的方法实现a p r i o r i 算法;论文紧接着介绍了w e b 日志挖掘 的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出 w e b 日志挖掘的研究方向、应用前景和它所面临的挑战。 关键词:数据挖掘;w e b 数据挖掘;w e b 日志挖掘;数据预处理;关联规则;模式分析 i i r e s e a r c ho nt e c h n o l o g yo fw e bl o g m i n i n g a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t , w i d e l ya p p l i c a t i o no fw w w :a n de l e c t r o n i z a t i o no fc u s t o m e r s b e h a v i o r , i ti sp o s s i b l et oc o l l e c tt h ed a t aa b o u tt h eu s c - 4 c r a v e r s a la n da n a l y z et h e i ra c t i o nf u r t h e r n o ww e a r ec o n f r o n t e dw i t hh o wt ou s et h e s ec o m p l e xd a t at oo b t a i nt h ev a l u a b l ei n f o r m a t i o na n dk n o w l e d g et h a t w ec a nu n d e r s t a n d w ec a l li s ow e bl o gm i n i n gt os o l v et h ep r o b l e m w e bl o gm i n i n ga n a l y z e sa n dr e s e a r c h e s s y s t e mb a s e do nd a t am i n i n gu n c o v e r st h eh i d d e n r e g u l a t i o n sa m o n gt h ei n t e r a c t i v ed a t ab e t w e e na w e bs e r v e ra n di t su s e r s ,i no r d e rt og e tt h ef r e q u e n c ya n d b e h a v i o rp a t t e mo fu s e ra c c e s s i n gt h es i t e ,s ow e ba d m i n i s t r a t o rc a l lp e r f e c tt h es t r u c t u r eo fw e bs i t ea n d h y p e - l i n ea m o n gp a g e s ,i m p r o v es e r v i c eo fw e ba n dp e r f o r m a n c eo fw e bs i t e f u r t h e rm o r ew e bl o g m i n i n gc a nf e e d b a c ks o m ea b n o r m a la c c e s si n f o r m a t i o nt ow e ba d m i n i s t r a t o rt oe n h a l l c es e c u r i t yo ft h e s i t e t h i sp a p e ra n a l y z e sa n dr e s e a r c h e st h ew e bl o gm i n i n gf r o mt h ef o l l o w i n gs e c t i o nd e t a i l e d l y i nt h e f i r s tp a r tw ep r e s e n tt h es i g n i f i c a n c ea n db a c k g r o u n do ft h er e s e a r c ha n dt h ec u r r e n tr e s e a r c hs i t u a t i o ni n h o m ea n da b r o a d ;t h e nw es u m m a r i z ed a t am i n i n g , w e bd a t am i n i n ga n dw e bl o gm i n i n g , s h o wt h e r e l a t i o n s h i pb e t w e e nt h e m s e c o n d l yw er e s e a r c hd a t ap r e p r o c e s s i n gt e c h n o l o g yi nw e bl o gm i n i n g , a n d a n a l y z ea l l t a s k si ne v e r yp h a s eo ft r a d i t i o n a ld a t ap r e p r o c e s s i n gt e c h n o l o g yd e t a i l e d l y ;t h e nt h ep a p e r p r o p o s e sa na l g o r i t h mw h i c hi sb a s e do nt r a d i t i o n a l d a t ap r e p r o c e s s i n gt os i m p l i f yt h es t e p si nd a t a p r e p r o c e s s i n g e x p e r i m e n ti n d i c a t e st h a tt h ea l g o r i t h mc a l li m p r o v et h es p e e dw i t h o u tl o w i n gt h ea c c u r a c y o f p r e p r o c e s s i n g t h i r d l yt h ep a p e ri n t r o d u c e ss e v e r a la l g o r i t h m sw h i c ha r eu s e dt y p i c a l l yi nd a t am i n i n g , a n ds t u d ya p d o r ia l g o r i t h mi na s s o c i a t i o nr u l e sa n dc o m p a r ei t ss o m ei m p r o v e dm e t h o d ,t h e nt h ep a p e r p r o p o s e sa d o p t i n gd i g i t a l i z a t i o nt oc m l y o u ta p r i o r ia l g o r i t h m i nn e x tp a r tt h ep a p e ri n t r o d u c e st h e p r o c e d u r e so fw e bl o gm i n i n ga n dg i v e ss o m ei n s t a n c e s a tl a s t , t h ep a p e rr e v i e w so u rr e s e a r c h e sa n d p r o p o s e sc o n c l u s i o n si n c l u d i n ga d v a n t a g ea n dd i s a d v a n t a g ep o i n t s k e yw o r d s :d a t am i n i n g ;w e bd a t am i n i n g ;w e bl o gm i n i n g ;d a t ap r e p r o c e s s i n g ;a s s o c i a t i o n a l r u l e ;m o d ea n a l y z i n g i i i 学位论文独创性声明 本人所呈交的学位论文是我在指导教师的指导下进行的研究工作及取得的研究成 果据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写 过的研究成果对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并 表示谢意 作者签名: 学位论文使用授权声明 本人完全了解大庆石油学院有关保留,使用学位论文的规定,学校有权保留学位论 文并向国家主管部门或其指定机构送交论文的电子版和纸质版有权将学位论文用于非 赢利目的的少量复制并允许论文进入学校图书馆被查阅有权将学位论文的内容编入有 关数据库进行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在解密后 适用本规定 学位论文作者签名:蚤匐厶 日期。似;扣曰 导师签胡喇 日期细7 争硐卢旧 创新点摘要 1 在w e b 日志挖掘的数据预处理过程中,从纵横两方向对原始日志数据进行清洗以提高 且志挖掘中数据预处理的效率。 2 对数据预处理过程进行简化,提出不经过路径补充,从用户访问序列直接生成用户访 问事务的算法( s 1 t 算法) ;给出s t t 算法,并提供实验数据。 3 对a p r i o r i 算法常用的几种改进方法作对比,并提出采用数字化的方法来实现a p r i o r i 。 i v 大庆石油学院硕士研究生学位论文 引言 1 9 8 9 年,为了支持在多个研究机构之间的合作研究,欧洲核物理实验室( e u r o p e a n l a b o r a t o r yf o rp a r t i c l ep h y s i c s ,c e r n ) 的t i mb e m e r s l e e 领导开发了w w w ( w o r l d - w i d ew 曲) ,随后很快得到广泛应用。w e b 技术极大推动了i n t e m e t 的发展,成 为了i n t e m e t i n t r a n e t 最主要的信息服务。w e b 的出现不但改变了网络的应用方式,为用 户提供了友好访问i n t e r n e t 资源的窗口,更重要的是它提供了全新的网络信息平台,为 全球广阔的数据资源提供了开放的访问接口,方便的实现了信息的大范围共享。随着 i n t e m e t 技术的发展,网络资源也在飞速地增长,如何开发和利用这些丰富的资源就成 为人们普遍关注的问题。于是,数据挖掘技术和i n t e m e t 应用研究的结合构成了当今比 较活跃的一个研究领域w e b 数据挖掘。 w e b 数据挖掘是一种技术。和其他技术一样,w e b 数据挖掘在经历一段时期的研究、 开发和逐步成熟后,最终被人们接受。在w e b 数据挖掘领域中w e b 日志挖掘技术对于 w e b 网站的结构优化和w e b 页面内容的重组都起到了重要的作用,并直接会影响w e b 网站产生的经济效益,因此对w e b 日志挖掘技术的研究在日益增加。w e b 日志挖掘是 将传统的数据挖掘技术应用在w e b 访问日志数据上从而产生用户访问模式的技术。 w e b 日志挖掘中的预处理技术和数据挖掘算法是w e b 日志挖掘的重要环节,目前 对这两部分技术环节的研究很多,但都有一定的局限性,具体如下: 1 对数据进行预处理占据了整个挖掘过程的大部分时间,在现有的w e b 日志挖掘 的预处理技术中预处理的步骤多,时伺长,过于繁琐。 2 预处理后数据的精度直接关系着挖掘结果的好坏,现有的预处理技术精确度不 高,尤其是对用户的识别和会话的划分方面。 3 数据挖掘的算法有很多,每种算法都有其特定的用途,尤其是关联规则中的 a 研耐算法,其用途很广,目前存在多种a p r i o r i 算法的改进算法,我们需要 知道在什么情况下,要用哪种改进方法。 本篇论文主要对w e b 日志挖掘技术中的数据预处理技术和a p f i o f i 算法进行研究和 分析,在前人研究的基础上提出和改进w e b 日志挖掘的方法和技术,缩短日志挖掘的 时间,提高日志挖掘的效率。 第l 章绪论 1 1 课题的来源、目的和意义 第1 章绪论 随着i n t e m e t 作为传播各种信息的媒体迅速膨胀,许多机构的计算机系统经过多年 的积累,也产生了大量的历史数据。而巨量的数据本身不是信息,在其背后隐含着丰富 的知识,这些知识才是我们最需要的。但是,目前的数据库技术可以实现数据的高效查 询、统计等功能,而通过对这些数据进行分析而得到进一步隐含信息的能力则显得不足。 于是数据挖掘引起了信息产业界的极大关注,数据挖掘获取的信息和知识可以广泛用于 各种应用,包括商务管理、生产控制、市场分析等“1 。 2 0 世纪9 0 年代,随着w e b 在信息共享、电子商务和提供在线服务方面的广泛应用, 许多企业投入大量资金建立自己的网站用于发布信息,或在别人的网站上为自己的产品 和服务做广告,或在网上开展电子商务活动,它们迫切需要了解这些投资产生的效益和 作用,以便改进企业的策略,获取更多的商业机会,为用户提供更优质的服务。因此, 理解用户的行为对这些企业来说至关重要。 为了解决上述问题w e b 数据挖掘应运而生,w e b 数据挖掘源于数据挖掘技术和 i n t e m e t 技术的结合,辅以计算机语言学、图形学、信息学等多个领域的知识”1 。w e b 数据挖掘主要研究w e b 文档和w e b 活动,从中抽取感兴趣的潜在模式和隐藏的信息。3 。 w e b 数据挖掘的困难在于:传统的数据挖掘是面向关系数据库的,或是面向数据仓库的, 处理的数据具有完整的结构,但w e b 上的数据是无序的、非结构化或半结构化的,并 且存在大量的冗余和噪声。1 。然而,w e b 服务器的日志却有着完美的结构,每当用户访 问w e b 站点时,所访问的页面、时间、用户i d 等信息,在日志中都有相应的记录。因 此,分析w e b 日志,可以构造出用户的行为模式,根据用户的行为模式改进站点的设 计和服务,从与w w w 相关的资源、丰富和动态的超链接信息中抽取感兴趣的、有用 的模式和隐含的知识,并实现w e b 信息的准确查询。 总之,w e b 作为目前i n t e r n e t 上发布信息的主要渠道,已经显示出巨大的商业价值 和应用潜力,要提高网站的声誉和收益,为用户提供更好的服务,就应该要根据用户的 浏览模式来改善网站的服务。而从海量的w e b 日志数据中发现有价值的用户浏览模式 必须依靠w e b 日志挖掘技术。 1 2 国内外的研究现状 w e b 日志挖掘是对用户访问w e b 站点时在服务器上留下的访问日志进行挖掘,即 对用户访问w e b 站点的存取方式进行挖掘。挖掘的目的是在海量的w e b 日志数据中自 2 大庆石油学院硕士研究生学位论文 动、快速地发现用户的访问模式,如频繁访问路径、频繁访问页组、用户聚类等。 目前w e b 日志挖掘可以分为两种方法“3 :一种是先将w e b 服务器上的数据映射到 关系数据库,然后选择合适的数据挖掘技术处理。另一种是利用特殊的预处理技术直接 处理日志数据,然后采用标准的数据挖掘技术来进行访问数据的挖掘。 1 2 1 国外的研究现状 从2 0 世纪8 0 年代以来就有许多人宣传数据挖掘技术,希望它成为一种从数据中挖 掘知识的工具,以便帮助企业做出决策,促进商业竞争。 目前,数据挖掘方法一般有三种:自顶向下( t o p d o w n ) 、自下而上( b o t t o m - u p ) 和混合法。使用比较方法的挖掘算法有关联规则分析、聚类分析、分类和预测、复杂型 数据的数据挖掘等,这些算法大多应用在生物医学、商业、金融和电信方面。1 。 1 9 9 6 年学者m s c h e n 、h m a n n i l a 、t y a n 提出了可以将数据挖掘方法用于w e b 研 究领域。 m a n n i l a 和c h e n 在研究过程中都假定去掉了图形文件、声音文件以后的w e b 服务 器日志就如实的反映了用户在网站中访问的情况。m a n n i l a “1 把用户访问页面当作事件, 从网站访问日志中试着寻找用户访问网站的周期。c h e n ”1 提出了最大前向参引模型,同 时也提出用这种方法来分解用户访问的s e s s i o n 成为一个个的事务( e v e n t ) ( 本文称作 访问事务) ,然后就可以在事务基础上,挖掘用户访问的模式。t y 抽。3 研究了如何动态 地根据用户当前访问提供推荐页面。它首先对用户进行分类,然后,根据同类用户访问 过的页面情况,决定为当前用户提供的页面链接。 1 9 9 7 年d s w n g u 和x v ,u 0 1 等人也研究了s i t e h e l p e r 系统,其主要方法是用信息 提取页面信息,并且结合用户访问历史、用户个人资料提供的线索,向用户动态推荐访 问的页面。但是,由于这个系统主要是根据页面内容和链接提供信息,对用户行为考虑 的相对较少,另外,它要求用户注册,以取得用户个人信息,这又引起了用户个人隐私 问题,因此,这个系统并没有投入市场。 r , 同年p e r k o w i t z “”等人在人机界面研究领域,提出了a d a p t i v ew e bs i t e 的概念,主要 研究方向是如何以历史访问为依据,使得w e b 服务器提供的服务页面可以自动或者半 自动化地调整。 1 9 9 8 年h a n 把w e b 服务器访问日志集成到数据立方体结构( d a d ac u b es t r u c t u r e ) 中,这样就可以对访问日志用传统的在线数据分祈处理过程( o l a p ) 来处理日志数据 了1 。因为他所分析的主要是动态网站日志,因此,他假定客户端的缓存影响不大。 y a h 和h a r t 都认为区分用户和用户访问s e s s i o n 是件比较困难的事情,但是可惜 都没有提出解决办法“”。s c h e c h t e r 等人也提出了对用户访问请求进行预测的想法。根据 用户访问的情况提前动态生成用户下一个即将访问的页面内容。 第l 章绪论 1 9 9 9 年,j , b o r g e s 等人又提出了引入超链接概率原理,修改了传统意义上对序列的 界定,可以把用户的访问在网站结构图中记录下来,根据访问的条件概率判断用户频繁 访问路径u “。 目前,在一些国外专业研究w e b 数据挖掘的网站上已经出现了几种比较简单的用 户访闯日志分析工具。主要是统计每一个页面用户访问的频次,以及用户访问页面的时 间分布情况,其中比较成功的w e b e n d 软件已经可以统计出所有类型的错误访问。 w e b 日志挖掘方法主要有两种。c h e l a 等人首先将数据挖掘技术应用于w e b 服务器 日志文件,以期发现用户浏览模式。他们提出了最大前向引用序列m f r 的概念,并用 它将用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁访问路 径。h a r t 等人则根据w e b 日志建立数据立方体,然后对数据立方体进行数据挖掘和 0 i ,a p 。 1 2 2 国内的研究现状 国内互联网是从1 9 9 7 年开始迅速蓬勃的发展起来的。直到1 9 9 9 年,国内互联网用 户达到一定数量以后,国内学者才开始关注w e b 数据挖掘,相比之下起步较晚。 1 9 9 9 年,陈宁综述了国外应用数据挖掘技术解决i n t e m 吐应用问题的做法。 1 9 9 9 年,周斌等介绍了采用e o e m 模型,并用5 个用户访问模式做训练数据集, 尝试着进行了关联规则挖掘。 2 0 0 0 年,台湾学者j u d y 等人提出了t a m 模型,对访问某个网站的2 0 0 个学生, 进行问卷调查,以寻找评价网站提供信息质量的要素”。 w e b 数据挖掘在国内已经引起人们的关注,但是,大多数网站经营管理者对从访问 日志中发掘有用信息的重要性认识不充分,网络管理人员还停留在关注服务器性能阶 段,没有达到关注网站服务质量的层次。结合查到的文献来看,国内这方面的研究还刚 刚起步。 从研究的角度,现有的基于w e b 服务器日志数据的研究大致可以分为三个方向: 分析系统性能:改进系统设计;理解用户意图。由于它们针对的功能不同,采取的主要 技术也不同。 以分析系统性能和目标的研究,主要是从统计学的角度,对日志数据项进行多种简 单的统计,如频繁访问的网页,单位时间访问数,访问数据量随时间分布图等。目前已 有的绝大多数商用及免费的w 如日志分析工具都属于这种类型,这些工具的用户一般 是w e b 服务器的管理者。通过这些统计数据,管理员可以对w e b 服务器作相应的调节, 如缓冲设置,镜像站点设置等。更进一步,如果将w e b 日志视做关系表,利用数据挖 掘技术还可以发现许多有价值的信息,如利用关联规则可能发现用户所在地区与某被访 问页面间的关系。此外,许多数据挖掘的技术如时间序列分析,多层关联规则和分类技 4 大庆石油学院硕士研究生学位论文 术等可用于w e b 日志的分析,帮助管理员发现用户的访问规律。 以改进系统设计为目标的研究,由于w e b 服务器的设计与建设的主要复杂性是它 能随着设计者及用户的变化而不断自我调整,研究如何以日志数据为依据,对w e b 服 务器的组织和表现形式进行自动或半自动调整,从人机交互和软件a g e n t 领域提出自适 应的概念,它在技术手段上与数据挖掘技术有某些交叉和重叠。 以理解用户意图为目标的研究,一般是通过算法从w e b 服务器日志中找出频繁的 用户访问路径或访问模式。这些都是为了从大量的w e b 日志数据中找出一定的模式和 规则。 1 3 论文的主要内容 本文的总体组织结构如下: 第一章:概述课题的来源、目的和意义,国内外w e b 日志挖掘的研究现状,以及 本文的主要工作和文章的组织结构。 第二章:介绍了w e b 数据挖掘的基本概念和分类,给出w e b 数据挖掘的基本原理 和基本方法,阐述了w e b 日志挖掘的定义和过程,并详细介绍了w e b 日志挖掘的数据 来源。 第三章:详细介绍了典型的w e b 日志挖掘中数据预处理技术的流程,研究如何才 能提高数据预处理的速度与精度,提出了一种由会话识别直接到事务识别的算法,并通 过一个实例具体介绍算法的实现。 第四章:概述w e b 日志挖掘中经常使用的数据挖掘算法,并着重介绍了关联规则 算法中的a p r i o f i 算法,总结了几种对a p f i o f i 算法的改进,并采用数字化的方法来实现 a p r i o f i 算法。 第五章:具体实现了w e b 日志挖掘的实例。 结论:总结与展望。对本文所做的研究工作进行总结,并给出下一步要努力的目标 和方法,给出w e b 日志挖掘技术的发展及应用前景。 第2 章w e b 数据挖掘与w e b 日志挖掘 第2 章w e b 数据挖掘与w e b 日志挖掘 2 1 数据挖掘概述 随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急 剧增加,可是目前用于对这些数据进行分析处理的工具却很少。目前数据库系统所能做 到的只是对数据库中已有的数据进行存取和简单的操作,人们通过这些数据所获得的信 息量仅仅是整个数据库所包含的信息量的很少的一部分,隐藏在这些数据之后的更重要 的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成 的过程中具有重要的参考价值。这就引起了对强有力的数据分析工具的急切需求。快速 增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已远 远超出了人的能力。大量的数据被描述为“数据丰富,但信息贫乏”。结果,收集在大 型数据库中的数据变成了“数据坟墓”。在数据库技术飞速发展的同时,人工智能领域 的一个分支一机器学习的研究也取得很大进展,其中某些常用且较成熟的算法己被人们 运用于实际的应用系统及智能计算机的设计和实现中,并取得了很好的效果。 正是由于数据库技术和机器学习技术的发展,也是为了满足人们实际工作中的需 要,数据库中的知识发现( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 技术逐渐发展起来。 一般将k d d 中进行知识学习的阶段称为数据挖掘( d a t am i n i n g ) ,它是整个数据库中的 知识发展过程中一个非常重要的处理环节,所以两者往往混用。一般来说,在工程应用 领域多称数据挖掘,而在研究领域人们则多称其为数据库中的知识发现“”。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据 是存储在计算机的数据库中,然后发展到可对数据库进行查询和访问,进而发展到对数 据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的 数据进行查询和遍历,并且能够找到过去数据之间的潜在联系,从而促进信息的传递。 现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三 种基础技术已经发展成熟,它们是“”: 海量的数据搜集 强大的多处理器计算机 数据挖掘算法 f r i e d m a n 1 9 9 7 列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的 兴趣: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; 先进的计算机技术,例如更快和更大的计算能力和并行体系结构; 6 大庆石油学院硕士研究生学位论文 对巨大量数据的快速访问; 对这些数据应用精深的统计方法计算的能力。 到目前为止,数据挖掘还没有一个统一的定义。一种比较公认的定义是w j f r a w l e y , g p i a t e t s k y s h a p i r o 等人提出的:数据挖掘,就是从大型数据库的数据中提取人们感兴趣 的知识,这些知识是隐含的、事先未知的潜在有用的信息,提取的知识表示为概念 ( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。这种定义 把数据挖掘的对象定义为数据库。而更广义的说法是:数据挖掘意味着一些事实或观察 数据的集合中寻找模式的决策支持过程“。 2 2w e b 数据挖掘 随着i n t e m e t 技术的发展,在w w w ( 万维网,简称w 曲) 出现l o 年左右的时间里, 网络资源在飞速地增长,如何开发和利用这些丰富的资源就成为人们普遍关注的问题。 于是,数据挖掘技术和i n t e m e t 应用研究的结合构成了当今比较活跃的一个研究领域 一w 曲数据挖掘。 2 2 1w e b 数据挖掘的定义 w e b 数据挖掘是- f l 交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、 统计学、计算机语言学、计算机网络技术、信息学等多个领域“”。不同研究者从自身的 领域出发,对w e b 数据挖掘的含义有着不同的理解。 文献0 8 定义w e b 数据挖掘为针对包括w e b 页面内容、页面之间的结构、用户访问 信息、电予商务信息等在内的各种w e b 数据,应用数据挖掘方法发现有用的知识来帮 助人们从万维网( w w w ) 中提取知识,改进站点设计,更好地开展电子商务活动。 本文采用文献 1 9 】中给出的w e b 数据挖掘的定义:w e b 数据挖掘就是从与w w w 相 关的资源和用户浏览行为中抽取有用的、感兴趣的模式和隐含信息。 2 2 2w e b 数据挖掘的特点 w 曲数据有其自身的特点: ( 1 ) 对有效的数据仓库和数据挖掘而言,w e b 似乎太庞大了。w e b 的数据量目前以 兆兆字节( t e r a b y t e s ) 计算,而且仍然在迅速地增长。许多机构和社团都在把各自大量 的可访问信息置于网上。这使得几乎不可能去构造一个数据仓库来复制、存储或集成 w e b 上的所有数据。 ( 2 ) w e b 页面的复杂性高于任何传统的文本文档。w e b 页面缺乏统一的结构,它包 含了远比任何一组书籍或其它文本文档多得多的风格和内容。 第2 章w c b 数据挖掘与w e b 日志挖掘 ( 3 ) w e b 是一个动态性极强的信息源。w e b 不仅以极快的速度增长,而且其信息还 在不断地发生着更新。新闻、股票市场、公司广告和w e b 服务中心都在不断地更新着 各自的页面,w e b 日志更是每秒钟都会记录下大量的访问信息。 ( 4 ) w e b 面对的是一个广泛的用户群体。日前因特网上连接有约5 千万台工作站, 其用户群仍在不断地扩展当中。各个用户可以有不同的背景、兴趣和使用目的。 w e b 上的大量信息相对于多数用户是无用的。用户只关心w e b 上的很小一部分信 息,其余信息对用户来说是不感兴趣的,反而会淹没其所希望得到的搜索结果。 2 2 3w e b 数据挖掘的对象 w e b 数据挖掘对象包括日志数据、电子商务数据、页面数据,以及其他一些数据。 ( 1 ) 服务器日志数据 , 个人浏览w e b 服务器时,服务器方将会产生几种类型的文件:s e r v e rl o g s ,e r r o rl o g s 等,以记录用户的访问基本情况。其中s e r v e r l o g s 记录了用户的各种访问信息:e r r o r l o g s 为存取请求失败的数据,如:丢失链接,授权失败或超时。可以通过对这几种日志的分 析和挖掘开展w e b 日志挖掘。 ( 2 ) 市场数据 这种数据就是传统的关系数据库中存储的结构数据,用于存储日常商务活动中的电 子商务信息。 ( 3 ) w e b 页面数据 满足h t m l 标准的w e b 页面,即w e b 页面中的真实内容( 如w e b 页面中设计用于 传达给用户的数据,这些数据通常由文本和图片组成) 以及描述页面结构的数据( 包括 各种h t m l 或x m l 标记) 。现有的w e b 数据挖掘方法很多都是针对w e b 页面开展的。 ( 4 ) 其他信息 这些信息主要包括用户注册、调查信息等一系列信息。为了更好地实现挖掘任务, 适当的附加信息( 如描述用户的基本情况和特征的信息) 是有必要的。 2 2 4w e b 数据挖掘的分类 w e b 数据挖掘采用其特有的方法,可以部分的解决上述问题带来的困难。w e b 数据 挖掘作为一个新领域,还在不断的发展之中,不断的发现解决问题的新方法。如前面所 述,为了明确挖掘对象,进行有效的资源和知识发现,把w e b 数据挖掘划分为三个类 别。 下面分别对每个类别的任务和相关工作做简要介绍: ( 1 ) w e b 内容挖掘 w e b 内容挖掘是从w e b 对象( 包括文本内容、半结构化的文档如h t m l 或x m l 、 大庆石油学院硕士研究生学位论文 结构化的文档如数字图书馆、动态文档和多媒体文档) 或其描述中抽取知识的过程,其 方法包括内容摘要、分类、聚类、关联等。w e b 文档文本内容的挖掘,基于概念索引的 资源发现,以及基于代理的技术都属于这一类。w e b 内容挖掘有两种策略“1 :直接挖掘 文档的内容,或在其它工具搜索的基础上进行改进。采用第一种策略的有针对w e b 的 查询语言w e b o q l ,利用启发式规则来寻找个人主页信息的a h o y ,等等。采用第二种 策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信 息。属于该类的有w e b s q l ,及对搜索引擎的返回结果进行聚类的技术等。 ( 2 ) w e b 结构挖掘 所谓w e b 结构挖掘,主要指的是通过对w 曲文档的内部结构和文档之间的组织结 构获取有用的模式,即分析w 曲页面之间的超链接关系,从页面的组织结构和链接关 系中推导知识。由于文档之间的互连,w w w 能够提供除文档内容之外的有用信息。利 用这些信息,可以对页面进行排序,发现重要的页面。这方面工作的代表有p a g e r a n k 。 此外,在多层次w e b 数据仓库( n i d b ) 中也利用了页面的链接结构。 ( 3 ) w e b 日志挖掘 w e b 日志挖掘的主要目标则是从w e b 的访问日志和其他信息中抽取感兴趣的模式。 w w w 中的每个服务器都保留了访问日志( w e b 服务器日志数据,记录了关于用户访问 和交互的信息) 。w e b 日志挖掘工具发现和分析用户的行为,从而帮助网站设计人员改 进站点的结构以提高访问率,或为用户提供个性化的服务。这方面的研究主要有两个方 向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用 记录来了解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪 则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定 制的站点。这方面的主要研究项目和产品有w u m 和w e b t r e n d s 等。 表2 1 对w e b 内容挖掘、w e b 结构挖掘以及w e b 日志挖掘中的数据、数据特征、 表现形式、常用的挖掘方法以及应用领域等方面进行比较。 2 3w e b 日志挖掘 2 3 1w e b 日志挖掘的定义 w e b 日志挖掘是通过挖掘w e b 日志记录以发现用户访问w e b 页面的模式、挖掘有 用模式和预测用户浏览行为的技术1 。r o b e r tc o o l y 将w e b 日志挖掘定义为数据挖掘技 术应用在大型w e b 资源中以分析w e b 站点的使用。”。w e b 日志挖掘的结果通常是用户 群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等。 9 第2 章w e b 数据挖掘与w e b 日志挖掘 表2 - 1w e b 内容挖掘、w e b 结构挖掘和w e b 日志挖掘比较【3 】 w e b 内容挖掘 w e b 结构挖掘 w e b 日志挖掘 信息检索数据库检索 一x 牟x 恼一w e b 服务器日志 数据一超文本文档一网站的链接结构 一超文本文档代理日志、缓冲日志 一非结构化一半结构化一用户的访问数据( 文 数据特征一网站的链接结构 一半结构化结构化本数据) 一无序,有序的 单词集合 一边带有标记的 一关系表 表现形式图( o e m ) 一网站拓扑结构图 一术语和短语 图 一关系曲线 一关系曲线 机器学习 一统计分析 一统计一专利算法 方法一专利算法一关联规则 一关联规则及变一关联规则 一聚类 形 分类一寻找频繁子结 一分类一个性化站点 应用领域寻找抽取规则 构 一聚类站点结构管理 一寻找文本模式站点结构发现 2 3 2w e b 日志挖掘的过程 虽然w e b 自身有着异质、分布、动态、无统一结构的特点,从局部来看在每个提 供信息资源的w e b 服务器上都有一个结构比较完善的l o g 日志文件,对其进行挖掘是切 实可行的且具有重要意义。 w e b 日志数据挖掘可分为三个主要部分:数据预处理、w e b 日志挖掘的使用模式、 模式分析,如图2 - 1 所示。 图2 1w e b 日志挖掘的流程 大庆石油学院硕士研究生学位论文 ( 1 ) 数据预处理。根据挖掘的目的,对原始w e b 日志文件中的数据进行提取、分解、 合并,最后转化为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库 中,等待进一步处理。 ( 2 ) 模式识别。用户访问模式的发现采用了来自人工智能、数据挖掘、信息论等领 域的成熟技术从w 曲日志中挖掘知识,但在新的环境中,有许多新的问题需要考虑和 研究。表2 2 列出了一些常用的挖掘技术与w e b 应用之问对应关系的描述。 表2 2w e b 应用与常用的挖掘技术之间的对应关系 w e b 应用可能用到的挖掘方法 预测下一个事件序列挖掘 发现关联事件或应用对象。序列挖掘、关联规则 发现共同属性和兴趣的用户群组聚类 发现共同行为模式的用户群组聚类、会话聚类 根据预先定义的一组类别对用户进行描述分类 ( 3 ) 模式分析。进行用户访问模式的分析,从而将有价值的模式提取出来的过程。 模式分析如果没有合适的技术和工具来辅助分析人员的理解,采用各种技术挖掘出来的 模式将不能得到很好的利用。所以开发各种分析技术和工具也是非常必要的,目前这还 是个较新的领域。目前常用的模式分析技术有下面几种。 1 ) 知识查询:对挖掘出的大量模式,需要一种类似关系数据库s q l 的知识查询机 制使用户可以很方便的查询到想要的模式,从而使解释和分析有针对性。 2 ) 可视化技术( v i s u a l i z a t i o n ) :可视化技术在其它领域应用中已经取得巨大成功, 因此人们很自然的选择它来理解w e b 用户的行为。 3 ) 联机分析处理( o l a p ) :把w e b 使用数据装入数据仓库,以便执行o l a p 操作, 以获得用于预测用途的模式和趋势。 其中,数据预处理这个环节是整个过程的基础和实施有效挖掘算法的前提,在w e b 日志挖掘中起着非常重要的作用。原始曰志文件是简单的平面文本文件,包含了一些不 完整的、冗余的、错误的数据,需要进行处理,否则将会直接影响挖掘的效果;此外, 一些o l a p 分析、挖掘算法的实施也需要规范化的数据源进行支持,所以在这个阶段还 需要对数据存储的格式进行调整,以适合所用的挖掘方法。 2 3 3w e b 日志挖掘的应用领域 互联网迅速发展,分析互联网背后的用户行为( 1 1 1 eh i d d e nw e b ) ,是获取用户行为 偏好的必要利器。国外学者已经尝试着把w e b 用户访问日志数据挖掘研究应用在以下 第2 章w e b 数据挖掘与w e b 日志挖掘 几方面o “: ( 1 ) 为用户提供个性化的服务 根据用户访问历史,动态地向用户推荐商品,正如a m a z o r l c o r n 所做的,在电子商 务网站上进行个人营销,具有很大的商业价值。w e b 日志数据挖掘完全可以完现这一功 能。 ( 2 ) 改善系统,提高性能 我们知道,w w w 的通信量的增加,影响网站用户满意度的主要因素除了w e b 内 容,其服务效率也很重要。通过w e b 日志数据挖掘,可以提供网站服务效率全方位的 信息。从而有助于找到平衡服务器负荷,优化传输,减少拥塞的方法,缩短用户等待时 间,提高系统服务质量。 ( 3 ) 提高网站结构设计 w e b 结构的复杂度在飞速的发展着。因此,w e b 站点和w e b 服务器的设计和维护 难度也在增加着,通过w e b 日志数据挖掘提供的用户使用网站信息,可以帮助网站设 计者,确定如何修改网站结构。 ( 4 ) 电子商务网站确定用户群类 分析市场销售数据( 如p o s 数据库) 以识别顾客的购买行为模式,帮助确定电子 商务商品在w e b 页面上的布局排放,向用户有效的推荐商品,以达到扩大商品销售量 的目的。同时,也有助于找到顾客访问网站的生命周期,制定相应的营销策略。 ( 5 ) 网络安全 分析网上银行、网上商品交易用户目志,可以防范黑客攻击、恶意诈骗。 ( 6 ) 网站评估 互联网时代,谁占据了用户注意力,谁就占据了利润之源。但是,如何有效地衡量 注意力大小也是许多业界人士所关注的,w e b 用户访问日志数据挖掘可以获取用户对网 站认识使用情况的第一手资料,为网站评估提供依据。最近,c h i n a l a b s 研究的网站价值 评估体系中就将用户访问情况作为最重要的价值来源之一。 2 3 4w e b 日志挖掘的术语 w 3 c ( w o r l d w i d e w e b c o n s o r t i u m ,全球万维网联盟) 国际组织已经为w e b 日志定 义了一些基本概念。在这些概念的基础上,一些扩展的概念构成开展w e b 日志挖掘的 基础。 ( 1 ) 资源( r e s o u r c e ) 根据w 3 c 的u r i ( u n i f o r mr e s o u r c ei d e t i f i e r ) 标准描述:任何可以识别的资料, 比如:h t m l 文件,一幅图片或w e b 服务。 ( 2 ) w e b 资源( w e br e s o u r c e ) 1 2 大庆石油学院硕士研究生学位论文 通过任何版本的h r r p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论