




已阅读5页,还剩60页未读, 继续免费阅读
(通信与信息系统专业论文)web日志挖掘技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文w e b 日志挖掘技术的研究与应用 w e b 日志挖掘技术的研究与应用 专业:通信与信息系统 硕士生:秦文胜 指导教师:李宁副教授 摘要 i n t e r n e t 的快速发展,w w w 的广泛应用以及所有用户行为的网络化, 使得收集用户的w e b 访问日志数据、深入研究用户行为规律成为数据挖掘 的重要研究方向,并由此产生w e b 日志挖掘。w e b 日志挖掘是指使用数据挖 掘技术,对用户与w e b 服务器在交互时产生的数据进行分析,发现隐含的 规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善w e b 站 点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同 时加强网站的安全性。 本文讨论了w e b 日志数据预处理的意义、一般过程及日志数据的预处 理方法。在研究了国内外现有w e b 日志挖掘算法的基础上,重点对数据结 构是一个用户页面( u s e ri d - u r l ) 关联矩阵的聚类算法进行了研究和分 析。通过编写和实施w e b l o g m i n ev 1 0 程序将统计分析、聚类算法、频繁 路径发现算法结合起来构成了一个混合处理系统。并以广东轻工职业技术 学院网络中心w e b 服务器上的w e b 日志为数据源,在w e b l o g m i n ev 1 0 上 进行了实例挖掘,实现了用户聚类、页面聚类和频繁访问路径等模式发现。 进一步考虑把这个混合处理系统应用到w e b 站点,可以建设一个自适应智 能化网站,从而为网站管理和决策者提供有力的支持。 关键词:w e b 日志挖掘,数据预处理,模式发现 硕士学位论文 w e b 日志挖掘技术的研究与应用 r e s e a r c ha n d a p p l i c a t i o no fw e bl o gm i n i n gt e c h n o l o g y m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m n a m e :q i nw e n s h e n g s u p e r v i s o r :l in i n ga s s o c i a t ep r o f e s s o r a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h ee x p a n s i o no ft h ew o r l d w i d ew e b ( w w wf o rs h o r t ) a n dt h ei n c r e a s i n gu s a g eo fi n t e m e ti n p e o p l e sd a i l yl i v e s ,i ti sn e c e s s a r yt oc o l l e c tt h ed a t aa b o u tt h eb r o w s i n g p a t t e r no fu s e r sa n df u r t h e ra n a l y z et h e i r a c t i o n t h ep r o b l e mw ea r e f a c i n gn o wi sh o wt ou s et h e s ec o m p l e xd a t at oo b t a i nv a l u a b l ea n d m o r eu s e f u li n f o r m a t i o n t h e r e f o r e ,w e bl o gm i n i n gt e c h n o l o g yi sb o m t os o l v et h i sp r o b l e m w e bl o gm i n i n ga n a l y z e sa n dr e s e a r c h e ss y s t e m b a s e do nd a t am i n i n gw h i c hu n c o v e r st h eh i d d e np a t t e r n sa m o n gt h e i n t e r a c t i v ed a t ab e t w e e naw e bs e r v e ra n di t su s e r s t h e r e f o r e ,t h ew e b a d m i n i s t r a t o rc a np e r f e c tt h es t r u c t u r eo ft h ew e b s i t ea n dh y p e - l i n k a g e a m o n gp a g e st oi m p r o v es e r v i c eo ft h ew e ba n dp e r f o r m a n c eo ft h e w e b s i t e f u r t h e rm o r e ,w e bl o gm i n i n gc a ne n h a n c es e c u r i t yo ft h e w e b s i t e t h es i g n i f i c a n c eo fd a t a p r e - t r e a t m e n t ,c o m l t l o np r o c e s s a n d p r e t r e a t m e n tm e t h o d sa b o u tw e bl o gw a sd i s c u s s e di nt h i ss t u d y b a s e d i i i 硕士学位论文 w e b 日志挖掘技术的研究与应用 o nt h er e s e a r c h e so nm i n i n ga l g o r i t h m so fw e bl o gm i n i n ga th o m ea n d a b r o a d ,t h ep r e s e n tp a p e rm a i n l yf o c u s e do nt h es t u d ya n da n a l y s i so fa c l u s t e r i n ga l g o r i t h mw h o s ed a t as t r u c t u r ew a sa ni n c i d e n c em a t r i xo f u s e ri d u r l am i x e dp r o c e s s i n gs y s t e mw a sc o m p o s e do fs t a t i s t i c a l a n a l y s i s ,c l u s t e r i n ga l g o r i t h ma n df r e q u e n tp a t h sa l g o r i t h ma c c o r d i n gt o t h es o f t w a r ep r o g r a m m i n ga n du s i n go fw e b l o g m i n ev1 0 a n dac a s e s t u d yo fm i n i n gw a sp r o c e s s e do nw e b l o g m i n ev 1 0u s i n gt h ew e bl o g o faw e bs e r v e ri nt h en e t w o r kc e n t e ro fg u a n g d o n gi n d u s t r yt e c h n i c a l c o l l e g ea st h ed a t as o u r c e t h ep a t t e r nd i s c o v e r i e so fu s e rc l u s t e r i n g , p a g ec l u s t e r i n ga n df r e q u e n ta c c e s sp a t h sw e r er e a l i z e d f u r t h e r m o r e ,t h i s m i x e dp r o c e s s i n gs y s t e mc a nb ea p p l i e dt oe s t a b l i s has e l f - a d a p t i v e i n t e l l i g e n tw e b s i t e t h i sa p p l i c a t i o nw i l lp r o v i d eap o w e r f u ls u p p o r tf o r t h ed e c i s i o n - m a k e ra n dt h ew e b s i t em a n a g e m e n t k e y w o r d s :w e bl o gm i n i n g ,d a t ap r e p r o c e s s i n g ,m o d ef i n d i n g i v 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 务r 日期:砂矿6 年1 月7 o 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 导师签名:劣予 日期:伽踔,f 月口日 主 、廿1,j j 日 奈 眇 名 签 f 辎 年 作 谚 文 少 论 : 位 期 学 日 硕士学位论文w e b 口志挖掘技术的研究与应用 第1 章绪论 1 1 课题背景及意义 1 1 1w w w 的广泛应用使w e b 挖掘应运而生 随着互联网的飞速发展,网络应用已经渗透到我们生活工作的方方面面。互 联网作为第四媒体,在人们生活、生产、商业及教育教学活动中扮演着越来越重 要的角色。由于方便和快捷,人们通过i n t e m e t 来获取信息已经变得越来越普遍; 我们利用网络搜索有用的信息,相互交流沟通;对于企业和商业组织,在i n t e m e t 上开展业务,将传统的市场营销策略改变为网络电子商务营销,对开拓市场,扩 大企业和组织影响力,有着非常重大的意义。据国际互联网组织w 3 c 的统计【l 】, 目前全世界有超过l 1 0 的人接触过互联网。而从中国互联网络信息中, t 二, c n n i c 的统计数据来看【2 】,截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿,比去年同期 增长了9 1 0 0 万人,网民规模跃居世界第一位。口v 4 地址数量为1 5 8 亿个,仅次于 美国,跃升至世界第二位。我国的域名注册总量为1 4 8 5 万个,中文网站数量为 1 9 1 9 万个,家庭上网计算机数量为8 4 7 0 万台。在2 0 0 8 年6 月份当月,网民每周上 网时长为1 9 个小时,平均每天2 7 d , 时。一份来自英国调查机构n e t c r a f t 的报告显 示:截止2 0 0 8 年9 月底,全球互联网网站数量已经超过了1 8 个亿,g o o g l e 公司也 宣称到现在为止,他们已经索引了一兆( 百万的平方) 的网页数,数量比银河系的 星体还多出一倍。某些热点的w e b 网站的日志数据正以每天数十兆的速度增长。 在每个互联网用户面前汇集成一个浩瀚的数据海洋。 w e b 上的数据量无比丰富,而巨量的数据本身不是信息,在其背后蕴含着 巨大的具有潜在价值的知识,这些知识往往才是我们最需要的。由于w e b 信息量 巨大,用户要找到自己所需的信息往往要花费大量的时间和精力;同时w e b 又是 异构和动态分布的,其页面的复杂程度远远超过了普通文本文档,在一定程度上 给人们准确查找和定位所需信息带来极大的困难。因此,在i n t e m e t 环境下研究用 硕士学位论文 w e b 日志挖掘技术的研究与应用 户访问w 曲的规律成为各企业和商业组织共同关注的一大热点。传统数据库的检 索查询机制和统计学分析方法已远远不能满足现实的需要。如何有效地分析用户 的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,已经成 为一项迫切而重要的课题。解决这些问题的一个有效途径就是将传统的数据挖掘 技术与w e b 数据资源结合起来,并综合运用统计学、计算机网络、数据库与数据 仓库、可视化等众多领域的技术,进行w 曲挖掘。 1 1 2 w e b 日志挖掘是w e b 挖掘的重要研究方向 w e b 挖掘是指从海量的w e b 信息源集合中发现有效的,新颖的,潜在可用的 及最终可理解的知识( 如模式,规律,约束等) 的非平凡过程。w e b 挖掘主要分 为w 曲结构挖掘,w 曲内容挖掘,w e b 使用挖掘【3 】。其中w e b 使用挖掘是指通过挖 掘存储在w e b 上的访问日志,从而发现有用的信息的过程,所以w e b 使用挖掘又 叫w 曲日志挖掘。 虽然w e b 自身有着异质、分布、动态、无统一结构的特点,但从局部来看 在每个提供信息资源的w 曲服务器上都有一个结构比较完善的日志文件,对其进 行挖掘是切实可行的且具有重要意义。在互联网的w e b 使用过程中,每当用户访 问w e b 站点时,所访问的页面、时间、用户d 等信息,在日志中都有相应的记录。 用户浏览信息被w 曲服务器自动收集,并保存在访问日志、引用日志和代理日志 中,通过w e b 日志挖掘有效地对这些w e b 日志进行定量分析,揭示其中的关联关 系、时序关系、页面类属关系、用户类属关系和频繁访问路径、频繁访问页面等, 这样可以从w 曲服务器的日志中发现用户的访问模式,分析站点的使用情况,从 而进一步研究w e b 日志记录中的规律,以期改进w e b 站点的性能和组织结构,提 高站点的服务质量。另外通过w e b 日志挖掘我们可以发现用户的兴趣并为他们创 造新的个人网页;把用户归类,对不同类型的用户运用不同的链接:为用户推荐 他们可能感兴趣的网页等个性化服务,有助于开展有针对性的电子商务活动,建 立智能化w e b 站点,促使商业门户网站、网络中心等信息服务机构的信息服务水 平发生质的飞跃。随着网络的发展和人们对信息获取的需求不断升级,w e b 挖 掘已成为信息技术的一个研究热点,而其中的w e b 日志挖掘更是w e b 挖掘的重 2 硕士学位论文w 曲日志挖掘技术的研究与应用 要研究方向。 1 2 课题研究现状 w e b 挖掘可以广义地定义为从w w w 中发现和分析有用的信息。 w e b 挖掘源于数据挖掘与i n t e r n e t 技术的结合,近年来数据挖掘研究中对 空问数据库和w e b 数据库挖掘的方向增长迅速,尤其是随着网络的不断发展, w e b 挖掘领域已经成为数据挖掘的重点研究方向,尤其是与在线业务的智能处 理及预测、决策过程的智能分析、科学研究中的知识管理等方面结合将会产生 更加广阔的影响。w e b 挖掘可以在多个方面发挥作用,如确定权威性页面、w e b 文档分类、w e b 日志挖掘、客户聚类、w e b 页面聚类等。w e b 挖掘技术已广泛 应用于金融业、零售业、远程通信业、政府管理、制造业、医疗服务和体育等 行业中,主要涉及到电子商务、网站设计和搜索引擎服务等多方面。 目前,w e b 日志挖掘技术主要分为两大类: 7 1 ( 1 ) c h e n 等人【4 】提出的基于w e b 事务的w e b 日志挖掘技术。他将数据挖掘 技术应用于w e b 服务器日志文件,提出最大向前引用算法m f 的概念。他将用户 会话分割成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序 列,从而取得用户访问模式。 ( 2 ) h a n 等人【5 】提出基于数据立方体的w e b 日志挖掘技术。他根据w e b 服 务器日志文件,建立数据立方体( d a t ac u b e ) ,然后对数据立方体进行数据挖掘 和联机分析处理( o l a p ) 。 基于w e b 事务和基于数据立方体的两种方法,各有其特点。基于w e b 事务 的日志挖掘技术,侧重于用户序列模式的挖掘和分析,即找出每一个用户的频 繁访问序列,从而进行以事务和序列为出发点的知识发现,这正是与w e b 应用 的特性相符合。而基于数据立方体的日志挖掘,侧重于将w e b 日志转变为结构 化的数据立方体,能从多角度、全面地进行挖掘和分析,并能引进各种成熟的 数据挖掘技术,有利于w e b 挖掘与数据挖掘技术的迅速融合与发展。 除了以上介绍的两种主要的w e b 日志挖掘技术以外,许多研究人员根据实 际的需要,开发出一些简单、新颖、高效的w e b 日志挖掘方法。例如,建立 硕士学位论文w e b 日志挖掘技术的研究与应用 u r l - u s e r i d 关联矩阵,通过相似性分析和聚类算法,获得相似客户群体和相关 w e b 页面,并进一步发现频繁访问路型6 1 。又比如,针对电子商务中的时间特性, 研究基于w e b 的时间序列模式挖掘【_ 7 】等。 从研究目标的角度看,由于各目标针对的功能不同,采取的主要技术也不 同。已有的基于w e b 服务器日志数据的研究大致可以分为以下三类: ( 1 ) 以分析系统性能为目标的研究,主要是从统计学的角度,对日志数据项 进行多种简单的统计,如频繁访问页、单位时间访问数、访问数据量随时间分 布图等。目前已有的绝大多数商用及免费的w e b 日志分析工具都属此类。这 些工具的使用者一般是w e b 服务器管理者。 ( 2 ) 以改进系统设计为目标的研究,w e b 服务器的设计与建设的主要复杂性 是它必须随着设计者及用户的变化而不断自我调整。文献【8 】中研究了如何以日 志数据为依据,对w e b 服务器的组织和表现形式进行自动或半自动调整,提出 了“自适应网站的概念。通过w 曲日志挖掘技术,可以获得用户访问模式, 在下一次用户访问主页时,使用所挖掘到的信息,动态地提供个性化的w e b 页 面,这就是”用户自适应的w e b 站点”的含义。 ( 3 ) 以理解用户意图为目标的研究,一般是通过算法从w e b 服务器日志中找 出频繁的用户访问路径或访问模式。这些都是为了从大量的w e b 日志数据中找 出一定的模式和规则。 w e b 数据挖掘在国内已经引起人们的关注,但是,大多数网站经营管理者 对从访问日志中发掘有用信息的重要性认识不充分,网络管理人员还停留在关 注服务器性能阶段,没有达到关注网站服务质量的层次。结合查询到的文献来 看,国内这方面的研究还刚刚起步。 1 3 论文的主要工作及内容安排 1 3 1 论文的主要工作 本文的主要工作是,讨论了w e b 日志数据预处理的意义、一般过程及日志 数据的预处理方法;在研究了国内外现有w e b 日志挖掘算法的基础上,重点讨 4 硕士学位论文w e b 日志挖掘技术的研究与应用 论和分析了以l j s e r l d 为行、以u r l 为列,元素值为用户的访问次数的u s e r i d - u r l 关联矩阵算法,利用此算法将统计分析、聚类、频繁路径发现结合起来构成了 一个混合处理模型;利用开发环境为b o r l a n d 公司推出的面向对象的可视化开 发工具w i n x p + d e l p h i7 0 ,开发了实现这一混合处理模型的w e b l o g m i n e v l 0 应用程序;并以广东轻工职业技术学院网络中心w e b 服务器上的w e b 日志为数 据源,在w e b l o g m i n e v l 0 上进行了实例挖掘;进一步提出把这个混合处理系统 应用到w e b 站点,建设一个自适应智能化网站的构想。 1 3 2 论文的内容安排 论文共分为七章,具体内容如下: 第一章:概述本课题的背景和意义,介绍国内外w e b 日志挖掘的研究现状, 以及本文的主要工作和文章的组织结构。 第二章:阐述了w e b 数据挖掘的定义和类型,介绍w e b 数据挖掘的过程及 应用领域。 第三章:阐述了w e b 日志挖掘中的数据预处理流程和技术;讨论了一般的 w e b 日志数据预处理各个阶段中的主要任务。 第四章:讨论了w e b 日志挖掘中常见的几种模式发现方法;并着重研究其 中的聚类挖掘和浏览路径分析。 第五章:编程实现了用户聚类、页面聚类及频繁浏览路径挖掘混合模型。 以广东轻工职业技术学院校园网的服务器日志为数据源,进行了预处理和挖掘, 得出了一些具有参考价值的模式和规律。 第六章:提出智能化w e b 站点的构想。 第七章:总结与后续工作展望。对本文所做的研究工作进行总结,并给出 下一步要努力的目标和方向。 5 硕士学位论文w e b 日志挖掘技术的研究与应用 第2 章w e b 数据挖掘技术 2 1w e b 数据挖掘 随着i n t e r n e t 的飞速发展,人们越来越多地从网上获取信息、进行电子商 务等活动。人们从w e b 上获取信息的模式、获取信息的类型也就反映了其兴趣 偏好所在。因此,研究用户访问w e b 的规律,成了i n t e r n e t 环境下各企业与组 织共同关注的一大热点。w e b 数据挖掘已经成为数据挖掘技术的一个重要研究 方向。 2 1 1w e b 数据挖掘的定义及特点 简单地说,w e b 数据挖掘是指从与w w w 相关的资源和行为中抽取感兴趣的、 有用的模式和隐含信息的过程【9 】。针对包括w e b 页面内容、页面之间的结构、 用户访问信息、电子商务信息等在内的各种w e b 数据,运用数据挖掘方法以发 现有用的知识来帮助人们从w w w 中提取知识,改进站点设计,更好地开展电子 商务。虽然w e b 挖掘是从数据挖掘发展而来的,但是它与传统的数据挖掘相比 又有其独特之处。这是因为:万维网包含了丰富的资源和超链接信息,给人们 的生活带来了极大便利的同时,也给在w e b 上进行有效的资源和知识发现带来 了难度【1 0 】。 ( 1 ) 首先对于有效的数据库和数据挖掘而言,w e b 似乎太庞大了。 ( 2 ) w e b 页面缺乏统一的结构,它的复杂性高于任何传统的文本文档。 ( 3 ) w e b 是一个动态性极强的信息源,不但信息内容在不断地发生着更新, 链接信息和访问记录也在频繁地更新着。 ( 4 ) w e b 面对的是一个广泛的形形色色的用户群体。 由于上述种种困难的存在,有些数据挖掘技术并不适合w e b 挖掘,如何有 6 硕士学位论文w e b 日志挖掘技术的研究与应用 效地发现和利用i n t e r n e t 上资源成为了一项重要并且艰巨的研究工作,w e b 数 据挖掘也就成了一个具有挑战性的课题,吸引了国内外越来越多的学者投入进 来。作为第二代信息处理技术,w e b 挖掘成为了计算机工作者研究的新热点。 2 1 2w e b 数据挖掘的类型 w e b 信息的多样性决定了w e b 挖掘任务的多样性。一般将w e b 挖掘分为三 类:w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘。它们三者是辩证统一的,也 是相互融合的。见表2 - 1 。 表2 一lw e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘比较【1 1 】 w e b 内容挖掘 w e b 结构挖掘w e b 使用挖掘 信息检索数据库检索 一文本文档超文本文档一网站的链接- - w e b 服务器日 一超文本文档结构志 数据 一代理日志、缓冲 日志 数据非结构化一半结构化一网站的链接一用户的访问数 特征一半结构化一结构化结构据( 文本数据) 一无序有序的单词一边带有标记网站拓扑结一关系表 表现集合的图( o e m )构图一图 形式一术语和短语关系曲线 一关系曲线 一机器学习一专利算法专利算法一统计分析 方法一统计 一关联规则 一关联规则 一关联规则及变形 聚类 一分类一寻找频繁子一分类一个性化站点 应用一寻找抽取规则结构聚类一站点结构管理 领域一寻找文本模式一站点结构发 现 ( 1 ) w e b 内容挖掘。即从网络的内容数据文档中发现有用信息的过程。网 络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接 从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏 的, 如由用户的提问而动态生成的结果,或是存在d b m s 中的数据,或是那些私人数 据,它们无法被索引,从而无法提供对它们有效的检索方式;从资源形式看, 7 硕士学位论文w e b 曰志挖掘技术的研究与应用 网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因 此网络内容挖掘是一种多媒体数据挖掘形式。 ( 2 ) w e b 结构挖掘。即挖掘w e b 潜在的链接结构模式。这种思想源于引文分 析,即通过分析一个网页链接和被链接数量以及对象来建立w e b 自身的链接结 构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联 度的信息,有助于用户找到相关主题的权威站点。 ( 3 ) w e b 使用挖掘。即w e b 日志挖掘,是指通过挖掘存储在w e b 上的访问日 志,从而发现有用的信息的过程,w e b 日志挖掘的结果通常是用户群体的共同 行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等。 w e b 日志挖掘是本文研究的主要内容。 2 2w e b 日志挖掘 2 2 1 w e b 日志挖掘数据源 在w e b 访问信息挖掘中,w e b 数据可以是在服务器端、用户端、代理服务 器端或者是应用所需的数据库。这些数据并不仅仅意味着存放于不同的位置, 其中还包含了w e b 世界中不同的浏览模式,例如单用户单站点模式,单用户多 站点模式,多用户单站点模式,多用户多站点模式。通常用户端的日志包含了 单用户多站点的浏览模式,服务器上的日志则意味着多用户单站点模式,代理 服务器上的日志是多用户多站点模式的典型代表n 羽。 ( 1 ) 服务器端数据 w e b 服务器上的日志是w e b 访问信息挖掘中最重要的数据源。服务器上的 日志不仅详细记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个 访问者的行为。这些日志有着不同的格式。例如通用日志格式c lf ( c o m m o nl o g f o r m a t ) 和扩展通用日志格式e c lf ( e x t e n d e dc o m m o nl o gf o r m a t ) ,其它 还有n c 2 s a ,c e r n ,a p a c h e 日志格式【1 3 】。每当站点被访问一次,w e bl o g 就在 日志数据库中追加相应的记录。比较热门的站点每天可以记录数以万计字节的 w e bl o g 记录。w e bl o g 数据库提供了有关w e b 动态的丰富信息。 8 硕士学位论文w e b 日志挖掘技术的研究与应用 ( 2 ) 用户端数据 用户端的数据收集可以使用诸如j a v a s c r i p t 或者j a v aa p p l e t 这样的远 程代理来实现,也可以修改用户的浏览器软件,使之具有数据收集的能力。用 户端的数据收集特别需要用户的合作,因为直接从用户端取得数据需要考虑用 户的隐私和占用用户的机器和网络资源。从用户端收集数据最大的优点是可以 直接取得用户的各种真实信息,这些信息的完整性和真实性都要优于服务器上 的。例如目前服务器上的任何方法都难以取得用户的点击信息,特别是点击后 退和刷新按钮。 ( 3 )代理服务器端数据 通常在网络中基于安全和效率的考虑,需要使用代理服务器技术。代理服 务器在用户端和服务器端扮演着中间传递的角色,而且代理服务器可以是多级 级联的。代理服务器通常为多个用户服务,这样从代理服务器上就可以得到多 个匿名用户的浏览信息。代理服务器上保存着一个最近访问过的页面集合,如 果这些页面是静态的,那么用户通过代理服务器访问该页面时,就不需要从w e b 服务器上取得数据,可以将该静态页面直接发给用户。但是对于电子商务中经 常使用的动态页面就要到w e b 服务器上取得所需数据。 2 2 2w e b 日志挖掘的数据类型 在w e b 使用挖掘过程中,有多种数据可作为w e b 挖掘的处理对象,包括: s e r v e rl o g ,p r o x ys e r v e rl o g ,c l i e n t 端的c o o k i el o g 、用户简介、注册 信息、用户对话或交易信息等,主要是w e b 服务器上的l o g 日志。这些数据大 致可分为以下几类【1 4 1 : ( 1 ) 内容数据。用户在网页上看到和使用的真实数据,主要是文本和图像。 ( 2 ) 结构数据。描述网页内容如何组织的数据。页内的结构可用h t m l 、 x m l 表示为树型结构,h t m l 标志成为树的根:页间结构可用连接不同网页的超 链接来表示。 ( 3 ) 使用数据。描述网页使用模式的数据,如i p 地址、ur l 、网页引用、 访问时间和日期等,表示了用户的行为模式。典型的使用数据来自服务器日志。 9 硕士学位论文w e b 日志挖掘技术的研究与应用 ( 4 ) 用户资料( p r o f i l e ) 。有关w e b 站点用户的统计信息,包括用户注册 信息和个人资料,如用户名、学历、职务、年龄、收入、个人爱好等。 2 2 3w e b 日志挖掘过程 虽然w e b 自身有着异质、分布、动态、无统一结构的特点,从局部来看在 每个提供信息资源的w e b 服务器上都有一个结构比较完善的l o g 日志文件,对 其进行挖掘是切实可行的且具有重要意义。w e b 日志挖掘过程一般分为源数据 收集、数据预处理、模式发现和模式分析四个阶斟15 1 。如图2 一l 所示。 源数据 竺丁赢i 陛啊斟磊鬲 l 的数据 ll模式ll 模式、规则 图2 - 1w e b 日志挖掘流程 源数据收集:在数据库的知识发现中,一个关键的步骤是为数据挖掘进行 数据收集和创建合适的目标数据集。在w e b 使用模式数据挖掘中,数据可来源 于服务器、客户端、代理服务器或从某个机构的数据库( 包括商用数据或综合 w e b 数据) 。各种不同的数据不仅来源和类型不同,其使用方式也不相同。从不 同数据源采集的使用数据将代表w e b 流量中不同部分的导航模式,从单用户 单网站浏览行为到多用户多网站的存取模式。 预处理:w e b 使用挖掘首先要对挖掘数据进行预处理,其目标是将包含在 多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象概念, 然后在事务数据库上实施挖掘算法,以期最终获得有价值的规律【l 引。预处理包 括使用数据、内容和结构信息的预处理。预处理过程的结果是用户会话文件, 它包含了访问w e b 站点的用户、请求的页面及顺序、每一页阅读的时间等。对 日志进行预处理的结果直接影响到挖掘算法产生的规则和模式。可以说预处理 过程是w e b 日志挖掘质量保证的关键【l 刀。 模式发现:模式发现可应用多个相关领域中的方法,如统计学、机器学习、 模式识别、数据挖掘等。从其他领域移植到w e b 挖掘领域的技术,需要考虑到 1 0 硕士学位论文w e b 日志挖掘技术的研究与应用 原有领域与w e b 挖掘领域可能会有不同的数据类型和先验知识,其相关技术的 成功移植还须要针对w e b 挖掘领域的特点作出相应的修改和完善。模式发现采 用的算法有:统计分析、关联规则挖掘、路径分析、时序模式发现、聚类和分 类算法等【l 引。为了提高精度,w e b 使用挖掘也用到站点结构和页面内容等信息, 不同的技术对w e b 使用日志中模式的发现各有其作用和侧重点,见表2 - 2 。 表2 - 2w e b 应用与常用的挖掘技术之间的对应关裂1 9 】 w e b 应用可能用到的挖掘方法 预测下一个事件序列挖掘 发现关联事件或应用对象序列挖掘、关联挖掘 发现共同属性和兴趣的用户群组聚类 发现共同行为模式的用户群组聚类、会话聚类 根据预先定义的一组类别对用户进行描分类 述 模式分析:挖掘出来的用户行为模式( 集合) ,需要合适的工具和技术对其 进行分析、解释和可视化,从中筛选出有趣( 有用) 的模式,使之成为人们可以 理解的知识,否则挖掘出来的模式将得不到很好的应用。对于大量挖掘出来的 模式,也需要一种技术使用户可以方便地查询其想要的模式,从而使解释和分 析更具有针对性。实现这个功能也就是要实现在已经挖掘出来的知识上进行查 询。精确的分析方法通常是由w e b 挖掘的具体应用来控制的。最常见的的模式 分析方法有两种:一种是象$ q l 那样的知识查询机制,采用s q l 查询语句进行 分析,另一种方法是将w e b 使用数据装入数据仓库,以便执行联机分析处理( 0 l a p ) 并提供可视化的输出结构【2 0 1 。 2 2 4w e b 日志挖掘应用 w e b 日志挖掘应用主要体现在以下几个方面: ( 1 ) 个性化服务与定n - 用户的个性化分析可以为用户提供定制服务。通 过对用户存取日志文件中的存取事务进行聚类分析,发现用户的个性化搜索兴 硕士学位论文w e b 日志挖掘技术的研究与应用 趣模式,根据个人的喜好,为每个用户定制符合其个人特色的we b 站点,提 供符合其兴趣要求的个性化界面。还可以根据对用户访问路径的分析,生成用 于导航的用户局部网络视图。 ( 2 ) 改进系统性能和结构:主要是从统计学的角度,对w e b 系统的特性数 据( 主要是w e b 日志数据) 进行多种分析和统计,包括频繁访问页、单位时间访 问频度、访问量的时间分布等,从而改进系统性能和结构。 ( 3 ) 站点修改:对所有用户的浏览路径、用户访问模式及倾向进行分析挖 掘,发现其中某些页面的逻辑关联,获得用户访问模式信息。充分利用这些信 息,改进we b 站点的服务质量。这方面的软件有p a g e r g a t h e r 、s c m l 。 ( 4 ) 商业智能:通过对用户行为和购物等关系的挖掘,更好理解用户的购 买意图,发现其中的用户购物特征和购买趋势、识别电子商务的潜在客户,确 定电子商务的潜在客户群,以此进行商业智能、支持商业决策,合理制订网络 广告策略。这方面的应用工具有:b u c h n e r 、s u r f ai d 、w e b tr e n d s 等。 ( 5 ) 页面推荐:收集和统计活动用户对站点的近期访问信息,分析其浏览 路径,并与挖掘的模式进行比较匹配,并根据匹配程度进行排序,为活动用户 预测下一步最有可能访问的页面,并将排序结果附加在现行用户请求页面之后, 从而进行页面推荐。 2 3 本章小结 本章简述了w e b 数据挖掘技术;着重介绍了w e b 日志挖掘的定义、挖掘对 象和过程,以及w e b 日志挖掘的应用方向。w e b 日志挖掘对象主要为服务器端 的用户访问日志,挖掘过程包括源数据收集、预处理、模式发现和模式分析几 个阶段,w e b 日志挖掘在个性化服务与定制、改进系统性能和结构、商业智能 以及页面推荐等方面都有广泛的应用。 1 2 硕士学位论文w e b 日志挖掘技术的研究与应用 第3 章w e b 日志挖掘中的数据预处理研究 数据预处理( d a t ap r e p r o c e s s i n g ) 是w e b 日志挖掘的首要步骤,也是非 常重要的一步。预处理过程是保证w e b 日志挖掘质量的关键,预处理的结果直 接影响到挖掘算法的选择与模式发现。通过预处理可以改进数据的质量,去除 无用、无关数据,检测数据异常,尽早地调整并规约待分析的数据,从而有效 地提高数据挖掘的精度和速度。本章主要分析w e b 日志数据预处理的一般过程, 对该领域的一些技术和方法进行了比较详细的研究和探讨。 3 1w e b 日志格式及数据收集 在w e b 日志数据挖掘中,最直接的数据来源是w e b 服务器。用户在访问w e b 页面时,用户的浏览信息被w e b 服务器自动收集并保存在访问日志、引用日志 和代理日志中。由于服务器非常明确地记录了访问者的浏览行为,所以w e b 服 务器日志成为w e b 使用模式数据挖掘的重要数据源【2 1 1 。 w e b 日志记录是以文本文件的形式存储的,由于服务器或参数设置不同, 得到的w e b 日志文件中记录的信息也会有所不同,但都包含用户访问页面的基 本信息。通常包括:日期( d a t e ) 、时间( t i m e ) 、客户i p 地址( c i p ) 、客户 名( c s - u s e r n a m e ) 、端口号( p o r t ) 、方法( c s - m e t h o d ) 、u r l 资源( c s - u r i - s t e m ) 、 发送字节数( s c - b y t e s ) 、接收字节数( c s - b y t e s ) 、花费时间( t i m e t a k e n ) 、 协议状态( c s - s t a t u s ) 、用户代理( u s e r - a g e n t ) 、c o o k i e ( c o o k i e ) 、参考页 面( r e f e r r e r ) 等信息。表3 1 列出了w e b 服务器访问日志的主要属性域及其 说明。 硕士学位论文w e b 日志挖掘技术的研究与应用 表3 - 1w e b 日志记录的主要信息 属性( 域)说明 日期( d a t e )用户请求页面的日期 时间( t i m e )用户请求页面的具体时间 客户i p 地址( c - i p )客户端主机的i p 地址或d n s 入口 用户名( c s - u s e r n a m e )客户端的用户名 服务器i p 地址( s i p )服务器的i p 地址 服务器端口( s - p o r t )服务器的端口号 方法( c s m e t h o d )用户请求的方法 u r l 资源( a s u r l s t e m ) 用户所请求的页面 u r l 查询( c s u r l q u e r y ) 用户将进行的查询 协议状态( s c s t a t u s )返回h t t p 的状态标识 发送字节数( s c b y t e s )服务器发送的字节数 接收字节数( c s b y t e s )客户端受到的字节数 用户代理( c s ( u s e r a g e n t ) ) 服务的提供者 对于协议状态( s t a t u s ) 域,一共有5 类状态码。 以1 开头的状态码,表示服务器管理者和开发者可以利用这些码来提供信 息,如1 0 0 :继续操作,1 0 1 :转换协议; 以2 开头的状态码,表示操作成功,如2 0 0 :操作成功; 以3 开头的状态码,表示重定向,或表示被请求资源存在于另一个u r l 中; 以4 开头的状态码,表示存在一个错误,如4 0 4 :未找到文件; 以5 开头的状态码,表示w e b 服务器因为自身或网络问题使请求不能响 应,如5 0 0 :内部服务器错误 请求( r e q u e s t ) 域中包含了请求方法和请求的资源u r l ,请求方法有 0 p t i o n s ,g e t ,h e a d ,p o s t ,p u t ,d e l e t e ,t r a c e ,c o n n e c t ,我们关心的是 g e t 方法,g e t 表示取回u r l 标识的资源。 另外用户请求服务器得到的文件类型有很多种,如图像、声音、视频文 件和可执行的c g i 文件以及最常见的网页文件等。一般在文件名后加上文件标 识后缀。如h t m l 后缀表示被请求的是w e b 页的h t m l 文件,g i f 或j p g 表示被 请求的是图像文件,m a p 表示被请求的是含区域坐标的图像映射文件; c g i 表示被请求的是服务器端可执行文件。 1 4 硕士学位论文w e b 日志挖掘技术的研究与应用 大多数常用的w e b 服务器软件可以根据3 种公开的日志文件格式中的一种 来记录日志文件。这3 种文件格式是:n c s a 的通用日志格式c l f ( c o m m o nl o g f o r m a t ) ,n c s a 的扩展通用日志格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) 和 w 3 c 的扩展日志格式e x l f ( e x t e n d e dl o gf i l ef o r m a t ) 。参考域和用户代理 域是e c l f 相对于c l f 加上的。如果对于w e b 服务器的有些域的数据是不可用的 话,那么w e b 服务器将在这个空域中标上短横线符号“一。 例如,2 0 0 7 - 1 卜0 62 3 :4 4 :2 51 7 2 1 6 5 7 2 1 2 1 1 6 6 1 8 4 3 58 0g e t p o p b t e c j p g h t t p 1 1 2 0 0 1 0 2 3 m o z i l l a 4 0 + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 2 ) 就是一条常见的w e b 服务器扩展通用格式日志。其中: 2 0 0 7 一1 1 一0 62 3 :4 4 :2 5 表示访问时间;1 7 2 1 6 5 7 2 1 表示请求访问的用户i p 地址;2 1 1 6 6 1 8 4 3 58 0 表示访问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康咨询服务平台方案
- 2025年金属基复合材料项目规划申请报告
- 2025年微信生态项目提案报告模板
- 咨询项目驻场方案怎么写
- 智慧校园咨询方案怎么写
- 旅游观光索道施工方案
- 基层营销方案
- 科研报告会活动方案策划
- 咨询农家鱼缸设计方案
- 奉贤广告彩钢板施工方案
- 致敬 9.3:一场阅兵一部民族精神史诗
- (完整版)室外散水专项方案
- 智能物流行业智能化运输装备应用前景研究报告
- 2025云南黄金矿业集团股份有限公司第二次招聘8人笔试备考试题及答案解析
- 三级眼科医院评审标准实施要点
- 化疗药物使用顺序课件
- 车位退还协议书
- GB/T 9948-2025石化和化工装置用无缝钢管
- 三基三严培训课件
- 2025至2030全球及中国军事无线电系统行业产业运行态势及投资规划深度研究报告
- CJ/T 244-2007游泳池水质标准
评论
0/150
提交评论