(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf_第1页
(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf_第2页
(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf_第3页
(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf_第4页
(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)基于web日志挖掘的智能网站构建系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的迅猛发展和w e b 的全球普及,各类网站所提供的功能和服务越来 越丰富,然而在智能化方面表现得却不够理想。比如,网站结构缺乏灵活性;提供的 服务或信息分布不合理,未能充分考虑到用户的需求;信息的访问路径未能考虑到信 息的重要性和普遍关注性等等。如果网站能够根据用户的行为模式自动的学习,改良 自身的组织结构和表现形式,这无疑将极大的方便用户的访问。 本文尝试利用w e b 挖掘技术对的w e b 访问日志数据进行深入地分析和研究,挖掘 出用户的个性化访问模式,并在此基础上智能的调整站点页面结构和栏目信息排列, 对用户进行智能地信息推荐,达到智能建站的目的。所做的工作主要包括以下几个方 面: ( 1 ) 分析了数据挖掘技术的产生原因和发展背景。介绍了数据挖掘的分析方法、 应用范围及最常用的挖掘技术。 ( 2 ) 对w e b 数据挖掘体系结构进行了深入的分析和研究,综述了w e b 数据挖掘, 给出了相关的定义和分类,并就w e b 日志的挖掘技术进行详细地探讨,描述了w e b 日 志数据挖掘的一般过程。 ( 3 ) 在对人们访问习惯进行系统分析的基础上,对站点的智能化提出了两种智能 策略:以模板和模块为单位定制站点页面,并根据页面各个区域位置设定不同的权重, 而后再根据日志挖掘结果和权重自动调整页面;在站点首页提供专门的热门推荐专题 栏目,用来展示挖掘结果汇总的整个站点最受欢迎的信息集合。实验证明,该系统具 有一定的智能性。 关键词:数据挖掘;智能站点;w e b 日志挖掘 a b s t r a c t w i t ht h es w i f ta n dv i o l e n td e v e l o p m e n to f i n t e r n e ta n dt h ew e bg l o b a l p o p u l a r i z a t i o n ,t h ef u n c t i o na n dt h es e r v i c ew h i c he a c h k i n do fw e b s i t ep r o v i d e s i sm o r ea n dm o r er i c h ,h o w e v e ri t si n s u f f i c i e n ti nt h ei n t e l l e c t u a l i z e da s p e c t f o ri n s t a n c e ,t h ew e b s i t es t r u c t u r el a c k st h ef l e x i b i l i t y :t h ed i s t r i b u t i o n o fs e r v i c e o ri n f o r m a t i o ni su n r e a s o n a b l et h a th a sn o tc o n s i d e r e dt h en e e d o fu s e r sf u l l y :t h ea c c e s sw a yo fi n f o r m a t i o nh a s n tc o n s i d e r e dt h ei m p o r t a n c e a n dt h eu n i v e r s a la t t e n t i o na n ds oo n i ft h ew e b s i t e sc a ns t u d yt h e m s e l v e s a n di m p r o v et h e i ro r g a n i z a t i o na n dp r e s e n t a t i o na u t o m a t i c a l l y t h e yw i l lb e m o r ec o n v e n i e n ta n dm o r ee f f e c t i r ef o rt h eu s e r s t h i sa r t i c l ea t t e m p t su s i n gt h ew e be x c a v a t i o nt e c h n o l o g yt ot h ew e bv i s i t d i a r yd a t ac a r r i e so nt h o r o u g h l yt h ea n a l y s i sa n dt h er e s e a r c h ,e x c a v a t e st h e u s e rt h ep e r s o n a l i z e dv i s i tp a t t e r n ,a n di nt h i sf o u n d a t i o nt h ei n t e l l i g e n t a d j u s t m e n ts t a n dp a g es t r u c t u r ea n dt h ec o l u m ni n f o r u k a t i o na r r a n g e m e n t ,c a r r i e s o nt h ei n t e l l i g e n ti n f o r m a t i o nr e c o m m e n d a t i o nt ot h eu s e r ,a c h i e v e st h e i n t e l l i g e n ts t a t i o nc o n s t r u c t i o n t h eg o a l d o e st h ew o r km a i n l yi n c l u d e f o ll o w i n gs e v e r a la s p e c t s : ( 1 ) h a sa n a l y z e dt h ed a t am i n i n gt e c h n o l o g yp r o d u c t i o nr e a s o na n d t h e d e v e l o p m e n tb a c k g r o u n d ,i n t r o d u c e dt h ed a t am i n i n ga n a l y s i sm e t h o d ,t h e a p p l i c a t i o ns c o p ea n dt h em o s tc o m m o n l yu s e de x c a v a t i o nt e c h n o l o g y ( 2 ) p a i ro fw e bd a t am i n i n ga r c h i t e c t u r eh a sc a r r i e do nt h et h o r o u g ha n a l y s i s a n dt h er e s e a r c h ,s u m m a r i z e dt h ew e bd a t am i n i n g ,h a sg i v e nt h er e l a t e d d e f i n i t i o na n dt h ec l a s s i f i c a t i o n ,a n dc a r r i e di nt h ew e bd i a r ye x c a v a t i o n t e c h n o l o g yd i s c u s s e si nd e t a i l ,d e s c r i b e dt h ew e bd i a r yd a t am i n i n gg e n e r a l p r o c e s s ( 3 ) i nt h ef o u n d a t i o no ft h es y s t e ma n a l y s i si np e o p l ev i s i tc u s t o mt h ep a g e p r o p o s e dt w ok i n do fi n t e l l i g e n ts t r a t e g i e s :h a v ec u s t o m m a d et h ew e bs i t e p a g et a k et h et e m p l a t ea n dt h em o d u l ea st h eu n i t ,a n da c c o r d i n gt op a g ee a c h r e g i o n a ls e t t i n gd i f f e r e n tw e i g h t ,t h e na c c o r d i n gt ot h el o gm i n i n gr e s u l ta n d t h ew e i g h ta u t o m a t i ca d j u s t p a g ea g a i n :p r o v i d e t h e s p e c i a l p o p u l a r r e c o m m e n d a t i o nt o p i cc o l u m ni nt h ew e bs i t eh o m ep a g e ,s h o wt h em i n i n gr e s u l t c o m p i l e st h ee n t i r ew e bs i t et h em o s tp o p u l a ri n f o r m a t i o ns e t t h ee x p e r i m e n t p r o v e dt h a t t h i ss y s t e mh a sc e r t a i ni n t e l l i g e n c e k e yw o r d s :d a t am i n i n g :i n t e l l i g e n tw e bs i t e :w e bl o gm i n i n g i i j 主要符号表 英文缩写英文全称中文全称 k d d k n o w l e d g ed i s c o v e r yi nd a t a b a s e s数据库中发现知识 d m d a t am i n i n g 数据挖掘 d bd a t a b a s e 数据库 d wd a t aw a r e h o u s e 数据仓库 o l t po n l i n et r a n s a c t i o np r o c e s s i n g 联机事务处理 o l a p o n l i n ea n a l y t i c a lp r o c e s s i n g联机分析处理 s e s s i o ns e s s i o n会话 a ia r t i f i c i a li n t e l l i g e n c e 人工智能 0 0 m o b j e c t o r i e n t e dm e t h o d面向对象方法 4 1 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经 发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律结果由本人承担。 论文作者签名:白i ,采 吨 、 日期:争一7 年弓月3j 目 1 1 引言 第一章绪论 近年来,i n t e r n e t 己经逐渐渗透到人们的日常工作和生活中,它为用户提供了所需 要的各种信息。然而,面对复杂庞大的i n t e r n e t ,多数用户觉得力不从心。主要原因 是由于网站的内容虽多却不易寻找,这样的后果便是:用户面对一堆杂乱无章的信息 往往花费了大量的精力却无法找到理想的信息资源。因此如何有效地分析用户需求, 帮助用户从因特网的信息海洋中发现他们感兴趣的信息资源,己经成为一项迫切而重 要的课题。 解决这一问题的途径之一,就是将传统的数据挖掘技术与w e b 结合起来,进行w e b 数据挖掘。其中的w e b 日志挖掘可以掌握用户浏览i n t e r n e t 站点时的行为,发现用户 的兴趣取向,并且可以将挖掘出的用户访问模式应用于站点结构调整上,以提高站点 的服务质量。使网站能够根据用户的行为模式,改良自身的组织结构和表现形式,即 所谓的智能站点。这无疑将为用户的使用带来极大的方便。 1 1 1 数据挖掘技术 数据挖掘( d a t a m i n i n g ) 是一个多学科交叉研究领域,它融合了数据库( d a t a b a s e ) 技术、人工智能( a r t i f i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n el e a r n i n g ) 、统计 学( s t a t i s t i c s ) 、知识工程( k n o w l e d g ee n g i n e e r i n g ) 、面向对象方法( o b j e c t o r i e n t e d m e t h o d ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、高性能计算( h i g h p e r f o r m a n c e c o m p u t i n g ) 以及数据可视化( d a t av i s u a l i z a t i o n ) 等最新技术的研究成果。经过十 几年的研究,产生了许多新概念和新方法。特别是最近几年,一些基本概念和方法趋 于清晰,使它的研究朝着更深入的方向发展。数据挖掘被称为未来信息处理的骨干技 术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。二十世纪,数据 库技术取得了决定性的成果并且已经得到广泛的应用。但是,数据库技术作为一种基 本的信息存储和管理方式,仍然以联机事务处理( o l t p :o n - l i n et r a n s a c t i o n p r o c e s s i n g ) 为核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所周 知,随着数据库容量的膨胀,特别是数据仓库( d a t aw a r e h o u s e ) 以及w e b 等新型数 据源的日益普及,联机分析处理( o l a p :o n l i n ea n a l y t i cp r o c e s s i n g ) 、决策支持 ( d e c i s i o ns u p p o r t ) 以及分类( c l a s s i f i c a t i o n ) 、聚类( c l u s t e r i n g ) 等复杂应用 成为必然。面对这一挑战,数据挖掘和知识发现( k n o w l e d g ed i s c o v e r y ) 技术应运而 生,并显示出强大的生命力。数据挖掘和知识发现技术使数据处理进入了一个更高级 的阶段。它不仅能对过去的数据进行查询,还能够找出过去数据之间的潜在联系,而 且还可以进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。 随着信息技术的发展,数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突 出,人们迫切需要利用一种崭新的技术和工具智能地、自动地将数据转换成有用的信 息和知识。获取的信息与知识可以广泛用于各种应用,包括商业决策、生产控制、市 场分析、工程设计和科学探索等。数据挖掘( d a t a m i n i n g ) 技术就是为了解决传统分析 方法的不足,并针对大规模数据的分析处理而出现的,它是架设在数据和信息之间的 桥梁,通过数据挖掘工具可以发现隐藏在大量数据中的丰富知识( 诸如规律、约束、模 式等) 。数据挖掘是信息技术自然演化的结果。 可以说,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有了大规模数据库、 高效的计算能力、经营管理的压力和有效的计算方法后的产物,是从存放在数据库、 数据仓库和其他信息库中的大量数据中挖掘有用知识的一个过程。 i i 2 基于w e b 的数据挖掘 i n t e r n e t 的迅速发展使得w e b 为人们提供了内容丰富且数量庞大的信息,简单的 信息搜索技术已不能满足人们的应用需求。随着数据挖掘技术的出现以及发展的日趋 成熟,数据挖掘逐渐被应用于w e b 数据,发现隐藏在w e b 上的知识,以便更好地了解 w e b 文档之间的相互关系、组织形式以及用户对这些文档的使用情况,在此基础上优化 w e b 站点组织结构和表现形式。 面向w e b 的数据挖掘技术简称为w e b 挖掘( w e bm i n i n g ) 。1 ,其定义可以从数据挖 掘的概念扩展而来。简单讲,w e b 挖掘指从w e b 服务器上的数据文件中提取人们感兴趣 的知识。w e b 挖掘其实就是对w e b 文档的内容、可利用资源的使用情况以及资源之间的 关系进行分析。w e b 上包含的大量页面,连接这些页面的超文本链接以及w e b 页面被用 户访问和使用的信息,都可以成为数据挖掘应用的对象。w e b 挖掘分为三类”1 :w e b 内 容挖掘( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和日志挖掘( w e b l o gm i n i n g 或w e bu s a g em i n i n g ) 。 i 1 3 智能站点的研究意义 近年来,尽管i n t e r n e t 提供大量的信息和搜索门户网站,但用户往往无法找到自 己所需的内容。同时对每个网站提出一个严峻的问题:如何设计网站的结构和页面的 构成并使其为用户提供质量更高、效果更好的服务。人们期望得到个性化的服务,而 且对于网站的风格以及内容都可以根掘自己的兴趣进行定制的,同时,希望网站可以 根据用户的兴趣所在,为用户推荐可能感兴趣但是尚未阅读的内容。在这种市场的需 求下,出现了w e b 个性化服务、推荐系统以及智能w e b 站点等智能技术。 w e b 个性化服务( w e bp e r s o n a l i z a t i o ns e r v i c e ) :w e b 服务器通过与用户交互的过 程收集用户的信息,服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定 制的页面,其目的就是提高用户的满意度。对个性化服务而言,用户要通过显式地圈 定他所感兴趣的内容,来完成定制页面的工作。所以,在用户深入了解站点之前,用 户可能并不知道怎样定制站点内容,因而也就不能充分享受w e b 站点的个性化服务。 推荐系统( r e c o m m e n d e rs y s t e m ) :推荐系统就是w e b 服务器根据用户的喜好,为 用户推荐可能感兴趣的内容或者可能购买的商品。近几年电子商务的快速发展促进了 推荐系统的发展,推荐系统已经逐渐成为电子商务中的主流发展方向。 智能w e b 站点( i n t e l l i g e n tw e bs i t e ) :通过观察用户的访问模式,自动改进站点 的结构和表现形式,以反映用户的兴趣所在。建立自适应站点的主要步骤是:发现用 户聚类,然后为每个聚类的用户建立配置文件( p r o f i l e ) ,并将之保存在w e b 服务器中。 当用户访问站点时,服务器判断当前用户属于哪个聚类,寻找该聚类相应的配置文件, 并将用户请求的页面经过变形后返回给用户。智能w e b 站点的目的是为用户推荐页面 的变化或是站点结构的变化,使其更加适合用户的需求。相对于个性化服务,智能w e b 站点可以将用户的定制属性在一定范围内共享。将具有相似兴趣和目的的用户进行分 组,组内的用户具有相同的定制属性,如果一些用户对站点的某一部分感兴趣,那么 相应组内的其它用户的定制属性也将随之改变。 1 1 4 论文选题的来源及意义 面对信息化飞速发展的今天,很多企事业单位需要建设这样一种环境:方便的信息 沟通;快速的网站建设;强大的信息管理及安全技术;灵活的信息分类及模块装卸; 方便快捷的个性化服务。 为了解决这些问题出现了基于w e b 日志挖掘的智能站点构建技术。为这些将要建设 信息化的企事业单位提供了这样的环境,并重点解决以下三方面的问题: 一、在技术上不需要专业人员的维护,只要工作人员在业余时间即可完成网站的管 理与建设,这为企事业单位解决了人才的问题。 二、在时间上可以利用本软件很快地生成适合自己需要的网站,不需要再作开发工 作,这为企事业单位解决了时间的问题。 i 、多选择的主页模板,网站的页面使用模板来生成,管理人员可以根据需要,选 择适合的模板,灵活定制网站页面。 2 、简单快速的内容更新,系统所有的内容更新不需要开发人员的参与,管理人员 可以快速的更换页面的图片及网站的内容。 3 、方便灵活的信息沟通,栏目信息共享,使各栏目、子站点、分站点、主站点信 息能够连带发布。 三、智能w e b 站点,可从用户的浏览行为中自动学习用户的浏览模式,包括频繁访 问页组、页面聚类、用户聚类等,并根据这些知识智能地为用户提供方便的个性化服 务。 w e b 日志挖掘技术正在被越来越多的人所认识,并已经成为当今多个领域的研究热 点,由此可见对w e b 日志挖掘技术的研究有着广阔的发展空间和应用前景。 1 i 5 论文选题在该领域国内、国外研究现状 目前,数据挖掘方法一般有三种:自顶向下、自下而上和混合法。数据挖掘技术和 算法主要包括智能超市搜索、决策树、神经网络、相关分析、遗传算法、模糊逻辑、 粗集、概念学习、归纳逻辑程序和聚类等等。目前使用较多的是关联规则分析聚类分 析、分类和预测、复杂型数据的数据挖掘等,这些大多应用在生物医学、商业、金融 和电信方面。 迄今为止,w e b 使用记录的挖掘方法主要有两大类:一类是基于w e b 事务的方法, 即将数据挖掘技术应用于w e b 服务器日志,以期发现用户浏览模式。这类方法提出了 最大前向引用序列m f r 的概念,并用它将用户会话分割成一系列的事务,然后采用与 关联规则相似的方法挖掘频繁浏览路径。第二类方法是基于数据立方体的方法,即根 据w e b 日志建立数据立方体,然后对数据立方体进行数据挖掘和o l a p 。 智能化e b 站点( i n t e l l i g e n tw e bs i t e ) :利用w e b 服务器日志获取用户的访问 模式,根据当前用户的浏览模式,定制个性化页面内容和修改站点结构,为用户提供 个性化服务。 对于智能站点,目前常用的方法包括w e b 使用记录挖掘与合( 协) 作式过滤、矩阵聚 类、挖掘间接关联规则、数据立方体、第一马尔可夫传输链,a l l m t h o r d e rm a r k o v m o d e l p r e d i c t i o nb yp a r t i a l - m a t c h 、概念分层i n t e r b a s e dc o a r s e n i n g 等等。 1 2 论文的工作 1 2 1 论文的研究目标 基于w e b 日志的挖掘方法,在前人研究的基础上,设计一套更准确更实用的智能网 站构建系统。该系统利用w e b 日志获得的数据,采用数掘挖掘技术,从中获取用户访 4 问模式,自动调整页面构成和热门推荐栏目,根据用户当前访问的情况,实时地将用 户可能感兴趣的栏目和信息快速地推荐给用户,为网站的用户提供更方便、更快捷的 智能服务,并给出智能系统的实现描述。 1 2 2 论文的研究工作 本文在对前人所做工作充分研究基础上,通过分析用户访问站点的习惯,设计出具 有以下两点功能的智能站点:根据用户访问习惯,挖掘出用户对站点栏目的兴趣趋向, 并根据用户的兴趣趋向和栏目在页面所放置的位置权重,调整页面结构,使用户能更 方便的获得所感兴趣的栏目信息;根据所有用户对栏目信息的访问次数,智能地调整 热门推荐栏目的信息组成,使广大用户能够更快捷地访问最受关注的信息。本文详尽 的给出了该系统的设计构架和实现。 i 3 论文的组织结构 第一章为绪论,概要介绍论文研究涉及到的一些基础知识:数据挖掘技术、基于 w e b 的数据挖掘、智能站点的研究意义、论文工作及论文的组织结构。 第二章为数据挖掘概述,介绍数据挖掘的基本概念、分析方法、挖掘范围和最常用 的技术。 第三章w e b 挖掘,介绍w e b 挖掘的基本概念,w e b 日志的典型格式,并针对日志数 据收集进行了详细描述,着重介绍日志挖掘的预处理过程。 第四章智能站点的构建,具体描述了智能站点概述,站点体系结构,以原型实例方 式给出改进智能站点的设计与实现。 第二章数据挖掘概述 数据挖掘( d a t am i n i n g ,简称d m ) ,简单地讲就是从大量数据中挖掘或抽取出知 识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描述: 数据挖掘,又称为数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简称 k d d ) ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂 过程。 2 1 数据挖掘分析方法 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机 器学习。目前,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数掘集成, 让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 数据挖掘利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技 术不适用的问题,其它方法即可能奏效,这主要取决于问题的类型以及数据的类型和 规模。数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分类分析、 聚类分析等。 2 1 1 关联分析 关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的 研究开展得比较深入,前人提出了多种关联规则的挖掘算法。关联分析的目的是挖掘 隐藏在数据间的相互关系,并且能发现数据库中的知识,例如“在一次购买活动中9 0 的顾客购买商品a 的同时购买商品b ”。 2 1 2 序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式 分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时 间内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a b c 出现的频 度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个 序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上, 返回该数掘库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最 小置信度c 和最小支持度s 。 2 1 3 分类分析 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记录都赋 予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析 示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则, 然后用这个分类规则对其它数据库中的记录进行分类。举一个简单的例子,信用卡公 司的数据库中保存着各持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类: 良好、一般、较差,并且类别标记己赋给了各个记录。分类分析就是分析该数据库的 记录数据,对每个信誉等级做出准确描述或挖掘分类规则,如“信誉良好的客户是指 那些年收入在5 万元以上,年龄在4 0 5 0 岁之间的人士”,然后根据分类规则对其它相 同属性的数据库记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型 模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。 2 1 4 聚类分析 与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事 先并不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合 理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具 决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、 模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的 划分结果。 聚类分析和分类分析是一个互逆的过程。例如在最初的分析中,分析人员根据以往 的经验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合, 挖掘出每个类别的分类规则:接着用这些分类规则重新对这个集合( 抛弃原来的划分结 果) 进行划分,以获得更好的分类结果。这样分析人员可以循环使用这两种分析方法直 至得到满意的结果。 2 2 数据挖掘的应用范围 数据挖掘的含义类似于在山脉中挖掘有价值的矿藏。在商业应用中,数据挖掘也得 到广泛应用,其主要表现为在大型数据库里面搜索有价值的商业信息。对于给定了大 小的数据库,数据挖掘技术可以运用以下几种特色功能产生巨大的商业价值: 1 、自动趋势预测。数据挖掘技术可以自动在大型数据库里面找寻潜在的预测信息。 传统技术需要很多专家对问题进行分析,而现在可以快速直接地从数据中找到答案。 利用数据挖掘技术进行预测的典型例子就是目标营销。数据挖掘工具可以根据过去邮 件推销中的大量数据,找出其中最有可能对将来的邮件推销做出反应的客户。 2 、自动探测以前未发现的模式。数据挖掘工具扫描整个数据库并辨认出那些隐藏 着的模式,比如通过分析零售数据来辨别出表面上看起来没联系的产品,而实际在很 多情况下这些产品是一起被售出的。 3 、数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新 开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在 数分钟内分析一个超大型的数据库。这种更快速地处理速度意味着用户有更多的机会 来分析数据,并且使分析的结果更加准确可靠,易于理解。 此外,数据库可以由此拓展深度和广度,形成数据仓库。在深度方面,数据仓库允 许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得 不对参加运算的变量数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包 含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进 行通盘的深度遍历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子 集来进行运算了。在广度上,数据仓库允许有更多的行存在。更大的样本使产生错误 和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。 2 3 数据挖掘中最常用的技术 1 、人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习进行模式 识别。 2 、决策树:代表着决策集的树形结构。 3 、遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计 方法的优化技术。 4 、近邻算法:将数据集合中每一个记录进行分类的方法。 5 、规则推导:从统计意义上对数据中的“如果一那么”规则进行寻找和推导。 第三章w e b 日志挖掘 本章介绍了w e b 日志挖掘”1 的整个过程,其中主要描述日志挖掘的数据收集;日志 数据的预处理;将预处理之后的结果进行模式识别。通过以上工作为智能站点的建立 准备必要的数据。 随着因特网的发展,从事w e b 数据挖掘的人越来越多,其主要原因是w e b 数据挖掘 技术给用户提供快速找到网络资源的工具。但是数据挖掘技术涉及到结构化的数据, 而因特网提供的是半结构化的数据,使得数据挖掘技术很难对它进行处理。不过,w e b 服务器日志记录是很完整的数据结构,这将有利于数据挖掘的进行。并且w e b 日志挖 掘是w e b 访问信息挖掘的一个分支,它作为w e b 挖掘的一个重要组成部分,具有独特 的理论和实践意义。 所谓w e b 日志,是指在服务器上有关w e b 访问的各种日志文件,包括访问日志、引 用日志、代理日志、错误日志等文件。这些文件里包含了大量的用户访问信息,如用 户的i p 地址、所访问的u r l 、访问日期和时间、访问方法( g e t 或p o s t ) 、访问结果( 成 功、失败、错误) 、访问的信息大小等。 w e b 日志挖掘是将数据挖掘技术应用于w e b 日志文件挖掘日志记录,发现用户浏览 模式、分析站点的使用情况。它可用于协助管理者优化站点结构、提高站点效率,构 造合理的w e b 服务器、提高用户访问的有效性,这对于构造智能化的w e b 站点来说非 常有意义。 日志文件是用户浏览w e b 服务器时记录下来用户访问网站的情况,被一一记录在 w e b 服务器中,由于每天的日志访问量比较大,可以将日志文件保存在数据库服务器中。 w e b 日志挖掘就是对原始的日志文件进行预处理,使其转变成适合挖掘的数据形式,然 后利用数据挖掘算法进行挖掘,最后汇总挖掘出的结果并将其应用到实际中去。 3 1w e b 挖掘技术 3 1 1w e b 挖掘的分类 w e b 挖掘技术”“是与w e b 相关的数据挖掘技术,是指将数据挖掘技术用于从w e b 数据中发现知识。在w e b 挖掘中所处理的数据可以来源于服务器、客户端或者代理服 务器,也可以来自其他相关的数据源。目前w e b 挖掘主要分为三类: w e b 内容挖掘:即对因特网上网页包含的数据,也就是因特网网页上的文本和图形, 进行知识提取来满足不同用户的信息需求。w e b 文本挖掘、基于代理的页面搜索技术都 9 属于w e b 内容挖掘。 w e b 结构挖掘:结构是指页面内容的组织形式。分为页内结构和页间结构。页内结 构即指一个网页内部各部分是如何组织的,可用树状结构来描述一个页面。其中 标签是树的根。页间结构主要是网页之间的超链接信息。w e b 结构挖掘主要是通过对 w e b 站点的结构进行分析、变形和归纳,将w e b 页面进行分类,以利于信息的搜索。因 为超文本网页之间的相互连接,网页显示的信息远比文档内容多。例如:指向文档的 超链接个数表明该文档的受欢迎程度,而其中包含的超链接个数就表明该文档主题的 丰富程度。这就类似参考文献的引用,如果一篇论文经常被引用就说明它比较重要。 w e b 应用挖掘:也称为日志挖掘,日志记录了网页被使用的信息,如i p 地址、访 问时间、哪一页、字节大小和访问方法等。 日志挖掘从服务器的日志l o g 文件分析用户的访问模式。这些信息可以作为优化调 整站点结构的重要依据。 w e b 挖掘分类如图3 1 所示: 图3 - 1w e b 挖掘分类 本研究主要讨论w e b 日志挖掘,它是智能站点技术的基础。 3 1 2w e b 挖掘的相关技术 数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对 用户访问站点的历史数据( 即我们通过数据处理得到的数据) 应用以下数据挖掘技术, 得到高层知识,提供给用户作决策支持,或利用这些知识动态调整站点结构和页面组 织,为用户提供访问推荐和建议。 1 关联规则( a s s o c i a t i o nr u l e s ) :发现s e r v e rs e s s i o n 中请求网页的相关性。可 用于:优化网站组织,网络代理中的预取功能。 2 聚集( c l u s t e r i n g ) :使用分组( u s a g ec l u s t e r s ) 把具有相似浏览模式的用户分 1 0 成组。可用于:电子商务应用中市场分片( m a r k e ts e g m e n t a t i o n ) 和为用户提供个性 化服务。 3 网页分组( p a g ec l u s t e r s ) :按内容的相似性把网页分类。可用于:搜索引擎和 w e b 浏览助手( w e ba s s i s t a n c ep r o v i d e r s ) ,为用户提供推荐链接。 4 归类( c l a s s i f i c a t i o n ) :根据用户的个人资料,将其归入某一特定的类。可使用: 决策树、n a i v eb a y e s i a nc l a s s i f i e r s ,k - 最近邻居等算法。 5 序列模式( s e q u e n t i a lp a t t e r n s ) :发现一个s e s s i o n 内部的网页间的时间相关 性。可用于:预测用户的访问,而提供建议。 3 2 典型的w e b 日志 现在,越来越多的企业利用因特网进行商务活动,客户在w e b 站点上的商业活动和 浏览访问的大部分信息都记录在日志文件中,典型并且广泛应用的a p a c h ew e b 服务器 日志包括以下信息: c l i e n t i p 地址:访问服务器的用户机器的i p 地址。 a c c e s s t i m e :用户访问服务器页面时间。 r e q u e s tm e t h o d :用户访问页面的方式。 p a g e _ u r l :是指访问的统_ 资源定位器,即所访问的页面相对位置。 s e r v e r s t a t u s :反映了访问的最后状态( 结果) ,典型的有,2 0 0 代表成功,4 0 4 代表找不到所请求的页面。 p a g e s i z e :代表请求的页面大小情况。 以下是摘取的一条a p a c h ew e b 服务器日志片断: 1 2 7 0 0 1 一一 1 6 j a n 2 0 0 7 :2 2 :4 6 :0 4 + 0 8 0 0 ”g e t n e w s s p o r t s i n d e x h t m l h t t p i 1 ”2 0 04 8 1 对应关系如下表: 具体数据项 含义 1 2 7 0 0 1 c 1i e n t i p 1 6 j a n 2 0 0 7 :2 2 :4 6 :0 4 a c c e s st i m e g e t r e q u e s t _ m e t h o d n e w s s p o r t s i n d e x h t m lp a g e _ u r l 2 0 0 s e r v e r s t a t u s 4 8 1 p a g e s i z e 3 3w e b 日志数据收集 w e b 日志数据收集“可以从服务器端收集、客户端收集、代理服务器端收集,以下 分别介绍这几个方面: l 、服务器端收集“” 通过w e b 服务器记录用户访问日志,在服务器中记录了用户每次访问网站时进行的 网页请求的信息。这种方法是比较有效的,能够很全面的记录用户登录页面的详细信 息,比如:时间、日期、i p 地址、页面等等。所以,这种数据收集方法有利于数据日 志挖掘,并且方便分析出用户的浏览行为,因此现在很多人正在从事基于w e b 服务器 日志的数据挖掘,本文的研究基础也主要是基于服务器端w e b 日志展开的。 2 、客户端收集 因为客户端的用户比较繁杂,对其数据的收集不方便进行,但是可通过远程代理 ( j a v as c r i p t s 或j a v aa p p l e t s ) 进行。j a v aa p p l e t s 能记录用户所有的行为,但存在 效率问题,j a v as c r i p t s 虽然对效率影响不大,但不能记录用户所有的动作。正由于 这些缺陷,本文不把客户端数据作为挖掘的基础数据源。 3 、代理服务器端收集 大多用户都是通过代理服务器登录网站的,所以通过代理服务器不仅可以收集多个 用户的行为i 还可以收集对多个网站的行为。但大多代理服务器处于安全方面的考虑, 都设有较高的安全界别,这将导致收集的数据不是很准确,因此本文也不把代理服务 器端的数据作为挖掘的数据源。 综合考虑上述数据收集来源,本文将数据收集的重点集中在服务器端收集,更明确 的把收集来源定位在访问日志上,a p a c h ew e b 服务器的访问日志以天为单位将每天的 访问日志存放到w e b 服务器上,这样我们就可以按天为单位定期增量更新数据仓库中 元数据。 3 4w e b 日志预处理 为了给智能站点提供可以使用的指导数据,本文的w e b 日志挖掘的预处理“3 1 就是将 原始的日志文件结合站点的结构和w e b 页面的内容,经过一系列的数据处理转化为用 户访问权重集合。w e b 日志预处理“”的目的就是最终得到数据挖掘的输入,即不同用户 的所有服务器会话。为了不涉及用户的隐私权,对用户只强调其相异性,并不确定用 户身份。为进行w e b 数掘挖掘,我们开发了数据挖掘预处理的程序,它的体系结构如 图3 2 所示。在w e b 日志挖掘程序中将预处理过程分为4 个部分“”:1 ) 数据清洗,2 ) 用户识别,3 ) 会话识别,4 ) 路径补充。对日志进行预处理的结果直接影响到挖掘算法 产生的规则与模式。可以说预处理过程是w e b 日志挖掘质量保证的关键。 3 4 1 数据清洗 图3 - 2 预处理体系结构图 数据清洗即清除服务器日志中的无关条目,是w e b 访问日志数据挖掘的重要阶段。 关联规则和访问统计的有效性完全在于日志是否能够准确的描述用户对站点的访问行 为。由于h t t p 协议是一个无连接协议,用户每次访问一个页面,它都会至少在访问日 志中增加一条记录。通常情况,用户访问一个h t m l 页面的请求会产生几条日志记录, 因为页面中通常包含对一些图片或其他资源的引用,图片的下载也会在日志中增加一 条记录。然而,只有用户请求的h t m l 页面才真正的代表用户的意图,应该用于用户的 访问日志挖掘。这是因为用户通常不会请求页面的某个图片,它们都是由于包含此图 片的页面被访问而浏览器自动下载的。由于用户访问模式的日志挖掘在于发现用户访 问行为规律,在数据集中包含不是用户明确请求的内容对于挖掘无任何意义。消除无 关项或冗余项可以简单的通过删除特定后缀的记录实现。 前文已经提到,w e b 服务器日志文件中的数据包括以下数据内容:访问的日期和时 间、i p 地址、访问的方法( g c t 或p o s t ) 、访问结果( 成功、失败、错误) 、引用页的u r l 、 用户采取的操作系统和被访问页的文件名等等。如图3 3 日志记录格式及注释说明。 6 7 ”g e t n e w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论