(计算机软件与理论专业论文)基于web日志的数据挖掘.pdf_第1页
(计算机软件与理论专业论文)基于web日志的数据挖掘.pdf_第2页
(计算机软件与理论专业论文)基于web日志的数据挖掘.pdf_第3页
(计算机软件与理论专业论文)基于web日志的数据挖掘.pdf_第4页
(计算机软件与理论专业论文)基于web日志的数据挖掘.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于w e b 日志的数据挖掘 摘要 数据挖掘是数据库最活跃的领域之一。由于其广泛的应用背景和 现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在 国内外的学术界和信息产业界备受关注。 数据挖掘是从大量数据中发现人们感兴趣的、隐藏的、先前未知 的知识。数据挖掘技术主要研究结构化的数据挖掘,而w e b 数据的挖 掘是应用于ln t e r n e t 的技术研究,是从半结构或无结构的w e b 页面 中,抽取感兴趣的、潜在的模式。尽管in t e r n e t 是一个半结构化的 系统很难对它进行处理但是w e b 服务器日志记录具有良好的结构, 非常有利于数据挖掘的进行。此外,w e b 日志挖掘是w e b 使用挖掘的 一个分支,它作为w e b 挖掘的一个重要组成部分,具有独特的理论和 实践意义。 本文系统地阐述了从数据挖掘、w e b 数据挖掘到w e b 日志挖掘整 个过程,重点讨论w e b 日志的挖掘上。通过对基于w e b 日志的数据挖 掘的讨论,说明如何进行w e b 日志挖掘及在w e b 日志挖掘中应采取的 数据挖掘技术;然后将w e b 日志挖掘技术应用到商丘信息港网站,对 其w e b 服务器的日志记录进行挖掘,建立一个w e b 日志挖掘系统。网 络管理人员可以根据w e b 日志的分析结果改进网站的设计,实现网站 的有效管理,保证网络的安全。最后对本文进行总结,并提出进一步 的研究方向和将要做的工作。 关键字数据挖掘w e b 数据挖掘w e b 日志挖掘 c o o k i e w e bl o g1 3 a s o dd a t a i n i n g a b s l :r a c t o n eo ft h em o s ti m p o r t a n tf i e l d si nd a t a b a s eisd a t ai l l i n in g nv i e wo fi t s1 n i d ea p p ii c a t i o na n dp r a c t i c a is ;g n i f i c a n c e t h e t e c h n i q u ea n da p p ii c a t i o ro fd a t an l i l 3 i n gd e v e i o p e dr a p i d i ya n d a r t r a c t e dm u c hm o r ea t t e n t i o nb o t hi 九f i e i d so fa c a d e m i c r e s e a r c ha n dn f o r m a t0 1 3 n d u s t r y dis c o v o fin gt h ein t e r e s t e d hid d e na n du n k n o w nd a t af r o m a r g ed a t as e t s ist h ep u r p o s eo fd a t am i n i n g t h em a i n w o r k o fd a t am i n i n gi st od e a iv , t i t ht h es t r u c t u t a id a t a 。w h ii et h e w e bd a t am in in gsb a s e do ni n t e r n e tt og e tt h ei n t e r e s t in ga n d p o t e n t a p a t t e r n - f r o m t h eh a fs t r u c t u r a o r n o ts t r u c t u r a w e bp a g e s d a t ainin t e r n e tisah aifs t r u c t u r as y s t e m a n d ti sd i f f i c u i tt od e a i1 n i t ht h e m f o r t u n a t e l y t h ew e bs e v e r o gf ii e sh a v ean ic es t r u c t u r ea n di t sv e r yc o n v e r t i e n tf o r d a t am in in g f u r t h e r m o r e , w e bi o gm i n i n gi ab r a n c h o t = w e b u s a g er l l in i n ga n dh a ss p e c ia it h e o r ya n dp r a c t ic es i g n i f i c a n c o a sa 1 3j m p o r t a n tp a r to fw e bm i n i n g i nt h ist h e s is t h ep r o c e s so fd a t a1 1 1 i 1 3 i n g w e bd a t a1 1 1 n i n g a n dw e bl o gm i n i n g w a sr e p o r t e d f o c u s i n go r t h ew e bi o g m i n in g t h em e t h o da n dt e c h n o i o g yo fw e bi o gm in in g1 n e r od is c u s s e dt h is t h e s is f in a ii y 。 t h et e c h n o i o g yo fw e bi o gi l l in in gw a sa p p ii e d i i t os h a n g q iun f o r m a t i 0 1 qw e bs t a t io n ( h t t p :w w w s q i n f o h a c n ) t h r o u g ht h em in in go fi t sw e bs e v e ri o gf ii e s ,ad a t a m i n in g s y s t e mb a s e do nw e bo gm in i n gw a se s t a b is h t h ee s t a b is h e d d a t am i n in gs y s t e mw ii f a o ii t a t et h es t a t i o nm a n a g e m e n t 。t h e m p r o v e m e n to ft h ed e s i g no fw e bs t a t i o na n dt h es e c u f i t yo f n e t w o r k a tt h ee n d ,t h ef u t u r ed ir e e t i o na n dw o r k si t 3w e bj o g m i n ;n gw e r ep r o p o s e d k e yw o r d s :d a t am i n in g w e bd a t am i n in gw e bl o gm in i n g c o o k ;e i i i 第一章概述 本章主要介绍数据挖掘的定义、数据挖掘过程、数掘挖掘算法、数据挖掘的 应用和目前研究的情况,最后给出论文的内容安排。 1 1 数据挖掘的定义 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中的数据 量急剧加大,在大量的数据背后隐减着许多重要的信息,如果将这些重要的信息 从数据库中抽墩出来,为人们提供有用的价值,基于这釉情况数据挖掘的概念被 提出来。数据挖掘( d a t ah i n i n g ) 是当前最为活跃的数据库研究领域之一。由 于它的广泛的应用背最和现实意义使得数据挖掘技术和应用有很大的进展,它 在国内外的学术界和信息产业界备受关注。 数据挖掘是从大量豹、不完全的、有噪声的、模糊的、随机的实际应用 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程。何为知识? 从广义上理解。数据、信息也是知识的表现形式,但是人们 更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的 源泉,妤像从矿石中采矿或淘金一样。原始数据町以是结构化的,如关系数据库 中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分嘶j 在网络 上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以足演 绎的也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持 和过程控制等,还可以用于数据自身的维护。 因此,数据挖掘足一门交叉学科,它综合了机器学习、统计分析和数据库技 术,它把人们对数据的应用从低层次的简单查询提升到从数据中挖掘知识,提 供决策支持。在这种需求牵引下汇聚了不同领域的研究者,尤其是数据库技术、 人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员, 投身到数据挖掘这一新兴的研究领域形成新的技术热点。 1 2 数据挖掘的过程 数据挖掘可以视为另一数据库术语知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,k d d ) 的同义词,通常知以发现的过程可以有以下步骤组成( 参看图 1 1 ) 。 1 、问题定义 数据挖掘是为了在大量数掘【 卜发现有用的令人感兴趣的信息,因此发现何种 知识就成为整个过程中第一个也是觳m 姿的。个阶段。在问题定义过程中,数据 挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对数据挖 掘的要求:另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续 的学习算法选择和数据集准备都是在此基础上进行的。 图1 1k d d 过程示意圈 2 、数据收集和数据预处理 数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。 数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需 要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计 算缺值数据、消除重复记录、完成数据类型转换( 如把连续值数据转换为离散型 的数据。以便于符号归纳,或是把离散型转换为连续值型的,以便于神经网络) 等。当数据挖掘的对象是数据仓库时。一般来说,数据预处理已经在生成数据仓 库时完成了。数据变换的主要目的是消减数据维数或降维即从初始特征中找出 真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。 3 、数据挖掘 数据挖掘阶段首先根据对问题的定义明确挖掘任务或目的,如分类、聚类、 关联规则发现或序列模式发现等确定了挖橱任务后,就要决定使用什么样的算 法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用 与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获 取描述型的、容易理解的知识,而有的用户只是希望获取预测准确度尽可能高的 预测型知识,并不在意获取的知识是否易于理解。关于数据挖掘所采用的一些常 用算法,在下面章节将给出详细的描述。 4 、结粜解释和评估 数据挖掘阶段发现出来的模式,经过评估。可能存在冗余或无关的模式,这 时需要将其剔除:也有可能模式不满足用户要求,这时则需要整个发现过程回退 到口续阶段,如重新选取数掘、采用新的数据变换方法、设定新的参数值。甚至 换一种算法等等。另外k d d 最终是面向人类用户的,因此可能要对发现的模式 进行可视化,或者把结果转换为用户易懂的另一种表示如把分类决策树转换为 “i f t h e n ”规则。 数掘挖掘质量的好坏有两个影响要素:一是所采用数据挖掘技术的有效性, 二是用于挖掘数据的质量和数量( 数据量的火小) 。如果选择了错误的数据或不 适当的属性,或对数据进行了不适当的转换,则挖掘豹结果是不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 掘不太好,或使用的挖掘技术产生刁;了期望的结果:这时,用户需要重复先前的 过程,甚至从头重新开始。 可视化在数据挖掘的各个阶段都起着非常重要的作用。特别是在数据准备阶 段,用户可能要使用散点国、直方图等统计可视化技术来显示有关数据,以期望 对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户 则要使用与领域问题有关的可视化工具。在表示结果阶段。则可能要用到可视化 技术使得发现的知识更易于理解、更易于被用户接受。 1 3 数据挖掘算法及应用 1 3 ,1 数据挖掘算法 数据挖掘算法是数据挖掘的核心部分,目前存在很多数据挖掘方法或算法, 下面对一些主要算法进行简单的介绍。 l 、分类 分类的目的是学会一个分类函数或分类模型( 也常常称作分类器) ,该模型 能把数据库中的数据项映射到给定类鄹中的某个。要构造分类器,需要有一个 训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一 个山有关字段( 又称属性或特征) 值组成的特征向量,除了这些外训练样本还 有一个类别标记。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方 法包括贝时斯法和非参数法( 近邻学习或基于事例的学习) 。机器学习方法包括 决策树法和规则归纳法。神经网络方法主要是b p 算法。有三种分类器评价或比 较尺度:预测准确度;计算复杂度;模型描述的简洁度。下面我们介绍应 用最广的决镶树方法。 构造一个决策树分类器,它的输入是一组带有类别标记的例子,构造的结果 是一棵二叉或多叉树。二又树的内部节点( 非叶子节点) 一般表示为一个逻辑判 断,树的边是逻辑判断的分支结果。多叉树的内部节点是属性,边是该属性的所 有取值,有几个属性值,就有几条边。树的叶子节点都是类别标记。 构造决策树的方法是采用自上而下的递归构造。以多叉树为例,它的构造思 路是,如果训练例子集合中的所有例子是同类的。则将它作为叶子节点,节点内 容即是该类别标记。否则,根据某种策略选择一个属性。按照属性的各个取值, 把例子集合划分为若干子集合,使得每个子集上的所有例子在浚属性上具有同样 的属性值,然后再依次递归处理各个子集。一般情况下树越小则树的预测能力越 强。7 2 、聚类分析 聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是 使得属于同一类别的个体之问的距离尽可能的小丽不同类别上个体阃的距离尽 可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库 的方法。 好的聚类分析算法应该使得到的聚类内的相似性很高,丽不同聚类闽的相似 性很低。在聚类分析中聚类的确定不依赖于预先定义的类,因此聚类分析也称做 无监督的学习。聚类分析可以采用多种不同的方法,如层次的方法、分割的方法 等。聚类分析可应用于模式识别、市场分析、图像处理等多个领域。 3 、关联规则 关联规则是形式如下的一种蕴含或规则,x j y ,其中x 和y 分别是两个物品 集合,这两个物品集中没有共同的物品。用于关联规则发现的对象主要是事务型 数据库( t r a n s a c t i o n a ld a t a b a s e ) 其中针对的应用则是售货数据也称货篮 数据。从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。 关联规则发现任务或问题是:给定一个事务数据库d ,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解为两个子问题;求出d 中满足 最小支持度m i n s u p 的所有高频物品集:利用高频物品集生成满足最小可信度 的所有关联规则。 例如交易数据库中的每一个交易记录中包含一位顾客在一次购物中所购物 品的清单。关联数据挖掘的目的是找出将一些物品在清单中的出现与另一些物品 在清单中的出现联系起来的所有规律,如9 8 的顾客在购买轮胎和汽车加速器 的同时要求汽车保养服务,8 0 的男性顾客在购买啤酒的同时购买尿布等。 除了上面提到的这些算法,在数据挖掘中还广泛采用统计方法,优化方法以 及科学计算可视化等技术。 1 3 2 数据挖掘应用 下面主要从科学研究、商业应用以及i n t e r n e t 应用这三个方面来说明数据 挖掘的应f f j ,因为它们分别代表了相当不同的应用领域。 银行信用评分:金融服务产品的交叉销售、个人或企业的信用评级; 电子商务:w e b 行为模式分析、个性化设计; 客户关系管理( c 蹦) :客户利润率分析、客户细分、客户流失分析、客户响 应率分析; 生物, l i i j 药:基因序列分析、药理分析; 电信:客户流失、欺诈甄别; 证券:分析并预测股票价格的走势及相关性; 保险:用索赔数据来分离可能的舞弊指示项; 零售:识别最有可能对新产品或服务作出反映的一组客户、识别交叉销售的 新机会; 1 、科学研究 从科学研究方法学的角度看科学研究可分为三类:理论科学、实验科学和 计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打 交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的 使用,如观测卫星、遥感器、d n a 分子技术等,数据量非常大,传统的数据分析 工具无能为力,因此必须有强大的智能型自动数据分析工具才行。 数据挖掘在天文学上有一个非常著名的应用系统:s k i c a t ( s k yi m a g e c a t a l o g i n ga n da n a l y s i st 0 0 1 ) 。它是加州理工学院喷气推进实验室与天文科 学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。s k i c a t 的任 务是构造星体分类器对星体进行分类使用了决策树方法构造分类器,结果使得 能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往 方法的效率妥商4 0 倍以上。 数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究 上。近j l 年通过用计算生物分子系列分析方法。尤其是基因数据库搜索技术已 在基因研究上做出了很多重大发现。数据挖掘在分子生物学上的工作可分为两 种:一是从各种生物体的d n a 序列中定位出具有某种功能的基因串,二是在基因 数据库中搜索与某利具有高阶结构( 不是简单的线性结构) 或功能的蛋白质相似 的高阶结构序列。这方面的程序有:g r a i l ,g e n e l d ,g e n e p a r s e r g e n l a n g ,f g e n e h , g e n i e 和e c o p a r s e 。 2 、商业应用 商业或企业上对数据挖掘的应用需求很大,主要的商业应用领域:行销、金 融、制造和通讯等等但大部分应用针对的是分类预测任务。下面依次介绍其应 用。 市场行销:由于管理信息系统和p o s 系统在商业尤其是零售业内的普遍使用, 特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据并且 数据量在不断激增。对市场行销来说,通过数掘分析了解客户购物行为的一些特 征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据 的分析,可以得到关于顾客购买意向和兴趣的信息,从而为商业决策提供了可靠 的依据。数据库数掘挖掘在行销业上的应用可分为两类:数据库行销( d a t a b a s e m a r k e t i n g ) 和货篮分析( b a s k e ta n a l y s i s ) 。 金融投资:典型的盒融分析领域有投资评估和股票交易市场预测,分析方法 般采用模型预测法( 如神经网络或统计回归技术) 。这方面的系统有f i d e l i t y s t o c ks e l e c t o r ,l b sc a p i t a lm a n a g e m e n t 。前者的任务是使用神经网络模型选 择投资,后者则使用了专家系统、神经网络和瑟凶算法技术辅助管理多达6 亿美 元的有价证券。 欺诈甄别: 鬏行或商业上经常发生诈骗行为,如恶性透支等。这方面应用非 常成功的系统有f a l c o n 系统和f a i s 系统。f a l c o n 是h n c 公司的开发台勺信用卡 欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;猎鹰的 数据格式只有几种,因为流行的信用卡公司只有几家( 如v i s a ,m a s t e r 等) ,因 此它的应用面很大。f a i s 是一个用于识别与沈钱有关的金融交易的系统,它使 用的是一般的政府数据表单。 3 、i n t e r n e t 应用 通信网络管理:现代社会越来越依赖于通信系统来沟通信息,通信系统的结 构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。在通信网络 运行过程中,会产生一系列警告,这些警告有的可以茕之不理,而有的如果不及 l i 采墩措施则会带来不可挽回的损失。山于警告产生的随机性很大,究竟哪些警 告可以不予理睬,哪些警告必须迅速处理往往很难判断,一般需要由人工根据经 验进行处理,效率不高。数据挖掘可以通过分析已有的警告信息的正确处理方法 以及警告之间的前后关系的记录,得到警告之间的关联规则,这些有价值的信息 可用于网络故障的定位检测和严重故障的预测等任务中。根据当前的警告信息, 就可以得到其后续发生各种情况的可能性,对危险事件可以起到预防的作用从 而使通信网络得以安全运转。这方词的系统有芬兰h e l s i n k i 大学与一家远程通 信设备制造厂家合作的t a s a 系统。 w e b 挖掘( w e bm i n i n g ) :随着i n t e r n e t 的迅猛发展今天它已成为各行各 业的人们交流思想、获取信息便利手段。但是这些信息缺乏结构化、组织的规整 性,随意地散布在这个网络的各个角落,这已成为这座世界性图书馆的一大缺憾a 而今天的i n t e r n e t 网的规模在急剧地扩大,其上的信息量也在爆炸般地增长, 这时人们若不有意识地去寻求弥补该缺憾的有效途径,在不远的将来人们将迷途 于信息的汪洋中。数据挖掘在i n t e r n e t 上的应用包括下面三种:在搜索引擎 6 ( s e a r c he n g i n e ) 上对文档进行自动分类、帮助寻找用户感兴趣的新闻以及利用 数据挖掘设计一个电子新闻过滤系统它利用文本学习建立起该用户的趣向模 型,当用户进入一份电子报纸的网页时,该系统就会根据学习所得的模型对其中 的每一篇文章按与该用户的兴趣的接近程度进行打分排序,使用户最先看到的是 他最感兴趣的新闻。 1 4 数据挖掘的体系结构 数据挖掘不是人工智能、机器学习、统计等多项技术的简单组合而是一个 完整的整体,它还需要其它辅助技术的支持,才能完成数据收集、预处理、模式 识别、模式分析等一系列的任务,最后将分析结果呈现在用户面前。 在数据挖掘体系结构中,数据挖掘整个分析过程分为三部分:数据准备、数 据挖掘和数据结果表述和评价。数掘挖掘算法是整个数据挖掘的核心部分,它将 原始数据从库中取出来。然后选择相应的数据挖掘算法进行处理,最后输出结果。 数据挖掘系统的体系结构( 参看图1 2 ) 。 i 甸囝野圃圃 l数据挖 】| i 核 心 ttt f = 习e 霉= i | = = 习 哩塑蔓;到c 墼塑鏖j 逛室墼堡鎏j 图1 2 数据挖掘系统的体系结构 1 5 数据挖掘中最常用的技术 l 、人工神经网络;仿照生理神经网络结构的非线形预测模型,通过学习进 行模式识别。 2 、决策树:代表着决策集的树形结构。 3 、遗传算法:基于进化论,并采用遗传结合、遗传交异以及自然选择等设 计方法的优化技术。 4 、近邻算法:将数据集合中每一个记录进行分类的方法。 7 5 、规则推导:从统计意义上对数据中的“如果一那么”规则进行寻找和推 导。 1 6 论文的工作和组织结构 本文工作的立足点是通过对数据挖弼的研究,从网络中提取大量的日志文 件,然后分析网络日志文件,从中得到一些有用的信息,进而改进网站的设计 提出建立一个基于w e b 日志挖掘具有统计功能的系统,帮助网站管理入员更好的 管理w e b 站点为用户提供更好的服务,提高站点的访问量,从而提高站点的知名 一度。 本文主要完成了以下几方面的工作:w e bf = i 志挖掘技术的研究、w e bf i 志挖 掘的过程和建立一个w e b 日志挖掘系统。 全文有5 章组成。第一章介绍与本文有关的数据挖掘的知识,简要概述了数 据挖掘的定义、挖掘过程和几种重要的数据挖掘算法。 第二章简要介绍了w e b 数据挖掘,讨论了常用的几种w e b 数据挖掘的研究。 第三章详细介绍基于w e b 日志数据挖掘的原理,如何进行w e b 日志数据挖掘 给出挖掘的过程和方法。 第四章重点介绍w e b 日志挖掘系统的原理,从w e b 服务器记录同志的原理到 如何进行w e b 日志分析并具体指明w e b 日志分析主要解决的问题。晟后将w e b 日志挖掘应用在商丘信息港日志记录。 第五章为结束语,对本文工作进行了总结,并提出进一步研究的方向。 第二章w e b 数据挖掘 本章主要论述了三种w e b 数据挖掘技术:w e b 内容挖掘、w e b 结构挖掘、w e b 访问信息挖掘,并给出这三种w e b 数据挖掘技术在不同的数据源上进行挖掘的具 体情况,重点是考虑对w e b 访闽信息挖掘,具体给出它的挖掘过程。 2 1 前言 数据挖掘技术就是从大量数据集合中发现有效、新颖、潜在有用的、可理解 的模式。但是数据挖掘的绝大部分工作所涉及的结构化数据库,很难处理w e b 上的异质、非结构化信息的工作。所以面对巨大的网络系统和丰富的信息资源, 研究者将传统的数据挖掘技术和w e b 相结合进行w e b 挖掘。w e b 挖掘“可以在 很多方面发挥作用,如对搜索引擎的结果进行挖掘、确定权威页面、w e b 文档分 类、w e bl o g 挖捌“7 “1 、i 乜予商务1 等。 i n t e r n e t 是一个巨大、分布广泛,全球性的信息服务中心,它涉及新闻、 广告、教育、电子商务和其它信息服务。w e b 还包含丰富的动态超链接信息,以 及w e b 页面的访问信息,为w e b 挖掘提供了丰富的资源。下面说明w e b 挖掘比数 掘挖掘所具有更大的难度: l 、由于w e b 中资源主要有w e b 页面构成,而w e b 页面具有非结构化、复杂 性等特点。所以对w e b 挖掘来说,页面信息的抽取和特征表示等预处理应该是非 常重要的。 2 、w e b 中的数据增长迅速。以每4 到6 个月的速度翻一番,而且其信息还 不断发生更新。因此对于w e b 数据的集成一直是一个很难处理的问题。 3 、山于蚓络川户要求各4 i 柏i 司1 呵存在w e b 服务器、代理服务器或客户端 的用户信息比较难以收集所以在不同类型的用户群中如何建立有效的动态模型 来反映他们的实际需求是一件比较困难的事情。 因此对予w e b 进行快速、有效的资源和知识发现具有很大的挑战性。这些挑 战已经搐动了如何离效且有效地发现和利用w e b 上资源的研究工作。 2 2w e b 挖掘概述 w e b 挖掘是一门交叉性学科沙及数据挖掘、机器学习、模式识别、人工智能、 统计学、计算机语言学、计算机网络技术、信息学等多个领域。它是从大量非结 构化、异构的w e b 信息资源中,抽取感兴趣的、潜在的模式,进行分析和研究。 w e b 挖掘当前研究的主要有三种技术:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、 w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 、w e b 访问信息挖掘( w e bu s a g em i n i n g ) , 其分类的结构( 参看图2 1 ) : 9 1 w e b 糊d l 上i上 1w 曲内容挖掘w e b 访问信息挖掘w e b 结构挖捌 图2 1w e b 挖掘分类 w e b 挖掘具有以下特性: 1 、资料收集容易且不易引人注意。 程都是可以立即被记录的; 2 、交互式个人化服务为最终目标, 之外,不同的用户也会有不同的服务: 当用户进入网站后的一切浏览行为与过 除了因应不同用户呈现专门设计的网页 3 、广泛收集数据来源让分析功能发挥更大的作用,除了l o gf i l e 、c o o k i e s 、 用户填表数据、在线调查数据、在线交易数据等出网络直接取得的资源外,结合 现实世界中累积时i i | j 更久、范田更广的资源,将使分析的结果更准确也更深入。 利用数据挖掘技术建立更深入的客户数据剖析,并依赖架构精确的预测模 式,呈现真正智能型个人化的网络服务,是数据挖掘努力的方向。w e b 数据挖掘 的应用领域非常广阔,不但涉及页面信息提取、站点分析、设计,而且在即将广 阏蓬勃发展的基于i n t e r n e t 的电子商务方面也有良好的应用前景。 2 3w e b 内容挖掘 w e b 内容挖掘就是从w e b 页面内容或其描述中进行挖掘,进而抽取知识的过 程其中内容的挖掘从挖掘对琢上来分又可以分为两类:对于文本文档的挖掘( 包 括t e x t 、h t t l 等格式) 和多媒体文档( 包括图像、视频等媒体类型) 的挖掘。 w e b 文本挖掘可以对w e b 上大量文档集合的内容进行关联分析、总结、分类、聚 类以及利用w e b 文档进行趋势预测等。w e b 上多媒体挖掘主要是利用多媒体提取 工具进行特征提取。然后对这些特征进行关联规则或者分类的挖掘操作a 2 4w e b 结构挖掘 w e b 结构挖掘是挖掘w e b 潜在的链接结构模式,如w e b 页面之问的超级链接 关系。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象 来建立w e b 自身的链接结构模式。这牵l l 模式可以用于网页归类,并且可以出此获 得有关不同网页问相似度及关联度的信息。结构挖掘有助于用户找到相关主体的 1 0 权威站点,并且可以指向众多权威站点相关主题的站点。整个w e b 空间里。有用 的知识不仅包含在w e b 页面的内容之中,而且也包含在页面的结构中。例如:如 果发现一个页面经常被引用,那么这个页面一定非常重要。 2 5w e b 访问信息挖掘 w e b 访问信息挖掘主要是对用户访问w e b 时在服务器上留下的访问记录进行 的挖掘即对用户访问w e b 站点的存取方式进行挖掘,以发现用户访问站点的浏 览模式、页面的访问频率等信息。这种数据挖掘是一种很重要的信息获取方式, 它挖掘的数据一般是在用户和网络交互的过程中抽取出来的第二手的数据。这些 数据包括:w e b 服务器日志记录、代理服务器的日志记录、客户端的日志记录、 用户简介、注册信息等等。 用户使用w e b 获取信息的过程中需要不停地从一个w e b 站点通过超文本链接 跳转到另一个站点。这种过程存在一定的普遍性,发现此规律即是w e b 用户访问 信息发现。面向w e b 用户访阀信息的挖掘是关于用户行为及潜在顾客信息的发 现包括三种模式,即数据预处理、模式识别及模式分析。 下面是w e b 访问信息挖掘过程( 参看图2 2 ) 。 翰2 2w e b 协 问信息挖掘的过程嚼 l 、数据预处理阶段 该阶段是w e b 访问信息挖掘最关键的阶段,数据预处理包括:关于用户访问 信息的预处理、关于内容和结构的预处理。 z 、模式识别阶段 该阶段采用的方法包括:统计法、机器学习和模式识别等方法。实现方法可 以是:统计分析、聚类、分类、关联规则、序列模式谈毁i 等 3 、模式分析阶段 该阶段是提供可视化的结果输出。 理解w e b 上的用户访问信息有很多的好处。合理建造网站及合理设计服务 器,如辅助改进分和式网络系统的设计性能。在有高度相关的站点间提供快速有 效的访问通道,帮助更好的组织设计w e b 主页,帮助改善市场营销决策,如把广 告放在适当的w e b 页上或更好的理解客户的兴趣,这样的知识有助于商家制订销 售策略。 1 2 第三章w l :8 日志挖掘 本章介绍了w e b 日志挖掘的整个过程。主要描述日志挖掘中的数据收集,进 行日志挖掘对数掘进行预处理的几种情况,利用数据挖掘技术将处理之后的结果 进行模式识别然后应用到实际中建立自适应的w e b 站点“。”。 3 1 前言 随着i n t e r n e t 的发展,很多人从事w e b 数据挖掘,原因是给用户提供快速 找到网络资源的工具。但是数据挖掘技术涉及到结构化的数据,而i n t e r n e t 是 一个半结构化的系统很难对它进行处理。然而w e b 服务器日志记录是很完整的数 据结构,这将有利于数据挖掘的进行。并且w e b 日志挖掘是w e b 访问信息挖掘的 一个分支,它作为w e b 挖掘的一个重要组成部分,具有独特的理论和实践意义。 所谓w e b 日志,是指在服务器上有关w e b 访问的各种日志文件,包括访问日 志、引用日志、代理日志、错误日志等文件。这些文件里包含了大量的用户访问 信息,如用户的i p 地址、所访问的u r l 、访问日期和时问、访问方法( g e t 或 p o s t ) 、访问结果( 成功、失败、错误) 、访问的信息大小等。 w e b 日志挖掘是将数据挖掘技术应用于w e b 日志文件挖掘同志记录,发现用 户浏览模式、分析站点的使用情况。它可用于协助管理者优化站点结构、提高站 点效率构造合理的w e b 服务器、提高用户访问的有效性。这对于构造智能化的 w e b 站点来说非常有意义。 w e b 日志挖掘是w e b 访问信息挖掘的一种应用,下图摇述的是w e b 日志挖掘 的过程( 参看图3 1 ) 。 瞄蚺 一户竹支停删槛气蹦嘲黟掣 豳3 1w e b 日志挖掘垃程 日志文件是用户浏览w e b 服务器时记录下来用户访问网站的情况,被记录在 w e b 服务器中,由于每天的日志访问量比较大,可以将日志文件保存在数据库服 务器中。w e b 日志挖掘就是对原始的日志文件进行预处理转变成适合挖掘的数据 形式,然后利用数据挖掘算法进行挖掘,最后汇总挖掘出结果应用到实际中去。 3 2 数据收集 数据收集可以从服务器端数据收集、客户端数据收集、代理服务器端数据收 集,以下介绍这几个方面。 l 、服务器端数掘收集 通过w e b 服务器记录用户访问同志,在服务器中记录了用户每次访问网站进 行的每一次网页请求的信息。这种方法是比较有效的,能够很全面的记录用户登 录页面的详细信息,比如:时问、日期、l p 地址、页面等等并可通过记录c o o k i e s 和c g i 的查询参数来描述各个不同用户的行为。所以,这种数据收集方法是有利 于数据闩志挖掘,方便分析出用户的浏览行为,因此现在很多的人正在从事基于 w e b 服务器日志的数据挖掘。 2 、客户端数据收集 剥于客户端数据的收集不便于进行。因为客户端的用户比较繁杂,但足可通 过远程代理( j a v as c r i p t s 或j a v aa p p l e t s ) 进行。j a v aa p p l e t s 能记录用户 所有豹行为但有效率问题,j a v as c r i p t s 虽然对效率影昀不大,但不能记录用 户所有的动作。 3 、代理服务器端数据收集 大多用户都是通过代理服务器登录网站的,所以可以通过代理服务器不仅可 以收集多个用户的行为还可以收集对多个网站的行为。 3 3 数据预处理 3 3 1 数据净化 w e b 服务器同志文件中的数据包括以下数据内容:访问的f 1 期和时问、i p 地 址、用户的域名、访问的方法( g e t 或p o s t ) 、访问结果( 成功、失败、错误) 、 引用页的u r l 、用户采取的操作系统和被访问页的文件名等等。 下面是原始文件的格式及其它的注释( 参看图3 2 ) : u 梦r i d端口 服务器状态 2 1 8 6 0 1 0 1 1 二2 0 0 2 1 2 0 56 :0 0 :0 08 0g e t i n d e x h t m l2 0 02 9 4 i 日期磊;问 请宓备,i ,j 、 i 争 日期和时间 1 荐不k 什7 ,j 妇五l m 州e 嗽p 幽k ;蝴舀l b 巧,0 ;+ w i n d o 盼嬲;+ d i g e x t ) a p a c h e = 2 8 5 5 2 ,9 6 3 0 3 5 6 5 1 2 , 溯览蔷 c o o k i e 图3 2 日志文件的格式及注释 数据净化是指删除w e b 服务器同志中与挖掘算法无关的数据,一般来说只有 日志中h t m l 文件与用户会话相关。用户一般不会显式地请求页面上的图形文件, 它们是根据h t m l 的超文本引用标记自动下载的。w e b 日志文件的目的是获得用 户的行为模式,并不关心那些用户没有显式请求的文件,所以通过检查u r l 的后 缀删除认为不相关的数据例如:将日志中文件的后缀名为6 i f 、j p e g 、j p g 等的 图形文件删除,另外,后缀名为c g i 的脚本文件也应被删除。具体到实际的系统 就使用一个缺省的后缀名列表帮助删除文件。列表可以根据正在分析的站点类型 进行修改,例如:对一个主要包含图形文档的站点,日志中g i f 和j p e g 文件可 能代表了用户的请求。此时就不能将图形文件删除。 进行数据预处理的还有一个方面,比如:有些网站的页面用户在提出请求时, w e b 服务器拒绝该页面的请求那么应该过滤掉非法请求的页面,对正常的页面 进行数据处理是很有价值的。但是如果考虑的是网络安全方面的问题那就另当 别沦考虑非法请求的页面的情况。 3 3 2 用户识别 识别用户对于会话识别特别是为提供个性化的服务非常重要目前由于本 地缓存代理服务器和防火墙的存在、为用户动态的分配i p 地址,想要识别出每 一个用户变得很复杂。 针对用户的识别有几种最可能的解决办法是基于w e b 日志站点的方法一些 启发式规则可以帮助识别用户。 l 、如果i p 地址相同,但是代理日志中表明用户的浏览器或操作系统改变了, 就应当认为每个不同的代理就表示不同的用户。 z 、将用户的访问日志和站点的拓扑结构结合,构造用户的浏览路径。如果 当前请求的页面同用户已浏览的页面之闻没有链接关系。那么就认为存在另外具 有棚同i p 地址的多个用户。 3 、不同的i p 就认为就是不同的用户。 4 、c o o k i e 是由w e b 服务器产生的记号存在于客户端( 用户的机器) ,用于 识别用户的会话。它是一种自动跟踪w e b 站点访问者的标记。当用户对w e b 资源 提出请求时;将为该用户产生唯一的c o o k i e 用于识别对话。在髓后的请求中, 测览器将该唯一的c o o k i e 发送回服务器用来识别对话。 c o o k i e 法划分最客观和准确为提高准确性,设计采用c o o k i e 进行和用户 识别。下面针对c o o k i e 做讨论。c o o k i e 是在w e b 上用于存储客户系统信息的对 象,所有的信息都以每行一个c o o k i e 的形式存放在客户端的一个名为 c o o k i e s t x t 的文件里。c o o k i e 在h t t p 头标( 客户和服务器用来标识自身的分 组) 中在客户机与服务器之间传输c o o k i e 由w w w 网页在客户机上进行摄制。 比如,一个w w w 阏页已在一个用户的计算机上设置的一个c o o k i e ,其中存储的 信息是该用户的身份号( 随机赋予该用户的唯一标识) ,当该用户的浏览器连接 这个w w w 站点时站点要求浏览器将c o o k i e 送回,它的身份号就通过c o o k i e 传递给该网页所在的w 删服务器。因此,要对每个来访问的用户的计算机上设 置c o o k i e ,作为用户豹唯一标识。 在这里需要补充的一点内容。尽管一个c o o k i e 能够帮助一个w e b 网站识别 一个站点是用户上次曾经访问过的,这是用户再一次访问。在用户浏览某些w e b 删站时,w e bn 瞳务器会将一个小的c o o k i e 作为个文本文件存储在用户的硬盘 中。但是如果用户不想在机器里存储c o o k i e ,他可以改变机器中浏览器的设鬣, 关掉机器的c o o k i e 。即便是用户的浏览器欢迎c o o k i e ,但用户也有可能拒绝 c o o k i e 的访问( 大部分人还是欢迎的) 每个域名只分配2 0 个c o o k i e ,所以要 节省用它们。c o o k i e s 不得火于4k b ,当然4 ,0 0 0 字节的容量是足够的。如果想 让站点识别用户的话,可以通过强制措施,必须通过打开浏览器上的c o o k i e 设 置才可以访问该站点那么用户是没有理由关掉。 对于上述方法都能识别出用户的情况还有- 4 中最简单的方法就是根据用户 的注册信息,不过这种方法涉及到用户的隐私权,有时不容易得到。 但对于具有相同i p 地址的用户若在同样类型的机器上使用同种浏览器,并 且请求的页面集合掴同,那么很容易混淆。一个用户使用两种类型的浏览器。或 是没有使用站点的链接结构直接输入u r l ,则容易被认为是多个用户。 3 3 3 会话识别 在跨越时间区段较大的w e b 服务器日志中,用户可能多次访问了该站点。会 话识别的目的就是将用户的访问记录分为单个会话。 最简单的方法是利用超时,如果两页剃请求时间的差值超过一定的界限就认 为用户开始了一个新的会话。jp i t k o w 的实验证明,比较合理的时间长度应该 是2 5 5 分钟。这种方法很简单但是准确性很差。 还有一种方法是访问日志法,它能划分同一i p 的并发访问,但在准确性仍 存在局限性。通过m f ( m a x i m a lf o r w a r dr e f e r e n c e ) 算法将同志序列中原始序列 转换为最大向前引用集,其中的每一个访闷子序列都代表一个从用户访阅点出发 的最大向前引用。其目的是过滤掉为了取消访问而产生的回退引用的影响,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论