已阅读5页,还剩55页未读, 继续免费阅读
(通信与信息系统专业论文)web访问行为对校园网络qos的影响.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着校园网络用户数量持续增加,用户的网络行为也变得更加复杂多样,由于现有网络服务器响应能力有限,无法满足日益增长的网络用户需求,改善校园网络的q o s 变得日益重要。本文主要研究了如何利用数据挖掘技术对校园网络用户的行为分析,通过校园网络用户访问日志进行挖掘,我们可以了解校园网络用户的访问模式,区分人的访问模式和机器下载模式的区别,并使用关联规则挖掘,对用户行为进行分析,了解校园网络用户的行为模式。本文主要工作:1 对校园网络日志进行预处理,为对校园网络行为分析挖掘算法提供数据集。2 使用f p g r o w t h 算法对校园网络日志进行关联规则分析,以此来研究校园网络用户的访问行为规律。通过对校园网络日志进行维度建模,对校园网络日志进行分析和挖掘,发现点击时间间隔为1 6 0 s ,偏差为1 5 6 s 的模式为机器访问模式,否则为用户访问模式。3 根据挖掘所得到的结论并利用上述结论对校园图书馆期刊下载行为进行分析。期望改善图书馆期刊下载的公平性,通过在一定时间段内对图书馆期刊内的机器下载行为的限制,更公平合理的分配校园网络资源,从而对校园网络的q o s 作出改进。关键词:校园网络日志;关联规则分析;w e b 日志挖掘;用户行为模式发现a b s t r a c tw i t ht h ei n c r e a s eo fc a m p u sn e t w o r ku s e r s ,t h eb e h a v i o ro fn e t w o r ku s e r sb e c o m em o r ec o m p l i c a t e d b e c a u s eo ft h er e s p o n s ec a p a c i t yo ft h ec a m p u ss e r v e ri ss ol i m i t e d ,i tc a nn o ts a t i s f yt h ei n c r e a s i n gn e t w o r ku s e r sn e e d s s oc h a n g i n gt h eq o so fn e t w o r ku s e r si sb e c o m i n gi m p o r t a n t i nt h i st h e s i sw er e s e a r c ho nh o wt oa n a l y z et h eb e h a v i o ro fn e t w o r ku s e r sb ye m p l o y i n gt h et e c h n o l o g yo fd a t am i n i n g b ya n a l y z i n gt h ew e b l o go fn e t w o r ku s e r s ,w ec a nk n o wa b o u tt h ec o n d i t i o no fn e t w o r kt r a f f i c ,d i s t i n g u i s ht h ed o w n l o a d i n gp a t t e r no fw e br o b o ta n dn e t w o r ku s e r sc l i c kp a t t e r n a n a l y z et h eu s e r sb e h a v i o rb y- u s i n ga s s o c i a t i o nr u l em i n i n g ,a n dp r e d i c tt h eb e h a v i o ro fn e t w o r ku s e r s t h em a i nw o r ko ft h i st h e s i si n c l u d e :1 p r e p a r et h ed a t as e t sf o rt h em i n i n ga l g o r i t h mb yc l e a n i n gt h ew e b l o ga n dp r e p r o c e s st h ew e b l o g 2 a n a l y z i n gt h eb e h a v i o ro fc a m p u sn e t w o r ku s e r sb yu s i n gt h ea l g o r i t h mo ff p - g r o w t h ,a n df m dt h er u l eo fc a m p u sn e t w o r k b ym o d e l i n gt h ew e b l o go fc a m p u sn e t w o r k ,a n dm i n i n gt h ew e b l o g ,w ec a nf m dt h a tt h ec l i c kt i m ei n t e r v a li sa b o u t1 6 s ,t h a t st h ep a t t e r no fr o b o td o w n l o a d i n g 3 w i t ht h eh o p eo fm o r er e a s o n a b l ed o w n l o a d i n gt h el i b r a r ym a g a z i n eo nc a m p u s ,w eu s i n gt h er e s u l tb e f o r eo nt h eb e h a v i o ro fc a m p u sl i b r a r ym a g a z i n ed o w n l o a d i n g w ew i l la s s i g nt h er e s o u r c eo fc a m p u sn e t w o r km o r ef a i r l yb yl i m i tt h eb e h a v i o ro fr o b o td o w n l o a d i n gi ns o m ep e r i o do ft h ed a y , a n dc h a n g et h eq o so fc a m p u sn e t w o r k k e y w o r d s :c a m p u sn e t w o r kl o g ;a s s o c i a t i o nr u l ea n a l y z i n g ;w e bl o gm i n i n g :u s e rb e h a v i o rp a t t e r nd i s c o v e r y武汉邮电科学研究院硕士学位论文1 1 问题提出第1 章绪论随着校园网络用户的激增,由于现有服务器的响应能力有限,服务器的响应能力成为制约校园网络q o s 的瓶颈,而校园网络中积累的数据越来越多。海量数据背后隐藏着许多重要的信息,但是目前校园数据库系统无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的方法。同时,由于校园网络上的不良信息、非法入侵、系统漏洞、病毒等对校园网以及应用系统产生了巨大威胁,因此对信息网络系统的安全和服务质量也提出了更高的要求,要求校园信息网络系统不仅能够提供优质服务的同时,而且能够保护网络和用户系统的安全。因此必须对校园网络行为进行分析,实现从不同角度展示校园网络运行中的各种现状和变化,从而为网络的通畅运行提供保障。目前,为了解决校园网络建设和应用中存在的问题,人们提出不同的思路,如对校园网站进行数据挖掘,为建设和改善校园网络带来了新的方法。w e b 是互联网的主要载体,w e b 本身隐藏了大量的知识,人们在与w e b 交互过程中也产生了大量的知识,为了获得这些信息和知识,数据挖掘技术被广泛应用到w e b中。每天都可能有大量校园网络用户通过校园网络访问i n t e m e t ,生成大量的记录文件和登记表,对这些数据进行分析和挖掘,充分了解用户的需求、行为方式,从而设计出结构合理的网络结构,为校园网络用户提供更好的服务质量。1 2 研究背景近年来,随着w e b 技术的飞速发展与广泛使用,网络用户也在不断增长,网络信息的迅速增长,在给人们带来丰富信息和极大便利的同时,也随之产生了一些急待解决的问题:一方面,每个用户都会有自己的需求和偏好,通常在获取有用信息时,也被动地接受了许多无用信息,浪费很多时间。因此用户希望站点根据不同的用户浏览模式提供不同的服务,感觉到网络真正的在为自己服务。另一武汉邮电科学研究院硕士学位论文方面,网络面临着诸多问题,如何发现用户的需要和兴趣,并以用户为中心修改校园网络结构,从而更好地为网络用户服务;如何查看网络流量模式以及找到网络最重要部分等等。w e b 服务器日志是一个结构化较好的记录集,保存了用户访问w e b 各页面的情况,这样使用数据挖掘技术从用户与网站的交互信息中获得用户使用模式的w e b 日志挖掘技术应运而生。1 3 国内外研究现状目前对w e b 日志挖掘研究还没有形成比较成熟的理论和统一的体系,国内外基于w e b 服务器日志数据的用户访问模式挖掘研究工作大致分为三类:1 、以分析系统性能为目标:从统计学的角度,对日志数据项进行简单的统计,得到用户频繁访问页、单位时间访问数、访问数据随时间分布图等。绝大多数商用及免费的w e b 日志分析工具都属于此类。2 、以改进系统设计为目标,通过挖掘用户的频繁访问路径和用户聚类,重构站点的页面之间的连接关系以更适应用户的访问习惯,同时为用户提供个性化的信息服务。3 、以理解用户意图为目标,c h e n 等提出的路径游历模式( p a t ht r a v e r s a lp a t t e r n ) 的发现算法,以及j i a w e ih a n 等使用数据立方体方法,便是此类的典型代表。由于目标的不同,所采用的技术有所不同,以分析系统性能为目标的w e b 数据挖掘的研究多采用统计学的方法,以改进系统设计为目标的数据挖掘多采用关联规则挖掘的方法,以理解用户意图为目标的数据挖掘研究多采用聚类挖掘和分类挖掘的方法。c o o l e yr ,m o b e s h e r b 等人首次给出w e b 挖掘的定义,并且给出一个关于w e b 访问信息挖掘的系统w e b m i n e r 。b u c h n e rag ,m u l v e n n amd 等人首次提出将数据挖掘技术应用于电子商务的环境下,以发现市场智能。挖掘的对象不仅包括日志、w e b 页面,也包括市场数据,并且给出了在电子商务环境下,挖掘的一个总的框架。c h e nm s ,p a r kj s ,y up s 等人把l o g 数据映射到关系表中,然后应用标准的数据挖掘方法发现用户迁移模式。b o r g e sj ,l e v e n em 等人应用超文本概率文法( h y p e r - t e x t p r o b a b i l i s t i c g r a m m a r ) 发现用户迁移模式。m y r as p i l i o p o u l o u 等人提出了一套类似s q l 的挖掘语言m i n t ,允许用户人为指定感2武汉邮电科学研究院硕士学位论文兴趣的频繁路径的特征,然后根据用户的要求挖掘满足条件的结果。h a r t 等人将w e b 服务器日志保存为数据立方体( d a t ac u b e ) ,然后在其上执行o l a p 的各种操作,如提升、钻取等,用于发现用户的访问模式。s h a h a b i 等人提出的日志挖掘系统依赖于客户端的数据收集,客户端的代理为服务器返回用户请求的页面及时间等数据。国内的学者在w e b 用户访问信息挖掘方面也开展了大量的研究工作。西安交通大学沈均毅教授等人口4 1 提出了发现频繁访问路径算法,并提出了w e b 页面和客户群体的模糊聚类算法;国防科技大学吴泉源教授等人【2 5 1 提出基于e o e m模型,综合考虑服务器的应用逻辑设计、页面拓扑结构及用户浏览路径等多个数据源的用户访问模式及电子商务中潜在顾客群的挖掘算法。于扩展有向树模型进行用户浏览模式识别的w e b 日志挖掘方法;随着因特网的进一步发展,w e b 日志挖掘技术在个性化的信息服务、改进用户站点的设计和服务、开展有针对性的电子商务、电子政务、构建智能化w e b站点、提高网站的声誉和效益等方面将起到极其重要的作用,w e b 日志挖掘技术将成为重要的研究课题和方向。1 4w e b 行为研究所使用的相关技术1 4 1 数据挖掘定义数据挖掘,就是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的,未知的潜在的有用的信息,提取的知识表示为概念( c o n c e p t s ) ,规贝1 j ( r u l e s ) ,规律( r e g u l a r i t i e s ) ,模式( p a t t e r n s ) 等形式。简单的说,数据挖掘就是从大量的数据种提取或者“挖掘知识,很多场合下,数据挖掘又被成为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简称k d d ) 。k d d 这一术语首先出现于1 9 8 9 年在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论会上,之后有很多人给出了k d d 的定义。目前大家公认的k d d 的严格定义是在1 9 9 6 年知识发现国际会议上由f a y y a d ,p i a t e s t s k y ,s h a p i r o 和s m y t h 提出:k n o w l e d g ed i s c o v e r yi nd a t a b a s e si st h en o n t r i v i a lp r o c e s so fi d e m i f y i n gv a l i d ,n o v e l ,p o t e n t i a l l yu s e f u l ,a n du l t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si nd a t a 3武汉邮电科学研究院硕士学位论文k d d 是从数据集中提取出有效的、新颖的、有潜在作用的、可信的,并能最终被理解的模式的非平凡过程。知识发现中的几个特性:有效性是指发现的模式对于新的数据仍保持有一定的可信度;新颖性要求发现的模式应该是新的;潜在的可用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益;最终可理解性要求发现的模式能被用户理解。目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性( i n t e r e s t i n g n e s s ) 。知识发现过程主要由以下步骤组成:1 数据清理( 消除噪音或不一致数据)2 数据集成( 多种数据源可以组合在一起)3 数据选择( 从数据库中提取与分析任务相关的数据)4 数据变换( 数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)5 数据挖掘( 基本步骤,使用智能方法提取数据模式)6 模式评估( 根据某种兴趣度度量,识别提供知识的真正有趣的模式)7 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识)1 4 2 数据挖掘功能和分类数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性,而预测性挖掘任务则在当前数据上进行推断,以进行预测。在很多情况,用户并不知道什么样的模式是有趣的,因此可能想探索多种不同的模式,以从中选择出自己感兴趣的模式。这就要求数据挖掘系统应该能够挖掘多种类型的模式,以适应不同的需求。此外,数据挖掘系统应该能够发现各种粒度( 即不同的抽象层) 的模式,应当允许用户给出提示,指导或聚焦有趣模式的搜索。数据挖掘的功能反映了数据挖掘算法发现的模式的种类。在不同的分类方法中,常用的是根据挖掘的任务和挖掘的方法分类。这里按挖掘任务分类如下:4武汉邮电科学研究院硕士学位论文1 4 2 1 关联分析关联分析( a s s o c i a t i o na n a l y s i s ) 发现关联规则,这些规则展示属性值频繁的在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。关联分析又可分为关联规则和序列模式,关联规则反映的是同时频繁出现的数据对象之间的蕴涵关系,序列模式表明的是时态数据中频繁出现的事件序列。1 4 2 2 分类和预测分类( c l a s s i f i c a t i o n ) 是这样的过程,它找出描述并区分数据类或概念的模型( 或函数) ,以便能够使用模型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其类标记己知的数据对象) 的分析。导出模式可以用多种形式表示,如分类( 工f - _ t h e n ) 规则、判定树、数学公式或神经网络。判定树是一个类似于流程图的树结构,每个节点代表一个属性值上的测试,每个分支代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。分类可以用来测试数据对象的类标记,当被预测的值是数值数据时,通常称之为预测( p r e d i c t i o n ) 。尽管预测可以涉及数据值预测和类标记预测,通常预测限于值的预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。1 4 。2 3 聚类分析聚类( c l u s t e r i n g ) 分析是依据样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相似,而属于不同群组的样本相异的一组方法。一个聚类分析系统的输入是一组样本和一个度量两个样本间相似度( 或相异度) 的标准。聚类分析的输出是数据集的几个组( 类) ,这些组构成一个区分或一个分区结构。聚类分析的一个附加结果是对每个类的综合描述,这种结果对于更进一步深入分析数据集的特性是尤其重要的。聚类的样本是用度量指标的一个向量表示,更正式的说法是,用多维空间的一个点表示。同类中的样本比属于不同类的样本彼此具有更高的相似性。聚类方武汉邮电科学研究院硕士学位论文法尤其适合用来探讨样本间的相互关联关系,从而对一个样本结构做一个初步的评价。人们能够对一维、二维或三维的样本进行聚类分析,但是大多数现实问题涉及到更高维的聚类。对于人们来说凭直觉解释高维空间包含的数据是非常困难的。1 4 2 4 孤立点分析数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是孤立点( o u t li e r ) 。大部分数据挖掘方法将孤立点视为噪声或异常而抛弃。然而,在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那些更有趣。孤立点数据分析称作孤立点挖掘( o u t l i e rm i n i n g ) 。孤立点可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离量度,到其他聚类的距离很大的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。例如,孤立点可以发现信用卡欺诈。通过检测一个给定帐号与正常的付费相比,以付款数额特别大来发现信用卡欺骗性使用。孤立点值还可以通过购物地点和类型,或购物频率来检测。1 4 2 5 演变分析数据演变分析( e v o l u t i o na n a l y s i s ) 描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。1 5 本文主要内容本文将数据挖掘技术应用于校园网络上,采用w e b 日志挖掘的方法,得到公众访问校园网络用户访问行为的资料,从而可以知道校园网络用户的行为模式,包括浏览的路径和浏览的时间,这样就可以推测出校园网络用户的行为特征。以有针对性的解决以上存在的几个问题,为校园网络建设、调整提供参考,从而提高校园网络的用户满意度以及校园网络的管理水平。6武汉邮电科学研究院硕士学位论文论文在阐述数据挖掘、w e b 挖掘理论知识基础上,比较系统地分析了w e b 使用挖掘的体系结构、数据准备、用户识别、事务识别。并对校园网络日志进行建模,对用户校园网络用户访问的时间纬度进行分析,发现校园网络中的两种行为模式,机器访问模式以及人的点击模式,并将所得到的结果应用与校园图书馆,对校园图书馆期刊下载的行为进行分析,通过在一定时间段内对机器下载的行为限制,为校园网络用户提供更好的服务。本文各章节内容安排如下:第一章介绍目前校园网络的状况,以及现有校园网络所存在的不足,并对数据挖掘的概念发展状况和w e b 挖掘技术产生的背景及目前国内外的研究现状进行概述,探讨数据挖掘与w e b 数据挖掘的思想、理论、方法、技术和策略,明确对w e b 数据挖掘进行研究的意义。第二章对w e b 数据挖掘理论、方法和技术进行研究,特别是对w e b 日志挖掘进行了较为深入的研究,包括w e b 跟踪机制、w e b 日志挖掘常用的技术、w e b 日志挖掘过程和存在的问题以及解决的方法等。研究数据挖掘中常用的挖掘发现算法,重点研究了关联规则理论和基于其上的经典挖掘算法a p r i o r i 和f p g r o w t h 算法。,第三章将数据挖掘技术引入到校园网络日志的挖掘中,通过对校园网络用户的行为进行分析,建模,通过对网络日志用户点击u r l 时间间隔维度进行分析,对校园网络日志进行关联规则分析,发现校园网络中机器下载和人的点击行为的区别,并对人的点击行为进一步分析。发现人的点击关联规则模式。第四章总结了研究过程中碰到的一些问题,展望校园网络的发展和研究趋势以及今后需进一步做的工作。1 6 本章小结本章介绍了本文研究问题的背景,以及国内外研究现状,和对校园网络用户行为分析所应用的技术,并介绍了数据挖掘的定义和体系结构,以及数据挖掘在电子商务,网站结构分析等方面的应用。并介绍了本文的主要工作和本文的结构。7武汉邮电科学研究院硕士学位论文第2 章w e b 行为研究使用相关技术本章主要介绍了对校园网络中w e b 访问行为方法分析所用的相关的数据挖掘方面技术的知识基础,特别是基于w e b 日志的数据挖掘术的知识基础,并给出了基于w e b 日志数据挖掘系统的体系结构。以及在行为分析中,所用到的一些关联规则算法。本章将就论文面各章所涉及的一些相关概念和技术方面的问题进行讨论。2 1 数据挖掘系统体系结构数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。典型的数据挖掘系统具有以下主要成分( 如图2 1 典型数据挖掘系统结构错误! 未找到引用源。所示) :数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据( 例如,描述来自多个异种数据源的数据) 。,数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。模式评估模块:通常,该部分使用兴趣度度量( 参见1 5 节) ,并与挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,8武汉邮电科学研究院硕士学位论文以便将搜索限制在有兴趣的模式上。数据2 2w e b 挖掘2 2 1w e b 挖掘定义图2 1 典型数据挖掘系统结构i n t e r n e t 的迅速发展使得w w w 上的信息量飞速增长,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。因此对强大有力的w e b 数据分析处理工具提出了要求,而日趋成熟的数据挖掘技术正好为w e b 挖掘提供了技术基础。w e b 挖掘是将数据挖掘技术应用于大规模w e b 数据,以期发现有效的、新颖的、潜在有用的,以及最终可理解的模式和规则的过程。相对于w e b 上的数据而言,传统的数据库中的数据,其结构性很强,即其中的数据为完全结构化的数据,而w e b上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然,面向w e b 的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多:( 1 ) 异构数据源环境:w e b 网站上的信息是异构:每个站点的信息和组织都不一样;存在大量的无9武汉邮电科学研究院硕士学位论文结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。( 2 ) 数据的是复杂性:有些是无结构的( 如w e b 页) ,通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的( ! h e m a i l ,h t m l 页) 。当然有些具有很好的结构( 如电子表格) 。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。( 3 ) 动态变化的应用环境:w e b 的信息是频繁变化的,像新闻、股票等信息是实时更新的。这种高变化也体现在页面的动态链接和随机存取上。w e b 上的用户是难以预测的。w e b 上的数据环境是高噪音的。简单地说,w e b 挖掘是指从w e b 服务器上的数据文件中提取人们感兴趣的知识的过程。w e b 挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析,以实现对w e b 存取模式、w e b 结构和规则的分析,以及动态w e b p 勺容的查找,改善网站设计,实现用户提供个性化服务。w e b 挖掘是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用。2 2 2w e b 挖掘分类w e b 信息的多样性决定了w e b 挖掘任务的多样性。网络中有各种各样的数据资源,可以将这些资源分为四类,第一类是内容( ( c o n t e n t ) ,即网页上的真正数据:第二类是结构( s t r u c t u r e ) ,即描述内容组织的数据:i n t r a p a g e 结构信息包括各种h t m l 或x m l 标记及其出现的序列等,其中的主要结构信息是网页之间的超链接属性;第三类是使用( u s a g e ) ,是网页被人浏览的记录,j i i p 地址、访问时间等,这些信息可以从w e b 服务器的日志文件获得。第四类是用户资料( u s e rp r o f i l e ) ,是某个网站中记录的用户资料。按照研究的w e b 数据对象,w e b 挖掘可以分为三类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) ,如图2 2w e b 挖掘分类所示:1 0武汉邮电科学研究院硕士学位论文2 2 。2 1w e b 内容挖掘图2 2w e b 挖掘分类劲对站点的w e b 页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。w e b 勾容挖掘是从w e b 文档内容或其描述中抽取知识的过程。w e b文档包含了各种不同种类的数据类型,例如:文本、图片、声音、视频、元数据( 是指关于数据的数据,用以描述数据的属性) 和超链接等。对于这些不同类型数据的挖掘通常称之为多媒体数据挖掘。从这个方面来说,w e b 内容挖掘是一种多媒体数据挖掘。另外,w e b t 为容数据是由非结构化数据( 例如:自由文本) 、半结构化数据( 例如:h t m l 文档) 和结构化数据( 例如:由h t m l 页面生成数据表) 构成。将数据挖掘的技术应用于非结构化数据的研究又称之为文本挖掘。由此,我们可以看出w e b 内容挖掘的研究范围非常广泛。w e b 内容挖掘的研究方法可以分为两类:基于智能体的方法( a g e n t - b a s e da p p r o a c h ) 和数据库方法( ( d a t a b a s ea p p r o a c h ) 。基于智能体的方法是运用软件系统( 或智能体) 执行w e b 内容挖掘的任务,例如:当前绝大多数搜索引擎都是用这种方法。通常,基于智能体的w e b 挖掘系统分为二类:智能化的搜索智能体( i n t e l l i g e n ts e a r c ha g e n t s ) 、信息过滤分类( i n f o r m a t i o nf 订t e r i n g c a t e g o r i z a t i o n ) ,和个性化w e b 智能体( p e r s o n l i z e dw e ba g e n t s ) 。武汉邮电科学研究院硕士学位论文2 2 2 2 w e b 结构挖掘w e b 结构挖掘是对w e b 页面之间的链接结构进行挖掘。在整个w e b 空间里,有用的知识不仅包含在w e b 页面的内容之中,而且也包含在页面的链接结构之中。对于给定的w e b 页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。w e b 结构挖掘从w w w 的组织结构和链接关系中推导知识的过程。它试图发现w e b 链接结构中潜在的模型,而这种模型是建立在超链拓扑基础上的。同时,挖掘出的模型能够被用于w e b 页面分类,并且有助于生成一些有用的信息( 例女l w e b站点之间的相似性和关系信息) 。值得一提的是,w e b 结构挖掘能够用于发现某个主题的权威网站和关于此主题的所有网站的概貌。这方面工作的代表有p a g e r a n k 2 6 、h i t s 2 7 和c le v e r 2 8 。2 2 2 3 w e b 使用挖掘w e b 使用挖掘主要是通过对用户在访问w w w 服务器时留下的访问记录进行挖掘,从而获得有关用户的访问模式。挖掘的对象主要是在服务器上的日志信息。w e b 使用挖掘是从w e b 使用数据或w e b 日志中抽取“感兴趣”的模式的过程。嗍中的每个服务器都保留了访问日志( w e ba c c e s sl o g ) 记录了关于用户访问和交互的信息,分析这些数据有重要的意义。目前,国内外对这方面的研究不仅仅局限于对w e b 日志的挖掘,从更广泛的意义上说是从多方面对用户使用w e b 的行为规律的分析和研究。w e b 使用挖掘主要有两个研究发展方向:一般化的访问模式追踪( g e n e r a la c c e s sp a t t e r nt r a c k i n g ) 和个性化的使用记录追踪( c u s t o m i z e du s a g et r a c k i n g ) 。一般化的访问模式追踪是从w e b 日志中挖掘用户的访问模式和预测用户的访问趋势。个性化的使用记录追踪是挖掘某一类或某几类用户( 甚至某个用户) 访问网站的行为规律,这使得网站能够动态地为用户提供个性化的服务以极大地满足用户的需求。所谓的个性化服务是指w e b 站点为适应某一类或某一个特定用户的需1 2武汉邮电科学研究院硕上学位论文要而实时地调整数据的组织和显示。种实现个性化服务的方法是允许用户手工定$ o w e b 站点显示选项,系统将记住每个用户的定制,并在该用户再次进入该网站时进行相应的调整。目前,主要有两种w e b 使用挖掘方法:基于w e b 事务的方法和基于数据立方体的方法。下面分别介绍这两种方法:方法一:基于w e b 事务的w e b 使用挖掘方法基于w e b 事务的w e b 使用挖掘方法,分为模式发现和模式分析两大步骤。其过程如图2 3 基于w e b 事物的w e b 使用挖掘方法所示:图2 3 基于w e b 事物的w e b 使用挖掘方法在模式发现中,首先要解决的问题就是数据的预处理,将日志数据分割成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问模式,模式分析利用领域专家的知识以及其它一些可用的标准来分析这些模式,并过滤掉那些没有利用价值以及有偏差的模式。( 1 ) 数据预处理阶段w e b 服务器日志中的内容非常丰富,但是由于本地缓存、代理服务器、防火墙的存在,使得直接在w e b 日志数据上进行挖掘变得十分困难和不准确。因此在实施数据挖掘之前,首先必须对w e b 日志文件进行数据清理、用户识别、会话识别、路径补充等一系列预处理工作。( 2 ) 模式发现阶段w e b 使用挖掘经过数据预处理阶段后,就生成了事务数据库。模式发现阶段即挖掘算法实施阶段,它是运用各种方法和算法从w e b 日志数据中挖掘和发现用户使用w e b 的各种潜在的规律和模式。这一阶段使用的方法和算法不仅仅来自数据挖掘领域,还包括统计学、机器学习和模式识别等。武汉邮电科学研究院硕士学位论文( 3 ) 模式分析阶段模式分析阶段是整个w e b 使用挖掘过程的最后一步。模式分析的动机是过滤掉模式发现阶段产生的“不感兴趣”的规则和模式。由于w e b 使用挖掘在大多数情况下属于无偏向学习,它可能挖掘出所有的模式和规则。其中有些模式是常识性的,普通的或最终用户不感兴趣的。由此看来,必须采用模式分析方法使得挖掘出来的规则和知识具有可读性和最终可理解性。常见的模式分析方法有图形和可视化技术、数据库查询机制、数理统计和可用性分析等。方法二:基于数据立方体的w e b 使用挖掘方法基于数据立方体的w e b 使用挖掘方法如图2 4 基于数据立方体的w e b 使用挖掘方法所示,根据w e b 服务器日志文件,建立数据立方体( d a t ac u b e ) ,然后对数据立方体进行数据挖掘和联机分析处理( o l a p ) 。和基于w e b 事务的使用挖掘方法相似,基于数据立方体的e b 使用挖掘同样要经过预处理、模式识别、模式分析三个阶段:日志发现知识图2 4 基于数据立方体的w e b 使用挖掘方法( 1 ) 预处理阶段预处理过程包括对w e b 日志进行数据清理和数据转换。共有两类数据清理和数据转换的方法:一类需要站点上相关资源的知识,一类不需要。例如,清理登陆w e b 站点的日志数据和时间域值、把i p 地址转换成域名的形式等都是不需要任何关于站点本身的知识:然后把一个服务器请求或一个请求集合与一个故意的行为或事件相关联,就需要站点结构的相关知识的。经过数据清理和数据转换后,w e b 日志被装入一个关系型数据库中。( 2 ) 模式识别即建立数据立方体,进行联机分析处理( o l a p ) 。将所访问的u r l 、访问方法、1 4武汉邮电科学研究院硕士学位论文访问资源的类型和大小、请求和停留的时间、访问者的域名和i p 、用户、服务器状态等作为d a t ac u b e 的维变量,将对不同页面和文件的请求次数、来自不同i n t e r n e t 域名的请求次数、事件、会话、带宽、错误次数、不同浏览器种类等作为d a t ac u b e 的度量变量建立数据立方体。然后,运用逐层细化分析( d r i l l 一d o w n ) 、汇总分析( d r i l l 一u p ) 、切片分析( s 1i c e ) 和切块分析( d i c e ) 等技术对d a t ac u b e 进行联机分析处理。逐层细化分析是从一般到特殊的分析过程,如时间上从“年 、“月 到“日”的逐层细化;汇总分析是从特殊到一般的分析过程,例如地域上从某个区域到某个国家;切片分析是在多维数组的某一维上选定一组成员,得到一个多维数组的子集。切块分析方法是在多维数组的某一维上选定某一区间的维成员后得到的结果。( 3 ) 数据挖掘,模式分析利用成熟的数据挖掘技术( 如特征、性能、分类、关联、预测、时间序列分析、趋势分析等) 进行w e b 流量分析、典型的事件序列和用户行为模式分析、时间分析等。例如,应该在怎样的上下文环境下使用特定的成分和特征? 典型的事件序列是什么? 不同的用户群在使用和访问模式方面有什么不同? 在某一特定的环境下最普遍的用户访问模式是怎样的? 用户行为随时间的不同有什么变化? 用户的使用模式将如何随着系统性能、服务质量的不同而变化? 网络流量的分配与时间的关系如何?虽然在w e b 使用挖掘中,基于w e b 事务的方法和基于数据立方体的方法都是分三个阶段进行挖掘,但是它们在预处理阶段和模式识别阶段所采用的方法都不相同,而且它们还各有其特点。基于w e b 事务的日志挖掘方法侧重于用户访问模式的挖掘和分析,即找出每一个用户的频繁访问序列模式,从而进行以事务和序列为出发点的知识发现,这正是与w e b 应用的特性相符合。而基于数据立方体的使用挖掘,侧重于将w e b 日志转变为结构化的数据立方体,能从多角度、全面地进行挖掘和分析,并能引进各种成熟的数据挖掘技术,有利于w e b 挖掘与数据挖掘技术的迅速融合与发展。2 2 3w e b 挖掘主要流程从数据库研究的角度出发,w e b 网站上的信息可以看作一个更大、更复杂的武汉邮电科学研究院硕士学位论文数据库,与传统数据和数据仓库相比,w e b 上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接用w e b 网页上的数据进行数据挖掘,而必须经过必要的预数据处理。典型的w e b 数据挖掘主要包括以下几个步骤:( 1 ) 查找资源:任务是从目标w e b 文档中得到数据,包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过w e b 形成的交易数据库中的数据。( 2 ) 信息选择和预处理:任务是从取得的w e b 资源中剔除无用信息和将信息进行必要的整理。( 3 ) 模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。( 4 ) 模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。2 3 网络日志挖掘的一些概念w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 组织在1 9 9 9 年制定了一套规范的w e b 相关的术语。这里我们列出一些与本文相关的术语及概念。w e b 服务器日志:w e b 服务器在响应用户的请求时,将用户请求的文件发送出去的同时把这次请求相关信息写入日志。w e b 服务器日志记录了用户访问相关站点的信息,一般分三种类型:访问日志( a c c e s sl o g ) ,代理日志( a g e n tl o g ) ,引用日志( r e f e r r e rl o g ) 。访问日志主要记录基本的请求信息,包括:用户的i p 地址、时间戳、方法( g e t ,p o s t ) 、被请求文件的u r l 、超文本传输协议( h t t p ) 的版本号、返回码( 请求的状态,成功或错误码) 、传输字节数。代理日志记录用户使用的操作系统以及浏览器类型。引用日志记录用户的请求是哪个u r l 。请求( r e q u e s t 或h i t ) :向w e b n 艮务器请求一个文件的动作,对于用户来说是点中某个超链接,对于服务器来说一个请求对应一条日志记录。要说明的一点是一个w e b 页面可能包含多个文件,女i h t m l 及声音和图像,此时用户虽然只点中一个超链接,但是相应的有多个请求,在日志中就有多行记录,一个w e b 页面对应的请求数可以通过查看w e b 日志得到。c o o k i e :首先由n e t s c a p e 公司开发的一种用于追踪用户的机制。用户第一次1 6武汉邮电科学研究院硕士学位论文访问站点时,w e b h 艮务器为其分配一个唯一的标识符并保存在用户的计算机中,用户再次访问该站点时,浏览器将该标识符回送给w e b h 艮务器,由此来识别用户。网络爬虫( s p i d e r 或c r a w l e r ) :一种网络软件工具,通过分析w e b 站点的每个h t m l 文件,建立与h t m l 文件对应的超文本链接目录,然后跟踪每一个超链接,直到w e b 站点的所有页面都被遍历,最终获得w e b 站点的结构文件。用户会话( u s e rs e s s i o n ) :一段时间内用户对一个或多个网站的访问请求。服务器会话( s e r v e rs e s s i o n ) :用户会话中对应于本服务器的访问请求。由于本文中所提到的w e b 日志挖掘一般只是面向一个服务器的,所以在本文中,用户会话和服务器会话的含义一致,指用户在一段时间内访问w e b 站点时所有请求的页面。用户会话文件中包含访问w e b 站点的用户、请求的页面及顺序、每一页阅读的时间等。在本文的后续部分,我们将统一采用用户会话这一术语。页视图( p a g ev i e w ) :用户点击一次超链接后在浏览器中得到的一个屏幕1 轧,显示,页视图可能由许多文件构成。一个页视图代表用户的一次点击动作。秽2 3 1 网络日志数据源。勘w e b h 艮务器响应用户请求时,在将请求的文件下传给用户的同时会把请求的相关信息写入日志文件。日志文件主要包括访问日志、引用日志和代理日志等。蓼用户每访问一个页而,w e b 服务器的日志中就会增加一条记录。不同w e b 服务器产品的日志记录格式不同,但通常都包括访问者的i p 地址、访问时间、访问方式( g e t p o s t ) 、访问的页面、协议、错误代码以及传输的字节数等信息。通过w e b 数据挖掘可以了解整个w e b 系统被访问的情况。数据挖掘中的一个重要步骤是建立数据挖掘的对象,即合适的数据集合。在w e b 日志挖掘中,w e b 数据可以是在服务器端、用户端、代理服务器端或者是应用所需的数据库。这些数据并不仅仅意味着存放在不同的位置,它还包含了w e b 世界中不同的浏览模式,例如单用户单站点模式、单用户多站点模式、多用户单站点模式、多用户多站点模式。通常,用户端的日志为单用户多站点的浏览模式,服务器上的日志则意味着多用户单站点模式,而代理服务器上的日志是多用户多站点模式的典型代表。本文通过在校园网上设置代理服务器,使用s q u i d 代理,对s q u i d 代理服务器中日志进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人物写生线描课件
- 管道铺设毕业论文范文
- 2025年及未来5年市场数据中国滚筒干燥机行业发展监测及投资战略规划研究报告
- 2025年及未来5年市场数据中国丙烯酸树脂行业市场前景预测及投资方向研究报告
- 2025年及未来5年市场数据中国电池隔膜行业市场调查研究及投资前景预测报告
- 2025年及未来5年市场数据中国补胎充气一体机行业发展前景及投资战略规划研究报告
- 2025年及未来5年市场数据中国三轮电动老年车市场发展前景预测及投资战略咨询报告
- 2025年及未来5年市场数据中国硼酸锌行业市场调查研究及投资前景预测报告
- 2025年及未来5年市场数据中国轨道车辆制动设备市场供需现状及投资战略数据分析研究报告
- 2025甘肃定西市陇西县人力资源有限公司招聘工作人员4人笔试历年参考题库附带答案详解
- 江苏省2026年普通高中学业水平合格性考试英语仿真模拟卷01(春季高考适用)(全解全析)
- 2025年中铁党建考试试题及答案
- 管业制造安全应急预案范文
- 人工运动场草坪施工方案
- 专科会计职业生涯规划
- 2025届高三八省联考(四川)政治试题及答案
- 制药行业质量意识培训
- 2025贵州毕节织金县公安局面向社会招聘警务辅助人员140人考试笔试备考试题及答案解析
- 财政局岗位业务测试(会计、社保专管员)试题附答案
- 购物中心招商调整汇报
- 电焊作业专项施工方案
评论
0/150
提交评论