




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于Web日志的网络使用挖掘算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于w e b 日志的网络使用挖掘算法研究 摘要 随着i n t e r n e t 的快速发展和广泛应用,如何合理地规划网络建设,为网络 使用者提供更加人性化的服务是目前的一个重要的研究方向。通过网络使用挖掘 分析用户的浏览行为可以为页面改造和网站整体架构优化提供有益的指导。 首先本文对w e b 使用挖掘进行了系统阐述,之后针对w e b 使用挖掘在数据 预处理阶段的主要任务,提出了一种改进的面向时间和导航相结合的启发式会话 构造算法。接着本文又以用户会话所包含的用户页面访问序列为数据源进行用户 聚类,提出了一种非数值型数据相似度的计算方法,实现了基于用户访问序列的 用户聚类。该聚类结果可以为网络站点结构优化以及个性化服务提供依据。 最后本文建立了一个网络日志挖掘的实验系统,在数据预处理阶段实现了 面向时间和导航的启发式会话构造方法;在模式发现阶段完成了基于用户访问序 列的用户聚类。 关键词:w e b 使用挖掘,会话构造,页面访问序列、用户聚类、相似度 t h er e s e ar c ho fw e bu s a g em inin gaig o rit h m b a s e do nw e bl o g a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n da p p l i c a t i o no fi n t e r n e t ,i ti s b e c o m i n go n eo ft h ei m p o r t a n tr e s e a r c hi s s u eh o wt op r o g r a m m i n ga n d m a i n t a i n i n gaw e b s i t er e a s o n a b l y ,a n dt op r o v i d ep e r s o n a ls e r v i c e st ow e b u s e r s t h r o u g hw e bu s a g em i n i n g ,a n a l y z i n gu s e rb e h a v i o r sc a ng i v e s u g g e s t i o n sa n dg u i d a n c et oo p t i m i z el a y o u to fs o m ep a g e sa n dt h ew h o l e a r c h it e c t u r eo fw e bsit e f i r s t ,t h e e n t i r e p r o c e s so f w e bu s a g em i n i n gi si n t r o d u c e d s y s t e m a t i c a l l yb yt h ep a p e r s e c o n dt h i sp a p e rf u r t h e r s t u d i e st h em a i n t a s k o fd a t ap r e p r o c e s s i n g ,a n da ni m p r o v e da l g o r i t h m o fs e s s i o n r e c o n s t r u c t i o nh e u r i s t i c so r i e n t e dt ot i m ea n dn a v i g a t i o ni sp r e s e n t e d a i m e da tt h ed a t ar e s o u r c ew h i c hi n c l u d et h eb r o w s i n gp a t h ss e r i e so fu s e r s e s s i o n ,an o n n u m e r i cd a t as i m i l a r i t yc o m p u t a t i o na p p r o a c hb ep r o p o s e d a n df r o mw h i c ht h eu s e rc l u s t e r i n gb ec a r r i e do u t ,i tm a yp r o v i d ea r e f e r e n c et oo p t i m i z el a y o u to fp a g e sa n dt h ea r c h i t e c t u r eo fa w e b s i t e a tl a s t ,a ne x p e r i m e n t a ls y s t e mo nw e bl o gm i n i n gi sb u i l t a sd a t a m i n i n gp r e p r o c e s s ,ah e u r i s t i cs e s s i o nc o n s t r u c t i o nb a s e do nt i m ea n d n a v i g a ti o nb ec a r r ie do u t ,a n di nt h ep h a s eo fp a t t e r nd i s c o v e r ya u s e r c l u s t e r i n gb a s e dt h es t r u c t u r eo fu s e rb r o w s i n gp a t h s i sc o m p l e t e d k e yw o r d s : w e bu s a g em i n i n g ,s e s s i o nc o n s t r u c t i o n ,p a g e ss e q u e n c e 、 u s e rc l u s t e r i n g 、s i m i l a r i t y 原创性声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:独鱼选日期: 工为c 号2 芗 关于学位论文使用权的说明 本人完全了解中北大学有关保管、使用学位论文的规定,其中包 括:学校有权保管、并向有关部门送交学位论文的原件与复印件; 学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复 制赠送和交换学位论文;学校可以公布学位论文的全部或部分内容 ( 保密学位论文在解密后遵守此规定) 。 签名:丝堑冬 e i 其t l : 导师签名: 欠7 口叮争2 争 f 匀约哆、日期。! 咀三二够 中北大学学位论文 1 1 研究背景 1 引言 近年来,随着w e b 技术的飞速发展与广泛使用,互联网已成为人们获取信息的重 要来源。网络信息的迅速增长和网站结构的日益复杂,在给人们带来丰富信息和极大便 利的同时,也随之产生了一些亟待解决的问题:一方面,每个用户都会有自己的需求和 偏好,而通常在网络中获取有用信息的同时,也会被动地接受许多无用信息,从而浪费 了很多时间。因此用户希望站点根据用户的不同浏览模式提供不同的服务,使用户有网 站真正的在为自己服务的感觉。另一方面,网站经营者面临着诸多问题,如何发现用户 的需要和兴趣,并以客户为中心修改网站,从而提高用户的满意度;如何发现系统性能瓶 颈,找到安全漏洞;如何查看网站流量模式以及找到网站最受关注的部分等等。 w e b 服务器日志是一个结构化较好的记录集,保存了用户访问w e b 各页面的情况, 这样旨在使用数据挖掘技术,从用户与网站的交互信息中,获得用户使用模式的w e b 日志挖掘技术应运而生。 经过时间的积累,w e b 服务器中的w e b 日志文件将越来越大,其中包含客户的信息 越来越多。网站经营者希望有大量的分析工具集来进行及时地分析,从而了解用户对网 络访问的详细情况,以便进一步改进网络系统设计。 w e b 作为目前i n t e m e t 上信息发布的主要渠道,己经显示出巨大的商业价值和应用 潜力。通过挖掘w e b 日志来发现用户访问模式及行为,分析站点的使用情况,可以实现 用户聚类、页面聚类和发现频繁访问路径,可以为网站的改进明确指引方向。同时为网 站提供了更多的便利,协助管理者优化站点,构造合理的w e b 服务器。并让客户和企 业内部用户能实现高效访问,进而为用户提供个性化服务,帮助企业更好地做出商务决 策【l 】,可以说它的重要性是不言而喻的。 1 2w e b 日志挖掘国内外研究现状 在w e b 用户访问信息挖掘的理论研究方面国内外学者也进行了大量研究工作。 中北大学学位论文 c o o l e yr ,m o b a s h e rb 等人首次给出w e b 挖掘的定义。并且给出了一个关于w e b 访问 信息挖掘的系统w e b m i n e r 2 j 。b u e h n e r a g ,m u l v e n n amd 等人首先提出将数据挖掘 技术应用于电子商务的环境下,进行智能化挖掘,他们认为挖掘的对象不仅包括w e b 日志和w e b 页面,还包括市场数据,并且给出了在电子商务环境下,应用w e b 日志挖 掘的一个总的系统框架。h a n 等【3 】将w 曲日志数据保存为数据立方体,然后在其上执行 o l a p 的各种操作,从中发现用户的访问模式。其主要是通过对w e b 站点的日志记录进 行预处理,将日志数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用 传统的数据挖掘方法进行处理,该系统己经实现了关联规则、分类以及时间序列分析。 清华马少平教授等人提出一种基于n 元( n g r a m ) 模型的预测用户访问请求的框架,从而 对用户未来可能进行的w 曲访问请求进行预测。西安交大陆丽娜教授【4 】等人,采用基于 事务的方法,研究w e b 日志挖掘预处理及用户访问序列模式挖掘方法,提出了一种基于 扩展有向树框架进行用户浏览模式识别的日志挖掘方法。 目前国内外基于w e b 日志挖掘的研究工作大致可分为以下三类【5 】: 1 以分析w e b 站点性能为目标,主要从统计学的角度,对日志数据项进行简单的统 计,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。绝大多数商 业及免费的w e b 日志分析工具都属于此类。 2 以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息,w e b 服 务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面,其目的就是提 高用户的满意度和提供个性化的服务。 3 以改进w e b 站点设计为目标,通过挖掘用户的频繁访问路径和用户聚类,重构站 点的页面之间的链接关系,以适应用户的访问习惯,同时为用户提供个性化的信息服务 和有针对性的电子商务活动,应用信息推拉技术构建智能化w e b 站点,自适应站点属 于此类。 1 3 论文的主要内容 本文旨在研究一个以w r e b 日志为主要数据源,使用经过改进的数据预处理算法,建 立重构会话,再采用聚类方法对会话所包含的用户浏览路径进行聚类,得到浏览习惯相 同或相似的用户群,作为网络结构的优化、站点的重构及对网络用户提供个性化服务的 2 中北大学学位论文 参考依据。 本文主要研究内容如下: l 、 认真研究了w e b 日志的预处理过程,分析了时下常用的启发式会话构造方 法中存在的问题,提出了结合面向时间和面向导航为依据的改进的会话构造 方法,最终生成一种有效的页面访问序列,为后面进行的模式发现做了数据 准备。 2 、对目前的用户浏览路径聚类算法进行研究,并提出改进,再利用该算法对用 户会话进行聚类,得到访问习惯相似的用户群。 1 4 论文的组织结构 论文整体组织结构安排如下: 第一章引言:介绍了本课题的背景、实际意义以及应用价值,还关注了当前领域 的进展以及发展趋势。 第二章w e b 日志挖掘理论基础:对w e b 挖掘、w e b 日志挖掘的基本概念和方法进 行了阐述。 第三章w e b 日志挖掘中的数据预处理:首先分析了w e b 日志挖掘的数据预处理过 程,在分析了基于时间和基于导航的会话构造方法后,提出了面向时间和面向导航相结 合的改进的启发式会话构造方法。 第四章以在第三章所构造的有意义的用户会话为数据源,进行基于用户访问页面 序列的用户聚类:在对现有用户聚类算法进行分析和研究后,提出了改进的基于用户会 话所包含的用户访问页面序列聚类算法。 第五章基于用户会话的用户聚类系统:利用第三章提到的会话构造方法和第四章 提出的用户聚类算法,进行基于w ,e bs e r v e rl o g 的w e b 使用挖掘实验,得到访问习惯 相似的用户群组。 第六章总结与展望:对本文所做的工作进行了总结,并对下一步工作进行了展望。 3 中北大学学位论文 2 1w e b 挖掘 2 w e b 日志挖掘理论基础 w e b 可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特 性 6 1 。人们使用w e b ,大致有如下需求: 从w e b 上的大量的信息中发现用户感兴趣的信息:一般通过搜索引擎查找信息, 既查不准也查不全,迫切需要一种新的更有效的工具来挖掘w e b 上所蕴含的丰 富信息,解决搜索引擎查询结果的低精度和无序性的问题。 将w e b 上的丰富信息转化为有用的知识:w e b 挖掘是面向w e b 数据进行分析 和知识提取的。在i n t e m e t 上页面内部、页面间、页面链接、页面访问等都包含 了大量对用户有用的信息,而这些信息的深层次涵义很难被用户直接使用,必 须经过浓缩和提炼。从某种意义上说,这正是w e b 挖掘所解决问题的出发点和 目标。 对用户进行信息个性化:i n t e m e t 是一个开放网络,其上的信息可以说是无所不 包的,但是不同的用户对信息的需求是不一样的。对于网站经营者来说,要想 提高网站对用户的吸引力,就必须为不同的用户提供针对性服务。信息个性化 是目前网络的发展趋势,通过w e b 数据挖掘,对总体用户的访问行为、频度、 内容等进行分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改 进我们的w e b 服务方的设计。更重要的是通过这些用户对特征的理解和分析有 助于开展有针对性的电子商务活动,也就是通过w e b 挖掘,分析用户,提取用 户特征,为每个用户提供个性化界面、个性化服务。 w e b 挖掘主要用来解决上述问题,传统数据挖掘技术在理论上已经比较成熟,这些 技术的发展和积累使w e b 信息资源挖掘成为可能。 2 1 1w e b 挖掘的概念 w e b 挖掘就是针对包括w r e b 页面内容、页面之间的结构、用户访问信息、电子商务 信息等在内的各种w 曲数据,应用数据挖掘方法以帮助人们从w w w 中提取知识,为 4 中北大学学位论文 访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。【9 】 w e b 挖掘所处理的信息包括w e b 文本、w e b 图片、w e b 视频、w e b 日志等各种媒 体信息。其基本过程包括【7 】: w e b 信息的获取:任务是从目标w e b 文档中得到数据。有时信息资源不仅限于 在线w e b 文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚 至是通过w e b 形成的交易数据库中的数据。采用人工提交或软件搜索方式获取 这些信息。该过程完成与信息检索( i r ) 有关的任务,强调速度、查全率与查 准率。 w e b 信息的选择和预处理:任务是从取得的w e b 资源中剔除无用信息和将信息 进行必要的整理。例如从w e b 文档中自动去除广告连接、去除多余格式标记、 自动识别段落或者字段,清理w e b 信息中的错误信息,获取信息间的关系和逻 辑表示以及非结构化信息的结构化转换等。是与信息抽取( i e ) 有关的任务 发现模式:运用机器学习( m l ) 、数据挖掘技术获取知识、发现站点的模式。 可以在同一个站点内部或在多个站点之间进行。 结果的评估和解释:可以是机器自动完成,也可以是与分析人员进行交互来完 成。 2 1 2w 曲挖掘的分类 w e b 挖掘的分类方法有很多,如按w e b 文本的语言分、按挖掘站点的属性( 如企业 f - p 、政务门户、个人站点) 分等。目前多数人倾向于按所挖掘的站点信息来源将w e b 挖掘分为三类:w e b 内容挖掘,w e b 结构挖掘和w e b 使用挖掘,如图2 1 所示。当然如 果有必要,也可以将w e b 页面内容、w e b 站点结构以及w e b 日志这三类数据融合在一 起进行模式挖掘,发现有用信息f 引。 5 中北大学学位论文 w e b 挖掘 w e b 内容挖掘ilw e b 结构挖掘ilw 曲使用挖掘 w e b 文 档挖掘 搜索结 果挖掘 网络组 织挖掘 2 1 2 1w e b 内容挖掘 网页弓 用挖掘 一般访问ii 定制使 模式跟踪ii 用跟踪 图2 1w e b 挖掘的分类 w e b 内容挖掘是指从w r e b 网页内容( 包括文本、超文本、图像、音视频、元数据等 多媒体信息) 中自动发现和获取知识【9 l 【l o 】,其特点是数据是无结构或半结构化的。w e b 内容挖掘可用于协助用户搜集信息或根据用户的目标过滤无用的信息。目前的主要成果 是在w 曲文本挖掘上。它和通常的平面文本挖掘的功能和方法比较类似,但由于w e b 文档中存在标签,因此可以利用这些标签来提高w e b 文本挖掘的性能。一些研究工作 还结合了文档之间的超链结构【】。 w e b 内容挖掘可分为两类:一类是面向i r 的w e b 内容挖掘,目的是从用户的角度 出发,改善信息检索质量或者信息过滤的性能:另一类是面向数据建模的w e b 内容挖 掘,通过挖掘数据模式,实现数据集成,并且能够象关系数据库那样对w e b 数据执行 一些复杂的查询。常见的方法是将文档内容抽取到某个数据模型中。【i l l 与数据库中的结构化数据相比,w e b 文档具有有限的结构,或者根本就没有结构。 即使具有一些结构,也是着重于格式,而非文档内容。文档的结构不一致,文档的内容 是自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技 术无法直接应用于其上,需要对文本进行预处理,抽取代表其特征的元数据,作为文档 的中间表示形式。文本特征分为描述性特征,例如文本的名称、日期、大小、类型等; 以及语义性特征,例如文本的作者、机构、标题、内容等。描述性特征易于获得,而语 义性特征则较难得到。w 3 c 制定的x m l ,r d f 1 2 】等规范提供了对w e b 文档资源进行描 述的语言和框架。在此基础上,可以从半结构化的w e b 文档中抽取作者、机构等特征。 w e b 内容的表示是w e b 挖掘中的基本问题,w e b 挖掘中的很多课题( 如分类、聚 6 中北大学学位论文 类、网页间关系的学习、规则或模式的抽取等) 均与此相关。经典的文本表示采用了向 量空间的表示方法【1 3 j 。在该方法中,文档空间被表示成一组正交词条矢量所构成的矢 量空间,而忽略词的出现顺序。特征的取值可以是布尔值( 根据词条是否出现分别取l 或0 ) ,或基于词频的函数值。同时要进行特征选择,如基于信息增益、互信息、熵、概 率比率、隐形语义索引等实现向量的降维。其它的一些表示考虑了词在文档中的位置、 n - g r a m ( 词序列的最大长度为n ) 、短语表示、文档的概念类别、概念的包含关系【1 4 】、术 语f 1 5 1 及其u r l 等【1 6 1 。 w e b 内容挖掘常用的领域有分类、聚类、关联分析、w e b 主题发现与跟踪、预测分 析、提取规则发现、w e b 内容变化规律检测、用户模型、频繁子结构发现、站点数据模 式挖掘、数据集成等。 c r a v e n 采用归纳逻辑设计学习w - e b 网页间的关系、学习规则抽取,同时用n a i v e b a y e s 进行超文本分类【1 刀;j o a c h i m e s 利用增强学习进行超文本预测;s h a v l i k 应用神经 网络进行超文本( 主页) 分类;s i n g h 利用修正的关联规则发现半结构化的模式。 一些研究集中在模式的抽取和发现或者建立数据向导以辅助用户的检索辐r 般而 言,模式或向导是关于半结构化数据的一种结构化文摘。由于实用化和计算复杂性的原 因,这种文摘是一种近似的结构:在应用中并不发现全局模式,而是在半结构化数据中 寻找高频子结构。 另一个研究是建立多层数据库m l d b 表示i n t e m c t ,每一层通过对低层的泛化得到。 最底层( 0 层) 存放i n t e m e t 上最原始的信息,高层比底层更具概括性。同时应用特殊 的w e b 挖掘的查询语言从文档的m l d b 中抽取知识。一些应用于w e b 半结构化数据的 查询语言见文献。 聚类和分类也是内容挖掘的主要内容。b j o r n a rl a r s e n , c h i n a t s u a o n e 提出了使用线 性时间文档聚类的快速的文本挖掘方法【1 8 】:将文档映射为其主题的向量空间模型表示, 将向量空间中的点按距离聚类,形成类别的层次结构。距离的计算采用余弦距离。将文 档赋给与其中心最接近的类。 在网页聚类方面i b m 的d h a e m e n d r as m o d h a 同时综合利用了文本向量、内链向量, 外链向量作为衡量网页之间相似关系的因素,并在聚类算法中考虑如何选取这三个因素 的最佳权重。此外,对聚类结果的每个类给出了六种描述信息,这些信息分别从词、链 7 中北大学学位论文 接的角度方便用户快速洞察每一类个性与类别内页面的共性。 2 1 2 2 w e b 结构挖掘 由于w e b 网页具有比纯文本更为丰富的结构:不仅具有文本信息,而且具有表示网 页之间关系的链接。所以在w e b 结构挖掘中主要目标是利用w e b 文档之间的超链结构 进行分析【i9 。主要的研究起源于社会网络和引述分析。w e b 页面包含了从一个页面指向 另一个页面的超链接,而超链接信息包含了人类潜在的注释。大量的w e b 超链接信息 提供了关于w e b 页面内容相关性、质量和结构方面的信息,反映了文档之间的包含、 引用或者从属关系。引用文档对被引用文档的说明往往更客观、更概括、更准确。它有 助于自动推断出页面的权威性。所谓权威页面是在一个主题内被高度引用或参考的网 页。与其相关的另一个概念是枢纽页面,也就是那些指向许多权威页的页面。权威页面 和枢纽页面展示了强烈的相互增强关系;一个好的枢纽指向了许多好的权威;一个好的 权威被许多好的枢纽所指【2 们。在信息检索中可以将高权威分和枢纽分的网页视为高质量 的网页,优先提供给用户。这样就可以通过分析超链拓扑结构发现w w w 上超链社区。 对于检索结果或指定的网页集合,可以构建一个有向图;每个结点表示一个网页,超链 表示结点间的有向边。网页权威分和枢纽分的计算算法见文献【2 i 】 2 2 j 。 h i t s 、p a g e r a n k 2 3 l 等给出了模型化w 曲拓扑结构的算法。h i t s 通过给链接结构增 加内容信息,使用外层过滤进行了算法改进。这些算法主要是用作计算每个网页的质量 和相关性的手段。基于h i t s 算法的系统有c l e v e r 和g o o g l e 2 3 】等。其它的一些应用包括 网页分类以及发现w e b 上的小社区。m a d r i a 讨论了w e b 结构挖掘在数据仓库中的应用。 2 1 2 3w e b 使用挖掘 w e b 使用挖掘又叫w e b 日志挖掘,它是对用户访问w e b 时在服务器方留下的访问 记录进行挖掘,即对用户访问w e b 站点的存取方式进行挖掘。挖掘的对象除了在服务 器上的包括s e r v e rl o gd a t a 在内的日志文件记录,还包括代理服务器日志、浏览器端日 志、注册信息、用户会话信息、交易信息、c o o k i e 中的信息、用户查询、鼠标点击流等 一切用户与站点之间可能的交互记录1 2 4 。 w e b 服务器上的日志数据是w e b 使用挖掘的最重要的数据。它明确地记录了站点访 8 中北大学学位论文 问者的浏览行为,为站点管理人员提供各种有利于w e b 站点改进或可以带来经济效益 的信息。日志信息有不完全的现象,如通过调用缓存页的访问就不会被记录在日志中。 在用户同意的前提下可以通过使用远程a g e n t 或者对现有浏览器代码的修改来实现客户 端数据的收集。采用p r o x y 跟踪可以揭示从多个客户到多个服务器的h 1 v r p 请求,可以 用作描述共享一个p r o x y 服务器的一组用户浏览行为的数据源【2 5 1 ,用于对未来网页调用 的预测。 挖掘日志信息包括四个阶段:数据预处理、挖掘算法实施、模式分析、可视化。数 据预处理主要是将原始的日志文件进行过滤、筛选及重组后,将之转变为适合挖掘的数 据格式,以用户会话文件的形式保存到数据库中。如同典型的数据挖掘应用一样,数据 的质量和预处理是非常重要的【2 6 】;挖掘算法实施是数据挖掘的核心,根据挖掘任务的不 同,采用不同的挖掘算法,从数据预处理阶段产生的用户会话中寻找用户的浏览模式。 目前流行的挖掘手段包括关联规则和序列模式的发现、聚类和分类等;模式分析利用领 域专家的知识以及其它一些可用的标准来分析这些模式,并过滤掉那些没有利用价值以 及有偏差的模式。可视化阶段将发现的有价值的用户浏览模式以表格、饼图、油线图、 趋势图、直方图或者其它特殊表现形式显示出来。 w e b 使用挖掘可完成以下任务: 网络流量分配情况、随时间变化情况分析。 网站广告点击率、投资收益比分析。 用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。 用户来源分析。 访问站点的用户的浏览器和平台分析。 发现经常被用户一起访问的页面集合,作为优化站点的参照。 聚类行为模式相似的用户,形成智能推荐模式;聚类被同一群用户访问的页面, 帮助发现站点设计的不合理之处。 预测用户可能访问的页面,行为趋势分析,用户分类等。 2 2w e b 使用挖掘 w e b 使用挖掘也叫w e b 日志挖掘,主要研究通过采用数据挖掘的技术对w e b 服务器 9 中北大学学位论文 日志中大量的用户访问记录进行深入分析,发现用户的访问模式和兴趣爱好等潜在有用 以及可理解的未知信息和知识,以便为站点使用情况的分析提供帮助,还可以改进站点 结构、辅助管理和支持决策。 一方面用户对同一网站的兴趣总会有某些共同之处,这能够从他们在服务器日志中 留下的访问记录反映出来,因此通过对服务器日志的挖掘,可以发现用户的共同偏好和 交叉兴趣。另一方面,同一用户在不同时期可能会有不同的访问模式。但是从长远来看, 用户访问行为也会表现出一定的规律和趋势,能够反映用户的兴趣。据统计,大多数用 户在网站上的活动范围是有限的,因此他们的活动中必然包含了许多重复的动作,也就 是说,用户的行为是有规律可循的,w e b 日志挖掘旨在于发现这些规律。此外,由于 w e b 服务器日志中记录了该服务器被外部访问的所有过程信息,通过对这些过程信息的 分析,可以客观地反映服务器的内部结构、组成、内容、访问频度等有关该服务器的重 要信息,对于评价和改进网站服务质量来说是非常宝贵的资源。同时,在任何一个服务 器上都可以方便地得到它的日志文件,数据来源很方便,文件结构较为良好,且数据挖 掘技术的日趋成熟使得对这一不断增长的巨大数据文件的处理变得可能。因此w e b 日志 挖掘是有效的,也是可行的。 2 3 w e b 使用挖掘过程 w e b 日志挖掘的具体步骤如图2 2 所示: 图2 2w e b 日志挖掘过程 1 0 中北大学学位论文 2 3 1 数据收集 日志数据的来源包括服务器端、客户端及代理服务器端。不同的数据源不仅意味着 存放的位置不同,还显示了w e b 世界中不同的浏览模式。通常,客户端的日志包含单 用户对多站点的浏览模式,服务器端的日志则意味着多用户对单站点的浏览模式,代理 服务器上的日志则表示了多用户对多站点的浏览模式。 ( 1 ) 服务器端数据,通过w e b 服务器记录用户访问日志。在w e b 服务器上记录了所 有用户对该网站每次访问的详细请求信息。这种方法能够很全面的记录用户访问页面的 详细信息,例如页面请求时间、用户i p 地址、访问页面的i p 地址等,还可以通过记录 c o o k i e 和c g i 的查询参数来进一步描述各个不同用户的行为。所以,服务器端的日志 数据有利于w e b 访问挖掘的进行,易于分析网络用户的浏览行为。 ( 2 ) 客户端数据。客户端的数据收集可以使用j a v a s c r i p t s 或者j a v aa p p i e r s 舶远程代 理实现。a p p l e t 能记录用户所有的行为但有效率问题而j a v a s c r i p t s 虽然对效率影响不大, 但不能记录用户所有的动作。从客户端收集数据最大的优点是可以直接取得用启的各种 真实信息,这些信息的完整性和真实性都是要好于服务器的。 ( 3 ) 代理服务器端数据,通常在网络中基于安全和效率的考虑需要使用代理服务器【2 7 】 技术。代理服务器在客户端和服务器端扮演着中间传递的角色,而且可以多级级联。通 过代理服务器不仅可以收集多个用户的行为还可以收集用户对多个网站的行为。 2 3 2 数据预处理 w e b 日志挖据首先要对收集来的原始日志进行预处理,将原始的日志文件经过过 滤、筛选以及重组后,转化为适合挖掘的数据格式,再以用户会话文件的形式保存到数 据库中,作为后续的模式发现以及模式分析的数据源。数据预处理是w e b 日志挖掘的 重要阶段,也是工作量较大的一部分,直接影响着挖掘结果的准确度和可信度,它包括 数据净化、用户识别、会话识别、路径补充以及事务识别等环节。 2 3 3 模式发现 模式发现【2 8 】阶段主要对经过数据预处理后的数据利用数据挖掘的算法进行数据分 中北大学学位论文 析,发现知识,作为用户的个性化服务和构建智能w e b 站点的基础。常见的模式发现 算法包括统计、关联规则、聚类、分类、序列模式等,以下将分别进行简单介绍: ( 1 ) 统计:是从w e b 站点中抽取知识的最常用方法。统计方法对会话文件中的各个维度, 例如浏览时间、路径长度,都可以进行频度与平均值的统计分析。许多w e b 日志挖掘 的研究和实现浏览分析的工具会定时提交统计分析报告,这些报告的内容包括最常被访 问的页面,页面的平均浏览时间和平均路径长度。有些统计报告还提供了简单的错误分 析功能,例如探测非法访问的次数、出错最多的u r l 等。尽管这种日志分析相对缺少 深度但仍有助于改进系统性能增强系统安全性,便于站点修改,并能为网站管理者提供 决策支持。 ( 2 ) 关联规则:旨在通过用户会话发现其中经常被用户一起访问的页面集合。这些页面 之间一般没有顺序关系,如果关联规则中的页面之间没有超链接,那它就是一个我们感 兴趣的关联规则。挖掘关联规则最常使用a p r i o r 算法及其变形算法。关联规则既可以作 为站点设计人员优化站点的参照,也可以作为在w e b 上进行市场开发和商务活动的依 据。同时关联规则还可以作为启发式规则为远程客户预取将来可能请求的页面。 ( 3 ) 聚类:聚类分析是把具有相似特征的数据项归类,它可以帮助网络管理者进行市场决 策。在w e b 日志挖掘中对w e b 日志的聚类分析主要集中于用户聚类和页面聚类。用户 聚类是对用户的会话进行分析,根据用户的访问动作,寻找行为模式相似的用户,将这 些用户分为一组,则组内的用户可以共享一个用户配置文件( u s e r p r o f i l e ) ,这正是本文的 一个研究重点。用户聚类的结果也可以作为智能w e b 站点中模式库中的推荐模式。基于 w e b 日志的页面聚类是通过分析页面被用户访问的情况,寻找被相同用户访问的页面, 将其归为一组,则组内的页面是被同一群用户所访问的具有相同的特征的页面集合。页 面聚类的结果可以被智能w ,e b 站点中的管理员指导模块所使用,帮助发现站点设计的 不合理之处。 ( 4 ) 分类:分类是将数据项按照预先定义的类别进行划分。在w e b 日志挖掘领域中分类 主要是将用户配置文件归属既定的用户类别,可以通过指导性归纳学习算法( s u p e r v i s e d i n d u c t i v el e a r n i n ga l g o r i t h m ) 进行分类,这类算法主要包括决策树分类法,贝叶斯分类法, 最近邻分类法等。 ( 5 ) 序列模式:希望从时序数据集中发现在时间上具有先后顺序的数据项。在w r e b 日志挖 1 2 中北大学学位论文 掘领域中,序列模式识别指寻找用户会话中在时间上有先后关系的页面请求,利用发现 的序列模式可以预测用户即将可能请求的页面。其它方面的序列模式有:趋势分析,转折 点监测,相似性分析等。 2 3 4 可视化 可视化技术是指利用界面图形化来帮助用户挖掘和理解大量复杂数据,为用户管理 和理解包含大量数据的模式提供便利。可视化技术主要分为3 类,挖掘过程可视化、挖 掘结果可视化和知识管理可视化【2 9 1 。 挖掘过程可视化主要是指采用窗口等技术进行交互式的数据挖掘操作。数据挖掘需 要确定的参数较多,而且数据挖掘是一个多次迭代的过程,使用挖掘过程可视化技术可 以简化用户的操作。 挖掘结果可视化是指用图形来表示挖掘出来的结果。关联规则、序列模越分类和 聚类都算法的挖掘结果都可以用二维或者三维图形来表示。 知识管理可视化是对挖掘出来的模式等知识进行管理,给用户提供高效的查询方法 和图形化的表达方式。 2 4w e b 使用挖掘的数据来源 在w e b 日志挖掘中,首先要确定挖掘数据源。w e b 日志数据可从三方面收集:服务 器端、客户端和代理服务器端,其中服务器端的w e bs e r v e rl o g s 是w e b 使用挖掘的核 心数据内容。个人浏览w e b 服务器时,服务器方将产生3 种类型的日志文州3 0 】:s e r v e r l o g s 、e r r o rl o g s 和c o o k i el o g s ,这些文件都是用来记录用户访问基本情况的。以下将 分别介绍这几种文件: s e r v e rl o g s w e b 服务器日志( w e bs e r v e rl o g s ) 主要用来反映多个用户对单个站点的访问行为。 w e bs e r v e rl o g s 详细记录了每个访问该网站的网络用户的访问行为,是w e b 日志挖掘 的主要数据来源【3 i 】 3 2 l ,本文也是采用它作为数据源的。可是由于本地c a c h e 和代理服 务器的存在,使得服务器日志无法正确记录用户的浏览信息,本地c a c h e 可以缓存用 户以前访问过的页面,当用户单击浏览器上的“后退 :按钮时就可以直接调出以前访 1 3 中北大学学位论文 问的页面,而不必向服务器提出请求,对于这类访问s e r v e rl o g s 是无法记录的;当不 同的用户通过同一个代理服务器提出的访问请求时在日志文件中这些记录的客户端i p 地址是完全相同的,这样就为正确识别出不同的用户增加了困难。可以考虑通过 c a c h e b u s t 技术阻止用户缓存,但这样会给本已拥挤不堪的网络带来更多的问题;还可 以考虑使用c o o k i e 自动跟踪用户记录它的访问行为,但是这种方法会涉及到用户的隐 私,需要用户合作才能够顺利进行。 详细的s e r v e rl o g s 日志格式会在2 4 1 中进行详细介绍。 e r r o r l o g s ( 错误日志) 用来存取请求失败的数据,例如丢失链接、授权失败或超时等。 c o o k i e l o g s c o o k i e 是一种由w e bs e r v e r 产生的标记,它被客户端所持有持有,用于自动标记和 跟踪站点w e b 的访问者:在电子商务环境中存储在c o o k i el o g s 中的信息还可以作为交 易信息的一部分。 2 4 1w e b 日志格式 w e b 服务器日志( w e bs e r v e rl o g s ) 是w e b 服务器上用来记录用户访问情况的文件, 主要反映多个用户对单个站点的访问行为。当网络用户通过浏览器发出一个对站点资源 的请求后,系统便将一个包含有请求行、头域( 有时包括信息体) 的请求信息发送给w e b 服务器;服务器对该请求进行解析后,再将处理过的请求内容( 如网页) 传给浏览器的同 时,服务器也在其日志中记录下了这次访问行为,这样就产生了一条日志记录。用户每 访问一个页面,w r e b 服务器的日志就会增加一条记录。 目前的日志文件会以多种数据格式存储在w e b 服务器上。最常见的日志数据格式是 w 3 c 联盟( w o r l dw i d ew e bc o n s o r t i u m ) 规定的常规日志格式c l f ( c o m m o nl o gf o r m a t ) 和扩展日志格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) ,其主要结构如表2 1 所示。 表2 1 日志格式表 域描述 日期( d a t a )记录访问日期 时间( t i m e )记录访问时间 1 4 中北大学学位论文 以 续表2 1 s - s i t e n a m e 虚拟主机代称 c s m e t h o d 用户访问的方法( g e t 、p o s t 、h e a d ) u r i 资源( c s u r i s t e m )用户所请求访问的页面文件 u r i 查询( c s u r i - q u e r y ) 用户欲进行的查询 s - p o r t 服务器被访问的端口号 c s u s e i l l a i t l e访问的用户名 c 。l p 客户端主机的i p 地址或d n s 入口 用户代理( c s ( u s e r - a g e n t ) ) 服务的提供者( 客户段浏览器类型) 协议状态( s c s t a t u s )返回h t t p 的状态标识 s c s u b s t a t u s服务端传送到客户端的字节大小 c 洲n 3 2 s t a t u s客户端传送到服务端的字节大小蕊 t i m e t a k e n 用户获取页面内容所花费的时间 e s v e r s i o n传输用的协议版本 c s ( c o o k i e ) c o o k i e 标识号 c s ( r e f e r e r ) 用户上次访问的页面 # s o f t w a r e :m i c r o s o f ti n t e r n e ti n f o r m a t i o ns e r v i c e s6 0 # v e r s i o n :1 0 # d a t e :2 0 0 9 o1 1 10 0 :2 8 :4 2 # f i e l d s :d a t et i m es - s i t e n a m es - i pc s - m e t h o de s u r i s t e r ne s - u r i - q u e r ys - p o r tc s - u s e r n a m e e - i pc s ( u s e r - a g e n t ) s c - s t a t u ss c - s u b s t a t u ss c w i n 3 2 - s t a t u sc s ( r e f e r e ) 2 0 0 9 0 1 1 10 1 :5 3 :1 7w 3 s v c 9 0 1 0 5 12 2 1 2 0 4 2 5 5 1 1 4g e l h u i t u a n d u i h t m l - 8 0 - 6 0 2 2 3 1 6 8 6 0m o z i l l a 4 0 + ( e o m p a t i b l e ;+ m s i e + 7 0 ;+ w m d o w s + n t + 5 1 ;+ t r i d e n t 4 0 ) 2 0 00 o 这条记录表明,在2 0 0 9 1 1 1 :0 1 :5 3 :1 7 用户通过主机6 0 2 2 3 1 6 8 6 0 对 衄;丛业盟坠曼i ! 苎:坌q 世上的网页h u i t l 删m u i h t m l 发出g e t 请求,并获得成功,用户使用 中北大学学位论文 的浏览器是m s i e 7 0 ,使用的操作系统是w i n d o w sn t5 1 。 日志含义介绍:在日志文件中,记录被称作项或条目。其中:客户端i f ( c - i p ) 是 发出请求的客户端的i p 地址,在p r o x y 代理服务器的环境下为代理服务器的地址。 时间戳( d a t eo rt u n e ) 表示w e b 服务器接受该请求的日期和时间,在整个日志文件中 所有项目以时间戳递增排列。请求域( r e q u e s t ) 包括c s m e t h o d 请求方法,g e t 、p o s t 、 h e a d ,g e t 从w e b 服务器得到对象;p o s t 向w e b 服务器发送信息;h e a d 仅请求一 个对象的h ,n 限头。用户代理c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030医疗云计算解决方案落地效果与优化方向报告
- 2025-2030化工物流行业人才需求特征与专业培养体系研究报告
- 2025-2030创新药医保谈判机制对市场准入的影响研究报告
- 2025-2030农村金融服务创新与农业供应链金融发展分析报告
- 2025年公路客运行业转型升级中的国际化进程与多元化市场布局研究报告
- 2025年智能家居系统集成项目在智能农业中的应用前景报告
- 三坐标知识培训课程课件
- 四川国企面试常见题库精 编
- 钦州教师资格证高级面试题库:高级面试真题及答案解析
- 婚庆与酒店合作协议书
- 八师兵团职工考试题库及答案
- 2025临时工合同协议书模板
- 2025年学习贯彻全国教育大会精神网络培训考试答案
- 推拿学基础题库及答案
- 水利工程档案验收项目法人自检工作报告
- 中考英语688高频词大纲词频表
- 11《蝙蝠和雷达》练习题(附答案)
- 监理回复通知单
- GB/T 39188-2020电动门窗通用技术要求
- GB/T 19355.3-2016锌覆盖层钢铁结构防腐蚀的指南和建议第3部分:粉末渗锌
- GA 38-2021银行安全防范要求
评论
0/150
提交评论