(计算机应用技术专业论文)基于web日志的若干挖掘算法及其应用研究.pdf_第1页
(计算机应用技术专业论文)基于web日志的若干挖掘算法及其应用研究.pdf_第2页
(计算机应用技术专业论文)基于web日志的若干挖掘算法及其应用研究.pdf_第3页
(计算机应用技术专业论文)基于web日志的若干挖掘算法及其应用研究.pdf_第4页
(计算机应用技术专业论文)基于web日志的若干挖掘算法及其应用研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 w e b 日志挖掘是w e b 挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方 便实用的网站,以更有效地进行网上浏览,这是每个网站所追求的目标。此外,w e b 站点能否实现个性 化,为用户提供个性化的服务,亦已成为衡量站点能否成功的重要因素。通过挖掘w e b 日志,可以发 现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。 本文介绍了w e b 数据挖掘的产生背景,简要地阐述了数据挖掘技术与w e b 数据挖掘的一般技术、 方法和策略,对w e b 日志数据挖掘过程及其中各环节的关键技术进行了比较深入的探讨。在分析w e b 日志记录结构及含义的基础上,结合相关课题的研究任务,并以南京信息职业技术学院w w w 站点的 需求为背景,对w e b 日志的若干算法及研究进行了研究,并结合挖掘结果给出了优化设计建议,主要 工作如下: 1 ) 介绍了w e b 日志挖掘的相关基本概念,着重研究了w e b 日志挖掘中的数据预处理过程,将f r a m e 页面过滤技术运用到预处理过程中; 2 ) 对w e b 日志若干挖掘算法进行了研究,介绍了将数据挖掘领域的关联规则挖掘、序列型式挖掘、 聚类等挖掘方法应用于w e b 日志的具体方法和过程,研究了利用路径遍历模式挖掘方法来发现用户浏 览模式的过程; 3 ) 介绍了w e b 日志挖掘结果的应用,利用挖掘出的规则和模式,对w e b 站点的结构和站点内页 面进行调整的改善,并根据用户的浏览情况自动生成导航提示。 关键词:数据挖掘w e b 日志页面过滤路径遍历模式访问模式 a b s t r a c t d a t am i n i n gb a s e do nw e bl o gi sam a i na s p e c to fw e bm i n i n g h o wt om a k et h et l e s r sf i n dt h e i n f o r m a t i o nt h e ya r ei n t e r e s t e di nm o r eq u i c k l ya n de x p e d i e n t l yi st h ea i mo fe v e r yw e bs i t e i ft h es i t e s c a p a b i l i t yi si m p r o v e d ,i tw i l la t t r a c tm o r eu s e r st ov i s i ti t a n dw h e t h e rt h es i t ec a np r o v i d et h ei n d i v i d u a t i o n s e r v i c ei sa ni m p o r t a n tf a c t o rt oe s t i m a t ei t t h r o u g hd a t am i n i n g0 1 1w e bl o g , w ec a nf i n dt h eu s e r st r a v e r s a l m o d e i tw i l lh e l p 惦t oi m p r o v et h es i t e ss t r u c t u r ea n dp r o v i d et h eb e t t e rs e i v i c et ot h eu s e r s t h i sp a p e ri n t r o d u c e t h eb a c k g r o u n do fw e bd a t am i n i n g ,s y s t e m a t i c a l l ye x p a n d s ,t h et e c h n i q u e ,t h e o r y a n ds t r a t e g y ,m a k i n gad e e p e rd i s c u s s i o no nt h ek e yt e c h n i q u eo ft h ep r o c e s si nw e bl o gm i n i n g b a s e do n d a t am i n i n go nt h ew e bl o go ft h ew e b s i t eo fn a n j i n gc o l l e g eo fi n f o r m a t i o nt e c h n o l o g y , s o m eo p t i m i z a t i o n d e s i g n i n gs u g g e s t i o n sa l ep r o p o s e d t h ew o r k sa l ef o l l o w i n g : 1 ) t h er e l e v a n c ec l a s s i c a lc o n c e p to fw e bl o gm i n i n ga l ei n t r o d u c e d i nt h ew e bl o gp r e p r o c e s s i n g a s p e c t , h a v ep r o p o s e do n ek i n di m p r o v e sr e s u l tm e t h o do fp r e p r o c e s s e d - - f r a m ep a g ef i l t e r st e c h n o l o g y 2 ) s o m ea l g o r i t h m so fw e bl o gm i n i n ga l ei n t r o d u c e d t r a n s a c t i o nm o d e l e sa r cc o n s t r u c t e df o rt h e a p p l i c a t i o no fv a r i o u sd a t am i n i n gt a s k ss u c ha st h ed i s c o v e r yo fa s s o c i a t o nr u l e s ,s e q u e n t i a lp a t t e r n sa n ds oo n , a n dt h ec o n c r e t em e t h o d sa n dc o u r s e sd u r i n gt h e i ra p p l i c a t i o na r eg i v e n am e t h o dc a l l e dp a t ht r a v e r s a l p a t t e r n si sa l s or e f e r e n c e dt od i s c o v e ru s e ra c c e s sp a t t e r m s 3 ) f i n a l l y , t h er u l e sa n dp a t t e r m sa c q u i r e da st h er e s u l to fw e bl o gm i n g i n ga r ea p p l i e di nt h ea d j u s t m e n t a n di m p r o v e m e n to fw e b s i t es t r u c t u r ea n dw e bp a g e s ,a n di nt h ea u t o m a t i c a l l y - g e n e r a t e dh y p e r l i n k sf o ru s e r n a v i g a t i o n k e y w o r d s :d a t am i n i n g , w e bl o g , f r a m ep a g ef i l t e r s ,p a t ht r a v e r s a lp a t t e r n s ,a c c e s sp a t t e r n s l i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办 理。 研究生签名:z 堕 导师签名:乏 兰么豸 日期:加,孑p ,g 第1 章绪论 1 1 选题背景 第1 章绪论 近年来万维网已经迅速发展成为一个巨大的全球性信息资源服务中心。它提供了强大 的搜索功能、极强的实时性和超强的交互性,网络作为实时交流和获取知识信息的平台正 为广大网民所钟爱。然而,由于万维网的复杂和庞大,人们越来越被淹没在数据和信息的 海洋中,如何帮助用户从万维网的信息海洋中迅速发现他们所要寻找或者感兴趣的资源和 增强网站的可维护性和安全性,己经成为迫切需要解决的问题。 作为一种将海量数据转换成信息和知识的工具,数据挖掘( d a t am i n i n g ) 技术应运而 生。而w e b 的出现,又将数据挖掘的应用向前推进了一步。由于w e b 上数据的无结构性、 动态性和庞大性等特征,要想在w e b 上找到有效的资源和发现有用的知识具有一定的技术 难度,同时w e b 中所有数据及其存放格式比起以往的数据格式有了很大的突破,这给数据 挖掘技术带来了新的挑战和机遇。实践证明,传统的数据处理方法很难适应对w e b 这一庞 大又复杂的数据源的处理要求。因此,基于w e b 的数据挖掘这一崭新的研究领域产生了。 在网络上,不同层次、不同爱好的浏览者希望网站能够根据他们的浏览习惯,提供个 性化的服务,实现个性化的浏览;而对于网站的经营管理者来说,为了提高网站的点击率、 增加效益,需要了解其客户需要什么和想做什么,其中包括根据大多数客户的共同兴趣, 才能对特定的用户提供个性化的信息服务和开展特定的电子商务活动。 近来,人们试图利用对w 曲信息的挖掘来提高w e b 的功能。但是,传统的数据挖掘 技术所涉及的是结构化数据,而w e b 是一个无集中控制、无统一结构、无完整性约束、可 无限扩充的一个松散的分布式信息系统,从理论上讲,对其挖掘是困难的,获取的知识是 不可靠的。然而,w e b 服务器的日志文件却反映了十分广泛的的信息,每当用户访问w e b 站点时,w e b 服务器中的日志文件( w e bs e v e rl o g ) 记录了每一位用户在访问本站点时的相 关信息。包括:用户的口地址、访问时间、访问的页面、访问的方式、h 1 r p 版本号、返 回码、传输字节数、引用页的u r l 等。因此,分析w e b 日志,构造出用户的行为模式, 对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有 极大的帮助。 网站服务器的w e b 日志数据每天都以惊人的速度增长,即使对于一个小型网站也可能 达到每天增加数十兆的速度,人工分析和处理这些日志数据一般来说是不可能的。如何解 决这个问题? 途径之一就是对传统的数据挖掘技术进行改进,并应用于从海量的w e b 日志 数据中,自动、快速地发现用户的访问模式,如频繁访问路径、频繁访问页组、用户聚类 等。w e b 用户访问信息挖掘所得到的模式既有助于提高网站的性能和安全性,为优化站点 东南大学硕士学位论文 拓扑结构及页面之间的超链接关系提供依据,可作为通过w e b 进行市场开发和开展电子商 务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化w e b 站点的依据。 1 2 国内外研究现状 在国际上,1 9 9 6 年就有学者m s c h e n 、h m a n n i l a 、t y a n 等分别提出了可以将数据挖 掘方法应用于w e b 研究领域【1 h 粥。c h e n 和m a n n i l a 在研究过程中过滤掉了相关图形文件、 声音文件,并使w e b 服务器日志能够如实地反映用户在网站中的访问情况。c h e n 提出了 最大前向参引模型,同时也提出用这种方法来分解用户访问的s e s s i o n 成为一个个的事务 ( t r a n s a c t i o n ) 。然后就可以在事务的基础上,挖掘用户访问模式。m a n n i l a 把用户访问页面 当作事件,从网站访问日志中试着寻找用户访问网站的周期。t h a n 研究了如何动态的根 据用户当前访问提供推荐页面。他首先对用户进行分类,然后根据同类用户访问过的页面 情况,决定为当前用户提供的页面内容。 1 9 9 7 年d s w n g u 和x w u 等人研究了s i t e h e l p e r 系统,其主要方法是使用信息提取 的方法提取页面信息,并且结合用户访问历史、用户个人资料提供的线索,向用户动态推 荐访问的页耐引。p e r k o w i t z 等人在人机界面研究领域,提出了a d a p t i v ew e bs i t e 的概念, 主要研究如何以历史访问为依据,使得w e b 服务器提供的服务页面可以自动或者半自动 的调整l ,j 。 19 9 8 年h a r t 把w e b 服务器访问日志集成到数据立方体结构( d a t ac u b es t r u c t u r e ) 中,使 其可以对访问日志用传统的在线数据分析处理过程( o l a p ) 来处理日志数据1 6 1 。 目前,国内外关于w e b 日志分析方面都开展了一定的研究工作,许多国家把此方面的 研究作为重点资助科研项目之一,并且己经开发出了若干工具和系统。如w e b t r e n d s 、 a w s t a t s 、w e b a l i z e r 、a n a l o g 、s u m m a r y 等都是其中比较优秀的工具。这些日志分析工具 的分析结果可以为网站管理员所用,网络用户并不需要关心这些信息。后台管理员使用这 些工具可以了解用户的浏览模式以及各个站点使用情况,从而协助管理者优化网站结构、 提高访问效率,对网站进行智能化设计,不断地满足网络用户日益提高的快速、准确地获 取信息的要求。而且目前的统计工具主要是对流量,对访问地址进行统计,以改善站点的 服务1 7 1 1 3 论文研究的主要内容和结构 本文的研究工作是结合江苏省高校自然科学基金项目 基于w e b 的数据挖掘技术研 究( 0 5 k j d 5 1 0 1 2 8 ) 进行的,主要解决如何建立高效实用的高校w e b 网站的问题。在了 解和分析w e b 数据挖掘相关理论和技术的基础上,研究w e b 日志数据挖掘过程及其中相 关环节的关键技术和算法,并结合南京信息职业技术学院w w w 站点,对w e b 日志挖掘 技术的相关过程进行详细的说明,并提出了一些改进的方法。 2 第l 章绪论 全文的具体内容安排如下: 第一章绪论:主要介绍w e b 日志挖掘的产生背景、w e b 日志挖掘的发展及现状以及 论文的研究的主要内容和结构; 第二章w e b 日志挖掘基本概念及预处理研究:介绍w e b 日志挖掘的相关基本概念, 并重点研究w e b 日志挖掘中的数据预处理过程,把f r a m e 页面过滤技术运用到预处理过程 中; 第三章根据应用需求对w e b 日志挖掘的相关算法进行研究:介绍将数据挖掘领域的 关联规则挖掘、序列型式挖掘、聚类等挖掘方法应用于w e b 日志的具体方法和过程,研究 了利用路径遍历模式挖掘方法来发现用户浏览模式的过程; 第四章w e b 日志挖掘结果的应用:利用上一章节挖掘出的规则和模式,对w e b 站点 的结构和站点内页面进行调整的改善,并根据用户的浏览情况,自动生成导航提示; 第五章总结:对论文的工作进行总结并提出进一步研究的方向。 3 东南大学硕上学位论文 第2 章w e b 日志挖掘概念及预处理研究 2 1w e b 数据挖掘 2 1 1w e b 数据挖掘的定义 近年来,i n t e m e t 正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人 在i n t e m e t 上发布信息、查找信息。虽然i n t e m e t 上有海量的数据,但由于w e b 是无结构 的、动态的,并且w e b 页面的复杂程度远远超过了文本文档。信息检索业界虽然提供了一 些搜索引擎工具,但其覆盖率有限,因此查全率低。一般的搜索引擎是基于关键字的查询, 命中率较低,另外不能针对特定的用户给出特殊的服务,因为每个用户感兴趣的内容和访 问行为是不一样的,因此不具有个性化。解决这些问题的一个途径,就是将传统的数据挖 掘技术和w e b 结合起来,进行w e b 挖掘【l l _ 1 9 1 。 目前人们将w e b 挖掘定义为1 2 0 ! :从与w w w 相关的资源和行为中抽取感兴趣的、有 用的模式和隐含信息。具体而言,w e b 挖掘就是从w e b 文档和w e b 活动中抽取感兴趣的 潜在的有用模式和隐藏的信息1 2 1 3 2 。w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的 结构进行挖掘,确定权威页面1 2 3 - 2 6 1 ,w e b 文档分类【2 矧,w e b l o g 挖掘【2 9 , 3 0 1 、智能查询, 建立m e t a - w e b 数据仓库等。 w e b 包含了丰富和动态的超链接信息,以及w e b 页面的访问和使用信息,这为数据挖 掘提供了丰富的资源。然而从以下的分析可以看出,对w e b 进行有效的资源和知识发现在 技术上具有相当大的难度: ( 1 ) 对有效的数据仓库和数据挖掘而言,w e b 似乎太庞大了。w e b 的数据量目前以兆 兆字节( t e r a b y t e s ) 计算,而且仍然在迅速地增长。许多机构和社团都在把各自大量的可访问 信息置于网上。这使得几乎不可能去构造一个数据仓库来复制、存储或集成w e b 上的所有 数据。 ( 2 ) w e b 页面的复杂性高于任何传统的文本文档。w e b 页面缺乏同一的结构,它包含 了远比任何一组书籍或其他文本文档多得多的风格和内容。w e b 可以看做一个巨大的数字 图书馆;然而,这一图书馆中的大量文档并不根据任何有关排列次序加以组织。它没有分 类索引,更没有按标题、作者、扉页、目次等的索引。 ( 3 ) w e b 是一个动态性极强的信息源。w e b 不仅以极快的速度增长,而且其信息还在 不断地发生着更新。链接信息和访问记录也在频繁地更新之中。 ( 4 ) w e b 面对的是一个广泛的用户群体。各个用户可以有不同的背景、兴趣和使用目的。 4 第2 章w e b 日志挖掘概念及预处理研究 由于大部分用户并不了解信息网络结构,不清楚搜索的高昂代价,因而极容易在网络搜索 中迷失方向,在“跳跃式”链接和在等待信息中失去耐心。 ( 5 ) w e b 上的信息只有很小的一部分是相关的或有用的。相关统计表明9 9 的w e b 信 息相对9 9 的用户是无用的。虽然这看起来不是很明显,但一个人只是关心w e b 上的很小 很小一部分信息确是事实。 解决以上技术难点的研究已经推动了如何高效且有效地发现和利用因特网上资源的工 作。可以这样说,w e b 挖掘是一个具有挑战性的课题,它必须在w e b 存取模式、w e b 结构、 规则和动态的w e b 内容查找等技术上有新的突破。 2 1 2w e b 数据挖掘分类 w e b 挖掘是一种交叉性学科和技术的应用,涉及数据挖掘、计算机语言学、计算机网 络技术、信息学等多个学科。由此不同的研究者从各自的应用领域出发,对w e b 挖掘的含 义有着不同的理解,w e b 挖掘产品的开发也各有其侧重点。w e b 上信息的多样性决定了 w e b 挖掘任务的多样性。按照处理对象的不同,一般把w e b 挖掘分为如下3 类:w e b 内容 挖掘( w e bc o n t e n tm i n i n g ) 、w r e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 日志挖掘( w e bl o g m i n i n g ) 。图2 1 给出了w e b 挖掘的分类图。 _ 一 i i i 数据来源 一一。一,一 图2 1l e b 挖掘的分类图 ( 1 ) w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程。w e b 文档内容的挖掘,基于 概念索引的资源发现以及基于代理的技术都属于这一类。w e b 内容挖掘有两种策略:直接挖 掘文档的内容,或在其他工具搜索的基础上进行改进。通过w e b 内容挖掘可以对w e b 上 大量文档集合的内容进行摘要、分类、聚类、关联分析,以及利用w e b 文档进行趋势预测 等。 在w e b 文本发现中,文本的特征表示是发现工作的基础,而文本分类和聚类是两种最 重要、最基本的发现功能。文本特征指的是关于文本的元数据,分为描述性特征( 例如文 5 东南大学硕:t 学位论文 本的名称、日期、大小、类型等) ,以及语义性特征( 例如文本的作者、机构、标题、内容 等) 。描述性特征易于获得,而语义性特征则较难获得。w 3 c 近来制定的x m l 等规范提 供了对w e b 文档资源进行描述的语言和框架,在此基础上,可以从半结构化的w e b 文档 中抽取特征。 ( 2 ) w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识。由于文档之间的互连, w w w 能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现 重要的页面。这方面工作的代表有p a g e r a n k l 3 1 1 和c l e v e r l 3 2 1 。此外,在多层次w e b 数据 仓库( m l d b ) 中也利用了页面的链接结构。 ( 3 ) w e b 日志挖掘 w e b 使用记录挖掘的主要目标则是从w e b 的访问记录中抽取感兴趣的模式1 3 3 j 。w w w 中的每个服务器都保留了访问日志( w e ba c c e s sl o g ) ,记录了关于用户访问和交互的信息。 分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服 务。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。一般 的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。 而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模 式,为每个用户提供定制的站点。 2 2w e b 日志挖掘 2 2 1w e b 日志挖掘概念 w e b 日志挖掘又称w e b 使用记录的挖掘,它是运用数据挖掘的思想对w e b 服务器日 志中的数据进行分析处理,发现用户浏览w e b 页面的模式。通过分析和探究w 曲日志记 录中的规律,可以识别出将来会浏览w e b 服务器页面的潜在用户,增强对最终用户的因特 网信息服务的质量和交付,并改进w e b 服务器系统的性能。它可用于分析网站流量模式, 发现系统性能瓶颈,优化站点结构、提高效率,提高用户访问的有效性,发现用户的需要 和兴趣等。 w e b 日志挖掘的对象是服务器的日志信息,w e b 服务器的日志记载了用户访问站点的 数据,这些数据包括:访问客户的l p 地址、访问时间、访问的页面、页面的大小、浏览器 类型、响应状态等。每当站点被访问一次,w e b 服务器日志就在日志数据库内追加相应的 记录。热点的w e b 站点每天可以记录下数以百兆字节的w e b 日志记录。w e b 日志数据库 提供了有关w e b 动态的丰富信息。因此研究复杂的w e b 日志挖掘技术是十分必要的。 w e b 日志挖掘的一般过程描述如下: ( 1 ) 数据的预处理:将来自于不同数据源的数据,如使用模式等信息重新组织成为模式 6 m2tw e bi 忐挖* 概念顶”q f 究 发现所必需的数据结构。 ( 2 ) 模式发现:时数据预处理所形成的文件利用数据挖掘的一些有敛算法( 如关联规则、 聚类、分类、序列模式等1 米麓现隐藏的模式和规则。 ( 3 ) 模式分析;主要是对挖掘出来的模式、规则进行分析,找出州户最感必趣的模式, 提供可视化的结果输出。 w e b 日忐挖掘得到的结果,可咀用于重构、b 站点的页面之间的链接关系及重构w e b 站点的拓扑结构、发现相似的客户群体,开展个性化的信息服务和有针对性的电于商务活 动,构建智能化w e b 站点。 w e b 日忐挖掘的具体过程如圈2 2 所示:日志文件是片j 户在浏览w e b 服务器时记录f 来用户访问网站的情况,被记录在w e b 服务器中由于每无的日志访问量比较大,可以将 日志文件保存在数据库服务器中。w e b 日忐挖掘就是对原始的日志文件进行预处理转变成 适台挖掘的数据形式,然看用相关的数据挖掘方法( 如关联规则、聚类等) 对w e b 数据进行 挖掘,晟后将挖掘出的结果进行汇总,并应刚到实际当中去。 旧删挎 22 2w e b 日志挖掘的数据源 豳zzb b 日挖# 过程 在w e b 访问信息挖掘中w e b 数据可以是在服务器端、用户端、代理服务器端或者是 应用所需的鼓据库。这些数据不仅仅意味着存放于不同的位置,其中还包含了w e b 世界中 不同的浏览模式,例如单用户单站点模式,单用户多站点模式,多用户单站点模式,多用 户多站点模式。通常,用户端的日志包含了单用户多站点的浏览模式服务器上的日志则 意味着多川户单站点模式,代理服务器上的日志是多用户多站点模式的典型代表。 ( 1 ) 服务器端数据 w e b 服务嚣上的日志是w e b 访问信息挖掘中最重要的数据源。碾务器上的日,占不仅详 细记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个访问者的行为。这些日 忘有着不同的格式。例如通用日志格式c l f ( c o m m o nl o gf o r m a t ) 和扩展通用日志格式 e c l f ( e x t e n d e d c o m m o nl o gf o r m a t ) 。每当站点披访问一扶,w e b l o g 就在日志数据库中 追加相应的w e b l o g 记录,它为w e b 挖掘提供了有关w e b 动态的丰富信息。 ( 2 ) 甩户端数据 爿j 户端的数据收集可以使j j 诸如j a v a s c i j p t 或者j a v a ap p l e t 这样的远程代理来实现, 也可以修改用户的浏览器软什,使之具有数据收集的能力。用户端的数据收集特别需要用 东南大学硕上学位论文 户的合作,因为直接从用户端取得数据需要考虑用户的隐私和占用用户的机器和网络资源。 从用户端收集数据最大的优点是可以直接取得用户的各种真实信息,这些信息的完整性和 真实性都要优于服务器上的数据。例如目前服务器上一般都难以取得用户的点击信息,特 别是点击后退和刷新按钮。 ( 3 ) 代理服务器端数据 通常在网络中基于安全和效率的考虑,需要使用代理服务器技术。代理服务器在用户 端和服务器端扮演着中间传递的角色,而且代理服务器可以是多级级联的。代理服务器通 常为多个用户服务,这样从代理服务器上就可以得到多个匿名用户的浏览信息。代理服务 器上保存着一个最近访问过的页面集合,如果这些页面是静态的,那么用户通过代理服务 器访问该页面时,就不需要从w e b 服务器上取得数据,可以将该静态页面直接发给用户。 但是对于电子商务中经常使用的动态页面就要到w e b 服务器上取得所需数据。 通过服务器日志文件,管理员主要关心的是这些数据间的关系和数据的统计值,例如: 访问次数和时间的关系、某时间段站点被访问的次数、访问用户所在的国家和地区w e b 日 志挖掘分布、访问频率较高的页面、一段时间内被访问的平均次数等。但是随着站点的不 断发展,站点的规模与复杂程度与日俱增,w e b 站点的设计与维护变的越来越困难。利用 普通的概率论来统计分析、安排站点结构已经不能满足要求,而w e b 日志挖掘能够帮助 w e b 站点的管理者更深入地了解站点的使用信息和相关规律。 2 2 3w e b 日志挖掘的应用 无论从学术研究或从商业运作的角度来看,w e b 数据挖掘都是一个很值得研究的学术 技术领域。通过w e b 数据挖掘可以了解整个w e b 系统被访问的情况。通常,基于w e b 服 务器的日志数据的应用研究大致分为三类,即以分析系统性能为目标;以改进系统设计为 目标;以理解用户意图为目标 ( 1 ) 改善系统性能 从数据库和网络提供的服务质量对于用户来说是很重要的。通过w e b 日志挖掘人们可 以了解到具体的w e b 页及w e b 的传输情况,据此制定决策来实现数据的缓存、网络的传 输、存储平衡及数据的分布w e b 日志挖掘还能提供模式分析,探测到外来干扰、传输出 现错误等信息,对于网站的安全设计有很大的作用。 ( 2 ) 个性化服务 w e b 访问个性化意味着一个用户访问w e b 站点时得到个性化的服务。w e b 站点个性化 推荐系统是将用户归结到一类用户,然后根据该类用户的访问规律进行w e b 页面的推荐。 随着用户的访问推进,算法会将用户归结到不同的用户类中,因为不同的用户类有不同的 推荐集,所以通过不断地根据用户的当前访问,实时调整推荐集,给用户提供个性化的访 问。同时推荐集不影响原有网站的分类结构。 ( 3 ) 改进系统设计 8 第2 章w e b 日志挖掘概念及预处理研究 在一个w e b 站点中,页面之间存在着相应的结构信息,一定程度上反映出了网站设计 者的领域知识。这种领域知识是否与群体用户的访问兴趣相符合,需要通过对用户访问兴 趣的挖掘来检验。w e b 页面之间的结构与用户的访问方式是紧密相连的。访问者通过察看 w e b 页面之间超链接关系。选择自己感兴趣的页面超链接以进行自己下一步的访问。通过 对一段时间群体用户对一个w e b 站点访问日志的挖掘,可以得到群体用户的访问路径模 式。这种访问模式反映着设计者所设计的w e b 页面关联的优劣,可以被用来改进w e b 站 点的结构。更好地帮助用户访问。用户的访问兴趣随着时间的变化存在着一定的变动,而 网站的设计对这种变动往往无法直接的掌握,那么就需要利用w e b 访问信息挖掘的方法将 其不断挖掘出来,及时给网站的设计者以指导。 ( 4 ) 开展商业智能 开展电子商务的一个重要的问题是:用户面对厂家提供的大量产品信息,不知如何有 效提取;而厂家面对大量的用户,不知他们的兴趣和要求所在。因而不知如何调整他们的 服务方式和产品结构。一方面全体用户对商品的兴趣不一致,对物品的兴趣存在着一个概 率分布,即全体用户对某些物品的兴趣要远远大于另一些物品。但w e b 站点页面结构的分 类层次设计必须严格遵循商品的分类结构;另一方面许多用户购买相关联的物品,如果在 页面结构分类上两者相距很远,用户不得不反复进入并退出多个w e b 面,来完成一次购买 活动。对于这样具有关联购买的物品集,要做的工作就是如何自动发现关联物品集,并且 自动建立包括它们的导航内容页,以帮助用户进行w e b 的有效访问。 2 2 4w e b 日志挖掘的相关模式 w e b 日志挖掘的任务是从服务器日志中发现模式。目前己经用于w e b 日志和用户会话 文件的分析及用户行为模式的挖掘方法主要有分类、聚类、统计分析、关联规则、序列模 式等。必须指出,由于w e b 数据的特殊性,数据挖掘的一些成熟算法不能直接应用到w e b 数据的挖掘。 ( 1 ) 分类模式 分类模式是能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一 棵判定树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确 定类别。在w e b 日志挖掘领域中,分类主要是按照用户特征数据将用户归属到既定的用户 类。分类技术要求选择和抽取特征属性来描述指定的用户类别。 ( 2 ) 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。 在w e b 日志挖掘中,聚类分析主要有两类:用户聚类和页面聚类。用户聚类将具有相似浏 览行为的用户归类。利用这类知识可以在电子商务中进行市场分割或者为用户提供个性化 w e b 页面内容;页面聚类则是将内容相关的页面归类。页面聚类的结果可以供搜索引擎使 用,用以根据用户查询的信息或历史记录,建立与相关h t m l 页面间的超链接。 9 东南大学硕士学位论文 ( 3 ) 统计分析 通过分析用户浏览页面的时间、用户的浏览路径和路径长度等信息,可以获得用户访 问站点的基本信息,如页面访问次数,日平均访问人数,最受用户欢迎的页面等;也可以 进行有限的错误分析,如非法用户登录等。统计分析的结果用于提高网站的性能、安全性 以及优化站点结构和市场决策。 ( 4 ) 序列模式 序列模式指在时序数据集中发现在时间上具有先后顺序的数据项。序列模式把数据之 间的关联性与时间联系起来。在w e b 日志挖掘领域中,序列模式识别指寻找用户会话中在 时间上有先后关系的页面请求。利用发现的序列模式可以预测用户即将可能请求的页面, 例如,在访问页面a 的用户当中,6 0 0 , 4 的用户会在1 分钟内访问页面b 。这样就可以考虑 针对这种特定的用户组在页面中放置不同的广告来增加广告的点击率。 ( 5 ) 关联模式 关联规则挖掘一般应用在事务数据库上,该数据库每一个事务包含一组数据项。因此 关联规则的挖掘就是为了发现数据项之间的关联和相关性,即事务中一组数据项的出现( 在 一定的程度上) 预示着其他数据项的出现。在w e b 日志挖掘中,事务是用户在一次对w e b 站点的访问中所浏览的页面的u r l 集合,相应的,关联规则挖掘目的是为了发现用户所访 问的w e b 页面之间的相关性。关联规则既可以作为站点设计人员优化站点的参照,也是在 w e b 上作为市场开发和商务决策的依据。同时关联规则还可以作为启发式规则为远程客户 预取可能请求的页面,提高服务器的响应性能,以减少用户的等待时间。 在解决实际问题时,经常要同时使用多种模式。分类模式、序列模式也被认为是受监 督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式 的产生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本, 用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式则是非监督知识,因 为在模式建立前结果是未知的,模式的产生不受任何监督。 2 3w e b 日志挖掘的数据采集 2 2 2 节介绍的分别取自服务器端、用户端和代理服务器端的三种数据都可以用来作为 w e b 日志挖掘的数据来源,且各具优缺点。代理服务器端收集数据便于提供多用户一一多 站点的信息,但是本文研究主要考虑的是单站点一一多用户的情况,所以代理服务器端数 据并不适合作为数据源。用户端数据是从用户浏览行为发生处进行收集,其所包含的信息 较全面,也避免了缓冲带来的会话识别的困难。但是,客户端的数据收集涉及用户的隐私 的程度较深,同时,它也需要用户的配合。相对而言,从服务器端收集数据就具有收集简 单、通用、全面且涉及隐私的程度小等优点,所以本文主要采用服务器端收集的数据作为 数据源。 w e b 服务器端的数据主要从w e b 日志文件和网络监视器中获得。w e b 日志记录了用户 1 0 第2 章w e b 日志挖掘概念及预处理研究 访问站点的数据,每当站点上的页面被访问一次,w e b 服务器就在日志中增加一条相应 的记录。服务器上的日志不仅详细记录了站点访问者的浏览行为,而且汇集了访问同一站 点的多个访问者的行为。通常应用于w e b 服务器中的日志有着不同的格式,例如通用日志 格式c l f ( c o m m o nl o gf o r m a t ) 和扩展通用日志格式e c l f ( e x t e n d e dc o m m o nl o g f o r m a t ) ,其他还有n c s a ,c e r n , a p a c h e 日志格式鲫。 本文研究工作的w e b 数据收集自南京信息职业技术学院网络中心服务器的w e b 日志 作为研究对象。它属于普通型日志,其w e b 服务器日志( m i c r o s o f t1 1 s 日志文件) 中截取的 一条记录为: 1 2 4 1 1 5 4 1 9 1 ,5 厂7 2 0 0 8 ,0 :0 2 :5 2 ,w 3 s v c l 3 8 6 5 1 6 3 5 l ,w e b 0 0 0 1 ,2 2 2 1 9 2 2 5 4 9 8 ,2 0 3 , 2 2 8 ,15 3 2 4 ,2 0 0 ,o g e t b b s i n d e x a s p ,b o a r d i d = 8 这一日志记录说明的是一个l p 地址为1 2 4 1 1 5 4 1 9 1 的客户端在2 0 0 8 年5 月7 号 0 :0 2 :5 2 这一时刻在b b s i n d e x a s p 页面上发出一个h 1 限的g e t 请求。 其中各个字段的具体含义如下: 1 ) i p 地电k ( i pa d d r e s s ) i p 地址是向w e b 服务器发出请求的机器的i n t e m e t 地址,这个地址可能是用户机器 的地址。由于客户端与w e b 服务器之间代理服务器的存在,该字段记录的也可能是客户端 经过的最后代理服务器的l p 地址,而不是最初发出请求的客户端的l p 地址。 2 ) 文件访问时刻( d a t e ) 文件访问时刻表示服务器响应客户端请求,并向客户端返回请求的资源的时刻。在上 面的例子中文件访问时刻为5 胞0 0 8 ,0 :0 2 :5 2 。 3 ) 请求( r e q u e s t ) 指来自客户端的h t t p 请求到达后为这个请求建立的第一次连接。如果被请求的文件 存在的话,这个域将确定这个被请求文件的u r l ,以及获取这个文件的方法。在上面的 例子中,请求的方式是g e t 。g e t 方式是从w e b 服务器上得到一个对象。其他的请求方 式包括p o s t , h e a d e r , o p t i o n s p u t 等。通常只是使用g e t 和p o s t 请求方式,其中 p o s t 方式用来将附加的信息体存放在被请求的资源中,主要用于接受h t m l 的f o r m 中 的内容。 4 ) 状态代码( s t a t e sc o d e ) 状态代码指的是服务器响应浏览器请求的返回代码。表示为三位数字。状态代码共分 五类,其中第一位数字代表了服务器响应所属的类别。下面是5 种状态代码含义列表: lxx :信息这类状态代码是信息码,服务器管理者和开发者可以利用这些信息码 提供附加信息。 2xx :操作成功一一这类状态代码是说明请求己经被成功接受并响应。例如,在上面 的例子中,状态代码2 0 0 表示资源请求被完全成功的接受。 3xx :重定向一一这类状态代码指示为完成客户端请求,服务器必须采取进一步的动 东南大学硕十学位论文 作。例如,状态代码3 0 4 表示如果客户端成功执行了条件g e t 请求,而对应文件自 l f - m o d i f i e d s i n c e 域所指定的日期以来就没有更新过,服务器应当回应此状态码,而不是 将实体主体发送给客户端。每当3 0 4 回应中给出的域值发生变化,缓存都应当对缓存的实 体进行更新。 4xx :客户端错误一一这类状态代码表示浏览器发出的是错误的请求。最常见的错误 是在未授权的情况下试图访问特殊文件或访问的文件不存在。一个无效的链接也被认为是 一个客户错误,比如错误码4 0 4 表示服务器没有找到与请求u r i 相符的资源。 5xx :服务端错误一一这类状态代码表明服务器因为本身或者网络问题使得请求不能 被响应。 5 ) 引用( r e f e r r e r ) 引用域是一个完整的u r l ,通常保存着在用户连接到站点之前,最后访问的页面的 u r l 。如果用户在浏览器地址栏中键入u r l 或者将浏览器设置成启动时自动加载这个页 面,则该引用字段为空。该字段可以帮助服务器生成历史链接记录集,用来进行日志管理, 缓冲区优化及错误请求跟踪分析等。 6 ) 传输的字节数( b y t e s ) 这个字段保存响应请求而传输的字节总数,它的大小应该和文件的大小完全相等。传 输内容不包括h r r p 头和c o o k i e 。上例中第一条记录表示服务器向客户端传输了1 5 3 2 4 个 字节 2 4w e b 日志挖掘的数据预处理 2 4 1w e b 日志挖掘中的数据预处理概论 w e b 日志预处理是在w e b 日志挖掘前,对w 曲日志所记录的数据进行清理、过滤以 及重新组合的过程。w e b 日志预处理的目的是剔除日志中对挖掘过程无用的属性及数据, 并将w e b 日志数据转换为特定算法所需要的数据结构。 预处理过程的输入数据有:服务器日志、站点文件和其他可选择的信息。输出的数据 有:用户会话文件、事务文件、站点拓扑结构和页面分类。 目前,常用的数据预处理技术有:数据清理( d a t ac l e a n i n g ) ,可以去掉数据中的噪声, 纠正不一致;数据集成( d a t ai n t e g r a t i o n ) ,将多个数据源合并成一致的数据存储;数据变换 ( d a t at r a n s f o r m a t i o n ) ,例如,规范化可以改进涉及距离度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论