(计算机应用技术专业论文)web用户行为模式挖掘的研究.pdf_第1页
(计算机应用技术专业论文)web用户行为模式挖掘的研究.pdf_第2页
(计算机应用技术专业论文)web用户行为模式挖掘的研究.pdf_第3页
(计算机应用技术专业论文)web用户行为模式挖掘的研究.pdf_第4页
(计算机应用技术专业论文)web用户行为模式挖掘的研究.pdf_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 受i 型日期:丑! 五:! 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学 位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。 本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外, 允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文 的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名: 毫i 型导师签名:蟑日磊:逸丑:廛 东南大学硕士学位论文 摘要 w e b 作为一种信息发布的媒体,现在已经渗透入每个人的生活中。w e b 页面复杂且具 有动态性导致人们难以方便快捷地在w e b 上找出所需的数据和信息。 w e b 用户行为模式挖掘注重于分析并预测用户使用w e b 时的行为。目前该领域的研究 在w e b 用户行为模式挖掘的预处理阶段尚无很有效的方法解决客户端信息不足产生的一些 问题,路径识别的方法还很粗糙。在模式挖掘阶段对于模式的挖掘局限于独立路径范围,没 有进一步考虑路径之间的关联关系。 本文主要研究与w e b 用户行为模式挖掘相关的技术,对w e b 用户行为模式挖掘的一般 性框架进行讨论与改进,去除了冗繁的数据合并部分,将用户识别步骤分离出来。着重分析 研究了数据预处理阶段涉及的一些技术。用户识别部分采用了折中的启发式条件,加入了用 户登录信息。路径识别部分在现有最大前向路径识别算法的基础上,融合了参考长度算法的 思想,提出了一种新的路径识别算法,提高了识别精度。模式发现部分加入了新提出的一种 跨事务关联模式,给出其挖掘算法和实现。最后实现了该框架,并对整体系统进行简单的实 验评估。 关键词:w e b 用户行为模式挖掘。预处理,路经识别,跨事务关联模式 东南大学硕士学位论文 a b s t r a c t w o r l dw i d ew e bh a sb e c o m eaw i d e l ya c c e p t 甜m e d i af o r mi nd a i l yl i f e t h ec o m p l e x i t ya n d d y n a m i cc o n t e n to f w e bp a g e sm a k e si te x u e m e l yd i f f i c u l tt of m do u tu s e f u li n f o r m a t i o no i lw e b w e bu s a g em i n i n gf o c u s e so na n a l y z i n ge n dp r e d i c t i n gu s e r sb e h a v i o r t h ec u r r e n ta r to f w o r ki nt h ef i e l do f w e bu s a g em i n i n gs t i l lc a n n o ts o l v et h ei d e n t i f i c a t i o np r o b l e md u et ot h el a c k o fc l i e n ti n f o r m a t i o ni nd a t ep r e p r o c e s s i n gp h a s e t h ep a t he x u a 嘶o nm o d e li sr e l a t i v e l y i m p r e c i s e t h ec o n n e c t i o na m o n gw & u s a c t i o l l si st t o tc o m m o n l yt a k e ni n t oc o n s i d e r a t i o ni np a t t e r n d i s c o v e r yp h a s e t h i sp a p e rr e s e a r c h e do l lt h ew e bu s a g em i n i n gt e c h n i q u e s f i r s ta g e n e r a lf r a m e w o r ko f w e bu s a g em i n i n gi sd i s c u s s e de n di m p r o v e d d a t am e r g i n gp a r tw a so m i t t e de n du s e r i d e n t i f i c a t i o nw a ss e p a r a t e df r o mp a t he x t r a c t i o n m a j o ra t t e n t i o nw a sp a i do nd a t ap r e p r o c e s s i n g p h a s e u s e rl i l g g i n gi n f o r m a t i o nw a su s e da sa h e u r i s t i cc o n d i t i o ni 1 1u s 盯i d e n t i f i c a t i o n an e w p a t he x t r a c t i o na l g o r i t h mi sp r e s e n t e db a s e do nam a x i n l u l nf o r w a r dp a t hm o d e lc o m b i n e dw i t h s o m ef e a t h e r si nr e f e r e n c el e n g t hm o d e l i nt h ep a t t e r nd i s c o v e r yp h a s ean e wc r o s s - t r a n s a c t i o n p a t t e r ni si n t r o d u c e de n dt h em i n i n ga l g o r i t h m i sg i v e n a tl a s t , t h ef r a m e w o r ki si m p l e m e n t e da n d s i m p l yt e s t e d k e y w o r d :w e bu s a g em i n i n g ,p f e p r o c e s s ,p a t he x w a c t i o n , c r o s s - t r a n s a c t i o na s s o c i a t i o nr u l e 2 东南大学硕士学位论文 第1 章引言 1 1 背景介绍 万维网( w o r l dw j d e w e b ) 作为一种信息发布的媒体,现在已经渗透入每个人的生活中。 由于其包含有大量动态的文字、图像、声音等信息并且能够不受地域限制地为各类用户所用, 使其成为目前发展速度最快的信息载体。但是庞大的信息量也带来了不便之处,信息量大、 w e b 页面复杂且具有动态性导致人们难以方便快捷地在w e b 上找出所需的数据和信息。用 户在w e b 上进行信息查询时可能会有如下一些需求i l i : a 查找用户感兴趣的信息。用户使用搜索引擎在w e b 上查找感兴趣的信息,通常是 输入若干关键词,搜索的结果根据页面与关键词的相似程度以列表的形式将页面 展示给用户。 b 在w e b 现有的信息基础上创建新的信息。这一过程是从现有的w e b 数据集合中挖 掘出更深层次的信息。 c 信息的个性化。这个问题通常与信息的类型与发布形式相联系,不同的用户对不 同的内容类型和发布界面喜好不同,这也使得信息提供者为了满足不同用户的要 求而去了解不同用户的行为和喜好。 现有搜索引擎在一定程度上解决了部分上述需求问题,但还远不完善。首先是搜索精度 不高,表现在搜索结果包含很多无关信息。更重要的是信息的个性化,目前搜索引擎还无法 针对特定用户提供专门的服务。而w e b 挖掘技术可通过直接或者间接的手段解决这些问题。 直接的手段可通过直接利用w e b 挖掘技术解决这些问题。比如,用一个新闻组代理根据用 户是否对某新闻感兴趣来对大量新闻进行分类。间接的手段就是指将w e b 挖掘技术作为一 个应用程序的一部分来解决上述问题。比如,w e b 挖掘技术可用于在w e b 搜索服务中建立 索引表。 w e b 挖掘技术将数据挖掘技术应用于从w e b 文档中进行信息提取。这种技术综合了数 据挖掘,w e b 技术,信息科学,人工智能等多个领域的技术根据挖掘的对象不同,w e b 挖掘分为三个研究领域:w e b 内容挖掘,w e b 结构挖掘和w e b 用户行为模式挖掘。w e b 内 容挖掘主要是从w e b 数据或文档中发现有用的信息。当然,w e b 内容的涵盖范围很大,如 文本、图像、音频、视频、元数据以及超链接等。w e b 结构挖掘的目的是发现w e b 链接结 构下所隐藏的抽象模型。此模型基于与实际链接无关的超链接拓扑结构,可用于对w e b 页 面进行分类或者分析不同w e b 站点的相似情况。w e b 用户行为模式挖掘则是对w e b 浏览者 的对话或者行为所产生的数据进行解释,其挖掘对象是从用户与w e b 交互所产生的数据。 w e b 用户行为模式挖掘的应用领域主要可以分为两类: ( 1 ) 了解用户的特征、用户的使用习惯以及用户群的浏览模式。 w e b 用户会对该领域比较感兴趣是因为他们需要服务提供者了解他们对信息的特 殊要求和喜好,这一领域通常是使用用户建模与w e b 内容挖掘技术相结合。 ( 2 ) 服务提供者更多的希望了解用户群的浏览模式。 服务提供者可以通过了解用户群的浏览模式对站点内容进行调整,对系统进行改进或者 增加商务智能等。 很多基于w e b 的应用都需要针对用户进行信息个性化处理。例如,在电子商务中针对 不同用户的浏览行为和喜好,为不同用户提供相应的动态采购建议。如w e b w a t e h e r l 2 , s i 硼e l p c j 还有文献【4 】等利用用户访问信息产生w e b 站点的个性化知识。【4 】从w e b 服务器 4 东南大学硕士学位论文 日志中发现具有相似访问模式的用户群。s i t e h e l p e r 系统通过检查每个用户的页面访问情况 来获取用户的喜好。它将用户访问频率较高的一些关键词整理后反馈给用户,然后根据用户 对反馈列表的反应情况对其他的页面给出建议。w e b w a t c h e r 系统则跟踪用户的访问行为然 后将用户可能感兴趣的链接提交给用户 系统的性能和其他一些服务质量参数能否满足用户的需求对于像是数据库或者网络服 务来说是重要的。对于w e b 服务也是这样,w e b 用户行为模式挖掘能够获得了解w e b 流量 行为的信息,从而能够帮助改进w e b 缓冲,网络传输,负载均衡等。另外,w e b 用户行为 模式挖掘得到的访问模式也可以帮助解决安全相关的问题,如入侵检测,电子欺诈等。文献 【5 】提出了一个用于预测使用同样代理服务器的用户或用户组是否在本地进行w e b 页面的访 问模型。 对于w e b 应用,站点界面与结构是否有足够吸引力( 对用户而言) 是很关键的。w e b 用户行为模式挖掘能够对用户的行为进行分析并给出反馈,帮助设计者进行有效的改进。应 该说任何w e b 用户行为模式挖掘系统的结果都能够帮助进行这项工作,s c m l 算法1 则注 重于利用从服务器日志中发现的访问模式对w e b 站点进行自动的调整。 文献【7 】提供了一种知识发现的方法,即从w e b 数据中挖掘市场决策信息。还有一些商 业化的产品如n e t g e n e s i s ,a r i a 对w e b 流量进行分析来获得商务智能信息。其他一些产品 直接分析产品购买,广告点击等电子商务事件来获得商务统计信息。分析这些数据所获得的 结果可以用于决定客户的价值,跨产品跨市场的决策,降价竞争的效率等等。这些分析结果 还可以用于对w e b 站点的重组以创建一个更有效的界面,也能够帮助更有效的管理工作小 组之间的交流和组织基本框架。尤其是对于万维网上的广告商来说,分析用户访问模式可以 对特定的用户群体设计更有针对性的广告。 目前一些分析w e b 服务器日志数据的工具,可以对用户的行为进行一定的分析,如分 析用户对特定文件的访问次数和时间等。但这些工具并非为高访问量的w e b 服务器设计, 而且很少考虑被访问文件之间的结构关系,对服务器端日志数据的使用程度不高。对于w e b 用户行为模式挖掘的预处理目前尚无很有效的方法解决客户端信息不足产生的一些问题,对 路径识别的方法还很租糙。而且对于模式的挖掘局限于独立路径范围,没有进一步考虑路径 之间的关联关系 1 2w e b 用户行为模式挖掘系统的研究现状 作为w e b 挖掘技术的一个分支,w e b 用户行为模式挖掘注重于预测用户使用w e b 时的 行为,即从w e b 服务器中发现用户访问的模式一个公司或者组织的主页每天都会有大量 的点击和操作,w e b 服务器会将这些动作以访问记录的形式记录在访问日志文件中。这些 访问信息是w e b 用户行为模式挖掘的主要数据源。除此以外,w e b 用户行为模式挖掘的过 程经常会利用一些应用领域相关的背景知识,如服务器本身的页面结构,也即是各页面的相 互引用关系,也可以以引用日志的形式为w e b 用户行为模式挖掘所用,还有页面内容本身, 句法限制等等。非匿名系统中的用户登录信息也是很重要的数据源。 文献【7 】文献【8 】最初提出将数据挖掘技术应用于w e b 服务器日志,通过分析w e b 服务器 日志,发现频繁访问的页面。文献【8 】中提出最大前向路径的概念将用户会话分解成不同的 访问路径。一条最大前向路径是用户在返回以前所访问页面之前所经过的最长路经。该模式 认为在剔除图像文件以后,服务器日志完全记录了用户对一个站点的访问情况。但是该方法 对于用户的访问行为分析不够深入,容易导致结果路径不完整文献 9 】中则按照其定义的 两种路径类型将完整的路径进行拆分,其提出的参考长度模型虽然对用户的访问行为以统计 5 东南大学硕士学位论文 的方式进行相对精确的描述,但这种分割路径的方法不够自然,有可能影响模式发现的结果。 从服务器日志文件中进行用户鉴别的问题在l l o k “】中有所阐述,由于本地缓存以及代理 服务器的存在使得服务器端无法获得正确可靠的用户数据,从而无法正确的鉴别用户个人。 为了降低流量提高网络性能,大多数w e b 浏览器将已访问的页面缓冲起来。结果当用户点 击后退按钮时,浏览器直接调用已经缓冲过的页面,而服务器端无法得知这一重复访问的操 作。代理服务器则是提供了一个中间层的缓冲机制,使得服务器端所收集的信息更加难以分 析。在w e b 服务器日志文件中,代理服务器发送的请求都带有同样的识别码。即使这些请 求是从多个用户发出来的,仅从服务器日志中的信息却无法识别不同的用户因此,由于代 理服务器的问题,对于不同时问段同一代理发出的请求,可能会被认为是不同用户发出的。 部分系统利用c o o k i e s 中的信息来分辨不同的用户和用户会话。c o o k i e s 是用于标记和追踪用 户的一种附加信息文件。另外一种用于解决缓存与代理服务器问题的方法是使用远程代理。 文献【1 2 】利用客户端浏览器中运行的j a v a 代理向w e b 服务器发送准确的用户信息。但是这 种方法主要的缺点是过于依赖于用户的配合,因为很多情况下用户对个人信息的隐私很敏 感。文献【1 3 】中利用路径特征在用户需求到达之前生成动态内容。由于注重于动态生成的内 容,缓冲造成的影响可以忽略。但是这种方法需要服务器端的应用支持,使其适用范围较窄 服务器会话和段信息文件可以用来进行顺序模式分析、关联模式挖掘、聚类或一般的 统计分析。不同算法分析的结果通过一个简单的知识查询机制来搜索,也可以通过可视化工 具呈现。信息过滤模块利用预处理的内容与结构信息对知识发现算法处理的结果进行分析, 获取感兴趣的模式。关于模式发现后的各种处理方式,也有很多研究,在一体化的框架结构 中有一个统一的接口和输入数据结构便可以模块的形式使用。 一般说来,传统的数据挖掘方法可以直接用于从处理后的数据中挖掘应用模式,也有 对传统的数据模式做出修改以适应w e b 环境的挖掘算法。比如复合关联规则就是对传统序 列发现算法的扩展。但是目前的关联规则还是注重于事务内关系,文献 1 4 d p 将关联规则加 以扩展,提出跨事务的关联规则,打破了事务之间的界限,可以进一步揭示更多的关联信息。 将这种扩展规则应用于w e b 用户行为模式挖掘系统中可以很好的扩大其分析和使用的范 围。 1 3 本文的研究内容 本文主要研究与w e b 用户行为模式挖掘相关的技术,对w e b 用户行为模式挖掘的一般 性框架进行讨论与改进。并着重分析数据预处理阶段涉及的一些技术,并在模式发现部分采 用新提出的一种跨事务关联模式,给出其挖掘算法并实现。 首先从一般性w e b 用户行为模式挖掘的系统框架入手,分析比较有代表性的 w e b m i n e r 系统的框架,针对其不足之处改进。然后工作集中在w e b 用户行为模式挖掘的 前两步,即数据预处理与模式发现。主要分析预处理时用户识别和路径识别问题。将启发式 条件与用户登录信息相结合进行用户识别。在路径识别部分分折现有几种路径识别算法的优 劣,以最大前向路径识别算法为基础加以改进。在模式发现部分将扩展后的关联规则应用于 框架中,提出跨事务关联模式发现算法。 最后实现框架,并对整体系统进行简单的实验评估。 6 东南大学硕士学位论文 1 4 论文的组织结构 本文分为6 章: 第一章为引言,介绍w e b 用户行为模式挖掘提出的背景,以及目前在一些领域的研究 和应用情况,提出现存系统存在的一些问题,之后讨论目前在w e b 用户行为模式挖掘上的 研究进展,最后对本文的组织结构进行说明。 第二章主要介绍w e b 用户行为模式挖掘系统的框架结构,分析w e b m i n e r 系统所提出 一般性框架的不足之处,并对其进行改进。 第三章介绍w e b 用户行为模式挖掘中数据预处理部分,分类介绍其主要的处理步骤、 各步骤所遇到的难点以及目前的一些解决方案,然后提出本文的解决方法,并分析其优于目 前方案的原因。 第四章主要介绍w e b 用户行为模式挖掘的模式发现部分,对跨事务关联模式进行定义, 并根据其性质提出挖掘算法。 第五章是对实现系统进行简单的测试,分析其结果的合理性 第六章对本文的工作进行总结,并展望以后可能的研究方向。 7 东南大学硕士学位论文 第2 章w e b 用户行为模式挖掘的框架结构 w e b 用户行为模式挖掘的框架可大致分为3 个部分:预处理,模式发现和模式分析i “, 如图2 i 所示: 图2 1w e b 用户行为模式挖掘的总体框架 预处理部分将分散于各个不同数据源的访问信息、结构信息等综合并转化为模式发现 所需的数据。这一部分有很多难点要处理,不只是因为数据源广泛,而数据模式多样化,复 杂的网络环境以及用户对自身隐私的关注使得服务器端难以获得完整的数据。在不具备用户 端跟踪机制的情况下,仅能通过用户i p 地址、代理服务器地址及服务器端的访问记录对用 户和服务器会话进行鉴别。 模式发现部分利用多个领域各种算法处理预处理步骤获得的数据,进而获得有用的模 式数据。涉及的领域包括统计学,数据挖掘。机器学习及模式识别等。但是在使用这些领域 的算法时也要结合w e b 用户行为模式挖掘的特点比如在关联规则挖掘中,购物车分析过 程中的事务并不考虑所选择商品的顺序问题。但在w e b 用户行为模式挖掘中,一个服务器 会话表示了一个用户对一系列页面有序的访问请求。不仅如此,由于会话鉴别的困难性,也 需要额外的信息来保证算法的完整( 比如引入时间窗口机制) 。 模式分析部分的主要目的在于从模式发现步骤所获得的结果中去除无意义的规则或模 式。具体的分析方式方法通常与w e b 应用相关。通常情况下模式分析带有一个类似s q l 语 言的知识查询机制。还有一种方法是将应用数据读入到一个数据立方体中进行联机查询。将 不同模式赋以不同的颜色或图形的可视化技术也用于揭示数据中整体的模式分布情况。内容 与结构信息可用于过滤模式,结果可能包含特定应用类型、内容的页面或者与特定超链接结 构相符的页面。 2 1w e b m i n e r 系统框架结构 w e b m i n e r 系统旧提出了一种一般性的w e b 用户行为模式挖掘框架。该框架针对w e b 8 东南大学硕士学位论文 用户行为模式挖掘的前两个步骤加以细化,分为两个部分。第一部分包括领域相关的w e b 数据转换,这个转换过程将w e b 数据转化成适当的事务形式包括预处理,事务鉴别和数 据整合组件。第二部分将与领域无关的数据挖掘和模式匹配技术( 比如关联规则和序列模式 的发现) 应用到系统数据挖掘引擎中。总体的挖掘过程框架如图2 2 所示。 图2 2w e b 用户行为模式挖掘的一个总体框架 在该框架中首先执行的是数据清理。当用户打开一张网页时可能产生对多个文件的请 求,这些访问请求都会记录在日志文件中,而这些访问请求除了对该页面文件的请求之外其 他的记录对分析过程都是多余的,比如与文字页面相关联的图片或音频资源的请求记录,所 以要将多余的日志项剪除。在这一阶段也可能执行一些低层次的数据整合任务,如合并日志 记录,代入引用日志等。 数据清理步骤之后,日志项应当进一步划分成多个集合,每个集合代表一个用户的访 问行为。事务鉴别的目的就是为访问用户建立访问集,建立过程可能要拆分一个长的访问记 录或者合并若干短的访问记录。这一步很重要,因为经过事务鉴别之后,后面的挖掘模块可 以直接以用户为模块进行挖掘工作 如图2 2 所示,w e b 用户行为模式挖掘的数据源并非只有访问日志文件。用户的注册数 据也相当重要,尤其是现在客户端的应用程序越来越注重安全性和隐私性( 如隐藏客户端的 口地址和用户m ) 。若能将用户的注册数据与访问日志结合起来,可以适当提高事务鉴别的 精确度 应用领域相关的数据转换过程完成之后,所产生的结果事务数据格式应当与相应的数 据挖掘任务一致。比如。关联规则挖掘所需要的数据格式可能和序列模式挖掘所需要的数据 格式不同。最终,一种查询机制可以允许用户( 也就是分析员) 通过指定一些变量的值对挖 掘过程进行控制。 该框架结构明晰,针对w e b 用户行为模式挖掘数据源的特点,将事务的提取与模式挖 掘分离,而且具有相当的灵活性。但是该框架在数据的预处理部分的机制分工还不够明确, 事务和用户的识别放在同一步骤中完成,不利于其它形式数据源( 如用户注册信息) 的整合 处理。另外在数据整合处加入了较多的冗余数据源,降低了效率。 2 。2 改进后的框架结构 在分析上述框架不足的基础上,对此框架进行一定的修改数据的预处理部分,将用 户鉴别从事务鉴别步骤中分离出来,另外,也在模式发现部分中加入了新的模式发现模块, 使得整个框架更加完善,如图2 3 所示: 9 东南大学硕士学位论文 图2 3 改进后的框架结构 改进后的框架中将用户识别步骤从原先的事务鉴别中分离出来,从而分为3 个主要步 骤。 首先是日志数据项的剪枝,去掉多余的日志项,然后进行用户识别,这一过程的主要 目的是将日志项以用户为单位进行聚类,这一步是预处理步骤中比较复杂且重要的一步,因 为准确地将每一个用户通过访问日志加以识别是难以做到的,只能通过一些启发式的方法进 行近似。用户的注册信息等其他数据也可以在这一步加以整合提高识别的精度。 用户识别之后就是事务的识别,由于用户识别步骤已经将原始日志项进行了分割,使 得事务识别的计算量下降。通过事务的识别确定用户的访问路径,这样,经过预处理步骤之 后的结果数据集可根据不同的需求进行各种模式发现处理了 模式发现部分相对简单,主要涉及的是将预处理之后的数据进行一定的格式转换以适 应不同模式发现算法的要求,然后处理获得结果模式。在具体的框架实现中,采用的是跨事 务关联模式,另外为了对比两种关联模式的关系,也实现了传统关联模式的挖掘 2 3 本章小结 本章对一般性的w e b 用户行为模式挖掘系统框架进行讨论,从w e b m i n e r 系统的框 架入手,分析了其优点与不足,并针对其不足之处提出了改进的方案,给出了一个改进后的 w e b 用户行为模式挖掘系统框架。 l o 东南大学硕士学位论文 第3 章数据的预处理 预处理阶段主要处理的是服务器日志和站点的一些内容和结构数据,当然,对以前使 用情况的统计数据也是很有用的可选输入数据。日志文件包含的是离散的用户访问记录,预 处理主要的工作就是将这些记录组织成有意义的访问序列,这就涉及数据源日志文件的处理 和数据结构的确定。3 1 节讨论数据源问题。 原始的服务器日志文件包含有很多冗余的信息,由于h t t p 协议的特性。客户端对服 务器端每一个独立的资源都需要申请一个独立的连接,这就导致了对一个节点的访问在日志 文件中产生多条记录,因而在进一步对日志文件处理之前,需要先对原始日志记录文件进行 一定的剪枝。去除冗余无用的记录信息。冗余信息也并非一成不变的,不同类型的服务器冗 余信息的类型也有所不同,比如文字型服务器的图片资源为多余信息,而图片服务器中图片 资源就不能再做为多余信息来考虑,这些在进行数据清理过程时也是要考虑到的。3 2 节讨 论日志清理工作。 经过预处理之后主要的结果是用户会话文件,以用户为中心将日志中的访问记录聚类 之后整理,以用户访问路径的形式记录于结果文件中。除此之外,还可以得到访问路径文件, 站点的拓扑结构以及页面的分类情况。如前所述,用户鉴别受网络缓冲及代理的影响,无法 进行准确的识别。通过c o o k i e 和禁止缓存的方法可以一定程度上提高客户端信息收集的准 确性。但c o o k i e 可能被用户删除,而禁用缓存会导致性能的下降,也有可能被用户禁用。 因此考虑到使用用户登录方式确定用户的身份,但同样也可能由于用户对隐私的顾虑而采用 匿名登录方式。完全没有缺点的方法也是不存在的,因此在用户鉴别部分考虑采用多种启发 式条件与用户登录相结合的方式提高用户识别的准确率,详见3 3 节讨论。 确定用户之后,日志记录已经根据不同的用户进行了第一次分类,接下来要确定各个 用户的访问路径。如某用户的日志访问记录为a - b d b a _ f 母- h ,此序列可以认为是某用 户一次浏览所经过的路径,也可能是两次浏览所经过的路径。要确定用户实际的访问路径, 就需要一定的路径识别算法。而同用户识别一样,路径识别也受网络缓存的影响,由于缓存 可能导致原始数据中路径不全,因而影响路径的识别现有的几种路径识别算法各有考虑的 侧重点,这里将其结合起来,一定程度上弥补了各自的缺陷,提高的识别的精确度,详见 3 4 节讨论。 3 。1 数据源 在w e b 服务器上,日志文件用于记录用户对服务器的访问操作情况,这也是w e b 用户 行为模式挖掘最常用的数据源,因为它记录了所有的浏览行为。日志文件中的数据记录可以 反映各种类型的客户对服务器的浏览动作。服务器日志文件多为文本文件,且具有很好的结 构,属于结构化的数据源。常用的格式有n c s a 的c l f ( c o m m o n l o g f o r m a t ) 格式和w 3 c 的扩展日志文件格式。这两种格式的日志文件均是每条记录对应一个访问操作。对于w e b 用户行为模式挖掘来说,预处理阶段主要处理的数据包括用户的球地址,访问请求的目标 文件,访问的时间等,这些数据均以文本的形式记录于日志文件中,不同格式的日志文件所 处的位置可能不同。下面列出了一段c l f 格式日志文件的记录: 1 2 3 4 5 6 7 8 9 - 【2 7 m a r 2 0 0 7 :2 3 :1 4 :0 4 + 0 8 0 0 】“g e t a h t m h t t p i 1 。2 0 08 6 0 1 2 3 4 5 6 7 8 9 一 2 7 m a r 2 0 0 7 :2 3 :1 4 :0 5 + 0 8 0 0 】”g e t 1 3 a s ph t t p i 1 。2 0 01 3 9 3 1 2 3 4 5 6 7 8 9 一【2 7 舢a r 2 0 0 7 :2 3 :1 4 :0 5 + 0 8 0 0 】”g e t c h u nh 删1 1 ”2 0 03 5 8 3 东南大学硕士学位论文 1 2 3 4 5 6 7 8 9 一【2 7 ,m a 舵0 0 7 :2 3 :1 4 :0 5 + 0 8 0 0 】”g e t d h n i lh 1 - r p 1 1 ”2 0 01 3 8 5 5 1 2 3 4 5 6 7 8 9 一- 2 7 m a r 2 0 0 7 :2 3 :1 4 :0 6 + 0 8 0 0 】”g e t 厄g i f h t t p i 1 。2 0 08 2 0 1 6 1 2 3 4 5 6 7 8 9 一- 【2 7 m a r 2 0 0 7 :2 3 :1 4 :0 6 + 0 8 0 0 】”g e t f j p g n 1 p ,1 1 ”2 0 0 6 7 2 2 1 2 3 4 5 6 7 8 9 一- 【2 7 m a r 2 0 0 7 :2 3 :1 4 :0 6 + 0 8 0 0 】”g e t g j s h t t p i 1 ”2 0 0 3 0 9 8 3 c l f 格式出现的时间比较早,包含的数据量也相对较少。但是几乎所有w e b 服务器都 支持这种格式的日志文件。每一项c l f 格式的日志记录包括如下信息域: 远程主机域:记录提交请求的用户主机名,但是由于域名解析开销较大,多数服务 器以远程用户的口来代替; r f c 9 3 1 域:所保存的是经过系统识别后作为标识符的用户远程登录名,但是当该访 问请求来自多用户系统时,则以。”符号代替; 授权用户域:该域大部分情况下都是空的,以a aj , t 代替; 日期域:记录访问发生的日期时间; 请求域:记录的是远程客户对服务器资源的请求命令; 状态域:记录w e b 服务器对于该请求所返回的服务器状态信息; 字节域:保存已传输了的实际字节数。 值得注意的是h t h 仉文件内部可能出现对其他文件的引用,因此在客户端方面一次访 问操作在服务器端可能对应着多条记录,如d 的访问紧接着对e 的访问。时间完全一致, 这就可以认为对d 和e 的访问是同一次访问。 w 3 c 的扩展日志格式相对复杂一些,日志项由可变数量的不同域类型组成,而且很多 域类型需要前缀说明该域所涉及的传输范围。如表3 1 所示。 表3 1 w 3 c 扩展日志格式的域前缀 前缀含义 c - 服务端 s - 服务器端 r - 远程服务器 c s 客户端到服务器端 s c - 服务器端到客户端 辨 服务器端到远程服务器 静 远程服务器到服务器端 x 应用 在w 3 c 扩展日志格式中定义了2 0 多种域类型,有些必须带有前缀,有些则不必,一 般在服务器设置中可以选择在服务器记录哪些类型的信息,表3 2 给出w 3 c 扩展日恚格式 中定义的域类型。 表3 2 w 3 c 扩展日志格式的域类型 域标识符是否需要前缀域类型描述 d a t e否 完成访问请求的日期 t u l l e 否完成访问请求的时间 m是 前缀所确定的主机m 地址和端口号 d n s是 前缀所指定主机的完整主机名 m e t h o d 是所执行的操作 u 砒是被访问资源的完整u r l 嘲s t e m是不包含查询字串的u r l u r i - q u e r y 是u r l 的查询字串部分 1 2 东南大学硕士学位论文 c o o k i e 是所发送c o o k i e 的内容 u $ 自r l l a l l l e 是,限定c s访问者被站点记录的用户名 c “r c f e r r e r ) 是,限定c s最后访问页面的u r l c s ( u s e r - a g e n t )是,限定c s 客户端浏览器类型 f r o m是,限定c s用户的e m a i l 地址 p r o t o c a l是所采用的网络协议,如h 1 - r p ,f t p 等 s t a t u s是 h t t p 服务器状态代码 c o m m c n t是 包含状态码的注释 b y t e s 否 一次连接传输的字节数 t i m e - t a k e n否 完成一次请求花费的时间,以秒为单位 c a c h e d否记录是否缓存一次点击,0 为未缓存 虽然w 3 c 扩展日志格式定义了很多域类型,但是一般服务器所记录的只有少部分,而 与w e b 用户行为模式挖掘相关的域类型也只包括m 地址,访问日期,访问时间,资源u r l 及代理名,下面是一段扩展日志格式日志文件: # s o f t w a r e :m i c r o s o f li n t e m e ti n f o r m a t i o ns e r v i c e s5 1 # v e r s i o n :1 0 # d a t e :2 0 0 7 - 0 3 2 01 2 :4 0 :3 3 # f i e l d s :t i m ec - i pc s - m e t h o dc s - c f i - s t e ms m t a a l sc s ( u s e r - a g e n t ) 1 2 :4 4 :0 61 2 7 0 0 1g e t i n d e x1 0 2 4 t o p h u n 2 0 0 m o z i l l a 5 0 + ( w i n d o w s ;+ u , + w i n d o w s + n t + 5 1 ;+ z h - c n ;) + g e c k o 2 0 0 7 0 3 0 9 + f i r e f o x 2 0 0 3 1 5 :2 2 :0 21 2 3 4 5 6 7 8 9g e t a h u n3 0 4 m o z i l l a 5 0 + ( w i n d o w s ;+ u ;+ w i n d o w s + n t + 5 1 ;+ z h - c n ;) + g k o 2 0 0 7 0 3 0 9 + f i r e f o x 2 0 0 3 1 5 :2 2 :0 21 2 3 4 5 6 7 8 9g e t b a s p2 0 0 m o z i l l a 5 0 + ( w i n d o w s ;+ u ;+ w m d o w s + n t + 5 1 ;+ z h - c n ;) + g e e k o 2 0 0 7 0 3 0 9 + f i r e f o x 2 0 0 3 1 5 :2 4 :0 21 2 3 4 5 6 7 8 9g e t c h u n3 0 4 m o z i l l a 5 0 + ( w m d o w s ;+ u ;+ w m d o w s + n t + 5 1 ;+ z h - c n ;卜g e c k o 2 0 0 7 0 3 0 9 + f i r e f o x 2 0 0 3 1 5 :2 4 :0 21 2 3 4 5 6 7 8 9g i 汀d h u n3 0 4 m o z i l l a 5 0 + ( w m d o w s ;+ u ;+ w i n d o w s + n t + 5 1 ;- t z h - c n ;) + g e c k o 2 0 0 7 0 3 0 9 + f i r e f o x 2 0 0 3 可以看到在日志文件头以# 符号开头有4 行对日志的说明字段,前三条说明该站点的 w e b 服务器为m i c r o s f o ri i s5 1 ,日志格式版本1 0 ,产生时间为2 0 0 7 年3 月2 0 日1 2 点4 0 分。第四条则列出了该日志文件中每条日志项由哪些类型的域组成,包括访问时间,客户端 对服务器端的m ,客户端与服务器端请求通信采用的方法,客户端访问请求u r l 的主干部 分,服务器的状态代码和客户端浏览器的类型。 对这些日志文件进行预处理时,不同的步骤针对不同的数据段,如数据清理阶段主要根 据每条访问操作请求的目标文件,去除图形图像文件,脚本文件等无用项;而用户识别阶段 则主要根据用户的地址、访问时间及浏览器类型来进行识别;路径识别则主要针对用户访问 的u r l 地址。对不同格式的日志文件,要处理的内容相对一致,需要将不同存储方式的这 些日志项转化成统一的格式以供后续步骤进行操作。根据后面操作步骤所需信息,保留日志 项中的i p 地址,访问时间等于w e b 用户行为模式挖掘任务相关的域信息,将日志文件转化 为结构序列下面给出日志项的逻辑形式: c l a s sl o g e n t r y s t r i n gu i p ; d a t ea c c s e s s t m a e ; 东南大学硕士学位论文 s i r i n g 乜, r g e t ; s t r i n ga g e n 饿a m e ; i ms t a m s c o d e ; ) 这样,原有的日志文件就统一成为结构序列,便于进行下一步的操作。该转化过程可以 与数据清理步骤同时进行,但是考虑整个框架可能面向不同格式的数据源,首先进行日志文 件的读取和转化。 3 2 数据清理 对大数据量的数据源进行清理工作以去除无关及干扰信息在数据挖掘中是很常见的, 同样,w e b 用户行为模式挖掘的数据源也包含有很多与挖掘过程无关的信息,将这些无关 信息去除对于进一步的日志分析工作是有利的。对日志分析所获得的目标规则及统计信息的 正确性,依赖于日志文件能否如实反映出用户对服务器的访问情况。如上一节所提到的, h t t p 协议要求服务器为客户端所请求的每一个文件建立一条连接,这样就使得对一些页面 的访问请求可能在日志文件中产生多条记录。脚本文件,图形图像文件及框架集文件等都有 可能随一个文件的访问而一起传输至客户端。当对一个文件的访问请求引发多个访问请求 时,只有第一条访问请求也即是日志文件中连串访问记录的第一条是有意义的,其代表了 一次访问情况,应当保留下来供后续的处理,而与其相关联的若干后续项为多余信息,应当 剪除。w e b 用户行为模式挖掘要分析的主要目标是用户访问动作之间的联系,无须了解每 一步访问动作的细节,因而用户没有直接访问的文件不需记入考虑。 一般说来,有这样一些类型的日志项记录可以作为无关项加以剪除:1 ) 一次访问过程 中由间接关联产生的其它访问记录,如对图形资源,脚本文件,框架文件的访问记录等;2 ) 用户请求失败的记录,反映在日志文件中就是服务器状态代码非2 0 0 ( 访问成功) 的记录, 如4 0 4 ( 未找到目标文件) 、5 0 0 ( 内部服务器错误) 等;3 ) 请求方法中非g e t 的记录可以删 除,很多情况下p o s t 方法不记录入日志,但也不排除日志项中出现p o s t 的可能 通过考察u r l 的后缀,一般如g i f , j p g 等后缀图像文件,j s 、c g i 等后缀的脚本文件 都是可以剪除的但是清理过程也并非如此简单,实际上,不同类型站点所包含的文件类型 与内容也有很大区别,数据清理的策略也就要大相径庭。比如一个以相册为主要功能的站点, 有可能很多直接的访问都是针对图像文件的,在这种情况下就不能大量删除日志中的图像文 件访问记录,但是若此站点的设计使得用户无法直接访问图像文件,那么在进行数据清理时 可以将图像文件访问项作为冗余项加以剪除。 为了解决清理策略问题,这里采用的方法是通过规定一个清理策略文件,其中记录目 前处理站点中哪些文件可作为冗余记录删除,在进行数据清理步骤时由数据清理模块读入该 文件,清理时根据策略文件对日志项进行剪除,通过调用i s l r r e l e v e n t ( ) 方法将各记录的 u r l 后缀与策略文件中规定的清理规则对比。 规则文件内容比较简单,包含两项:e x c l u d e 和i n c l u d e ,e x c l u d e 后面是可以剪除的资源 u r l 后缀,i n c l u d e 则是考虑到可能出现特例,而允许用户指定部分满足剪除条件的日志项 不被剪除。下面给出实验时采用的策略文件内容,因为实验用服务器结构相对简单,策略文 件也比较简单。 ,+ l o gp r u n es w a t e g yf i l e * e x c l u d e = j p g i j p e g l g i f i j s b m p i n c l u d e = 非页面后缀的资源文件的剪除相对比较容易,对于h t m ,a s p 之类的页面资源访问记录 1 4 东南大学硕士学位论文 的剪除则比较困难。因为有网页引用及框架结构的存在,使得对一个页面的访t - ;3 1 发对多个 页面的访问请求,这时可以考虑将日志项中的访问时间作为清理的一个参考条件。因为当出 现一个l i n n i 文件的引发对多个其他h i m ! 文件的访问时,日志项中连续的几条记录在访问时 问上应当一致,若考虑到网络延迟问题,可能会有微小的差异,但是这差异应当很小( 不考 虑服务器延迟的情况下应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论