(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机软件与理论专业论文)基于关联规则的web日志挖掘研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t ract web l o g min l n g i s a ve ryi mpo rt ant d i re c t i o n and d o 咖 n inweb d ata m i n i 呢 area. t h r o u ghana l 邓 1 呢山 l d fi n d i雌o utt herule s i n th e web l o g , it c o u l d d i s c o v e r the ru l e a i1 d p a t t e mo f th e po1 e n t i alweb us e rs , it c o ul d bewid e l y us e d i n d i sc o v e ri ngthe p o t e n ti alc u stom e rsine 一 b u s i ne s s a n di m p ro ve th e q u a 1 1 tyande ffi c i e nc yo f the e nt e rp r l s e i n fo rmation p o rtal . thi sarti c l ei nt ro d u c eth es t a tt 巧o ft h edev e l o p m e nt o fi n t e m e tandthe b ac k 脚u n d o f web d a t a m i n i n g a i1 d syst emat i c al lye x p at i ate the te c hni q 业 , theo ry and st r a t e gy, m aki n g a dee per d i s c u s s i o n o n the k e y te c hni q u e o f the p r o c e s s in认 乞 b d a t a m i n i n g ,m a i n 1 y fo c u s e d o n th e p r e p ro c e s s a n d as soc i at i onrule a l g o ri t 】加一a p ri ori, a 11 d p u t th e mi nt o the u s a g e o f the c o n s t r u c t i o n o f e x per l m e ni sys t e m i n t heweb l o g p 哪ro c e s s i ngas pe ct , b ased onth e m e t h o d s t h a t h ave i n v e n t edi n t h e l ast, t h e u ml wil l b e i nt ro d u c e d i n t o t h e m edu leo f u ml , des i gn t h e d a t a b ase t abl e , a n d re al i z e th e p r o c e s s o f the al gori t 肠 肚 . u p o n t ll e as s o c i atio n ru l e , 而s p a per ana 】 y z e s the c l as s i c alc h ar a c t e r o f apri ori al g 。 巾 h m , fi ndi ngo u t th e di s a d v anla g e o f t h e al g 0 rit l11 1 1 and raisethe i m p roveinent p l an. b ased o n the m /e b l o g m i n in g theo ryand te c lml q u e , c o m b i n e d w i t h the c u rr e n t m ai n s t r e am re s e a r c h , d e s i 邵 asystemn a n l e d认 /e b l o g min e r,andp u t itinu seo f ana 恤in g the w 亡 b lo g , re trie vethe d a ta asfor t h e evid e nce o f the nextw o r k s . k 盯w心 rds : w e b l o g ; w 亡 b min i ng, a s s o c i at i o n r u l e , d ata 学位论文独创性声明 学位论文独创性声明 本人声明 所呈交的学位论文是本人在导师 指导下进行的研究工作及取得 的 研究成果。 据我所知,除了文中特别加以 标注和致谢的地方外, 论文中 不包 含其 他 人己 经 发 表 或 撰 写 过的 研 究成 果 , 也 不 包 含 为 获 得 南昌大学 或 其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者/ (/ ” 、气 气 日一 卉 7 二 月 “ 日 学位论文版权使用授权书 本 学 位 论 文 作 者完 全了 解南昌大学 有 关 保 留 、 使 用 学 位论 文 的 规 定 , 有权保留 并向国家 有关部门或机构送交论文的复印 件和磁盘, 允许论文被查阅 和借阅。本人授权南昌大学可以 将学 位论文的全部或部分内 容编入有关数据 库迸行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学 位 论 “ 作 铸手 写 恤 叭 签 字 日 期 归/ 年峪 月 阳 导师签名 ( 手写) : 险 喀 签字日期: 。? 年 乙 月 州 日 学位论文作者毕业后去向: 工作单位: 通讯地址 : 电话 邮编 第 1 章 引言 第 1 章 引言 1 , 1研究背景 i ntem e t 及 ww w(world钻de, /e b ) 的出 现及快速发展极大地改变了 人们的 工作、 学习 和生活。 它为 用户提供了 数量巨 大而 丰富 的各 种信息, 根 据ldc(国 际数据中 心) 的调查,仅在2006 年,全球产生的数字信息量共计161 千兆兆字 节 111 , 将这些数据印 成书籍的 话, 排列起来的 长 度是 地球至太阳 距离的12倍。 然而, inte rn e t 上巨大的信息使人们在查找和使用i nl e rn e t 上的信息时感到力不 从心, 处于 “ 拓chd atap oor l n fo n 刀 a t 1 on, 的 境地。 面对巨 大的 信息量 和web 信息 的复杂结构,传统的信息检索工具己 不能完全满足用户的需求,如何有效地分 析用户的需求, 帮助用户从www这个全球最大的数据集合中发现他们所要寻 找或者感兴趣的信息资源,以及如何帮助网站管理者根据网站历史访问资料获 得更多更准确的信息以确定商业战略等已经成为一项迫切而重要的研究课题。 l l i 玩te rnet的发展 从196 9 年美国a r 卫 a n e t的诞生到连接着 17 0 多 个国家的inte m e t 仅仅用 了2 0多年,随着i n t e rn e t 的迅速发展, 人们为了充分利用功 t e rn e t 上的资源, 迫切需要一种更加方便、 更加快捷的信息浏览和查询工具, 从而ww w( 认 b rld wide 研 /e b ,即万维网, 简称节 范 b )诞生了 。 m 触 b自1 993 年问 世以 来, 在十几 年的时间里己 经遍布世界各地。inte m e t 的发展也使得网络用户和 认 范 b 服务器 的数目以 惊人的速度增长, 在1 9 9 3 一 2 0 06年的十几年间研 阳 b 增加了5 个数量级 12 1 ( 如图1 一 1 ) 0 第1 章 引言 行w eb挖掘li , , 怂 b 挖掘就是 从web 文 档和w e b 活 动中 抽取用户感兴 趣的 潜 在的 有 用 模 式 和隐 藏的 信 息的 过 程 1“ 1 . 1 .2国内外研究现状 早在19 %年, 就有学者m.s.c h e n 、 hm a n n i 纽和 t. y 如提出了可以 将数据 挖掘方法用 于w eb研究领域的思 想19 一 川 。 互 联网 的 快 速发展, 使得 对web 访问 分析的需求越来越迫切,许多国家把这项研究作为重点资助科研项目, web 日 志挖掘也得到了极大的发展。 l 2. 1国外研究现状 m 范 b数据挖掘研究在国外起步较早,ibm,n e c 等公司对web数据挖掘进 行了大量的 研究,并取得了一定的成果。5 . c h 盯 如 ra b artl 对超文本数据挖掘进行 了 研究,并指出 基于知识的 算法将会在w eb数据挖掘中 扮演重要的角色112 ! : b.pi nke rt o n 对信息的收集和评价方法进行了讨论并引入了结构挖掘来评价查询 结果113 , ; o smar.rzaiane等还对w eb多 媒体数据挖掘进行了研究,并提出了 一 个多 媒 体 数 据 挖 掘的 系 统 原 型 !141 。 1 9 98 年 , 5 . b ri an 和 l . p age提 出 了 page r 田 正 算 法并 将 其 应 用到 goog lel lsl 。 l 2. 2国内研究现状 与国外相比,国内对数据挖掘的研究起步稍晚,主要开始20世纪90年代中 期。 对we b 数据挖掘的研究要在1998年以后。 南京大学、 北京大学、 中科院计算 技术研究所等对we b 内容挖掘进行了较为深入的研究, 国防科技大学、 上海交通 大学、西安交通大学、复旦大学等对web访问信息挖掘进行了大量研究。邹涛、 王继成、王实和高文、张卫丰等对v 触 b 内容挖掘以及认 七 b信息检索的技术进行 了 研究11 191。国防科技大学、 上海交通大学、西安交通大学等对用户访问 站点 的路径访问模式进行了初步研究。此外,一些数据挖掘和智能信息检索的学术 团体也十分活跃,如数据挖掘讨论组、南京大学小百合的数据挖掘版和智能信 息检索论坛等。 第 1 章 引言 1 .3本文主要工作与创新点 本文简要介绍了i nt e rnet 的发展状况,系统地阐述了w 亡 b数据挖掘相关理 论和技术, 重点研究了web 日 志数 据挖掘整个过程及其中各环节 的关 键技术, 特别是w 七 b 日 志挖掘的数据预处理技术和关联规则及基于关联规则的经典算法 并对其进行了改进, 在对理论和技术研究的基础上, 设计和实现了m 范 b日 志挖 掘系统web log m i ne r , 并 获 得 较好的 效果。 本 人在本课 题中 的主 要 一 l 作集中于 以下几个方面: 1 .介绍了i n t e m et的发展状况和叭 范 b 挖掘技术产生的背景及目前国内 外的 研究现状, 探讨了数据挖掘与研 范 b 数据挖掘的思想、 理论、 方法、 技术和策略, 明确对w已 b 数据挖掘进行研究的意义。 2 .对场 怂 b 数据挖掘理论、方法和技术进行研究, 特别是对web日 志挖掘 进行了较为深入的研究,包括web 跟踪机制、 w 亡 b日 志挖掘常用的技术、 从 七 b 日 志挖掘过程和存在的问题以及解决的方法等。 3 .深入研究了w 七 b日 志挖掘中的非常关键的步骤一 数据预处理,系统的 描述了预处理阶段的各项任务,使用统一建模语言 对预处理进行建模,并给出 了整个过程的算法实现,同时对一些经典算法中的不足进行了改进。 4 .研究了 数据挖掘中常用的挖掘发现算法, 重点研究了关联规则理论和基 于其上 的 经典 挖掘算法a p r i ori, 分 析了 该 算法的 缺陷 ,并 针 对其中比 较低效的 部分进行改进, 使其具有更高的执行效率, 更适合于大数据量的web日 志挖掘。 5 将数据挖掘技术引入并集成到研 几 b日 志挖掘中,提出一个w e b 挖掘模 型,在此基础上设计并实现了一种基于关系数据库的 认 七 b日志挖掘系统 w已 b log miner 。 6 .总结了 研究过程中碰到的一些问 题,展望 w 七 b日 志挖掘的发展和研究 趋势以及今后需进一步做的工作。 第 1 章 引言 1 .4本文的组织结构 全文组织如下: 第1 章 引言 概述了 本论文的研究背景和数据挖掘的研究现状,介绍了i n t e m et及 节 陌 b 的迅猛发展使人们所面临的问题, 并指出w七 b 数据挖掘是解决问题的有效方法 之一, 对m 触 b 数据挖掘国内外研究现状、 本文的工作重点及意义作了 简要的论 述。 第2 章 we b日 志挖掘综述 对数据挖掘和 从 触 b挖掘理论、方法和技术做了详细的论述,并在对 场 触 b 数据挖掘整个理论体系概括和总结的基础上对其所使用的技术进行了比较和分 析,对认 范 b日志挖掘原理和技术进行重点研究。 第3 章 we b日 志预处理 对 m 怂 b日预处理方法和技术进行了深入而系统的研究,重点专注于 m 范 b 日 志预处理的理论和方法,并在此基础上使用 u ml对处理过程进行建模,给 出了算法及其实现。 第4 章 we b日 志挖掘算法研究 研究了数据挖掘中常用的发现算法,重点研究了关联规则理论和基于其上 的 经典 挖 掘算法仰riori 算法, 分析了 常 用该算法存 在的 不 足, 并 针 对其中比 较 低效的部分进行改进,使其具有更高的执行效率,更适合于v 尼 b日志挖掘。 第5 章 日 志挖掘系统web l o g m i ner 的 设计和实 现 在对认 乞 b日志挖掘理论、 方法和技术进行研究的基础上, 设计了一个研 怂 b 日 志 挖 掘的 系 统web logmi毗, 并 结 合当 前 主流 技 术 实 现了 其 主要 功 能。 第 章 结论与展望 对本课题工作做一总结,并提出进一步研究的方向。 第2 章 认 飞 b日 志挖掘综述 文本数据挖掘或文本挖掘, 是w e b 挖掘中比 较重要的技术领域!周。 最近在web 多 媒体数据挖掘方面的 研究成为另一个热点 1151。 w eb内容挖掘一般从两个不同的 观点来 进行研究. 从资源查找的观点来看, web内 容挖掘的任务是从用户的角度出发, 怎 样提高信息质量和帮助用户过滤信 息。 而 从d b 的角度讲w eb内容挖掘的 任务主要是试图 对w eb上的数据进行集成、 建模,以支持对we b 数据的复杂查询。 web 内 容 挖掘有两种策略l2i: 直接 挖 掘文 档的内 容 和 在其它工具 搜索的 基 础 上进 行改 进。 采 用 第 一 种策 略的 有 针 对 w eb 的查 询 语言 1271, 如 w e boq l 、 w eb l og等: 采用第二种策略的 方法主要是 对搜 索引 擎的 查 询结果 进行进一步的 处 理,得到更加有效的信息。 2. 2. 2 w七 b结构挖掘 we b 结构挖掘的对象是web本身的超连接,即对w比文档的结构进行挖 掘,从而获得所需信息。 web结构挖掘得益于社会网络和引用分析的研究。把 网 页 之间的 关系 分为i nco m i ng连接和o u l g o ing 连接, 运 用引 用分析方 法找 到同 一网站内部以及不同网站之间的连接关系。在这方面工作的主要代表有 p ag e r ar 止 1281和cl , 它 们 的 共同 点 是 使 用 一 定 方 法 计 算w eb页 面 之间 超 链 接的 质量, 从而得 到页面的 权重。 著名的cl 和g 的gle搜索引 擎就 采用了 该 类算法。 此外, w e b 结 构 挖掘另一 个尝 试是 在 w eb 数 据仓库 环境 下的 挖掘12 圳 , 包 括 通过检查同一台服务器上的本地连接衡量web结构挖掘we b 站点的完全性, 在不 同的we b 数据仓库中检查副本以 帮助定位镜像站点, 通过发现针对某一特定领域 超连接的层次属性去探索信息流动如何影响we b 站点的设计等。 2. 2. 3 w七 b 使用挖掘 we b使用挖掘即是w e b 日 志挖掘, 其主要目 标是从w e b 的 访问 记录中 抽 取用户所感兴趣的 信息或模式脚 1 。 在www中的每一个服务器中都保留了 访问 日 志 ( w ebac ee ss l og ) , 通 过 挖掘 相关 的w eb日 志记 录, 可 发 现 用 户访问w eb 页面的模式,通过分析日 志记 录中的规律,可以识别用户的忠实度、喜好、满 第2 章 w 七 b日 志挖掘综述 意度,可以发现潜在用户,增强站点的服务竞争力,这在新兴的电 子商务领域 有重要意义。 根据对数据源的不同处理方法, we b 使用挖掘可以分为两类, 一类是将we b 使用记录的数据经预处理转换,再传递进传统的关系表里,使用数据挖掘算法 对关系表中的数据进行 常规 挖掘;另一 类是将w eb 使用记 录的数据直接预处理 再 进 行 挖 掘 1321。 j . s ri v astav 询 r 。 c oo l ey 等 人 在 根 据 数 据 来 源 、 数 据 类 型 、 数 据 集合中的用户数量、 数据集合中的 服务器数量等将web使用挖掘应用领域分为五 类: 个性 挖掘、 系 统改 进、 站点 修改、 智能商务和 w eb 特征 描述! 10 2. 3 we b 数据挖掘的主要流程 从数据库研究的角度出发, web 网 站上的信息可以看作一个更大、 更复杂的 数 据库135 ! ,与 传统数 据 和数据仓 库 相比 , w eb上的 信息是非 结构 化或半结 构 化 的、 动态的、 并且是容易造成混淆的, 所以 很难直接用we b 网页上的数据进行数 据挖掘, 而必须经过必要的预数据处理。 典型的we b 数据挖掘主要包括以下几个 步 骤 ,划 ” : (1 ) 查找资源: 任务是从目 标web文 档中 得到数据, 包括电 子邮件、 电 子文 档、 新闻组, 或者网站的日 志数据甚至是通过we b 形成的交易数据库中的数据。 (2 ) 信息选择和预处理: 任务是 从取得的w eb资源中剔除无用信息和将信息 进行必要的整理。 (3 ) 模式发 现:自 动 进行模式 发 现。 可以 在同 一个站点内 部或在多 个站点 之 间进行。 (4 ) 模式分 析: 验证、 解释上一步骤产生的 模式。可以 是机器自 动完成,也 可以是与分析人员 进行交互来完成. 2. 4 we b 数据挖掘主要方法 目 前w eb数据挖掘领域中常用的技术和方法有很多, 数据挖掘领域常用的 方 法如 关 联规则 、 序 列 模 式、 分 类 聚 类 等 均可 用 于 w eb 数 据 挖 掘中 137as l 。 此外, 还有web 数据挖掘中使用的特有的路径分析技术。 第2 章 职 触 b日态 挖掘综述 2. 4. 1路径分析 用路 径分析 进行w e b数 据挖掘时 , 最常用的 是图 【3 娜1 。该 方 法把w e b 用一 个有向图 来表示, g= ( v, e ), 其中: v是页面的 集合, e是页面之间的超链接集 合 , 页 面定 义为图 中的 顶点 , 而页 面间的 超 链接定义为 图中 的 有向 边. 顶点 v的 入边表示对v的引用, 出 边表示v引用了 其他的 页面, 这样形成网站结构图 , 从 图中确定最频繁的访问路径。 2. 4. 2关联规则挖掘 19 93 年, 凡a g r a w a l 等 人 首 先 提出了 关 联 规则 挖 掘问 题1411, 他 们 描 述的 是 数据库中一组数据项之间某种潜在关联关系的规则。数据项之间的关联,即根 据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现 1 刁 2 闷j l 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中 挖掘出 相关 的规则 , 就是要挖掘出用户在一个访问 期间 ( s es s i o n ) , 从服务器上访问的页面 文件之间的 联系, 这些页面之间可能并不存在直接的 参引 ( refe r e nce)关系。 最常 用的 是 apri ori 算法 , 从事务 数 据 库中 挖 掘出 最大频繁 访问 项集,这个项 集就是 关 联规则 挖掘出 来的用户访问模式14t 书1 。 2. 4 3序列模式挖掘 李明星、衡萍等在其论文中指出:序列模式数据挖掘就是要挖掘出交易集 之间的 有时间 序列关 系的 模式l 习 , 它与关 联挖掘技术都是 从用户访问 下的日 志 中寻找用户普遍访问的规律, 关联挖掘技术更注重事务内 的关系 , 序列模式技术 则注重事务间的关系。 2 . 4 . 4聚类分类 在w e b数据挖掘中 , 分类规则可以 挖掘出 某些共同的特性, 这个特性可以 用 来对新添到数据库里的数据项进行分类。分类技术晰 1可以 根据访问 这些用户而 得到的个人信息或共同的访问模式得出访问某一服务器文件的用户特征。聚类 第2章 场 七 b日占 挖掘综述 技术川 1 则是对 符合某一 访问规律特征的 用户进行 用户特征 挖掘。 而后进行模式 分析, 挖掘出人们可理解的知识的模式解释。 除上 述方法外, 还有把数据与结果转化和表达成可视化形式的可 视化技术、 统计分析方法、云 模型方 法和归 纳逻辑程序等方 法1侧。 2. 5 、 v e b日 志挖掘研究 2. 5. i we b日 志挖掘中用到的术语和概念 w3 c组织在1999 年制定了 一套规范的从 范 b 相关的术语否 。这里我们列出 一些与本文相关的术语及概念。 we b 服务器日志: 叭 尾 b 服务器在响应用户的请求时, 将用户请求的文件发 送出去的同时把这次请求相关信息写入日 志。w 七 b服务器日志记录了用户访问 相关 站点的 信息, 一 般分 种类型: 访问日 志( acce ssl o 9) , 代 理日 志 ( a g e n t l og), 引用日 志 refe rrer l o 9)。 访问日 志主要记 录基本的请求信息, 包括:用户的ip地址、时间戳、方法 ( 如g e t 、p o s t ) 、被请求文件的u r l 、超文本传输协议 ( h 竹p) 的版本号、 返回码 ( 请求的状态, 成功或错误码) 、传输字节数。 代理日 志记 录用户使用的 操作系统以及浏览 器类型。引用日 志记录用户的 请求是来自 那个u rl。 请 求( req u es t 或 hit) :向m 范 b服务 器 请求 一 个文 件的 动 作, 对 于 用 户 来说是点中某个超链接,对于服务器来说一个请求对应一条日 志记 录。要说明 的一点是一 个m 怂 b页面可能包含多个文件,如h t m l及声音和图 像,此时用 户虽然只点中一个超链接,但是相应的有多个请求,在日 志中就有多行记 录, 一个web 页面对应的请求数可以通过查看web 日 志得到。 c oo址 e : 首先由net sc a pe公司 开发的 一种 用于追踪用 户的 机制。 用户第一 次访问站点时, w 七 b 服务器为其分配一个唯一的标识符并保存在用户的计算机 中, 用户再次访问 该站点时, 浏览 器将该 标识符回送给研 触 b 服务器,由 此来识 别用户。 网 络 爬虫( s p i d er或c raw l e r) : 一 种网 络 软 件工 具 , 通过 分 析w 已 b 站 点 c具 体见h t t p : / / ,3 o r g / 1 9 9 9 / 0 5 渭 以- t e 坷5 / 第2 章 节 几 b日态 挖掘综述 的每个h t m l文件, 建立与h t m l文件对应的 超文本链接目 录,然后跟踪每 一个超链接, 直到m 阳 b 站点的所有页 面都被遍历, 最终获得叭 阳 b 站点的结构文 件。 用户会话( u , ers es 幻 。 n ) : 一段时间内 用户对一个或多个网站的访问 请求。 服务器会话 ( se rv erse” io u ) : 用户 会话中 对 应于本服务 器的 访问 请求. 由 于本文中所提到的w 七 b日 志挖掘一般只是面向一个服务器的, 所以 在本 文中, 用户会话和服务器会话的 含义一致, 指用户在一段时间内访问v 触 b 站点 时所有请求的页面。 用户会话文件中包含访问认 范 b 站点的用户、 请求的页面及 顺序、每一页阅读的时间等。在本文的后续部分,我们将统一采用用户会话这 一术语。 页 视图( p a ge矶 ew) :用户点 击 一次超 链接后 在浏览 器中 得到的 一个屏 幕 显示,页视图可能由许多文件构成。一个页视图代表用户的一次点击动作。 2. 5. 2 w七 b系统体系结构 首先, 要了 解用户的请求及服务器的响应在www上是如何进行的。 www 的结构是基于b / 5 模式, 并且具有平台无关性, 通常服务器对于浏览研 触 b 站点 的用户是透明的。 通过下面的图2 一可以 清楚了 解w w 、 v 是怎样运行的1491: 第2 章 we b日志挖掘综述 客户机 呼一 补使用代理服务器时的信息流 呀 州卜 不使用代理服务器时的信息流 c 一 p客户俄 理服务器间通讯 c 一 w 客户瓜七 b 服务器间通讯 p-w 代理服务器2 认 范 b 服务器间通讯 图2 一 ww w数据通讯体系结构 从全局来讲, www共有三个层次:客户, 代理服务器和m 范 b 服务器。 从 这三点都可以收集到用户的网络行为,只是收集到的数据各有侧重点。 w 七 b 服务器端的数据包含:网站的页面内容及其链接关系、服务器日 志、 与网站服务相关的数据库数据、 网站用户的注册信息和c o o ki e 等。 站点中的动 态和静态页面为用户传达了网站为用户提供的信息, m 尾 b 服务器在响应用户的 请求时,将用户的请求动作记录在服务器的日 志文件中。从服务器与用户的浏 览关系中可以看出,服务器端记录的是多用户一 单站点的信息。 客户端记录了单个用户在其整个浏览过程中的行为数据,用户的浏览过程 一般涉及多个站点,因此客户端收集的是单用户一 多站点的信息。 代理服务器介于客户端和服务器之间, 它接收客户端的请求,并为 客户从 服务器端取回相应的页面,最后将页 面返回给客户端。由于代理服务器 一般为 多个用户提供代理服务, 它可以 提供多用户一 多站点的信息。 第2 章 从 范 b日 志挖掘综述 2 . 5 . 3 w七 b 跟踪机制 目 前,大部分的商业网站、门户网 站和论坛站点等都对用户采用某些跟踪 技 术, 常 用的 有 两 种 方 式: c oo kl e 和web b ug。 c o o k l e 是当用户浏览某网站时, 网 站存储在用户机器上的一个小文本文件, 它记 录了用户的i d , 密码、 浏览过的网页、 停留的时间等信息,当 用户再次来 到该网站时,网站通过读取c ooki e ,得知该用户的相关信息,就可以做出相应 的动作, 如在页面显示欢迎标语, 或者让用户不用输入id、 密码就直接登录等 等。 对同 一个站点而言,每个用户对应唯一的一个c o okie 。当 用户首次访问网 站时, m 触 b 服务器将c 。 。 kl e 发送给用户, 并将之保存在用户的计算机中, 用户 再次访问该站点时,浏览器将对应于该站点的c ooki e 值发送给节 范 b服务器, 研 怂 b 服务器根据c ookie 值自 动识别用户。 ie浏览器把c o o k i e 信息分站点保存在系统目 录的coo ki es子目 录中,这些 文 件 通常 是以user do 格 式 命名 的 , 是 用 户的 本地 用 户名, do lnam是 所 访问 的 网 站的 域 名; 而n et 邪 ape n av ig ator 则 是 使 用一 个名 为cooki es .txt本地 文件保存从所有站点接收的c ook i e 信息。 c ooki e 是利用了网页代码中的h t t p 头信息进行传递的,浏览器的每一次 网页请求,都可以伴随c ooki e 传递, 例如, 浏览器的打开或刷新网页操作。 服 务器将c ook i. 添加到网页的h t t p 头信息中, 伴随网页数据传回到用户的浏览 器,浏览器会根据用户机器中的c ooki e 设置选择是否保存这些数据。 在h t t p 的报头中有两条指令用于对c ook i e 的操作: s et-c ooki e 和c 0 0 ki e 。 s et-c ooki e 指令用于服务器端设置c ook l e 值, c ooki e 指令则是在用户请求站点 页面时, 将保存在本地的该站点的c o o k ie 值发送到认 乞 b 服务器, s et-c ooki e 指 令的基本格式为: s e t , c ooki e : n a me = v a l u e ; 已 却行 韶 = d 闰 陀; p ath= 脚 u 书二 n a me = v a l u e是s et-c ookie 指令中唯一必要的参数,n a m e及 都 可由 任何字串 组成。 ex p i re s=d a i ,e 定 义了c ooki e 的有 效日 期, d a t e v al ue 的格式 第2 章 w 七 b日 志挖掘综述 形 如d d 一 m m 一 y y y y h h :m m :s s g m t , 如 果 没 有指 定 该 参 数。 p at h=p a t h 指 定 使得该c ooki e 有效 的 路径, 当 用 户再 次 访问p at h 参数所定 义的网 页时 , 浏览 器 就将所设定的c o o ki e 回传给服务器。 c o o k l e 指令与se卜 c o okie指令相似, 这两 条指令的语法具体可以 参见 rfc zio g 。可以 根据一个用户购买商品的 例子来 更 深入地理解c ooki e 的使用1491。 例2 一 1 :用户a初次访问web 服务器5 , a在5 的主页上注册后,继续在 5 上进行购物。 表2 一 1 详 细列出了 用户浏览 器与m 几 b 服务器通过c ooki e 进行信 息交互的过程。 表2 一 1 浏览器与w e b 服务器通过c ookl e 进行信息空厅的一个典型讨程 步骤传输方向部分h t t p 报头解释 l 浏览器一 服务器 p o s t 乃 。 g l n h t 】 子 2 1 . 1 【 表单 数 据 用户通过表单数据确认自 己的身份 2 服务器一 浏览器 ht t p/ll 2 0 0ok s et-c ooki e : c u st o m e 户 ,r o g e r- lee , ; 垅污 i o n = , 1 ” ; p at 卜,严 服 务 器 产 生 了 名 为 c ustomer的 c o ok沁 ,其中 包含了用户标识符,该 c ooki e 所属的路径为,r 3 浏览器一 服务器 p o s t /p i c k i te mh t t p / 1 . 1 c o o k i e : vers i o n = . 1 . ; c us to m 亡 r 二 “ roger- 卜 e 欧p at h = 1甲 【 表单 数 据 1 用户从购物篮中选择购买 的商品 4 服务器一 浏览器 ht t p / 11 2 0 0ok s e t 毛o o k i e : p 洲ra n umb e 户 . r ock e l 坤u n c h e r-0 (x)1 “ ; 珑r s io n = ” 1 ,; p a l l l 曰 与 恤 m 砂 服 务 器 产 生 了 名 为 p art n u m ber 的c ook i e ,其 中包含了用户购买商品的 编号,该 c ook i e 所属的路 径 为 “ /acme” 5 浏 览器一 服务器 p o st 俪m e/sh i p p i ngh t t p / 1 . 1 c ook i e : vers in 下, 1 . ; c u stom er= .irog e r- -l e e 气 p ath= 叨; p art-nu m be厂 ,roc k e 仁 l a u nch e r- q ool 卜 p a t h = ” 俪m e , 【 表单 数 据1 用户选择投递方式 。详见h t t p : / / 柳 . c i s . o h i o-s t a t e . e d u / c g i 七i n / r 丘/ r f c 2 1 09. h t 口 1 第2 章 w 七 b日 志挖掘综述 步骤传输方向部分h t t p 报头解释 6 服务器一 浏览器 h下fp/ 11 2 0 0ok s et (因k i e : 弘i p p i n g = . f e d e 沪; 、 飞 r s i o ” = ” 1 “ ; p a t h = ” 尹 自 me ff 服 务 器 产 生 了 名 为 s h i p p i ng的c ooki e , 其中 包 含了 用户选择的 运送方式, 该 c ooki e所属的路径为 , lacm e ” 7 浏览器一 服务器 p o s t 俪m e/pr o c e s s h t t p / 1 1 c ookje : 决怜 i o n 牛 ” 1 . ; c us t o m e 卜. r o g 祀 r es 不 e e 介p a l h 刁八 p 洲es n umbe产” r ock e l es lau n c her 0( 沁 1 “ ; p 田 h 砂2 留 m e 一 ; s h i ppi n g = . f e d e x ” ; p ath 牛 一 角c me . 表单数据1 用户选择处理订单 吕 口 p 凡r 口反_ 、 h丫rpl l . 12 00 0k交易结束 月 区一 觉 了石 百 尹 浏览器 在上面的购物例子中, 通过c o o ki e 在服务器和客户端传递信息。目 前, 许 多网站通过c o o k ie 跟踪用户访问,记录用户行为。由于c ooki e 中可能包含用 户的id和个人资料,这样在网络传送中可能会泄漏用户的信息。 研 触 b b u g 是 指w e b 页 面中的 一个图片, 通常是一个卜1 象素 的图 片, 为 透 明的g if影像, 所以一般情况下是不可见的。 这类小型的透明 影像具有唯一的 d,功能与coo kl e 相似。这些影像用于追踪网页用户的在线活动。若这些影像 和计算机上现有的coo kl e 由同一个网站或广告公司安装,则它们会相互作用, 将收集到的信息发送给该广告公司。 研 触 b b ug通常被用来收集 用户的ip地 址、 用户浏览 的u rl、 用户 使用的 浏 览器类型、 用户已 有的c ooki e 值以及用户浏览该页面的时间, 以便网站了 解自 己 的 用户群。 然而, webb u g 并 不一 定都是不 可见的, 任何为了 监 视访问 者而 设置的图形都可以 算是webb u g ;另一方面, 也并不是所有看不到的图片都是 , 阳 b b ug, 有些 看不到的图片 是为了 对 齐网 页上的 文字。 从 七 b b ug最 大的 特点 就 是节 几 bb u g 的图 片文件来自 其它的v 几 b 服务 器, 不同 于当 前页 面 所 在的w 七 b 服务器。 第2 章 w 已 b日 志挖掘综述 有许多网站在其页面中放置了 webb ug,例如 q u i c k e n( h l t p :/ 朴q u i c ke n c o 耐) 、st at m arkct( h l l p 洲 朴.statm 毗e t .c o 耐)和 o i l o f o l 叮 (h ttp刃 w 认 叭 几 0 1ay.。 创 1飞 1 ) 等 。 下 面是 来自q 苗 c k e n 网 站 的w e b b ug。 上 面 的 一 段 代 码 是一 个web b ug, 它以 标 记符 开 始, q ui c k e n 利 用 它 追踪访问网 站的用户, 并将用户的点击信息提供给互联网广告公司double clic k ( h l l p :刀 叭 八 叨 以 d o ubl e c l i c k c o 而) v 几 b b ug不 仅存在于web 页 面,同时, 在许多电 子邮件的 广告中也有w 七 b b ug。 对于 电 子邮 件中的m 几 b b ug可以 用来确定 收信人有没 有读该邮 件, 共 有多 少 人 阅 读了 这 封信 , 并 且, web b u g 还可以 对 用 户的e m ail地 址 进 行 有 效 性的 判 断。 与 网 页中 的w 七 b b ug一 样, 电 子邮 件中 的w 七 b b ug也 是1 、 1 的 大 小。 但是, 不同 的 一 点是电 子邮 件中认 范 b b u g 中 包含了 收 件人的e . m a i l 地址, 在传送 过程 中e m ai l 地址可能是未被加密的纯文本, 这样用户的e m a l l 地址就会被泄漏。 例 如电子邮件广告商 e x actis ( h t t p 刃 叭 八 叨 w e xactis.c 。 耐 ) 、digi tal lmp act ( http: 刀 w ww digi ta l 一 i mp拟.c 0 1川 ) 和res pon s y s ( h n p 洲 叭 八 v w re s pon s y s .c o n 公 ) 等, 在他们的 广告 邮件中 使用了从 乞 bb u g 。下 面列举了 两 个来自 垃圾邮 件的 从 触 b b 吃 14 9 1: i m g w i 山 由 = ,lhei g h 卜 , r s rc 曰 七 吻刃 w w w mo一n e 灯 h l/ 】 雌。 伴n 02as p ? vi 卜3 而对用户而言,则希望享受网站服务的同时,自己的 隐私不被侵犯. 无论我们在这里怎样讨论这些跟踪机制的和用户隐私的关系, 实际的情况是c o okie 充斥了大多数的商业、公众以及门户网站。 2 . 5 . 4 w七 b日志 we b服务器响应用户请求时, 在将请求的文件下传给用户的同时会把请求 的相关信息写入日 志文件。日 志文件主要包括访问日 志、引用日 志和代理日 志 等,典型的we b 服务器日 志包括信息如表2 一 2 所示: 表2 一 访问日 志、引用日 志和代理日 志 日志类型日志示例 访问日志 2 0 卜1 2 一 1 7 2 0 : 0 6 : 1 42 1 1 . 66. 1 8 4 . 3 5 8 0g e t 厅 幻 d e x . 路 p h 下 p/ 1 . 0 ff 2 0()7 8 2 引用 日志 h 仰:刀 w w w a059民 印“ 口 令/ 比 阳姚e. h l m l 代理日志 m 0 z l l lal4 . 0+( 叨m pati b l e ; ms ie3 .0 1 ; + m s i e + 5 刀 ; + 铂n d o w s + 9 8 汁 d i gext ) 件的 码) 其内 容主要 包括: ip地址、 请 求时 间、 方法 ( 如get 、 p o s 劝 、 被 请求文 u rl 、 超文本传输协议h t t p及版本号、 返回 码( 请求的状态, 成功或错误 、传输字节数、引 用页的u r 工( 指向 被请求的页面 ) 和代理( 用户使用的浏 览器和操作系统的 类型) 等信息。 2. 5. s we b日志挖掘过程 web日 志挖掘的任务是对服务器日 志、we b站点的结构和文件以及可选的 与具体网站相关的数据 ( 如: 电子商务和银行数据等),经过模式分析得到的用 户感兴趣的规则和模式, 并以友好、直 观、 形象的界面展示给用户, 一般来说, web日 志挖掘通常主要包括如下图 2 碑 所示的三个阶段1洲: 第 3 章 w七 b日志预处理 第3 章 web 日 志预处理 1 1 w七 b日 志预处理概述 web日 志预处理是在研 几 b日 志挖掘前, 对, 几 b日 志进行清理、 过滤以 及 重新组合的过程。 场 怂 b 日 志数据预处理的目 的是把m 七 b日 志转化为适合进行数 据挖掘的可靠的精确的可用数据,并以 挖掘算法可识别的形式保存。 m 念 b日 志挖掘的对像是从研 七 b 服务器上获得的m 怂 b日 志数据,其中记录 了用户访问本站点的信息。典型的web 服务器日 志包括以ip地址、 请求时间、 方法、 被请求文件的u r l , h t t p 版本号、 返回码、 传输字节数、 引用页的u r l 和代理等。 但是,由于本地缓存、 代理服务器和防火墙的存在,使得从 陌 b日 志 中的数据并不精确。为了 减少数据传输量以提高网络性能,大部分的浏览器缓 存刚刚访问过的页面,所以当用户点击“ b a c k, 按钮时,显示的是本机缓存的 页面,而w已 b 服务器并不知道用户又访问了重复的页面。 代理服务器为用户提 供了中间缓存. 使得从服务器请求的页面在一段时间内可以被多个用户浏览。同 时, 在研 七 b 服务器的日 志中通常不含用户标识信息, 多个用户通过代理服务器 的请求在日 志中具有相同的标识符即代理服务器的ip地址, 导致日 志文件的不 准确。另外,出于安全的考虑,许多公司为内部的局域网设置了防火墙。 这种 情况下, 不同的用户请求在从 触 b 服务器的日 志中记录的都是防火墙的ip地址, 这样就带来与前面相同的问题。对于数据挖掘而言,不正确的输入数据可能导 致错误或者不准确甚至是完全错误的挖掘结果。另外,现有数据挖掘算法通常 只能处理固定格式的数据或符合一定规范的数据。 这些都使得在对认 七 b日志进 行挖掘之前,必须做一些预处理,数据的预处理变得极端重要和必要。 研 怂 b 日 志数据预处理需对从认 范 b 服务器中 获取的各式各样的数据按指定的 规则进行处理,以便数据可被挖掘算法应用, 从而获得可用性高的数据,为此, 需要从原始

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论