(计算机应用技术专业论文)基于xml的web日志挖掘技术研究.pdf_第1页
(计算机应用技术专业论文)基于xml的web日志挖掘技术研究.pdf_第2页
(计算机应用技术专业论文)基于xml的web日志挖掘技术研究.pdf_第3页
(计算机应用技术专业论文)基于xml的web日志挖掘技术研究.pdf_第4页
(计算机应用技术专业论文)基于xml的web日志挖掘技术研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕十学位论文摘要 摘要 随着因特网技术的迅速发展和不断的普及。 w o b日 志资源越来越丰富,如何充 分利用这些资源,从中提取到用户所感兴趣的信息数据,是当前计算机领域的一大 挑战。w eb 日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘。 本文在研究了数据挖掘的基础上,重点研究了w eb 日 志挖掘的特点、方法和相 关的技术。讨论了w eb 日志预处理的一系列过程及预处理的实现方法。并对现有的 预处理的相应算法进行了有效改进。实现了分割日志数据为单独的用户和用户会话 过程。有效的利用中粒度法将x m l 形式的w eb 日志数据转换到关系数据库中.本文 深入研究了关联规则和频繁路径模式的特点,结合两者的优点。改进了关联规则的 a p r i o r i t i d 算法。 关键字: x m l , 日 志挖掘, 。b , 关联规则 abs tract 几k e al o 飞w iththe d eve l o p m e nio f the i n 1 e rnet te c hno l o gy t h e re s o urce o f the web 1 o g ismoreand m o reabu n d anc e . h o wtom ake a goed u seo f thesere so urce , e x tr a c t edthe d a t a i n fo n n a t i o n whi cho uruser n e e d . iti s a 笋atc h al 1 e n g e inthe com p u t ers c i e n c e fi e l d , t h e v 触 b l o g 面ni 飞used the 山 i nki 雌o f 阮 山 扭m i n i n g tom ine the web l o g w h i chc o m e s from t he s e f v e r b a s edthe d a t a m ining, the p aperre se al c h e s th e c h 肛 a c t e r ofthe 从 七 b fo g mini ng, th e m e th o d o f th e w七 b l o g m i n i nga n d the te c hno l o g y o f the 从 乞 b l og而ni ng t 五 e d i s c uss e d the p r oce s s o f the p r e 盆 re a ti n e nto f th e 叭 /e b l o g and th e m e t h o d o f th e p r e 1 r e a t n l ent a n d the p a per b 韶卿 ro v e d th e a l g o ri t h mo f th e p re t re a t n 1 e n t . the p ape r d i v i d e d t h e d at a o f l o g t o t h e s e p a r a t e u s e r andt h es e p a r at e p r o c e s s o f t he u s e r d i a l o gthep ape r re s e ar c h e s th e c h a r act e r o f the a s s o c i at i o n rule s 出 l d t h e se q u e n c e mode厂 1 砍e alongw i ththe adv a n t a 罗o f theas s o c i at i o nnile sandthes equ enc em o d e ,th ep aper l m p ro v ed thca p ri o ri 五 d a l g o ri t h m . the a l g o ri t h md i s t ri l l e d t h e i n fo rmat i o n o f t h e u s e r a n d t h e d ata. the m e t h o d i d ent i fi e d t h e m o d e o f t h e u s e r a c c e s s e ffec t l y . h uapengm /a n g ( c o m p u t e r a ppli edtec h ll o fo gy) d i re cted by a s s o c i a l e p r o f . f e n g h an k e y 邢rds : x ml , l o g m 而飞, w七 b ,a s s o c i atio n r u l e 声明 本人郑重声明: 此处所提交的硕士学位论文 基于x m l 的w eb 日 志挖掘技术研究 , 是本人在华北电力大学攻读硕士学位期间, 在导师指导下进行的 研究工作和取得的 研究 成果。 据本人所知, 除了 文中 特别加以 标注和致谢之处外, 论文中不包含其他人已 经发 表或撰写过的研究成果, 也不包含为获得华北电 力大学或其他教育机构的学位或证书而 使用过的材料。 与我一同 工作的同志对本研究所做的任何贡献均己 在论文中作了明 确的 说明并表示了谢意。 学位论文作者签名:日 期: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、 使用学位论文的规定, 即: 学校有权保管、 并向 有关部门 送交学位论文的原件与复印 件; 学校可以 采用影印、 缩印或其它复制手 段复制并保存学位论文; 学校可允许学位论文被查阅或借阅; 学校可以学术交流为 目的, 复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播 学位论文的全部或部分内容. ( 涉密的学位论文在解密后遵守此规定 ) 作者签名:导师签名: 日期:日期: 华北电力大学硕士学位论文 第一章 绪论 1 . , 引言 数据挖掘是数据库领域最活跃的领域之一。 因为其广阔的研究背景和现实意义, 使得数据挖掘技术的研究和应用都有了突飞猛进的发展,在国内外的学术界和科研 领域都备受关注。 随着 inte met技术的快速发展,网络资源也随之迅猛的增长。如何使 i nt e m et 用户 快速有效的 利用 所需资源,已 经成为网 站设计者急需 解决的问 题111 。 解决这一 问 题的途径就是将数据挖掘技术应用到w 七 b 服务器日 志的挖掘当中, 即通过挖掘服 务器日志中的数据文件,获得用户的访问模式,从而可以进一步分析和研究日志记 录的规律。改善网站组织结构和服务。开展个性化的信息服务和有针对性的电子商 务 活 动和 构建智能 化的城b 站点12 。 这就 使得w e b 挖掘技术 得到了 进一 步研究和 发 展。 万维网是一个巨大的分布广泛的全球信息服务中心,也是一个资源种类丰富的 大型资源库。这就为我们进行 w亡 b挖掘提供了丰富的资源。但是对 w亡 b进行有效 的资源和知识发现是极具挑战性的。这是因为: 令web 上的资源庞大. 心we b 上的资源具有动态性。 令w 七 b 页面的复杂性极高。 令w 七 b 页面上的信息只有很少一部分是有用的。 在众多的w七 b 挖掘领域当中, we b日志挖掘对于we b 网站的结构优化和页面重 组都有重要的作用, 并且对w 七 b 站点的经济效益有直接影响, 因此对该领域的科学 研究也日 渐增多。 web日 志挖掘是将传统的数据挖掘技术应用到w 七 b 访问日 志数据 上, 从而发现用户访问模式的技术。 w 七 b 日 志挖掘的主要工作是从记录用户浏览历 史的日 志数据库中, 发现用户访问页面的习惯, 从而科学调整页面间的 连接结构3l . w 七 b日志挖掘有以下几种重要应用: 1监视服务器内部的工作情况。 2改善网站的组织结构. 3为电子商务平台锁定目 标顾客。 4确定潜在的源消息地址。 所以对w 七 b日 志挖掘的相关技术进行研究并加以改进, 使其更好的服务于广大 网站用户,创造更大的经济效益。这也是本文研究的初衷所在。 华北电力大学硕士学位论文 1 . 2数据挖掘技术概述 随着数据库技术的不断发展和数据库管理技术的广泛应用。相关部门积累 的数据越来越多,巨大数量的数据里面潜在着许多有价值的信息。人们希望从一个 更高的 层次上分析这些数据,从中抽取更多有用的信息。目 前的数据库管理系统可 以 有效的 管理, 操纵这些数据, 但却不能 抽取这些数据中的 相关规则和潜在关系4l . 无法利用这些数据进行相关方面的预测, 这就出现了“ 数据爆炸但知识贫乏的现象。 数据挖掘,就是从大量的,不完全的, 有噪声的,模糊妇 优 随机的数据中,提 取隐含在其中的, 人们事先不知道的, 但又潜在有用信息和知识的过程。 它是在90 年代发起的一门学科,它融合了统计学、人工智能、数据库等多个领域的理论和技 术。数据挖掘技术的提出,为我们有效的识别出数据库中有效的,新颖的,具有有 效 模式的 数 据提供了 可靠的 科学方法151 。 web 挖掘 是从数 据挖掘发展而来的, 而web 日志挖掘是m 触 b 挖掘的重要组成部分。所以,我们要对数据挖掘做以相应的研究。 数据挖掘是一个交叉学科,它运用了统计学、计算机、数学等多方面的知识, 因而也有很多分类方法。根据其挖掘对象分类,可分为关系数据库、面向对象数据 库、多媒体数据库、空间数据库、时态数据库、文本数据库等等。根据其挖掘任务 分类有:数据总结、分类、聚类、关联规则发现、序列模式发现、异常和趋势发现 等16 。 根据其挖掘方法,可分为: 机器学习方法、 统计方法、 神经网 络方法和数据 库方法等。根据其挖掘任务,可分为分类或预测模型发现、数据总结、聚类、关联 规则发现、序列模式发现、依赖关系、异常和趋势发现等。 1 . 3w e b 挖掘技术概述 w 七 b 挖掘就是从 in te met上的信息和信息的使用记录的数据中挖掘出潜在的、 有规律的、有意义的知识。从而进一步提高网络信息资源的利用价值,开发网络的 信息资源,满足相关用户的需求。 网络资源的多样性也决定了w e b 挖掘的多样性,也决定了w 七 b挖掘任务的多 样性. web 挖掘可分三类: web 内 容挖掘、 web 结构挖掘、 web 日 志挖掘ivl 。 如图 1 一 1 所示。 w七 b 挖掘 we b内容挖掘we b结构挖掘we b日志挖掘 华北电力大学硕士学位论文 图卜1 砰 eb挖掘的分类 web 内容挖掘是指从web 页面内容和其描述信息中挖掘出有价值的、 潜在的知 识 或模式过程。 web 内 容挖掘又分为: web 多 媒体挖掘和web 文本挖掘两 大类刚9 . w e b 多媒体挖掘是指对w 七 b 页面上的视频、 音频和图像数据进行预处理后, 挖掘出 其中的潜在价值和有用模式的挖掘过程。多 媒体挖掘可应用于:语音识别和图像处 理等领域。 web 文本挖掘是对web 上结构化和半结构化的文本数据进行挖掘的过程。 w 七 b 文本挖掘的结构既可以是对某个文本内容的概括,也可以是对整个文本集合的 分类结果或是聚类结果,还可以利用w七 b 文档进行趋势预测。 w 七 b日志挖掘是从w亡 b 的存储模式中获取有价值的信息或模式的过程, 对用户 访问web 留在服务器上的历史记录进行挖掘的过程1101 。 w 七 b结构挖掘是从因特网的组织结构和链接关系中推导知识,主要是对 w 七 b 站点的结构进行分析、变形和归纳。将web页面进行分类,以利用信息进行搜索。 w 七 b 结构所挖掘出的模式, 可以揭露出许多蕴含在w 七 b内容之外的有用信息. 如通 过文档之间的超链接,可以 挖掘出文档之间的引用关系,从而可以帮助我们找到与 用户请求 相关的重要页面li 。 通过分析web 页面的内 部结构, 可以 分析出 与 给定 页 面有关的相关页面集合。 w七 b 挖掘是对数据挖掘领域的一种新的发展和应用。但又不同于传统的数据挖 掘,其区别在于: l) w 七 b 挖掘的对象是海量、异质、动态、分布的w七 b文档,其信息存储不同 于结构化的数据库. 2 )w o b 在逻辑上是一个由文档节点和超链接构成的图,因此 w 七 b 挖掘所得到 的模式可能是关于场 尾 b 结构的,也可能是关于w 七 b内容的。 3 ) m 触 b数据的半结构化和非结构化特征,使得这些信息数据难以清楚的用数 学模型表达出来,并且缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中 结 构化的 数据, 并且利用关系表等 存储结 构来发 现知识112 ll 3 。 因 此, 有些数据 挖掘 的技术并不适用于w七 b 挖掘,即使可用也要建立在对w亡 b 数据预处理的基础上。 因此, 对we b 挖掘需要用到更多的有别于传统数据挖掘的技术。 这也使得w 七 b 挖掘具有以下特点: 1 )w 七 b 挖掘的数据规模十分巨大。 2 )数据源具有很强的动态性。 3 )数据源是无序的和非结构化的。 4 ) web 数据内容具有较大的综合性。 5 )w 七 b 挖掘的目 标和用户具有多样性。 华北电力大学硕士学位论文 1 . 4 w e b日 志挖掘技术 w已 b日志挖掘是通过挖掘w七 b日志记录, 发现用户访问w七 b 页面的模式。 w七 b 日志挖掘面对的是we b 和用户交互过程中抽取出来的第二手数据,主要包括: w七 b 日 志数据、 用户简介、 用户注册、 用户会话、提取方式、 注册信息等i 4 。 w e b 的基本结构一般为: 客户端一代理服务器一w 七 b 服务器。 客户端记录的是 单个客户访问多个站点的记录。代理服务器日志记录的是多个客户访问多个站点的 记 录川 1 . web 服务器日 志记录则是记录多 个 客户访问 单个站点的 记录. 因 此用户访 问的模式有这三种类型:客户端、代理服务器、w 七 b 服务器。根据挖掘的目的和方 向,挖掘用户访问模式的侧重点也不同。 w七 b日志数据挖掘的数据源主要包括:w七 b 服务器日志,用户的注册信息,用 户调查信息,与网站服务相关的数据库,w己 b 站点的拓扑结构和站点文件。 研 怂 b日志挖掘的目的就是从海量的、种类繁多的we b日志数据中挖掘出诸如: 频 繁 访问 路 径、 频繁 访问 页组、 用 户 聚 集等 访问 模式 11 611 ,71 . 其一般过程如下: 1) 数据预处理:主要对服务器中的原始日志文件进行数据清理、用户识别、 会话识别和路径补全等处理,从而形成用户会话文件。 2) 模式发现:对数据预处理后的数据文件,利用数据挖掘的一些算法来发现 隐藏的规则和模式。 3 )模式分析:对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式, 提供可视化的结果输出。 一般 we b日志挖掘的模式有很多种。 按功能分为两大类: 预测型模式和描述型 模式。在实际应用中,往往根据模式的作用分为以下几种:分类模式、回归模式、 时间序列模式、聚类模式、关联模式、序列模式等。 1 . 5课题研究的现状和意义 目 前国内外对于w 七 b日 志挖掘的研究主要分三种: 1) 从统计学的角度对日 志数据项进行简单的统计,得到用户的访问信息。 2 )以挖掘用户兴趣为目标的路径遍历算法和数据立方体算法。 3 )构建站点间的联系,建立个性化的站点服务. 国外在发现用户兴趣模式的理论体系研究和个性化服务方面都有了较大的进 步。己经出现了一些研究成果, 例如: shahabi 等人提出的日志挖掘系统依赖于客户 端的数据收集,客户端的代理为服务器返回用户请求的页面及时间等数据。h an 等 人将w 七 b日志数据保存为数据立方体, 然后在其上执行o l a p的各种操作, 如: 提 华北电力大学硕士学位论文 升、 钻取等操作, 用于发现用户的访问 操作115 1 。 国内学者对于w七 b日志挖掘的研究主要侧重于理论研究阶段。 中科院计算所高 文教授等人。采用 w 七 b站点的访问日 志进行事务识别后,根据群体用户对 w 七 b站 点的 访问 序列进行聚类, 提出了k 一 at h 路径聚类方法。中科院数学所周龙镶等人, 分析了w 匕 b用户浏览活动规律,提出了一些有关 www浏览路径的概念,设计了 基于用户访问模式的浏览路径优化算法。 w七 b日志挖掘是一个较新的研究领域,具有较广阔的发展和应用前景。w 七 b日 志挖掘具有重要的理论意义和现实意义主要体现在以下几个方面: 1) 改善网站的总体结构设计。 2 )发现信息发布潜在的一定规律。 3 )发现潜在的用户群。 4 )增加网站的个性化服务。 5 )为网站的服务提供有效的决策支持服务。 6 )用户的群体分析和聚类。 1 . 6本文研究的主要内容 数据挖掘在传统的结构化的事务挖掘领域,己 经取得了巨大的进步。然而, w e b 上的数据种类比较复杂,包括:文本、音频、视频等多种信息。它们是结构化 的和半结构化的数据, 所以对于w七 b 挖掘所使用的技术与传统数据挖掘的技术相比 较有很大不同,而且这些有着结构化和半结构化特征的数据包含着丰富有价值的知 识。基于这两点,本文对以下内容展开了研究和分析。 1) 对数据挖掘实现方法和实现技术进行了研究和分析,对 w已 b挖掘的相关理 论和技术进行了进一步研究和分析。 2) 研究和掌握有关 w 七 b日 志挖掘所要涉及到的h t m l 语言, h trp/ f t p 协议等 相关概念,认真学习和掌握认 飞 b日志文件的格式和特征及其中的相关信息。 3) 讨论了日志的预处理过程, 对采集到的日志数据进行分析, 对预处理的算法 进行了改进,并对日志数据进行预处理。 4) 将已经进行过预处理的日志数据利用相关方法转换为x ml形式的数据,最 后将其转换到关系数据库中,并对其存储方法及实现进行了探讨性研究。 5)对转换到关系数据库中的 数据进行数据挖掘, 实现改进后的a p ri o ri ti d 算法。 华北电 力大学硕士学位论文 第二章 数据挖掘技术 数据挖掘是一个新兴领域, 短短几十年内得到迅速的发展。 数据挖掘是一个跨 学科的领域, 涉及到数据库系统、 统计学、 数据可视化、 信息检索和高性能的计算、 神经网络等等。 数据挖掘汇集了很多学科的技术方法。 随着存储数据量的不断增长, 数据挖掘的应用所表现出来的广阔前景吸引了 众多的研究人员和商业机构,许多的 数据挖掘技术被开发出来,并且在商业、金融、保险、管理等领域取得较好的发展 1 1 9 ) 2 , 1 数据挖掘的一般过程 数据挖掘的主要过程包括:数据准备、数据整理、选定算法、建立模型、评价 和解释。挖掘过程如图2 一 1 所示。 数据准备 数据库 数据整理 选定算法 建立模型评价和解释 图2 一 1数据挖掘过程 数据准备阶段:获取原始数据,从原始数据中抽取一部分数据,建立数据挖掘 库。当然如果某些方面的数据仓库能够满足数据挖掘的需要,就可以将该数据仓库 作为数据挖掘库。 数据整理阶段: 就是将各 种形式结 构的称 据 库整合成一 种模式的 数据库形式。 并且对数据进行数据清洗、去除脏数据、对数据进行不完全处理等工作。 建立模型:包括算法的选择和算法参数的确定。根据数据挖掘的目 标和特征, 确定合适的数据挖掘模型。 评价和解释:对数据挖掘的结果进行评价,选出最佳的数据模型,进行评价, 运用于实际问题,并和专业知识进行结合对结果进行解释。 2 . 2 数据挖掘的研究现状和前景 数据挖掘是一个新兴领域,刚起步就引起了学术界的广泛关注。归纳起来,当 华北电 力大学硕士学位论文 前学术界围绕这一领域的主要研究可分为如下几个方面: 1) 知识的发现方法. 2 )数据间依赖关系的发现和分析。 3 )数据汇总。 4 )定性知识和定量知识的发现和总结。 5 ) 知识发现过程中知识的应用。 6 )知识发现的应用。 ” 集成的交互式知识发现系统。 在学术研究领域,一般认为数据挖掘是人工智能、数据库技术和统计学共同发 展结合的产物。近年来国内为外出现了一大批有关数据挖掘的研究成果和学术论 文。一大批数据库、人工智能、机器学习、数学领域的专家和学者投入到了数据挖 掘研究工作中。目前数据挖掘技术已经在金融、医学、生物、保险、医疗等领域得 到了广泛的应用,而且其应用的领域在不断的阔大当中。并开发了一大批的数据挖 掘软件。对数据挖掘的研究己经成为计算机领域的一个前沿的科研课题。 目前,数据挖掘的研究主要是以知识发现的任务描述、知识评价和知识表示为 线索,有效的发现算法为中心,开发各种原形与实用系统。近年来的研究主要偏向 于数据挖掘的应用当中。研究方向主要集中在以下几个方面:研究各种数据挖掘算 法;研究专门 用于知识发现的数据挖掘语言:寻求数据挖掘中可视化方法; 研究各 种非结构化数据的挖掘技术;研究网络化环境下的数据挖掘技术。但从国内外现在 的发展状况来看,数据挖掘在不同领域的发展具有不平衡性,许多研究领域各成一 派,没有形成一个共同的研究标准,不便于未来技术和方法上的集成。近年来有关 数据挖掘的技术已经定位于一些大型关系数据库当中,并且范围延伸到了非关系型 数据库当中。除了面向关系型的数据挖掘之外,还扩展到了对面向对象数据库、实 时数据库、 媒体数据库等多种数据库的挖掘。 随着第三代移动通信数据技术的发展, 对于移动通信数据的挖掘也列入了数据挖掘研究领域的发展范畴。数据挖掘在应用 领域当 中出 现了 越来越多的研究领域和发展方向 翔。 2 . 3数据挖掘方法 数据挖掘是许多学科的交叉, 运用了统计学、计算机学、数学等方面的相关知 识。 数据挖掘是从一个更深的层次上挖掘存在于数据内部的、 潜在的、 有用的、 新 颖的乃至最能够理解的模式。常用的数据挖掘方法主要有以下几种: 1) 神经网络方法 神经网络由于其良好的鲁棒性、自 组织自 适应性、并行处理、分布存储、高容 错等特性特别适合用于解决数据挖掘问题, 近年来也越来越受人们的关注. 典型的 华北电力大学硕士学位论文 神经网络主要分为三大类:以感知机、b p反向传播模型、函数型网络为代表的, 用于分类、 预测、 模式识别的前 馈式神经网 络模型: 以h 叩l i el d 的离散模型和连续 模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以a r t模 型、kolo n 模型为代表的,用于聚类的自 组织映射方法。 2 )遗传算法 遗传算法是基于生物自 然机理和遗传机理的随机选择算法, 是一种仿生全局优 化算法。 遗传算法所具有的隐含并行性、 易于和其他模型相结合等特性使得它在数 据挖掘中得以广泛应用。 3 )决策树算法 决策树算法是一种常用于预测模型的算法。 它通过大量数据有目的的分类, 从 中找出一些潜在的、 有价值的信息。 它的主要优点在于简单, 速度快, 特别适用于 大规模数据。 最有影响也是最早的决策树方法是q uili an提出的著名的基于嫡的id3 算法。 4 )模糊集方法 利用模糊集合理论对实际数据进行模糊判断、 模糊模式识别、 模糊决策和模糊 聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻 画模糊事务的。 5 )统计分析方法 在数据库字段之间存在两种关系:函数关系和相关关系,对它们的分析可采 用统计学方法, 即利用统计学的原理对数据库中的信息进行分析。 可进行常用统计、 回归分析、相关分析、差异分析等。 6 )关联规则和序列模式挖掘 关联规则是数据挖掘的一个重要课题。它是描述数据库中数据项之间所存在 的潜在关系的规则。与关联规则不同,序列模式是一种纵向的联系,和时间顺序 有直接的联系。 7) 聚类 聚类没有预先定义好的主题类别,它的主要目的是将群体分为若干个族。要 求同一族内群体的相似度尽可能的大,不同族间的相似度尽可能的小。数据挖掘 中,聚类是一个比较活跃的领域。许多聚类算法己经被开发出来。具体可分为: 划分层次, 层次方法, 基于密度的方法, 基于网格的方法, 以 及基于模型的方法阳1 。 8 )分类 数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集和 概念集。第二步,使用模型进行分类。也就是按照预先定义好的主题类别,为群 体中的每个个体确定一个类别。 华北电力大学硕士学位论文 24本章小结 本章主要介绍了数据挖掘的一般过程,目前的研究状况和发展前景。数据挖 掘的主要方法。数据挖掘的主要方法包括:神经网络方法,遗传算法,决策树算 法,模糊集方法,统计分析方法,关联规则和序列模式挖掘,聚类,分类等。 华北电力大学硕士学位论文 第三章 w eb 日 志挖掘技术研究 3 . lweb日 志的相关概念 3 . 1 , 1日 志文件 w e b日 志文件就是在w eb服务器中每隔一定时间 ( 每天、每周、每月)产生的 一个纪录文件。所以在当前文件过期后,一旦发生第一次日志记录事件,系统就自 动创建新的日志文件。例如,我们把日志的间隔设为周,则一旦经过每周的最后一 天的零点,当前的日志文件就会关闭。并在有用户第一次访问服务器的时候,生成 一个新的日 志文件。在创建新的日志文件的时候,旧的日 志文件会被自 动保存,不 会被删除和更改。每个日志文件都有自己的名字,如何命名取决于系统设置。日志 信息可以 利用 “ o d s c 尸 记录到一个数据库中,也可以将日志信息以日志文件的形式 保存。但是同日志文件相比,如果用户频繁访问数据库,前者对系统资源的消耗比 较大,所以一般采用日 志文件的形式保存日 志信息22 。 3 . 1 . zweb 服务器的工作模式 如果我们访问了某个w eb节点,在一个超链接的引导下到了该主页,读了该页 面后离开,对于这些服务器可以知道请求时间和请求了哪一页,以及我们的 ip 地 址,通常w eb服务器还能知道我们对其节点的引用和我们的浏览器类型。 再者, 如果我们看到的页面上有图片, 就将产生另外几个链接以得到这些图片。 在这种情况下,如果我们并没有登陆到该节点,而仅仅是向w eb服务器发出了一系 列请求,由于对一页上每个图片的引用都会构成请求,所以,如果一页上有十个图 片,对该页的访问就可能产生11个请求. 31 . 3web 服务器的缓冲存储器 w e b 服务器的缓冲存储器主要有两种: 一种是大容量的 c ache,由于网络拥挤,我们可以建立大容量的 c ache,将最 近访问过的页面信息放入c a o h e 中。当发生页面请求时,从本地域c ache 中获取数 据, 而不是直接从远程下载2 ” 。 所以有可能有这种情况出现: 有数百万人访问过, eb 服务器方的页面,但最后由于c ache 的原因,日志文件只记录了一次。 另一种是浏览器的c ache,当访问某节点时,浏览器会自动在 c ache 内存储这 些文件。下一次要访问它们的时候,如果页面没有修改,就不需要重新下载,直接 利用c a c h e 里的内容就可以了,但这样的访问不会产生请求记录。 华北电力大学硕士学位论文 3 . 1 . 4 w e b 服务器 web 服务器可以 对访问历史进行记录,可以获得对w eb 服务器的访问情况进行 分析所需要的足够信息。对于获取哪些信息、信息的存储方式取决于对服务器日 志 文件的设置,可以 选择将日 志记录到一个文件,或者将日 志记录到一个数据库中。 另外, w eb 服务器也可以决定新日志文件的创建间隔周期,或指定当前日 志文件的 长度超过一个域值之后,重新创建一个新的日 志文件。 3 , 1 . su r l u r l即统一资源定位器,是 w eb 的地址编码。w eb 上所有能访问的资源都有一 个唯一的u r l ,它是对位于相同或者不同服务器上的文件进行引用的一种方法。 u rl 包括: 所用的传输协议、服务器名称、文件的完整路径。例如:在浏览器的 u rl 处 键 入 : 料 傲 nc ep ub d . ed u . cn , 就 可以 访 问 华 北 电 力 大 学 的 主 页 了 。 3 . 1 . 6h t t p / f t p http协议即超文本传输协议, 是我们浏览器传输网页的时候使用的协议, 是w w w 的基础。该协议主要用于从料w 服务器传送超文本到本地浏览器,客户进程建立一 条同服务器进程的t cp连接,然后发出请求读取服务器进程的响应。服务器进程关 闭连接表示本次响应结束。服务器进程返回的文件通常包含指向其他服务器的指 针。用户显然可以很轻松的沿着这些链接从一个服务器到另一个服务器。这就是为 什么你在浏览器中看到大部分的网页地址都是h t tp:/ / 开头的原因。ftp 即文件传 输协议,是人们规定的在网络间传输的一组规定,里面规定了数据包的格式、数据 包头部结构、命令结构等等。是一种用于同一主机交换的客户机/ 服务器模式的协 议。可以将一个文件完整的从一个系统复制到另一个系统中。通常我们在进行网页 上传的时候,采用这种协议。 3 . 1 . 7h t m l h 下 m l 即超文本标记语言, 是一种用来制作 超文本 文档的简单标记语言。 用h t m l 编写的 文档 称为h 下 m l 文档, 它能独立于各种操作系统。 之所以 称之为超文本, 是因为它可以 加入图片、 声音、 影视、 动画 等内容。 可以 从一个文件跳转到另一 个文件, 和外地主机的文件相连。 使用h t m l 语言 描述的 文件,需要通过ww w浏览器显示出效果。 32web日 志文件 要进行w 七 b日 志挖掘, 那么首先要了 解什么是w e b日志文件。 w e b日 志文件是 w 七 b日 志挖掘的基础,它是 w e b日志挖掘的数据源。用户每一次访问页面,w 己 b 华北电力 大学硕士学位论文 服务器就会增加一条日 志记录。日 志记录最主要记录了什么人在什么时候浏览了哪 些内容、网站的流量和访问者的信息等。不同的web 服务器所产生的web日 志文 件的格式有所不同, 但通常的日 志文件都包括访问者ip或者域名、 浏览器类型、 操 作系统、 访问时间、 访问方式、 访问页面协议、 错误代码以及传输的字节数等信息。 当访问者访问w 七 b 服务器的时候服务器将会自 动收集这些信息, 并把这些信息 存储到访问日 志、引用日 志、 代理日 志当中1 2 月 . 3 . 2 . 1 访问日 志 访问日 志一般包括: ip地址、请求时间、方法、 被请求文件的u r l 、h t t p 版 本号、返回码、传输字节数等信息。的访问日 志表示了从ip地址为2 19巧。 .2 0 6 .2 1 来的 用户 请求传输文件 t o p o. as p , 使用的 传输协议 是 h ttpi. 1 。 用户也许并没有登 陆到ip地址为211 1 67.2 37.2 07 的机器上,可能只把这台服务器当作代理服务器或 者网关。本次请求传输了0 字节,2 00 为返回码,如图3 一 1 。 2 . 肠 一 卜2 9 : : 引 淤2 1 , . 1 : 2 肠 . 2 1 e l l i n c l t o p : a p 一卜2 1 1 . 1 7 . 2 3 7 . 2 盯一 2 . 图3 一 1访问日 志 ip地址:第一项是远程主机的 ip地址,它表明访问网站的是哪里的主机,也 有可能客户是通过代理服务器访问的, 那么该ip地址就是代理服务器的ip地址。 浏览者的标示:上例中用一个 一占位符表示。实际上大多数时候该部分都 是如此表示,该位置用来记录访问者的标识。 身份验证:日志记录的第三项也是一个空白。这个位置用来记录浏览者用于身 份验证的时候所提供的名字。当网站的某一部分信息是需要进行用户验证的时候, 这一项就不会是空白的。 请求时间:日志记录的第四项是请求时间。 采用所谓的“ 标准英文格式” 或“ 公 共日志格式” 。 方法、资源、协议:这是日 志记录中日志文件最有价值的一项。它告诉我们服 务器收到的是一个什么请求。 服务器状态码:日志记录的第六项是服务状态码,它告诉我们请求是否成功或 者遇到了什么样的错误。大多数情况下,这项值是 2 0 0 ,表示服务器己经成功的响 应浏览器的请求,一切正常。一般来说,以2 开头的状态码表示成功,以3 开头的 状态码表示由于各种不同的原因请求被定位到了其他位置,以4开头的状态码表示 客户端存在某种错误,以5 开头的状态码表示服务器遇到了某种错误。 字节数:日 志记录的最后几项表示发送到客户端的总字节数,告诉我们传输是 否被打断。 华北电力大学硕士学位论文 32 . 2引 用日 志 引 用日 志记录了用户发出当前 请求所在页面的u r l , 如图3 一, 引用日 志表示用户 当 前请求页面的“ ” , 用户发出 这个请求是通过点击b a idu页面上的某个超级链接或者 浏览器自 动下载这个页面所包含的附 属文件。 h t t p : 1 1 , . ” b a i d u . c o n l e a r c h l s p i d e r . h t . 图3 一 2 引用日 志 3 . 2 . 3代理日 志 代理日 志记录用户使用的操作系统以及浏览器类型引用日志。如图3 一 3 ,代理日 志 表示用户客户端的操作系统为win d o w s 98,浏览器为微软的ies. o . “ o z i l l a l 勺 卜( c o n p a t i 七 l e ; + “ s i e , , . 0 . ; 杏 峨n d o . 5 于 9 8 )2 . 图3 一 3 代理日 志 3 . 4w e b日 志挖掘的相关技术 经过预处理后的日志数据经过数据转换存入相关数据库中。数据挖掘中的相关挖 掘技术原则上一般都能够应用到砰 eb 日 志挖掘当中. 3 . 4 . i w e b日 志挖掘常用技术 1) 关联规则 关联规则通常用在事务数据库当中,每个事务由若干事务项组成。它定义了数 据项中的所有关联和相互关系,即在某个事务当中某个项集的存在暗示着另一个项 集的存在。在w e b 数据挖掘的情况下,关联规则发现某个用户生成的服务器文件中 不同引用之间的关系。在某个大型的w eb 事务数据库中,关联规则为站点重构和定 位潜在客户行为提供了有价值的输入。 2 ) 序列模式 序列模式分析能用来发现数据项中的时序关系。 例如用于采购事务的相似时间 序列。因为用户一次访问会在w eb服务器记录一段时间,所以序列模式分析技术可 以 确 定 一 段时 间内 所 有客 户 访问 特定 页 面 所 共 有 的 特征25 。 3) 路径分析 路径分析技术是利用链接记录文件项来决定每个访问者的路径, 并将路径按时 间顺序排序。图标通常用于表现w eb站点的页面浏览路径。 在设计web 站点的合理 布局时,图的节点表示w eb页面,有向边表示页面的超链接。其他各式各样的图也 是建立在页面与页面之间的联系或者是一定数量的用户浏览页面顺序的基础上的。 华北电力大学硕士学位论文 4 ) 聚类 数据聚类是将物理的或抽象的对象分为几个群体,在每个群体内部,对象之 间有较高的相似,而不同群体之间则相似性较低。一般的,一个群体就是一个类, 但与数据分类是不同的, 聚类的结果基于当前所处理的数据。 我们事先不知道类的 结构和每个对象所属的类别。 基于聚类算法的这一特性,目前用于 w eb 日志挖掘的聚类算法比较多。用户 对w e b 站点的访问存在某种有序关系, 这种有序关系反映的是用户的访问兴趣, 也 就是说群体用户的访问兴趣和他们的访问序列有很强的相关性。 先访问的节点具有 很高的兴趣度。因此, 需要一种聚类方法把这种有序关系挖掘出来。 访问日志的聚 类算法主要有:模糊聚类算法、基于神经网络的聚类算法、k 一 p ath 聚类算法等。 5 )分类 数据分类就是数据库中的每一类数据挖掘出关于该数据的描述和模型,而这 些数据库中的类是事先利用训练数据建立起来的。 在w eb挖掘中, 分类技术可以根 据用户注册信息或共同的访问模式进行分类,得出访问某一服务器文件的用户特 征。这一功能可通过:贝叶斯分类法和决策树等技术实现。 3 . 4 . 2 关联规则 面对有着海量数据存储的数据库,如何从中发现潜藏在这些海量数据库中的 有用信息是数据挖掘的任务之一。 而在数据库中挖掘关联规则是数据挖掘领域的一 个重要的研究课题。 关联规则基本问题描述: 关联规则是描述数据库中数据项之间存在潜在关系的规则, 形式为 “ ai八 a z 八 a a n = ) b l 八 b z a a b n ” , 其中a i ( 1 = 1 , 2 , 3 , m ) , b j ( j = 1 , 2 , 3 , n ) 为数据库中的数 据项。数据项之间的关联规则即一个事务中的某些项的出现,可推导出另一些项在 同 一 事务 中 也出 现26 1 . 挖 掘关 联规 则的问 题可 形式 化的 描 述为 如 下内 容: 设卜 11 , 加, 131 耐是所有项目的集合。d 是所有事务的集合,每个事务t是一些 项目的集合,t包含在 1 中,每个事务可以用惟一的事务标识符tid 表示。设x 是 某些项目的集合, 如果x 包含在t中, 则称事务t 包含x , 关联规则表示为如下形式: ( x 包含在t )二 ( y 包含在t) 的蕴含式,这里x 包含在t 中,y 包含在t中,并 且 x 八y = 歹 。其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务 中也出 现表示为 卜)y ,这里 劝 称为 关联 操作,x称为关联规则的先决条 件, y 成为关联规则的结果。事务集d 中的规则x = )y 是由置信度c( con f i d e n c e) 和支持度 5 ( sup p o rt) 来约束的。 置信度表示规则的强度, 支持度表示在规则中出 现的频度。 数据项集x 的支持度5 ( x) 是d 中包含x 的事务数量与d 中事物总数量 之比。规则x 二 )y 的支持度5 定义为:在d 中包含x u y 的事务所占比例为5%,表 华北电力大学硕士学位论文 示同时包含x 和y 的事务数量与d 的总事务量之比: 规则x 二 y 的置信度c 定义为: 在d 中,c % 的事务包含x 同时也包含y ,表示d 中包含x 的事务有多大可能性包含 y 。最小支持度阀值 m i n s upt即用户规定的关联规则必须满足的最小支持度,它表 示了 数据项集在统计意义上需满足的最低程度。 最小置信度阀值minconf i d e n c e 即 用户规定的关联规则必须满足的最小置信度, 它反映了关联规则的最小可信度。置 信 度 和 支 持 度 大 于 相 应阀 值 的 规 则 叫 做 强 关 联 规 则 , 否 则 称 为 弱 关 联 规 则27。 具体公式如公式3 一 1 ,公式3 一 2 所示: s u p p o r t( x y )= p( x u y )二 入 u m( x uy )/ n u m( t u r e )* 1 0 0 %公式 ( 3 一 1 ) c o n f i d e n c e( x 一y )二p( b / a )二 n u m( x u y )/ n u m( x )* 1 0 0 %公式 ( 3 一 2 ) 二s u p p o r t( x 一y )/s u p p o r t( x )* 1 0 0 % 其中n u m( x )表示数据库中满足条件 x的记录数,n u ,( t r u e) 表示数据库中 的记录总数。 例如:从某家超市连锁店的销售数据库中发现的一条关联规则为: 生日 蛋糕一 )蜡烛 ( 2 既, 8 0 % ) 这条关联规则的意义在于: 在所有的销售记录中,有 20% 的记录同时包含生日蛋糕和蜡烛,包含生日蛋糕的记 录中有8 0 % 的记录包含蜡烛。 一般来讲关联规则问题可分为两个子问题: 1 )找出事物数据库 d 中所有大于等于用户指定最小支持度的项目 集。具有最 小支持度的项目 集称为最大项目 集。项目集的支持度指包含该项目 集的数目。 2 ) 利用最大项目集生成所需的关联规则。即根据满足最小置信度和支持度的 最大项目 集和所有非空子集来获得关联规则。 事实上, 挖掘关联规则整个执行过程 中第一个子问题是核心问题。当找到所有的最大项目 集后,相应的关联规则就很容 易形成。 35x m l 与x m l 的数据库存储 3 . 5 . ixml 简介 x m l是“ e x t e n s i b l em a r k u pl a n g u a g e “ 的缩写,即可扩展标记语言。它是 i n t e r n e t环境中跨平台的、依赖于内容的技术,是这个时代中处理分布式结构信 息的选择工具。 在w3c 组织领导下的工作小组发展并支持x ml 技术, 使用它来简化 通 过i n t e r n e t 的 文 档 信息 传 输 脚 。x ml可以 看 作 是 一 种 半 结 构 化 的 数 学 模 型 , 可 以很容易的将 x m l的文档与关系数据库中的数据一一对应起来实施精确的查询与 模型抽取。 3 . 5 . zx m l 的主要特点 x m l 主要具有以下几个特点: 华北电力大学硕士学位论文 1) 简洁有效 x m l 是一个精简的s g m l ,它将s g m l 的丰富功能与htm l 的易用性 结合到w eb应用中,它保留了s g m l 的可扩展功能,这使得x m l 从根本上有区别于 h t m l 。并且 x m l中还包括可扩展格式语言 x s l( e x t e n s i b l es t y l el a n g u a g e )和 可扩展链接语言 e l l( e x t e n s i b l el i n k i n gl a n g u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论