(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf_第1页
(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf_第2页
(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf_第3页
(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf_第4页
(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)基于web的日志挖掘技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-一一一一一一一 pa 摘要 工 n t e r n e t 是一个全球的、 分布的、 动态的 信息仓库, 它存储着大量的数 字化信息。在今天,它已经成为大众获得日常信息的重要来源。可是,由于 庞大的信息量,对于每一个用户来说,如何能够及时地发现有用的信息则变 得越来越困难。而对于每一个网站想如何及时了 解自 己组织结构的合理性也 很困难。 然而w e b 服务器日 志文件中记录了该服务器被外部访问的所有信息, 通过对这些过程信息的分析,可以客观地反映服务器的内 部结构、组成、内 容、访问频度等有关该服务器的重要信息。同时, 在任何一个服务器上都可 以很方便地得到它的日 志文件,数据的来源很方便,所以 对它进行分析是可 行的,而且也是有效的。 本篇论文主要从以下四个方面对 w e b日 志挖掘进行了 系统的分析和研 究。第一是对数据挖掘和w e b日 志挖掘进行了概述,阐述了w e b日志挖掘的 意义、研究的现状、面临的问题;第二是讨论了w e b日 志挖掘的三个阶段: 数据预处理、模式发现和模式分析;第三是认真研究分析了 模式发现阶段的 基于聚类的数据挖掘的基本原理和一般方法,并介绍了模糊聚类理论应用及 研究; 第四是对模糊c - 均值聚类算法作了介绍, 提出了 一种适用于w e b日 志 挖掘的数据结构及相应的算法。 数据结构是一个用户/ 页面( u s e r - u r l ) 关联 矩阵, 用来表示用户对页面的访问 信息。 挖掘算法采用模糊聚类,可以 得到 w e b日 志中具有相似访问兴趣的w e b 事务群体。 关键字:日志挖掘;聚类分析:模糊聚类 哈尔滨工程大学硕士学位论文 a b s t r a c t t h e i n t e r n e t i s a g l o b a l , d i s t r i b u t e d , d y n a m i c i n f o r m a t i o n w a r e h o u s e . a m a s s o f d i g i t a l i n f o r m a t i o n i s s t o r e d i n i t . t o d a y i t h a s b e c o m e i m p o r t a n t r e s o u r c e o f o b t a i n i n g d a i l y i n f o r m a t i o n . b u t , b e c a u s e o f e n o r m o u s i n f o r m a t i o n , i t h a s b e c o m e m o r e a n d m o r e d i f f i c u l t t o d i s c o v e r u s e f u l i n f o r m a t i o n t o e v e r y u s e r . a n d i t i s a l s o d i f f i c u l t t o l e a r n a b o u t r a t i o n a l i t y o f o r g a n i z a t i o n s t r u c t u r e o f w e b s i t e . b u t a s a n i n c r e a s i n g n u m b e r o f u s e r s a c c e s s i n f o r m a t i o n o n t h e w e b , t h e r e i s a g r e a t o p p o r t u n i t y t o l e a r n a b o u t i n n e r s t r u c t u r e , c o n s t i t u t e s , c o n t e n t , a c c e s s f r e q u e n c y f r o m t h e s e r v e r l o g s . a n d i t i s c o n v e n i e n t t o o b t a i n t h e l o g f i l e s o n t h e w e b . s o a n a l y z i n g t h e w e b l o g i s e f f e c t i v e a n d f e a s i b l e . t h i s t h e s i s i n c l u d e s f o u r p a r t s i n w h i c h t h e t e c h n o l o g i e s o f w e b l o g m i n i n g a r e s y s t e m a t i c a l l y r e s e a r c h e d . i n t h e f i r s t p a r t w e s u m m a r i z e t h e t e c h n i q u e s o f w e b l o g m i n i n g , a n d p r e s e n t t h e s i g n i f i c a n c e o f t h e r e s e a r c h o n w e b l o g m i n i n g , t h e s t a t u s o f r e s e a r c h a n d t h e p r o b l e m w h i c h w e b l o g m i n i n g w i l l f a c e w i t h . i n t h e s e c o n d p a r t w e d i s c u s s t h r e e p h a s e s o f w e b l o g m i n i n g : p r e p r o c e s s i n g , p a t t e r n d i s c o v e r y , p a t t e r n a n a l y s i s . t h e t h i r d p a r t a n a l y z e p r i n c i p l e s a n d g e n e r a l m e t h o d s o f c l u s t e r i n g b a s e d d a t a m i n i n g i n p a t t e r n d i s c o v e r y p h a s e , a n d i n t r o d u c e t h e a p p l i c a t i o n a n d r e s e a r c h o f f u z z y c l u s t e r i n g t h e o r y .i n t h e f o u r t h p a r t , w e i n t r o d u c e t h e f c m a r i t h m e t i c , a n d p r e s e n t a d a t a s t r u c t u r e a n d t h e c o r r e s p o n d i n g a r i t h m e t i c w h i c h s u i t t o w e b l o g m i n i n g . t h e d a t a s t r u c t u r e i s a u s e r 一r l m a t r i x . m i n i n g a r i t h m e t i cu s e s f u z z y c l u s t e r i n g , w i l l d i s c o v e r s i m i l a r a c c e s s i n t e r e s t k e y w o r d s : 0 f t h a t w e bses si on w e b l o g m i n i n g g r o u p . ;c l u s t e r i n g a n a l y s i s ; f u z z y c l u s t e r i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明: 本论文的所有工作, 是在导师的指导 下,由作者本人独立完成的。 有关观点、 方法、 数据和文 献的引用已 在文中指出, 并与参考文献相对应。 除文中已 注明引用的内容外, 本论文不包含任何其他个人或集体已 经公开发表的作品成果。 对本文的研究做出重要贡献的个 人和集体, 均已在文中以明确方式标明。 本人完全意识到 本声明的法律结果由本人承担。 作者 ( 签字) : 日期:年月日 哈尔滨工程大学硕士学位论文 第1 章绪论 . 1课题的来源、目的和意义 本课题来源于黑龙江省自 然科学基金资助项目。自 从w e b出现以来,即 以 惊人地速度发展着。早期w e b 是以 信息共享为主,近年来,电子商务、电 子图书馆、远程教育等已成为他的主要应用, 促使w e b 以更快的速度发展, 同时,对w e b 站点的设计和功能提出了更高的要求。要求w e b 具有智能性, 能快速、准确地找到用户所需信息;能为不同用户提供不同的服务;能允许 用户根据自己的需要定制页面:能为用户提供产品营销策略信息等等。 完全彻底地实现以上所有功能是困难的,它需要在人工智能和自 然语言 理解等方面有突破性进展。近来,国际上很多人利用对w e b 信息的挖掘来提 高w e b 的功能。但是,数据挖掘技术所涉及的是结构化数据,而w e b 是一个 无集中控制、无统一结构、无完整性约束、无事务管理、无标准查询语言和 数据模型、可无限扩充的一个松散的分布式信息系统, 从理论上讲,对其挖 掘是困难的, 获取的知识是不可靠的。 然而, w e b 服务器的l o g日 志却有完 美的结构, 每当用户访问w e b 站点时, 所访问的页面、 时间、 用户i d 等信息, 在l o g日 志中都有相应的记录。因此,分析w e b日 志,构造出 用户的 行为模 式,对于分析改进网络性能、优化网站的设计和拓扑结构以 及改善企业的市 场营销决策等会有极大的帮助。 . 2 w e b 日志挖掘研究现状 1 . 2 . 1国外的研究现状 早在1 9 9 6 年就有学者 m . s . c h e n , h . m a n n i l a , t . y a n ” 提出了可以将数 据挖掘方法用于w e b 研究领域使用。 m a n n i l a 和c h e n 在研究过程中都假定去掉了图形文件、 声音文件。以后 哈尔滨工程大学硕士学位论文 的w e b 服务器日 志就如实的反映了 用户在网站中的访问 情况。m a n n i l a 把用 户访问页面当作事件, 从网站访问日 志中 试着寻找用户访问网 站的周期. c h e n 提出了最大前向参引模型,同时也提出用这种方法来分解用户访问的 s e s s i o n成为一个个的事务 ( t r a n s a c t i o n ) .然后就可以在事务的基础上, 挖掘用户访问模式。t . y a n研究了如何动态的根据用户当前访问提供推荐页 面。他首先对用户进行分类, 然后根据同类用户访问 过的页面情况,决定为 当 前用户提供的页面内容。 1 9 9 7 年d . s . w . n g u 和x . w u 等人也研究了s i t e h e l p e r 系统, 其主要方法 是使用信息提取的方法提取页面信息,并且结合用户访问历史、用户个人资 料提供的线索,向用户动态推荐访问的页面闭 。但是,由于这个系统主要是 根据页面内容和链接提供信息,对用户行为考虑的相对较少,另外,他要求 用户注册,已取得用户个人信息,这又引起了用户个人隐私问 题,因此,这 个系统没有投入市场。 1 9 9 7 年 p e r k o w i t z 等人在人机界面研究领域, 提出了a d a p t i v e w e b s i t e 的概念,主要研究如何以历史访问为依据,使得w e b 服务器提供的服务页面 可以自 动或者半自 动的调整川 。 1 9 9 8 年h a n 把w e b 服务器访问日 志集成到数据立方体结构 ( d a t a c u b e s t r u c t u r e )中,这样就可以对访问日志用传统的在线数据分析处理过程 ( o l a p ) 来处理日 志数据了“ 。因为其分析主要用的是动态网站日 志,因此, 他假定客户端的缓存影响不大。 y a n 和h a n 都认为区 分用 户和 用户 访问s e s s i o n 是一 件比 较困 难的 事情, 但是可惜都没有提出解决的方法 o s c h e c h t e r 等人也提出了 对用户访问请求 进行预测的想法。根据用户访问的 情况提前动态生成用户下一个即将访问的 页面内容。 1 9 9 9 年, j . b o r g e , 等人提出了引入超链接概率原理, 修改了 传统意义上 对序列的界定,可以把用户的访问 在网站结构中记录下来, 根据访问的条件 概率判断用户频繁访问路径闭 。 2 0 0 0 年,台湾学者j u d y 等人提出了t a m 模型,对访问某网站的2 0 0 个 学生,进行问卷调查,以寻找评价网站提供信息质量的要素l1 。 目 前,在一些国外专业研究w e b 数据挖掘的网站上面出现了几种比较简 2 哈尔滨工程大学硕士学位论文 单的用户访问日 志分析工具。11u1 1111 ii1 1 (w 主要是统计每一个页面访问的频次, 以 及用户访问页面的时间分布情况, 其中比 较成功的w e b t r e n d 软件己 经可以 统计出所有类型的错误访问。 互联网的快速发展,对w e b 用户访问日志分析的需求也越来越迫切,许 多国家把这方面的研究作为重点资助科研项目 之一, 表1 . 1 是国外近几年w e b 数据挖掘研究大型项目 【 14 。可见w e b 数据挖掘在国外的发展势如破竹。 表1 . 1 国外w e b 数据挖掘研究项目 一览表 项目应用领域项目 应用领域 w e b s i f t普通s h a h a b j普通 w u m普通 w e b l o g m i n e r 商业 s i t e h e l p e r个性化服务 p a g e g a t h e r网站结构设计 l e t i z i a 个性化服务m a n l e y 用户分类 w e b w a t c h e r个性化服务 a r l i t t 用户分类 k r i s h n a p u r a m 个性化服务 p i t k o w用户分类 a n a l o g商业 a l m e i d a用户分类 t u z h i l i n商业s h e c h t e r提高系统效率 b u c h n e r商业 s h e c h t e r提高系统效率 w e b t r e n d s商业a g g a r w a l提高系统效率 1 . 2 . 2国内的研究现状 国内互联网是从1 9 9 7 年开始迅速蓬勃地发展起来的。直到1 9 9 9 年,国 内互联网用户达到一定数量以 后,国内学者才开始关注w e b 数据挖掘,相比 之下起步较晚。 1 9 9 9 年,陈宁综述了国 外应用数据挖掘技术解决工 n t e r n e t 应用问 题的 做 法 : 。,。 1 9 9 9 年,周斌等介绍了 采用e -o e m 模型,并用5 个用户访问模式做训 练数据集, 尝试着进行了 关联规则 挖掘1151 。 w e b数据挖掘在国内已经引起了人们的关注, 现如今研究这方面的科研 人员也很多,但是都是处于起步阶段。 哈尔滨工程大学硕士学位论文 1 . 3本篇论文的组织结构 本文认真研究分析了基于聚类的数据挖掘的基本原理和一般方法,对聚 类和数据挖掘的定义、 相关技术以及国内外研究现状进行了认真地归纳总结, 并在此基础上对模糊c - 均值聚类算法进行了研究。 全文共分五章。 第一章是绪论。介绍了本课题的来源、目 的和意义; 及基于w e b的日 志 挖掘技术的研究现状. 第二章首先介绍了数据挖掘的基本概念和方法;然后主要介绍了w e b日 志挖掘的一些基础知识、w e b日 志挖掘的具体过程、 采用的模式发现方法、 数据源以及国际化组织为w e b 数据挖掘所专门定义的一些标准的概念。对于 数据源主要讨论的是服务器日志,其中包括数据的服务器和客户端分布。 第三章介绍了聚类分析的分类、 聚类分析的研究方向、 聚类分析的应用、 聚类中的主要聚类算法,以 及w e b日 志挖掘对聚类算法提出的特别要求。 第四章介绍了模糊聚类理论应用及研究。 第五章先介绍了f c m 算法, 然后给出了一种新的相异度定义,提出了一 种新的模糊聚类算法。 一一-一-二鹭罕达鲤生丝 第2 章 w e b 日 志挖掘研究 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千 万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且 这一势头仍将持续发展下去。于是,一个新的挑战被提了出 来:在这被称之 为信息爆炸的时代,信息过量几乎成为人人需要面对的问 题。如何才能不被 信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要 想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策 和战略发展服务才行, 否则大量的数据可能成为包袱, 甚至成为垃圾。 因此, 面对“ 人们被数据淹没, 人们却饥饿于知识缺乏的挑战” , 数据挖掘和知识发 现( d m k d ) 技术应运而生, 并得以 蓬勃发展, 越来越显示出 其强大的生命力。 2 . 1数据挖掘技术 数据挖掘( d a t a m i n i n g ) 就是从大量的、 不完全的、 有噪声的、 模糊的、 随 机的 数 据中 , 提 取 隐 含 在 其中 的 、 人 们事 先 不 知 道 的 、 但 又 是 潜 在 有 用的 信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现 知识 ( k d d ) 、 数据分析、 数据融合 ( d a t a f u s i o n )以 及决策支持等。人们把 原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是 结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、 图 像 数 据, 甚 至是 分 布 在网 络 上的 异 构型 数 据。 发 现 知 识的 方 法 可以 是 数 学 的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可 以被用于信息管理、查询优化、决策支持、过程控制等, 还可以用于数据自 身的维护。因此,数据挖掘是一门 很广义的交叉学科, 它汇聚了不同领域的 研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的 学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是面向 应用的。它不仅是面 向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至 哈尔滨工程大学硕士学位论文 宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间 的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大 b c 省电话公司要求加拿大s i m o n f r a s e r 大学k d d 研究组,根据其拥有十多年的 客户数据,总结、分析并提出新的电 话收费和管理办法,制定既有利于公司 又有利于客户的优惠政策。这样一来就把人们对数据的应用,从低层次的末 端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比 数据库查询更为强大。同时需要指出的是,这里所说的知识发现,不是要求 发现放之四海而皆准的真理,也不是要去发现崭新的自 然科学定理和纯数学 公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前 提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好就能 用自 然语言表达发现结果,因此d m k d的研究成果是要讲求实际的。 2 . 1 . 1数据挖掘研究现状 k d d 一词首次出现在1 9 8 9 年8 月举行的第 1 1 届国际 联合人工智能学术 会议上。迄今为止,由美国人工智能协会主办的k d d国际研讨会已经召开了 7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七 八百人,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略 和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数 据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物 也 纷纷开 辟7 k d d 专题或专刊。 i e e e 的k n o w l e d g e a n d d a t a e n g i n e e r i n g 会刊领先在 1 9 9 3 年出版了k d d 技术专刊, 所发表的 5 篇论文代表了当时k d d 研究的最新成果和动态, 较全面地论述了k d d 系统方法论、 发现结果的评价、 k d d系统设计的逻辑方法, 集中讨论了鉴于数据库的动态性冗余、高噪声和 不确定性、空值等问 题, k d d系统与其它传统的机器学习、专家系统、人工 神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。 6篇论 文摘要展示了k d d 在从建立分子模型到设计制造业的具体应用。 不仅如此,在 工 n t e r n e t上还有不少 k d d电子出版物,其中以半月刊 k n o w l e d g e d i s c o v e r y n u g g e t s 最为 权威。 还 可以 下 载 各 种 各 样的 数据 挖 掘 工具软件和典型的样本数据仓库, 供人们测试和评价。 另一份在线周刊为 d s 哈尔滨工程大学硕士学位论文 ( d s 代表决策支持) ,1 9 9 7 年1 0 月7日开始出 版,可向d s t r i a l t g c . c o m 提出免费订阅申 请。 在网上, 还有一个自由 论坛 d m e m a i l c l u b , 人们通过电 子邮件相互讨沦d m k d 的热点问题。 而领导整个潮流的d m k d 开发和研究中心, 当数设在美国e m d e n 的工 b m 公司开发部。 随着 d m k d 研究逐步走向深入,人们越来越清楚地认识到,d m k d的研究 主要有3 个技术支柱,即数据库、人工智能和数理统计。 数据库技术在经过了8 0 年代的辉煌之后, 己经在各行各业成为一种数据 库文化或时尚,数据库界目 前除了关注互连网数据库、分布式数据库、面向 对象数据库、多媒体数据库、查询优化和并行计算等技术外,己经在开始反 思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质 的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的 奴隶,发现才是数据库的主人, 数据只为职员服务,不为老板服务! 这是很 多单位的领导在热心数据库建设后发出的感叹。 由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础,另 一方面对于一个感兴趣的特定领域一客观世界,先用数据库技术将其形式化 并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识 都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对 数据仓库和数据挖掘的研究从对演绎数据库的研究转向对归纳数据库的研 究。 专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问 题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术一二 阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的 思维活动积累了大量有用信息。 在研制一个专家系统时, 知识工程师首先要从领域专家那里获取知识, 这一过程实质上是归纳过程, 是非常复杂的个人到个人之间的交互过程,有 很强的个性和随机性. 因此, 知识获取成为专家系统研究中公认的瓶颈问题。 其次, 知识工程师在整理表达从领域专家那里获得的知识时, 用i f - t h e n 等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维 活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异 性极大,知识表示又成为一大难题。此外,即使某个领域的知识通过一定手 7 哈尔滨工程大学硕士学位论文 段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而 人类专家的知识是以拥有大量常识为基础的。人工智能学家 f e i g e n b a u m估 计,一般人拥有的常识存入计算机大约有1 0 0 万条事实和抽象经验法则,离 开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据 “ 在某地发现 一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专 家系统也难以顾全到如此的信息。 以上这 3 大难题大大限制了专家系统的应用,使得专家系统目前还停留 在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例 的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习 模式的象牙塔, 开始正视现实生活中大量的、 不完全的、 有噪声的、 模糊的、 随机的大数据样本,也走上了数据挖掘的道路。数理统计是应用数学中最重 要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今己 有几百年的 发展历史。如今相当强大有效的数理统计方法和工具,已 成为信息咨询业的 基础。 信息时代,咨询业更为发达。 然而, 数理统计和数据库技术结合得并 不算快,数据库查询语言s q l 中的聚合函数功能极其简单,就是一个证明。 咨询业用数据库查询数据还远远不够。 一旦人们有了从数据查询到知识发现、 从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所 以才会在d m k d 这个结合点上, 立即呈现出“ 忽如一夜春风来, 千树万树梨花 开”的繁荣景象。 2 . 1 . 3数据挖掘的任务和挖掘方法 数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同 性质的知识;特征型知识,反映事物各方面的特征知识; 差异型知识,反映 不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知 识; 预测型知识,根据历史的和当前的数据推测未来数据:偏离型知识, 揭 示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发 现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层 次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联 规则可能是“ 买面包和黄油的顾客十有八九也买牛奶” , 也可能是“ 买食品的 顾客几乎都用信用卡” , 这种规则对于商家开发和实施客户化的销售计划和策 哈尔滨工程大学硕士学位论文 略是非常有用的。至于发现工具和方法,常用的有分类、聚类、减维、模式 识 别、 可 视 化、 决策 树、 遗 传 算 法、 不 确定 性处 理 等。 数据挖掘涉及的学科领域和方法很多, 有多种分类法。 根据挖掘任务分, 可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发 现、依赖关系或依赖模型发现、异常和趋势发现等等。 根据挖掘对象分,有 关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多 媒体数据库、异质数据库、 遗产数据库以及 w e b ,根据挖掘方法分,可粗分 为:机器学习方法、统计方法、神经网络方法和数据库方法。 机器学习中, 可细分为:归纳学习方法 ( 决策树、 规则归纳等) 、 基于范例学习、 遗传算法 等。 统计方法中, 可细分为回归分析 ( 多元回归、自 回归等) 、 判别分析 ( 贝 叶斯判别、 费歇尔判别、 非参数判别等) 、 聚类分析( 系统聚类、 动态聚类等) 、 探索性分析 ( 主元分析法、 相关分析法等) 等。神经网络方法中,可细分为 前向神经网络 ( b p算法等) 、自 组织神经网络 ( 自 组织特征映射、竞争学习 等) 等。 数据库方法主要是多维数据分析或q l a p 方法, 另外还有面向属性的 归纳方法。 2 . 2 w e b 日志挖掘 什么是w e b 日 志挖掘( w e b u s a g e m i n i n g ) ? 除t w e b 内 容和w e b 链接结 构, w e b 挖掘的另一个重要任务是w e b日志挖掘或叫w e b 使用记录挖掘,它 通过挖掘w e b日 志记录,来发现用户访问w e b 页面的模式。 通过分析和探究 w e b日 志记录中的规律,可以 识别电子商务的潜在用户,增强对最终用户的 因特网信息服务的质量和交付,并改进w e b 服务器系统的性能。 w e b日 志挖掘与传统的数据仓库的数据挖掘不同的就是数据源不一样, w e b日志挖掘的对象通常是服务器的日 志信息, 而数据仓库挖掘的却是关系 型数据库。 w e b 服务器的日 志( w e b l o g ) 记载了用户访问 站点的数据,这些数 据包括: 访问客户的i p 地址, 访问时间, 访问的页面, 页面的大小, 浏览器 类 型, 响 应状 态 等。 每当 站点 被 访问 一次, w e b l o g 就 在日 志 数 据 库内 追加 相应的记录。 热点的w e b 站点每天可以记录下数以百计字节的w e b l o g 记录。 w e b l o g数据库提供了有关w e b 动态的丰富信息。因此研究复杂的w e b l o g 哈尔滨工程大学硕士学位论文 挖掘技术是十分重要的。 2 . 2 . 1 w e b日 志挖掘相关术语 ( 1 ) 服务器 ( s e r v e r ) 是接受客户端请求,并处理响应请求,提供服务的软件n u 。服务器按照 其功能又有不同的叫法。专门为多个用户提供代理服务的叫代理服务器,它 是互联网服务提供商 ( i n t e r n e t 或i n f o r m a t i o n p r o v i d e r ,下简称 i s p ) , 为了 提高 i p 地址的利用率, 在提供互联网接入服务是最常用。 w e b 服务器是 提供互联网内容的服务器,这些内容通常是以w e b 页面的形式表现的。专门 为用户提供收发邮件等服务的 称作邮件服务器。 还有我们常用的f t p 服务器 等。有时候这几个服务器也会在同一台电脑上运行。本文提到最多的是代理 服务器和w e b 服务器。 ( 2 ) 客户端浏览器 ( c l i e n t b r o w s e r ) 负责向服务器发出请求,并且把服务器发回的信息,整理显示在用户桌 面的软件d 。目 前比 较流行的 有微软公司的i e 和网 景公司的n e t s c a p e . ( 3 ) 用户 ( u s e r ) 用户是指通过一个浏览器访问一个或几个服务器的个体。 在实际使用中 唯一确定一个用户很难,; 。一个相同的用户可以通过几个代理服务器或几台 不同的机器访问w e b 服务器。这就使得确定用户很困难。因此,有时候也需 要把服务器日志、 代理 ( a g e n t ) 和参引 ( r e f e r a l ) 页面日 志结合起来确定 一 个 用 户 , 。 ( 4 ) 浏览页面 ( p a g e v i e w ) 浏览页面就是一个用户所请求的页面, 一个页面中可能包括若干个框架、 图片和脚本叫。服务器纪录的是下传到客户端的一个个文件流,而用户请求 的不是页面中包含的m 个图片和n 个框架和脚本, 而是逻辑页面。因此,在 确定浏览页面时, 要结合网 站的拓扑结构, 将图 形 ( . g i f , . j p e g , . j p g ) 文 件过滤掉,从框架或者脚本运行情况中抽取浏览页面。 ( 5 ) 用户点击流 ( c l i c k s t r e a m ) 就是用户请求一系列页面。一般服务器日 志是以访问用户的访问时间为 主键,i p 地址为辅键排列的11; 。显然由 于客户端或代理服务器缓存的存在, 哈尔滨工程大学硕士学位论文 服务器端不能纪录所有的用户请求过的页面。 ( 6 ) 用户访问事务( u s e r s e s s i o n ) 一个用户对网站的一次访问,其中包含一次访问过的所有页面。即使用 户访问事务中有对若千服务器进行访问,在分析过程中只取一部分访问同一 服务器的访问序列分析。 ( 7 ) 源数据 是指一个有关用户浏览网站行为的日志数据集合 f ,是我们进一步发现 知识的原材料,在我们的研究中这些原材料主要来自 服务器层的。 ( 8 ) 模式 对于集合f中的数据,可以用l 来描述其中数据的特征。表达式e el , e 所描述的数据是集合f 的一个子集。只有当表达式e比列举所有f中所有 元素的描述方法更为简单时,我们才可称为模式。模式又可分为关联规则、 序列模式、 分类规则和聚类规则。 这些模式都用来描述这个数据集f 的特征。 2 . 2 . 2 w e b日 志挖掘的数据源 数据源是w e b日 志挖掘的数据对象。w e b日 志挖掘与传统的数据仓库的 数据挖掘不同的就是数据源不一样,w e b日志挖掘主要挖掘的就是服务器的 日 志信息,而数据仓库挖掘的却是关系型数据库. 由于w e b 世界的分布性,用户访问被广泛地分布记录在各个服务器,用 户客户端,和代理服务器中。 分布各个不同地点的 用户访问 信息表征了不同 类型用户访问行为。 w e b访问 信息挖掘的数据对象主要分布于服务器方和客 户方。 服务器方访问信息 日志数据 当访问者浏览w e b服务器时, 服务器方将会产生三种类型的日 志文件: s e r v e r l o g s , e r r o r l o g s , c o o k i e l o g s , 这些日 志 用于 记录用户访问 的 基 本情况。 1 )服务器日志 ( s e r v e r l o g s ) 服务器方记录的日志反映出多个用户对单个站点的访问行为。日 志文件 有许多个数例如公共日 志格式 c l f ( c o m m o n l o g f o r m a t) 和扩展公共日 志格 哈尔滨工程大学硕士学位论文 式e c l f ( e x t e n d e d c o m m o n l o g f o r m a t ) : 表2 . 1 s e r v e r l o g s文件格式 f i e l d d e s c r i p t i o n d a t e d a t e , t i m e , a n d t i m e z o n e o f r e q u s t c l i e n t i pr e m o t e h o s t i p a n d / o r d n s e n t r y u s e r n a m e r e m o t e l o g n a m e o f t h e u s e r b y t e sb y t e s t r a n s f e r r e d ( s e n t a n d r e c e r v e d ) s e r v e r s e r v e r n a m e , i p a d d r e s s a n d p o r t r e q u e s tu r l q u e r y a n d s t e m s t a t u sh t t p s t a t u s c o d e r e t u r n e d t o t h e c l i e n t s e r v i c e n a m er e q u e s t e d s e r v i c e n a m e t i m e t a k e nt i m e t a k e n f o r t r a n s a c t i o n t o c o m p l e t e p r o t o c o l v e r s i o nv e r s i o n o f u s e d t r a n s f e r p r o t o c o l u s e r a g e n ts e r v i c e p r o v i d e r c o o k i ec o o k i e i d r e f e r e rp r e v i o u s p a g e 在日 志文件中, 每条记录被称作项或条目 。 其中: 客户端工 p 地址( c l i e n t 工 p ) 是发出请求的客户端的i p 地址,在p r o x y 代理服务器的环境下为代理服 务器的工 p 地址。 用户标识符( u s e r n a m e o r u s e r i d ) 域一 般不填写,只有当 存取特定的文件, 需要鉴别身份时才需要。时间戳( d a t e o r t i m e ) 表示 w e b 服务器接受该请求的时间, 在整个日 志文件中, 每一个项以时间戮递增排列。 请求域( r e q u e s t ) 包括请求方法, u r i ( u n i f o r m r e s o u r c e i d e n t i f i e r , 相对 于 u r l ,其为一个更概括的定义) ,请求的协议。其中 请求的方法有:g e t , p o s t , h e a d . g e t 从w e b 服务器得到对象;p o s t向w e b 服务器发送信;h e a d 仅请求一个对象的h t t p 头。 u r i 或者为服务器上文件系统上的一个静态的文 件,或者为一个响应该请求的一个将要被调用的可执行程序。状态域由 w e b 服务器设置指示出响应该请求的行为:从2 0 0 到2 9 9 的代码一般指示成功响 应; 从3 0 0 到3 9 9 表征某种程度的重定向。 4 0 0 到4 9 9 指示错误; 5 0 0 到5 9 9 表示 w e b 服务器有问题。常见的错误代码是4 0 4 ,其指示被请求的文件没有 被找到。 返回大小域( s i z e o r b y t e s ) 表示返回结果的字节数。 r e f e r e r 域表 1 2 哈尔滨工程大学硕士学位论文 征上次被请求的页面,如果用户通过直接键入地址或通过书签( b o o k m a r k ) 访 问,那么该域为空。 代理域( a g e n t ) 能够指出客户端的操作系统和浏览软件。 在某些日志中,r e f e r e r 域和代理域不被记录。 由 于c a c h e 的广泛存在( 代理服务器或客户端) 和网 络的时延, 在服务器 的日 志中的信息存在一定的失真。如果一个w e b 页面已 存在于本地的c a c h e 中,那么当用户存取该页面时,实际上访问的是本地被缓存的页面,当然在 服务器方,这种信息不被记录。在日志中,同一个用户的两次访问之间的时 延不仅包括用户看第一个w e b 页面的时间,还包括服务器发送第一个页面到 客户端的时间,服务器从客户端接收第二个页面请求的时间。 2 )错误日 志 ( e r r o r l o g s ) 存取请求失败的数据,例如: 丢失连接,授权失败,或超时等。 3 ) c o o k i e 由于 h t t p协议的特点,跟踪单个用户并非易事。服务器方可以采用 c o o k i e 的方式跟踪单个用户。 c o o k i e 是由w e b 服务器产生的 记号并由 客户端 持有。 用于识别用户和用户的会话。 c o o k i e 是一种标记用于自 动标记和跟踪 站点的访问者。 ( 2 ) 在线市场数据 这种数据就是基于传统的关系数据库结构数据, 用于电子商务站点,存 储如商品信息,用户交易信息等电子商务信息。 ( 3 ) w e b 页面 满足h t m l 标准的w e b 页面。 页面包括页面的描述信息, 如大小长度, 修 改时间等. ( 4 ) w e b 页面超链接关系 w e b页面之间的超链接关系是一种非常重要的资源,反映网站设计者的 领域知识。所有的超链接关系组成站点的拓扑结构,或称w e b 服务器的链接 地图。 ( 5 )查询访问信息 对一些基于页面内 容的搜索引 擎( 如: w w w . g o o g l e . c o m ) 来说, 用户访问 信息主要包括用户输入的查询关键字,用户对查询结果的首次访问 情况。 ( 6 )其它信息 i 3 哈尔滨工程大学硕士学位论文 这些信息主要包括用户注册信息( 由用户输入的用户概貌文件) 等一系列 信息。 为了更好的实现挖掘任务, 适当的附加信息( 如描述用户的基本情况和 特征的 信息) 是必要的。 2 .客户端方访问 信息 客户端的访问信息分为:代理服务器的访问信息和单个用户端的访问信 息。 ( 1 ) 代理服务器端的访问信息 代理服务器端的访问信息包括用户访问日 志和在 c a c h e中被访问的页 面。其中代理服务器端用户访问同样遵循公共日 志格式标准。通过对代理服 务器访问信息的挖掘可以 得到通过该代理服务器的用户的访问偏好。 ( 2 )单个用户端的访问信息 单个用户端的 访问 信息收集工作可以 通过使用远程代理或修改现有浏览 器的源代码而实现。 这样做需要用户的协作或者允许执行j a v a s c r i p t 或j a v a a p p l e t s , 或者愿意使用被修改的浏览器。 单个用户端的 访问 信息收集带来的 主要益处为:提供单个用户较为精确的对一个站点或多个站点的访问偏好。 这种偏好表现为对一个站点上的一些页面或一些站点的较为频繁的访问,或 者通过收集该用户的书签( b o o k m a r k ) 内容来得到用户的兴趣爱好。如果得到 的这种偏好只服务于该用户,即不向任何外界传递,那么用户一般可以接受 否则用户很难允许自己的访问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论