(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf_第1页
(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf_第2页
(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf_第3页
(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf_第4页
(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)web日志中用户访问序列模式挖掘的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 i l l l i l i l | i 删l i l l l l i i | | 1 1 1 i i 删 iy 18 2 4 6 7 2 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重废整电盔堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:僻 签字日期:v 刁年钐u 日 学位论文版权使用授权书 本学位论文作者完全了解重麽邮电太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权重麽整电太堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 解 导师签名: 勿张 签字日期: 卅年厂月y 日 签字日期:研年易月n 重庆邮电大学硕士论文 摘要 摘要 随着w e b 应用的快速发展,w e b 数据挖掘成为数据挖掘的热点之一, 根据w e b 挖掘的目的和数据对象的不同,w e b 数据挖掘可以分为w e b 内 容挖掘、w e b 结构挖掘、w e b 日志挖掘。w e b 日志挖掘是对用户访问网站 是留下的日志文件使用数据挖掘技术发现隐含的规律性知识,得到用户的 访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。 在w e b 日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日 志挖掘的质量和结果。本文在对预处理各个步骤研究分析的基础上,提出 了基于用户访问树的w e b 日志挖掘数据预处理方法,根据服务器用户访问 日志建立用户访问树,并在用户访问树的基础上进行用户和事务识别,从 而解决了在动态网站拓扑结构难以获取的情况下进行预处理的困难,并通 过实验验证了该算法识别事务的准确性,为下一步序列模式挖掘打下坚实 的基础。 对于从w e b 日志中挖掘出用户的访问序列模式,传统的序列模式挖 掘算法在挖掘时往往效率很低,它们采用的频繁模式搜索策略经常导致算 法构造大量的中间数据。本文对当前主要使用的p r e f i x s p a n 算法提出改进, 在构建投影数据库时舍弃非频繁项存储并在投影序列数小于最小支持度 时结束扫描投影数据库,同时通过检查序列关于前缀的前缀,避免序列数 据库中重复投影数据库的产生以及对投影数据库进行的重复扫描,提高了 算法执行效率,并通过实验对其时空性能与原算法进行对比。 本文最后在前面工作的基础上,设计实现了一个w 曲用户访问日志 挖掘原型系统,并就原型的各模块进行了分析,通过对高校网站服务器的 真实日志数据进行挖掘,展示了完整的w 曲日志挖掘过程,实验证明系统 是可行的和有效的,同时将得到用户访问序列模式提供给网站系统管理员 参考以便更好地经营网站。 关键词:数据挖掘,w e b 日志挖掘,w e b 日志预处理,序列模式挖掘 重庆邮电大学硕士论文 a b s n :a c t a b s t r a c t w e bd a t am i n i i 坞,i l l c l u d i n gwe _ bs t n l c t l l r em i i l i i 唱,w e bc o n t 肌tm i l l i n g 觚dw e bl o g m 埘n g ,i sb e c o m i n ga i la c t i v er e s e a r c ht o p i co fd a t am i l l i i 玛w i mt h er a p i dd e v e l o p m e n t o fw e ba p p l y i i l g t h ew c b1 0 9m 埘m gg e t sm ew e bu s e ra c c e s sp a t t 印:l sb y 趾a l y z i n gm e a c c e s si n f o m i a t i o nr e c o r d e db yt 1 1 ec l i 钮t ,m ep r o x ya i l d 圮w e bs e n ,e r t h er e s u l to f w e bl o g1 i l i l l i n gc a nb eu s e dt 0r e f o mm es t n l c t u r eo ft l l ew e bs i t e ,f - a c i l i t a t eu s e r s b r o w i n ga n dh e l pt op r 0 v i d ep e r s o n a l i z e ds e i c et ou s e r s d a t ap r 印r o c e s s i n gi sm eb 嬲i so f 廿l ew h o l ep r o c e s so fd a t am i i l i n gi 1 1w e bl o g m i i l i i l g ,w t l i c hd i r e c t l yi l l f l u e n c e sm eq u a l 埘o fm ew 曲l o g1 1 1 i l l i n g 觚di t sr c s u l t a m e m o do fd a t ap r 印r o c e s s i n gi nw e bl o gi i l i l l i i 培b a s e do nm eu s e ra c c e s s 仃e ei s p r o p o s c di nt l l i sp a p e r t h eu s e ra c c e s sn e ei sc r e a t e da c c o r d i n gt om ew 曲1 0 9 si nt h e p r 印r o c e s s i n ga n di ti sl l s c dt 0i d 翎t i 矽t h eu s e ra i l d 仃a n s a c t i o n s om ep r 印r o c e s s i n g c a l lb ew o r k e dw e l lw i t h o u tt h es i t et o p o l o g y t h ee x p 咖即tr e s u l t ss h o wm a tm e 仃a i l s a c t i o ni d e n t i f i e db yt h ea l g o r i t h mh a sg o o dp r e c i s i o n t h e 仃a d i t i o n a ls e q u e m i a lp 砒e n lm i i l i n ga 1 9 0 r i m m sh a v ead i m c u l tp r o b l 锄s i n c e t h em i n i n gm a yh a v et 0 g c l l e r a t e0 re x a i 】 1 i 1 1 c ac o m b i n a t o r i a l l ye x p l o s i v em l r r l b e ro f 缸e 衄e d i a t es u b s e q u e n c e s h 1 恤sp a p e r ,m ep r e f i x s p a nw l l i c hi st h ec u l t e n tc l l i e f s e q u e n t i a lp a t t e n lm i i l i ga l g o r i t h mi sa i l a l y z e da i l da ni m p r o v e dp r e f i x s p a l la l g o r i t l l l n f o rm i i l i n gs e q u e n t i a lp a t t e m s 凹m s p ) i sp r o p o s e d b ya v o i d i n gp r o d u c i n gd u p l i c a t e d p r 巧e c td a t a b a s e sw i t l lt h es a m ep r e f i xp a _ t t e mt h r o u 曲c h e c l ( i n gt l l ep r e f i xw i t l lr e g a r d t 0p r e f i xo ft h es e q u e n c ed a t a b a s ea n da b n e g a d r 培m e1 1 0 n 一舭q u e l l ti t e m sa n dp r o j e c t d a t a b a s e sw i l i c hs e q u c l l t i a lm m l b e ri sl o w e r 吐l a i lm i n i m u ms u p p o r ti l lm er c c u r s i v e m i i l i n gp r o c e s s ,m ep 刮白m 锄c eo fp r e f i x s p 孤i sw e ni l p r o v e dt e s t e db ye x p 甜m e n t a “a u s t ,m ed i s s e r t a t i o np r e s e i l t saw c bl o gm “r 培s y s t e mm o d e lo nt h e 黟o u i l do f w o r ka b o v e t h 肌e v e d rm o d u l eo fm es y s t 锄i sw e nd e s c r i b e da n da 1 1 a l y z e d 1 1 1 i s d i s s 嘶a t i o na p p l i e sw e bl o gm i l l i n gt e c h n o l o g yt ot h ef a c t u a ll o gd a t ao fc o l l e g ew e b s e e ra 1 1 df i n d ss c v e r a lu s e 血1p a t t 锄sw l l i c hw i l lb ec o 璐u n e db yt h ew e bs i t e a d i i l i n i s t r a t o r t h ee x p 甜m e n td a t ap r o v e st h a twe _ bl o gm “n gs y s t 锄i sp r a c t i c a l 舡l d e 仃e c t j v e k e yw o r d s :出妇m i i l i i 培,w e bl o gm i i l i l 唱,w e b1 0 9p r 印r o c e s s i n g ,s e q u e n t i a lp a :t t e m 重庆邮电大学硕士论文目录 目录 摘要i a b s 缸氍t ”i i 第一章绪论“1 1 1 研究背景与意义1 1 2 国内外研究现状1 1 2 1 国外研究现状2 1 2 2 国内研究现状3 1 3 论文的工作及组织结构5 1 3 1 论文主要工作5 1 3 2 论文组织结构6 第二章w e b 日志挖掘和序列模式挖掘7 2 1 数据挖掘概述7 2 2w 曲数据挖掘7 2 2 1w 曲数据挖掘的定义8 2 2 2w 曲挖掘的意义8 2 2 3w 曲挖掘的分类9 2 3w 曲日志挖掘l o 2 3 1w 曲日志挖掘的定义1 0 2 3 2w 曲日志挖掘的应用1 1 2 3 3w 曲日志挖掘的步骤1 2 2 4 序列模式挖掘。1 3 2 4 1 序列模式概念与定义1 4 2 4 2 序列模式挖掘的主要算法1 4 2 5 小结1 7 第三章w c b 日志挖掘的数据预处理1 8 3 1 引言1 8 3 2w 曲日志挖掘中的数据抽象1 8 3 3w 曲日志挖掘的数据源19 3 4 基于用户访问树的w 曲日志预处理2 1 m 重庆邮电大学硕士论文目录 3 4 1 数据清理2 2 3 4 2 用户识别2 3 3 4 3 会话识别”2 5 3 4 4 事务识别2 6 3 4 5 实例说明”2 8 3 5 实验测试2 9 3 6 小结3 1 第四章w e b 日志用户访问序列模式挖掘3 2 4 1 引言3 2 4 2p r e f i x s p a l l 算法及其改进3 2 4 2 1p r e 丘x s p a i l 算法描述3 3 4 2 2 基于p r e f i x s p 孤的序列模式挖掘改进算法3 5 4 2 3 实验分析对比3 8 4 3w 曲日志挖掘原型系统的设计4 0 4 3 1w 曲日志挖掘系统总体框架结构”4 0 4 3 2w 曲日志挖掘系统具体实现4 1 4 4 小结4 7 第五章总结及未来工作4 8 5 1 总结4 8 5 2 未来工作4 8 致谢5 0 攻硕期间从事的科研工作及取得的研究成果5 1 参考文献5 2 重庆邮电大学硕士论文第一章绪论 1 1 研究背景与意义 第一章绪论 现如今,i n t e r n e t 技术飞速发展,使得基于这一技术的应用以惊人的 速度向社会生活的方方面面渗透:从教育、科研机构的信息与服务的交流 与共享,公司、企业内部分布协同工作的管理到传统商务模式向电子商务 的转型,从而使人类交互信息不可避免地电子化。w c b 作为目前i n t e m e t 的主要信息存储和发布的载体,一方面,w e b 为人们提供越来越多信息, 其结构也变得更加复杂,如何在庞杂的信息中快速、准确地筛选出有价值 的信息成为一个至关重要的问题。另一方面,用户是网站最大的财富,随 着用户网络经验的增长,网站经营者仅仅靠提供大量的信息已不能完全吸 引用户,用户希望质量更高、效果更好的w e b 个性化服务。 、b 挖掘是从w w w 相关资源上抽取信息或知识的过程,它是将传统 的数据挖掘的思想和方法应用于w e b ,从w e b 文档和w e b 活动中抽取感 兴趣的、潜在的、有用的模式或隐藏信息。按照挖掘对象的不同,可以将 w e b 挖掘分为3 大类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘 ( 、bs t r u c t u r em i n i n g ) 和w e b 日志挖掘( w e bl o gm i n i n g ) 。 w c b 日志挖掘又叫w e b 使用挖掘,是对用户访问服务器时留下的信息 进行挖掘的过程,通过各种定量或定性分析,从中发现使用者感兴趣的模 式,这种模式使得经营者能够更好地理解用户使用基于w e b 服务的方式。 挖掘的对象主要是服务器上的日志信息,日志信息包括服务器日志、代理 服务器日志和客户端c o o k i e 。目的是在大量的日志数据中快速发现用户感 兴趣的模式,如频繁访问路径、频繁访问页面、用户访问模式等。 1 2 国内外研究现状 早在1 9 9 6 年,就有学者c h e n 和m a n n i l a 等提出了可以将数据挖掘方 法用于w e b 研究领域使用的思想。互联网的快速发展,使得对w e b 访问 日志分析的需求越来越迫切,许多国家把这项研究作为重点资助科研项 目,w e b 日志挖掘也得到了极大的发展。国内外基于w c b 日志挖掘的研究 重庆邮电大学硕士论文第一章绪论 工作可归纳为以下3 类: 1 以分析、b 站点性能为目标:主要从统计学的角度,对日志数据 项进行简单的统计,得到用户频繁访问页、单位时间访问数、访问数量随 时间分布图等。绝大多数商用及免费的w e b 日志分析工具都属于此类。 2 以理解用户意图为目标:例如:c h e n 等提出的路径游历模式( p a t h t r a v e r s a lp a t t e r n ) 发现算法【l 】,以及韩家炜等使用的数据立方体方法便是典 型代表。 3 以改进、e b 站点设计为目标:通过挖掘用户的频繁访问路径和用 户聚类,重构站点的页面之间的连接关系,以更适应用户的访问习惯,同 时为用户提供个型化的信息服务等。例如沈均毅教授提出的w e b 页面和客 户群体的模糊聚类算法【2 】便是这类的典型代表。 1 2 1 国外研究现状 目前,w e b 用户访问模式挖掘已经成为国际上一个新兴的重要研究领 域。近几年国外的研究比较有代表性的研究成果有: s i m o nf r a s e r 大学的w e b l o g m i n e r 将w e b 日志中的数据组织为数据立 方体,然后在其上进行联机分析处理和数据挖掘,用于发现用户的访问模 式,并提出了g r a p h m i n e r 【3 】。 h u m b o l d t 大学的m y r as p i l i o p o u l 等提出了一套类似s q l 的挖掘语言 m i n t 【4 】,允许用户人为指定感兴趣的频繁路径特征,然后根据用户要求挖 掘满足条件的结果。提出了w u m ( w e bu t i l i z a t i o nm i n e r ) 能够挖掘、b 日 志中的序列模式,并提供了一个集成了日志准备、模式查询以及可视化的 环境。 m i n n e s o t a 大学的w e b m i n e r 系统提出一种通用的w e b 日志挖掘的 体系结构【5 】,w e b m i n e r 的思路是通过对、b 站点的日志进行处理,将 数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统 的数据挖掘方法( 如传统的关联规则发现算法) 进行处理。 p e r k o w i t z 等在人机界面研究领域,提出了a d a p t i v ew e b s i t e 的概念【6 1 , 主要研究如何以历史访问为依据,使得w e b 服务器提供的服务页面可以自 动或者半自动地调整。 b o r g e s 等提出了超链接概率原理【7 1 ,修改了传统意义上对序列的界定, 可以把用户的访问在网站结构图中记录下来,根据访问条件概率判断用户 频繁访问路径。 2 重庆邮电大学硕士论文 第一章绪论 s a r a b j o ts 和b u c h n e rag 等首次提出将数据挖掘技术应用于电子商务 的环境下【引,以发现市场智能。挖掘的对象不仅包括日志、w e b 页面,也 包括市场数据,并且给出了在电子商务环境下,挖掘的一个总的框架。 b o r g e sj 等应用超文本概率文法( h y p e r t e x tp r o b a b i l i s t i cg r a m m a r ) 发现 用户的迁移模式【9 】,并用g r a m m a r 的熵值评估得到的模式。 y a o 等首先把日志数据映射到关系表中,然后应用标准的数据挖掘方 法发现用户迁移模式将数据挖掘技术应用于、b 服务器日志挖掘,发现用 户的浏览模式。提出最大前向引用( m a x i m a lf o 刑a r dr e f e r e n c e ,m f r ) 系列 的概念【l0 1 ,将用户会话分割成一系列的事务,然后采用与关联规则相似的 方法挖掘频繁的浏览路径。 z a i a n e 等通过对w e b 站点的日志进行处理,将数据组织成传统的数据 挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘方法( 如关联 规则发现算法) 进行处理,所得出的挖掘结果是传统的数据挖掘结果【l l 】。 h a n 【l2 】等人将w e b 服务器日志保存为数据立方体,然后在其上执行 o l a p 的各种操作,如提升、钻取等,用于发现用户的访问模式。 s h a h a b i 【l3 】等人提出的日志挖掘系统依赖于客户端的数据收集、客户 端的代理为服务器返回用户请求的页面及时间等数据。 此外,还有i b m 公司的研究成果一一、b 使用挖掘和分析工具 s p e e d t r a c e r ,通过在用户会话上应用数据挖掘能够发现频繁遍历路径和频 繁访问页面组【1 4 】。 1 2 2 国内研究现状 西安交通大学沈均毅教授等提出【1 5 j :首先以w c b 站点的u r l 为行、 以u s e r i d 为列,建立u r l u s e r i d 关联矩阵,元素值为用户的访问次数, 然后,对列向量进行相似性分析得到相关w e b 页面,对相关页面进行进一 步处处理,以发现频繁访问路径。并提出了、e b 页面和群体的模糊聚类算 法。 国防科学技术大学吴泉源教授【1 6 】等人提出基于e o e m 模型,综合考 虑服务器的应用逻辑设计、页面拓扑结构及用户浏览路径等多个数据源的 用户访问模式及电子商务中潜在客户群的挖掘算法。另外他们还提出了基 于b a y e s 概率的用户访问路径及其发现算法。 西安交通大学陆丽娜教授【1 7 】等人,采用基于事务的方法,研究w e b 日志挖掘预处理及用户访问序列模式挖掘方法,提出了一种基于扩展有向 3 重庆邮电大学硕士论文第一章绪论 树模型进行用户浏览模式识别的w e b 日志挖掘方法。 华中科技大学大学胡和平教授【1 8 】等人提出了应用多维立方体挖掘 、e b 日志的多维关联规则的方法。 中国科学技术大学王熙法教授【1 9 】等人提出了基于神经网络的w e b 用 户行为聚类分析方法,即首先对w e b 服务器的日志文件进行分析,再进行 会话分析,从会话向量中找出频繁数据集,进行归一化处理后,生成模式 向量,采用s o f m 模式进行聚类,最后生成用户聚类。 中国科学院计算机技术研究所高文教授【2o 】等人,采用w e b 站点的访 问日志进行事务识别后,根据群体用户对、b 站点的访问顺序进行了路径 聚类,最终每一个聚类集就反应出该聚类集中的全体用户的访问兴趣,为 了得到这种根据用户访问兴趣而对用户的划分,提出了k p a t h 路径聚类方 法。 中国科学院数学研究所周龙镶教授【2 1 】等人,分析了w e b 用户浏览活 动规律,提出了有关w w w 浏览路径的一些基本概念,设计了基于用户访 问模式的浏览路径优化算法。 上海交通大学尤晋元教授【22 】等人引入w e b 页面的内容链接比和页组 的组内链接度,修改了频繁访问页支持度的计算公司,提出了基于页面内 容的站点结构的页面聚类挖掘改进算法。 清华大学马少平教授【23 】等人提出一种利用w e b 服务器日志文件,运 用n 元( n g r a m ) 预测模型对用户未来可能进行的w e b 访问请求进行预测。 w e b 日志挖掘是一个较新的研究领域,具有广阔的发展和应用前景。 面对日益增加的商业需求,w e b 日志挖掘技术还有许多问题需要解决: 1 w e b 日志挖掘是以分析用户与网站的交互行为作为基础的,并且 、b 日志挖掘结果的可靠性和准确性在很大程度上取决于来源数据的准确 性。由于w e b 服务器记录的日志数据多半是不完整的、不一致的和含噪声 的,所以w e b 日志挖掘预处理是必不可少的步骤。在大数据量的情况下, 如何对包含大量冗余数据的w e b 日志记录进行数据清洗与用户、会话的识 别,尤其在动态网页日志数据的挖掘过程中,更有网站拓扑结构不易获取 的困难,目前的技术还不能很好地解决这类问题,其中涉及识别准确度、 实现复杂性以及用户隐私等多方面问题。 2 频繁模式挖掘算法是w e b 日志挖掘的基础算法,它从大量的日志 数据中提炼出频繁的用户访问模式。由于、b 日志数据具有时序性,所以 序列模式挖掘是一个重点。虽然传统的序列模式挖掘算法可用于挖掘w c b 上的序列模式,但是这些算法在挖掘w e b 上的序列模式时往往效率很低, 4 重庆邮电大学硕士论文第一章绪论 它们采用的频繁模式搜索策略经常导致算法构造大量的中间数据,在频繁 模式数量很大的时候,算法效率不高。因此如何提高序列模式挖掘算法运 行性能,从而高效地挖掘用户访问序列模式是一个需要研究的问题。 3 现有w e b 日志分析工具( 如e x o d y 公司的w e b s u x e s s 、w c bt r e n d s 公司的l o ga n a l y z e r 等) 大多数都只是对w e b 日志中的数据进行统计,不 能发现用户的访问模式。现有数据挖掘产品也不能较好地完成w e b 日志 序列模式挖掘的任务。为了挖掘序列模式,w e b 日志中的数据首先需要转 换为若干访问序列。现有数据挖掘产品( 如s a s 的e n t e r p r i s em i n e r 、o r a c l e 的d a r w i n 、i b m 的d b 2i n t e l l i g e n tm i n e r 、c o g n o s 的s c e n a r i o 等) 都不能 完成w e b 日志数据转换的任务。 1 3 论文的工作及组织结构 1 3 1 论文主要工作 针对w e b 日志挖掘技术中面临的挑战,论文系统地阐述了w e b 日志 挖掘的整个过程,重点研究了w e b 日志挖掘的数据预处理技术,并在传统 的序列模式挖掘算法研究的基础上提出了p r e f i x s p a n 改进算法,最后设计 实现w e b 日志挖掘原型系统,对真实数据进行用户访问序列模式挖掘。 本文的主要研究内容包括以下三个方面: 1 在对w c b 日志挖掘中的数据预处理各个步骤详细研究分析的基础 上,提出了基于用户访问树的w e b 日志挖掘数据预处理方法,根据服务器 用户访问日志建立用户访问树,并在用户访问树的基础上进行用户和事务 识别,从而解决了在动态网站拓扑结构难以获取的情况下进行预处理的困 难,并通过实验验证了该算法识别事务的准确度,为下一步序列模式挖掘 打下坚实的基础。 2 w e b 访问序列模式是事件的一条序列,因此常规序列挖掘算法都 可用于从w e b 日志中挖掘用户访问序列模式。在分析当前主要序列模式挖 掘算法的基础上,重点研究了p r e f i x s p a n 算法,并根据其不足之处提出改 进算法,主要在构建投影数据库时舍弃非频繁项存储并在投影序列数小于 最小支持度时结束扫描投影数据库,同时通过检查序列关于前缀的前缀, 避免序列数据库中重复投影数据库的产生以及对投影数据库进行的重复 扫描,减少了投影的次数和数量,从而缩短了算法的执行时间,减小了算 5 重庆邮电大学硕士论文 第一章绪论 法产生投影数据库占用的空间,提高了算法执行效率,并通过实验对其时 空性能与原算法进行对比。 3 设计并实现了一个w e b 用户访问日志挖掘原型系统,介绍了系统 各功能模块的划分及实现情况,并通过对高校网站服务器的真实日志数据 进行挖掘,展示完整的w e b 日志挖掘过程,最后得到用户访问序列模式给 网站系统管理员参考以便更好地经营网站。 1 3 2 论文组织结构 本论文组织结构如下: 第一章介绍课题的背景、研究意义、国内外研究现状以及本文的主要 工作和组织结构。 第二章在对数据挖掘概述的基础上,简单介绍w e b 数据挖掘定义、意 义和分类情况以及w e b 日志挖掘的定义、应用和通常挖掘过程,然后介 绍数据挖掘中的序列模式挖掘的主要算法。 第三章介绍w e b 日志挖掘预处理步骤,并提出基于用户访问树的w e b 日志数据预处理方法,通过实验测试其性能。 第四章具体分析序列模式挖掘p r e f i x s p a n 算法,提出p r e n x s p a n 改进 算法,通过实验对改进算法与原算法性能进行比较。同时设计并实现了 w e b 用户访问日志挖掘原型系统,对真实服务器日志数据进行挖掘。 第五章对全文进行总结,提出下一步的研究计划。 6 重庆邮电大学硕士论文第二章w 曲日志挖掘和序列模式挖掘 第二章w e b 日志挖掘和序列模式挖掘 2 1 数据挖掘概述 数据挖掘,英文是d a t am i n i n g ( d m ) ,即在一些事实或观察数据的集 合中寻找模式的决策支持过程,它是9 0 年代发展起来的一门新科学,它 融合了统计学、数据库、人工智能等多个领域的理论和技术。数据挖掘技 术的提出为我们提出有效识别出存在于数据库中的有效的、新颖的、具有 潜在效用的乃至最终可理解的模式提供了可靠的科学方法。 数据挖掘是和知识发现紧密联系在一起的,因此它又可称为:数据库 的知识发现、数据采掘、信息发现等等。公认的数据库知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 的严格定义是在1 9 9 6 年召开的知识发现国际 会议上由f a y y a d ,p i a t e s t s k y 和s m y t h 提出的【2 4 】:数据库中的知识发现是 识别储存于数据库中有效的、新颖的、具有潜在效用的乃至最终可理解的 模式的非平凡的过程。 这些学者认为:知识发现是指从数据库中发现知识的全部过程,而数 据挖掘就是此处理过程的一个特定最为重要的步骤。数据库知识发现是一 个多步骤的处理过程,其主要步骤包括:数据选择、数据预处理、数据挖 掘以及对挖掘结果的解释与评价,而且这些步骤中任意两个步骤之间有可 能进行重复和反复。这样可以对所发现的知识不断求精、深化,并使其易 于理解。数据库知识发现过程包括了特殊的数据挖掘算法,是应用数据挖 掘技术析取知识的一个过程。 数据挖掘其英文是d a t am i n g i n g ,有人将其翻译为数据开采,数据采 掘等。到目前为止,国内的学者们对它有着不同的定义,我们将数据挖掘 定义为:数据挖掘是从大量数据中挖掘有趣知识的过程。这里需要强调的 是,数据挖掘的对象不仅是数据源,也可以是文件系统,或者是其它任何 组织在一起的数据集合,例如w w w 资源、数据仓库等。 2 2w e b 数据挖掘 w e b 页面散布在世界各地的w e b 服务器上,每个服务器自主地管理自 7 重庆邮电大学硕士论文 第二章w 曲日志挖掘和序列模式挖掘 己的资源。目前,w e b 的信息内容已超过g o p h e r 和w a i s 而成为全球最大 的信息系统。面对这样铺天盖地的网络信息量,似乎是能够满足用户对于 信息的需求,但是实际的情况是:对9 9 的用户来说,w e b 上9 9 以上的 信息是毫无用途的。如何从这个海量的全球最大的数据仓库中发现有用的 知识无疑将成为数据挖掘研究的热点。于是,数据挖掘技术和i n t e r n e t 应 用研究的结合构成了当今比较活跃的一个研究领域w e b 数据挖掘。 2 2 1w e b 数据挖掘的定义 w e b 数据挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识 别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个 领域【2 5 1 。不同研究者从自身的领域出发,对w e b 数据挖掘的含义有着不 同的理解。 本文采用文献【2 6 】中给出的w c b 数据挖掘的定义:、b 数据挖掘是针 对包括w e b 页面内容、页面之间的结构、用户访问信息、电子商务信息等 在内的各种w e b 数据源,在一定基础上应用数据挖掘的方法以发现有用的 知识,帮助人们从w w w 中提取知识,改进站点设计,更好地开展电子商 务等应用。 2 2 2w e b 挖掘的意义 通过w e b 数据挖掘,我们可以从数以亿计存储着大量多种多样信息的 w e b 页面及其链接和用户对页面的访问中挖掘出我们需要的有用知识。 1 从大量的信息中发现用户感兴趣的信息 基于关键词查询的搜索引擎可以帮助用户查找相关信息的页面,但是 存在两个问题:( 1 ) 由于精确度低,使得搜索的结果的可用性大打折扣; ( 2 ) 这些搜索结果是凌乱的、无组织的,因而无法反复使用。这些问题足以 说明需要新的、更有效的工具来挖掘w e b 上所蕴含的丰富信息。 2 将w e b 上的丰富信息转变成有用的知识 w e b 挖掘是面向w e b 数据进行分析和知识提取的,i n t e m e t 中页面内 部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这 些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。从 这种意义上讲,这正是w e b 挖掘所解决问题的出发点和目标。 3 对用户进行信息个性化 8 重庆邮电大学硕士论文第二章w 曲日志挖掘和序列模式挖掘 不同的用户、不同的用户群对因特网信息的需求是不同的,信息的个 性化是将来的发展趋势,它取决于商家对客户信息的掌握程度。通过w e b 数据挖掘,我们对总的用户访问行为、频度、内容等进行分析,可以得到 关于群体用户访问行为和方式的普遍知识,用以改进我们的w e b 服务方设 计,有助于开展有针对性的电子商务活动。同时,我们可以通过对每个用 户的访问行为、频度、内容等的分析,提取出每个用户的特征,给每个用 户个性化的界面,提供个性化的电子商务服务。 2 2 3w e b 挖掘的分类 一般把w e b 数据挖掘划分为3 个类别【2 7 】:w e b 内容挖掘( w e bc o n t e n t m i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g e m i n i n g ) 。图2 1 给出了w e b 挖掘的分类图。 图2 1w e b 挖掘分类图 1 w e b 内容挖掘 w e b 内容挖掘是从w e b 对象( 包括文本内容、半结构化的文档如h t m l 或x m l 、结构化的文档如数字图书馆、动态文档和多媒体文档) 或其描述 中抽取知识的过程,其方法包括内容摘要、分类、聚类、关联等。w e b 文 档文本内容的挖掘,基于概念索引的资源发现,以及基于代理的技术都属 于这一类。w e b 内容挖掘有两种策略:直接挖掘文档的内容,或在其它工 具搜索的基础上进行改进。采用第一种策略的有针对w e b 的查询语言 w e b s q l ,利用启发式规则来寻找个人主页信息的a h o y ,等等。采用第二 种策略的方法主要是对搜索引擎的查询结果进行迸一步的处理,得到更为 精确和有用的信息,比如对搜索引擎的返回结果进行聚类的技术等。 2 、b 结构挖掘 9 重庆邮电大学硕士论文第二章w 曲日志挖掘和序列模式挖掘 所谓w e b 结构挖掘,主要指的是通过对w e b 文档的内部结构和文档 之间的组织结构获取有用的模式,即分析w c b 页面之间的超链接关系,从 页面的组织结构和链接关系中推导知识。由于文档之间的互连,w w w 能 够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序, 发现重要的页面。挖掘页面的结构和w c b 结构,可以用来指导对页面进行 分类和聚类,找到权威页面、中心页面,从而提高检索的性能,同时还可 以用来指导网页采集工作,提高采集效率,这方面工作的代表有p a g e r a n k 。 3 w e b 使用挖掘 w e b 使用挖掘也叫w e b 日志挖掘,是应用数据挖掘技术挖掘并分析用 户访问所留下的日志文件,对其进行挖掘来得到户访问模式。w e b 日志 数据包括w e b 服务器的日志、代理服务器上的日志、浏览器的日志、用户 注册相关数据和用户访问的信息等。w e b 日志挖掘工具发现和分析用户的 行为,从而帮助网站设计人员改进站点的结构以提高访问率,或为用户提 供个性化的服务。 2 3w e b 日志挖掘 2 3 1w e b 日志挖掘的定义 、b 日志挖掘也叫w e b 使用挖掘,是指采用数据挖掘的技术,通过对 、b 服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和 兴趣爱好等有趣、新颖、潜在有用以及可理解的未知信息和知识,用于分 析站点的使用情况,从而辅助管理和支持决策。 统计数据表明,大多数用户在网站上的活动范围是有限的,他们的活 动中必然包含了许多重复的动作,用户的行为是有规律可循的,w e b 日志 挖掘能够发现这些规律。此外,由于w e b 服务器日志中记录了该服务器被 外部访问的所有过程信息,通过对这些过程信息的分析,可以客观地反映 服务器的内部结构、组成、内容、访问频度等有关该服务器的重要信息, 对于评价和改进网站服务质量来说是非常宝贵的资源。同时,在任何一个 服务器上都可以方便地得到它的日志文件,数据来源很方便,文件结构较 为良好,且数据挖掘技术的日趋成熟使得对这一不断增长的巨大数据文件 的处理变得可能。因此w e b 日志挖掘是有效的,也是可行的。 l o 重庆邮电大学硕士论文第二章w 曲日志挖掘和序列模式挖掘 2 3 2w e b 日志挖掘的应用 w e b 日志挖掘的用户模式主要应用在以下几个方面: 1 个性服务与定制 ( 1 ) 通过对用户会话进行聚类分析,发现用户的个性化搜索兴趣模式, 根据个人的喜好,为每个用户定制符合其个人特色的w e b 站点,提供符合 其兴趣要求的个性化界面。( 2 ) 根据对用户访问路径的分析,生成用于导航 的用户局部网络视图。将用户在一次浏览过程中从某个u r l 开始的、彼 此间由超链链接的被光顾的网页划为一个单位,并由此产生该用户的浏览 虚拟视图,进行网络导航。( 3 ) 基于用户共同兴趣进行信息导航。通常首选 对用户群体进行聚类,找出各用户族的共同特征,即该用户族所有用户的 共同检索兴趣、习惯和模式,并据此进行信息定制。 2 改进系统性能和结构 系统服务的性能和质量对于用户是否满意网站的信息服务等至关重 要。w e b 日志挖掘为准确了解w e b 使用的访问情况提供了宝贵的决策支持。 由此所获得的挖掘结果将有助于设计合理的w e b 缓存、网络通信、负载平 衡或数据分布等方案。主要是从统计学的角度,对w 曲系统的特性数据( 主 要是w e b 日志数据) 进行多种分析和统计,包括频繁访问页、单位时间访 问频度、访问量的时间分布等,从而改进系统性能和结构。 3 站点修改 w e b 日志挖掘可以提供用户行为的详细情况,从而能够为网站设计者 改进网络的设计提供决策依据。此外,也可以利用w e b 日志挖掘的结果来 探讨网站内容安排的自动改进问题。对所有用户的浏览路径、用户访问模 式及倾向进行分析挖掘,发现其中某些页面的逻辑关系,获取用户访问模 式信息。充分利用这些信息,改进w e b 站点的服务质量,把一组频繁访问 的页面直接链接,可以改善站点结构。 4 商业智能 通过对用户行为和购物等关系的挖掘,更好理解用户的购买意图,发 现其中的用户购买特征和购买趋势、识别电子商务的潜在客户,以此进行 商业智能、支持商业决策,合理制订用户广告策略。 5 页面推荐 收集和统计活动用户对站点的近期访问信息,分析其浏览路径,并与 挖掘的模式进行比较匹配,并根据匹配程度进行排序,为活动用户预测下 一步最有可能访问的页面,并将排序结果附加在现有用户请求页面之后, 重庆邮电大学硕士论文第二章w 曲日志挖掘和序列模式挖掘 从而进行页面推荐。该推荐不是根据用户输入的p r o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论