




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 w e b 使用挖掘及其在网站优化中的应用 农业机械化工程专业硕士研究生田倩飞 指导教师左源瑞副教授 摘要 w 曲使用挖掘的研究对象是w 曲日志数据。w e b 日志数据记录了用户对w 曲 站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问 习惯,可帮助实现网页的预存取和缓存;对于页面重组、优化网站的结构等方面 都具有十分重要的意义。 本文对w e b 使用日志这些半结构化的数据进行预处理,结合实例网站的实际 数据,创建了适合实例网站的点击流数据仓库模型,然后运用s q l 2 0 0 5a n a l y s i s s e r v i c e 中的s e q u e n c ec l u s t e r 模型进行数据挖掘,最后对数据挖掘结果进行数据 分析,给网站的管理者提供网站结构优化的建议。 论文所做的主要工作如下: 1 对数据挖掘和w e b 使用挖掘的相关知识和技术进行了概述,阐述了w e b 使用挖掘的意义、研究现状以及面临的问题; 2 讨论了w e b 使用挖掘的三个阶段:数据预处理、模式识别和模式分析, 分析了w 曲使用挖掘的应用领域和研究方向: 3 为数据预处理的数据采集、数据净化、用户识别和会话识别等部分提供了 详细的算法。w e b 日志数据通过这些算法进行预处理后,为数据仓库的建立提供 了可靠的准备数据。 4 利用日志分析工具d e e pl o ga n a l y z e r 对经过预处理的日志数据进行分析, 得到基本的统计数据及图表。接着分析建立点击流数据仓库的必要性。根据m a r k s w e i g e r 等提供的标准点击流仓库模型,提出适合实例网站的数据仓库逻辑模型, 并在此逻辑模型的基础上,建立相应的物理模型。 5 最后将上述的数据预处理算法和数据仓库模型应用在实例网站的访问日 志中,然后运用s q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e 中的s e q u e n c ec l u s t e r 模型分析 数据仓库中的数据,并将分析结果应用于网站结构的调整。 关键词:w e b 使用挖掘:日志预处理;点击流数据仓库;序列聚类;网站优化 a b s t r a c t 粤曼曼笪曼i ii _ i 蔓曼曼曼曼曼曼曼曼曼! 曼曼曼曼曼曼曼曼! 曼曼曼曼曼曼曼曼曼蔓 a b s t r a c t w e bu s a g em i n i n gm a i n l yf o c u s e so nw e bu s a g ed a t a t h ew e bu s a g ed a t ar e c o r d v i s i t o r s v i s i ti n f o r m a t i o no nt h i sw e bs i t e w ec a r lo b t a i nt h eb r o w s i n gb e h a v i o ra n d v i s i t i n gh a b i to ft h e s ev i s i t o r sb ya n a l y z i n gt h ew e bl o g s i tc a l lb eu s e df o rp r e v i o u s l y s t o r i n go fw e bp a g e s ,a sw e l la sr e c o m b i n i n go ft h e s ep a g e sa n do p t i m i z i n gt h e s t r u c t u r eo f t h ew e b s i t e t h ed i s s e r t a t i o ni sm a i n l yt ot r a n s f o r mt h ew e bu s a g ed a t af r o mt h et e x ts t a t u st o f o r m a ts t a t u s t h e nb a s e do nt h ed a t ao ft h ee x a m p l ew e bs i t e ,am o d e lo fc l i c ks t r e a m w a r e h o u s ei sb u i l ta n dt h ed a t aa r ei m p o r t e di n t ot h ed a t a b a s e w ea n a l y z et h ed a t ab y t h et o o lp r o v i d e db ys q l2 0 0 5s e r v e ra n a l y s i sa n dw ep r o v i d es u g g e s t i o n so nt h e s t r u c t u r et ot h ew e ba d m i n i s t r a t o ra c c o r d i n gt ot h ec o n c l u s i o n so ft h ea n a l y s i s 乃em a i nc o n t e n t so ft h i sd i s s e r t a t i o na r ea sf o l l o w s : 1 i ts u m m a r i z e st h ec o r r e l a t i v ek n o w l e d g ea n dt e c h n o l o g yo fd a t am i n i n ga n dw e b u s a g em i n i n g , e x p a t i a t e st h em e a n i n g ,a c t u a l i t yo fr e s e a r c ha n d t h ee x i s t i n g p r o b l e m so fw e bu s a g em i n i n g ; 2 i td i s c u s s e st h et h r e ep h a s e so fw e b u s a g em i n i n g :d a t ap r e p r o c e s s i n g ,p a t t e r n d i s c o v e r ya n dp a t t e r na n a l y s i m o r e o v e r , t h ea p p h c a t i o n f i e l d sa n dr e s e a r c h d i r e c t i o n so f w e bu s a g e m i n i n ga r ea n a l y z e d ; 3 i to f f e r se f f e c t i v ea l g o r i t h m sf o rd a t ac l e a n i n g ,u s e rr e c o g n i z i n ga n ds e s s i o n r e c o g n i z i n g a n d o p t i m i z e sa l g o r i t h m f o rs e s s i o n r e c o g n i t i o n a f t e r d a t a p r e p r o c e s s i n g ,t h ew e bu s a g ed a t aa r ef i tf o rt h ed a t aw a r e h o u s ea n dd a t am i n i n g ; 4 a n a l y z i n gt h ep r e p r o c e s s e dd a t ab yd e e pl o ga n a l y z e ra n ds o m es t a t i s t i c sa n d g r a p h i c sa r eg o t t h e nt h en e c e s s i t yo fb u i l d i n gc h c ks t r e a mw a r e h o u s ei sg i v e n b a s e do nt h es t a n d a r dc l i c ks t r e a mw a r e h o u s em o d e lp r e s e n t e db ym a r ks w e i g e r , a c u s t o m i z e dl o g i c a lm o d e li sp u tf o r w a r da n dt h e nt h ep h y s i c a lm o d e l a tl a s tt h e d a t ao ft h ew e b s i t ei st r a n s p o r t e di n t o 。r e s p e c t i v ed a t at a b l e st h a tp r o v i d et h ed a t a s o u r c ef o rd a t am i n i n g ; 5 t h ea l g o r i t h m sa n dt h em o d e lm e n t i o n e da b o v ea r ea p p l i e di n t ot h ed a t ac o l l e c t e d f r o mt h ee x a m p l ew e b s i t e t h e nt h ed a t aa r ea n a l y z e dt h r o u g hs e q u e n c ec l u s t e r i n g m o d e li ns q ls e r v e r2 0 0 5 1 1 1 ec o n c l u s i o n sa r ee x t r a c t e df r o mt h ed a t av i e wb y a n a l y z e ra n da p p l i e di n t ot h eo p t i m i z a t i o no ft h ew e b s i t e k e yw o r d s :w e bu s a g em i n i n g ;d a t ap r e p r o c e s s i n g ;c l i c ks t r e a mw a r e h o u s e ; s e q u e n c ec l u s t e r i n g ;w e b s i t eo p t i m i z a t i o n i l l 独创性声明 学位论文题目:盥壹俊圈挖握丞甚查圈堑佐焦史鲍廑闺 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加 了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同 仁在文中作了明确说明并表示衷心感谢。 t 一 学位论文作者:世l 惰酶签字日期:山甲年6 月 1 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 。( 保密的学位论文在解密后适用本授权书;本论文:i - 1 不保密, 口保密期限至年月止) 学位论文作者签名:田倩己导师签名: 签字日期: o 唧年易月1 日 签字日期: 于镌屯 旧年与其f 甚 文献综述 ! i ii ill 。 文献综述 随着i n t e n l e t 在全球范围的迅速普及和应用,w e b 信息量正以惊人的速度增长。 如何快速、有效地发现有用的信息资源已成为亟待解决的问题。w e b 挖掘作为一 种从w e b 的海量信息中挖掘有用知识的技术,从一出现就受到了广泛的关注。w e b 上信息的多样性决定了w e b 挖掘任务的多样性,根据挖掘对象的不同,可以将w e b 挖掘分为w 曲内容挖掘、w 曲结构挖掘和w e b 使用挖掘三大类【l 】。其中,w e b 使 用挖掘是挖掘w e b 服务器日志获取的信息来预测用户浏览行为的技术,从用户的 访问日志中挖掘用户的访问模式,为网站经营管理和结构调整提供决策支持,为 企业发现新市场机会、进行市场决策、提高网站的营销效果以及为企业进行战略 决策提供有价值的潜在的信息。 w e b 数据挖掘的研究应用工作自1 9 9 6 年由m s c h e n ,h m a n n i l a ,t y a n , o e t z i o n i 掣2 】学者提出开始到现在已有1 3 年的发展历程。通过大量学者、技术人 员的努力,已经取得了很大的成绩,这其中大量工作源于国外的一些学者和研究 机构。m a r m i l a 和c h e n 在研究过程中都假定去掉了图形文件、声音等多媒体文件。 这样剩下的w e b 服务器日志就能如实反映用户在网站中的访问情况。m a n n i l a t 3 】把 用户访问页面当作事件,从网站访问日志中试着寻找用户访问网站的周期。c h e r t t 4 】 提出了最大前向参引模型,同时也提出用这种方法来分解用户访问的会话成为一 个个的事务,然后就可以在事务的基础上,挖掘用户访问模式。t y a n t 5 】研究了如 何动态地根据用户当前访问提供推荐页面。他首先对用户进行分类,然后根据同 类用户访问过的页面情况,决定为当前用户提供的页面内容。h a r t 6 】把w e b 服务器 访问日志集成到数据立方体结构中,这样就可以对访问日志用传统的在线数据分 析处理过程来处理日志数据。因为其分析主要用的是动态网站日志,因此,他假 定客户端的缓存影响不大。j b o r g e s 7 】等人提出了引入超链接概率原理,修改了传 统意义上对序列的界定,可以把用户的访问在网站结构中记录下来,根据访问的 条件概率判断用户频繁访问路径。 国内互联网业是从1 9 9 7 年开始迅速蓬勃地发展起来的。直到1 9 9 9 年,国内 互联网用户达到一定数量后,国内学者才开始关注w e b 数据挖掘,相比之下起步 较晚。陈宁【8 】综述了国外应用数据挖掘技术解决i n t e m e t 应用问题的做法。周斌【9 】 等介绍了采用e o e m 模型,并用5 个用户访问模式做训练数据集,尝试着进行了 关联规则挖掘。台湾学者j u d y 等【lo 】人提出了t a m 模型,对访问某网站的2 0 0 个 学生进行问卷调查,寻找评价网站提供信息质量的要素。西安交通大学的宋擒豹 掣1 1 】提出了以w e b 站点为行、以u s e r i d 为列建立u r l u s e r l d 关联矩阵,元素值 为用户的访问次数,利用矩阵的特性进行挖掘的新思路。 随着研究的不断深入,w e b 挖掘的应用范围逐渐扩大,具体如下【1 2 l : 1 个性化服务 近年来,i n t e r n e t 的规模正在以惊人的速度发展,网站上的提供的巨大的信息 量,让用户在淹没在信息的海洋里,而难于发现自己感兴趣的信息。因此人们越 两南大学硕士学位论文 来越希望网页的内容能够以原先的从“网站”为中心转变为以“用户”为中心, 尽可能地自动调整以迎合每个用户的浏览兴趣,从而让每个用户感觉到他是网站 的唯一用户。目前网站能否从更高的层次吸引访问者,能否成功地帮助访问者浏 览与其相关的、对其有用的信息,已经成为网站能否最终成功的关键因素之一。 因此,为用户提供个性化的服务越来越成为w e b 日志挖掘应用中的重中之重。 目前根据w e b 使用信息,向w e b 站点提供个性化服务的应用系统有w e bw a t c h e r 系统、s i t e h e l p e r 系统和l e t i z i a 系统。 2 改进系统性能 用户对于网站的满意程度的关键是w e b 系统的性能和其他服务的质量,如数 据库性能、网络性能等。w e b 日志挖掘技术不仅是理解用户使用w e b 模式的关键, 而且对制定相关的管理策略有很大益处,例如w e b 缓存策略、网络传输、负载平 衡和数据分布等等。挖掘用户的频繁访问路径,从而来优化网站的结构。通过挖 掘用户的使用习惯,预测用户将访问的下个页面,实现页面预取,提高网站的访 问速度。另外,在w e b 使用服务中,安全问题成为日益关注的焦点。w e b 使用挖 掘利用服务器日志和应用程序的日志记录发现网站的异常访问模式,发现网站的 安全隐患,这些可以帮助解决入侵检测、网络欺诈和黑客的蓄意破坏等问题。 3 站点修改 一个网站在内容和结构上的吸引力对许多w e b 应用服务很重要,例如:如何 安置电子商店中产品目录。由于w e b 日志挖掘能在用户行为方面提供详细的反馈 信息,这就为网站设计者们在修改网站结构决策方面提供了基本信息。适应性网 站关注的焦点是根据从服务器日志中发现的使用模式自动地修改网站的结构。 4 商业智能 客户如何使用网站的信息对于从事电子零售业务的经营者来说是非常重要 的。b u e h n e r 等人向人们展示了从w e b 数据中探寻市场规律的一种知识发现过程。 他们利用知识发现技术鉴别出客户关系生命周期中四个不同的步骤:客户吸引、 客户保持、交叉销售和客户离去。 5 使用描述 描述用户使用特性的主要目的就是通过挖掘用户的访问模式,发现用户的使 用特点,建立用户访问档案。p i t k o w 等【13 】提出一种模型,它用于预测用户在给定 网站上访问页面的概率分布。这个模型根据页面的不同属性给站点的所有页面设 定一个阈值。这个阈值来自于在不同浏览区域中从浏览模式的研究中获得的经验 值。 , 本文在对前人的研究进行总结的基础上,对w e b 使用日志这些半结构化的数 据进行预处理。并结合实例网站的实际数据,创建适合实例网站的点击流数据仓 库模型,然后运用s q l2 0 0 5a n a l y s i ss e r v i c e 中的序列聚类模型进行数据挖掘,最 后对数据挖掘结果进行数据分析,给网站的管理者提供网站结构优化的建议。 2 绪论 1 绪论 1 1 选题背景及研究意义 近年来,随着w e b 技术的飞速发展与广泛使用,互联网已成为人们获取信息 的重要来源,网络信息的迅速增长和网站结构的日益复杂,在给人们带来丰富信 息和极大便利的同时,也随之产生了一些亟待解决的问题:一方面,每个用户都 会有自己的需求和偏好,通常在获取有用信息时,也被动地接受了许多无用信息, 浪费很多时间。因此用户希望站点根据不同的用户浏览模式提供不同的服务,感 觉到网站真正地在为自己服务。另一方面,网站经营者面临着诸多问题,如何发 现用户的需要和兴趣,并以用户为中心修改网站,从而提高用户的满意度:如何 发现系统性能瓶颈,找到安全漏洞;如何查看网站流量模式以及找到网站最重要 部分等等。w e b 服务器日志是一个结构化较好的记录集,保存了用户访问w e b 各 页面的情况,这样旨在使用数据挖掘技术从用户与网站的交互信息中获得用户使 用模式的w e b 使用挖掘技术应运而生。 。 经过时间的积累,w e b 服务器中的w e b 日志文件将越来越大,其中包含客户 的信息越来越多。网站经营者希望有大量的分析工具集来分析用户的访问动机、 了解网络通信情况,并进一步改进系统的设计。 w e b 作为目前i t n t e r n e t 上信息发布的主要渠道,已经显示出巨大的商业价值和 应用潜力。通过挖掘w e b 日志我们可以发现用户访问模式及行为,分析站点的使 用情况;实现用户聚类、页面聚类和发现频繁访问路径;为网站的重构明确指引 方向,同时为网站提供更多的便利;协助管理者优化站点,构造合理的w e b 服务 器;并让客户和企业内部用户能实现高效访问,进而为用户提供个性化服务;帮 助企业更好地做出商务决策等等:它的重要性是不言而喻的。本研究的意义主要 体现在以下几个方面【1 4 】: 1 个性挖掘 针对单个用户的日志记录对该用户进行建模,结合该用户基本信息,分析其 站点使用习惯、个人喜好,可以在电子商务环境下为该用户提供个性化的服务。 2 系统改进 w e b 服务器的性能和站点其他服务质量是衡量用户满意度的关键指标,w e b 使用挖掘可以通过对用户的拥塞记录进行分析来发现站点的性能瓶颈,以提示站 点管理者改进w e b 缓存策略、网络传输策略、流量负载平衡机制和数据的分布策 略等。此外,还可以通过分析网络的非法入侵数据找到系统的薄弱点,从而提高 站点系统的安全性,特别在电子商务环境中尤为重要。 3 站点修改 站点的结构和内容是吸引用户的关键。w e b 使用挖掘通过挖掘用户的访问记 录为站点设计者提供改进的依据,比如页面之间如何链接才合理,哪些页面应该 能够很容易被用户直接访问等。 4 智能商务 西南大学硕士学位论文 用户如何使用w e b 站点是电子商务销售商所非常关心的,用户一次访问的周 期基本上可以分为被吸引、驻留、购买、离开几个步骤,w e b 使用挖掘可以通过 分析用户日志得到用户点击序列,从而帮助销售商合理安排销售策略。 5 广告服务 广告是很多站点收入的重要来源,w e b 使用挖掘可以发现站点用户的频繁访 问路径,站点管理人员可以借助这些频繁路径在用户经常经过的地方合理的放置 广告,提高广告的点击率,从而帮助站点获得更多的广告收入。 总的来说,本研究的相关技术可以应用在w e b 系统改进、网站修改、导航模 式发现、商务智能、w e b 个性化服务等方面,研究具有重要的现实意义和广阔的 应用前景。 1 2 国内外研究现状 目前国内外基于w e b 使用挖掘的研究工作大致可分为以下三类【1 5 】: l i ,以分析w e b 站点性能为目标,主要从统计学的角度,对日志数据项进行简 单的统计,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。 绝大多数商业及免费的w e b 日志分析工具都属于此类。 2 以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息, w e b 服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面, 其目的就是提高用户的满意度和提供个性化的服务。 3 以改进w e b 站点设计为目标,通过挖掘用户的频繁访问路径和用户聚类, 重构站点的页面之间的链接关系,以适应用户的访问习惯,同时为用户提供个性 化的信息服务和有针对性的电子商务活动,应用信息推拉技术构建智能化w e b 站 点、自适应站点等。 国外的e c o o l e y r ,m o b a s h e r b 等人首次给出w 曲挖掘的定义,并且给出了 一个关于w 曲访问信息挖掘的系统w e b m i n e r 1 6 】。该系统能自动从w e b 日志中发 现关联规则和序列模式等。w e b m i n e r 的思路是通过对w e b 站点的日志进行处理, 将数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数 据挖掘方法( 如传统的关联规则发现算法等) 进行处理【l 。7 1 。 在日志挖掘软件中,现在也有比较多的产品。w e b a l i z e r i l 8 】主要的特点就是运 行速度特别快,这主要得益于该软件是由c 语言编写,但是软件在数据的图形化 和统计数据方面的表现不很理想。a n a l 0 9 1 1 9 】是一个在w i n d o w s 和u n i x 操作系统 下都能很好地运行、适合中小型网站服务器的日志分析工具,它能用网页的方式 显示所有从服务器日志上得到的数据。w e b t r e n d s 2 0 】是一个商业软件,有友好的界 面和交互性,能和s 服务器配合。a w s t a t s 2 1 】使用p e r l 语言编写,图形界面非常 优秀,能够提供数目和种类都非常多的分析报告,并且报告之间的转换也很好。 国内比较著名的是逆火w e b 日志分析器【2 2 】和w e b i a _ m 2 3 】。 逆火w e b 日志分析器能生成8 0 多个图表,并能生成三维统计图,支持常见的 w i n d o w s 操作系统,支持a p a c h e 和i i sw 3 c 多种日志。 4 绪论 w e b i a m 是辽宁般若网络科技有限公司开发的一个网站智能分析工具。它是 基于系统模型技术设计的软件,通过w e b i a m 多维的信息挖掘技术与系统模型技 术,分析人员可以深入地分析网站工作情况,帮助网站的各级管理者详细地、定 量地、科学地了解和掌握被管理对象w e b 的工作状态,提高经营和管理水平。 w e b i a m 在w e b 分析功能上具有如下特点:分析指标体系、汇总分析、管理等级 与权限、访问行为分析、指定日期分析、频道分析、地区分析、注册用户分析、 同期比较、接入分析等;在w e b 分析技术上具有如下特点:实时监测系统资源、 多线程技术、服务器集群分析和超大规模日志分析等。该系统已在不少大型站点 得到应用( 如2 1 c n 网站等) 。 在w e b 用户访问信息挖掘的理论研究方面,国内外学者进行了大量研究工作。 b u c h n e r a g ,m u l v e n n a m d 等【2 4 】首先提出将数据挖掘技术应用于电子商务的 环境下,以挖掘市场智能。挖掘的对象不仅包括w e b 日志和w e b 页面,还包括市 场数据,并且给出了在电子商务环境下,应用w e b 使用挖掘的一个总的系统框架。 - h a r t 等 6 1 将w e b 日志数据保存为数据立方体,然后在其上执行o l a p 的各种 操作中发现用户的访问模式。通过对w e b 站点的日志记录进行预处理,将日志数 据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖 掘方法进行处理,该系统已经实现了关联规则、分类以及时间序列分析。“。 西安交大陆丽娜教授等【2 5 1 ,采用基于事务的方法,研究w e b 使用挖掘预处理 及用户访问序列模式挖掘方法,提出了一种基于扩展有向树框架进行用户浏览模 式识别的日志挖掘方法。 :1 清华马少平教授等【2 6 】提出一种基于n 元( n g r a m ) 模型的预测用户访问请求的 框架,从而对用户未来可能进行的w e b 访问请求进行预测。 沈均毅等【l l 】提出:首先以w e b 站点的u r l 为行,以u s e r i d 为列,建立 u r l u s e r d 关联矩阵,元素值为用户的访问次数:然后,对列向量进行相似性分 析得到相似客户群体,对行向量进行相似性分析获得相关w e b 页面,对相关页面 再进行进一步处理,则可以发现频繁访问路径;并提出了w e b 页面和用户群体的 模糊聚类算法。 上海交通大学尤晋元教授【2 7 】等引入w e b 页面的内容链接比、页组组内链接度, 修改了频繁访问页面支持度的计算公式,提出了基于页面内容和站点结构的页面 聚类挖掘改进算法。 1 3 论文的研究内容及结构 本文对于w e b 使用挖掘预处理中的若干关键技术问题进行了详细的分析及论 述,然后结合实例网站数据,利用s q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s 对其进行分析, 最后将结果应用于实例网站。论文结构如下: 第l 章绪论 概述w e b 使用挖据的研究意义及研究现状,介绍本文的研究内容及结构。 第2 章w e b 使用挖掘 两南大学硕士学位论文 、对w e b 挖掘进行概述:详细讨论了w e b 使用挖掘的过程。 第3 章w 曲日志数据预处理 介绍预处理的步骤、关键技术及算法实现,提出一种优化的会话识别算法。 第4 章点击流数据仓库 介绍点击流数据仓库的基础理论,并结合实例网站的日志数据对数据仓库的 逻辑模式和物理模式进行分析。 第5 章聚类与网站优化 简介聚类的方法、s s a ss e q u e n c ec l u s t e r 算法和网站优化的定义等;运用s q l 2 0 0 5a n a l y s i s 进行数据挖掘,对挖掘结果进行分析,给网站的管理者提供一些关 于网站结构和程序优化的建议。 第6 章总结 对全文进行归纳、总结,列出本文的创新点和有待改进的方面。 w e b 使用挖掘 2w 曲使用挖掘 2 1w r e b 挖掘 w e b 挖掘是应用数据挖掘技术从与w w w 相关的资源和用户浏览行为中提取 隐含的、对决策有潜在价值的知识和模式的过程【2 引。w e b 数据挖掘起源于数据挖 掘,但是一般的数据挖掘对象大多是针对关系数据库或数据仓库的,所处理的数 据具有完整的结构。而w e b 挖掘对象与一般的数据挖掘对象不同,具有如下特点: 1 异构的数据环境。从数据库的角度出发,w e b 网站上的信息可以看作一个 数据库。w e b 每一个站点都是一个数据源,每个数据源都是异构的,这就构成一 个巨大异构数据环境。 2 动态性极强的信息源。w e b 的数据量以t e r a 字节计算,其页面数目前已经 达到数千亿,而且每天还在不断更新当中。 3 信息具有丰富的内涵。既有涉及经济、文化、教育、新闻、娱乐、电子商 务等丰富的信息服务,又蕴涵着访问页面特性、访问路径特性、访问时间特性这 些潜在的访问信息。 w e b 是一个巨大的、广泛分布的、异构的、半结构的、超文本的相互联系并 且不断变化的信息仓库,其中包括链接信息、访问使用信息等。这大量的非结构 化数据是无法使用现有数据库管理系统来处理和管理的,这就对w e b 进行有效的 信息抽取和知识发现带来了极大的挑战,也使得w e b 数据挖掘更加复杂。 2 2w e b 挖掘分类 网络中有各种各样的数据资源,可以将这些资源分为四类【2 9 】,第一类是内容, 即网页上的数据;第二类是结构,即描述内容组织的数据;第三类是使用信息, 如p 地址、访问时间等网页浏览信息其可从w e b 服务器的日志文件获得;第四类 是用户资料,是某个网站中记录的用户资料。 根据上面数据源的分类,w 曲挖掘可分为三类f l 习( 如图2 1 所示) :w e b 内容挖 掘、w e b 结构挖掘、w e b 使用挖掘。w e b 内容挖掘和w e b 结构挖掘分别是对前两 类数据进行挖掘,w e b 使用挖掘主要针对的是用户和网络交互过程中提取的数据。 图2 。1w e b 挖掘分类 7 西南大学硕士学位论文 2 2 1w e b 内容挖掘 w 曲内容挖掘是指对w e b 页面内容进行挖掘,从文本、图像、音频、视频、 动画等各种形式的网络资源中发现所需的特定化信息,以实现w e b 资源的自动检 索,提高w e b 数据的利用效率。w e b 文本挖掘的数据对象既可以是结构化的,也 可以是非结构化的、半结构化的。w e b 文本挖掘的结构既可以是对某个文本内容 的概括,也可以是对整个文本集合的分类结果或是聚类结果,还可以利用w e b 文 档进行趋势预测等。多媒体信息挖掘【3 们,主要是对w 曲上的音频、视频和图像进 行预处理,应用存储和搜索技术与标准的数据方法的集成,对其中潜在的有意义 的信息和模式进行挖掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图 像处理等研究领域,从而得到更为精确和有用的信息,以增强搜索引擎的内容查 询功能。 2 2 2w e b 结构挖掘 w e b 结构挖掘即挖掘w e b 潜在的结构模式【3 0 1 。w 曲结构挖掘是从组织结构和 链接关系中推导知识。主要通过对w e b 站点的结构进行分析、变形和归纳,将w e b 页面进行分类,以利于信息的搜索。w e b 结构挖掘所得到的模式,可以揭示许多 涵盖在w e b 内容之外的有用信息。通过文档之间的超链接,可以挖掘文档之间的 引用关系,从而帮助我们找到与用户相关的权威页面。通过w e b 页面的树形结构 可以发现与给定页面集合相关的其它页面,w e b 页面的u r l 同样可以反映页面的 类型以及页面之间的从属关系。在整个w e b 空间里,有用的知识不仅包含在w e b 页面的内容中,而且也包含在页面的结构之中。如果发现一篇文章经常被引用, 那么这个页面一定是非常重要的。针对一个网页链接和被链接数量等链接信息分 析,可以发现文档间的链接结构。w e b 结构挖掘又可进行网页分类,总结网站和 网页的结构,获得有关不同页面间向适度及关联度的信息等。 2 2 3w e b 使用挖掘 w e b 使用挖掘是挖掘w e b 服务器日志获取的信息来预测用户浏览行为的技 术。从用户的访问日志中挖掘用户的访问模式,为网站经营管理和结构调整提供 决策支持:为企业发现新市场机会,进行市场决策:提高通过网站施行的营销效 果,以及为企业进行战略决策提供有价值的潜在的信息。个人浏览w e b 服务器时, 服务器会产生三种类型日志文件:s e r v e rl o g s ,e r r o rl o g s ,c o o k i el o g s 。w e b 使 用挖掘是对这三种日志文件进行挖掘,从而发现用户的访问模式、相似用户群体、 频繁路径等知识。 实际上,以上三种w e b 挖掘任务不是孤立的,而是相辅相成的。特别是w e b 内容挖掘和结构挖掘之间关系更为紧密,因为w e b 文档中也包含有链接,有的时 候,w e b 内容和w e b 使用挖掘相结合能更好的完成某个应用任务。因此,w e b 挖 掘的这三个研究方向在实际应用过程中并不是孤立的,而是相互联系、相互交叉 和相互渗透的。 w e b 使用挖掘 1 一i 一一m m 一 _i 一i _ i 蔓曼曼曼量曼皇曼曼曼曼曼曼曼寡 2 3w e b 使用挖掘概述 w e b 使用挖掘是一种很重要的信息获取方式,它挖掘的数据一般是在用户和 网络交互的过程中抽取出来的第二手的数据。 w e b 使用挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问 模式跟踪通过分析w e b 日志来理解用户的访问模式和倾向,以给出较好的w e b 结 构及资源提供者的分组情况;定制使用跟踪以分析单个用户的偏好,根据其访问 模式为每个用户定制符合其个人特色的w e b 站点服务。 w e b 服务器的日志文件记载了用户访问站点的数据,这些数据包括:访问客 户的d 地址、访问时间、访问的页面、访问方式、页面大小、浏览器类型、响应 状态等。当站点被访问一次,日志文件就在日志数据库内追加相应的记录。管理 员主要关心的是这些数据间的关系和数据的统计值,例如:访问次数和时间的关 系;访问用户所在的国家和地区分布;访问频率较高的页面;一段时间内被访问 的平均次数。这些都是简单的统计,但是随着w e b 站点的不断发展,站点的规模 与复杂程度与日俱增,w e b 站点的设计与维护变得越来越困难。利用普通的概率 论来统计分析、安排站点结构已经不能满足要求,而w e b 日志挖掘能够帮助w e b 站点的管理员更深入地了解站点的使用信息。 2 3 1w e b 使用挖掘的数据源 日志数据,是挖掘的主要对象,也是整个预处理的关键。用于w e b 用户访问 信息挖掘的数据包括:日志记录数据、具体内容数据、结构数据。用户日志数据 是指用户的注册信息和历史行为记录,通常会有专门的数据库来存放用户日志数 据。具体内容数据是网站的资源,主要是文本资源和具体内容资源,对于特定的 网站,可以包括声音或图像等文件。结构数据是描述网站内容的组织形式,其拓 扑结构通常隐藏在网页的超链接之中,可以将其结构形式化为数据库。数据可以 从w e b 服务器、客户端、w e b 代理服务器获得。w e b 服务器端得到的日志记录是 以文本形式存储的,由于服务器或者设置参数的不同,得到的日志文件中记录的 信息也会有所不同,但都包含访问用户的基本信息。 1 服务器端数据 通过w e b 服务器记录用户访问日志,在服务器中记录了用户每次访问网站时 请求网页的信息,能够很全面的记录用户登录页面的详细信息。我们可以通过查 询参数来描述不同用户的行为,这种数据收集方法有利于数据挖掘的进行,易于 分析出用户的浏览行为。 2 客户端数据 用户端的数据收集可以使用j a v as c r i p t s 或者j a v a a p p l e t s 这样的远程代理来实 现,但不能记录用户所有的动作。用户端的数据收集特别需要用户的合作,因为 直接从用户端取得数据需要考虑用户的隐私和占用用户的机器和网络资源。从用 户端收集数据最大的优点是可以直接取得用户的各种真实信息,这些信息的完整 性和真实性都要好于服务器上的。 9 西南大学硕士学位论文 3 代理服务器端数据 通常在网络中基于安全和效率的考虑,需要使用代理服务器技术。代理服务 器在用户端和服务器端扮演着中间传递的角色。代理服务器通常为多个用户服务, 这样从代理服务器上就可以得到多个匿名用户的浏览信息。代理服务器上保存着 一个最近访问过的页面集合。 2 3 2w e b 使用挖掘过程 w e b 使用挖掘是关于用户行为及潜在顾客信息的发现,包括三个过程,即数 据预处理、模式识别及模式分析,如图2 2 所示。 图2 2w e b 便用挖掘的过程 1 数据预处理阶段 根据挖掘的目的,对原始w e b 日志文件中的数据进行提取、分解、合并、最 后转换为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中, 等待进一步处理。该阶段是w e b 访问信息挖掘最关键的阶段,数据预处理包括: 关于用户访问信息的预处理、关于内容和结构的预处理。 2 模式识别阶段 在对事务进行了划分后,就可以根据具体的分析需求选择访问模式发现的技 术。由于目标的不同,所采用的技术也有所不同。下面简要介绍模式发现阶段使 用的各种技术【3 l j 。 ( 1 ) 统计分析 统计方法是抽取w e b 访问者行为的最常见、最普通的技术。利用统计方法开 发的w e b 流量分析工具能定期产生各种统计分析报告,其中的统计信息可以包括 w e b 用户最频繁访问的网页、每个页面的平均访问时间和网站的平均访问路径长 度等。尽管统计分析不是深层次的分析,但是统计分析的结果对于网站系统性能 改善、系统安全性能提高、网站修改及市场决策支持等方面都具有很大的潜在价 值,在实际的网站运营中得到了广泛的应用。 ( 2 ) 序列模式 序列模式挖掘技术试图从按时间排序的会话集合中发现会话内在的模式。这 l o w e b 便用挖掘 些模式中的数据项之间存在着一定的时间先后顺序。网站经营者可以利用序列模 式来预测用户未来的访问模式,从而可以有针对性的对用户发放广告服务等。对 序列模式在时序上的进一步分析可用于趋势分析和观测用户访问状态的变化。 ( 3 ) 关联规则 关联规则的生成可用于将一个服务器会话中最多被同时访问的页面关联在一 起。在w e b 使用挖掘的环境中,关联规则是指经常被一起访问的,支持度超过特 定阈值的页面集合。这些页面可能不是通过超链接直接相互连接在一起的。关联 规则除了可应用于商业和市场领域以外,还可应用于改进和重组网站结构。 ( 4 ) 分类 分类方法就是按照某个特征,将某个数据项划分到预先定义的多个类中的某 个类。在w e b 使用挖掘领域,人们感兴趣的是描述某一特定类别用户的特征。可 以利用有监督的归纳学习算法抽取和选择最能描述某一给定类的特征属性,实现 w e b 用户的分类。此类学习算法有很多,例如:决策树分类器、朴素贝叶斯分类 器、k 最邻近分类器和支持向量机等。 ( 5 ) 聚类 聚类是将具有某种相似特性的项目聚合成簇或组。在w e b 使用挖掘领域中, 人们发现两种有趣的聚类:用户聚类和页面聚类。用户聚类是将具有相似浏览模 式的用户聚集成组。用户聚类所获得的知识可用于对特定的用户提供个性化的网 页内容服务和在电子商务中进行市场分析时推断客户的分布情况。另一方面,页 面聚类是将具有相似内容的网页聚类成组。页面聚类信息对w e b 搜索引擎和w e b 服务都有很大帮助。聚类与分类的区别在于:分类中的类及其相关属性都是预先 定义好的,它的任务就是运用分类算法将尚未划分类别的数据项标记上特定的类 标号;而聚类的类别是预先不知道的,它的任务是从大量的数据个体中,根据数 据项之间的特征相似性,将原始数据集合划分成若干个子集。 ( 6 ) 依赖建模 依赖建模是w e b 挖掘中另一个重要的模式发现任务。它的目的是建立一个模 型,使之能够将w e b 领域的各个不同因素之间的重要依赖关系表现出来。例如建 立一个用户网上购物过程的模型,那么这个模型要能够表现出用户在电子商店挑 选商品所经历的各个阶段。w e b 使用模式依赖建模不仅为分析w e b 用户行为提供 了一个理论框架,而且对预测w e b 资源消耗也有很大的帮助。这些信息同时可以 用来对电子商务网站提高产品销售或对用户访问提供决策支持。 3 模式分析阶段 该阶段是提供可视化的结果输出。模式分析如果没有合适的技术和工具来辅 助分析人员的理解,采用各种技术挖掘出来的模式将不能得到很好的利用。所以 开发各种分析技术和工具是仍一个较新的领域。 2 3 3w 曲使用挖掘目的 无论从学术或从商业运作的角度来看,w e b 数据挖掘都是一个很值得研究的 西南大学硕士学1 _ ) :论文 学术领域。通过w e b 数据挖掘可以了解整个w e b 系统被访问的情况。基于w e b 服务器的日志数据的应用研究大致分为三类。 1 改善系统性能 数据库和网络带来的服务质量对于用户来说非常重要。通过w e b 日志挖掘我 们可以了解到具体的w e b 页及w e b 的传输情况。随着网络的不断发展,网络安全 也上升成为一个迫切需要解决的问题。w e b 日志挖掘也能提供模式分析,探测到 外来干扰、传输出现错误等。 2 改进系统设计 在一个w e b 站点中,w e b 页面之间存在着丰富的结构信息,这种结构信息反 映出网站设计者的领域知识。这种领域知识是否与群体用户的访问兴趣相符合, 需要通过对用户访问兴趣的挖掘来检验。通过对一段时间群体用户对一个w e b 站 点访问日志的挖掘,可以得到群体用户的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论