




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)web日志中浏览模式挖掘算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 i n t e m e t 技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃 和本质性的变化。目前,以电子商务、电子图书馆、远程教育等为w e b 的主 要应用,促使w e b 以更快的速度发展,在给人们带来丰富信息和极大便利的 同时,对w e b 站点的设计和功能提出了更高的要求。要求w e b 具有智能性, 能快速、准确地找到用户所需要的信息;能为不同用户提供不同的服务;能 允许用户根据自己的需要定制页面;能为用户提供产品营销策略信息等等。 解决这些问题的途径之一就是将传统数据挖掘技术应用于w e b 日志,即利用 数据挖掘的原则和思想,针对w e b 日志的新特性,对传统挖掘方法进行扩展 和改进,将其应用到w e b 日志上,挖掘出有用的模式,根据用户的浏览模式, 可以改进站点的设计和服务,开展个性化服务和构建智能化网站。目前,w e b 日志挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重 要的现实意义。 本文系统地阐述了w e b 数据挖掘到w e b 日志数据挖掘的整个过程,重 点对w e b 日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中,采用传 统的关联规则挖掘算法要频繁扫描数据库,产生大量候选集,效率低;另外, 现有的算法很少考虑到浏览模式的时效性,为了解决这个问题本文提出了一 个适用于w e b 日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘 过程中候选模式的生成操作,只对数据库扫描一次,求出所有连续子序列集, 利用集合运算求得支持度,同时逐步修正会话时间得到浏览模式的有效时间, 与类a p r i o r i 算法相比运行时间少,扩展性好,并且挖掘出的模式具有时效性。 在此基础上,对现有的增量更新挖掘算法进行改进,增加了时态因素,能很 好地适应w e b 日志的不断变化。最后,设计并实现了一个w c b 日志挖掘原 型系统,证明了此算法的快速性和有效性。 关键词:w e b 日志挖掘;频繁访问模式;时态约束;增量更新;关联规则 哈尔滨工程大学硕士学位论文 a b s tr a c t t h ed e v e l o p m e n ta n dp o p u l a r i t yo fh l t e m e tt e c h n i q u e sm a k e st h ew a yo f i n f o r m a t i o na c q u i r i n ga n dp u b l i s h i n gt a k ep l a c eg r e a tl e a p sa n de s s e n t i a lc h a n g e s t h em a i na p p l i c a t i o n sa r ee - c o m m e r c e ,e - l i b r a r y ,d i s t a n c el e a r n i n ga n ds oo n , w h i c hs p u r sw e bt od e v e l o pa tah i g hs p e e d w e bb r i n g sp e o p l er i c hi n f o r m a t i o n a n dg r e a tc o n v e n i e n c e m e a n w h i l et h eh i g hr e q u i r e m e n ti sd e s i r e do nt h ed e s i g n a n df u n c t i o no fw e b s i t e w e bi sr e q u i r e dt ob ei n t e l l i g e n c ea n dc a nf i n do u tt h e i n f o r m a t i o nr a p i d l ya n da c c u r a t e l yt h a tu s e r sn e e d i tc a na l s op r o v i d ed i f f e r e n t s e r v i c e sf o rd i f f e r e n tu s e l - s ,a l l o wu s c r st od e s i g np a g e sa c c o r d i n gt ot h e i ro w n r e q u i r e m e n t ,p r o v i d ep r o d u c t m a r k e t i n gs t r a t e g i ci n f o r m a t i o nf o ru s e r sa n ds oo n a m o n gm a n yd i r e c ta n di n d i r e c ts o l u t i o n s ,e m p l o y i n gt r a d i t i o n a l d a t am i n i n g t e c h n i q u e so nw e bl o gi sap r o m i s i n ga p p r o a c h t h a ti st os a y ,b a s i n go nt h e p r i n c i p l e sa n di d e a so fd a t am i n i n g , i na c c o r d a n c ew i t ht h en e w c h a r a c t e r i s t i c so f w e bl o g t r a d i t i o n a lw a yo f m i n i n gi se x p a n d e da n di m p r o v e d ,w h i c hi sa p p l i e dt 0 w e bl o ga n de x p l o r e du s e f u lm o d e w ed e s i g nw e bs e r v i c e st h a ti n t e g r a t eu s e r s b r o w s i n gp a t t e r ns ot h a tt h ew e b s i t ei sp e r s o n a l i z e da n db e c o m e si n t e l l i g e n t w e b l o gm i n i n gh a sb e c o m ean e wa n di m p o r t a n tr e s e a r c hf i e l di nt h ew o r l da n di t s r e s e a r c hi so fg r e a tr e a l i s t i cs i g n i f i c a n c e t h et h e s i ss y s t e m a t i c a l l yi n t r o d u c et h ee n t i r ep r o c e s so fw e bd a t am i n i n g a n dw e bl o gd a t am i n i n g ,a n dr e s e a r c he m p h a t i c a l l yi n t ot h em i n i n ga l g o r i t h mo f u s e r s b r o w s i n gp a t t e r nf r o mw e bl o gd a t a i nt h ep r o c e s so fg e t t i n gt h eb r o w s i n g m o d eo ft h ec u s t o m e r , t h et r a d i t i o n a lp r o p o s e df o rd a t am i n i n go fa s s o c i a t i o n r u l e sr e q u i r es e v e r a lp a s s e so v e rt h ea n a l y z e dd a t a b a s e ,t h ei oo v e r h e a di n s c a n n i n gt h el a r g ed a t a b a s ec a n b e e ne x t r e m e l yh i g h i na d d i t i o n , t h ec u r r e n tl i t t l e a l g o r i t h m si nb r o w s i n gm o d em i n i n gd ot a k et i m e v a l i d i t yi n t oa c c o u n t i no r d e r t os o l v et h ep r o b l e m ,t h et h e s i sp u tf o r w a r dt oa l la l g o r i t h mo fb r o w s i n gm o d e m i n i n gw i t ht e m p o r a lc o n s t r a i n t t h ea l g o r i t h mc o n s i d e r a t i o ni sh o w t of a c i l i t a t e t h et e d i o u sc a n d i d a t eg e n e r a t i n go p e r a t i o n si nt h em i n i n gp r o c e d u r e ,s i m p l y 哈尔滨工程大学硕士学位论文 s c a n n i n gt h ea c c g s ss e q u e n c ed a t a b a s eo n c e b ym e a n so fa s s e m b l a g eo p e r a t i o n t oa c q u i r et h es u p p o r to fi t e ms e t s i nt h ec o u r s eo fc o m p u t i n gs u p p o r t , g r a d u a l l y m o d i f ys e s s i o nt i m et og e tt h ev a l i dt i m eo ff r e q u e n tm o d e c o m p a r e dw i t i l l i k e - a p d o r i ,i tp o s s e s s e st h ec h a r a c t e r i s t i c so f c o n s u m i n gl e s st i m ea n de x p a n d i n g b e t t e r o nt h ef o u n d a t i o no ft h en e ww e b l o gd a t am i n i n g t h et h e s i ss u p p l i e sa n i m p r o v e dm i n i n ga l g o r i t h mo fi n c r e m e n t a lu p d a t i n gt h a tc a nb eu s e di nt e m p o r a l d a t am i n i n g ,s ot h a ti tc a na p p l yt h ec h a n g e so f w e b l o gd a t aq u i t ew e l l a tl a s t ,t h et h e s i sd e s i g na n dr e a l i z eaw e bl o gm i n i n gp r o t o t y p es y s t e ma n d d e m o n s 缸 a t et h er a p i d i t ya n de f f i c i e n c yo f t h ea l g o r i t h m k e yw o r d s :w e bl o gm i n i n g ,f r e q u e n ta c c e s sp a t t e r n s ,t e m p o r a lc o n s t r a i n t , i n c r e m e n t a lu p d a t i n g ,a s s o c i a t i o nr u i e s 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均己在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :奎! 丝 日期: 。0 7 年6 月i 弓日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 课题研究的背景、目的和意义 i n t e m e t 技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃 和本质性的变化,w o d dw i d ew e b ( 简称w w w ) 成为信息传播的主要载体 之一。目前,w e b 的信息容量己超过g o p h e r 和w a i s 而成为全球最大的信 息系统。近年来,以电子商务、电子图书馆、远程教育等为w e b 的主要应用, 促使w e b 以更快的速度发展,在给人们带来丰富信息和极大便利的同时,对 w e b 站点的设计和功能提出了更高的要求。要求w e b 具有智能性,能快速、 准确地找到用户所需要的信息:能为不同用户提供不同的服务;能允许用户 根据自己的需要定制页面;能为用户提供产品营销策略信息等等。解决这些 问题的途径之一就是将传统数据挖掘技术应用于包括w e b 页面内容、页面之 间的结构、用户访问信息、电子商务信息等在内的各种w e b 数据,即利用数 据挖掘的原则和思想,针对w e b 数据的新特性,对传统挖掘方法进行扩展和 改进,将其应用到w e b 数据上,挖掘出有用的知识,为访问者、站点经营者 以及包括电子商务在内的基于因特网的商务活动提供决策支持。 数据挖掘在传统的结构化的事务数据挖掘领域,已经取得了比较成功的 应用。然而,w e b 上的信息不同于数据库,数据库有规范的数据结构,而 w e b 上包括文本、图片、v e d i o 等多种信息,它们是半结构化的。因此,w e b 上的挖掘需要不同于常规的数据挖掘的很多技术。在现实研究领域中,存在 很多半结构化、异构的数据源,w e b 挖掘的研究也极大的推动数据挖掘在其 它领域的应用。 w e b 挖掘就是在大型网络( 主要是i n t e m e t ) 的信息和信息的使用记录的 数据中挖掘出潜在的、有意义的和有规律性的知识。从而进一步开发网络的 信息资源,提高网络信息的利用价值,满足有关用户的需求。通常,w e b 挖 掘依靠它所挖掘的站点信息来源可以分为w e b 内容挖掘( w e bc o n t e n t m i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 访问信息挖掘( w e b u s a g em i n i n g ) 三种主要类型。w e b 内容挖掘是指对站点的w e b 页面内容进 哈尔滨工程大学硕士学位论文 行挖掘;w e b 结构挖掘是对w e b 页面之间的链接结构进行挖掘;w e b 访问 信息挖掘是对用户访问w e b 时在服务器方留下的访问记录进行挖掘,即对用 户访问w e b 站点的存取方式进行挖掘,挖掘对象是在服务器上的包括s e r v e r l o g d a t a 等在内的日志文件记录,也被称为是w e b 日志挖掘。 基于这样的分类,可以看出w e b 挖掘的核心是数据挖掘和k d d 技术在 w e b 相关的数据源上的延伸。目前,国内外开始重点研究的是w e b 日志挖 掘。w c b 日志挖掘的数据源主要是具有完美结构的w e b 服务器上的l o g 日 志,每当用户访问w e b 站点时,所访问的页面、时间、用户i d 等信息, 在l o g 日志中都有相应的记录。因此,分析w e b 日志,可以构造出用户的 行为模式,根据用户的行为模式改进站点的设计和服务,从与w w w 相关 的资源、丰富和动态的超链接信息中抽取感兴趣的、有用的模式和隐含的知 识,并实现w e b 信息的准确查询。 总之,w e b 作为目前i n t e m e t 上信息发布的主要渠道,已经显示出巨大 的商业价值和应用潜力,要提高网站的声誉和收益,为用户提供更好的服务, 就应该从研究用户的浏览模式入手,根据用户的浏览特征,改善网站的性能 和服务。本文在分析现有浏览模式挖掘算法的基础上,结合w e b 同志的特点, 提出了一个全新的适用于w e b 日志的带有时态约束的浏览模式挖掘算法。以 推动w e b 挖掘应用研究。 1 2w e b 日志挖掘研究现状 互联网的快速发展,使得对w e b 信息挖掘分析的需求越来越迫切,许多 国家把这项研究作为重点资助科研项目。w c b 数据挖掘也得到了极大的发 展。 在1 9 9 6 年,学者m s c h e n h m a n n i l a t y a n 提出了可以将数据挖掘方法 用于w e b 研究领域使用的思想。 从研究的角度,现有的基于w e b 服务器日志数据的研究大致可以分为 三个方向【1 】: ( 1 ) 以分析w e b 站点性能为目标,主要从统计学的角度,对日志数据 项进行简单的统计,得到用户频繁访问页、单位时间访问数、访问数据随时 间分布图等。绝大多数商用及免费的w e b 日志分析工具都属于此类,这些工 2 哈尔滨工程大学硕士学位论文 具的用户一般是w e b 服务器的管理者。通过这些统计数据,管理员可以对 w e b 服务器作相应的调节,如缓冲设置,镜像站点设置等。更进一步,如果 将w e b 日志视做关系表,利用数据挖掘技术还可以发现许多有价值的信息, 如利用关联规则可能发现用户所在地区与被访问页面间的关系。此外,许多 数据挖掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于w e b 日志的分析,帮助管理员发现用户的访问规律。 ( 2 ) 以改进w e b 站点设计为目标。通过挖掘用户的频繁访问路径和用 户聚类,重构站点的页面之问的连接关系,以更适应用户的访问习惯,同时 为用户提供个性化的信息服务。例如:沈均毅教授提出的w e b 页面和客户群 体的模糊聚类算法便是此类的典型代表【2 】。 ( 3 ) 以理解用户意图为目标。一般是通过算法从w e b 服务器日志中 找出频繁的用户访问路径或访问模式,这些都是为了扶大量的w e b 日志数 据中找出一定的模式和规则。c h e n 等提出的路径游历模式( p a t ht r a v e r s a l p a t t e r n ) 的发现算法,以及j i a w e ih a n 等使用数据立方体方法,便是这类的 典型代表1 “。 综上所述,w c b 日志挖掘方法可以分为以c h e n 为代表的基于w 曲事 务的方法和以h a n 为代表的基于数据立方体的方法。c h e n 等人首先将数据 挖掘技术应用于w e b 服务器日志文件,以期发现用户浏览模式。他们提出 了最大前向引用序列m f r 的概念,并用它将用户会话分割成一系列的事 务,然后采用与关联规则相似的方法挖掘频繁访问路径。h a n 等人则根据 w e b 日志建立数据立方体,然后对数据立方体进行数据挖掘和o l a p 。 m i n n e s o t a 大学的w e b m i n e r 系统给出了一种通用的w e b 日志挖掘的 体系结构,该系统能自动从w e b 日志中发现关联规则和访问模式等。这两 类方法均要进行用户识别和会话识别,而用户识别和会话识别都要受到本地 浏览器缓存、防火墙和代理服务器等的影响。具体实现时,基于w e b 事务 的方法采用复杂的h a s h 数据结构存储侯选项集,对其进行维护和搜索还会 增加额外的负载。 目前,已陆续有一些w e b 日志分析工具投入使用,而现有w e be t 志分 析工具( 如e x o d y 公司的w e b s u x e s s ,w e b t r e n d s 公司的l o g a n a l y z e r 等) 大多数都只是对w e b 日志中的数据进行简单的统计,如某一个u r l 的访问 哈尔滨工程大学硕士学位论文 次数和访问时间等,很少对日志中隐含的关系进行分析,更难较好地发现用 户的访问模式。为了挖掘访问模式,w c b 日志中的数据首先需要转换为若干 访问序列:此外,为了挖掘用户感兴趣的访问模式,减少挖掘和解释评价模 式的时间,访问模式挖掘还应能体现用户对模式的约束。如s i m o n f r a s e r 大 学的w e b l o g m i n e r 将w e b 日志中的数据组织为数据立方体,然后在其上进 行o l a p 和数据挖掘。由于w e b l o g m i n e r 不是专门针对访问模式的挖掘工 具,所以并没有考虑访问模式的特殊性。h u m b o l d t 大学的w u m 挖掘w e b 日志中的访问模式,并提供一个集成了日志准备、模式查询以及可视化的环 境,但其模式查询语言m i n t 在表达访问路径模式上的约束时不够灵活。由 此可见,现有的日志挖掘研究及分析工具都有尚待改进的地方。 1 3w e b 日志挖掘研究难点 从以上的分析可以看出w e b h 志挖掘的研究难点如下: ( 1 ) 数据收集。高质量的数据源是提高以其为基础进行挖掘分析质量 的关键因素。既要保护用户隐私,又要为网站的w e b 日志挖掘收集尽可能多 的个人信息是矛盾的;同样既要为了提高w c b 服务器的性能而提供页面缓冲 机制,又要使收集到的网站访问日志尽可能完整也是矛盾的。因此需要专门 收集数据的工具或技术。 ( 2 ) 用户会话识别。即如何将日志中的访问记录划分给不同的用户是 个难点。因为w e b 日志中通常不包含用户的标识信息,仅靠i p 地址是难以识 别用户的。同时若用户通过防火墙或代理服务器访问站点,则不同的用户请 求在日志中则表现为同- - i p 地址。当然还有许多用户使用同一台远程主机登 录w e b 服务器等的情况。这些都导致用户识别很复杂。目前的解决办法主要 是借助用户的注册和登录信息、c o o k i e s 、站点的拓扑结构以及一些启发式算 法。但是这些方法在某些情况下不能保证结果完全正确或难以实现。因此需 要新的用户会话识别技术。 ( 3 ) 模式发现技术。目前在模式识别过程中所用到的技术中,如关联 规则、序列模式和分类聚类算法的有效性和健壮性方面还有所欠缺。如何根 据具体的应用选择合适的算法,也是w e b 日志挖掘过程面临的一个重要问 题。 4 哈尔滨工程大学硕士学位论文 ( 4 ) 在模式分析方面,需要有能够帮助分析和解释挖掘出来的模式的 工具或技术,使得挖掘结果得到充分利用。同时需要开发更加智能化的分析 工具,对挖掘结果进行更深一层次的解释、分析和评价,它不仅能过滤已经 发现的访问模式、网站拓扑结构或从用户行为模式的基础上开发更加智能化 的分析工具,它可以建议改善网站的拓扑结构。最后还需要建立知识查询语 言用于对挖掘出的知识进行查询,从而更方便地利用挖掘得到的结果。 本文主要针对模式发现技术进行了研究和探讨,根据w e b 日志数据的特 点,提出一个基于时态约束的用户浏览模式挖掘算法,以推动w e b 应用研究。 1 4 论文的主要内容和组织结构 本文在广泛收集整理相关资料的基础上,首先,系统地阐述了w e b 数据 挖掘到w c b 日志数据挖掘的整个过程,然后,重点对w e b 目志中测览模式 挖掘算法进行了研究。在分析现有挖掘算法的基础上,结合w e b 日志的特点, 提出了一个全新的适用于w e b 日志的带有时态约束的浏览模式挖掘算法。该 算法简化了挖掘过程中候选模式的生成操作,只对数据库扫描一次,并且挖 掘出来的模式具有时效性,与类a p r i o r i 算法相比运行时间少,扩展性好,提 高了程序的运行效率。在此基础上,研究了带有时态约束的增量更新的挖掘 算法,能很好地适应w e b 日志的不断变化。最后,设计并实现了一个w e b 日志挖掘原型系统,以推动w e b 挖掘的应用研究。 具体内容安排如下: 第l 章简述了论文的选题背景和意义,综述了目前国内外w e b 日志挖掘 研究现状,分析了w 曲日志特点和挖掘难点,介绍了论文的主要研究内容及 组织结构。 第2 章介绍了w e b 数据挖掘的基本概念和方法以及一些常用的技术,然 后主要介绍了w e b 日志挖掘的一些基础知识、w e b 日志挖掘的过程、w e b 日志预处理技术、w e b 日志挖掘的应用、数据源以及国际化组织为w e b 日 志挖掘所专门定义的一些标准的概念。 第3 章介绍了w e b 日志中用户频繁访问模式挖掘的概念、挖掘过程和方 法,重点介绍了类a p r i o r i 挖掘算法,并对现有算法进行了分析。 第4 章在分析现有挖掘算法的基础上,结合w e b 日志的特点,提出了一 哈尔滨工程大学硕士学位论文 个全新的适用于w e b 日志的带有时态约束的浏览模式挖掘算法。在此基础 上,对现有的增量更新挖掘算法进行改进,增加了时态约束,能很好地适应 w e b 日志的不断变化。最后对算法进行了分析。 第5 章在前两章的基础上,初步设计了一个w e b 日志挖掘原型系统,本 系统采用v b 6 0 作为开发平台,在m i c r o s o f tw i n d o w s2 0 0 0 和m i c r o s o f t s q ls e r v e r2 0 0 0 系统环境上实现。 6 哈尔滨工程大学硕士学位论文 第2 章w e b 数据挖掘 2 1w e b 挖掘概述 互联网的迅速发展使之已经成为商业活动和信息传播的重要介质,但互 联网是巨大的、多样的和动态变化的。随着w e b 站点的规模和复杂度的增加, 站点设计和维护工作变得越发困难。网站设计人员竭尽全力优化自己的站点 以吸引和留住更多的用户,但是这必须依靠对网站信息的充分掌握。从站点 的经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴趣、 访问频度、访问时间动态地调整页面结构。改进服务,开展有针对性的电子 商务以更好地满足访问者的需求。从访问者来说,他们希望用最简洁的方式 得到最精确的信息,希望得到个性化的服务。而解决这两方面需求的一个有 利工具就是w e b 数据挖掘,即利用数据挖掘的思想和方法,在w e b 上挖掘 出有用的信息。因此,w e b 挖掘也就成为数据挖掘领域一个新的研究方向。 2 1 1w e b 挖掘的特点 与基于数据库或数据仓库的数据挖掘相比较,w e b 数据挖掘有自身的特 点 4 1 : ( 1 ) w e b 挖掘的对象是海量的、异构的和分布的文档,其中对w e b 服 务器上的日志和用户信息等数据展开的挖掘,属于传统的数据挖掘的范畴。 ( 2 ) w e b 在逻辑上是一个由文档结点和超链接构成的图,因此w e b 的 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。 ( 3 ) 由于w e b 文档是半结构化或无结构的,且缺乏机器理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据,并可利用关系表格等存储 结构来发现知识,因此有些数据库挖掘技术并不能直接的应用于w e b 数据挖 掘,需要对w e b 文档进行预处理。 数据挖掘的对象可以是数据仓库、各种文本数据、多媒体信息等,也可 以是w e b 上的数据。在w 曲上进行的数据挖掘,就是w e b 挖掘。w e b 挖掘 就是从与w w w 相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和 7 哈尔滨工程大学硕士学位论文 隐含的信息5 1 。 2 1 2w e b 挖掘的分类 按照挖掘对象的不同,可以将w e b 挖掘分为三大类:w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 访问信息 挖掘( w e bu s a g em i n i n g ) 。如图2 1 所示。 图2 1w e b 挖掘分类 ( 1 ) w e b 内容挖掘 w e b 内容挖掘是指对站点的w e b 页面内容进行挖掘。目前一些主要方 法包括:改进传统的w w w 搜索引擎;在w w w 上更智能地提取信息的搜 索工具;数据库方法是把结构化的w e b 信息重构得更结构化一些,然后就可 以使用标准化的数据库查询机制和数据挖掘方法进行分析;对h t m l 页面内 容进行挖掘,对页面中的文本进行文本挖掘,对页面中的多媒体信息进行多 媒体信息挖掘。 ( 2 ) w e b 访问信息挖掘 w c b 访问信息挖掘是对用户访问w e b 时在服务器方留下的访问记录进 行挖掘,即对用户访问w e b 站点的存取方式进行挖掘。挖掘的对象是在服务 器上的包括s e r v e rl o gd a t a 等在内的日志文件记录。目前流行的挖掘手段包 括:路径分析;关联规则和序列模式的发现;聚类和分类等。 ( 3 ) 结构挖掘 w e b 结构挖掘是对w e b 页面之间的链接结构进行挖掘。在整个w e b 空 间里,有用的知识不仅包含在w e b 页面的内容之中,而且也包含在页面的链 接结构之中。例如,如果我们发现一个论文页面经常被引用,那么,这个页 面一定是非常重要的。发现的这种知识可以被用来改进搜索引擎,如 r 哈尔滨工程大学硕士学位论文 p a g e r a n k 和c l e v e r 方法等。 基于这样的分类,可以看出w e b 挖掘的核心是数据挖掘和k d d 技术在 w e b 相关的数据源上的延伸。目前,国内外开始重点研究的是w e b 访问信 息挖掘,即通过挖掘w c b 服务器的日志文件等访问信息,来发现用户访问 w e b 页面的模式,从而可以进一步分析和研究日志记录的规律,来改进网站 的组织结构及其性能,构造自适应网站,还可以通过统计和关联分析,增加 个性化服务,发现潜在的用户群体,增强对最终用户的因特网信息服务的质 量和交付等。 表2 1 对w e b 内容挖掘、w e b 结构挖掘和w e b 日志挖掘中的数据特征、 表现形式、挖掘方法以及应用领域等方面进行了比较。 表2 1w e b 内容挖掘、结构挖掘和日志挖掘比较 w e b 挖掘 w e b 内容挖掘 w e b 结构 信息检索领域数据库领域 挖掘 w e b 日志挖掘 文本文档 w e b 服务器日志 数据超文本文档 链接结构p r o x y 日志 超文本文档 浏览器目志 数据特 非结构化 半结构化 w e b 站点看作是一个链接结构交互式数据 征 半结构化 数据库 无薛;f 有彦的单 数据表 词集合 对象交换模型( o e m )关系表 术语和短语图 示形式 概念,实体 关系曲线图 关系曲线 机器学习 t f i d e f 及变形专利算法统计 方法视器学习 i l p 专利算法关联规则及变形 统计( n l p )关联规则及变形聚类 序列模式 分类聚类 站点结构管理 应用领 寻找抽取规则 发现频繁子结构分类 及优化 域 寻找文本模式提取w 曲站点大纲聚类 网络销售 用户建模 用户建模 推荐系统 2 1 3w e b 数据挖掘的困难 面向w e b 的数据挖掘比面向数据仓库的数据挖掘要复杂得多,困难很多 0 3 。 9 哈尔滨工程大学硕士学位论文 ( 1 ) 异构数据环境 w e b 上的每一个站点就是一个数据源,每一站点之间的信息和组织都不 一样,因此,w c b 数据挖掘的数据源是异构的。如果要利用这些数据进行数 据挖掘,首先,必须研究站点之间异构数据的集成问题,只有将这些站点的 数据都集成起来,提供一个统一的视图,才有可能从巨大的数据资源中获取 所需的东西;其次,要解决w e b 的数据查询问题,如果所需的数据不能很有 效地得到,对这些数据进行分析、集成、处理就无从谈起。 ( 2 ) 半结构化数据源 w e b 数据源与数据库中的数据不同,数据库都有一定的数据模型,可以 根据模型来具体描述特定的数据。而w e b 数据非常复杂,没有特定的模型描 述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变 性。因而,w e b 是一种非完全结构化的数据,或称之为半结构化数据。 ( 3 ) 半结构化数据模型 w e b 数据挖掘首先要解决半结构化数据源模型和基于半结构化数据模 型的数据查询与集成问题。针对w e b 上的数据半结构化的特点,需要有一个 模型来清晰地描述w e b 上的数据。除了要定义一个半结构化数据模型外,还 需要与之相关联的一种半结构化模型抽取技术,即自动地从现有数据中抽取 半结构化模型的技术。 2 2 w e b 日志挖掘 随着w w w 技术的快速发展和时间的积累,w e b 服务器中w e b 日志文 件将越来越大,大型网站每天可以记录下数以百兆字节的w e b 日志记录。如 何对这些大量的w e b 日志记录进行自动分析清理存储并从中发现有用的、重 要的知识,包括模式、规则和可视化结构等是目前w e b 日志挖掘的主要任务。 w e b 日志挖掘是用挖掘w e b 服务器日志获取的信息来预测用户浏览行 为的技术,指从用户的访问日志中挖掘用户的访问模式。w e b 内容挖掘, w e b 结构挖掘的对象是网上的原始数据,而w e b 日志挖掘的数据来自于用 户在使用网络的过程中,即在用户和网络交互的过程中抽取出来的第二手数 据,这些数据包括:w e b 服务器的访问记录、代理服务器日志文件、浏览器 日志记录、用户注册信息、用户对话或交易信息等其它信息。现在研究较多 1 0 哈尔滨工程大学硕士学位论文 的是对w e b 服务器日志文件的挖掘,因为w e b 服务器日志存在完美的结构, 每当用户访问w e b 站点时,所访问的页面、时间、用户i d 等信息,在l o g 日志中都有相应的记录,因而对其进行信息挖掘是可行的。分析这些数据可 以帮助理解用户的行为,从而改进站点的性能和结构,或为用户提供个性化 的服务。 在技术实践过程中,一般先把日志中的数据映像成多种关系信息,对其 进行预处理,包括清除与挖掘不相关的信息等,然后,采用相应的挖掘方法 ( 如路径分析、关联规则、聚类分析等) 对日志数据信息进行模式发现,发 现的模式可以用来了解用户的行为,从而改进网络服务器系统的性能和结构, 为用户提供个性化服务。 2 2 1w e b 日志 2 2 1 1w e b 日志挖掘的数据来源 数据挖掘中一个关键的步骤是为数据挖掘收集和创建合适的目标数据集 合。w e b 上的信息异常丰富,但是并不能直接作为w e b 数据挖掘的对象,所 以需要对w e b 信息抽象出合适的数据模型。 用户访问w e b 过程如图2 2 所示。 图2 2 w e b 访问图 w e b 日志挖掘的数据对象主要分布于服务端、客户端和代理服务器中。 在w e b 服务器上,服务器日志记录了多个用户对单个站点的用户访问行为。 一些更为复杂的日志记录了多个用户对单个站点的交易行为,或提交的查询 行为。服务器方具有w e b 站点的完整的结构信息,电子商务交易信息等。在 客户端计算机上,客户端的代理记录了单个用户对单个站点或单个用户对多 哈尔滨工程大学硕士学位论文 个站点的用户访问行为。客户端的c a c h e 记录了用户访问内容。客户端的 b o o k m a r k 也记录了单个用户对单个站点的访问偏好。在代理服务器上,记录 了多个用户对多个站点的访问行为,同时代理服务器内部的c a c h e 内,也记 录了多个用户对多个站点的访问内容。因此,用户访问模式的挖掘有三种类 型:w e b 服务器端、客户端和代理服务器,根据挖掘的目的和应用方向,挖 掘的用户访问模式的侧重点也不尽相同。 w e b 日志挖掘的数据来源主要包括:w e b 日志( 包括服务器日志、引用 日志和代理日志) 、w e b 站点的拓扑结构和站点文件、用户的注册信息、用 户调查信息、c o o k i e s ,与站点服务相关的数据库数据以及其它一些信息等。 目前,w e b 日志挖掘的主要数据来源是w e b 服务器日志( w e bs e r v e r l o g ) , 因为它完整且详细地记录了网站访问者们的浏览行为。服务器日志中所记录 的数据反映了一个w e b 站点被多用户访问的模式,并具有良好的结构便于应 用数据挖掘技术。 2 , 2 1 2w e b 服务器常用日志格式 当用户浏览w e b 服务器时,服务器方将会产生一些日志文件( s e r v e r l o g ) ,这些日志记录用户访问的基本情况。 服务器方记录的日志反映出多个用户对单个站点的访问行为。根据w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 的h t t p 说明,w c b 服务器日志主要包括: u r l 、动作、资源的类型、资源的大小、请求的时间、在资源上停留的时间、 请求者的i n t e m e t 域名、用户、服务器状态等。其他的还有站点描述数据以及 概念层次,描述数据主要有站点拓扑结构的描述以及每个w e b 页上的元数据, 比如:页描绘记录,概念层次等。w e b 服务器日志记录了用户访问该站点时 每个页面的请求信息。日志记录的格式主要分为两种:公共日志格式c l f ( c o m m o nl o gf o r m a t ) 和扩展公共日志格式e c l f ( e x t e n d e dc o m m o nl o g f o r m a t ) 。其主要结构如表2 2 所示。 哈尔滨工程大学硕士学位论文 表2 2 服务器日志文件格式 域描述 日期( d a t e )页面被访问的日期 时间( t i m e )页面被访问的时间 客户口地址( c - i p )客户端主机的i p 地址或d n s 入口 用户名( c s - u s c m a m e )客户端的用户名 服务器名( s - c o m p u t e m a m e ) 服务器名称 服务器i p 地址( s - i p ) 服务器的i p 地址 服务器端口( s - p o r t ) 服务器的端口号 方法( c s m e t h o d )用户请求的方法,例如是g e t 或p o s t u r ! 资源( c s - u r i s t e m )用户所请求的页面 u r i 查询( c s - u r i - q u e r y ) 用户想进行的查询 协议状态( s c s t a t u s )返回h r r p 的状态表示,反映了访问的最后状态 ( 结果) ,典型的有,2 0 0 代表成功,4 0 4 代表找 不到所请求的页面 发送字节数( s o - b y t e s ) 服务器发送的字节数 接受字节数( c s - b y t e s ) 服务器收到的字节数 所花时间( t i m e - t a k e n )完成浏览器所花费的时间 协议版本( c s - v e r s i o n )传输用的协议版本 主机( c s - h o s t )服务器的操作系统 用户代理( c s ( u s e r - a g e n t ) ) 服务的提供者,表示客户机的浏览器的类型、版 本、以及所运行的操作系统等 c s ( c o o k i c ) c o o k i e 标识号 参照( c s ( r e f e r e r ) ) 用户浏览的上一页 在日志文件中,每条记录被称作项或条目。其中:客户端地址( c i p ) 是发出请求的客户端的i p 地址,在p r o x y 代理服务器的环境下为代理服务器的 i p 地址。用户标识符( c s u s e r n a m e ) 域一般不填写,只有当存取特定的文件, 需要鉴别身份时才需要。时间戳( d a t e o ft i m e ) 表示w e b 服务器接受该请求 的时间,在整个日志文件中,每一个项以时间戳递增排列。方法域( c s m e t h o d ) 包括请求方法,有些还记录所采用的协议如h t r p 或f t p 等,其中请求的方法 有:g e t ,p o s t ,h e a d ,g e t 从w c b 服务器得到对象;p o s t 向w e b 服务器发 送信息;h e a d 仅请求一个对象的h t t p 头。请求的u r i 或者为服务器上文件 哈尔滨工程大学硕士学位论文 系统上的一个静念的文件,或者为一个响应该请求的将要被调用的可执行程 序。u r i 查询是用户查询所需要的信息时在服务器端产生的记录。需要说明 的是u ( u n i f o r mr e s o u r c ei d e n t i f i e r ) 是一个比u r l ( u n i f o r mr e s o u r c e l o c a t o r ) 更通用的定义,而且前者包括后者。状态域由w e b 服务器设置指示 出响应该请求的行为:从2 0 0 到2 9 9 的代码一般指示成功响应;从3 0 0 到3 9 9 表 征某种程度的重定向;从4 0 0 至u 4 9 9 指示错误;从5 0 0 至0 5 9 9 表示w e b 服务器有 问题。常见的错误代码是4 0 4 ,其指示被请求的文件没有被找到。返回大小域 ( s i z eo rb y t e s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江省商务究院实习人员招聘笔试备考题库及答案解析
- 2025浙江金华市武义县司法局招聘4人笔试参考题库附答案解析
- 2025云南省丽江市玉龙纳西族自治县幼儿园招聘公益性岗位教师(3人)笔试备考试题及答案解析
- 养殖业标准化建设方案
- 2025新疆兵团粮安储备粮管理有限责任公司招聘19人考试含答案
- 2025西安国际港务区陆港第七小学招聘笔试备考试题及答案解析
- 2025年铁岭银行见习生招聘50人考试备考试题及答案解析
- 2025年体育专业中级运动防护师考试真题附答案
- 2025年事业单位工勤技能-广东-广东计算机文字录入处理员五级(初级工)历年参考题库含答案解析5套
- 2025年学校公共卫生管理实务案例分析答案及解析
- NPI工程师培训资料
- 食品新产品开发 课件 第三章 食品新产品开发配方设计
- 2024年射频同轴电缆组件行业技术趋势分析
- 外阴溃疡护理查房课件
- 个人工资表表格
- 老年人能力评估师高级第六章-需求评估
- 架桥机检验报告
- 人教版八年级数学下册课件【全册】
- 溶气气浮机安全操作及保养规程
- 质量管理体系内部审核检查表
- 论文-中学生青春期心理教育
评论
0/150
提交评论