(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf_第1页
(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf_第2页
(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf_第3页
(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf_第4页
(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于关联规则的web日志挖掘研究及在电子政务中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 摘要 w e b 日志记录了用户对w e b 站点访问信息,保存有大量的路径信息,对这类信息的分 析有利于网站设计人员掌握用户的喜好和访问习惯,并可以为网站的结构优化和页面重组 提供帮助。日志数据的分析可以通过统计数据的形式,比如统计经常被访问的页面集、统 计经常需要分析的重要表格数据、分析网站找出一般的访问路径模式等。w e b 日志挖掘就 是运用数据挖掘的思想来对服务器同志进行分析处理,从而解决上面提出的各种问题。 本文首先对w e b 数据挖掘和w e b 日志挖掘进行了研究,指出了其具体内容和二者的关 系,同时对w e b 日志的预处理进行了分析研究,描述了面向电子政务的点击流数据预处理 方法,设计了相关的数据库表和实施预处理的流程算法。通过对经典f p - g r o w t h 算法进行 分析,提出了f p - g r o w t h 关联规则挖掘的改进算法,通过性能比较,指出改进算法的性能 在时间上得到了提高。论文进一步讨论了在原有先锋电子政务系统的基础上,将数据挖掘 中关联规则f p - g r o w t h 的改进挖掘算法应用到电子政务w e b 日志挖掘系统中。经过对关联 规则算法的研究和改进,采用了改进的f p - g r o w t h 算法对经过数据预处理的点击流数据进 行了挖掘,并分析挖掘结果,指出网站结构的不足,从而对网站结构建设及政务系统的改 进提出意见。 在论文总结展望部分,讨论了目前研究工作中需要进一步完善的问题,指出了今后的 研究方向。 关键字:w e b 日志;点击流;数据挖掘;f p g r o w t h 算法;电子政务系统 a b s t r a ct w 曲1 0 9 舢r d st h eu s e r s i n f o r m a t i o nw h o v i s i t st h ew e bs i t e ,i tc o n t a i n sm a s s l v er o u t m g i n f o n i l a t i o n t oa n a l y s i st h e m i sb e n e f i c i a lt og r a s pt h eu s e r s f o n d n e s sa n d v i s i th a b i t ,觚dm a y b eu s e 龟lt ot h ew e b s i t es t r u c t u r e so p t i m i z a t i o na n dr e o r g a n i z a t i o n a n a l y z i n gl o g d a t af o i l o w s s e v e r a lw a y s ,f o re x a m p l e ,w ec a l lc o u n td a t af o r m ,s t a t i s t i cp a g e s c o l l e c t i o nb e i n go f t e nv i s n e d c o u 【n tm ei m p 嘣a n tt a b l ed a t ao f t e nn e e d sa n a l y z e d ,a n df i n d o u tt h es a m ev i s i tr o u t eb y a n a l y z i n gw e b s i t e w e bl o gm i n i n gi st h ea n a l y s i sa n dp r o c e s s i n g t ot h es e n ,e ri o g 嘲n g 也e d a t am i n i n gt h o u g h t , s o ,i tc a n s o l v ee a c hk i n do fp r o b l e r o sp r o p o s e da v e f 奴l y ,m sp a p e fi n t r o d u c e st h ew e b d a t am i n i n ga n dw e bl o gm i n i n g ss p e c i l j i cc o n t c i l t s a sw e l la sm e i r sm 锄b e r s h i p ;m e a n w h i l e ,i th a sc a r r i e do nt h ea n a l y s i sa n d t h er e s e a r c ho n 搬e w e b1 0 9m i n i n g t sp f e t r e a 觚e n tt e c h n o l o g y , d e s c r i b e d e a c hd u t yo ft h et r a d i t l o n a ld a t a d f e 骶a 仃i l 锄ts t a g e s a n dd e s i g n e d r e l a t i v ed a t a t a b l e s a n d p r c 订e 捆e n t t l o w a l g o 矗m m s e c o n d l y ,t h ep a p e rd e s c r i b e st h ed a t am i n i n g sf u n c t i o na n da l g o n t l l n l sc o m m 鲫 1 l s e d ,咖d i e sf p 鲫w ma l g o r i t h mw i t he m p h a s i si n t h ea s s o c i a t i o nr u l e ,a n dc o m p 嬲t | l e p e 墒肌a l l c em 嘶t sb e m e e 芏lf p g r o w t ha n da p f i o f i t ya l g o r i t h m a f t e rt h a t ,t h e p a p e fh a s c 枷e d0 nt l l ea 1 1 a l y s i st ot h ec l a s s i c sf p g r o w t ha l g o r i t h m ,p r o p o s e da n e wi m p r o v e da l g o r i t h m t i l r 0 1 l 出t h ee x p 丽m e n tc o n t r a s t ,i tp o i n t so u tt h a tt h ei m p r o v e da l g o r i t h mh a s s a v e d 廿l et l m e w i t hh i g h e rp e r f o r m a n c e t h i r d l y , b a s e do l lt h eo r i g i n a la h e a de 。g o v e r n m e n ts y s t 锄s ,t h ep a p e r d i s c u s s e st h ea p p l i c a t i o no ft h ei m p r o v e dm i n i n ga l g o r i t h mi nt h ee g o v 锄m 耐w e bl o g m i n i n gs y s t 唧1 1 1 r o u 曲r e s e a r c ha n di m p r o v e m e n to n t h ea s s o c i a t i o nr u l ea l g o r i t h m ,t h ep a p e r u s e sm ei m p r o v e df p g r o w t ha l g o r i t h mt oc a l t yo nt h ed a t am i n i n gt o t h ec l i c ks t r e 锄d d t a p 代舭a t c d ,a r i da n a l y z e st h em i n i n gr e s u l t s a c c o r d i n g l y , g i v i n ga d v i c et ot h ew e b s l t e 栅帆 c o n s t r u c t i o na n dt h eg o v e r n m e n ts y s t e m si m p r o v e m e n t i i lm e 鳓i m m a r y 姐df o r e c a s tp a r t s ,i td i s c u s s e st h e i s s u e sw h i c hn e e dt ob em 吡e r p e 彘c t e di nt h ep r e s e n tr e s e a r c hw o r k ,a n dp o i n t so u tt h ed i r e c t i o no f f u t u r er e s e a r c h k e yw o r d s : w e bl o g ;c l i c ks t r e a m ;d a t am i n i n g ;f p g r o w t ha l g o r i t h m ;e - g o v e r n m e n ts y s t 鼬 l i 首都师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取 得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰 写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 日期 g 只 酶 首都师范大学学位论文授权使用声明 本人完全了解首都师范大学有关保留、使用学位论文的规定,学校有权保留学位论文 并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位论文用于非赢利 目的的少量复制并允许论文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据 库进行检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规 匙一躲七豫 学位论文作者签名:参垅冗 日期:厶妊崩,如 穆 一坪 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 1 1 研究背景和意义 1 1 1 研究背景 第1 章绪论 本课题是在国家信息产业部电子发展基金项目和国家计委重大软件产业化资助项目 资助的r 政务通机关办公软件下进行的。 “政务通”是基于完整国产软硬件体系的电子政务平台软件,在j 2 e e 技术架构下采 用j a v a 语言开发,其各功能模块可采用组件方式定制;采用的技术符合我国国家电子政 务建设的安全规范和标准。 “政务通”软件针对机关办公的实际需求开发,融入了管理党政机关的思路和机关动 作的机制,突出了党政机关特色,符合机关管理的实际,具有实用性、整体性、便捷性、 客观性特点。 目前,电子政务的内涵及外延都在发生改变。整个电子政务系统从需求上可以分为两 大部分:综合门户系统和政府政务系统。前者是面向公众的一个窗口,通过门户系统方便 企业或市民办事;通过后者可以在政府内部建立一个信息共享、办事流程自动运转的高效 协作协调体系。门户系统是整个电子政务系统的基础,体现了政府为民服务的基本思想, 社会的需求驱动了政府机器的运转。 随着信息技术在政务领域的广泛应用,利用计算机技术、网络通信技术和i n t e r n e t 来 建立一个电子政务网站并不困难,困难的是如何让电子政务网站更好的吸引社会大众和企 业市民,更好的起到为民服务的目的。社会大众能够通过政府网站及时的了解政府信息和 便民服务窗口的措施,通过在线服务进行信息的反馈;企业决策者也可以及时准确的关注 政府的法律条款和改革措施,从而更有针对性的调整本企业公司内部的战略决策,更好的 通过政务窗口给政府反馈信息。这样一来,电子政府网站就比以前的一个仅仅是信息公告 的网站更具有针对性和互动性,因为用户只要晃动鼠标和少量的文字输入就可以参与政府 的一些事务。如何更好的吸引社会大众和企业市民,已经成为考核政务工作效率和工作业 绩的一个关键指标。 政府在新的机遇和挑战的面前,就应该充分利用电子政务网站用户点击网站产生的海 量数据进行分析,并根据分析结果做出正确的决策,及时调整政务发布、政务互动、经济 贸易、信访窗口等网站信息,以适应社会需求的不断变化。对用户的网络行为进行分析, 能够为政府的网站建设和政务建设提供决策支持,而点击流数据就是记录用户登录网站后 的一系列网络行为信息,它一般存储在w e b 日志文件中,通过对这些w e b 日志中的点击流 数据进行数据挖掘,把握社会民众和企业的兴趣所在,可以为电子政务提供决策支持。 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 1 1 2 理论及实际意义 1 1 2 1 理论意义 随着互联网的不断发展和网络应用的普及,人们逐渐不满足于仅仅关注w e b 信息系统 的业务信息记录,更倾向于深层次地关注网络用户在w e b 上的各种行为,通过分析用户的 行为信息,改进信息系统的服务质量,以提供更加个性化的服务。因而对用户网络行为的 捕捉、分析和应用也在不断进行。 基于w e b 的应用系统都是通过互联网进行的,用户通过浏览器登陆w e b 服务器,通过 点击各种链接,浏览资源( 文字、图片、影像) 、提交、复制等各种行为,同时留下用户 的访问记录。从数据流的角度而言,这种用户点击网站的行为访问记录,一般称之为点击 流( c i i c k s t r e a m ) 数据。点击流( c i i c k s t r e a m ) 从字面意义理解就是每个访问者在站点 所作动作的记录。典型的点击流如服务器同志数据等。 对于点击流的收集,通常采用的方法是通过w e b 服务器的同志文件进行的。由于w e b 服务器忠实而详细的记录了每个用户的访问资源名称、访问时间,通过配置还可以记录更 多的用户细节,因而日志文件成为w e b s i t e 行为的原始而又丰富的记录数据。 点击流数据和政务的信息这两种数据源结合起来将产生海量数据,希望从这些数据集 合中获取有价值的模式或信息,必须结合数据挖掘算法进行。w e b 挖掘指使用数据挖掘技 术在w w w 数据中发现潜在的、有用的模式或信息。 1 1 2 2 实际意义 随着时代的进步,信息技术和网络科技的发展同新月异,以互联网为代表的信息科技 得到了前所未有的发展,传统的政府管理模式也越来越落后于时代的发展。为了在新一轮 的国际竞争中占据有利地位,许多国家都将电子政务的建设作为增强国家竞争力的一项手 段。 电子政务( e g o v e r n m e n t ) 一词是相对于传统政务( g o v e r n m e n t ) 而言的,是快速发展的 现代电子信息技术与政府改革相结合的产物。它应用现代化的电子信息技术和管理理论, 对传统政务进行持续不断地革新和改善,以实现高效率的政府管理和服务。 我国的正式的电子政务建设起步尽管比较晚,但发展迅速。1 9 9 8 年1 1 月,我国国家信 息产业部开始在全国启动“政府上网工程 。经过一年的快速发展,“政府上网工程 第一 阶段目标已基本实现,绝大部分政府部门都已建立互联网站,7 0 以上的地市级政府在网上 设立了办事窗口。2 0 0 2 年7 月3 日,国家信息化领导小组又通过了我国电子政务建设指 导意见,给我国电子政务今后的发展指明了方向。:意见实施以来,我国电子政务系统 取得了飞速进展,以金字为代表的多项工程取得了突破性进展。 我国电子政务信息系统大多以网络( 互联网、局域网) 为平台,使用b s 架构,在服务 器上放置政务信息系统。这些政务信息系统在网络连接上,既有完全在局域网内运行的内 2 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 部企业应用,也有连接i n t e r n e t ,开展互联网业务的公共应用,但更多的是 i n t r a n e t i n t e r n e t 两种类型的应用。政府办公人员通过浏览器登陆政务系统,在线处理 各种政务信息,在互联网上则表现为一个门户网站,为公众提供信息服务。 随着电子政务的深入开展,越来越多的人开始在网络上办公和使用在线政务处理。电 子政务信息系统作为社会公共服务的基础信息设施,承担了越来越重的压力。为了更好的 发挥电子政务的社会公共服务功能,需要对用户的网络行为进行必要的记录和分析,改进 系统的不足,提供更为优质的服务。 通过对用户网络行为分析,分析电子政务系统中用户的主要行为特点( 登录时间、页 面驻留时间、页面) 和行为路径,能够优化电子政务信息系统的网页布局,提高信息发布 的有效性、准确性;同时使得网络上的用户行为透明化,能提高系统的审计水平,增强系 统的安全性;另外,对单个用户的行为分析,能够明确当前用户的信息需求情况,从而更 加个性化的信息服务。 1 2w e b 日志挖掘的现状 通过使用w e b 日志文件,可以进行一些研究工作,如系统性能分析,通过w e b 缓存改 进系统设计;通过w e b 页面预取交换,认识w e b 信息访问的性质,理解用户的反映和动机, 而且还有助于建立针对个体用户的定制w e b 服务。 从研究的角度,现有的基于w e b 服务器同志数据的研究大致可以分为三个方向晗1 :( 1 ) 理解用户意图;( 2 ) 改进系统设计;( 3 ) 分析系统性能。由于它们实现的功能不同,采取的 主要技术也不同。 以理解用户意图为目标的研究,一般是通过算法从w e b 服务器日志中找出频繁的用户 访问路径或访问模式。这些都是为了从大量的w e b 日志数据中找出一定的模式和规则。 以改进系统设计为目标的研究,由于w e b 服务器的设计与建设的主要复杂性随着设计 者及用户的变化而不断自我调整,研究如何以日志数据为依据,对w e b 服务器的组织和表 现形式进行调整,从人机交互和软件a g e n t 领域提出a d a p t i v ew e bs i t e 的概念,在技术 手段上与数据挖掘技术有某些交叉和重叠。 以分析系统性能为目标的研究,主要是从统计学的角度,对日志数据项进行多种简单 的统计,如频繁访问的网页,单位时间访问数,访问数据量随时间分布图等。目前己有的 绝大多数商用及免费的w e b 日志分析工具都属于这种类型,这些工具的用户一般是w e b 服 务器的管理者。通过这些统计数据,管理员可以对w e b 服务器作相应的调节,如缓冲设置, 镜像站点设置等。更进一步,如果将w e b 日志视做关系表,利用数据挖掘技术还可以发现 许多有价值的信息,如利用关联规则可能发现用户所在地区与某被访问页面间的关系。此 外,许多数据挖掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于w e b 日志 的分析,帮助管理员发现用户的访问规律。 目前,w e b 日志挖掘方法主要有两种。c h e n 等人首先将数据挖掘技术应用于w e b 服务 3 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 器日志文件,以期发现用户浏览模式。他们提出了最大前向引用序列肝r 的概念,并用它 将用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁访问路径。h a n 等人则根据w e b 日志建立数据立方体,然后对数据立方体进行数据挖掘和o l a p 。m i n n e s o t a 大学的w e b m i n e r 系统提出了一种通用的w e b 日志挖掘的体系结构,该系统能自动从w e b 日志中发现关联规则和访问模式等。 所以说,w e b 日志挖掘方法可以分为以c h e n 为代表的基于w e b 事务的方法和以h a n 为 代表的基于数据立方体的方法。这两类方法均要进行用户识别和会话识别,而用户识别和 会话识别都要受到本地浏览器缓存、防火墙和代理服务器等的影响。具体实现时,基于w e b 事务的方法采用复杂的h a s h 数据结构存储侯选项集,对其进行维护和搜索还会增加额外 的负载。 目前已陆续有一些w e b 日志分析工具投入使用,而现有w e b 同志分析工具( 如e x o d y 公司的w e b s u x e s s ,w e b t r e n d s 公司的l o g a n a l y z e r 等) 大多数都只是对w e b 同志中的数据 进行简单的统计,如某一个u r l 的访问次数和访问时问等,很少对同志中隐含的关系进行 分析,更难较好地发现用户的访问模式。为了挖掘访问模式,w e b 同志中的数据首先需要 转换为若干访问序列;此外,为了挖掘用户感兴趣的访问模式,减少挖掘和解释评价模 式的时间,访问模式挖掘还应能体现用户对模式的约束。研究表明,现有数据挖掘产品( 如 s a s 的e n t e r p r i s e m i n e r ,o r a c l e 的d a r w i n ,i b m 的d b 2 i n t e l li g n t m i n e r ,c o g n o s 的 s c e n a r i 等) 都不能完成w e b 同志数据转换的任务;而在访问模式挖掘方面,它们或者不能 挖掘访问模式,或者只能挖掘简单的访问模式,都不能体现用户对访问模式的约束。如 s i m o n f r a s e r 大学的w e b l o g m i n e r 将w e bf 1 志中的数据组织为数据立方体,然后在其上进 行o l a p 和数据挖掘。由于w e b i o g m i n e r 不是专门针对访问模式的挖掘工具,所以并没有 考虑访问模式的特殊性。h u m b o l d t 大学的w u m 挖掘w e b 日志中的访问模式,并提供一个集 成了日志准备、模式查询以及可视化的环境,但其模式查询语言m i n t 在表达访问路径模 式上的约束时不够灵活。因此现有的日志挖掘研究及分析工具都有尚待改进的地方。 1 3 本文研究的主要内容 本文首先介绍了论文的研究背景、研究意义以及w e b 日志挖掘的国内外研究现状,综 述了点击流数据和w e b 日志文件的相关内容;介绍了w e b 数据挖掘的定义、特点、挖掘的 对象及其分类;详述了w e b 日志挖掘的一些基础知识、w e br 志挖掘的具体过程、w e b 日 志挖掘的应用领域;同时对w e b 日志挖掘中的数据预处理技术迸行了分析与研究,详细分 析了传统的数据预处理阶段中的各项任务,设计了预处理过程中相关数据库表和预处理流 程算法。 其次介绍了数据挖掘的功能和数据挖掘中所涉及到的常用经典算法,重点研究了关联 规则中的f p g r o w t h 算法,并用实验方法对f p g r o w t h 算法和a p r i o r i 算法做了比较,指 出二者性能的优劣。同时对其经典f p - g r o w t h 算法进行了剖析,指出它仍存在一些不足, 4 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 从而提出了f p - g r o w t h 的改进算法,通过增加标识位t a g 域和尾链t a i l 域的的逆向构造 频繁模式树的方法来提高f p - g r o w t h 算法的执行效率,节省了时间。 最后,本研究在简述了w e b 日志挖掘的概念、研究内容、关键技术和改进算法的基础 上,针对某市政府门户网站的访问日志,将改进的f p g r o w t h 算法应用到数据挖掘中,对 日志数据进行分析研究,从而找出网站的布局结构的不足以及用户访问规律和习惯,为改 进网站结构和更好的构建电子政务系统提供了决策支持。 本人所做的主要工作是: ( 1 ) 对w e b 日志的预处理进行了分析研究,并描述了面向电子政务的点击流数据预处 理方法,设计了相关的数据库表和实施预处理的流程算法。 ( 2 ) 通过对f p - g r o w t h 算法进行性能分析,同时和a p r i o r i 算法进行性能比较,提出 f p - g r o w t h 关联规则挖掘的改进算法,通过性能比较,指出改进算法的性能在时间上得到 了提高,并介绍其设计实现和应用实例。 ( 3 ) 根据f p - g r o w t h 改进算法,将其应用到数据挖掘工具中,利用改进后的挖掘工具 对某市政府网站日志进行挖掘,根据挖掘结果分析网站的不足,给出针对该市政府门户网 站和政务系统建设的改进建议。 吖 ( 4 ) 本文提出的点击流w e b 同志挖掘系统是在电子政务系统平台的基础上开发的,利 用该电子政务平台及其在政府机关的投入使用,可以验证本文的w e b 同志挖掘系统的可行 性。 1 4 本文的章节结构 本文共分七章,各章主要内容为: 第1 章绪论,阐明了本文选题的背景和研究意义,并对题目相关领域的国内外研 究现状进行综述,最后说明了论文的研究内容,即本人的主要工作和论文 的结构安排。 第2 章从点击流的基本概念出发,详细论述了点击流的概念、作用、基本格式以 及实现方法,并讲解w e b 服务器的几种日志文件以及日志文件的不同格式。 第3 章详细讲述了w e b 挖掘的定义、特点、对象、分类等内容。同时介绍了w e b 日志挖掘的定义、应用领域及挖掘过程,从中可以看出w e b 挖掘和w e b 日 志挖掘之间的关系。 第4 章介绍了点击流数据预处理的必要性和一般过程,以及面向电子政务的预处 理数据相关库表的设计和实施预处理的算法。 第5 章介绍了关联规则的基本概念和挖掘算法,并对经典的挖掘算法a p r i o r i 和 f p - g r o w t h 进行分析示例,提出f p - g r o w t h 关联规则挖掘的改进算法,进而 研究了改进算法的设计与实现,并讨论了其应用实例,通过其与原始 f p - g r o w t h 算法的比较,指出改进算法具有更高的性能,在时间上得到了 5 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 第6 章 第7 章 提高。 首先介绍了w e b 日志挖掘系统的应用背景先锋电子政务系统,其次介绍 系统的体系结构和功能模块,最后将改进算法应用到挖掘工具中对某市 政府网站的点击流数据日志进行分析,通过挖掘结果提出改进意见。 总结与展望,并提出下一步的研究工作。 6 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 2 1 什么是点击流 第2 章点击流综述 点击流是指用户在网站访问的过程中所留下的行为踪迹,它不仅包括用户浏览的每个 站点、每个页面,在页面上滞留的时间以及点击的链接和图片,还包括浏览页面的顺序以 及用户参与的新闻组和收发邮件等信息。 “点击流 有广义与狭义之分。广义的“点击流一就是用户在i n t e r n e t 上的一系列 点击活动,而狭义的“点击流”则是用户访问某一站点的一系列点击活动n 1 。本文所指的“点 击流”是一种狭义的“点击流”,特指站点“点击流”,是用户在页面上的各种与浏览器的 交互行为,如键盘输入、鼠标点击、双击、滚轮转动等,用户的这些行为引发了浏览器和 服务器之问的数据交换,从数据流的角度看,这些行为都引发了一系列的数据流动,因而 点击流就是用户在页面上的各种交互行为遗留的数据。 点击流是用户在页面上的各种行为的数据体现。在用户上网过程中,用户不可避免的 要同浏览器交互,一个典型的案例就是: 用户打开浏览器后,在地址栏输入删s i n a c o m 或从收藏夹中选择新浪的网址,等 待新浪首页完全载入后,用户转动鼠标或键盘上下键,寻找感兴趣的超级链接;点击超级 链接,进入新的页面查看具体内容:如果用户在新的页面发现比较有兴趣的内容,则用户 还会在新的页面继续点击链接,进入下一级页面继续浏览网页内容:如果看完本窗口链接 后还希望看其他的内容,则关闭这个页面后返回父窗口继续浏览 在这个过程中,用户的鼠标滚轮的滚动、点击、双击等动作都会有遗留下相应的数据, 如滚轮转动的大小、点击时的页面位置、点击的标题等,这些都属于数据流的概念。 同时,在用户浏览网页过程中,基于不同的用户阅读习惯和阅读方式,一些用户在阅 读文字内容时,会习惯性地、不自觉地用鼠标选择一些文字( 关键字) ,另一些用户则会 使用鼠标滚轮阅读;还有一部分用户则直接拖拽上下滚动条作快速阅读。阅读完后用户也 会有不同的动作,有些用户会复制拷贝内容,将这些内容存储到本地;另外一些用户则可 能会点击右键来查看网页的源文件等。在上述这些用户的上网行为中,鼠标选中的关键字、 鼠标滚轮滚动的大小、用户在页面上的复制粘贴内容,点击鼠标右键等,也都可以看作 是点击流。可以看出,点击流数据包括的用户行为十分广泛,包括:滚动网页滚动条、点 击链接、点击按钮、键盘输入、通过键盘或鼠标的复制粘贴、鼠标选择等。这些行为都会 留下行为记录数据信息,这些信息都称之为点击流数据。 点击流是用户与页面交互时的数据,是用户行为的体现,反映了用户的兴趣和意图, 是分析研究用户最有价值的资料。点击流忠实记录了用户的各种行为,尤其是某些体现用 户兴趣的个性化行为( 前面提及的用户用鼠标选择的关键字、复制的内容等) ,体现了用 户的个性化需要,对于用户群体划分,及早发现潜在有价值的用户、新闻推广和商业广告 7 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 宣传等有重要意义;同时,点击流分析对网站的建设起到一定的指导作用,能增强网站的 黏着度;对这些数据深层次分析能够使网站改善客户关系、培养顾客忠诚、增加网上销售 和提高服务质量。并且这些数据都是真实可信的,比目前网络上的各种投票等数据源更加 有信度。 w e b 服务器日志文件记录了网站上每个用户的每一次点击,为我们带来了新的、大规 模的数据资源,我们称之为点击流( c l i c ks t r e a m ) 。所以对点击流的研究,也就是对w e b 服务器日志分析和挖掘的过程。 2 2w e b 服务器日志 w e b 服务器文件包括服务器r 志文件( s e r v e rl o g s ) 、错误同志文件( e r r o rl o g s ) 和c o o k i e 日志文件( c o o k i el o g s ) 心1 。 服务器同志文件( s e r v e rl o g s ) :用户每在一个w e b 站点浏览一个页面时,w e b 服务 器就会向日志文件中写入一条或多条有关网页浏览数据的记录。通常应用于w e b 服务器中 的同志文件格式有很多。但大多数常用的w e b 服务器软件都可以根据三种公开的标志r 志 文件格式中的一种来记录日志文件。这三种开放格式是:n c s a 的普通同志格式( c l f :c o m m o n l o gf o r m a t ) ,n c s a 的扩展同志格式( e c l f :e x t e n d e dl o gf o r m a t ) 和w 3 c 的扩展同志格式 ( e x l f :e x t e n d e dl o gf i l ef o r m a t ) 。 n c s a 的普通r 志格式( c l f :c o m m o nl o gf o r m a t ) 这种格式的同志文件有7 个部分,在时问上它们是以天为单位的。如下所示的各个域 名都是n c s a 的c l f 格式中的域名。如果对于w e b 服务器的特殊域来说有数据是不可用的 话,那么w e b 服务器将在这个空域上标上短横线。 远程主机( r e m o t e h o s t ) 域。这是提交请求的用户主机名。在登录时,如果w e b 服务器 在记录来访者时不进行名字解析的话,将要求日志文件来保存这个客户机的i p 地址。因 为考虑到解析名字的开销,大多数w e b 服务器会将i p 地址写入日志。 r f c 9 3 1 域。这个域保存的数据通过系统识别后作为标识符的用户远程登录名。当来自 多用户系统时,他几乎总是一个“一一符号。 授权用户域( a u t h u s e r ) 。如果被客户端正在请求的文档在w e b 服务器上有密码保护, 那么此域将保存用户的登录名。 日期域( d a t e ) 。日期域保存相应请求的日期和时间。 请求域( r e q u e s t ) 。指来自客户端的h t t p 请求到达后为这个请求建立第一次链接。如 果这个请求文件存在的话,这个域将确定这个被请求文件的u r l ,以及获取这个文件的方 法。 状态域( s t a t u s ) 。状态域保存状态代码,这个代码可以说明这个文件是否被请求者成 功获得。如果没有成功获得的话,将返回错误信息。 字节域( b y t e s ) 。字节域表示已经传送的实际的字节数。对于一次成功传送来说它就 8 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 等于这个文件的大小,其中不包括h t t t p 的头信息。 如下表2 - 1 是从w e b 日志中截下的一条普通日志格式记录: 表2 - 1n c s a 普通格式的日志记录 通过分析这条日志记录,可以得到如下信息:( 1 ) 登陆到网站的用户是l i n ;( 2 ) 用户的 i p 是1 9 2 1 6 8 6 2 7 7 ;( 3 ) 用户从登陆i p 地址处获得文件i n d e x j s p ;( 4 ) 用户登录时间是 2 0 0 7 年8 月2 号1 8 :1 0 :2 0 ;( 5 ) 一共传输1 0 0 个字节;( 6 ) 状态码2 0 0 表示操作成功。 n c s a 的扩展日志格式( e c l f ) n c s a 的扩展f 1 志格式,也叫组合日志格式,和c l f 格式基本一样。只是在e c l f 的格 式的记录后面增加了参考域( r e f e r r e r ) 和用户代理域( a g e n t ) 。 r e f e r r e r 域保存了用户此刻点击进入当前页面的u r l 。如果不存在这个连接,就在此 域里保存一个“一”号。这个域的数据实际上是从 i t t p 头部的r e f e r r e r 域提取出来的, 这个包含r e f e r r e r 的h t t p 伴随着页面请求一同发送。通过跟踪r e f e r r e r 域可以看到用 户通过站点的途径。 a g e n t 域保存了发送请求的w e b 浏览器的名字和版本。这些信息来源于h t t p 头部的用 户代理域。如果用户没有传送这个客户代理信息的话,就保存符号“一”。这个域的用途 主要有两个:有助于对特定的浏览器做页面优化,再就是有助于消除用户浏览网站自动弹 出的页面。 w 3 c 的扩展日志格式( e x l f ) w 3 c 是万维网标准委员会的简称,它所有的规范以在线形式存在w w w w 3 c o r g 。e x l f 是最复杂的标准日志格式。它是唯一的一种能够制定那些特殊的域写入同志标准化日志文 件。而且它提供更详细的可选域的集合。正是这种灵活性使得e x l f 被很多各种各样的软 件使用,包括防火墙、缓存服务器以及其他一些应用软件。 为了确定什么别写入日志,一个e x l f 日志文件包括两种不同的记录类型。第一种记 录类型是指令型记录,它包括日志文件内容的元数据。第二种类型是数据记录,包括被日 志文件实际记录的数据域。 日志文件中以“# 一开头的一行是指令,这条指令提供有关日志文件的记录或关于日 志文件本身的一些信息。有两条指令是必需的,而且一定要在一个日志文件的开头出现, 这两条指令是v e r s i o n 和f i e l d s 。表2 - 2 描述了这些指令的使用: 表2 2w 3 c 扩展日志格式指令使用 域描述 v e r s i o n f i e l d s s o f t w a r e s t a r t - d a t e e x l f 使用的版本 在日志文件中出现的空白域列表 生成日志的软件 日志开始的日期和时间 9 基于关联规则的w e b 日志挖掘研究及在电子政务中的应用 e n d d a t e d a t e r e m a r k 日志结束的日期和时间 在日志中加入条目的时间 软件或管理软件的人员在日志中的注释部分 e x l f 确定的日志格式可以被定义成一个域的集合,而不是定义一种固定的格式,为了 使数据更加有意义,可以在参与者的类型中确定传输者的日志。例如:可以选择将服务器 发送给客户机的r e f e r r e r 头写入同志,同样也可以将客户机发送给服务器的r e f e r r e r 头 写入日志。下表2 - 3 列出了w 3 c 扩展日志格式的所有可用的域前缀。 表2 - 3w 3 c 扩展日志格式的所有可用的域前缀 前缀含义 客户端 服务器端 远程服务器 客户端剑服务器端 服务器端剑远释服务器 远程服务器剑服务器端 应增 远程服务器前缀通常不用于普通的浏览器,这种浏览器用于w e b 服务器的事务处理, 这个前缀专门用于代理服务器和w e b 服务器,对于大多数域来说都需要域前缀,这些前缀 与指令中的域标识符结合在一起,用于说明什么样的数据将写入同志。一共有2 0 个域标 识符可供选择,如表2 - 4 所示: 表2 4w 3 c 扩展日志格式的域 1 0 一 一 一 r r r 3 盯 i 2 r 基于关联规则的e b 日志挖掘研究及在电子政务中的应用 下面以一个简单的日子文件为例,讨论一下这个文件记录的信息。文件例子如下: 撑s o f t w a r e :m i c r o s o f ti n t e r n e ti n f o r m a t i o ns c l v i c 髓5 0 撑v e r s i o n :1 0 撑d a t e :2 0 0 7 - 0 9 - 3 01 7 :4 5 :1 5 撑f i e l d s :c - i pd a t et i m ec s m e t h o dc a - u r i - s t e ms c s t a t u ss c - b y t c sc a - r e f e r r e rc s - u s e r - a g c n t 1 9 2 1 6 8 1 1 32 0 0 7 - 0 9 3 0 0 8 :3 0 :2 0g e t a r t i c l e h t m l2 0 06 9 1 9 h t t p :w w w g o o g l e c o m s e a r c h 2 0 7 t y p c = a l l & q u c r y - - c l i c k s t r e a m + d a t a “m o z i l l a 4 0 ( c o m p a t i b l e :m s i e5 01 ;w i n d o w sn i ) ” 1 9 2 1 6 8 1 1 32 0 0 7 - 0 9 3 00 8 :3 0 :2 5 g e t f l o 9 0 1 g i f 2 0 0 1 9 0 0 h t t p :w w w c l i c k s t r c a m c o n s u l t i n g t o m “m o z i l l a 4 o ( c o m p a t i b l e :m s i e5 o l ;w i n d o w sn t y 在这个例子中,同志文件的开始部分看到4 条指令。前3 条告诉我们这个网站的w e b 服务器采用m i c r o s o f ti i s :同志使用的版本为1 0 的e x l f 格式:同志产生的时间是2 0 0 7 年9 月3 0 同下午5 :4 5 。第四条指令确定了同志文件中保存的域及内容,从这个同志文件 中我们可以知道以下数据: 客户机的i p 地址( c i p ) :1 9 2 1 6 8 1 1 3 事务完成的日期( d a t e ) :2 0 0 7 0 9 3 0 事务完成的时问( t i m e ) :0 8 :3 0 :2 0 客户机与服务器通信所用的方法( c s m e t h o d ) :g e t 客户所需要的u r l 的根部分( c s u r i s t e m ) :m t i c l e h t m l 服务器返回的状态( s c s t a t u s ) :2 0 0 服务器传送给客户机的字节数( s c b y t e s ) :6 9 1 9 可以通过这个u r l 到达这个客户机的参考u r l ( c s r e f e r r e r ) : h t t p : 删g o o g l e c o m s e a r c h 2 0 7 t y p e = a l l & q u e r y = c l i c k s t r e a m + d a t a 客户端浏览器类型( a s u s e r - a g e n t ) : “m o z i l l a 4 0 ( c o m p a t i b l e :m s e5 0 1 : w i n d o w sn t ) 日志的第一行告诉我们用户的i p 地址为1 9 2 1 6 8 1 1 3 ;他使用微软的浏览器i e 5 o l 成功获得大小为6 9 1 9 字节的数据,文件名为a r t i c l e h t m l ,时间是上午8 :3 0 :2 0 ,它是 通过站点聊g o o g l e c o m 搜索到的。第二行还告诉我们,这个用户还同样成功装载与这 个h t m l 页面相联系的标识。 , 通过对三种日志的比较,e x l f 格式的日志文件全面的数据内容和自我证明的特性使得 这种格式非常适用于点击流数据开发。采用支持e x l f 格式的w e b 服务器和其他的应用可 以让我们从日志文件中得到大量的有用的数据信息。 错误日志文件( e r r o rl o g s ) :错误日志是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论