(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的web点击流的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 w e b 网站每天都产生大量的数据,并且随着网络信息量的增大,在很多领 域传统的数据库存储方式已经满足不了客户的需要了,那么随之而来的就是数 据仓库的兴起。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的 数据集合,用以支持经营管理中的决策制定过程。数据仓库与数据库的不同之 处在于数据库系统面向事务处理,而数据仓库系统面向分析处理。 现在点击流数据与客户信息的整合已成为w e b 数据分析的最新前沿。为 点击流分析而建立起的数据仓库称为点击流数据仓库。点击流数据仓库是数据 仓库技术发展的一个方面。它包括了数据仓库的维度建模方法、点击流数据仓 库的e t l 设计、实施和o l a p 技术等方面。 与此同时计算机应用也逐渐分为了2 大类;操作型处理和分析型处理,操 作型处理主要是为一个组织某些方面服务的,分析型处理则用于高层管理的决 策分析,也是信息处理技术的发展趋势。 在本篇论文中,作者首先对点击流数据进行提取并进行预先处理,然后确 定维度和数据市集,对数据进行抽取、转换、清洗、装载,进而构建了点击流 数据仓库,最后通过o l a p 技术进行了分析。本论文采用的例子是湖北教育网 点击流数据仓库的建模过程。 首先是点击流数据的收集和预处理。为了更好的收集点击信息,采用了在 应用服务器层收集点击流数据的方法,在对用户访问会话事务的识别上采用的 是最大前向参引模型和时间窗口模型相结合。 其次是教育网数据仓库要实现的基本的目标和各个维度的设计,包括确定 数据市集、维度和度量值。 最后是数据仓库e t l 设计,以及在数据仓库建好后,多维数据集的展示和 o l a p 的设计分析和实现。在e t l 设计中采用数据转换服务d t s ,o l a p 查询 分析使用了d m x 的分析方式,并且具体分析了其它几种效率较高的查询分析技 术。 关键字:点击流,数据仓库,e t l ,d m x a b s t r a c t h u g ed a t ah a v eb e e np r o d u c e de v e r y d a yb yw e b w i t ht h ei n c r e a s eo ft h e n e t w o r ki n f o r m a t i o ni nm a n yf i e l dc o m m o ns t o r eo ft h ed a t a b a s ec o u l dn o ts a t i s f y t h ec l i e n t sd e m a n d i nt h i sc o n d i t i o n , d a t aw a r e h o u s eg e t sm o r ed e v e l o p m e n t d a t a w a r e h o u s ei s g a t h e r i n go f d a t aw h i c hi s f a c i n g - t o p i c , i n t e g r a t i o n ,c h a n g i n g c o n t i n u o u s l yb yt i m ea n ds t e a d y i ti su s e dt oh o l do u tp r o c e s so fd e c i s i o n - m a k i n gi n m a n a g e m e n t t h ed i f f e r e n tb e t w e e nd a t eb a s ea n dd a t aw a r e h o u s ei st h a td a t eb a s e s y s t e mf a c e st r a n s a c t i o np r o c e s s i n g , b u td a t aw a r e h o u s es y s t e mf a c e sa n a l y s i s n o wt h ei n t e g r a t i o no fc l i c ks t r e a md a t aa n di n f o r m a t i o no fc l i e n t sh a sb c a ,3 m e f o r e l a n do fd a t e - a n a l y z eo fw e b c l i c ks t r e a md a t aw a r e h o u s ei su s e dt oa n a l y z ec r i c k s t r e a md a t a c l i c ks t r e a md a t aw a r e h o u s ei saf a c e to fd e v e l o p m e n to ft h et e c h n o l o g y o fd a t aw a r e h o u s e i ti n c l u d e sd i m e n s i o n a lm o l d i n gm e t h o do fd a t ew a r e h o u s e ,e t l d e s i g no fd i c ks t r e a md a t aw a r e h o u s e i m p l e m e n t a t i o no fd a t aw a r e h o u s ea n do l a p t e c h n o l o g y a tt h es a m et i m e ,t h ea p p l i c a t i o ni si n c r e a s i n g l yd i v i d e di n t ot w ot y p e s :o n - l i n e t r a n s a c t i o np r o c e s s i n g ( o l t p ) a n do n - l i n ea n a l y a c a lp r o c e s s i n g ( o l a f ) o l t pi s m a i n l yu s e df o rt h ea p p l i c a t i o ns e r v i c eo fa no r g a n i z a t i o n o i a pi su s e df o rt h e d e c i s i o n s u p p o r t i n ga n da n a l y s i so ft h eh i g hl e v e lm a n a g e m e n t i ti st h ef u t u r eo f i n f o r m a t i o nt e c h n o l o g y i nt h i sa r t i c l e , f i r s t , a u t h o rp i c k s u pc l i c ks t r e a md a t aa n dh a n d l et h e m t h e n a u t h o rm a k e s 翻mo fd i m e n s i o n a l i t ya n df a i ro fd a t a n e x t , d a t ai sb e e ne x t r a c t e d , t r a n s f o r m e d , c l e a n e da n dl o a d l a s ta u t h o rd e s i g n sa n da n a l y s e st h ec l i c ks t r c a n ld a t a w a r e h o u s e , a n du s e st h ec a s co fe d u c a t i o n n e t sc l i c ks t r e a mm o l d i n g f i r s t , c o l l e c t i o na n dp r e t r e a t m e n ti nc l i c ks t r e a md a t a , i no r d e rt oc o l l e c tc l i c k i n f o r m a t i o n , c o l l e c t i n gd a t ei nl a y e ro fs e r v e r w eu s e dt h ec o m b i n a t i o no fm a x i m a l f o r w a r d r e f e r e n c e m o d e la n dt u n ew i n d o w m o d e li n r e c o g n i z i n g o fu s e r t r a n s a c t i o n s e c o n d , b a s i cg o a la n dd i m e n s i o n a l i t yd e s i g no fe d u c a t i o nd a t aw a r e h o u s e ,i t i n c l u d e dd a t em a r k e t , d i m e n s i o na n dm e a s u r e m e n t f i n a l l y , e t ld e s i g no fd a t aw a r e h o u s ea n dd i s p l a ym u l t i - d i m e n s i o n a ld a t a s e t a n dd e v i s eo fo l a pt e c h n o l o g ya f t e ri m p l e m e n t e do ft h ed a t aw a r e h o u s e w eu s e d d t ss e r v i c ei ne t la n dd m xm e t h o di n0 l a ea n da l s od i s c u s ss o m ee f f i c i e n t t e c h n o l o g yi nf i n d i n g k e yw o r d s :c l i c ks t r e a m , d a t aw a r e h o u s e ,e t l ,d m 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:煦日期;2 2 :! :生 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:蜒导师签名:丝日期:幽口 武汉理工大学硕士学位论文 1 1 研究的背景和意义 第1 章绪论 点击流是指用户在网上浏览结束后所留下的实际的踪迹。通过采集用户在 站点上运动情况的方法,可用于跟踪记录访问过的链结点,包括用户的来源地 点、浏览站点的路线和最终到达的目标。链接分析包括对点击过的链接的观察、 它们在屏幕上的相关位置、用户在网页上停留的时间以及点击过的链接间的关 系和最终结果( 用户是否发生了电子交易等) 。通过对这些数据的有效分析,不但 能够对网站的建设起到指导作用,还能增强网站的黏合度。当网络的用户查询 一些信息或无意间进行随意地点击网页时就为商家留下了可利用的分析资料。 无论是i s p 服务商们还是网站都有能力捕获用户的点击流。在各类w e b 网站环 境中,点击流的分析越来越有价值,已经远远超出一般数据的范围,对这些数 据深层次分析已经成为各网站了解经营状况、了解用户行为的有效工具点击 流分析以w e b 上的点击流数据为基础,利用联机分析处理( o l a p ) 、数据挖掘 等技术满足网站的所有人员( 市场、销售、工程与管理) 的需求。不同的部门有不 同的需求,通过对点击流数据不同角度的分析来达到不同的目的。本文中引入 点击流技术主要是解决用户兴趣特征集合的分析。 1 2 国内外技术发展状况 作为一个新兴领域,数据仓库发展很快,目前许多大学、公司,特别是数 据库厂家和决策信息服务公司根据自己的需要已经开发出了许多的数据仓库解 决方案。数据仓库技术的应用也已经十分广泛,尤其在金融、保险、通讯、销 售等领域和政府部门大都采用数据仓库加上联机分析处理做市场分析和决策分 析【。 但是与国外相比我国的数据仓库市场启动较晚,发展还有很多不完善,这 主要体现在: 1 ) 大部分数据库系统的建立是用来进行传统的o i x p ( 联机事务处理1 业务, 武汉理工大学硕士学位论文 当然也有一些企业建立了数据仓库系统,但真正发挥效用的却不多见和 t c p f l p ,s m t p ,j a v a 等相比,r r 业界尚不存在可靠的、完善的、被广泛接受的 数据仓库标准,因而影响了数据仓库项目的实施。 2 ) 数据仓库的数据量很大,一般为1 0 g b 左右。它是一般数据库( 1 0 0 m b ) 数据量的1 0 0 倍,大型数据仓库的数据量更是达到t b 级。而且这些数据并非是 最新的、专有的,而是来源于其它的数据库。从这个方面来讲目前国内数据库 系统中数据积累还不够,而对于数据仓库系统没有足够的数据积累是没有任何 意义的。 3 ) 与传统业务系统不同,一方面数据仓库是面向管理决策层应用的,必须 有系统自身的最终用户企业决策层的参与;另一方面,数据仓库应用本身 不应该是业务流程的再现,而是基于数据分析的管理模式的体现。因此在这个 层次上,数据仓库对于企业决策层的意义首先不是体现信息技术和产品上的, 而是企业经营管理模式上的。但是目前我国很多企业普遍存在管理意识淡薄、 管理手段缺乏、管理措施落后、管理基础数据缺乏及不准确等问题,使得企业 在数据仓库的实施过程中,经常会暴露出存在于机构内部关系的复杂性和行政 上的种种障碍闭。 ” 对于点击流数据仓库的研究,目前还处于一个比较落后的阶段,数据的采集 和分析都没有达到能支持网站经营者做出决策的地步。 1 3 本论文的技术路线 本文首先介绍了一般数据仓库的概念,并在此基础上逐步展开对点击流数 据仓库的创建和分析,采用模拟湖北教育网点击流数据的方法建立点击流数据 仓库,其中包括了点击流数据的收集和预处理,维度和数据市集的设定,e t l 设计和多维数据集的分析及o l a p 展示,并在最后得到点击流分析的结果。 1 4 本论文的体系结构 本文讨论了点击流数据仓库的建模过程,对其中关键过程:数据预处理, 数据市集的建立,e t l 过程,o l a p 展示进行了深入的分析,并在此基础上构建 了湖北教育网点击流数据仓库模型。 2 武汉理工大学硕士学位论文 本文共分为七章。 第一章绪论:介绍了本文研究背景,现状和技术路线。 第二章数据仓库介绍:介绍了数据仓库和点击流数据仓库的概念,以及各 种数据仓库方案的比较。 第三章点击流数据的收集和预处理的实现:介绍了点击流数据的收集方法 和预处理时要解决的几个问题。 第四章教育网数据仓库的目标和维度设计:介绍了湖北教育网的需求分 析,并通过建立度量值,维度表,数据市集逐步建立教育网数据仓库。 第五章教育网数据仓库e t l 设计:介绍了e t l 基本技术和教育网的e t l 设计过程。 第六章教育网多维数据集的分析和o l a p 展示:分析了o l a f 技术以及在 本系统中的应用。 第七章总结与展望:对本课题所作的研究工作和进一步还需要做出的研究 做出了一个总结。 武汉理工大学硕士学位论文 第2 章数据仓库介绍 2 1 数据仓库的产生和发展 随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应 运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事 务处理、批处理到决策分析等各种类型的数据处理工作。近年来随着计算机应 用,网络计算开始向两个不同的方向拓展,一是广度计算,一是深度计算,广 度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互 联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作, 提出了更高的要求,希望计算机能够更多的参与到数据分析与决策的制定等领 域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理( 或 信息型处理) 。这种分离,划清了数据处理的分析型环境与操作型环境之间的界 限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化 环境。数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。 经过数十年的发展,在这些数据库中已经保存了大量的日常业务数据。传统的 业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试 图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处 理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在 目前的计算机处理能力上,根本无法实现这种功能,而且另一方面,事物处理 和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通 的【3 l 。 基于以上这些急需解决的问题,迫切需要一种比普通数据库功能更为强大, 智能性更高的数据库出现。由此数据仓库被专家们提上日程。 数据仓库与数据库的不同之处在于,数据库系统面向事务处理,而数据仓 库系统面向分析处理。数据库作为数据管理手段,从它诞生开始就主要用于事 务处理。随着技术进步,当人们试图让计算机完成更多的工作时,数据库技术 也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型信息处理 任务。后来人们认识到,由于事务处理和分析处理具有不同的性质,用事务处 4 武汉理工大学硕士学位论文 理环境支持决策是行不通的。于是为了提高分析和决策的效率和有效性,将分 析型处理及其数据与操作型处理及其数据相分离,按照决策支持系统( d s s ) 处 理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这 种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库系统包括: 1 数据仓库技术; 2 联机分析处理技术( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) ; 3 数据挖掘技术( d a t am i n i n g ,简称d m ) ; 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数 据环境发展为一种新环境:体系化环境。 体系化环境是由操作型环境和分析型环境( 包括全局型数据仓库,部门级 数据仓库,和个人级数据仓库) 共同构成。数据仓库是企业数据体系化环境的 组成部分,是建立决策支持系统( d s s ) 的基础【4 】【列。 2 2 点击流和点击流数据仓库的概念 点击流是指用户在网上浏览结束后所留下的实际的踪迹。一个点击流就是 一个用户在网络上的行为记录,这个记录中包括用户测览的每一个站点及站点 内的用户浏览的每一个页面,用户在网站或页面上停留了多长的时间,用户按 照什么次序浏览的页面,用户参与的任何一个新闻组和用户发送的e - m a i l 地址 点击流数据仓库是数据仓库在点击流分析系统中的应用,是存储供查询和 决策分析用的集成化信息仓库,与传统的数据仓库相比点击流数据仓库的主要 数据来源是人们网络活动中进行各种活动,从而在各个网络服务器中所留下的 w e b 日志文件及其它的相关数据库本文点击流数据仓库的建立主要是建立面 向用户信息兴趣分析的点击流数据仓库,在这个数据仓库中需要汇集的是在w e b 日志文件中的信息,用户点击信息页面的点击事实表和信息数据库中各个包含 信息页面的信息数据表,以及确认用户身份的客户资料数据库中的客户信息表。 2 3 各类数据仓库解决方案的介绍 目前国外一些有实力的公司相继( 通过收购或研发的途径) 推出了自己的数 据仓库解决方案,这些公司包括i b m ,o r a c l e ,s y b a s e ,c a , n c r ,i n f o r n l i x , 5 武汉理工大学硕士学位论文 m i c r o s o f t 和s a s 等。这些公司都有自己的一套完整的数据仓库解决方案。 1 o r a c l e 数据仓库解决方案 o r a c l e 公司作为世界上著名的数据库厂家,一直致力于为企业提供能满足企 业竞争需要的数据仓库解决方案。o r a c l e 的数据仓库解决方案包含了数据库平 台、开发工具和应用系统,o r a c l e 数据仓库能够帮助企业以多种方式访问存放在 不同地点的信息,以便在企业的众多层次上,满足信息检索和商业决策的需求。 o r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部分。 o r a c l ee x p r e s s 由四个工具组成:o r a c l ee x p r e s ss e r v e r 是一个m o l a p ( 多维 o i a p ) 服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时 也能够访问多种关系数据库;o r a c l ee x p r e s sw e b a g e n t 通过c g i 或w e b 插件支 持基于w e b 的动态多维数据展现;o r a c l ee x p r e s so b j e c t s 前端数据分析工具( 目 前仅支持w i n d o w s 平台) 提供了图形化建模和假设分析功能,支持可视化开发 和事件驱动编程技术,提供了兼容v i s u a lb a s i c 语法的语言,支持o c x 和o l e ; o r a c l ee x p r e s sa n a l y z e r 是通用的、面向最终用户的报告和分析工具( 目前仅支 持w i n d o w s 平台) o r a c l ed i s c o v e r e r 即席查询工具是专门为最终用户设计的, 分为最终用户版和管理员版。在o r a c l e 数据仓库解决方案实施过程中,通常把 汇总数据存储在e x p r e s s 多维数据库中,而将详细数据存储在o r a c l e 关系数据库 中,当需要详细数据时,e x p r e s ss e r v e r 通过构造s o l 语句访问关系数据库i s 。 事实上o r a c l e 数据仓库包含了一整套的产品和服务,覆盖了数据仓库定义、 设计和实施的整个过程。 2 m m 数据仓库解决方案 i b m 公司提供了一套基于可视数据仓库的商业智能( b d 解决方案。i b m 将 d a t ag u i d e 和v i s u a lw a r e h o u s e 集成在一起并与l o t u s - a p p r o a c h 和相应平台上的 d b 2 u d b 打包在一起,作为一个完整的解决方案提供给用户。其中,d a t a g u i d e 靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息, l o t u s - a p p r o a c h 可帮助用户分析信息并把它以图表的方式表示出来,i b m 的 v i s u a lw a r e h o u s e ( ) l ,) 系列软件包用于帮助企业迅速建立、管理和分析数据仓库 和数据中心。 , 3 s a s 数据仓库解决方案 s a s 公司提供了特点鲜明的数据仓库解决方案,包括3 0 多个专用模块。其 中,s a sw a ( w a r e h o u s e a d m i n i s t r a t o r ) 是建立数据仓库的集成管理工具,包括定 6 武汉理工大学硕士学位论文 义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等。 s a s m d d b 是s a s 用于在线分析的多维数据库服务器,s a s a f 提供了屏幕设 计功能和用于开发的s c l ( 屏幕控制语言1 ,s a s i t s v ( i ts e r v i c ev i s i o n ) 是r r 服 务的性能评估和管理的软件,这些r r 服务包括计算机系统、网络系统、w e b 服 务器和电话系统等。s a s 系统的优点是功能强、性能高、特长突出,缺点是系 统比较复杂。 4 m i c r o s o f t 数据仓库解决方案( 本系统采用的解决方案) m i c r o s o f t 公司开发的大量的产品和工具中,m i c r o s o f t s q l s e r v e r 2 0 0 0 版很 好地配合了数据仓库过程。m i c r o s o f ts q ls e r v e r2 0 0 0 提供了广泛地功能以支持 数据仓库过程,s q ls e l v e l 2 0 0 0 a n a l y s i ss e r v i c e s 包含o l a p 和数据挖掘。o l a p 可以通过多维存储技术对大型、复杂数据集进行快速、高级地分析工作;数据 挖掘功能能够揭示出隐藏在大量数据中的倾向及趋势,允许组织或机构最大限 度的从数据中获取价值。m i c r o s o f ts q ls e r v e r2 0 0 0 针对包括集成数据挖掘、 o ia p 服务、安全性服务及通过i n t e m e t 对多维数据集进行访问和链接等在内的 分析服务提供了新的数据仓库功能【6 l 。 2 4s q ls e r v e r 的数据仓库构建工具 关系数据库:数据仓库使用关系数据库技术作为数据仓库构造、设计、维 护的基础。s o ls e r v e r 的核心部件是一个强大的功能齐全的关系数据库引擎。 s q ls e r v e r 2 0 0 0 使用提供了许多工具用于关系数据库的设计和操作,而不管使 用数据库的应用程序是什么。 数据转换服务( d a t at r a n s f o r m a t i o ns e r v i c e s ) :数据仓库应用需要将不同源 数据转换到适合数据仓库应用的数据集合s q ls e r v e r2 0 0 0 提供了数据转换服 务( h r s ) 来完成这一任务。d t s 可以访问范围广泛的不同源的数据,并可按 用户要求来完成数据转换。 复制:数据库复制是一个可用于许多目的的强有力的工具。经常用于分发 数据和在o l t p 应用中进行分布式数据的一致更新。在数据仓库应用中,复制 可用于从中心数据仓库分发数据到数据集市,或从数据准备区更新数据仓库的 数据。 分析服务( a n a l y s i ss e r v i c e s ) -数据仓库收集并组织企业数据来支持企业的 7 武汉理工大学硕士学位论文 决策分析s q l s e r v e r2 0 0 0 的a n a l y s i ss e r v i c e s 提供了联机分析处理( o l a p ) 的技术来组织数据仓库的海量数据以快速响应客户工具对数据的分析也提供 了复杂的数据挖掘技术在数据仓库数据中进行知识发现。 英语查询( e n g l i s hq u e r y ) :英语查询提供了使用自然英语语言访问数据仓库 数据的方法。例如,”s h o wm et h es a l e sf o rs t o r e si nc a l i f o r n i af o r1 9 9 6t h r o u g h 1 9 9 8 英语查询可以转变英语到s q l 语法或m d x 语法来查询关系数据库或 o l a p 多维数据集。用户可以为自己的数据仓库开发英语查询模型来降低使用 s q l 或m d x 在数据库或数据仓库中查找数据的复杂性。 元数据服务( m e t ad a t as e r v i c e s ) :s q l s e r v e r2 0 0 0 的各种工具中许多都存 储元数据在一个集中的知识库( r e p o s i t o r y ) 中,该知识库位于m s d b 系统数据 库中s q ls e r v e r 2 0 0 0 元数据服务提供了浏览这些元数据的方法,也为开发客 户元数据应用提供了应用程序接口。 2 5 数据仓库的维度建模方法 数据仓库系统开发过程中,逻辑模型设计包括事实表设计和维度表设计两 部分。通俗地说,“维”就是分析者观察事务的角度,“事实”则代表一个业务度量 值,通常是数值型数据并具有可加性从多个不同角度观察事实可得到多维数据 集。 数据仓库中,维度表模型是用户分析数据的窗口,设计维度表的主要目的 是把参考事实表的数据放置在一个单独的表中,维表通过记录因素的属性描述 事件中包含的诸多因素。 2 6 本章小结 本章首先介绍了数据仓库的概念及产生,并由此引出点击流数据仓库,接 着比较了几种主流数据库厂商的数据仓库解决方案,其中包括o r a c l e 、m m 、 s a s 、m i c r o s o f t 等。最后针对s q l s e r v e r 作了详细的介绍。 8 武汉理工大学硕士学位论文 第3 章点击流数据的收集和预处理的实现 本章首先介绍了点击流预处理的基本概念,然后简述对点击流数据进行预 处理的一般过程,并指出其要解决的一些问题。在此基础上,讨论了以湖北教 育信息网站为背最设计的在应用层实时收集点击流数据并进行预处理的方法。 3 1 点击流数据预处理的概念 3 1 1 与点击流相关的名词和术语 1 w e b 服务器日志( w e bs e t v e tl o g s ) w e b 服务器日志实际上就是客户访问网站时留下的踪迹。w e b 服务器在处 理客户的请求时。一方面将客户的请求发送出去,另一方面将本次请求写入日 志,w e b 日志的组成一般包括以下三部分:访问日志( a c c e s sl o g ) ,代理日恚 ( a g e n t l o g ) ,引用日志( r e f e r r e r l o g ) 。访问日志记录了基本的请求信息:用户的 口地址、时问戳、方法( ( p o s t , g e t 等h 错误码) 、传输字节数;代理日志记录用 户使用的浏览器类型及操作系统;引用日志记录用户的请求来自哪个u r l 。w e b 服务器日志文件格式一般有常规日志格式( c o m m o nl o gf o r m a t - c l f1 和扩展日 志格式【3 l 两种形式,常规日志格式中的信息一般包括访问日志中所包含的内容, 扩展日志格式中的信息则增加了代理日志和引用日志的内容。 2 c o o k i e c o o k i e s 就是服务器暂存放在电脑里的资料( t x t 格式的文本文件) ,好让服 务器用来辨认计算机。当浏览网站的时候,w e b 服务器会先送1 小段资料放在 计算机上,c o o k i e s 会把在网站上所打的文字或是一些选择都记录下来当下次 再访问同一个网站,w e b 服务器会先看看有没有它上次留下的c o o k i e s 资料,如 果有就会依据c o o k i e 里的内容来判断使用者,送出特定的网页内容。在实际应 用中,往往希望浏览器能记住一些信息,如用户的身份信息等,以便能自动地 对用户进行识别以及更好地提供个性化服务。因而引入了c o o k i e 的概念,用户 第一次访问站点时,w e b 服务器为其分配一个唯一的标识符并保存在用户的计 9 武汉理工大学硕士学位论文 算机中,用户再次访问该站点时,w e b 服务器根据c o o k i e 值识别用户。 3 用户( u s e r ) 指通过浏览器访问服务器的个体。m 1 p 协议的无状态性、防火墙以及代理 服务器的存在,使得在实际应用中确定一个用户很难,因此,有时需要把服务 器日志、代理日志、引用日志结合起来确定一个用户会话m s c r s e s s i o n ) :一段时 间内用户对一个或多个网站的访问请求 4 请求( r e q u e s t 或碰t ) 所谓请求就是向w e b 服务器请求一个文件的动作。当从服务器和客户两个 不同的角度看时,它又分别对应不同的含义,对于服务器来说,一次请求对应 一条日志记录;对于客户来说,向服务器发送请求的形式则表现为点中w e b 页 面上的一个超链接,但点中一个超链接并不意味着一次请求,这是因为一个w e b 页面中可能包含多个文件,如h t m l 文件、声音文件、图像文件等,此时如果 用户点中这样一个超链接则对应着多个请求,在w e b 日志中也就有多行记录。 s 甩产会话( u s e rs e s s i o n ) 用户会话是指具有唯一访问者标识( 唯一地址) 的访问者进入或再次进入网 站的过程用户进出数、访问数m s i o 和用户会话是同一术语。用户会话不应该 被解释为网站的访问人次或访问人数,但是用户会话是相对接近网站访问人次 或访问人数的指标。两站的精确的访问人次或访闯人数难于被统计。用户会话 比唯一访问者更能说明网站的全部活动,它表明了网站的使用频率。本论文中 的用户会话指一段时间内用户对单个网站的访问请求。 6 点击流数据( c l i c k s t r e a md a t a ) w e b 服务器上一系列有序的日志记录。访问者从进入一个站点,到离开这 个站点的一个访问周期中,所浏览的页面、滞留时间、点击的链接和广告都会 被顺序地记录在网站的日志文件中。这种有序的w e b 日志记录形成了所谓的点 击流数据。点击流数据包含了与w e b 日志相同的基本数据域,但是其中只有部 分关键的数据域对分析有用。为此,根据实际分析的需要,我们确定了点击流 数据中的关键数据项,并定义了如式( 3 - 1 ) 所示的一般格式 c l i c k - s t r e a md a t a = l , n , , ( 式3 - 1 ) 其中,i l i 表示用户地址,i d 表示用户标识号,u r l 表示请求的页面,r e q u e s t t n n e 表示页面请求的时间。1 n 表示依次访阀的页面顺序 1 0 武汉理工大学硕士学位论文 3 2 点击流数据预处理的一般过程 由于本地缓存、代理服务器、防火墙的存在,使得w e b 日志中的数据并不 精确,直接存入数据仓库进行分析有可能出现错误结果。因此首先对日志数据 进行预处理,它包括数据净化、用户识别和事务识别等。图3 1 是数据预处理的 流程图。 艮 网日l _ j 数用事事 = = d 事务文件 据户务务 净识识提 化别别取 剖用户会话资料 图3 - 1 数据预处理流程图 数据净化:指删除w e b 服务器日志中与点击流分析处理无关的数据。 用户识别:指识别出访问网站的每一个用户 会话事务识别:会话事务识别的目的是为每个用户建立有意义的页面组 合,将用户点击流分成多个小的访问事务或合并成更大访问事务。每个事务都 与一定的主题相关,如登陆,注册等。 事务完善:由于本地缓存和代理服务器缓存的存在,使得服务器的日志会 遗漏一些重要的页面请求事务完善的任务就是将这些遗漏的请求补充到用户 会话中。 3 3 点击流数据预处理要解决的问题 在w e b 日志分析中,主要是提供面向用户的信息分析,所以首先要从w e b 日志中识别出用户会话( u s e rs e s s i o n ) ,作为点击流分析的基础。用户会话是一个 1 1 武汉理工大学硕士学位论文 用户在规定的时问内请求的所有w e b 页面。但进行用户会话识另之前首先要进 行用户识别,由于本地缓存、公司防火墙和代理服务器的存在,使得准确地定 位一个用户变得非常困难,通常需要借助一些启发式规则,例如,如果口地址 相同,但是代理日志中记录的测览器或操作系统类型不同,则应当认为是不同 的用户目前研究人员为精确识别一个用户而设计的方法大都基于客户端跟踪 的技术,如要求用户访问网站时进行注册,在客户端写入c o o k i e 标识等,但采 用客户端的跟踪技术往往需要用户的配合,而且大多数用户认为这是一个涉及 个人隐私的问题,因而在数据预处理中进行用户和用户会话识别是一项比较困 难的任务唧 3 3 1 点击流数据的收集 与传统的商业模式相比,互联网作为大量企业存在的基础平台可以向企业 管理者提供大量的客户信息,客户在网络上的行为都可以通过其在访问企业站 点时的点击流数据来反映。目前点击流数据的获得主要采用日志文件嘲,大多 数w e b 服务器软件常根据3 种公开的标准日志文件格式中的一种来记录日志文 件。这3 种开放格式是n c s a 的普通日志格式c l f 、n c s a 的扩展日志格式e c l f 和w 3 c 的扩展日志文件e x l f 。 当客户访问一个w e b 站点时,w e b 服务器会动地记录用户每次的页面请求 数据,形成所谓的w e b 访问日志,即客户点击数据。但是w e b 日志存在着几个 方面的不足: 1 噪声数据比较多 在w e b 服务器日志体系结构中,由于w e b 页面中通常包含图形、声音、动 画以及广告等文件,因而当用户访问了该页面时,在w 曲日志中就包含了对这 些文件进行请求的记录,也就是说一个w e b 页面对应多条日志记录。但是在w e b 日志分析中只有代表本次页面访问的文件请求才是有意义的,而大多数与图像 文件请求相关的日志记录对于日志的分析是无用的,通常需要将这些信息过滤 掉。 2 用户和用户会话识别都比较困难 i r 兀甲协议的无状态性,决定了直接在w e b 日志上进行用户和用户会话识 别是非常困难的一项任务。就算使用了包检测技术中也很难解决用户和用户识 别的闯题。 武汉理工大学硕士学位论文 3 其它难于处理的问题有:w e b 日志文件中仅仅包含被请求页面名称,实 际应用时需要将页面名称映射成页面所代表的内容,而且更为复杂的是页面动 态显示问题,即请求同一页面时显示的是不同内容,这种情况下,w e b 日志记 录并没有反映出这种交化,日志中记录的还是请求同一页面的信息。包检测中, 有些站点出于安全的考虑,采用加密套接字协议层来对站点的某些区域进行加 密,这样检测包就无法识别传输的数据。 可以采用在应用服务器层收集点击流数据的方法解决上述一些困难。所谓 在应用服务器层收集数据1 1 1 1 就是指在服务器端的应用程序中编写相应的代码 来对用户访问页面的信息进行记录,用户访问页面的信息既可以包括w e b 服务 器日志格式中的所有基本数据项,如请求的u r l ,用户坤,请求时间等,也可 以根据分析的需要增加一些与分析相关的数据项,如页面逗留时间、用户的点 击次数等网。 湖北教育信息网站的w e b 服务由w e b 服务器和数据库服务器来提供,是整 个系统的核心,w e b 服务器安装l i n u x 操作系统,使用w e b l o g i c 提供w e b 服 务。数据库服务器同样使用l i n u x 操作系统,安装o r c a l e 9 i 作为数据库服务软 件,存储湖北教育系统中的各项数据。在系统中还使用了两个硬件高速防火墙, 外部防火墙用来将服务器和i n t e r a c t 进行隔离,过滤有害数据包,保护服务器安 全:内部防火墙将企业局域网和公用城域网进行隔离,保证局域网的安全,阻 挡企业局域网受到的来自公用城域网的攻击。结构如图3 2 武汉理工大学硕士学位论文 图3 2 服务器连接图 由于外部防火墙的存在,使得w e b 服务器上记录的日志都含有相同的口地 址,即外部防火墙的口地址,从而严重破坏了w e b 服务器日志记录的准确性。 但是如果直接将外部防火墙上的日志作为我们分析的点击流数据,则又会带来 大量繁琐丽不必要的数据过滤与清洗工作,这是因为防火墙日志中记录了利用 各种协议进行传输的数据,而其中只有唧协议传输的数据才是有用的数据。 因而,可以采用在应用服务器层收集数据的方法。 应用服务器层收集数据方法的优点: 在应用服务器层进行点击流数据的收集,具有以下几方面的优点: 1 ) 能很好地解决页面的动态显示及使用s s l 进行加密传输的问题。 2 ) 应用服务器可以使用c o o k i e s 或u r l 编码来进行用户会话跟踪,从而很 好地解决了对日志数据的识别。 3 3 2 用户识别的一般方法 用户识别是点击流数据预处理过程中一项比较困难的任务,但目前已出现 了不少用来精确识别一个用户的方法,其中最简单但是误差也最大的一种方法 就是根据口进行识别,此外还有一些嵌入s e s s i o n i d 、让用户进行注册、在客户 端写入c o o k i e 标识以及使用嵌入代理的方法。每种方法都有其自身的优缺点, 1 4 武汉理工大学硕士学位论文 下面归纳了这几种方法之间的比较。 1 口地址抽取方法 认为一个口对应一个用户,此方法简单易行,但是误差教大,实际由于防 火墙或代理等原因很难准确定位一个用户。 2 嵌入s e s s i o ni d 使用动态的方法产生一个d 号,并嵌入用户的请求中,优点是容易实行, 与m 无关,缺点是有一定的局限往只在动态网站下适用。 3 c o o k i e 在客户端写入一个标志,可以跟踪客户的重复访问。缺点是需要用户配合, 不能关闭浏览器c o o k i e 。 4 用户注册 可以精确跟踪一个用户的访问情况,但是需要用户注册或登陆。 5 使用代理 在客户端浏览器上装入一个程序,能精确跟踪用户信息,缺点是要用户配 合。 3 3 3 用户访问会话事务的识别方法 在实际用户访问中,经常会有用户在时间窗口内同时在进行着两个以上的 访问服务器会话,比如同时打开几个浏览器窗口,在一个窗口内容下载过程中, 浏览另外的窗口内容。因此,我们提出把时间窗口模型和最大参引模型结合起 来,对访问服务器会话

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论