(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf_第1页
(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf_第2页
(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf_第3页
(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf_第4页
(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(技术经济及管理专业论文)基于SQL+Server+Analysis+Service的点击流数据仓库研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库技术起源于对大量数据进行分析的需要。在激烈的市场 竞争环境下,基于业务数据的决策分析一一联机分析处理,比已往任 何时候都显得重要。如果说传统的联机事务处理强调的是更新数据 库一一向数据库中添加信息,那么联机分析处理就是从数据库中获 取、利用信息。因此著名的数据仓库专家r a p h lk i m b a l l 写道:“我 们花了二十多年的时间将数据放入数据库中,如今是该把它们拿出来 的时候了。”因此支持海量数据存储、高性能查询、0 l a p ( 联机分析处 理) 、d s s ( 决策支持系统) 、数据挖掘应用的数据仓库技术孕育而生。 点击流数据仓库是数据仓库技术发展的一个方面。随着电子商务的飞 速发展,电子商务对企业的经营活动开始产生巨大的影响。电子商务 逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商 务将给企业带来巨大的经济效益和社会效益。 电子商务网站每天都产生大量的点击流数据。它们中包含很多对 企业非常有用的信息,例如,客户的来源、客户的行为、客户的兴趣 等。对这些数据进行有效的分析,不但能够对电子商务网站的建设起 到指导作用,增强网站的粘着度,而且也能够反映出企业在市场、销 售、服务和财务等各个方面的状况。总之,对这些数据进行深层次分 析,能够使电子商务网站的拥有者改善客户关系、充分提高企业在市 场销售和服务等各个方面的质量。 在本篇论文中,作者研究了数据仓库的维度建模方法、点击流数 据仓库的e t l 设计、数据仓库的实施和前端展示技术。 在维度建模中,按照r 矗p l l lk i m b a l l 提出的维度建模方法设计数 据仓库数据库。r a p h lk i m b a l l 的维度建模理论包括三个过程: 1 、分析商务过程,确定分析主题。了解用户的商务流程,根据 用户的需求确定需要在数据仓库系统中分析的主题 2 、根据分析主题建立数据集市。建立数据集市的过程又包括: a 、确定分析主题的粒度。b 、确定应用于事实表的维度。c 、确定事 实表的事实。 3 、建立总线结构的数据仓库。 在数据仓库的e t l ( 抽取、转换、装载) 设计中,首先分析并总 结了数据仓库e t l 设计的方法。因为数据仓库数据库是在s q l s e r v e r 2 0 0 0 上构建的,因而选用了d t s ( 数据转换服务) 来设计点击 流数据仓库的e t l 过程。d t s 功能强大,使用方便。对于采用s q l s e r v e r 构造的数据仓库,d t s 是设计数据仓库e t l 过程的理想工具。 在本论文中,特别对d t s 的自定义任务和多阶段抽取进行了探讨。 在建好数据仓库数据库后,为了进行0 l a p 分析就要设计多维数 据集。多维数据集是一个数据集合,通常从数据仓库数据库构造,并 组织和汇总成一个由一组维度和度量值定义的多维结构。这里选用了 微软的s q l s e r v e r a n a l y s i ss e r v i c e 来设计多维数据集。他的分析服务 器( a n a l y s i ss e r v i c e ) 是一个用于联机分析处理( o l a p ) 和数据挖 掘的中间层服务器。a n a l y s i ss e r v e r 从数据仓库数据库中组织经过预 先进行聚合计算的数据到多维数据集。 在前端展示的设计中,选用了a n a l y s i ss e r v i c e 的数据透视表来 展示多维数据集。数据透视表是a n a l y s i ss e r v i c e 的客户端组件。用 户可以通过它来访问多维数据集的数据。设计中还使用了多维查询语 言m d x 对多维数据集进行主题分析。然后将分析结果在网页上展示。 本论文力图研究一种点击流数据仓库系统的构建方案。 关键词:点击流数据仓库s q ls e r v e ra n a l y s i sd t s a b s t r a c t d a t aw a r e h o u s e t e c h n o l o g yo , g i n a t e df r o mr e q u i r e m e n to fa n a l y s i s n u m e r o u sd a t a u n d e rs h a r p l yc o m p e t i t i v ee n v i r o m e n tf o rm a r k e t o l a p t h a ti su s e da sd e c i s i o na n a l y s i sb a s e do nb u s i n e s sd a t ai sp l a y i n gm o r e a n dm o r e i m p o r t a n t r o l e s t r a d i t i o n a l0 l 1 me m p h a s eo n u p d a t i n g d a t a b a s e ,w h i c ha d di n f o r m a t i o ni n t od a t a b a s e ,w h i l eo l a p i sa c q u i r i n g a n du s i n gi n f o r m a t i o ni nd a t a b a s e h e n c e ,r a p h lk i m b a l l ,f a m o u s ed a t a w a r e h o u s ee x e r t s ,s a i dt h a tw eh a ds p e n dt w e n t yy e a r st op u td a t ai n t o d a t a b a s e ,i ti st i m et h a tw e f e t c ht h e mf r o md a t a b a s e c l i c ks t r e a n ld a t a w a r e h o u s ei so n eo f d e v o l o p i n gd i r e c t i o no f d a t aw a r e h o u s e t e c h n o l o g y w i t hq u i c kd e v e l o p m e n to fe - c o m m e r c e , e - c o m m e r c eh a se x e r t e dh u g e i m p a c t 0 1 1 e n t e r p r i c e sr u n n i n g e c o n u n e f c ei n c r e a s i n g l y b e c o m ea i m p r o t a n t c h a n n e lo fm a r k e t i n ga n dc u s t o m e rs e r v i n g f u l l yu s i n g e - c o m m e r c ew i l l b r i n gg r e a t e e c o n o m i cp r o f i ta n ds o c i a lp r o f i t st o e n t e r p r i s e e - c o m m e r c es i t em a k ea g r e a t d e a lc l i c ks i a e e md a t ae v e rd a y ,w h i c h i n c l u d em a n yu s e f u li n f o r m a t i o n f o re x a m p l e ,w h e r ea r ec u s t o m e rf r o m , w h a ta c t i o nc u s t o m e rt o o k , w h a td i dc u s t o m e ri n t e r e s ti n a n a l y s i s i n g t h e s ed a t ac a l ln o to n l yd i r e c tb u i l d i n go fs i t e ,s t r e n g t h e na d h e s i o n , b u t r e f l e c t e n t e r p r i s e s t a t u s o n m a r k e t i n g a n df i n a c e i n s h o r t , d e e p l y a n a l y s i s i n g t h e s ed a t am a yh e l po w n e ro fs i t et oi m p r o v ec u s t o m e r r e l a t i o n s h i pa n dq u a l i t i e s o fs e r v i c e i nt h i st h e s i s ,a u t h o rr e s e a r c hd i m e n t i o n a lm o d l i n gm e t h o do f d a t e w a r e h o u s e ,e t ld e s i g no f c l i c ks t r e a md a t aw a r e h o u s e ,i m p l e m e n t i o no f d a t aw a r e h o u s ea n df r o n t - e n dd i s p l a y i n gt e c h n o l o g y i nd i m e n t i o n a lm o d l i n g ,a u t h o rd e s i g nd a mw a r e h o u s eb ym e t h o d t h a ts u g g e s t e d b yr a p h l k i m b a l l i ne t ld e s i g no fd a t aw a r e h o u s e ,a u t h o r f i r s t l y s u m m a r i z ee t l m e t h o d s b e c a u s et h ec l i c ks t r e a md a t aw a r e h o u s ei sb a s e do ns q l s e r v e r2 0 0 0 ,d t si sc h o i c e da st o o lt od e s i g nt h ed a t aw a r e h o u s e se t l d t sh a ss t r o n gf u n c t i o n sa n d m a y b eu s e d e a s i l ye s p e c i a l l y , f o r t h ed a t e w a r e h o u s eb u i l tb yu s i n gs q ls e r v e r2 0 0 0 ,d t li si d e a lt o o l sf o re t l d e s i g n a f t e r ,b u i l tt h e d a t aw a r e h o u s e ,m u t i d i r n e t i o n a ld a t a s e ta r en e e d e di n o r d e rt ot a k eo l a p a n a l y s i s d a t a s e ti sd a t as e tt h a ti sb u i l df r o md a t a w a r e h o u s ea n di so r g n i s e da n ds u m m a r i s e di n t oac u b e i nt h ep r o j e c t , a u t h o rc h o i c es q ls e r v e ra n a l y s i ss e r v i c et od e s i g nm u l t i d i m e t i o n a l d a t a s 吨i t sa n a l y s i ss e r v i c ei sam i d d l es e r v e ru s e df o ro l a p a n dd a t a m i n m g 。a n a l y s i ss e r v e ro r g n i s ed a t a , t h a t 锄孳s u m m u r i s e d - e o m p u t e d a t a d v a n c e di n t om u l t i d i m e n t i o n a ld a t a s e t i nd e s i g no ff r o n t - e n dd i s p l a y i n g ,a u t h o rc h o i c e dp i v o t - t a b l et o d i s p l a ym u t i d i m e n t i o n a ld a t a s e t , p i v o t - t a b l ei sc l i e n te n dc o m p o n e n t s o f a n a l i s y ss e r v i c e u s e rm a y a c c e s sd a t ai nm u l f i d i m e n t i o n a ld a t a s e tb y i t i n d e s i g no ff r o n t - e n dd i s f l a y 堍j v l d xi s u s e dt ot a k et h e m e - o r i n t e d a n a l y s i s t om u l t i d i m e n t i o n a ld a t a 始t t h e nr e s u l ta r ed i s p l a y e di nw e b p a g e s k e y w o r d s :c l i e k s t r e a md a t aw a r e h o u s e e t ld t s 2 西南财经大学 学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本 学位论文引起的法律结果完全由本人承担。 本学位论文成果归西南财经大学所有。 特此声明 学位论文作者签名:邱江涛 2 0 0 5 年4 月1 9 日 前言 数据仓库( d a t aw a r e h o u s e ) 是近年来兴起的一种新的数据库应 用。随着数据库技术的应用和发展,人们尝试对数据库中的数据进行 再加工,形成一个综合的面向分析的环境,以更好的支撑决策分析。 在此过程的发展和完善中,形成了支持决策的、特殊的数据存储即数 据仓库( d a t aw a r e h o u s e ,d w ) 。 随着电子商务的飞速发展,电子商务对企业的经营活动开始产生 巨大的影响。电子商务逐渐成为企业市场销售和客户服务的一个重要 渠道。充分利用电子商务将给企业带来巨大的经跻效益和社会效益。 电子商务网站每天都产生大量的数据,访客点击网站产生这些数 据被称作点击流数据。 分析这些点击流数据,即点击流分析,所需要的技术包括数据仓 库、数据挖掘和客户关系管理( c l u 讧) 等。利用这些技术将市场、 销售、服务协同起来,可为企业带来更大的经济效益。点击流分析不 仅是电子商务企业在竞争中取胜的重要手段,而且也是传统企业在竞 争中取胜的有力武器。传统企业利用对企业电子商务网站上的点击流 数据的分析及时了解客户信息,从而为企业的市场销售服务。现在点 击流数据与客户信息的整合已成为w e b 数据分析的最新前沿。为点 击流分析而建立起的数据仓库称为点击流数据仓库。 本论文依据的是一个实验性点击流数据仓库项耳。构建数据仓库 中采用了目前比较主流的r a p h lk i m b a l l 的维度建模方法。但该方法 也有缺点,论文中将介绍其他一些建模方法。 本论文力图介绍点击流数据仓库项目实旄中采用的技术及其一 些实施方法,以及一些技术具体运用的剖析。本论文提出一种点击流 数据仓库系统的构建方案。 1 概述: 1 。1 数据仓库与点击流数据仓库: i 1 1 数据仓库的概念及结构: 数据仓库( d a t aw a r e h o u s e ) 是近年来兴起的一种新的数据库应 用。随着数据库技术的应用和发展,人们尝试对数据库中的数据进行 再加工,形成一个综合的面向分析的环境,以更好的支撑决策分析。 在此过程的发展和完善中,形成了支持决策的、特殊的数据存储即数 据仓库( d a t aw a r e h o u s e ,d w ) 。典型的数据仓库应该是一个主题数据 库,支持用户从巨大的运营数据存储中发现信息,支持对业务趋势进 行跟踪和实现业务的预测和计划。更为广泛接受的数据仓库定义是 数据仓库之父b i l li n m o n 在1 9 9 1 年出版的“b u i i d i n gt h ed a t a w a r e h o u s e ”一书中所提到的:数据仓库是一个面向主题的,集成的, 非易失的,随时间变化的用来支持管理人员决策的数据集合。主题是 一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分 析领域。数据仓库的集成特性是指在数据进入数据仓库之前,必须经 过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始 数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主 题的转变。非易失性是指数据经加工、集成进入数据仓库后是极少或 根本不修改的。随时间变化的是指数据仓库是不同时间的数据集合, 它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且 数据仓库中的数据都要标明该数据的历史时期。 h t t p :w w s q l s e r v e r c e n t e r c o md mr e v i e w 杂志 2 数据仓库与数据库的不同之处在于,数据库系统面向事务处理, 而数据仓库系统面向分析处理。数据库作为数据管理手段,从它诞 生开始就主要用于事务处理。随着技术进步,当人们试图让计算机完 成更多的工作时,数据库技术也一直力图使自己能胜任从事务处理、 批处理到分析处理的各种类型信息处理任务。后来人们认识到,由于 事务处理和分析处理具有不同的性质,用事务处理环境支持决策是行 豳l - 1 数据仓库系统结构圈 不通的。于是为了提高分析和决镱的效率和有效性,将分析型处理及 其数据与操作型处理及其数据相分离,按照决镱支持系统( d s s ) 处 理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为 了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 一个完整的数据仓库系统包含几个部分:源数据、g r l 、数据仓 库数据库、多维数据集、前端工具,元数据。其结构如图卜l 所示。 注;在本论文中敬据仓审系统指的是扶深觳据銎| 最蘑分析震示的整个 系统。数据仓宰致据痒指钓是存储整理后数据的数据存健。数据仓瘁 指的是教据仓枣数器痒和多维鼓据集, 一一源数据:数据仓库的源数据范围很广泛,可以是事务系统数据库 的数据,也可以是文件。 一- - e t l :e t l 是e x t r a c t i o n 、t r a n s f i o m a t i o n 、l o a d 的缩写,即数据 的抽取、转换、装载。是在数据仓库的实现和运行过程中,将数据由 数据源系统向数据仓库加载的主要过程。 一数据仓库数据库:按照星型或雪花模式设计的用于存储整理后数 据的关系型数据库。它是多维数据集的数据基础。 一一多维数据集:面向o l a p 分析的一种多维结构的数据存储。它由 维度和度量值的集合进行定义。 、 一o l a p 联机分析处理,是基于数据仓库上的一种多维数据分析 技术。0 l a p 委员会对0 l a p 的定义是,使分析人员、管理人员或执行 人员能够从多种角度对从原始数据转换而来的、能够真正为雇户所理 解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据更深入的理解的一类软件技术。 一一数据挖掘:是一种利用各种分析工具在海量数据中发现模型和数 据间关系的技术,这些模型和关系可以用来做出预测。 一一前端展示t 将数据仓库中数据的分析结果展示给用户的技术。 一一元数据j 简单的说是关于数据的数据。在数据仓库中元数据是定 义数据仓库对象的数据。包括数据仓库表结构、表属性;数据仓库的 源数据;从源数据到数据仓库的映射等。 1 1 2 点击流数据仓库的概念与特点 随着电子商务的飞速发展,电子商务对企业的经营活动开始产生 巨大的影响。电子商务逐渐成为企业市场销售和客户服务的一个重要 渠道。充分利用电子商务将给企业带来巨大的经济效益和社会效益。 电子商务网站每天都产生大量的数据,访客点击网站产生这些数 据被称作点击流数据。它们中包含很多对企业非常有甩的信息,例如, 客户的来源、客户的行为、客户的兴趣等。对这些数据进行有效的分 析,不但能够对电子商务网站的建设起到指导作用,增强网站的粘着 度,而且也能够反映出企业在市场、销骞、服务和财务等各个方面的 状况。总之,对这些数据深层次分析,能够使电子商务网站的拥有者 改善客户关系、充分提高企业在市场销售和服务等各个方面的质量。 分析这些点击流数据,即点击流分析,所需要的技术包括数据仓 库、数据挖掘和c r m 2 等。利用这些技术将市场、销售、服务协同起 来,可为企业带来更大的经济效益。点击流分析不仅是电子商务企业 在竞争中取胜的重要手段,而且也是传统企业在竞争中取胜的有力武 器。传统企业利用对企业电子商务网站上的点击流数据的分析及时了 解客户信息,从而为企业的市场销售服务。现在点击流数据与客户信 息的整合已成为w e b 数据分析的最新前沿。为点击流分析而建立起 的数据仓库称为点击流数据仓库。 点击流数据仓库与传统的数据仓库不同。首先是数据不同,点击 流数据仓库的数据源更丰富,它除了包含传统数据仓库的数据源外还 包含网站的日志文件;它包含的一些新的维,如页面( p a g e ) 、会话 ( s e s s i o n ) 、参考( r e f e r r e r ) 是传统数据仓库所不具有的。其次点击 流数据仓库包含了一些新的基于网页的技术和底层结构。 点击流数据仓库与网站日志分析工具不同。日志分析工具可以很 好的对网站运行的基本数据进行统计。包括,网站每小时、每天的流 量、参考( r e f e r r i n g ) u r l ,参考( r e f e r r i n g ) 主机,页面装载情况 等。然而日志分析工具没有涉及一个网站统计的重要内容一一访闰网 站的用户行为分析。对于一个运行在线商务的电子商务网站来说,仅 仅有网站流量统计是不够的。而建立点击流数据仓库的目的正是通过 用户行为分析来推动网站的商务发展。 通过点击流数据仓库的分析通常可以回答下列闯题:一个网站最 受欢迎的页面是哪个,最受欢迎的产品是什么:来访者从哪来,去了 哪里,他们在该网站停留了多长时间;网站哪里多余或者很少有人访 闯:有购买行为的会话占总会话的百分比;哪个页面是会话杀手; 来访者使用什么类型浏览器或操作系统;他们浏览本网站的路径;来 访者的身份如,来自哪个国家,什么机构;等等。两上述的初步分析, 可以进一步为市场分析、销售分析、网站管理、c r m 等分析管理提 供分析数据。 2 c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t 客户关系管理 1 1 3 数据仓库技术的未来发展 2 0 世纪9 0 年代以来,计算机技术,尤其是数据库技术的发展为 d s s 提供了技术支持。激烈的市场竞争促进了高层决策人员对d s s 的实际需求。两方面的共同作用,促成了以d w 为核心、以o l a p 和d m 为手段建设d s s 的可行方案。随着数据库技术的发展,d w 需要以下数据库技术的支持。 高性能数据库服务器d w 的应用不同子传统d b 的o l t p 应用。 传统d b 的应用是操作型的,而d w 的应用是分析型的。分析型应用 涉及奇勺数据量大,查询要求复杂,因此它需要高性能的d b m s 核心 的支持,以获得较快的分析结果。 并行数据库技术d w 中的数据量大,而且随着时间的增加,新 的数据还会不断加入。d w 中的数据库通常是g b 甚至t b 级的,是 超大规模数据库( v l d b ) 。并行数据库技术是存储和管理v l d b , 并提供对v l d b 复杂查询处理的有效技术。 数据库互操作技术d w 中的数据大多来自企业或行业中已运 行的o l t p 数据库或外部数据源。这些数据常常是异构的。d w 必须 从这些异构数据源中定期抽取、转换和集成所需要的数据。并把它们 存入d w 中。因此,异构数据源之间的互访和互操作技术是必须的。 1 1 2 微软的数据仓库架构: 1 2 1 微软构建数据仓库的工具集: 在数据仓库领域微软有自己的解决方案。在s o l s e r v e r2 0 0 0 中, 微软推出了一系列工具来支持数据仓库应用。这些工具中,一些是特 别为数据仓库应用而开发的,一些是与其他应用共同使用的。在微软 数据仓库应用中通常使用的工具有: 3 数据仓库及;e 在电信领域中的应用段云峰等电子工业出版社2 0 0 3 年1 0 月第1 版 6 关系数据库数据仓库使用关系数据库技术作为数据仓库构造、 设计、维护的基础。s q ls e r v e r 的核心部件是一个强大的功能齐全的 关系数据库引擎。s q l s e r v e r 2 0 0 0 使用提供了许多工具用于关系数据 库的设计和操作,而不管使用数据库的应用程序是什么。 数据转换服务( d a t a t r a n s f o r m a t i o ns e r v i c e s ) 数据仓库应用需要 将不同源数据转换到适合数据仓库应用的数据集合。s q l s e r v e r 2 0 0 0 提供了数据转换服务( d 1 s ) 来完成这一任务。d t s 可以访问范围广 泛的不同源的数据,并可按用户要求来完成数据转换。 复制数据库复制是一个可用于许多目的的强有力的工具。经常 用于分发数据和在o l t p 应用中进行分布式数据的一致更新。在数据 仓库应用中。复制可用于从中心数据仓库分发数据到数据集市,或从 数据准备区更新数据仓库的数据。 分析服务( a n a l y s i ss e r v i c e s )数据仓库收集并组织企业数据 来支持企业的决策分析。s q ls e r v e r2 0 0 0 的a n a l y s i ss e r v i c e s 提 供了联机分析处理( o l a p ) 的技术来组织数据仓库的海量数据以快速 响应客户工具对数据的分析。也提供了复杂的数据挖掘技术在数据仓 库数据中进行知识发现。 英语查询( e n g l i s hq u e r y ) 英语查询提供了使用自然英语语言访 问数据仓库数据的方法。例如,s h o wm et h es a l e sf o rs t o r e si n c a l i f o r n i af o r1 9 9 6t h r o u g h1 9 9 8 。英语查询可以转变英语到 s q l 语法或- 畎语法来查询关系数据库或o l a p 多维数据集。用户可 以为自已的数据仓库开发英语查询模型来降低使用s q l 或m d x 在数据 库或数据仓库中查找数据的复杂性。 元数据服务( m e t ad a t as e r v i c e s )s q ls e r v e r2 0 0 0 的各种 工具中许多都许多都存储元数据在一个集中的知识库( r e p o s i t o r y ) 中,该知识库位子m s d b 系统数据库中。s q ls e r v e r 2 0 0 0 元数据服务 提供了浏览这些元数据的方法,也为开发客户元数据应用提供了应用 程序接口1 。 j a c k s t r u m 著( m i c r o s o f t s q l s e r v e r 7 0 致据仓库技术拯南机械工业出版社2 0 0 0 年,月第一版 基于微软的这些工具构建的数据仓库系统如图1 2 所示。 1 分折量务 : i 。,j 圈1 - 2 构成鼓据仓库系统的工具 1 2 2m s a s ( 1 l i c r o s o f ts o ls e r v e ra n a l y s i 8s e r v i c e ) : m s a s 的体系结构包括包括分析服务器a n a l y s i ss e n ,e r 和数据透 视表服务p i v o tt a b l es e r v i c e s 。a n a l y s i ss e r v e r 是- - 个用于联机分析处 理( o l a p ) 和数据挖掘的中间层服务器。a n a l y s i ss e r v e r 从数据仓库 数据库中组织经过预先进行聚合计算的数据到多维数据集,以对复杂 的分析查询提供快速的响应。m s a s 也允许用户在o l a p 或关系数据 源上构造数据挖掘模型。 数据透视表服务位于客户端。让客户端的应用程序连接到服务器 来获取分析服务器的数据。数据透视表服务可以在0 l a p 服务器和所有 需要与之连通的外部应用程序之间提供连接。无论你使用m i c r o s o f t e x c e l ( 第三方软件) ,还是使用v i s u a lb a s i c 或c + 十应用程序,都需 要通过数据透视表服务与o l a p 服务器通信。 使用包括事实表和维表在内的星型图表创建数据仓库数据库之 后,必须建立含有维和度量的多维数据集,以供m s a s 使用。可以用关 系型o l a p ( r o l a p ) 、混合o l a p ( h o l a p ) 或多维o l a p ( m o l a p ) 保存 这些多维数据集。保存方法因情况不同而各异,并没有通用可言。可 以在三种存储方法中选择对数据库最有利的一种,或者把这些方法结 合起来使用。 r o l a p 是基于关系数据库的o l a p 。它以关系型结构进行多维数据 的表示和存储,不生成多维数据集,只生成数据仓库数据库中数据和 多维数据集的映射关系。m s a s 把聚合放在相关的数据仓库数据库中。 不使用特殊的多维数据结构来存储数据。图卜3 给出了一个r o l a p 解决 方案。 o l i p 系统 : r o l a j * 数据仓库 她8 一n 数据仓库数据 1 m s a s m 务十 岍j 舯担4 枣m 复 戥孵。:耳j 取,r :一比 兮 库的星型图表l 和聚合 用户应用( v b 应 _ 其他教据湃了用程序) 、e x l 图1 3 一个r o l a p 解决方案 需要注意的一点是,如果要使用r o l a p ,在没有测试确定是否o l a p 数据库降低了o l t p 系统效能的情况下,请不要把数据仓库数据库作为 一个o l t p 系统或它的一部分。在很大程度上,当使用r o l a p 时,把0 l t p 和o l a p 数据存储组合成一个数据库会对o l a f 系统产生负面影响,一般 认为这是一个不好的设计。 r o l a p 会将一切都留在数据仓库数据库中,而m o l p 却不会造成这 种结果。m o l a p 可将m s a s 所需的全部数据,包括基本数据和聚合数据 放入一个特殊的多维数据集中。m o l a p 的解决方案见图卜4 。在m o l a p 中,当在不同的多维数据集的维中使用同一个的数据仓库数据库的维 表时,相同的数据会被复制到所有的这些多维数据集中。如,有5 个 多维数据集全部使用关系数据库的时间维表来建立时间维,那么,在 多个多维数据集中将对时间信息进行5 次复制。这样做不仅浪费空间, 而且也浪费传送信息到数据库的时间。一个上千兆的大型数据库可能 要花上几个小时来进行处理。如果数据仓库数据库中的每个维表都只 是一次性传送到多维数据库,而所有多维数据集都使用这个复本,那 么,花费时间将少得多。s q ls e r v e ra n a l y s i ss e r v i c e 的虚拟数据 集采用的是这种解决方法。 o l t p 系统 m o l a p 数据仓库 一s o l s e r v e r 卜 数据仓库数据 幡 m s a s m 务f _ | 骑塌鬻堋毫瞳蕴 觋诹俚z m 斗 。库的星型图袭 毒 o r a c l ej 卢 簪铀基本氐 用户应用( v b 应 二_ 】他数据潭:p 据和聚合的用程序) 、l 圈1 - 3 一个m o l a p 解决方案 h o l a p 并不将基本数据从数据仓库数据库转换到多维数据集。从 这方面来看,h o l a p 很像r o l a p 。但聚合存储在多维数据集中。图1 - 4 给出t h o l a p 的解决方案。对r o l a p 和m o l a p 的讨论,我们只是侧重于 聚合和数据的存储。在m s a s 中,计算成员一般用于总计数据。计算成 员应驻留于内存,以便需要时进行重新计算。在集成水平较高的h o l a p 数据库中,m s a s 可以迅速找到计算成员。在聚合数量较多的h o l a p 数 据库中,由于多维数据集只存放聚合因此,可以迅速确定计算成员 的值。对计算成员来说,h o l a p 数据库也许比瀚l a p 数据库速度更快。 因此对由计算成员组成的事实表来说,h o l a p 可能是一种有效的存储 媒介。像r o l a p 一样,h o l a p 的钻取速度也很慢。但它却可以迅速从聚 合中获取信息。总之,h o l a p 的效能高于r o l a p ,但除了计算成员外, 它的钻取速度要低于m o l a p 。如果按照时阅进一步将常用的历史数据 分为两组,h o l a p 便有可能存储较旧的常用数据。这取决于公司的要 求和数据存储的需要。没有一个简单的解决方案。这就是m s a s 允许你 用三种格式中的任何一种存储数据的原因5 。 5 m i c r o s o f ts o l s o r v e r 7 0 数据仓库技术指南 ( - 羹) j a c ks t r u m 著帆槭工业出版社2 0 0 0 年9 月第一版 1 0 0 l t p 系统:h o l a p 数据仓库 、s q l s e r v e r 数据仓库数据 1m s a s t j l t 务f - - - t 数据透视袭服务 ;1 库的星型图表t - “1 少 4 誉量嘉拳 用户应用( v b 应用 墨燮f 程序) 、e x c e l 图i _ 4 一个h o l a p 解决方案 总之,由于r o l a p 直接使用数据仓库数据库中的数据,r o l a p 中只有映射关系,r o l a p 使用磁盘空间小。但由于数据包括基本数据 和聚合数据,数据的存储采用的是关系型存储不是多维数据集的形 式,所以分析数据,钻取数据需要的时间长。 狮l a p 把基本数据和聚合数据都放入多维数据集中,可以提高查 询速度,但需要更多的磁盘空间。 h o l a p 因为是基本数据在数据仓库数据库中,所以钻取速度也很 慢,但聚合信息存储在多维数据集中,故对聚合的查询很快。 1 3 数据仓库设计方法: 1 3 1 适用于数据仓库的建模方法一维度建模 维度建模是经常应用予数据仓库的一种逻辑设计技术的名称。该 技术试图采用某种直观的标准框架结构来表现数据,并且允许进行高 性能存取。每个维度模型都由具有复合键的某个表( 被称作事实表) 和一系列小型表( 被称作维度表) 组成。每个维表都有一个主键,它 对应着事实表中复合键的某个组成部分由于事实表有一个由两个或 者多个外键组成的多部分主键,所以它通常表示一种多对多关系。事 实表中还包含一个或多个事实。这些事实分为可累加事实、半累加事 实和不可累加事实三种。可累加事实,如数字、货币等,非常重要, 因为在数据仓库应用中几乎不会抽取事实表中的某一条记录,而是一 次抽取上干上万条记录,然后返回这些记录在事实上的累加值。半累 加事实是指只能沿着一些维度可累加的事实。不可累加事实是指不能 用于累加,只能用于计数的事实。虽然理论上可以存在文本性的事实, 但设计者应尽量把它们放入维表中。这样即可保证减少事实表所占空 间,也可使维度模型更合理。 维度模型中的维表通常包含商务过程的文本描述。它通常可以包 含更多的列( 属性) ,和少的行( 记录) 。维表的属性是用作数据仓库 查询的主要约束。它们是确保数据仓库可理解和有用的关键。数据仓 库的能力直接与维表的质量和深度成比例。 维度建模与实体关系建模不同。实体一关系模型适用于o l a p 系统建模,维度建模适用于o l a p 系统建模。o l t p 系统设计的目标 是扑获数据的快速变化和增加。o l a f 系统的设计自标是出于分析的 目的对信息的快速访问。实体一关系建模创建一个复杂的模型来描述 所有的商务过程。它的目标之一是减少冗余。而维度建模创建多个模 型来强调离散的商务过程。维度建模中事实表和维表里的数据冗余可 以容忍,而且为了达到提高查询效率的目的,有时必须包含大量冗余 数据。 t r a p h lk i m b a l l 在数据仓库工具箱中阐述的数据仓库维度建 模的方法包括下列步骤: 1 分析商务过程,确定分析主题。了解用户的商务流程,根据用户 的需求确定需要在数据仓库系统中分析的主题 2 根据分析主题建立数据集市。建立数据集市的过程又包括:a 、确 定分析主题的粒度。根据分析主题确定一个事实表中的一条记录 确切代表什么,事实表的事实是什么等级。确定粒度是维度建模 后继工作开展的基础。b 、确定应用于事实表的维度。确定的维度 将回答这样的问题,“商务人员将怎样描述从商务过程中得到的数 据”c 、确定事实表的事实。通过回答下面的问题可以确定事实, “什么是你需要来度量的”。使用的事实必须和该事实表的粒度一 致。不同粒度等级的事实不能共存于一张事实表中。 3 建立总线结构的数据仓库。在数据仓库工具箱一书中,r a p h l k i m b a l l 提出了数据仓库总线结构的概念。因为一次建立一个大型 的数据仓库太复杂,因此r a p h lk i m b a l l 提出数据仓库建设可以是 个长期的过程,为了保证最后数据仓库的成功,数据仓库的建设 应采用结构化的、增量的方法。该方法就是数据仓库总线结构。 通过定义标准的不同数据仓库定义总线接口,单独的数据集市可 以在不同的时候由不同的部门实施,然后按总线接口标准集成到 一起组成数据仓库。实施总线结构数据仓库的关键是建立一致维, 即在所有数据集市中共同都拥有的维度,其结构应一致s 。 1 3 2 其他数据仓库建模方法研究介绍: 维度建模方法在数据仓库项目实施中虽然有着广泛的应用,但该 方法本身存在着一些缺点。a 、用户需求分析具有非常高的不确定性, 分析主题经常改变,这就造成设计的不稳定性。b 、如果设计者没 有理解数据之间的潜在关系将导致不正确的设计。c 、不恰当的数据 聚合将导致信息丢失,这会限制数据的分析方式。d 、该方法没有模 型设计好坏的评价标准,是经验性的,没有理论支持。 在一些大学研究机构中,特别是一些欧洲的大学。提出了新的数 据仓库建模方法。u n i v e r s i t y o fm e l b o u r n e ,a u s t r a l i a 的d a n i l e l m o o d y 提出了基于企业数据模型来设计中央数据仓库,再到数据 集市模型的方法。a a l b o r g u n i v c r s i t y ,d e n m a r k 的n e c t a r i a 等人提出 了s t a r e r 模型,它结合了很成熟的传统数据库设计中的e r 方法和星 型模型方法。s t a r e r 是概念模型设计方法它可以精确的反映用户需 求,并且模型具有可扩展性。f r e eu n i v e r s i t yo fb o z e n - b o l z a n o j t a l y 的e n d c of r a n c o n i 等人提出了基于多维聚集实体的概念的扩展e r 模 型数据仓库建模方法。该模型有一个清晰的模型理论语义,该语 义是基于对标准e r 模型的扩展。 6 、r a p mk i m b a l l 数据仓库工具箱 电子工业出版社2 0 0 3 2 b o o k m a r t 点击流数据仓库需求分析 2 1 图书销售网站介绍 点击流数据仓库b o o k m a r t 基于一个实验性的图书销售商务 登录 i n d e x 舍员登录 搜囊图书li 图书分类 s e a r c hjl c a t e 2 0 r v 酋页 m a i n 匝 出版专区 p u b 按最新或 促销列示 l 列示图书 l i 8 t 前端展示 销售捧行 s a l e b o a r d l 显示图书详细信息i 叫 s h o w | 、- - - - - - - - - - - - - j 将瑗赡圈书放人赡物车+产生订单 f 购物车l 一购买 图2 - l 图书销售网站业务流程 网站b 0 0 k s a l e 。b o o k s 札e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论