(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf_第1页
(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf_第2页
(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf_第3页
(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf_第4页
(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(系统分析与集成专业论文)基于数据仓库的邮政速递经营分析系统应用与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京信息工程大学硕士学位论文 摘要 数据仓库是近年来新兴的一种企业信息系统建设的技术,它能把收集到的数 据转变成有意义的可用于分析的信息。利用数据仓库技术来构建企业的信息系统, 可以使企业的信息平台由原来的以单一数据库为中心的数据环境发展为体系化的 数据环境为企业提供商业决策支持信息。 物流信息化水平的提高,使得物流战略已从内部一体化向外部一体化转变, 供应链管理已成为竞争战略中非常重要的组成部分,信息化物流网络体系的应用 使数据规模不断扩大,产生的巨大数据流使企业很难对这些数据进行准确、高效 的收集和及时决策。为了适应激烈的市场竞争环境,充分利用业务支撑系统产生 的大量宝贵的数据资源,必须从大量的业务数据中提取出有用的信息,实现对信 息的智能化加工和处理,为市场经营工作提供及时、准确、科学的决策依据。 随着中国改革的不断深入,中国邮政的产业结构与市场环境发生了根本性的 变化在一个全新的、更加竞争激烈的市场环境下,如何提升自身的核心竞争力, 是一个关键问题。用数据仓库技术来构建速递的经营分析系统,是必然的选择 本文以中国邮政速递的经营分析系统为背景阐述了数据仓库的基本概念和方 法从数据仓库、勘几和o l a p 这几个方面论述了数据仓库系统的构建,着重阐 述了该系统中o k ”部分的设计,实现以及应用。该系统工作稳定可靠、效果良 好,能够帮助客户从大量庞杂的数据源中获取及时准确的业务信息,提供服务、 管理质量,同时对今后类似系统的设计也有很好的借鉴作用。 关键字:数据仓库;e t l 联机分析处理 l 南京信息工程大学硕士学位论文 a b s t r a c t d a mw a r e h o u s ei s 趾锄豇g i n g t e c h n o l o g y t h a tc o u l db u i l d e n t e r p r i s e i n f o r m a t i o ns y s t e mi nr e c e n ty e a r s n 塘c o l l e c t e dd a t ac a nb ec o n v e r t e di n t o m e a n i n g f u li n f o r m a t i o nb yi t b yu s i n gt h et e c h n o l o g y , w ec 锄b u i l de n t e r p r i s e i n f o r m a t i o ns y s t e mw h i c hc a nm a k et h es y s t e mo fas i n g l ed a l a b a s ep l a t f o r ma st h e d a t ac e n t e re n v i r o n m e n ti n t ot h es y s t e mo fs y 啦m a t i s m w ec o u l dg e tc c m e l m e l - c i a l d e c i s i o ns u p p o r ti n f o r m a t i o nf r o mt h es y s t e m a t i cs y s t e m w i t ht h ed e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g yo f t r a n s p o r t a t i n n ,t h es t r a t e g yo f t r a n s p o r t a 矗o n h a sc h a n g e df r o mi m e m a lt oe x t e r n a l i n t e g r a t i o n s u p p l yc h a i n m a n a g e m e n th a si c o m eav e r yi m p o r t a n tc o m p o n e n to fc o m p e t i t i v es t r a t e g y a p p l i c a t i o no f n e t w o r ki n f o r m a t i o ns y s t e m a t i s mm a k e st h es c a l eo f t h ed a me x p a n d i t i sv e r yd i f f i c u l tt oc o l l e c td a t ae x a c t l ya n d e f f i c i e n t l y a l s od i f f i c u l t 幻m a k ed e c i s i o ni n t i m e a d a p t i n gt ot h ef i e r c ec o m p e t i t i o ne n v i r o n m e n to fm a r k e t ,a n d 诅k i n gf u l l a d v a n t a g eo ft h ev a l u a b l e d a t ar e s o 嘲o ft h eb u s i n e s ss u p p o r ts y s t e m , w e s u b t r a c t e dt h eu s e f u li n f o r m a t i o nf r o mal a r g en u m b e ro fb u s i n e s sd a ma n dm a d et h e 阳j i z a d o no fi n f o r m a t i o nb e e np r o c e s s e da n di m n d l e di n t e l l i g e n t l y , w h i c hw ew o u l d u s et om a k e t i m e l y 、a c , c t u m ea n ds c i e n t i f i cd e c i s i o n w i t ht h ed e e p a n i n go ft h ec h i n a sr e f o r m , t h em a r k e te n v i r o n m e n ta n dt h e i n d u s t r ys m l c t m eo fc h i n ap o s th a v eu d f r g o i l eaf u n d a m e n t a lc h a n g e u n d e ra b r a n - n e wa n dm o r ec o m p e t i t i v em a r k e te n v i r o n m e n t , h o wt oe i t h a l l c et h e i rc o r e c o m p e t i t i v e n e s si sap i v o t a lp r o b l e m i naw o r d , u s i n gd a mw a r e h o u s et e c h n o l o g yt o b u i l dt h eb u s i n e s sa n a l y s i ss y s t e mo f e m si st h ei n e v i t a b l ec h o i c e t h i sp a p e rd e s c r i b e st h eb a s i cc o n c e p t sa n dm e t h o d so fd a t aw a r e h o u s eo f c p e m s rr e p r e s e n t st h ed e s i g na n di m p l e m e n to f t h ed a mw a r e h o u s es y s t e mb yt h e w a yo fs e v e r a la s p e c t s , e s p e c i a l l yt h ep a r to fo l a p s i n c ea c t u a lo p e r a t i o no ft h e s y s t e m , i th a sh e l p e dc u s t o m e r sg e tal a r g en u m b e ro fa c c u r a t ea n dt i m e l yb u s i n e s s i n f o r m a t i o ns t e a d i l yf i o mn u m e r o u ss o r r c a o fd a t ao b t a i n e d a l s oi tc 强t a k eav e r y g o o dr e f e r e n c et ot h ed e s i g no f s i m i l a rs y s t e m 学位论文独创性声明 本人郑重声明: 1 、坚持以。求实、创新的科学糟神从事研究工作 2 ,本论文是我个人在导师指导下进行的研究工作和取得的研究 成果 3 本论文中除引文外,所有实验,敦据和有关材料均是真实的 4 ,本论文中除引文和致谢的内容外,不包含其他人或其它机构 已经发表或撰写过的研究成果 5 ,箕他同志对本研究所傲的贡献均已在论文中作了声明并表示 了谢意 ,- ,rr 作者签名:! ! 堡 日 期:坦z :主:塑 学位论文使用授权声明 本人完全了解南京信息工程大学有关保留,使用学位论文 的规定,学校有权保留学位论文并向国家主管部门或其指定机构送 交论文的电子版和纸质版l 有权将学位论文用于非赢利目的的少量 复嗣并允许论文进入掌校图书馆被考阅:有权将学位论文的内容编 入有关教据库进行检索;有权将学位论文的标题和摘要j 编出版 保密的学位论文在解密后适用本规定 作者签名: 日期: i 莼 关于学位论文使用授权的说明 本人完全了解南京信息工程大学有关保罾、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以 采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵循此规定) 作者签名: 壬老 日期:塑2 :点:些 导师签名: 日期: 南京信息工程大学硕士学位论文 1 1 系统开发背景 第一章前言 由于信息技术的不断发展、推广和应用,在企业中出现了大量的业务处理系统和办公 自动化系统,随之产生了大量的业务数据。这些系统的数据有着各自的业务特点,并且随 着时间和业务的发展而不断地积累、分布在不同的系统平台上,以多种存储形式存在着。 市场竞争的加剧导致信息对于企业的生存和发展起着越来越重要的作用。企业有关主管部 门和业务人员希望能够对组织中大量数据的分析,了解业务的发展趋势,作出更符合业务 发展规律的决策。怎样才能从这样复杂的数据环境中得到有用的数据? 随着分布式结构的 成熟,数据库技术的提高和数据处理技术的发展,数据仓库( d a t aw a r e h o u s e ,d 町应运而 生 1 。 数据仓库技术起源于对大量数据进行处理的需要,是随着业务应用的需要而产生的。 它是计算机和数据应用发展到一定阶段的必然产物,数据仓库系统为企业提供准确而完善 酶信息,为实现以客户为中心的业务策路提侠了技术上的可行性。数据仓库是伴随着信息 与决策支持系统的发展过程产生的c 6 与传统的数据技术相比,数据仓库为决策分析提供 了更好的支持,跳出了传统的联机事务处理的范畴。因此,近几年来数据仓库技术发展很 快,并在各个行业都得到了很多的应用。数据仓库是一个综合的解决方案,对原始的操作 数据进行各种处理并转化成一个有用的信息的处理过程,主要是用来帮助企业有关主管部 门和业务人员作出更符合业务发展规律的决策。 随着中国速递市场竞争的日益激烈,中国邮政的产业结构与市场环境发生了根本性的 变化。客户对速递业务服务品质的要求不断提高,中国邮政速递业面临来自国内外的双重 竞争压力,信息技术对业务经营发展的支撑作用尤显重要。如何以客户为导向进行企业的 经营运作,使企业在激烈的竞争中立于不败之地,成为中国邮政经营管理者面临的严竣课 题。在企业中运用数据仓库技术建立经营分析系统,能充分利用业务支撑系统产生的大量 宝贵的数据资源,从这些大量的业务数据中提取出有用的信息,实现对信息的智能化加工 和处理,为市场经营工作提供及时、准确、科学的决策依据 以邮件全信息采集和生产作业处理为基础;以全田联动统一版本软件和数据集中存储、 管理,开发应用为中枢;以信息和系统运行质量以及业务运作质量监控管理为主要手段; 以应用先进的计算机和通信技术,邮政综合网和互联网为主要依托。中国邮政速递业已经 具备了建立数据仓库的基础条件 1 南京信息工程大学硕士学位论文 本文所述经营分析系统来自中国邮政速递业务的实际需求。该公司拥有大量的业务数 据,但由于存在过多冗余数据和数据的不一致,这些数据变得难以访问和管理,随着数据 量的成倍增长,这个问题越来越突出。对数据的失控,使信息中心的开发应用变得非常复 杂,在这种情况下,迫切需要通过数据仓库,来汇总这些信息,并支持数据挖掘、多维数 据分析以及传统的查询和报表功能。把大量的数据转换成可靠的、商用的信息,以便于决 策支持。为了保证中国邮政速递在激烈的市场竞争中能够满足新业务,新需求、新机会的 需要,有效提高速递市场前沿的信息化水平,辅助提升速递市场精细化营销水平和深度运 营能力,确保中国邮政速递的市场领先地位,需要经营分析系统来支撑以上的需求。 1 2 国内外数据仓库发展现状 ( 1 ) 数据仓库的市场发展 在国外数据仓库的应用较为普遍,并呈现出应用较早、在电子化数据积累方面比较领 先、业务应用较为丰富、业务人员i t 背景较强、有比较完善的管理和实施等特点。从目前 看处于世界5 0 0 强的企业多数都在建设或已经建设完成数据仓库系统,处于世界前列的 电信运营企业均建设有数据仓库系统。 国外电信运营商数据仓库的建设起始于2 0 世纪9 0 年代中后期,如a t & t w i r e l e s s ,从 1 9 9 7 年夏天开始建设数据仓库,一直到2 0 0 1 年的8 月才算完成,中间用去了差不多4 年 的时间,经过了多次的改造,逐步新增了1 8 个数据源,并进行了大规模的节点和系统的扩 展。西南贝尔的数据仓库建设开始于1 9 9 4 年,是当时最大的数据仓库,到2 0 0 0 年9 月份 时已达到1 7 8 个节点,7 1 2 0 个1 8 2 g 的磁盘。数据库容量达1 2 8 t b ,2 0 0 4 年9 月时达到3 1 4 个节点,数据库容量达2 4 2 t b 。 随着全球经济一体化进程的推进和中国加入1 盯0 ,大多数行业的市场竞争格局都发生 了重大变化,信息成为了市场竞争的最重要的武器。随着技术的进步、客户需求的增长和 竞争的加剧,企业的运营模式从“以产品为中心”向。以客户为中心”演进。以客户为中 心的业务模式脱胎于现代营销理论的市场营销观念,以企业的目标客户和他们的不同需求 为导向指定产品和服务,企业资源围绕客户的价值周期进行分配和组织 1 2 。 在中国的电信运营企业中,中国移动和中国联通都是较早引入了数据仓库应用的 电信运营企业,中国电信和中国网通目前尚在着手建设标准,各项工作还在规划部署 中。相比之下,于2 0 0 2 年开始部署建设数据仓库的中国移动则取得了非常不错的成绩, 不仅建设了世界最大数据仓库系统,建设性地提出了。分级式数据仓库理论”,为我 2 南京信息工程大学硕士学位论文 国移动通信数据仓库的建设与应用积累了不少经验。 近几年来,随着中国市场竞争的加剧和企业信息化的需要,国内的数据仓库建设得到 了迅猛发展,如邮政行业引入数据仓库进行基本业务分析,铁道部f i l l 入数据仓库进行客 流分析,零售业通过数据仓库进行产品管理分析等。 随着中国信息化建设的不断深入,以及中国企业走出国门的需要,数据仓库技术 必将会在中国获得更多的应用。但整体来讲,由于国内数据仓库的建设和应用起步较晚, 与国外相比还有相当的差距,并呈现出投入大、产出大,应用处于起步阶段,人才匮乏等 特点。 2 ) 数据仓库的市场产品 i 蹦、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 和s a s 等有实力的公司通过 收购或研发的途径推出了自己的数据仓库解决方案,和b r i o 等专业软件公司也在前端 在线分析处理工具市场上占有一席之地。 i 跚公司提供了一套基于可视数据仓库的商业智能( b i ) 解决方案,包括v i s u a l w a r e h o u s e ( v 1 ) 、e s s b a s e d b 2o l a ps e r v e r5 0 、i 蹦d b 2u d b ,以及来自第三方的前端数 据展现工具( 如肋) 和数据挖掘工具( 如s s ) 。 o r a c l e 数据仓库解决方案主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部分 o r a c l ee x p r e s s 由四个工具组成:o r a c l ee x p r e s ss e r v e r ,o r a c l ee x p r e s so r a c l e e x p r e s so b j e c t ,o r a c l ee x p r e s sa n a l y z e r 。 s y b a s e 提供的数据仓库解决方案称为w a r e h o u s es t u d i o ,包括数据仓库的建模、数据 抽取与转换,数据存储与管理、元数据管理以及可视化数据分析等工具。 i n f o r m i x 于1 9 9 8 和1 9 9 9 年相继收购了囝际上享有盛誉的数据仓库供应商r e db r i c k s y s t e m 和数据管理软件供应商a r d e n t ,并提供了完整、集成的数据仓库解决方案。2 0 0 5 年4 月i n f o r m i xs o f t w a r e 已被i b m 公司收购,此举将给i 蹦公司数据库及数据仓库产品, 从技术和市场占有率上带来极大的提升。 c a 于1 9 9 9 年收购了p l a t i n u mt e c l m o l o g y 公司后,得到了完整的数据仓库解决方案, 包括:e r w i n 数据仓库设计工具、i n f o p u m p 数据转换与抽取工具、i n f o b e a c o nr o l a p 服务 器、f o r e s t t r e e s 前端数据展现工具,p r o v i s i o n 系统监视与作业调度工具和 d e c i s i o n b a s e 元数据管理工具等 n c rt e r a d a t a 是高端数据仓库市场最有力的竞争者,主要运行在n c rw o r l d 妇r ks 婶 硬件的u n i x 操作系统平台上。1 9 9 8 年,该公司也提供了基于w i n d o w sn t 的t e r a d a t a ,试 图开拓数据集市( d a t am a r t ) 市场 3 南京信息工程大学硕士学位论文 m i c r o s o f t 将0 l a p 功能集成到m i c r o s o f ts o ls e r v e r7 0 中,提供可扩充的基于c o m 的0 l a p 接口。它通过一系列服务程序支持数据仓库应用 9 0 年代以后,s a s 公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库 解决方案。 1 3 本文研究的主要内容 第一章主要介绍了论文的研究背景,国内外研究现状,并对全文内容进行了说明。 第二章主要介绍本文中涉及到的一些核心技术,其中包括数据仓库、联机分析处理 ( o l a f ) 以及e t l 第三章从系统概况、数据仓库设计、o l a p 设计和e t l 设计几个方面来描述整个经营 分析系统的设计 第四章主要描述的经营分析系统的实现所需要的软硬件环境,以及前端应用和e t l 的 实现。 第五章以邮件收寄信息综合分析为例,详细描述从搭建模型,到前端展现,分析的 o l a p 实践应用。 第六章对本文的研究成果和创新点进行总结,并提出了下一步研究方向。 4 南京信息工程大学硕士学位论文 2 1 数据仓库 z 1 1 数据仓库产生 第二章预备知识 信息技术的不断推广应用,将企业带入了一个信息爆炸的年时代。每时每刻都有潮水 般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型主 要分事务型( 操作型) 处理和信息型( 分析型) 处理两大类。事务型处理也就是通常所说的业 务操作处理。这种操作处理主要对管理信息进行日常的操作,对信息进行查询和修改,目的 满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到快速的处理, 信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一 步的分析,为管理人员的决策提供支持。例如为决策支持系统( d s s ) 提供信息分析的支持。 这类处理必须访问大量的历史数据才能完成,而不像事务型处理那样,只对当前的信息感 兴趣。 由于传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处 理等各种数据处理工作,而且传统数据库中只保留当前的管理信息,缺乏决策分析所需要 的大量历史信息所以传统数据库虽然在联机分析处理( o l t p ) 中获得了较大的成功, 但却无法满足管理人员的决策分析要求。为了满足管理人员的决策分析需要,在数据仓库 基础上产生了能够满足决策分析所需要的数据环境数据仓库( d a t aw a r e h o u s e , d w ) 。 数据仓库是近年来* 起的一种新的数据库应用,在中国已经有了快速发展,很多企业 已经建立了自己的企业级数据仓库,这些企业主要集中在金融,电信,教育等行业,但是 中外企业在数据仓库的实施和应用水平上还存在相当大的差距,这主要是由于中国的企业 需求层次不高和田内还没有形成一套统一的关于商业智能的评判标准所造成的 z1 2 什么是数据仓库 数据仓库概念创始人w h n i n o n 对数据仓库的定义是旧:数据仓库就是面向主题的、 集成的、不可更新的( 稳定的) 、随时间不断变化的数据集合,用以支持经营管理中的决策 制定过程。 5 南京信息工程大学硕士学位论文 从w h i l f l m o l l 关于数据仓库的定义中可以分析出数据仓库具有这样一些重要的特 性:面向主题性、集成性、时变性、非易失性、集合性和支持决策作用 ( 1 ) 面向主题性 数据仓库中的数据面向主题,与传统数据库面向应用相对应,是一个抽象的概念,是在 较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象每一个主题对应 一个宏观的分析领域,主题是一个在较高层次上将数据归类的标准; ( 2 ) 集成性 数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是 建立数据仓库的关键步骤。因为,通常构造数据仓库是将多个异种数据源集成在一起,这 些数据既可以来自企业内部,也可以来自企业范围以外的某些市场信息。 ( 3 ) 时变性 所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系 统地记录了企业从过去某一时点到目前( 一般为5 - - 1 0 年) 的数据,主要用于进行时间趋势分 析。数据仓库是不同耐间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策 分析的需要,而且数据仓库中的数据都要标明该数据的历史时期因此数据仓库中的数据 是随时间的变化不断变化的。这特征主要表现在以下三个方面:首先数据仓库随着时间 的变化不断增加新的内容;其次,数据仓库随时间变化不断删除旧的数据内容;最后,数 据仓库中包含大量的综合数据,这些综合数据中很多跟时间有关,所以这些数据会随着时 间的变化不断她进行重新综合。 ( 4 ) 非易失性 数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。通常,它 只需要两种数据访问:数据的初始化装入和数据访问,而且不能对数据仓库中的细节数据 自行进行改动。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。数据仓 库反映的是历史数据的内涵,而不是日常事务处理产生的数据,数据经加工和集成进入数 据仓库后是不可修改的。所以,细节数据几乎是不进行更新的,而只能进行追加。 必须指出非易失性与时变性之间的区别。前者是指作为数据仓库的使用者不能也不应 该去改动数据内容,因为这样做会影响统计分析结果。而后者则是指随着新数据的不断进 入数据仓库中的某些统计变量应该进行相应的调整。当然,这种调整是由系统来完成的, 对用户而言完全是透明的。 ( 5 ) 集合性 数据仓库的集合性意味着数据仓库必须以某种数据集合的形式存储起来。目前数据仓 6 南京信息工程大学硕士学位论文 库所采用的数据集合方式是以多维数据库方式进行存储的多维模式,以关系数据库方式进 行存储的关系模式或两者结合的方式进行存储的混合模式 z1 3t e r m i a t a 强馐 1 轰摩 n c r 公司的t e r a d a t a 一直都是高端数据仓库市场最有力的竞争者,t e r a d a t a 数据库 1 9 8 4 年首次推出,至今产品已经相当成熟,有大量的成功案例。数据仓库在投入使用后, 各业务部门的要求会越来越多,使得数据仓库中数据量的增长速度很快,因此系统的可扩 展性和并行处理能力是衡量数据仓库性能的重要因素。 ( 1 ) t e r a d a t a 可扩展性 t e r a d a t a 数据仓库的可扩展性体现在系统的支持与完善阶段。在数据仓库投产后随 着企业业务的迅速扩展,可能提出新的业务需求,这时要对原来的逻辑模型进行扩展和调 整,同时数据仓库的物理模型也作相应的扩展和调整,以进一步完善数据仓库,解决新的 业务问题。 t e r a d a t a 数据仓库的可扩展性也体现在系统的硬件设备上。举例来说,如果原来有一 台5 1 0 0 s 计算机,当系统负载过重,处理能力下降的时候,可以增加相同或类似的结点, 与原来的结点通过一种性能很强大的b y n e t 网络组成一个m p p ( 多结点海量并行处理系统) 系统,从而实现系统的线性扩展。 ( 2 ) t e r a d a t a 并行处理机制 强大的并行处理能力是t e r a d a t a 的最显著的特色,其实现方式被称为多维并行处理机 制,描述如下: 查询并行:这种并行处理是基于h a s h 数据分配机制实现的。每个a m p ( 存取模块 处理器) 备自独立负责一部分数据的处理,相互之间没有关系,每个结点一般配 置4 至1 6 这样的a m p 。所有关系运算如表的搜索,索引检索,投影,选择,联接, 聚集,排序等都是有各个a m p 并行进行的。 步内并行:一个s o l 查询进入系统后,首先由优化器进行优化处理,分解成一些 小的步骤,然后再分发给各a m p 进行处理。一个步骤可能非常简单,如“搜索一 个表并返回结果”;也可能非常复杂,如“按照某条件搜索两个表,然后联接, 结果投影到某几个列,对他们加和( 涮) 后返回结果。象这种复杂的查询将处 理多个关系运算,每个关系运算在一个a m p 内将启动多个进程来实现并行处理, 称为步内并行 多步并行:上面说过,一个s o l 被分解成多个小步骤,这些步骤的执行将同时进 7 南京信息工程大学硕士学位论文 行,称为多步并行。优化器分解一个s 札查询请求的原则是尽可能使各步独立。 目前所有的d b 峪产品中,只有t e r a d a t a 实现了多步并行 ( 3 ) t e r a d a t a 数据库的数据分配与数据访问机制 t e r a d a t a 数据库采用哈希( h a s h i n g ) 算法作为其唯一的数据分配机制。它将表的主 索引作为哈希算法的输入值,并且利用一个矩阵结构的h a s hm a p ,将哈希运算计算出来的 输出值通过此矩阵与系统中的各个a m p 进行映射。h a s hm a p 中的元素称为h a s hb u c k e t , 它们实际上对应了系统中各个a m p 的编号。这样,通过h a s h m a p 就可以将一条记录。引导” 到相应的a 肝上进行操作。 同样t e r a d a t a 数据访向也使通过主索引算出哈希值,来查询数据的,基于主索引的数 据访问只需要一个a m p 操作就可直接定位数据记录,因此是最快速的。 2 2 联机分析处理一0 l a p 建立数据仓库的目的是为了对数据仓库中的数据进行灵活多样的查询分析。数据仓库 中数据的组织方式为进行这种查询分析提供了可能,但是仅仅依靠数据仓库本身并不能完 成这种复杂的数据查询分析。为了对数据仓库中数据进行多角度,多视图的查询,方便地 获得概括性的或详细的信息,就必须依靠其他的技术和工具。联机分析处理( o l a p ) 就是这 样的一种技术。 z z1 乱 产生背景及定义 数据仓库的建立为有效利用数据资源,帮助进行管理决策奠定了基础。但对数据仓库 中的数据进行分析必须要有功能强大的工具的支持。联机分析处理就是一个得到广泛使用 的基于数据仓库的数据分析技术。它能够根据分析人员的要求,快速灵活地对大量数据进 行复杂的查询处理,并以直观和易于理解的方式提供给使用者。 2 2 1 1o l a p 产生背景 年代,关系数据库之父e f c o d d 提出了关系模型,促进了联机事务处理( o l t p ) 的 发展( 数据以表格的形式而非文件方式存储) 。o l t p 数据一般都是原始的,细节性的,当前 值的数据,是可更新的;o l t p 数据是面向应用,面向操作人员的,并支持日常操作。e f c o d d 予1 9 9 2 年首先提出联机分析处理o l a f ( o n - l i n e a n a l y 位c a l p r o s m g ) ,其目的是解决如何 南京信息工程大学硕士学位论文 利用联机事务处理系统产生的大量数据为组织的决策提供信息1 9 9 3 ,e e c o d d 及其同事 发表了一份题为“p r o v i d l n go l a p ( o n - l i n en n a i y a c a lp r o c e s s i n 9 0t ou s e r - a n a l y s t s :a ni t m a n d a t e ”的自皮书【5 】,书中提出了o l a p 概念,认为o l t p 已不能满足终端用户对数据 库查询分析的需要s q l 对大型数据库进行的简单查询也不能满足终端用户分析的要求。 用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足 决策者提出的需求。因此,e e c o d d 提出了多维数据库和多维分析的概念,即o l a p 。o l a p 数据一般都是导出数据,综合性和提炼性较强,并且不可更新,但可周期性刷新;o l a p 数据是面向分析。面向决策人员的。支持管理需要。 o l a p 是独立于数据仓库的一种技术概念,基本思想是:企业决策者应能灵活地操作 企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。o l a p 系统与数据源的数据存储相分离,只要提供足够的数据即可完成o l a p 分析。当o l a p 与 数据仓库结合时,o l a p 的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织 的。 幺乞1 2 d - 厶是0 u i p o 】o l p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始 数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速, 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 f a s m i ( f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a lh , f f o r a n u i o n ) ,即共享多维信息的快速分 析。这是o l a p 的简明定义,它清楚地将o l a p 的特征描述了出来: 。 ( 1 ) 快速性( f a s t ) :用户对o l a p 的快速反应能力有很高的要求系统应能在5 秒内对 用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐 烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不 容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的 硬件设计等 ( 2 ) 可分析性( a n a l y s i s ) :o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以 定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告用户可以在 o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、 成本分配工具、意外报警、数据开采等; ( 3 ) 多维性( m u l t i d i m e n s i o n a l ) :多维性是o l a p 的关键属性系统必须提供对数据分析 9 南京信息工程大学硕士学位论文 的多维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企 业数据最有效的方法,是o l a p 的灵魂: ( 4 ) 信息性( i n f o m 谢o n ) :不论数据量有多大,也不管数据存储在何处,o l a p 系统应能 及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可 利用的磁盘空间,o l a p 产品的性能及与数据仓库的结合度等 ( 5 ) 共享性( s h a r e d ) :系统能够实现在多用户环境下的安全保密要求和并发控制 z 2 1 30 l a p 和0 1 1 1 ) 的比较 o l t p 称作联机事务处理,o l a p 是继o l t p 之后发展起来的一种技术,它们的区别如 下: ( 1 ) o l a f 和o l t p 产生的背景和目的不同。前者的目的是通过对现有数据进行分析处 理,获得信息,支持决策。而后者的目的则是加速对业务数据的处理,支持企业的业务运 作。 ( 2 ) 使用的数据模型不同。o l t p 使用的是传统数据模型( 关系模型) ,而o l a p 则使用 基于维表和事实表的星型多维数据模型 ( 3 ) 数据的综合程度不同 ( 4 ) o l a p 中的数据不可更改,但需要周期性的刷新;而o l t p 中的数据可以更改。 ( 5 ) 对数据的处理不同。o l t p 对数据进行操作型处理,一般运用s q l 命令进行追加, 删除、修改、简单查询等处理。而o l a p 则进行切片、切块、旋转、钻取等分析处理。 z z 2 仉舻的基本概念 多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 展现在用户面前的是一幅幅 多维视图。 ( 1 ) 度量值 度量值是人们观察事务的焦点。如,对于企业来说,最关心的是其产品的销售量、销 售额、利润等情况。销售量、销售额、利润就是度量值。在多维数据集中,度量值存放于 多维数据集的事实数据表中,而且通常为数字换句话说,度量值是最终用户浏览多维数 据集时莺点查看的数字数据。度量值的选择取决于最终用户所请求的信息类型。 ( 2 ) 维 维是指人们观察事务的角度。例如,企业的决策者非常关注其产品随着时间推移而在 南京信息工程大学硕士学位论文 销售数量上的变化情况,这时,时间就是决策者观察事务的一个角度,因此时间就是一个 维;有时,决策者希望了解产品在不同地区的销售情况,这时,地区成为决策者观察事务 的一个角度,地区也成为一个维 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个描述层次, 我们称这些描述层次为维的层次。例如,时间维可以分为日期,周、月份、季度、年等不 同维层次,地区维可以分为街道、城市,省、地区等不同的维层次。 维的一个取值称为该维的一个维成员。如果维已经分成了多个层次,则维成员就是不 同维层次取值的组合。例如:假定某公司的销售数据的地理维分为省、市、县三个层次, 则“河南省新乡市长垣县”就构成地理维的一个维成员。 ( 3 ) 多维性 人们很容易理解一个二维表( 如通常的电子表格) ,对于三维立方体同样也容易理解。 o l a p 通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、 商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维( 如加入商 店维) ,则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑 维和物理维的差异。o l a p 的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌 套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、 分析数据,进行决策支持。 z z 3 乱舻的基本操作 切片( s l i c i n g ) :切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一 定区间的属性成员或全部属性成员来观察数据的一种分析方式 切块( d i c i n g ) - 切块就是在各个维上取一定区间的成员属性或全部成员属性来观察数据 的一种分析方式。可以认为切片是切块的特例,切块是切片的扩展。 钻取( d r i l l i n g ) :钻取包括向下钻棚- d o 咖) 和向上钻a ) r i l h l p y 上卷( r o l l - u p ) 操作。下 钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维所 划分的层次相对应。 旋转( p i v o t i n g ) :旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列, 或是把某一个行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换。 l l 南京信息工程大学硕士学位论文 z z 4 乱舻多维致据结构 数据在多维空间中的分布总是稀疏的、不均匀的在事件发生的位置,数据聚合在一 起,其密度很大。因此,o l a p 系统的开发者要设法解决多维数据空间的数据稀疏和数据 聚合问题。事实上,有许多方法可以构造多维数据。 ( 1 ) 超立方结构 超立方结构( h y p e r b e ) 指用三维或更多的维数来描述一个对象,每个维彼此垂直。 数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。这种结构可 应用在多维数据库和面向关系数据库的o l a p 系统中,其主要特点是简化终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数 更少,并可加入额外的分析维。 ( 2 ) 多立方结构 在多立方结构( m u l t i m b e ) 中,将大的数据结构分成多个多维结构这些多维结构是 大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。 它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接近 超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的m i s 专家更喜 欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一 个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多 立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 z z 5 吐舻数据的存储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: ( 1 ) 关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况下, 数据以星型结构或雪花结构进行存储 星型模式:数据仓库中包含一个大的包含大批数据和不冗余的事实表( 中心表) ;一组 小的附属表,称为维表。事实表中每条元组都含有指向各个维表的外键和一些相应的测量 数据,维表中记录的是有关这一维的属性。如图2 1 所示 南京信息工程大学硕士学位论文 s l e s ( 事实表) 圈z 1 重型模式 雪花模式:星型模式的变种,其中某些维表是规范化的。如下图2 2 所示 h m e s l l a ( 事实表) k e r n 圈互2 暑花模式 星型模式与雪化模式的差异:雪花模式的维表可能是规范化的,以便减少冗余。这种 表易于维护,并节省存储空间。实际上,与巨大的事实表相比,这种空间的节省可以忽略 南京信息工程大学硕士学位论文 此外,由于执行查询需要更多的连接操作。雪花结构可能降低浏览的性能。所以,在数据 仓库设计中,雪花模式不如星型模式流行 ( 2 ) 多维数据库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库和 终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允许多 维数据结构存储在r a m 上。有些数据被提前计算,计算结果以数组形式进行存储 ( 3 ) 基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上这些数据可预先建立, 如w e b 文件。与服务器上的多维数据库一样,活动数据可放在磁盘或r a m 上。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。 z 2 6 乱舻数据处理方式 o l a p 有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行 ( 1 ) 关系数据库 即使活动的o l a p 数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计 算也不是较好的选择。因为s q l 的单语句并不具备完成多维计算的能力,要获得哪怕是最 普通的多维计算功能也需要多重s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论