




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据集市差别
收录于话题
#数据仓库
来源:迪答数据
01
什么是数据集市?数据集市与数据仓库的区别?
数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的
(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的
数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以
理解。
首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作
型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进
行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
(注:该定义来自于著名的数据仓库专家W.H.Inmon的著作《Buildingthe
DataWarehoused一书)【如有需要数据仓库书籍,可以后台回复获取】。
数据集市:是一个小型的部门或工作组级别的数据仓库。有两种类型的数据
集市——独立型和从属型。独立型数据集市直接从操作型环境获取数据。从
属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集
市在体系结构上比独立型数据集市更稳定。
独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集
市,当数据集市达到一定的规模可以直接转换为数据仓库,然而这是不正确
的,多个独立的数据集市的累积并不能形成一个企业级的数据仓库,这是由
数据仓库和数据集市本身的特点决定的。
如果脱离集中式的数据仓库,独立的建立多个数据集市,企业只会又增加了
一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各个部门
或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是
一种既成事实,为满足特定用户的需求而建立的一种分析型环境,但是,从
长远的观点看,是一种权宜之计,必然会被企业级的数据仓库所取代。
数据集市是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面
向某个特定的主题。为了解决灵活性和性能之间的矛盾,数据集市就是数据
仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市
存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市
可以在一定程度上缓解访问数据仓库的瓶颈。
数据集市的特征主要有:
•规模小;
・面向部门
•有特定的应用
•由业务部门定义、设计和开发
•业务部门管理和维护
•能快速实现
・购买比较便宜
・投资快速回收
•工具集的紧密集成
•提供更详细的、预先存在的、数据仓库的摘要子集
•可升级到完整的数据仓库。
数据集市和数据仓库的区别
数据集市和数据仓库的主要区别:数据仓库是企业级的,能为整个企业各个
部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常
有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般
只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
数据仓库数据第市
数据的来源生产系统、外部数据等数据仓库
范围规模企业级部门级或工作组级
百以企业为主题以部门或特殊的分析为主题
数据粒度最细的粒度较粗的粒度
数据结构第三范式,规范膜构星型模型、雪花模型、星座模型
历史数据大量的历史数据适度的历史数据
优化处理海量数据、数据探索便于访问和分析、快速直询
也迪答皴据
索引高度索引高度索引
数据集市可以分为两种类型——独立型数据集市和从属型数据集市。独立型
数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获
取数据,带有从属型数据集市的体系结构如图所示。
图4:数据仓库处理过程
数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。因此,作
为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为
一种既成事实。独立型数据集市是为满足特定用户(一般是部门级别的)的
需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投
资规模也比数据仓库小很多。
独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集
市,当数据集市达到一定的规模再直接转换为数据仓库。有些销售人员会推
销这种观点,其实质却常常是因为建立企业级数据仓库的销售周期太长以至
于不好操作。
多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的,这是由
数据仓库和数据集市本身的特点决定的——数据集市为各个部门或工作组所
用,各个集市之间存在不一致性是难免的。
因为脱离数据仓库的缘故,当多个独立型数据集市增长到一定规模之后,由
于没有统一的数据仓库协调,企业只会又增加一些信息孤岛,仍然不能以整
个企业的视图分析数据。借用Inmon的比喻:我们不可能将大海里的小鱼堆
在一起就构成一头大鲸鱼,这也说明了数据仓库和数据集市有本质的不同。
如果企业最终想建设一个全企业统一的数据仓库,想要以整个企业的视图分
析数据,独立型数据集市恐怕不是合适的选择;也就是说“先独立地构建数据
集市,当数据集市达到一定的规模再直接转换为数据仓库”是不合适的。
从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定,
可以说是数据集市未来建设的主要方向。
02
为什么要有数据集市?良好的数据集市有什么特点?
虽然OLTP和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有
意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的
报表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问
的信息的需求。
因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一
致的和无效的值,使得难于分析、
数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实
现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。
一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点
是相对于数据仓库来讲的):
(1)特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且
无需受制于源系统的大量需求和操作性危机(相对于数据仓库)。
(2)支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的
时间间隔进行更新的,并且不受OLTP系统进行中的更新的影响。)
(3)调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管
理以及组织外部的行业数据。
(4)通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意
义,从而提供净化的(cleansed)数据。
(5)为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门
级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩
短)。
03
数据集市的数据结构
数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包
含两个基本部分—一个事实表和各种支持维表。
(1)事实表
事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典
型的最密集数据;在银行中,与赈目核对和自动柜员机有关的数据是典型的
最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。
事实表是预先被连接到一起的多种类型数据的组合体,它包括:一个反映事
实表建立目的的实体的主键,如一张订单、一次销售、一个电话等等,主键
信息,连接事实表与维表的外键,外键携带的非键值外部数据。如果这种非
键外部数据经常用于事实表中的数据分析,它就会被包括在事实表的范围
内。事实表是高度索引化的。事实表中出现30到40条索引非常常见。有时
实事表的每列都建了索引,这样作的结果是使事实表中的数据非常容易读
取。但是,导入索引所需的资源数量必须为等式提供因数。通常,事实表的
数据不能更改,但可以输入数据,一旦正确输入一个记录,就不能更改此记
录的任何内容了。
(2)维表
维表是围绕事实表建立的。维表包含非密集型数据,它通过外键与事实表相
连。典型的维表建立在数据集市的基础上,包括产品目录、客户名单、厂商
列表等等。
数据集市中的数据来源于企业数据仓库。所有数据,除了一个例外,在导入
到数据集市之前都应该经过企业数据仓库。这个例外就是用于数据集市的特
定数据,它不能用于数据仓库的其他地方。外部数据通常属于这类范畴。如
果情况不是这样,数据就会用于决策支持系统的其他地方,那么这些数据就
必须经过企业数据仓库。
数据集市包含两种类型的数据,通常是详细数据和汇总数据。
(3)详细数据
数据集市中的详细数据包含在星型结构中。当数据通过企业数据仓库时,星
型结构就会很好的汇总。在这种情况下,企业数据仓库包含必需的基本数
据,而数据集市则包含更高间隔尺寸的数据。但是,在数据集市使用者的心
目中,星型结构的数据和数据获取时一样详细。
(4)汇总数据
数据集市包含的第二种类型数据是汇总数据。分析人员通常从星型结构中的
数据创建各种汇总数据。典型的汇总可能是销售区域的月销售总额。
因为汇总的基础不断发展变化,所以历史数据就在数据集市中。但是这些历
史数据优势在于它存储的概括水平。星型结构中保存的历史数据非常少。
数据集市以企业数据仓库为基础进行更新。对于数据集市来说大约每周更新
一次非常平常。但是,数据集市的更新时间可以少于一周也可以多于一周,
这主要是由数据集市所属部门的需求来决定的。
04
如何建立数据集市?
数据仓库(集市)的设计可以采用迭代式的方法。在迭代式开发中,每个迭
代为上一次的结果增加了新的功能。功能增加的顺序要考虑到迭代平衡以及
尽早发现重大风险。通俗地说,就是在正式交货之前多次给客户交付不完善
的中间产品“试用
这些中间产品会有一些功能还没有添加进去、还不稳定,但是客户提出修改
意见以后,开发人员能够更好地理解客户的需求。如此反复,使得产品在质
量上能够逐渐逼近客户的要求。这种开发方法周期长、成本高,但是它能够
避免整个项目推倒重来的风险,比较适合大项目、高风险项目。
理论上讲,应该有一个总的数据仓库的概念,然后才有数据集市。实际建设
数据仓库(集市)的时候,国内很少这么做。国内一般会先从数据集市入
手,就某一个特定的主题(比如企业的客户信息)先做数据集市,再建设数
据仓库。数据仓库和数据集市建立的先后次序之分,是和设计方法紧密相关
的。而数据仓库作为工程学科,并没有对错之分,主要判别方式应该是能否
解决目前存在的实际问题,并为今后可能发生的问题保持一定的可伸缩性。
05
数据仓库建模与数据集市建模
数据只是所有业务活动、资源以及企业结果的记录。数据模型是对那些数据
的组织良好的抽象,因此数据模型成为理解和管理企业业务的最佳方法是极
其自然的。数据模型起到了指导或计划数据仓库的实现的作用。在真正的实
现开始之前,联合每个业务领域的数据模型可以帮助确保其结果是有效的数
据仓库,并且可以帮助减少实现的成本。
(1)数据仓库的建模
数据仓库数据的建模是将需求转换成图画以及支持表示那些需求的元数据的
过程。出于易读性目的,本文将关于需求和建模的讨论相分离,但实际上这
些步骤通常是重叠的。一旦在文档中记录一些初始需求,初始模型就开始成
型。随着需求变得更加完整,模型也会如此。
最重要的是向终端用户提供良好集成并易于解释的数据仓库的逻辑模型。这
些逻辑模型是数据仓库元数据的核心之一。为终端用户提供的简单性以及历
史数据的集成和联合是建模方法应该帮助提供的关键原则。
(2)数据集市的数据建模
因为仓库终端用户直接与数据集市进行交互,所以数据集市的建模是捕获终
端用户业务需求的最有效工具之一。数据集市的建模过程取决于许多因素。
下面描述了三个最重要的:
数据集市的建模是终端用户驱动的。终端用户必须参与数据集市的建模过
程,因为他们显然是要使用该数据集市的人。因为您应期望终端用户完全不
熟悉复杂的数据模型,所以应该将建模技术和建模过程作为整体进行组织,
以便使复杂性对终端用户透明。
数据集市的建模是由业务需求驱动的。数据集市模型对于捕获业务需求十分
有用,因为它们通常由终端用户直接使用,且易于理解。
数据集市的建模极大地受到了数据分析技术的影响。数据分析技术可以影响
所选择的数据模型的类型及其内容。目前,有几种常用的数据分析技术:查
询和报表制作、多维分析以及数据挖掘。
如果仅仅意图提供查询和报表制作功能,那么带有正规(normalized)或非正
规(denormalized)数据结构的ER模型就是最合适的。维度数据模型也可能
是较好的选择,因为它是用户友好的,并具有更好的性能。如果其目标是执
行多维数据分析,那么维度数据模型就是这里的惟一选择。然而,数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿物加工过程中的物理化学变化考核试卷
- 豆腐干的品质提升技术考核试卷
- 水果销售经典话术
- 数字智慧方案5498丨商业综合体智能化方案共
- 豆类作物种植的农业土地资源利用考核试卷
- 火力发电厂运行监控与故障处理考核试卷
- 2025年板材无模多点成型压力机合作协议书
- 数字智慧方案5445丨企业碳资产管理案例分享北京环境交
- 土木工程-建筑工程施工图预算(课件)
- 杭州安全运维试学
- 河南会考地理试题及答案2024
- 2025年04月江苏省生产力促进中心公开招聘13人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 学生心理健康一生一策档案表
- 上古卷轴5所有任务代码
- 固体制剂批包装记录模版
- 2000年40个部门投入产出表
- 高空作业安全会议记录内容
- 00510秘书实务-自考整合版
- 护理研究中的偏倚及控制
- 小学生的龋齿预防ppt课件
- [复习]边坡客土吹附施工方案
评论
0/150
提交评论