版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库基本概念对数据仓库最大的误解是把它当作一个现成的可以直接买来使用的产品。数据仓库和数据库不同,它不是现成的软件或者硬件产品。确切说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。随着计算机技术的迅速发展,信息处理技术也得到了长足的发展,从70年代中期的MIS系统发展到现代的数据仓库(DataWarehouse)技术。许多厂商都在开发自已的数据仓库解决方案,并通过各种渠道大力推广。但就数据仓库技术而言,目前仍存在着许多认识上的误区,本文将着重介绍一些数据仓库的基本概念以及建立数据仓库时应该注意的一些情况。数据仓库不是现成软件或硬件产品对数据仓库最大的误解可能是把它当作一个现成的可以直接买来使用的产品。事实上,数据仓库和数据库不同,它不是现成的软件或者硬件产品。比较确切地说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。因此,在很多场合,我们也把数据仓库系统称为决策支持系统。由于这个原因,数据仓库的用户不是类似银行柜员的终端操作人员,而是针对各个业务部门的用户和有关决策人员。因此,数据仓库的用户比传统的OLTP(联机事务处理:On-lineTransactionProcessing)用户少得多。OLTP与OLAPOLTP系统也称为生产系统,它是事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的OLTP系统。OLTP的基本特点是:·对响应时间要求非常高;·用户数量非常庞大,主要是操作人员;·数据库的各种操作基于索引进行。OLAP(联机分析处理:On-lineAnalyticalProcessing)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门、面向主题的,其基本特点是:·基础数据来源于生产系统中的操作数据(OperationalData);·响应时间合理;·用户数量相对较小,其用户主要是业务决策与管理人员;·数据库的各种操作不能完全基于索引进行。OLAP工具是整个数据仓库解决方案中不可缺少的一部分,目前市场上有许多这类成熟的产品,如NCR的QueryMan、Andyne软件公司的GQL(GraphicQueryLanguage)、BrioTechnology公司的BrioQuery等等。这些产品大都运行在Windows环境下,具有友好的用户界面,通过ODBC驱动程序和TCP/IP协议与数据库系统相连,是一种典型的Client/Server结构。这些OLAP工具的特点是用户不需要掌握很深的SQL知识就可使用。用户提出问题后,这些工具能自动加以分析,根据系统的数据库模型产生SQL语句,通过ODBC接口向服务器数据库提出交易请求,然后将主机返回的结果以用户指定的方式显示出来。它们一般在本地维护一个多维数据库,把结果保存在本地库中,因此可以离线工作。数据仓库系统的查询特点数据仓库和生产系统不同,它保存的是历史数据,一般不作修改,因此用户针对数据仓库的交易主要是查询。数据仓库的查询和生产系统的查询有很大的区别。针对生产系统的查询都很简单,一般不会使用表连接操作(TableJoin),每次返回的数据量很小,这类问题的特点是"知道自已要找什么",例如根据银行帐号查余额。这类操作都是基于索引进行的,如帐号可以作为储蓄系统的索引。由于这些特点,数据库大小对系统性能影响不大。针对数据仓库系统的查询大都非常复杂,主要有两种:一种以报表为主,从数据库中产生各种形式的业务报表。这种查询是预先规划好的(Pre-definedQuery);另一种则是随机的、动态的查询(Ad-HocQuery),对查询的结果也是不能预料的。例如世界上最大的连锁超市集团Wal*Mart曾经发现在周未的时候啤酒与一次性尿布的销售量很大,有关人员通过对数据仓库中的信息进行分析,寻找这两种商品的共同点,结果发现很多父亲在购买啤酒时喜欢顺便捎些尿布,于是他们把这两种商品放在很近的位置,方便父亲们购买,结果这两种商品的销售量都增加了很多。数据仓库中的查询由于其复杂性,会经常使用多表的联接、累计、分类、排序等操作,这些大都要对整个表进行搜索。每次查询返回的数据量一般很大,对于Ad-Hoc查询而言,经常需要根据上次查询的结果进行进一步的搜索,这个过程常称为数据挖掘。根据这些特点,数据库大小对数据仓库系统的性能影响很大。当数据仓库投入使用后,各业务部门的要求会越来越多,使得数据仓库中数据量的增长速度很快,因此设计数据仓库时,系统的可扩展能力是必须考虑的重要因素之一。系统的并行处理能力是另一个要考虑的重要因素。因为查询的复杂性,每个查询将占用很多的系统资源,如果并行处理能力不强,当多个用户同时发出交易请求时,响应时间可能长得不可容忍。详细数据与小结数据下图(注:图未能找到,酷勤网深表抱歉,下同)可以清楚地说明详细数据(DetailData)与小结数据(SummaryData)的作用和区别。左边一列记载了扫描仪在每个连锁店每天的交易细节(数量、交易时间、交易地点、类型、客户、售货员等),中间一列记录了扫描仪每天按连锁店分类的交易汇总情况,右边一列记录了扫描仪每周按连锁店分类的交易汇总情况。由此可见,小结可以是多种层次的。@@0211800.JPG;图1@@详细数据中包含了许多有价值的信息,经小结处理后,可能会丢失这些信息。举例来说,市场行销人员规划在某个星期二和星期三进行扫描仪的产品推销活动(如采取一些优惠措施),如果他们只知道每周扫描仪的销售量,怎么能看出这个推销活动的效果?又如何来分析客户的购买行为?由此可见,为了更准确地分析市场发展规律,提高企业的竟争优势,数据仓库中应该存储尽可能详细的数据,为决策提供更加可靠的信息。如前面提到的Wal*Mart集团,其全世界所有连锁店每天的交易数据都会通过卫星传送到在美国的中央数据仓库,如果顾客买了两枝同样型号但不同颜色的铅笔,在数据仓库中都是两条记录,因为据此可以分析对不同颜色铅笔的需求规律,从而确定货存量等。既然详细数据的作用如此大,为什么还要对其进行小结处理呢?主要原因是:1.数据仓库的引擎(数据库系统)不适合处理大量的数据,前面已经说明,在数据仓库中数据量大小对系统整体性能影响很大,而能在OLTP系统中处理TB级数据并不能代表在数据仓库中也能处理TB级数据。2.降低存储系统投资。在以前,存储介质是非常昂贵的。3.降低MIPS投资。尽管计算机性能已经有了很大提高,开放系统的价格一降再降,但直到现在,专用大型主机的MIPS仍然非常昂贵。由此可见,选择能支持TB级数据仓库的数据库系统和在开放环境下建立数据仓库是非常重要的。数据仓库与数据集市数据集市(DataMart)也是当前非常热门的一个术语,一种比较常见的误解是认为它与数据仓库的差别只是数据量的大小而已。事实上,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市是部门级的,一般只能为某个局部范围内的管理人员服务。有些供应商也称之为部门级数据仓库(DepartmentalDataWarehouse)。数据集市有两种,即独立的数据集市(IndependentDataMart)和从属的数据集市(DependentDataMart)。从下图可以清楚地看到数据仓库、从属数据集市与独立数据集市之间的关系:图中左边表示的是企业数据仓库的逻辑结构。我们看到,其中的数据来自于各生产系统,把它们的操作数据按照企业数据仓库物理模型结构的定义转换过来。采用这种中央数据仓库的做法,可以保证现实世界的一致性。中间表示的是从属数据集市的逻辑结构。所谓从属,是指它的数据直接来自于中央数据仓库。显然,这种结构仍能保持数据的一致性。一般情况下,为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。另外一个原因是:在设计数据仓库的逻辑模型时,为了保证结构清楚,降低数据冗余度,一般都按第三范式(3NF:ThirdNormalForm)来设计。但在物理实现时,出于性能方面的考虑,常常要作非正则处理(De-Normalize),使得中央库的复杂性增加,不易维护,数据冗余大。因此,当中央数据仓库十分庞大时,我们一般不对中央库作非正则处理,而是建立一个从属数据集市,对它作非正则处理,这样既能提高响应速度,又能保证整个系统的易维护性。其代价是增加了对数据集市的投资。右边描述了独立数据集市的逻辑结构,它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种结构的独立数据集市,用来解决个别部门比较迫切的决策问题。从这个意义上讲,它和企业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别,也许这是把数据集市称为部门数据仓库的主要原因。关键问题在于:随着需求的增加,数据量也会迅速增加,系统规模将迅速扩大,是把原来的独立数据集市扩展成为上图中左边的企业数据仓库呢?还是为各部门分别建立独立的数据集市形成如下图所示的繁杂系统?在这种结构中,IT部门必须设计多个数据转换程序,把各生产系统的操作数据转换到每个独立数据集市中,以便保持数据的一致性。显然,这种策略将使整个系统变得非常复杂难于维护,在投资方面更是得不偿失,因为硬件系统的投资成比例增加,软件方面的投资和维护方面的投资则成指数形式增加。既然这种分布式的独立数据集市结构有诸多问题,为什么还有一些企业仍在这样做呢?回答是"不得已而为之"。因为硬件平台或者数据库在扩展性方面限制太多,并行处理能力不够,无法处理大量的数据,最后只能形成这种尴尬局面。如何衡量数据仓库引擎从前面的分析我们可以看到,作为数据仓库引擎的数据库管理系统,其性能的优劣对整个数据仓库解决方案的成功实施起着举足轻重的作用。那么,如何来衡量一个数据库管理系统是否适合作为数据仓库引擎呢?大家可能都知道,在国际上有一个叫TPC的组织。TPC是事务处理委员会(TransactionProcessingPerformanceCouncil)的英文缩写,是一个国际性的组织,由45个会员公司组成,IBM、Microsoft、NCR、NEC、DEC、HP、SUN等跨国公司都是其会员。TPC专门负责为各种开放平台在不同类型的应用上制定一个统一、公正的测试标准。在国际上,对于IT行业的供应商来说,进行TPC规定的测试是它们进入各领域的敲门砖。对于OLTP系统,衡量其数据库性能的主要指标是TPC-C,这里不作分析。对于数据仓库系统,衡量其数据库性能的主要指标则是TPC-D。主要有三方面的数据需要考虑:QppD:这个数据描述了系统的查询处理能力,它是QueryProcessingPowerD的缩写(D表示这个结果是按照TPC-D标准测得的,下同)。QthD:是QueryThroughputD的缩写,即流量测试结果,描述了系统在多个用户同时进行查询时的处理能力。换言之,它也充分代表了系统的并行处理能力。QphD:是QueryPrice-PerformanceD的缩写,即性能价格比。显然,前面两个指标的数据越大越好,而最后一个则越小越好。当然,首先要考虑的应该是能否满足业务上的需求。关于TPC的介绍已经很多,这里不再重复。各家供应商的TPC-D值以及TPC-D的详细描述可以从TPC在Internet的主页上找到,其Web地址为:/。另外,也可以从Microsoft、IDEAS等公司的主页上找到TPC-D的测试结果。需要作些说明的是流量测试结果。尽管它描述了系统处理并发查询请求的能力,但并非所有厂商的流量测试都是在多用户状态下进行的,因为TPC-D给了供应商们一个选择:直接进行多用户状态下的流量测试;或者先在单用户状态下进行测试,然后利用测得的处理能力指标QppD和流量指标的计算公式来"计算"出QthD。如何区分这两种测试结果呢?TPC-D的测试概要(ExecutiveSummary)中清楚地说明了在作流量测试时的STREAM数目。STREAM数实际上代表了同时递交查询请求的用户个数。如果是单用户状态下进行测试,则只能发现一个STREAM,即STREAM00。到目前为止,还只有NCR公司的Teradata数据库系统是在多用户状态下进行流量测试的。TPC-D的测试是在不同的数据库级别上进行的,主要可供参考的是100GB、300GB和1000GB三个级别上的测试结果。下面两个表是从Microsoft公司的Web页面上下载的300GB和1000GB两个级别的TPC-D测试结果。我们看到,在1000GB级别上,目前还只有NCR公司宣布了其TPC-D指标,该结果是在其WorldMark系列服务器和Teradata数据库系统上进行的。什么是数据仓库-数据仓库的基本概念1.数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。2基于数据仓库的决策支持系统(DSS)由三个部件组成:数据仓库技术(Datawarehousing),联机分析处理技术(OLAP,On—LineAnalyticalPro—cessing),数据挖掘技术(DataMining)。联机分析处理(OLAP,On—AnalyticalPro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓库的数据分析,并将其转换成辅助决策信息。OLAP的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。数据挖掘(DataMining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026北京航空航天大学宇航学院第一批卓越百人博士后岗位招聘备考题库附参考答案详解【培优a卷】
- 短时间内基础弱孩子可能消化较慢-江州一中分层教学研讨会讲话
- 石膏制造环保技术探究
- 肺炎临床护理标准化全流程实践指南
- 解读加强和改进教研组建设若干举措-归德一中教研组长培训会讲话
- 2026下半年幼儿教师资格笔试《综合素质》真题及答案解析
- 材料二次转运专项方案
- 护理院感控制制度及操作指南
- 金矿资源开采综合规划方案
- 儿童文学经典教案《雪孩子》
- 2026届江苏省苏锡常镇四市高三一模教学情况调研(一)物理试题(含答案)
- 职业病危害申报制度培训
- 自然资源资产生态价值核算技术指南(试行)
- 2025-2026学年教科版三年级科学下册(全册)课时练习(附目录)
- (必会)中级医疗救护员技能鉴定备考题库(附答案)
- 2026年常州工业职业技术学院单招职业技能考试题库及答案详解(历年真题)
- 2026年大连枫叶职业技术学院单招职业技能考试题库附答案详解(综合卷)
- (正式版)DB2102∕T 0010-2020 《氨制冷系统4S安全维保服务规范》
- 2026年畜牧业疫病防控培训
- 2026年中考一轮复习之八下第四单元崇尚法治精神
- 村两委成员培训课件
评论
0/150
提交评论