OLAP和数据仓库之间的关系.docx_第1页
OLAP和数据仓库之间的关系.docx_第2页
OLAP和数据仓库之间的关系.docx_第3页
OLAP和数据仓库之间的关系.docx_第4页
OLAP和数据仓库之间的关系.docx_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录摘要1一、数据仓库和OLAP的特点分析11.数据仓库12.OLAP1二、数据仓库和OLAP在发展过程中的关联关系2三、针对OLAP的数据仓库模型3四、基于数据仓库、OLAP、数据挖掘的决策支持系统体系结构设计4结束语4摘要数据仓库从多个同构或异构的传统数据库中获取原始数据, 先按辅助决策的主题要求形成当前基本数据层, 再按综合决策的要求形成综合数据层, 实现了操作型数据与决策环境的分离, 为决策支持系统提供了理想的数据组织形式,解决了决策支持系统发展中的一大难题。OLAP(联机分析处理)作为数据分析工具, 与数据仓库进行有效的结合, 加上数据挖掘,构成了新型的决策支持系统的基本框架。数据仓库、OLAP、数据挖掘从发展的渊源上看, 三者是分别作为三种独立的信息处理技术出现的。数据仓库从数据处理技术发展而来, 它解决了数据不统一问题。其核心在于从底层收集量事务级数据, 并对这些数据进行集成、转换和综合, 形成面向全局的数据视图和整个决策支持系统的基础数据组织, 即数据仓库是直接面向决策支持目标、经过提炼、加工后的数据集合OLAP 是在OLTP (联机事务处理)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需要的情况下所出现的一种数据处理新技术。两者都是以解决决策支持分析问题为目的发展起来的, 它们之间存在着必然的内在联系和互补性。对两者相互关系的研究, 有助于完善数据仓库化决策支持系统的体系结构。一、数据仓库和OLAP的特点分析1.数据仓库数据仓库之父W.H.Inmon 认为“ 数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合, 用来支持管理人员的决策” 。该定义表明了数据仓库是一个处理过程, 过程依据主题对若干个分布的、异质的信息源中的历史数据进行组织和存储, 并能集成地进行数据分析, 它有着比一般数据库系统更大的数据规模。数据仓库不仅具有传统数据库管理系统共享性、完整性、数据独立性等基本特点, 还具有主题、集成性、历史性、时间属性等独有特征。数据仓库系统的基本功能是:数据获取、数据存储和管理、信息的访问。其最终目是把分散的、不利于访问的数据转换成集中、统一、随时可用的信息, 即为了决策目标将不同形式的数据集合成为一种特殊的格式, 建立起一种新的数据存储体系, 使数据操作环境与数分析环境相到分离。2.OLAPOLAP概念最早是由关系库之父E.F.Codd于1993年提出。当时,Codd认为联机事务处理(On-line Transaetion proeessing , 简称(OLTP) 已不能足终端用户对数据库查询分析的需要,SQL 对大数据库进行的简单查询也不能满足用户分析的需求。于是,Codd提出了多维数据库和多维分析的概念, 即OLAP。OLAP的目的是决策支持多维环境特定的查询和报表需求, 它的技术核心是维的概念, 因此OLAP可以说是多维数据分析工具的集合。OLAP是一种软件技术, 它使分析人员能够迅速、一致、交互地从各个方的观察信息, 以达到深人理解数据的目的。OLAP 技术是针对人们事先假设的特定问题进行联机数据访问和分析。它通过对信息进行快速、稳定、一致和交互式存取, 对数据进行多层次、阶段的分析处理, 以获得高度归纳的分析结果。因此O LA P 技术从其对数据的分析方式上讲是一种自上而下、不断深人的工具, 即在用户提出问题或假设之后, 它负责提取关于此问题的细信息, 并以一种比较直观的方式呈现给用户。多维性是O LA P 的关键属性。多维分析是分析企业数据最有效的方法, 是O LA P 的灵魂。多维数据分析是指对以多维分析组织起来的数据取切片、切块、钻取、旋转等各种分析动作来剖析数据, 使用户直观地理解、分析数据, 最终能多角度、多侧面地观察数据库中的数据, 深人地了解包含在数据中的信息、内涵。多维分析合了人的思维模式, 因此减少了混淆并且降低了出现错误的可能性。二、数据仓库和OLAP在发展过程中的关联关系数据仓库是一个决策支持技术的集合,旨在能够使知识工作者(执行者,主管,分析人员)做出更快更好的决策。过去三年,无论是在所提供的产品和服务的数量上还是在按行业对这些技术的采用上都出现了爆炸性的增长。数据仓库技术已经成功施展于许多行业:制造业(订单发货和客户支持),零售业(用户分析和库存管理),金融服务业(索赔分析,风险分析,信用卡分析,诈骗侦查),运输业(车队管理),电信业(呼叫分析和欺诈检测),城市管理服务业(电力使用情况分析),保健业(结果分析)。本文介绍了数据仓库的技术路线图,重点放在数据仓库对数据库管理系统提出的特殊要求之上。数据仓库就是一个“面向主题的、集成的、时变的、非易失性的数据集合,主要帮助组织做出决策”。通常,数据仓库需要与组织的操作数据库分离并被维护。分离的原因是多方面的。数据仓库支持联机分析处理(OLAP),其功能和性能要求与传统情况下由操作数据库支持的联机事务处理(OLTP)应用有很大不同。OLTP应用程序通常会自动处理当前数据任务,比如订单输入和银行交易等单位实用日常操作。这些数据任务重复且具有复杂结构,由短的、孤立的原子事务组成。这些事务要求详细的、确保最新的数据,并且读/写的数十条记录通常来自于对主码的访问。操作数据库访问记录数量则往往是百兆到千兆字节大小。数据库的一致性和可恢复性是至关重要的,最大化事务吞吐量是关键性能指标。因此,数据库设计的目的是反映已知应用程序的操作语义,并减少多事务并发运行的冲突。与此相反,数据仓库定位于决策支持。历史的、汇总的、统一的数据比详细的个别记录更重要。由于数据仓库包含可能来自多个操作数据库的统一数据,经过可能的一段长时间,它们的数量级往往大于操作数据库,企业数据仓库预计要有几百GB到TB大小。工作量大多为点对点的密集查询,复杂的查询能够访问数百万条记录并执行大量的扫描、联接、聚合。查询吞吐量和反应时间都要比事务吞吐量更为重要些。为帮助复杂分析和促进形象化,数据仓库中的数据通常被多维模型化。例如,在一个销售数据仓库中,出售时间、销售地点、售货员和产品可能会是一些有关利润的维度。通常,这些维度是分层的,销售时间可能被组织定义为日月季年层次,产品被组织为生产-目录-工业分层。典型的OLAP操作包括通过沿一个或多个维的概念分层钻取(上卷操作提高聚集水平,下钻操作降低聚集程度或增加详情),切片和切块(选择和投影),以及旋转(重排数据的多维视图)。鉴于操作数据库被细优化调整以支持已知OLTP工作负载,尝试对它执行复杂的OLAP查询将很可能导致难以接受的性能。此外,决策支持还需要操作数据库中可能缺失的一些数据,例如,了解发展趋势或做出预测需要历史数据,而操作数据库只存储当前数据。决策支持通常需要整合很多不同来源的数据:除了几个操作数据库,还可能包括外部来源,如股票市场整合。不同数据来源可能包含不同质量的数据,或者使用不一致的表示法、代码和格式,这些都需要被协调。最后,支持多维数据模型和OLAP典型操作需要特殊的数据组织、访问及实现方法,这些都并不一般地由针对OLTP的商业数据库管理系统来提供。出于所有这些原因,数据仓库要与操作数据库实现分离;数据仓库可能在标准或扩展的关系数据库管理系统中实现,称为ROLAP服务器。这些服务器假定数据是存储在关系型数据库中的,并且支持SQL语言的扩展和特殊的访问实现方法,以高效实现多维数据模型和操作。比较起来,多维联机分析处理器(MOLAP)则将多维数据直接存储在特殊的数据结构中(比如数组),并且在这些特殊的数据机构上实现OLAP操作。三、针对OLAP的数据仓库模型对于构建和维护一个数据仓库还远不止于仅为它选择一个OLAP服务器,定义一个模式、一些复杂查询。存在其他的构筑方案。很多机构都想实现一个横跨整个组织的、收集有关所有主题(例如,客户、产品、销售、资产、人员等)信息的集成企业仓库。然而,构建一个企业仓库是个漫长而复杂的过程,需要广泛的业务建模,并可能花费许多年才能成功。一个普遍的,影响前端工具的、数据库设计和OLAP查询引擎的概念模型是仓库数据的多维视图。在多维数据模型中,有一组作为分析对象的数字度量方式。这种度量方式的例子有销售、预算、收入、库存和ROI(投资回报率)。每种数字度量方式均取决于一组维,维为度量提供环境。假定所有的维度唯一决定度量值。因而,多维数据把一个度量视为维的多维空间内的一个值。每维由一系列属性来描述。例如,产品的维可以由四种属性组成:种类和产品工业,推出时间(年),以及平均利润率。产品名称就可通过一种层次关系与种类和产业属性相关联。OLAP概念模型的另一个区别性特征是,它强调把一个或多个维的度量的聚集作为其中一个关键操作;例如,按照不同地区或者年份计算并排名总销量。其他普遍操作包括比较两个由相同的维聚齐起来的度量(比如销售额和预算)。时间是一个对决策支持(如动向分析)具有特殊意义的维。多维数据模型产生于由个人机电子表格程序推广的商业数据视图,该程序曾被商业分析员们广泛使用。电子表格对OLAP来说依然是最引人注目的前端应用程序。支持OLAP的一个查询环境的挑战之处可被初步概括为支持对大到几个G的数据库进行高效的电子表格操作。其他有关旋转的操作是上卷和下钻。上卷相当于对当前数据对象做进一步的概括分组处理。因而可以对销售数据进行上卷操作,按照“产品”聚集的话,或许已经规约到city层。下钻是上卷的逆操作。切片和切块操作可以降低多维数据集的维,亦即,为了其余维的选定值,在该给定立方体维的一个子集上做数据投影。例如,我们可以通过切片/块一个特定产品的销售数据来创建一个由city维和the day of sale维组成的表格。其他一些普遍操作还包括排序、选择和定义计算属性。尽管多维电子表格因为能够使最终用户分析业务数据而吸引了不少人,但还没有借助于一个查询托管环境来取代传统的分析。这些环境利用存储过程和预定义的复杂查询提供包装好的分析工具。这样的工具往往有可能使最终用户依据特定领域的业务数据进行查询。这些应用程序常常使用原始数据访问工具,并且依靠后端数据库服务器使访问模式最优化。此外,还有一些凭借“指向-点击”帮助建立特定SQL查询的查询环境(如Microsoft Access)。最后,存在大量多样的、经常被用作数据仓库前端工具的数据挖掘工具。四、基于数据仓库、OLAP、数据挖掘的决策支持系统体系结构设计在数据仓库化的决策支持系统中, 应将数据仓库、OLAP、数据挖掘进行有机结合, 其所担当的角色分别为:(1) 数据仓库用于数据的存储和组织, 它从事务应用系统中抽取数据, 并对其进综合、集成与转换, 提供面向全局的数据视图;OLAP 致力于数据的分析;数据挖掘则专注于知识的自动发现。(2) 在数据仓库和OLAP 、数据仓库和数据挖掘之间存在着单向支持的关系在数据挖掘与OLAP之间, 存在双向联系, 即数据挖掘为OLAP 提供分析的模式,OLAP 对数据挖掘的结果进行验证, 并给予适当的引导。结束语本文对数据仓库、联机分析处理(OLAP) 、在决策支持系统中的作用、地位及其应用上的局限性进行了探讨, 对两者间的相互关系进行研究。认为在数据仓库和OLAP之间存在着单向支持的关系。研究清楚数据仓库和OLAP两者之间的关系, 将更好地指导企业建立以数据仓库、OLAP为基本框架的决策支持统, 有助于企业采取更广泛、更全面的视角, 对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论