数据仓库比较oraclevsdb2_第1页
数据仓库比较oraclevsdb2_第2页
数据仓库比较oraclevsdb2_第3页
数据仓库比较oraclevsdb2_第4页
数据仓库比较oraclevsdb2_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数数数数据据据据仓仓仓仓库库库库比比比比较较较较 O OOr r ra a ac c cl l le e e v v vs s s D D DB B B2 2 2 1文档简介文档简介 .3 1.1文档目的 .3 1.2文档范围 .3 1.3缩写约定 .3 1.4参考文档和文献 .3 1.5文档概述 .4 2相关的产品比较相关的产品比较 .5 2.1数据仓库 .5 2.2ETL 工具.5 2.3OLAP.6 2.4展示工具 .6 3开发过程开发过程 .7 3.1ORACLE的开发过程.7 3.2DB2 的开发过程.7 4应用性应用性 .7 1文档文档简简介介 1.1文档目的文档目的 此文档,用来介绍 Oracle 的数据仓库产品与 IBM 公司数据仓库产品的比较文档。通 过本文,使开发团队及最终使用者对两个数据仓库有初步的认识,为数据仓库及相关产品 的选择提供依据。 1.2文档范文档范围围 所以文中没有具体实施的细节,适用读者: 开发人员 项目经理 开发经理 最终用户 1.3缩缩写写约约定定 缩写缩写描述描述 IDSInternet Developer Suite OWBOracle Warehouse Builder 1.4参考文档和文献参考文档和文献 编编号号文档名称文档名称版本版本日期日期 1 DB2 vs Oracle(BI) 2 Data Warehouse Center Application Integration Guide 8.2 3 1.5文档概述文档概述 本文档主要是从各各角度本文档主要是从各各角度对对 ORACLE 的数据的数据仓库仓库和和 IBM 的数据的数据仓库仓库的分析的分析,下面就两方面下面就两方面 的的产产品做一下品做一下简单简单的概述的概述: IBM IBM 公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括: Warehouse manager、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工 具(如 BO)和数据挖掘工具(如 SAS)。其中, Warehouse manager 是一个功能很强的集成环境, 既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。Essbase/DB2 OLAP Server 不是 ROLAP(Relational OLAP)服务器,而是一个(ROLAP 和 MOLAP)混合的 HOLAP 服务器,在 Essbase 完成数据 装载后,数据存放在系统指定的 DB2 UDB 数据库中。 严格说来,IBM 自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。 也就是说 IBM 公司在展现和多维分析上留有接口,所有第 3 方的公司可以利用这个接口来连 接到 IBM 的系统中提取想要的数据.例如,它的前端数据展现工具可以是 Business Objects 的 BO、Lotus 的 Approach、Cognos 的 Impromptu 或 IBM 的 Query Management Facility;多维分 析工具支持 Arbor Software 的 Essbase 和 IBM(与 Arbor 联合开发)的 DB2 OLAP 服务器;统 计分析工具采用 SAS 系统。 Oracle Oracle 数据仓库解决方案主要包括 OWB 和 Oracle Discoverer 两个部分。然而 Express 是和 Oracle 8i 配合使用的 OLAP Server。从 Oracle 9i 开始(包括 10g), Oracle 把 OLAP Server 整合进了数据库,作为了数据库的一个选件,Oracle Express Server 是一个 MOLAP (多维 OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维 高速缓存,同时也能够访问多种关系数据库;OWB(Warehouse builder) 可以完成数据仓库 建模和元数据管理,又可用于数据抽取、转换、装载和调度以及多维模型的建立; Oracle Discoverer 属于查询工具是专门为最终用户设计的,分为最终用户版和管理员版。 Discoverer 是 Oracle 的 OLAP 展示工具,无需编程。 1.6数据数据仓库仓库 ORACLE 采用 Cluster 体系结构,多个节点共享硬盘,存在磁盘 I/O 瓶颈,可伸缩性较差, 少见超过 4 个节点的实例。ORACLE 基本上没有真正 TB 级的数据仓库,客户往往被要求将 其海量数据分解到多个数据库中。 IBM 采用 MPP 体系结构,每个节点独享各自的硬盘空间,各个节点间通过高速网络交 换数据。可伸缩性强,最多可以扩充到 1000 个节点。国内有 32 节点的实例,国外有 512 节点 的实例。每个数据库中单个表的大小可以达到 512GB*1000=500TB。在全球范围有许多 TB 级的数据仓库。 1.7ETL 工具工具 ORACLE 的 ETL 工具使用的是 Oracle Warehouse Builder(OWB),此工具中做维过程就 是构建星形结构的过程,在作 mapping,执行的过程则是数据抽取的过程,全都用 Oracle warehouse Builder 来实现。OWB 全部开发过程通过图形界面完成,对于简单的数据转换实现 简单,开发速度快。但是对于复杂的转换过程,由于整个转换过程全部都是由工具完成,用户 不能干涉,导致在转换中一些复杂查询速度缓慢,而且没有可能优化。 IBM Warehouse Manager 是 IBM 数据仓库解决方案的重要组成部分,它主要由以下几 部分功能组成:数据访问,数据转换,数据分布,数据存储,靠描述性数据查找和理解数据,显 示、分析和发掘数据,数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力 的商务决策之间的差距。IBM 的 Warehouse Manager 可获取的数据源可以是 DB2 家族中 的任一数据库,也可以是 Oracle、Sybase、Informix、SQL Server 数据库和 IMS、VSAM 文件 系统;存放数据仓库的数据库可以是 DB2 UDB for Windows NT、OS/2、AIX/600、HP- UX、Sun Solaris、SCO、SINIX 和 DB2/400、DB2 for OS/390;Warehouse Manager 的管理平台 为 Windows NT 和 OS/2;而且以上适用的平台仍在不断地扩展。 1.8OLAP DB2 OLAP Server 在线分析处理(OLAP)在 IBM 的商务智能中扮演着重要角色,IBM 为此提供一个分析工具- -DB2 OLAP Server,深入最终用户的业务,对桌面上的数据进行实时操作。DB2 OLAP Server 是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。 IBM DB2 OLAP Server 是一种功能强大的工具,结合了业界领先的 Arbor Essbase OLAP 功 能以及 DB2 的可靠性、可管理性和访问能力。Arbor Essbase 是 OLAP 市场领先的厂商。同其 它 OLAP 相比,有更多的前端工具和应用程序利用了 Essbase API,使其成为事实上的业界 标准。同大多数基于 SQL 的应用程序结合时,DB2 OLAP Server 和 Warehouse Manager 将 为端用户提供更多的前端工具和业务智能应用程序选择余地。如今,用户可以享受到多种 OLAP 应用程序的优势,如通过 Arbor 的 OLAP 引擎集成预算功能,充分利用机构在相关 技术上的投资,管理基本设施和 DB2 数据。 通过集成 IBM 的 Warehouse Manager 和 DB2 OLAP Server,这套解决方案将具有三方面的 重要价值: 完全、自动地把 OLAP 集成到数据仓库,数据抽取和生成自动地由规则和数据源 支持,直接进入 DB2 OLAP Server 的立方体。 利用 Warehouse Manager OLAP 版本还有一项附加收益,就是在可视化数据仓库上创建了一 个中间信息仓库。这个中间数据仓库包含干净、抽取的数据,用来在 OLAP 系统上装载多维 数据。一旦 OLAP 系统装载并上线,或者作为干净数据源来进行 OLAP 以外的分析比如查 询客户地址等,这些中间数据就可以废弃。 DB2 OLAP Analyzer 使用 DB2 OLAP Analyzer,可以达到企业的“商业智能化“,并提高信息技 术组织的效率。信息技术人员可以让用户利用分析和报表的功能获得他们所需的信息,而不 会失去对信息、数据完整性、系统性能和系统安全的控制。 1.9展示工具展示工具 Oracle 的展示工具是使用 Oracle 公司的 discover 工具,使用此工具,有某些局限性,实 现方式不灵活,且需使用专用前端工具,开发复杂。 IBM 采用业界领先的多维分析服务器 OLAP Server 和智能挖掘工具 Intelligent Miner。 开放的前端界面和开发接口。 IBM 的展示没有特定的工具,而是提供标准的数据借口,它可以采取第三方的展现工具, 或者独立开发展现工具,比较灵活的实现前端的展现过程。 2开开发过发过程程 2.1Oracle 的开的开发过发过程程 ORACLE 的开的开发过发过程主要分程主要分为为两大部分两大部分: 1.OWB 开开发发 2.IDS 开开发发 ORACLE 9I SOURCEOracle warehouse builder ORACLE 9I TARGETInternet Developer Suite ETL OLAP 展现 一一.OWB 开开发过发过程程: 1 在开发之前必须先建立 Owb 中的两个资料档案库,一个叫 repository,另一个叫 runtime repository(运行时资料档案库) 。其中 repository 用来存放 owb 设计过程中的对象。Runtime repository 用来存放运行所需的数据,包括元数据、映射定义、转换规则等等。 2 每个资料档案库都有相应的用户。一般来说至少需要创建四个用户:repository 所有者、 runtime repository 所有者、runtime repository 访问者、目标数据库所有者。 3 用所有者用户登陆到 OWB 以后就可以创建一个新的 project, 在新的 project 里需要创建 数据源(soruce),目标库(target),位置(location) 4 系统配置完成后,进入到开发阶段,首先需要制作维表(dimension),此操作的作用是定义出维 表的表结构以及维表的层次.部署的时候系统会在目标数据库内创建一个维表(table)用来存放纬度 数据. 5 维表定义完成后,需要定义维表对应的映射(mapping),此操作的作用是制定从数据源(soruce) 抽取符合那些条件的数据放到维表中.在部署的时候系统会在目标数据库内创建一个包(package), (维表和维表的 mapping 是一一对应的) 6 所有维表都定义完成后,需要定义事实表(cube), 此操作的作用是定义出事实表的表结构以 及事实表和维表的关系(也就是星型结构).部署的时候系统会在目标数据库内创建一个事实表 (table)用来存放度量值. 7.事实表定义完成后,需要定义事实表对应的映射(mapping),此操作的作用是制定从数据源 (soruce)抽取符合那些条件的数据放到事实表中.在部署的时候系统会在目标数据库内创建一个包 (package), (事实表和事实表的 mapping 是一一对应的) 8 执行所有部署成功的维表的 mapping,向维表内插入数据,成功后在执行所有部署成功的事实 表的 mapping,向事实表内插入数据. ORACLE 的 owb 的整个开发过程完成了数据的抽取.转换.装载(ETL)和星型结构的构建,在 owb 的所有操作没有脱离开 ORACLE 的数据库. 二二.IDS 开开发过发过程程: 1 在 owb 的开发告一段落后,我们就可以进入到展现工具的开发过程中来,首先我们需要进入 IDS 的 Discoverer administrator 里,在这里制定一个 EUL 用户,这个 EUL 用户是用来是用来管理 desktop 的,还做一些层次管理,例如可以制定一些计算方式和管理那些数据可以显示给用户那 些数据不可以显示给用户看. 2 在 Discoverer administrator 里完成了制定工作后,我们就可以进入 IDS 的另一个工具进 行展现方面的开发了(desktop),进入这个工具后,我们开始制作展现需要的表单. 3.在 desktop 里你所能看到的所有数据项都是 EUL 用户给你的权限,你可以根据客户的要求 去制作表单,增加一些特殊的计算项,在这里你可以使用 ORACLE 公司提供给你的所有聚集函数. ORACLE 的 ids 工具主要是用来满足展现方面的需要,而 desktop 是开发表单的主要工具. 2.2DB2 的开的开发过发过程程 IBM 的开的开发过发过程主要分程主要分为为三大部分三大部分: 1 warehouse manager 开开发发 2 olap server 开开发发 3 BI 开开 发发 ORACLE 9I SOURCE warehouse manager DB2 TARGET ETL Essbase administration server Olap server BI OLAP 展现 一一.Warehouse manager 开开发过发过程程: 1.在 DB2 数据库内通过 II 工具和 ORACLE 数据库做好映射,将 ORACLE 数据库内的所有表 映射到 DB2 数据库内. 2.进入到数据仓库中心,首先我们现配置,在仓库源内加入你需要的数据源表(也就是 映射过来的 ORACLE 表). 3.接下来我们需要在内加入你需要的目标表(也就是在 DB2 数据库内创建的事实 表). 4.我们现在就可以进入,在这里我们来建立一个主题,这个主题是的作用是制定一系 列的数据抽取和转换的规则,将 ORACLE 数据库内的原始记录,经过 ETL 的过程存放到 DB2 数据 库的事实表内. 5.我现在测试主题无误后,可以进入到运行界面,点击运行该主题,这样数据仓库就开始抽取数据 到目标表内了,至此在 warehouse manager 里的工作我们就结束了,现在我们得到的只是一些过滤好 的原始数据,至于这些数据之间到底有什么关系和结构,还有根据什么来汇总,我们需要到 IBM 的 Essbase administration server 这个工具里来实现它. 二二.OLAP SERVER 开开发过发过程程: 1.在打开 Essbase administration server 之前我们需要现启动 OLAP SEREVER 这个服务,启动它 后,我们需要再启动 administration server 的服务,这样我们就可以进入到 dministration console 里 开发了. 2.进入后,我们选择 Essbase analytic servers ,需要新建立一个 application,在这个 application 里还 需要建立一个 datebase ,建立完这个 datebase 后我们就可以正是进入 OLAP 的开发中. 3.我们现在 datebase 里进入到它的 outline,在这里我们可以定义一个主题到底有那些维 (dimension),和事实数据(date load),当定义完成后我们就可以制作规则文件了. 4.我们在 datebase 里选着 rules files 在制定维和事实数据的规则文件,制定完成后就验证和保 存. 5.在这里我们可以选着 load date 项,来想你的规则文件中填入数据,系统会根据你定义的规则 文件和维与事实数据之间的关系从 DB2 数据库内抽取需要的数据,load 到文件中,到此,OLAP 的工 作我们也开发完成了. 三三.BI 开开发过发过程程: (注:这里使用的是第三方 BI 产品北京博易智软产品 BI-PILOT) 1. 开发前需要先安装 BI 的产品,BI-PILOT BUILDER AND BI-PILOT SERVER, BUILDER 的作 用主要用来开发报表,SERVER 主要用来发布部署报表和在服务器上建立服务. 2. 进入到 BUILDER PROFESSIONAL 里我们需要先配置它与 OLAP SERVER 的连接,新建立 一个项目在项目上选择新建 ODS 文件,在这里需要填写 OLAP 的驱动和地址,用户名和密码,验证 成功后,这样连接就建立起来了. 3. 连接建立起来后我们可以选择需要的 OLAP 里的 datebase,这样我们还需要在项目上新建立 一个 OLAP 文件,在这里我们可以选择需要的 datebase. 4. 现在就可以制作交叉报表了新建立一个报表,选择插入交叉表,在这里我们可以看到 datebase 里的所有的维表和事实表里的数据点,可以选择横表头显示什么,每列显示什么,制作完成后可以预 览报表, 5.开发完成后,就可以发布和部署了,现在就需要启动 BI-PILOT SERVER 了.部署以后就可以通 过 B/S 结构来观看报表. 3应应用性用性 3.1 Oracle 的的 OWB 和和 IBM 的的 warehouse manager . OLAP server 的比的比较较 1 总总体理解上体理解上: Oracle 的产品使用图形化界面,可以快速设计、部署数据仓库,上手比较容易,理解 上比较快一些,比较适合出学者. 而 IBM 的产品比较多,安装和配置还有使用上比较复杂,所有比较适合有一定的数据 库基础和一定的数据仓据知识的人来操作. 2 操作使用上操作使用上: Oracle 产品控制上太严禁,没有多少发挥的余地,不可以修改已生成的 SQL. 而 IBM 产品就可以修改你生成的任何 SQL,比较开放.编程人员可以自己发挥. 3.从从结结构上构上: Oracle 的 WAREHOUSE BUILDER 工具可以完成数据的抽取转换(ETL)和多维结 构的建立. 而 IBM 的 ETL 部分是由 WAREHOUSE MANAGER 完成的,多维结构的建立是由 OLAP SERVER 来实现的,这样会需要多花时间来掌握更多的工具. 4 数据数据结结构上构上: Oracle 的整个流程都是在操作 ORACLE 的数据库,已 ORACLE 数据库为基础,即使 到了展现的时候数据的保存还是在数据库里,对数据库操作比较频繁. 而 IBM 在 WAREHOUSE MANAGER 的操作还是已数据库为基础,但是到了 OLAP SERVER 的时候就可以脱离对数据库的操作了,已文件的形式保存下来. 5 流程流程顺顺序上序上: Oracle 的整个流程是先建立维表和事实表,然后建立他们之间的层次和关系,最后根 据抽取条件从数据源抽取数据放到目标表内,它的 ETL 和 OLAP 的多维结构是一步完成的. 而 IBM 是先根据抽取条件从源数据库内整理好数据放到 DB2 数据库内,在建立多维 的规则文件,根据多维的规则文件再从 DB2 数据库内抽取数据存放到最终的一个文件中. ORACLE 建立维表的 层次以及和 事实表的关 系 数据的整理 和抽取 数据按多维 模型和抽取 规则保存到 最终的目标 库中 展现和多维 分析 创建所需维 表和事实表 数据的整理 和抽取 数据按抽取 规则保存到 目标库中 建立规则文 件,创建多维 模型 数据按多维 模型保存到 最终的目标 文件中 展现和多维 分析 3.2 由于数据由于数据仓库仓库开开发过发过程相程相对对复复杂杂,在两个,在两个产产品的使用品的使用过过程中都出程中都出现现了一些了一些问题问题。 3.2.1 用用 ORACLE 开开发过发过程中遇到的程中遇到的问题问题: 1 在展现方面 oracle 的 IDS 工具,在报表的表头中无法实现多层嵌套和自定义表头。 2 增量抽取数据有问题,oracle 的 OWB 工具不能实现自动定时间增量抽取数据,只能人 工抽取数据,这样会给以后的维护产生问题。 3 如果设计的维比较多,对于报表查询的性能会有一定影响,两者是成正比的,纬度越多,性 能越底。 4 所有数据全部动态计算,没有预算机制,延长了统计时间。 5 在 OWB 工具里作数据抽取时,如果主辅表关联,会产生统计金额的加倍的问题。 6 有关上月数与同期数的问题在 IDS 里无法解决。Oracle 提供的聚集函数并不能满足 这样的要求。 7 Owb 工具,如果今后需求有变动,需要修改开发成果从新抽取数据,但是 owb 工 具 不支持修改,只能删除原来的关系线从新作,比较耗费时间。 8 最大弱点,在 OWB 的开发中,如果数据库或网络断线,那就意味这你没有保存的信息 都将丢失. 3.2.2 用用 IBM 开开发过发过程中遇到的程中遇到的问题问题: : 1 开发过程分为多部(oracle 到 db2 映射,etl,olap,展现),需要安装使用的软件较多(现阶 段需要掌握 7 个软件安装 4 个软件的使用),掌握这些软件需要更多的时间,还需要 对数据仓库的理念有一定的了解。 2 业务数据库为 oracle,需要映射到 db2 的数据库中才能进行开发,这样会对数据的 ETL 部分有影响,具体影响有多大,还需要具体分析。 3 开发过程中完全使用 db2 的数据库及管理软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论