数据仓库解决方案_第1页
数据仓库解决方案_第2页
数据仓库解决方案_第3页
数据仓库解决方案_第4页
数据仓库解决方案_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库解决方案Sybase商业智能白皮书1目录Sybase 数据仓库解决方案3Sybase IQ 专为分析型应用设计的数据库5商业智能的数据库需求5IQ 核心概念5IQ 独特的优势7Industry Warehouse Studio数据仓库基础架构9失败的教训从零开始9IWS 架构9IWS 应用组件10分析型 CRM10商业绩效分析11IWS 带来的好处12WarehouseStudio13数据仓库设计-Warehouse Architect13多维建模13设计向导15优化代码生成16Warehouse Architect 带来的好处17Warehouse Control Center 数据

2、仓库管理18数据仓库整个生命周期的管理18Warehouse Control Center 带来的好处19POWERDESIGNER1120产品介绍20POWERDESIGNER是一个可靠选择22POWERDESIGNER 11的优点23POWERDESIGNER 11模块封装242Sybase 数据仓库解决方案BI Solutions利用完整的信息及时作出正确的决策,这就是数据仓库所要完成的任务。在经历了多年以业务为主的系统建设以及以强调数据收集为主的数据仓库建设之后,目前普遍认为, 数据仓库正向新的第二代数据仓库过渡,而且很多学者专家认为,传统的以事务处理为主的应用,其重要性正退居其次,这

3、种共存的体系构成所谓的“闭环决策处理系统” 。其基本特征为:BI 成为事务处理的完整部分要得到有关实施某一任务的忠告建议或步骤,就需要更接近实时的数据更新,即席查询, 甚至人工智能。 BI 已经逐渐成为事务处理的完整部分。从技术上来讲,对数据管理,数据加载等提出了更高的要求。多层面的用户扩展数据仓库面向的使用对象将不再局限于企业管理层,随着 Web 及 Internet 的不断发展,通过 Web 方式向分布式企业的各类人员,及其供应商,经销商,客户提供必要的商业智能应用正成为必需。用户层面的扩展同时带来了大量的用户并发。 从技术上来讲, 对数据仓库应用的并发性及可扩展性也提出了新的要求。DM

4、Review 最近的调查(如图)指出,各类用户对商业智能都表现出强烈的需求。数据的融合从 DM Review 最近的调查可以看到,人们希望商业智能能够提供各方面的分析,包括财务分析,客户关系分析,供应链分析等。数据的融合和完整的数据仓库正成为趋势。从技术上来说,对数据仓库的存储规模与查询性能提出了更大的挑战。强调数据模型的设计在传统的数据仓库建设中,往往强调数据的收集以及前端的数据展现,而对数据仓库的设计与建模关心不足,造成系统升级困难,甚至项目实施的失败。当前数据仓库的实施,设计与建模已经得到最终用户的高度重视, 因为成功的设计对数据仓库的实施来说可以达到事半功倍的效果。然而成功的设计需要正

5、确的设计方法,大量的需求调研以及丰富的实施经验,这是大多数厂商在实施过程中尤为头疼的问题。目前, 只有 Sybase 公司提供了近乎完美的行业数据仓库设计模型IWS 。IWS 在全球已被广泛应用,3近期在中国国内的应用已经受到了用户的广泛关注。Sybase 商业智能部门(Business Intelligence Division)致力于为新一代商业智能提供核心的解决方案。Sybase BI 部门所提供的软件产品与专业服务将数据转化为信息、知识与智慧,以使企业提高市场份额、减少客户流失、向已有客户进行衍生销售等。 BI 部门与其他领先的商业智能供应商缔结合作伙伴关系,为各类行业市场提供完整的商

6、业智能解决方案,包括金融服务、信用卡市场、保险、银行、通讯以及Internet 等。Sybase IQWarehouse StudioSybase 商业智能解决方案涵盖数据仓库设计、实施、管理以及方法学的各个方面的软件产品。其中两个核心产品:Sybase IQ 一个高性能的关系型数据库, 专为满足电子商务智能与 Web 化的数据仓库的需求而设计。* 可扩展性提供数以千计的用户并发访问超大规模的数据* 速度查询响应速度以秒计,而非分钟或小时* 灵活性允许用户提交任何类型的即席查询* 经济数据压缩显著降低存储空间,简单性减少维护成本Industry Warehouse Studio一个企业分析基础

7、架构,加速商业智能应用的设计、开发与部署。客户可以使用IWS 建立一流的分析应用。IWS 面向各个行业:金融、媒体、通讯、银行等。Sybase商业智能软件产品所拥有的许多新的优秀特性正使其成为建设新一代数据仓库的楷模。4Sybase IQ 专为分析型应用设计的数据库商业智能的数据库需求电子商务在不断发展, 企业对电子商务的认识和态度也在转变, 新技术的不断涌现如无线和移动网技术等,企业对竞争与商业绩效的进一步关注,个性化的潮流,企业对成本的关注,所有这些将商业智能带入了一个新的时代。今天的商业智能架构,对数据库引擎提出了新的认识。1大数据量在今天高度竞争的环境中,需要深入的理解与分析以留住有利

8、润的客户。你如何获得关于客户、产品、运营、关键利润来源的理解?通过收集、 保留、管理大量的数据。 而今天, 电子商务、 Internet 、原有的事务系统生成了大量的数据。企业需要一种方式获取、保留、存储、管理、研究大量的快速增长的数据。2大量并发查询基于 Web 公司正逐步向客户、供应商、代理商以及其他商业合作伙伴开放对数据的访问。今天,客户自服务意味着数以百万计甚至千万计的人将会访问与他们的帐号相关的数据。或者,可能意味着 10000 个供应商访问他们正在提供的产品与服务而且以一种远比消费者复杂的模式进行交互。3复杂的查询商业智能从根本上来说已经不再是简单的查询。它越来越是一个复杂的行为模

9、式以及复杂的客户特征与客户行为之间相互的关系。 数据的复杂性与问题的深度表明: 商业智能的许多查询显然需要消耗很多系统资源是复杂与困难的。4快速响应过去几年, Internet 的广泛使用对数据仓库带来了另一个影响:数据比过去更多的被交互式的访问。早期的数据仓库主要集中在大量的预定义的批报告与分析。现在出现了非常不同的使用方式:大量的在线查询, 用户希望在秒或分钟级获得查询结果,而不是几小时或整晚。这要求数据库引擎能够提供交互式的快速响应。5可扩展性现在,数据仓库不同于过去,是一个非常动态的环境。由于大量的用户每天都在使用,其工作量非常动态。当商业的步伐进入“互联网时代” ,新的应用、主题、与

10、用户急剧增加。可扩展性使数据仓库具有高性能。这是新时代数据仓库的重要因素。IQ 核心概念Sybase IQ 是一个高度可扩展的分析型数据库引擎,专门为分析型应用与数据仓库而设计, 使数据仓库应用拥有卓越的查询性能与最低的总拥有成本。不同于传统数据库主要考虑在线的事务进程的设计,是专门为分析型而不是事务型而建构的,首先关注的是查询的性能。其垂直存储、专利索引技5术以及独特的架构使其成为数据仓库的最佳选择。1带压缩的列存储IQ 按列存储数据,而不是行这与所有其他关系型数据库引擎广泛使用的存储方法方向相反。决策处理中的很多查询只需要很少量的列数据,因而与传统的RDBMS相比,这种方法在选择满足查询条

11、件的数据时,只须涉及到很少的数据页面。进一步讲, 列向量在磁盘上是压缩存储的。按列存储数据时由于相邻接的字段值具有相同的数据类型,所以使Sybase IQ 更容易对数据作压缩处理。但在传统的按行存储数据的情况下,就不可能有这样的效果, 因为列与列之间数据类型通常是不同的。数据压缩的另一好处,是经去规范化处理而形成的表不会对磁盘空间有过量的要求,因为重复的数据经压缩实际上就消除了。数据的列式存储所带来的另一好处,是当需要一列新数据时不会引起数据库结构的改变,而对于很多传统的RDBMS而言,在这种情况下数据库结构的改变恰恰是免不了的事。列存储加上数据压缩,IQ 在查询中典型的比传统数据库引擎少做超

12、过10-100 倍的磁盘I/O 。结果是, IQ 的列存储带来明显的性能改善。2独特的索引结构IQ 中使用的索引结构的组合是独一无二的,为数据仓库高度优化的。比特式(bit-wise )索引及相应的压缩技术是 Sybase 的一项专利。 Sybase IQ 运用这一技术对数据仓库中的所有字段建立索引,由此不仅带来查询效率的大幅度提高,而且还降低了对磁盘空间的使用。在 IQ 中,对所有的列至少进行一次索引化,而且可以为每个列建立多个索引。同时,查询优化器可以进行多种选择以优化查询性能,对不同的查询使用不同的索引。在传统 RDBMS 中,不仅实际数据占用磁盘空间,相应的索引也占用磁盘空间,在总量上

13、后者超过前者的情形并不鲜见。但Sybase IQ 的比特式索引根本无须增加磁盘空间,因为Sybase IQ 中的索引就是数据库。Sybase 与其客户的使用报告表明,IQ所需的磁盘一般只占原始输入数据所需空间的40%-60% ,而且,查询速度会比传统的数据库引擎数以千倍的提高。查询优化IQ 拥有有一个出色的查询优化器,能够对谓词评估、联合类型、排序、分组、数据访问以及其他查询评估步骤做出复杂的决定。由于 IQ 架构允许维护大量索引,而且由于系统在多数情况下通过索引化的列值保留了精确的行的记录数, 优化器能够比许多关系型引擎更好的利用这些信息来生成更佳的查询计划。并行操作新的多线索体系结构Syb

14、ase IQ 采用了新的体系结构,即单进程多线索结构。这种结构在处理多个并发用户的请求时,能够降低处理和内存方面的开销 ,并能够支持数百甚至上千个并发用户的能力。本质上讲, IQ 允许多个节点共享磁盘上的数据,每一个节点访问整个IQ 的共享数据存储区,并且对它直接进行物理存取。有两种类型的节点: 写节点和读节点。 写节点拥有全部的数据库锁执行DBA任务是唯一的能够更新数据库的节点。写节点拥有更新锁这一事实完全消除了传统的关系型数据库中所存在的锁系统开销。在传统的关系型数据库中,为了确保数据的一致性,必须跨节点协调数据库锁。由于在 IQ 中每一个节点使用它自己的CPU 和内存资源运行,节点之间仅

15、需极少的通讯,因而确6保了每个节点之间的零冲突。只有写节点,能够对IQ 进行更新,以便能够管理和更新数据存储和对节点进行同步。一个查询在它被连接的节点客户机上完成; 其它的节点不参与查询工作(单个的查询不需要跨多个节点 )。因此不需要昂贵的,复杂的,高速的节点间互连。这个架构提供了一个高度的用户扩展性能。查询性能与可扩展性相结合,其结果就是,IQ 所拥有的架构使其可以服务于大规模的在线查询用户。总之, IQ 新体系结构的效果就是高性能的处理大量的在线用户执行各种类型的查询。5快速加载IQ 支持批量与非批量数据库加载。并行操作已经内建到面向插入与更新操作的加载器中,因此,无需为多个数据仓库应用提

16、交多个并行加载工作以获得并行化。6 IQM与“非共享的”MPP (大规模并行处理)之比较IQ 共享磁盘,不需要对数据库进行分区。MPP 系统由于需要对数据表进行水平数据分区,因此,大大地增加了工作量及维护和管理数据库所需的成本。IQ 不受错误的数据和查询的影响,与MPP 系统不同,它能够有效地管理不同规模的节点。IQ 独特的优势信息正成为驱动企业成功的引擎。为了赢得成功, 你需要比你的对手或敌人更迅速的将巨量的信息转化为智慧的决策。下面描述了IQ 独特的架构特征所带来的一些关键的效果。快速查询Sybase IQ 为你的最终用户提供的回答比使用传统数据仓库快10 到 1000 倍,而不论存在多少

17、数量的用户和查询。这意味着查询结果将在几秒或几分钟内返回,而传统的技术却需要花费几小时或几天。并且由于 Sybase IQ 可以对数据进行实时加载,而不影响查询性能,因此用户可以高效的基于最实时的信息作出最佳的决策。高度的可扩展性与灵活性Sybase IQ 的设计允许数据仓库从基础开始扩展,从很小扩展到非常巨大的规模。这一点已经完全被验证:* 数以千计的用户与查询* 各种服务器,几十个节点,几百个CPU ,48TB 以上的输入数据可扩展性对 Sybase IQ 而言,举重若轻,你可以从一个小型的数据仓库开始,扩展到大型的数据仓库。也可以从大型开始扩展到超大型的数据仓库。节约存储成本/数据压缩S

18、ybase IQ 压缩数据仓库可以多至 70%。在由 TPC 测试专家 Francois Raab主持的基准测试中, Sybase IQ 加载了 48.2TB 的原始数据,而将其压缩到 22TB 的数据仓库中。使用传统的关系型数据库,同样的 48.2TB 数据可能会膨胀到 120-240TB 。这一点比起传统的数据库来,大大节约了存储成本。降低维护成本彻底消除为每个查询进行调优的需要, 消除为管理和维护新增节点和数据花费大量时间和资源的的需要, Sybase IQ 降低了数据管理成本,减少了维护工作量及其相关成本。加快部署由于 Sybase IQ 从下到上都是为分析而构建,所以相比传统的数据库

19、,仅需很少的部署时间。使用IQ, 不需要为分析而在数据库上面花费很多工作。部署时间可以大幅减少多达80%。这意味着企业可以快速获得结果。利用现有投资正如所有 Sybase 技术, Sybase IQ 基于开放标准,确保与企业现有 IT 资产的集成与协同工作。总结查询性能与可扩展性是今天数据仓库必不可少的功能特性。这意味着电子商务可以将数据转化为深7邃的洞察力与真正的经济价值。 这同时也意味着可以用更低的费用提供大规模用户的查询。 对企业来说,意味着数据仓库的实现更加简单,勿须再承担高额的预算甚至对企业事业的威胁。8Industry Warehouse Studio数据仓库基础架构失败的教训从零

20、开始如果在过去十年的经验中有什么需要吸取的唯一的教训, 那就是从零开始建立数据仓库是一个失败的建议。它意味着先期必须花费巨大的时间和资金收集需求、理解特定行业的业务、设计模型、建立抽取、转换、加载模板以及建立分析查询。Meta Group 的报告指出20% 的数据仓库项目是“悲惨的失败者”,而另外 50%仅仅取得了部分的成功。其他的行业评估机构将完全失败的比例定得更高。在大多数的案例中,失败是由于企业缺乏数据仓库的专业知识,并且使用了传统的面向事务的开发技术与数据模型.然而,究竟有没有一条途径能够集中数据仓库专家的经验, 吸取在众多数据仓库项目所得到的教训,能够访问已被验证的行业特定方法、应用

21、与数据模型?现在,有了Sybase Industry Warehouse Studio (IWS) !IWS 架构在过去的几年里, 我们一直在研究使分析型应用的开发成为如此长时间、 高成本与高风险的过程的因素。我们发现,在每个行业里存在一些共同的元素工作流、衡量方法、报表需求、术语与数据类型不需要为每个新的项目重新建立。我们把这些共同的元素集中到我们的 IWS 中,使你能够提交商业智能应用,以描述整个企业范围内不同却相关的客户行为、价值、潜力等因素。快速、以最小的成本与风险。IWS 被喻为数据仓库实施的“新浪潮” ,它将数据仓库基础架构的核心组件,核心的商业模型、物理数据规划、元数据管理和应用

22、样本有效组织为一个单一的软件包。IWS 方法论建立一个成功的数据仓库可能是一个相当复杂的过程。没有一个“成功指南”,许多企业常常首先从选择技术开始建立一个数据仓库,结果是系统并未能描述开始建立一个数据仓库的原因,而商业问题正是这个原因。如图所示,数据仓库实施决策过程的第一步是考虑商业战略和明确商业目标。IWS 方法论支持这个商业为核心的决策过程。IWS 方法论专门为建立数据仓库而设计。它涵盖了建立与部署一个数据仓库的所有方面,划分为几个特定的阶段和步骤。每个步骤都要求被执行以生成一个成功的数据仓库。这个方法学的结构如图所示:IWS 方法论以一个用来测定数据仓库是否有效支持商业战略的“准备就绪测

23、试 (readiness test)”和一个用来确立商业战略的内容与优先级的 “商业探测 (business exploration) ”阶段开始。 随着关键的商业驱动的确定,确定候选的应用就更容易和更有效。对IWS 而言,在数据仓库实施过程中,所有这些步骤都在考虑数据仓库工具之前发生。9IWS 方法论可以被归类为一种进化的方法。下面的语句总结了进化的设计原理:在我们将局部组合起来之前,必须有一个描述整体的逻辑框架我们将这种进化的设计原理应用到数据仓库,一个描述完整的数据仓库的设计必须在进行任何一步实施之前提供。这个理念导致了对IWS 数据结构的需要。IWS 数据结构IWS 为多个垂直行业提供

24、了一个数据仓库设计,可以即时部署到一个数据管理系统。面向行业的设计对减少客户在数据仓库实施中所需要的大量的设计与编程工作大有帮助。 既然每个企业都有自己独特的分析数据的方法,每个特定的部署需要一些客户化的工作以使数据库设计适应企业的需求。Sybase IWS 的数据结构有几个层次组成,如右图所示,最里边的3 层作为数据结构的部分,外层作为客户化过程的一部分。完整的数据库设计分为几个子模型,每个子模型代表一个特定的商业分析领域例如客户划分或者销售分析。 每个子模型由一系列表和视图组成,他们一起提供了某个商业领域的根本的数据存储需求。任何一个表可能被用在多个子模型中。例如客户表在客户划分子模型中使

25、用,也在销售分析子模型和其他子模型中使用。核心模型是IWS 数据结构的中心,由大约70 个表组成。它包含几个可以跨行业应用的子模型(包括它们的表和视图)。因此,每个IWS 的垂直行业部署都将包含通用的核心模型的表、视图与子模型, 除各行业特定的专注于该行业核心事件的子模型。 因此,这个核心模型提供了跨越多个行业的需求的数据仓库的基础。每个特定的行业IWS 有自己的垂直模型,与核心模型高度集成。聚合层包含系统中的各种聚合表。聚合有两个主要的用途:性能和处理过时数据。某些层次的面向性能的聚合由IWS 提供,而一些则需要合并到客户化的过程中。对过时数据的处理需要客户化以适应IWS 客户的特定需求。反

26、馈数据指商业人员绩效分析的结果的数据。外部数据来自企业外部的组织提供的数据,这类数据被存储在独立的一组表中,然后与其他数据集成。面向特定工具的表是一些管理工具所要求的,例如一些前端报表工具,要求数据或元数据以“客户化”的格式存储。这些表起到实施过程中所选用技术的外围工具的功能,并不是IWS 基础架构的部分。IWS 应用组件分析型 CRM一个数据仓库主要的好处之一是使企业充分认识与企业其客户的关系。理解客户为何保持与企业联系或者为何离开企业而与竞争对手打交道,这些信息可能深埋在企业的数据库中,只有通过数据仓库才能获得。一个有效的分析型CRM 战略可以帮助企业理解他们客户的需求,从而使企业的产品适

27、合这些需求。使用分析型CRM 应用,企业可以增加现有客户的业务量,同时也可以证明企业通过提供增值产品与服务带来新的客户的能力。IWS 的核心模型提供了一个满足全面分析型CRM10应用需求的基础:*商业活动管理分析*客户特征*客户关怀(联系)分析*客户忠诚度*销售分析每个特定行业的 IWS 垂直子模型扩展了应用的能力与范围,提供行业特定的商业绩效与利润分析能力。客户特征分析当市场变的更加细分, 客户分类正成为市场战略中越来越重要的因素。 客户特征化允许企业将整个客户群细分为许多个更细的分类。特征化与客户分类有助于在一对一的市场上建立真正的客户关系。商业活动分析准确定位商业活动和推广计划的客户并且

28、分析他们对该活动或计划的反应是将市场行为转为客户化行为的关键。 大多数企业通过不同的媒介对多种不同的产品进行多种不同方式的推广活动。这个应用进一步提高企业对整个过程的理解与认识从确定目标客户到分析客户反应。商业活动分析允许你对某客户群或单个客户对各种活动的反应进行评测,对不同媒介的效果进行评估并且对活动的成本-效益进行分析。销售分析销售分析应用允许从各个角度对销售进行分析,包括渠道、出口、或企业单位、产品、产品目录或产品组, 地区或季节。 该应用为企业提供一个对销售结果的综合观察并使销售主管能够通过销售数据分析潜在的趋势和模式。忠诚度分析客户忠诚度对任何企业的收益都很关键。然而,不幸的是很少有

29、企业利用工具来理解客户流失的原因或者以一种结构化的方式来衡量客户的忠诚度。这个应用正是为改变这种状况而设计。忠诚度分析应用允许你从各个角度衡量客户忠诚度,包括关系持续时间、购买服务与产品的范围以及客户的人口统计学与地理学特征。就其本身而言,忠诚度分析应用衡量客户忠诚度并促进企业制定计划以保持客户。与整个IWS 套件中的其他应用相结合,客户的忠诚度可以通过他们的价值体现、联系历史、 所属分类以及影响忠诚度的交易事件进行评估。客户关怀分析客户通过各种方式与企业打交道。他们可能打电话要求产品支持,通过填写Web 页面上的表格提出建议或者向销售部门了解更多信息。客户关怀分析应用对客户行为以及各部门的客

30、户处理记录提供有价值的深入分析。 客户满意度或不满意度都可以通过客户与企业之间的联系历史来确定。分析客户的联系记录是维持和培育用户关系与在未来保持客户忠诚度的基本的要素。商业绩效分析每个特定行业的 IWS 垂直子模型扩展了应用的能力与范围,提供行业特定的商业绩效与利润分析能力。IWS 商业绩效分析模型与应用组件针对每个垂直行业并基于各行业重要的核心事件进行设计。商业绩效分析应用为企业销售和市场总监以及企业战略制定者提供他们所需的商业智能信息。存储在 IWS 垂直子模型中的基于各行业核心事件的详细数据成为提供该解决方案的动力引擎,而且当其与IWS 套件中相关应用相结合,将大大革新企业管理业务与让

31、客户满意的方式。对任何企业而言,利润率分析是商业绩效分析的关键。理解利润率对决定价格、折扣奖励、资源分11配与发展战略至关重要。然而利润率是一个多面性的概念。它必须置于企业、渠道、产品、产品分类、商标、客户与客户分类之中来考虑。而且大多数企业也希望衡量毛利润、净利润与差额。另外,许多行业都有行业通用的独特的利润率衡量方法,通过它跟踪企业绩效和与竞争对手比较。IWS 商业绩效所针对的行业包括:零售银行业、信用卡、电信、证券、金融、保险、医疗、媒体等。IWS 带来的好处Sybase IWS 是 Sybase 多年来在全球成功部署数据仓库的结晶。使你可以:* 最小化风险* 减少部署时间* 降低项目成

32、本* 增加你的投资回报* 将关键的重要的客户与市场信息放到商业用户手里使用 Sybase IWS,你可以从入门急速前进,在3 到 6 个月的短时间内,建立并运行你的数据仓库。忘掉从零开始。不要担心你没有数据仓库专门知识。Sybase 已经提前为你做了这一切,并且把它打包为 IWS 一个已被验证的成功的数据仓库框架。12WarehouseStudioWarehouseStudio是一个针对数据仓库应用的集成化的解决方案,无论从技术的深度上,还是从技术的突破性上看,都是数据仓库领域其他制造商所无法比拟的。WarehouseStudio 解决方案一批在业界领先的工具,能够使任何新的或已有的信息提交架

33、构立即增值。Warehouse Studio 包括:设计组件(Warehouse Architect )、元数据管理软件 (Warehouse Control Center )以及其他一些可选组件。Warehouse Architect-数据仓库设计Warehouse Architect 可以使数据仓库设计人员(数据建模人员和系统设计人员)模拟整个数据仓库系统内的各种数据资源。数据仓库的设计,其目的是为数据仓库的实施提供蓝图,并从一个单一的控制点出发实现对数据仓库的配置。Warehouse Architect 使用最通用的关系数据库和多维数据库的设计方法建立数据仓库模型,它为设计人员建立了一个

34、非常友好而单一的环境,能让数据建模人员和系统设计人员很方便地处理数据仓库设计中特殊的应用需求。Warehouse Architect 为数据仓库的设计提供了三大类功能,即:多维建模在 Warehouse Architect 环境中,设计人员可以使用针对数据仓库问题的所有常用的设计方法, 可以获得处置数据多维特性的功能支持。在这个环境中, 可以使用自顶向下的建模方法或者是使用自底向上的建模方法获得各种设计。设计向导 Warehouse Architect 所提供的设计向导, 可以帮助设计人员生成数据的多维层系结构、可以为聚合 (aggregation) 、分割 (partition) 、导入 (

35、importing) 处理而优化的数据结构,还可以用逆向工程的方法获得源数据定义。*多维层系。 Warehouse Architect能够存储、描述、模型化商业人员用来分析信息的的多维层系。*聚合与分割。Warehouse Architect包含一个辅助向导支持标准的数据仓库设计方法如聚合与分割。*导入操作型系统。操作型系统的设计可以在Warehouse Architect 中记录和描述。逆向工程功能支持超过65 种不同的数据库和版本。优化代码的生成Warehouse Architect 能够生成最流行的目标数据仓库和应用环境的目录信息所需要的代码,对不同的环境所生成的代码自然也不同,包括:最

36、为流行的关系数据库环境( Adaptive Server Enterprise, Oracle,Informix, DB2等), 特定的查询处理引擎(Sybase IQ, Red Brick) , 在线分析处理(OLAP )环境及特定的查询环境。在客户化之后,Warehouse Architect根据所选数据库技术生成建立数据库的DDL文件。除此而外, Warehouse Architect 还提供了一批相当通用的设计功能,包括: 业务规则的定义与捕获、可定制的报告生成、逻辑建模与物理建模、域的定义、子模型复用、实体继承模式、物理特性的定义与规模估算、可追踪性映射以及成组模型(team mod

37、el)管理工具。多维建模数据仓库的设计, 在表现形式上必须满足最终用户的分析和决策支持的需要。除了这些用户需求而外,数据仓库的设计还必须考虑到对数据仓库的效率有直接影响的诸多因素,如:目标平台, 包括主流数据库 (例如 Adaptive Server Enterprise ),经过优化的数据库 ( 如 IQ)及多维环境(如 PowerDimensions )。13数据仓库应用的复杂程度(如聚合的级别以及变量的数目)。由数据仓库所处理的数据的规模以及相应的加载频度(如数据仓库的数据多长时间被刷新一次)。物理环境因素(如所支持的用户的个数以及硬件的配置等)。由于这些因素的存在, 所以选择适当的数据

38、建模方法和设计策略, 对于优化整个数据仓库环境的效率至关重要。因此,以查询为主的多维建模方法越来越被数据仓库的设计者所青睐。多维模型的数据结构要以对最终用户直观而且习惯的方式表达。 设计者通常是用多维立方体的形象方式来描述多维模型。多维立方体表达了在回答信息查询时多个表之间的关系。立方体的每个棱对应于一个维,表达了信息搜索的一个方向。正如图 1 所示,这种立方体设计方法,使用多个维将用户所需要的结果集很形象地表现出来。这种多维模型能够将每个维进一步展开细化,使查询的粒度完全符合用户的要求。 Warehouse Architect 使数据仓库的设计者能够利用多种图形对象进行多维分析和建模。这样的

39、图形对象包括:度量( metric ):一个变量,通常为数值变量,是决策支持研究的重点。例如,“欠款余额”即属此类。维( dimension):确定对某个事实或者某个度量进行考察和分析的角度或方向。例如, “地域”即属此类。属性( attribute):附加在某个维上的列数据,用于进一步限定或描述相应的维。例如, “地区主管的电话号码”即是属性之一例。事实表( fact table):一种既存有度量又存有相应维的表。如,一个记录会计帐务的表即是事实表。维表( dimension table):一种存有维和与维相联系的属性的表。例如,假定“时间周期”是我们选定的一个维,则与之相关联的属性就可以是

40、“假日” 、“年”、“季度”等等,一个同时存有这两类信息的表就是维表。维层系( dimension hierarchy):一种划分为具有层系结构的维,用以表达更细的信息粒度。这种结构所包含的层数,是信息表达粒度的一种指征,它反映了对相关数据的表达可以详尽到何种程度。例如, “地理位置”维就可以细分为“国家”维, “大区”维,“省”维及“城市”维等等。事实层系( fact hierarchy ):一种经聚合或划分处理而将原本一个事实细分为多个其他事实,所有这些事实具有某种层系结构的一类事实。例如,在信用卡交易中,按地区计算的年销售额就是一个事实实体,该实体提供了得到信用卡交易情况的聚合路径。图

41、1:MegaBank 关于信用卡交易的多维设计14设计向导Warehouse Architect 所提供的设计向导,可以帮助设计人员生成数据的多维层系结构、可以为聚合与划分处理而优化数据结构、可以用逆向工程的方法获得源数据定义。还可以为不同的目标数据库和可视化环境生成各自的代码。生成多维层系结构使用 Warehouse Architect 所提供的设计工具, 设计者可以将数据仓库模型中的实体, 变换为一种层系结构。利用这种层系结构, 可以实现聚合与划分处理, 并可以生成前端决策支持工具所需要的数据结构。如果现有的数据模型是带有维向的,则Warehouse Architect就可以为设计人员自动

42、地生成相应的层系结构。 在这一过程中, 设计者只需简单地从设计向导在对话框中提供的一系列选项中按自己的需要作出选择。 Warehouse Architect 将根据设计者的选择,自动地生成相应的层系结构。聚合、划分与数据结构的优化高效率是所提交的数据仓库真正可用的关键。 Warehouse Architect 通过设计向导而提供了一些在数据模型内改善效率的方法,其中包括:聚合 产生部分冗余事实表的一种处理(所产生的事实称为聚合事实) 。在运行时,前端决策支持引擎会“重新引导( re-path)”查询,使之直接针对经聚合处理的事实表。这样,查询的效率将得以改善。聚合数据也就是汇总性的数据,通常是

43、在出现需要频繁访问的数据,而且数据本身具有层系结构时,为加快查询需要存放这类数据。 聚合能够优化查询效率, 是因为查询所搜索的空间是特定维向所限定的汇总事实表中,相对而言比较小。因此,对事实和维作聚合处理,可以减少查询执行中所需的计算的总量。在对数据进行聚合处理时,通常是沿着经常需要查询的路径对数据作提取,然后再将提取的结果存入一个聚合事实表中。聚合事实表和原有的事实表一并构成事实层系。例如,你可以沿“时间”维和“行业代码” (SIC: Standard Industry Code)维生成聚合事实表。在作了这样的聚合处理后,若想按“月”和按“行业”分析市场趋势,就只需在聚合表和聚合事实中(而不

44、是在交易的明细数据中)进行了。Warehouse Architect 的 Aggregation Wizard是聚合处理的软件向导,在它的引导下,针对上述要求而言, 设计者所要作的仅仅是: 选择交易事实表 (作为基础数据) ,将“时间” 维设定为 “月”,将商品维设定为 “行业代码”。整个聚合过程都由软件自动完成, 聚合的结果乃是一个聚合事实表,它所记录的是按月按行业的销售事实。划分 是将事实分解为更小部分的一种处理。多个小的事实表分别存放更基础性的数据,但这些小的事实表是彼此相关的,其总体构成一种层系结构。划分处理将事实分解为某种层系,并按照一个或多个维分配数据。因此,划分处理同样可以优化查

45、询的执行过程。 当需要查询很明细的数据时, 往往需要先作划分处理。 这样作可以避免为得到所需的信息而跨越很多无关的行。另外,划分还可以对数据仓库中的数据实施保护。因为,事实表中某些粒度的信息早已不复存在,从而能够限制用户取得细节数据的欲望。例如,你可以按地区分布情况对每个地区或者每个地区办公机构生成一组划分表。有了这样的划分,就可以做到使每个地区办公机构只看到本地区的交易信息, 但看不到其它地区的交易信息。由于在分析本地区交易信息时, 不必跨越到其他地区去, 所以就压缩了对数据的查找范围, 使分析能够快速完成。Warehouse Architect 的 Partitioning Wizard是

46、作划分处理的设计向导。在其引导下, 设计者可以很简单地建立一组划分表:首先,选择要对其划分的事实表,然后,从表中指定划分原则的一维属性或多维属性即可。例如,你可以选择位置维中的地区属性。这样选择的具体结果是:对地区属性的每个值(如,东部地区交易,中部地区交易,西部地区交易)生成一个对应的事实表。所产15生的划分表的数目,取决于对每维属性所指定的具体值的个数。导入源数据的定义数据仓库模型可以是新的,也可以是从外部数据源得到的。得到这些模型所选用的方法可以是自顶向下的建模方法,或者是自底向上的建模方法。Warehouse Architect 不仅支持这两种方法各自单用,还支持从这两种方法中选其优者

47、而用之,即更典型的所谓混合建模方法。自顶向下的建模方法.自顶向下的建模方法采用如下的流程完成建模工作,即:从用户需求得到逻辑数据模型, 从逻辑数据模型得到物理数据模型,从物理数据模型得到物理数据库定义。自底向上的建模方法.自底向上的建模方法是从指出当前系统所包含的具体数据元素出发,运用综合的办法将这些数据元素组合成若干个维和若干个结构单元,从这些结构导出物理数据模型。Warehouse Architect 的导入向导,使得数据仓库的设计者可以选择一个或多个外部的运行数据库作为数据仓库模型的来源。导入向导使设计者能够从这些外部数据库中选择某些特定的表。该向导自动地将所导入的每个表列的数据类型转换

48、为目标数据仓库数据库中适当的数据类型。进入目标数据仓库的每个外部表,都带有它来自哪个外部数据库的信息。一旦外部信息进入WarehouseArchitect 后,你就可以设计目标数据仓库的多维模型了。Warehouse Architect 会自动地展现数据仓库实体与外部数据库实体(包括表,列等)之间的对应。这种对应实际上是提供了从来源到目标的追踪信息,这类信息都记录在每个表的抽取表达式里(此处的抽取表达式事实上就是用以加载数据仓库数据库的SQL 查询)。Warehouse Architect 能为数据仓库的设计者自动地生成这些SQL 查询,并将它们放到某个外部文件中。这些信息可由某些抽取工具用来

49、在适当的时候转移最终用户的数据。优化代码生成当你生成新的数据仓库的物理模型时, Warehouse Architect 需要设计者选定自己的目标数据仓库的数据库平台。你可以从市场上流行的而且也是技术上领先的关系数据库系统中选择(例如 Sybase 的 Adaptive Server Enterprise ),你也可以从某些专为数据仓库而建的关系数据库系统中选择(如 Sybase 的 IQ)。除此而外, 还需要选定功能强大的、用于进行在线分析 ( OLAP )的某个引擎,如 EssBase或者 Cognos 公司的 Impromptu 。这些具体物理环境的选择,会对Warehouse Architect的物理数据建模界面的效率有所影响。选择得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论