数据仓库解决方案概述课件_第1页
数据仓库解决方案概述课件_第2页
数据仓库解决方案概述课件_第3页
数据仓库解决方案概述课件_第4页
数据仓库解决方案概述课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 “数据仓库是在企业管理和决策中 面向主题的,集成的, 与时间相关的 和不可修改的数据集合” Bill Inmon OLTP系统系统 财务系统财务系统 业务系统业务系统 计费系统计费系统 5-10 年年 过去过去 详细数详细数 据据 当前当前 详细数据详细数据 轻度轻度 汇总数据汇总数据 高度高度 汇总数据汇总数据 数据集市数据集市 用户分析用户分析网络资源分析网络资源分

2、析 数据仓库数据仓库/决策分析系统决策分析系统 网管系统网管系统 事务处理性能是第一位的 支持日常的业务 事务驱动 数据是当前的并在不断变化 存储详细数据 (每一个事件或事务) 面向应用 针对快速预定义的事务优化设计 可预见的使用模式 支持办事人员或行政人员 支持长远的业务战略决策 分析驱动 数据是历史的 数据是静态的,除数据刷新外 数据反映某个时间点或一段时间 数据是汇总的 面向主题 优化是针对查询而不是更新 支持管理人员和执行主管人员 l立足于现有的立足于现有的OLTP系统系统 l当前数据和历史数据当前数据和历史数据 l集中整合之后,构建一集中整合之后,构建一 个庞大的数据仓库个庞大的数据

3、仓库 l面向业务分析和决策层面向业务分析和决策层 l运用多维分析方法,充运用多维分析方法,充 分挖掘数据中的信息分挖掘数据中的信息 l应用应用DW/BI的三步曲的三步曲 数据抽取数据抽取 数据管理数据管理 数据分析数据分析 D A T A DATADATA DATA DATA DATA DATA DATA DATA DATA DATA DATA DATA DATA INFORMATION 信信 息息 u数据仓库数据仓库(Data Warehouse)(Data Warehouse)是一种专为联机分析应用是一种专为联机分析应用 和决策支持系统提供数据源的结构化的数据环境和决策支持系统提供数据源的

4、结构化的数据环境 u数据仓库要解决的问题是从数据库中获取信息的问题。数据仓库要解决的问题是从数据库中获取信息的问题。 信信 息息 INFORMATION 业务系统业务系统 集成的信息管理集成的信息管理 设计和元数据维护设计和元数据维护 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 Relational Package Legacy External source Data Clean Tool Source Data

5、 Data Staging WareHouse Admin. Tools Enterprise Data Warehouse Data Extraction, Transformation and load Datamart Datamart Enterprise/ Central Data Warehouse RDBMS ROLAP RDBMS RDBMS, Star Schema Architected Datamarts Central Metadata Data Modeling Tool End-User Tool End-User Tool MDB End-User Tool En

6、d-User Tool Local Metadata Local Metadata lIntegrate lEnterprise Connect lReplication Server lPowerMart lDesign lWarehouse Architect lManage lSybase ASIQ lVisualize lBrio lCognos lAdminister lWarehouse Control Center 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管

7、理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 l数据库的设计对数据仓库系统的整体性能、装载和数据库的设计对数据仓库系统的整体性能、装载和 l建立索引的时间以及数据量的增长等的影响超过建立索引的时间以及数据量的增长等的影响超过 l任何其它方面。任何其它方面。 为数据仓库的设计提供三大功能: 多维建模 度量、维、属性 事实表,维表 维层次表,事实层次表 设计向导 聚合(Aggregation Wizard) 分区(Partitioning Wizard) 逆向工程数据源 优化代码生成 目标数据仓库引擎(IQ,RDBMS) OLAP分析环境 Time identifier = Time

8、 identifier Product identifier = Product identifier Customer identifier = Customer identifier Store identifier = Store identifier Customer Customer identifierdouble Customer namechar(30) Sales Fact Product identifierdouble Time identifierdouble Customer identifierdouble Store identifierdouble Sales

9、totalreal Profitsreal Store Store identifierdouble Store namechar(50) Time Time identifierdouble Datetimestamp Monthchar(50) Quarterdouble Yeardouble Product Product identifierdouble Product descriptionchar(80) 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数

10、据分析和展现工具 数据字典(元数据)的管理工具 挑战 多个、多种异构数据源 硬件,OS,RDBMS,文件 数据不规范,需要做大量的清洗和整合 转换规则复杂,繁多 繁琐的日常性工作,占80%工作量 数据质量保证 数据增量抽取 抽取工作过程化,自动化 成功的关键 支持多个、多种异构数据源 轻松方便地设计数据的清洗,转换和整合规则 日常事务性工作自动化完成 有完善的数据质量保证体系 有完备的数据增量抽取 直观,面向过程化设计;自动化的执行 开放性,可扩展性,易于实施和维护 解决的方案 手工编程实现 使用工具设计和实施 PowerMart/PowerCenter 开发环境,一系列工具用于设计、执行和维

11、护 数据的抽取、转换和装载流程 抽取转换引擎(服务器),自动执行 Source Databases Target Database DesignerServer ManagerRepository Manager Warehouse Designer Mapping Designer Transformation Developer Source Analyzer Repository Server Engine Sybase Informix Oracle Microsoft IBM/UDB ODBC DB2 SAP PeopleSoft VSAM Flat Files Web Logs X

12、ML IBM MQ Gateways Sybase Informix Oracle Microsoft ODBC IBM/UDB SAP BW PeopleSoft EPM Flat Files Gateways 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 l挑战挑战 l数据规模数据规模 l查询性能查询性能 l装载速度装载速度 l易于管理易于管理 l存取访问存取访问 成功的关键 快速,高效数据存储技术 出色的查询性

13、能 - 特殊的索引 技术,并行查询 可伸缩性 - GB 到 TB 级 易于管理 - 方便,灵活,GUI 存取访问 - 数据随时可用 解决的方案 通用的关系数据库系统 专门的数据仓库服务器 Sybase IQ 专门为数据仓库/数据集市设计的关系型数据库 专门针对OLAP/DSS而优化的索引和查询处理技术 Adaptive Server IQ l无处不索引无处不索引(Index EVERYWHERE) l数据压缩数据压缩(通常达到原始数据的通常达到原始数据的 70 - 75%) l垂直存储技术垂直存储技术(Vertical Partitioning) l专利的专利的Bit Wise索引技术跨越索引

14、技术跨越Bitmap的限制的限制 l多种索引类型:多种索引类型:FP,LF,HNG,HG l低级数的限制从低级数的限制从100扩充到扩充到1000 l预连接的索引提供额外的显著提高性能手段预连接的索引提供额外的显著提高性能手段(Join Index) l支持任意设计模式支持任意设计模式 l星型、雪花、雪暴、星座模式星型、雪花、雪暴、星座模式 l普通关系模式普通关系模式 l支持任意加载方式支持任意加载方式 l文件、内部数据、外部数据库直接加载文件、内部数据、外部数据库直接加载 l开放的接口开放的接口 DateStoreStateClassSales 3/1/9632NYA6 3/1/9636MA

15、A9 3/1/9638NYB5 3/1/9641CTA11 3/1/9643NYA9 3/1/9646RIB3 3/1/9647CTB7 3/1/9649NYA12 计算计算“NY”州州 A类商店的类商店的 平均销售额平均销售额 当表的记录数从几万条变为千万和上亿条时, 传统RDBMS技术面对的问题: u表扫描的性能极端低下 u冗余设计代价高昂、查询读取的无效字段过多 u低级数类型数据上索引的失效 u普通索引加载和空间代价,造成不能任意建造 u即席查询的SQL顺序对性能有显著影响 u数值型比较和运算,无恰当手段加速处理 Sybase IQ: 数据是按列存储数据是按列存储 的,而不是按行存储的,

16、而不是按行存储 DateStoreStateClassSales 3/1/9632NYA6 3/1/9636MAA9 3/1/9638NYB5 3/1/9641CTA11 3/1/9643NYA9 3/1/9646RIB3 3/1/9647CTB7 3/1/9649NYA12 RDBMS data stored by ROWS DateStoreStateClassSales 3/1/9632NYA6 3/1/9636MAA9 3/1/9638NYB5 3/1/9641CTA11 3/1/9643NYA9 3/1/9646RIB3 3/1/9647CTB7 3/1/9649NYA12 好处好处

17、: l只存取查询所需的数据只存取查询所需的数据 l数据类型是一致的,因数据类型是一致的,因 而可以很容易被压缩而可以很容易被压缩 l数据库易于修改和管理数据库易于修改和管理 Sybase IQ: 只读完成查询所只读完成查询所 涉及到的列涉及到的列 DateStoreStateClassSales 3/1/9632NYA6 3/1/9636MAA9 3/1/9638NYB5 3/1/9641CTA11 3/1/9643NYA9 3/1/9646RIB3 3/1/9647CTB7 3/1/9649NYA12 计算在纽约的计算在纽约的“A”类商店类商店 的平均销售额的平均销售额 好处好处: 无须使用

18、其他的技术,无须使用其他的技术, Sybase IQ 就可以减少就可以减少 I/O 超过超过 90% “How many MALES are NOT INSURED in CALIFORNIA? Gender M M F M M - 800 Bytes/Row 10M ROWS State NY CA CT MA CA - Insured Y Y N Y N MYCA MNCA FYNY MNCA 1 2 4 3 Gender Insured State + 1 1 0 1 1 1 0 1 0 1 0 1 10M Bits 10M Bits x 3 col / 8 16K Page = 235

19、 I/Os 800 Bytes x 10M 16K Page = 500,000 I/Os n基本上只能使用表扫描基本上只能使用表扫描 n查询过程读取了太多的无效数据查询过程读取了太多的无效数据 索引即是数据 没有索引和数据的分别 任何一列可以建立多个索引 系统保证至少会存在一个索引(FP) 索引的选择和设计主要基于: 数据的级数(离散值的个数) 在查询中的使用方式 和SQL语句的顺序无关 Fast Projection(FP) 数据压缩存储 根据数据的特点会自动使用三种方式中的一种 Low Fast (LF) Bit map 索引 High Non Group (HNG) Bit-wise

20、索引 High Group (HG) G-Array (包括一个改进的B-tree) l级数(取值个数)级数(取值个数) 65536 l数据被压缩存储数据被压缩存储 Color Red Blue Green Red l级数级数 256 l内建一个内建一个1-byte的参照表的参照表 Data Values Red Blue Green Red Color Red Blue Green 1 2 3 1 1 1 2 3 3 3 2 Lookup Table Data l传统的传统的 Bit Map 索引索引 l级数小于级数小于1000 l可以唯一可以唯一 l使用的可能性使用的可能性 lJoins

21、lGroup by lMIN, MAX, SUM, AVG functions lWhere clause predicates lEquality / Inequality, Ranges, IN lists Bitmap Index for STATE row-idAKALARCACODCDEFL 100010000 200000001 301000000 410000000 501000000 . 冗余设计时数据量比想象中要小得多 每一个取值都有一个相应的位 可以适应新的取值出现和行的增加 查询: select count(*) from customers where state =A

22、L lBit-Wise Index l数据按照二进制存储数据按照二进制存储 l垂直分布和处理垂直分布和处理 lSybase的专利技术的专利技术 lcannot be used with certain data types l使用最佳范围使用最佳范围 lrange searches for high cardinality columns l运算运算 (sum and average functions) 适合大量二进制的存储 数据垂直分片 即每一个位都可以在内部被独立操作 由于肯定存在大量的位同时为1或0,因此IQ在内部处理时会自动做数据压缩 Sales 6 9 5 11 9 3 7 12

23、Sales in binary form 8 bit4 bit2 bit1 bit 0110 1001 0101 1011 1001 0011 0111 1100 Sales in binary form 8 bit4 bit2 bit1 bit 0110 1001 0101 1011 1001 0011 0111 1100 l在在Bit-Wise的基础上增加一个的基础上增加一个B-Tree,并保证,并保证 树在加载时不会重建树在加载时不会重建 l最佳使用场合:最佳使用场合: lJoins lSelect Distinct, Count Distinct lGroup By DateZipSt

24、ateClassSales 3/16NYA6 4/19MAA9 5/15NYB5 6/111CTA11 7/16NYB9 9/23RIB3 8/37CTA7 2/26NYA12 1 10 4 6 4 5 6 1,5,8,. 1 0 0 0 1 0 0 1 突破性的速度突破性的速度 闪电般的快速查询 快速装载 无限的灵活性无限的灵活性 任何查询 任何模式 非常经济非常经济 压缩的数据存储 支持多用户查询Sybase IQ lColumn limit - now 16,000 per table (up from 255 - Great for SAS & SPSS customers) lRow

25、 limit - now 281,474,976,710,700 (thats 281 Trillion Rows and change) lDevice size - up to 128GB (depending on OS) lDevice limit - now 65,524 (up from 2,000) lDatabase Size limit - 8.4 Petabytes Andyne Brio Business Objects Gentia Information Advantage Information Discovery InfoSpace Linguistic Tech

26、nology Teleran Technology Seagate Software Mathsoft Cognos Adaptive Server IQ 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 功能服务功能服务 BrioQuery 查询查询 OLAP 查询查询 在线分析在线分析 (OLAP) 报表报表 EIS/脚本脚本 制图制图 审核审核 两层安全防护两层安全防护 Broadcast Server 信息发布信

27、息发布 作业调度作业调度 批处理查询批处理查询/报表报表 事件驱动处理事件驱动处理 报表广播报表广播 OnDemand Server 零管理客户端零管理客户端 Web查询查询 适应型报表适应型报表 多层安全防护多层安全防护 集群服务器支持集群服务器支持 SSL (安全套接层加密安全套接层加密) OnDemand Server Web Server BrioQuery IQ数据仓库数据仓库 Broadcast Server Email Server *.iqd 任何数据源(关系型、平面 型,数据仓库) 自动生成PowerCube 用户定义的业务规则和维度 10:1的数据压缩 图形化的浏览多维数据

28、 完全交互式的报表探察 Data Warehouse PC Database Oracle, Sybase, Informix, SQL Server, ODBC Gateway Impromptu .DBF .DB .DBF, .DB, .XLS, .WKS, .CSV Portfolio Transformer Authenticator .MDC PowerCubes .PB B PowerPlay .PYH .MDL .IQD .PPR .IMR 数据仓库解决方案概述数据仓库解决方案概述 SybaseSybase数据仓库技术解决方案数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论