数据仓库解决方案概述.ppt_第1页
数据仓库解决方案概述.ppt_第2页
数据仓库解决方案概述.ppt_第3页
数据仓库解决方案概述.ppt_第4页
数据仓库解决方案概述.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Sybase DW/Business Intelligence SybaseSybase中国有限公司中国有限公司 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 “数据仓库是在企业管理和决策中 面向主题的,集成的, 与时间相关的 和不可修改的数据集合” Bill Inmon 数据仓库定义 OLTP系统 财务系统 业务系统 计费系统 5-10 年 过去 详细数 据 当前 详细数据 轻度 汇总数据 高度 汇总数据 数据集市 用户分析网络资源分析 数据仓库数据仓库 数据仓库/决策分析系统 网管系统 数据仓库是完全不同的数据库系统 操作操作( (业务业务) )系统特性系统特性 事务处理性能是第一位的 支持日常的业务 事务驱动 数据是当前的并在不断变化 存储详细数据 (每一个事件或事务) 面向应用 针对快速预定义的事务优化设计 可预见的使用模式 支持办事人员或行政人员 信息信息( (分析分析) )系统特性系统特性 支持长远的业务战略决策 分析驱动 数据是历史的 数据是静态的,除数据刷新外 数据反映某个时间点或一段时间 数据是汇总的 面向主题 优化是针对查询而不是更新 支持管理人员和执行主管人员 DW/BI 在电信行业的应用 - How ? l立足于现有的OLTP系统 l当前数据和历史数据 l集中整合之后,构建一个 庞大的数据仓库 l面向业务分析和决策层 l运用多维分析方法,充分 挖掘数据中的信息 l应用DW/BI的三步曲 数据抽取 数据管理 数据分析 INFORMATION 信 息 u数据仓库(Data Warehouse)是一种专为联机分析应用 和决策支持系统提供数据源的结构化的数据环境 u数据仓库要解决的问题是从数据库中获取信息的问题。 信 息 INFORMATION DW/BI 在电信行业的应用 - 小结 什么是数据仓库(Data Warehouse) ? 业务系统 外部数据外部数据财务财务计费计费网管网管 Information Access InfrastructureInformation Access Infrastructure 通用信息访问、处理层(基础数据库)通用信息访问、处理层(基础数据库) 企业级数据仓库企业级数据仓库 Global CatalogGlobal Catalog 集成的信息管理 设计和元数据维护 决策支持应用决策支持应用 Data Data MartsMarts Data Data MartsMarts Data Data MartsMarts Data Data MartsMarts Data Data MartsMarts Data Data MartsMarts 数据仓库的实际构造示意图 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 Sybase数据仓库相关产品的技术构成 Relational Package Legacy External source Data Clean Tool Source Data Data Staging WareHouse Admin. Tools Enterprise Data Warehouse Data Extraction, Transformation and load Datamart Datamart Enterprise/ Central Data Warehouse RDBMS ROLAP RDBMS RDBMS, Star Schema Architected Datamarts Central Metadata Data Modeling Tool End-User Tool End-User Tool MDB End-User Tool End-User Tool Local Metadata Local Metadata Sybase数据仓库相关产品介绍 一个集成化的产品集一个集成化的产品集 集成的主要产品 lIntegrate lEnterprise Connect lReplication Server lPowerMart lDesign lWarehouse Architect lManage lSybase ASIQ lVisualize lBrio lCognos lAdminister lWarehouse Control Center WarehouseWarehouse ControlControl CentreCentre 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 设计: 成功的关键 l数据库的设计对数据仓库系统的整体性能、装载和 l建立索引的时间以及数据量的增长等的影响超过 l任何其它方面。 数据仓库设计工具WarehouseArchitect 为数据仓库的设计提供三大功能: 多维建模 度量、维、属性 事实表,维表 维层次表,事实层次表 设计向导 聚合(Aggregation Wizard) 分区(Partitioning Wizard) 逆向工程数据源 优化代码生成 目标数据仓库引擎(IQ,RDBMS) OLAP分析环境 Time identifier = Time identifier Product identifier = Product identifier Customer identifier = Customer identifier Store identifier = Store identifier Customer Customer identifierdouble Customer namechar(30) Sales Fact Product identifierdouble Time identifierdouble Customer identifierdouble Store identifierdouble Sales totalreal Profitsreal Store Store identifierdouble Store namechar(50) Time Time identifierdouble Datetimestamp Monthchar(50) Quarterdouble Yeardouble Product Product identifierdouble Product descriptionchar(80) 设计:WarehouseArchitect 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 数据抽取、转换、清洗、集成 挑战 多个、多种异构数据源 硬件,OS,RDBMS,文件 数据不规范,需要做大量的清洗和整合 转换规则复杂,繁多 繁琐的日常性工作,占80%工作量 数据质量保证 数据增量抽取 抽取工作过程化,自动化 数据抽取、转换、清洗、集成 成功的关键 支持多个、多种异构数据源 轻松方便地设计数据的清洗,转换和整合规则 日常事务性工作自动化完成 有完善的数据质量保证体系 有完备的数据增量抽取 直观,面向过程化设计;自动化的执行 开放性,可扩展性,易于实施和维护 数据抽取、转换、清洗、集成 解决的方案 手工编程实现 使用工具设计和实施 PowerMart/PowerCenter 开发环境,一系列工具用于设计、执行和维护 数据的抽取、转换和装载流程 抽取转换引擎(服务器),自动执行 集成: PowerMart Source Databases Target Database DesignerServer ManagerRepository Manager Warehouse Designer Mapping Designer Transformation Developer Source Analyzer Repository Server Engine Sybase Informix Oracle Microsoft IBM/UDB ODBC DB2 SAP PeopleSoft VSAM Flat Files Web Logs XML IBM MQ Gateways Sybase Informix Oracle Microsoft ODBC IBM/UDB SAP BW PeopleSoft EPM Flat Files Gateways 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 数据存储、管理 l挑战 l数据规 模 l查询性 能 l装载速 度 l易于管 理 l存取访 问 成功的关键 快速,高效数据存储技术 出色的查询性能 - 特殊的索引 技术,并行查询 可伸缩性 - GB 到 TB 级 易于管理 - 方便,灵活,GUI 存取访问 - 数据随时可用 数据管理 解决的方案 通用的关系数据库系统 专门的数据仓库服务器 Sybase IQ 专门为数据仓库/数据集市设计的关系型数据库 专门针对OLAP/DSS而优化的索引和查询处理技术 Adaptive Server IQ 数据存储: Adaptive Server IQ l无处不索引(Index EVERYWHERE) l数据压缩(通常达到原始数据的 70 - 75%) l垂直存储技术(Vertical Partitioning) l专利的Bit Wise索引技术跨越Bitmap的限制 l多种索引类型:FP,LF,HNG,HG l低级数的限制从100扩充到1000 l预连接的索引提供额外的显著提高性能手段(Join Index) l支持任意设计模式 l星型、雪花、雪暴、星座模式 l普通关系模式 l支持任意加载方式 l文件、内部数据、外部数据库直接加载 l开放的接口 计算“NY”州 A类商店的 平均销售额 当表的记录数从几万条变为千万和上亿条时, 传统RDBMS技术面对的问题: u表扫描的性能极端低下 u冗余设计代价高昂、查询读取的无效字段过多 u低级数类型数据上索引的失效 u普通索引加载和空间代价,造成不能任意建造 u即席查询的SQL顺序对性能有显著影响 u数值型比较和运算,无恰当手段加速处理 传统RDBMS不适合数据仓库 IQ的特殊存储方式-垂直存储(按列存储) Sybase IQ: 数据是按列存储 的,而不是按行存储 好处: l只存取查询所需的数据 l数据类型是一致的,因 而可以很容易被压缩 l数据库易于修改和管理 Sybase IQ: 只读完成查询所 涉及到的列 计算在纽约的“A”类商店 的平均销售额 好处: 无须使用其他的技术, Sybase IQ 就可以减少 I/O 超过 90% IQ的特殊存储方式-垂直存储(按列存储) “How many MALES are NOT INSURED in CALIFORNIA? Gender M M F M M - 800 Bytes/Row 10M ROWS State NY CA CT MA CA - RDBMSRDBMS Insured Y Y N Y N MYCA MNCA FYNY MNCA 1 2 4 3 Gender Insured State + 1 1 0 1 1 1 0 1 0 1 0 1 10M Bits 10M Bits x 3 col / 8 16K Page = 235 I/Os 800 Bytes x 10M 16K Page = 500,000 I/Os n基本上只能使用表扫描 n查询过程读取了太多的无效数据 IQIQ Example: I/O 的明显减少 IQ的索引特点 索引即是数据 没有索引和数据的分别 任何一列可以建立多个索引 系统保证至少会存在一个索引(FP) 索引的选择和设计主要基于: 数据的级数(离散值的个数) 在查询中的使用方式 和SQL语句的顺序无关 索引的种类 Fast Projection(FP) 数据压缩存储 根据数据的特点会自动使用三种方式中的一种 Low Fast (LF) Bit map 索引 High Non Group (HNG) Bit-wise 索引 High Group (HG) G-Array (包括一个改进的B-tree) FP Index normal FP l级数(取值个数) 65536 l数据被压缩存储 Color Red Blue Green Red FP Index - FFP l级数 256 l内建一个1-byte的参照表 Data Values Red Blue Green Red Color Red Blue Green 1 2 3 1 1 1 2 3 3 3 2 Lookup Table Data LF Index l传统的 Bit Map 索引 l级数小于1000 l可以唯一 l使用的可能性 lJoins lGroup by lMIN, MAX, SUM, AVG functions lWhere clause predicates lEquality / Inequality, Ranges, IN lists . 冗余设计时数据量比想象中要小得多 每一个取值都有一个相应的位 可以适应新的取值出现和行的增加 查询: select count(*) from customers where state =AL LF Index HNG Index lBit-Wise Index l数据按照二进制存储 l垂直分布和处理 lSybase的专利技术 lcannot be used with certain data types l使用最佳范围 lrange searches for high cardinality columns l运算 (sum and average functions) 适合大量二进制的存储 数据垂直分片 即每一个位都可以在内部被独立操作 由于肯定存在大量的位同时为1或0,因此IQ在内部处理时会自动做数据压缩 HNG - High Card Bit-Wise Index Sales in binary form 8 bit4 bit2 bit1 bit 0110 1001 0101 1011 1001 0011 0111 1100 Sales in binary form 8 bit4 bit2 bit1 bit 0110 1001 0101 1011 1001 0011 0111 1100 HG Index l在Bit-Wise的基础上增加一个B-Tree,并保证 树在加载时不会重建 l最佳使用场合: lJoins lSelect Distinct, Count Distinct lGroup By DateZipStateClassSales 3/16NYA6 4/19MAA9 5/15NYB5 6/111CTA11 7/16NYB9 9/23RIB3 8/37CTA7 2/26NYA12 1 10 4 6 4 5 6 1,5,8,. 1 0 0 0 1 0 0 1 突破性的速度 闪电般的快速查询 快速装载 无限的灵活性 任何查询 任何模式 非常经济 压缩的数据存储 支持多用户查询Sybase IQ Adaptive Server IQ 12: 专门设计的数据仓库服务器 IQ12的技术参数 lColumn limit - now 16,000 per table (up from 255 - Great for SAS & SPSS customers) lRow limit - now 281,474,976,710,700 (thats 281 Trillion Rows and change) lDevice size - up to 128GB (depending on OS) lDevice limit - now 65,524 (up from 2,000) lDatabase Size limit - 8.4 Petabytes Sybase IQ 真正的数据仓库 Andyne Brio Business Objects Gentia Information Advantage Information Discovery InfoSpace Linguistic Technology Teleran Technology Seagate Software Mathsoft Any Data, Any Time, AnywhereAny Data, Any Time, Anywhere Cognos Adaptive Server IQ 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 信息生产者信息生产者 信息消费者信息消费者 BrioQueryBrioQuery Designer Designer BrioQueryBrioQuery Explorer Explorer BrioQueryBrioQuery Navigator Navigator Brio.InsightBrio.Insight Brio.Brio.QuickviewQuickview Brio Enterprise ServerBrio Enterprise Server 客户机服务器客户机服务器 Web/IntranetWeb/Intranet 高级用户高级用户 活跃的分析活跃的分析 人员人员 报表查阅者报表查阅者 信息技术人员信息技术人员 Brio.Enterprise 6.0 产品家族 Brio Enterprise 功能服务 功能服务 BrioQuery 查询 OLAP 查询 在线分析 (OLAP) 报表 EIS/脚本 制图 审核 两层安全防护 Broadcast Server 信息发布 作业调度 批处理查询/报表 事件驱动处理 报表广播 OnDemand Server 零管理客户端 Web查询 适应型报表 多层安全防护 集群服务器支持 SSL (安全套接层加密) OnDemand Server Web Server BrioQuery IQ数据仓库 Brio.InsightBrio.Insight Brio.Brio.QuickviewQuickview Brio.Brio.FreeViewFreeView Broadcast Server Email Server File Server 数据源数据源- -IQIQ数据仓库数据仓库 TransformerTransformer ImpromptuImpromptu *.iqd 任何数据源(关系型、平面 型,数据仓库) 自动生成PowerCube 用户定义的业务规则和维度 10:1的数据压缩 图形化的浏览多维数据 完全交互式的报表探察 PowerPlay: OLAP 环境 Cognos BI 产品结构 Data Warehouse PC Database Oracle, Sybase, Informix, SQL Server, ODBC Gateway Impromptu .DBF .DB .DBF, .DB, .XLS, .WKS, .CSV Portfolio Transformer Authenticator .MDC PowerCubes .PBB PowerPlay .PYH .MDL .IQD .PPR .IMR 议程 数据仓库解决方案概述 Sybase数据仓库技术解决方案 数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具 元数据管理:什么是元数据 l提供数据对象的准确、全面、一致的定义: l什么是 “customer”的定义,其内容是什么? l提供物理数据到企业模型的映射关系,如: l“customer number” 的正确格式是什么 l“product status”有哪些取值? l不同系统中相似数据的合并使用规则是什么? l提供数据源和抽取信息 l提供数据项的定义和相关描述 l数据的使用规则 Logical Design Tools Logical Design Tools CorporateCorporate Data WarehouseData Warehouse Oracle, SybaseOracle, Sybase SQL/Server, DB2/MVSSQL/Server, DB2/MVS Meta DataMeta Data DataData Data MartsData Marts Oracle, SybaseOracle, Sybase SQL/Serv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论