版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、BI/DW IntroductionJames ChenPSO Sr. Consultant程序=算法+数据结构-Niklaus Wirth 数据结构 离散结构 线形结构 - 数组链表栈队列 树 图算法 空间复杂度 时间复杂度用户内存中数据结构物理数据结构E-R业务流程二者相辅相成,不同应用侧重不同经典业务系统模型Skill set数据库C+/J2EE/.netPowerDesignerER_WINOOUML面向过程OO Design WorkflowDevelop Business Type ModelIdentify Business InterfacesIdentify System I
2、nterfaces & OpsCreate Initial Comp Specs & ArchitectureDiscover Business OperationsRefine Interfaces & OpsRefine Component Specs & ArchitectureDefine Interface Information ModelsSpecify Operation Pre/PostconditionsSpecify Component Interface ConstraintsBusiness Concept ModelUse Case
3、ModelBusiness InterfacesSystem InterfacesInterfacesInterfacesComponent Specs & ArchitectureComponent Specs & ArchitectureComponent Specs & ArchitectureBusiness Type ModelArchitecture PatternsExisting InterfacesExisting AssetsComponent Identification Component InteractionComponent Specifi
4、cation笑一笑笑一笑 数据仓库初学者:数据仓库与数数据仓库初学者:数据仓库与数据库有什么区别?据库有什么区别? 某专家:一个有仓一个没仓!某专家:一个有仓一个没仓!BI/DW的引出 统计报表需求 数字越来越重要 报表越来越多 效率越来越差数据仓库的定义u数据仓库(Data Warehouse)是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境u数据仓库要解决的问题是从数据库中获取信息的问题。D A T ADATADATADATADATADATADATADATADATADATADATADATADATADATAINFORMATIONINFORMATIONINFORMATIONIN
5、FORMATION影响数据仓库的几个人物数据仓库 Ralph Kimball - 数据仓库工具箱 Bernard Liautaud - 商业智能OLTP与数据仓库系统RDBMS关系数据库关系数据库SAP/ERPVSAM主机系统主机系统EXCELWeb/XMLOLTP业务系统业务系统数据仓库系统数据仓库系统 5-10 年年数据集市数据集市分析型分析型CRM业务指标分析业务指标分析BI系统建设方法 (1) 直接建立BI应用OLTP数据源数据源 各种前端应用KPI指标报表多维分析即席查询数据挖掘数据仓库环境数据仓库环境 业务智能层业务智能层中央数据仓库中央数据仓库数据仓库数据仓库数据集结数据集结数据
6、源数据源 公司数据源外部数据源BIW数据集市数据集市数据仓库管理子系统数据仓库管理子系统 数据仓库元数据目录数据仓库元数据目录信息访问和信息访问和 引用部件引用部件 BI系统建设方法 (2)企业数据仓库体系架构RelationalPackageLegacyExternalsourceDataCleanToolSource DataDataStagingWareHouseAdmin. ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDatamartEnterprise/Central Data
7、WarehouseRDBMSROLAPRDBMSRDBMSArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocal MetadataLocal Metadata典型物理架构典型物理架构ETL_DM1ETL_DM2BAS_DW1BAS_DW2BAS_OP1BAS_OP2Bas_sw01Bas_sw02Dx_sp01Dx_sp02Dx_sp03元数据管理服务器元数据管理服务器BAS_SM1BAS_SM270T!企业数据仓库的目的 数据整
8、合-建立一个企业统一的信息平台 建立统一的业务数据定义 建立唯一的统计分析数据源 快速访问采用适合企业BI应用的数据组织方式 新需求的开发快 数据获取的效率快战略层底层数据低粒度汇总高粒度汇总建设数据仓库的主要任务 ETL 前端展现组 数据挖掘 元数据数据仓库引擎 NCR Teredata ORACLE 9以上 DB2 EEE Sybase IQ MS SQL Server维模型的设计每个维可以由一个或多个维层次或聚合路径组成Dimension 1事实Dimension 2Dimension 4measure 1measure 2.supportive attributes.Dimension
9、 3aggregation path or dimension hierarchydimension key 1dimension key 2.aggregation levelsIWS模型的特点模型的特点 简单视图实例仓库底层设计考量(一)仓库底层设计考量(一) 慢速变化维问题慢速变化维问题用户资料用户标识MSISDN用户品牌IMSI号客户标识用户状态修改时间修改人快速变化和慢速变化D_用户资料用户标识MSISDN用户品牌IMSI号客户标识生效时间失效时间用户状态用户标识用户状态变化时间仓库底层设计考量(二)仓库底层设计考量(二) 粒度问题粒度问题用户资料用户标识MSISDN用户品牌IMSI
10、号客户标识用户状态修改时间修改人一天变化多次入库时间仓库中间层设计考量仓库中间层设计考量 基于用户标识基于用户标识 多个粒度汇总多个粒度汇总 综合各个数据集市综合各个数据集市 效率考虑效率考虑仓库集市层设计考量仓库集市层设计考量 面向应用面向应用报表集市报表集市挖掘集市挖掘集市主题集市主题集市KPIKPI集市集市 维模型维模型 以最细粒度数据为主以最细粒度数据为主 表加物化视图表加物化视图数据仓库与数据集市数据仓库与数据集市数据源CUBE报表事实表维表维表维表维表数据仓库事实视图维视图维视图维视图维视图业务驱动数据驱动数据集市设计技巧 星型还是雪花? 组合代理键 慢速变化维 维度的不同层次处理
11、 聚合表的设计 .ETL过程 源表结构 - 目标结构 工具?自己编码?-业务逻辑的任务已经很大 实时任务和批量任务 CDC的处理 ODS的处理?BO Date IntegratorInformatica PowerCenterDatastageSagent数据源数据源 大数据量大数据量 变化数据变化数据 关联数据关联数据 手工数据手工数据抽取时机和最迟到达时间!抽取时机和最迟到达时间!数据源考量数据源考量- -大数据量大数据量 二十余种清单二十余种清单 上万个文件,大小不一上万个文件,大小不一 一天几十一天几十GBGB的数据的数据WLAN清单业务类型业务标识移动号码手机IMSI号用户类型用户归
12、属省用户漫游省漫游类型认证类型起始时间结束时间连接时长上行数据流量下行数据流量MMS清单移动号码IMSI号MM话单类型用户类型漫游类型用户接入地省代码发送方地址接收方地址转发的手机号码发送时间最早发送时间存储时间信息类型应用类型转发复制类型计费类型通信费梦网WAP清单移动号码IMSI号CDR标志话单类型WAP网关名字MISC的代码承载类型SP企业代码SP业务代码用户类型折扣率业务属性GPRS清单移动号码IMSI号通话类型用户类型开始时间通话时长上行流量下行流量基本通话费信息费APN-2服务质量归属地短信清单移动号码IMSI号通话类型对端号码开始时间通信费信息费归属地漫游地漫游类型语音清单移动号
13、码IMSI号通话类型用户类型对方号码开始时间通话时长动态漫游号交换机代码小区号基站号出中继入中继业务类型业务代码归属地包月清单移动号码IMSI号IP卡清单通话类型业务代码业务类别用户帐户开始时间终止时间主叫号码被叫号码时长梦网短信清单移动号码IMSI号话单类型用户类型SP运营商代码第三方号码业务代码服务代码用户计费类别信息费包月费发送状态数据源考量数据源考量- -变化数据变化数据帐本帐户ID帐本ID余额帐单用户ID应收金额欠费金额已销金额 实时变化实时变化 未存历史未存历史数据源考量数据源考量- -关联数据关联数据帐本帐户ID帐本ID余额帐单用户ID应收金额欠费金额已销金额 没有没有trans
14、actiontransaction 几个文件不一致怎么办?几个文件不一致怎么办?销账记录销账记录编码销账时间触发销账类型帐单开始时间帐单截止时间帐单销帐前状态帐单销帐后状态收据号码滞纳金额反销账记录编码付款记录付款记录编码付费方式付款目的收据号码费用付款冲正编码数据源考量数据源考量- -手工数据手工数据 外部录入?外部录入? OLTPOLTP系统?系统? 天气天气 社会指标社会指标 集团客户信息集团客户信息 操作型操作型CRMCRM天气日期地区代码天气数据源考量数据源考量- -历史数据更新历史数据更新语音清单移动号码基本通话费长话费附加费基本通话优惠长途通话优惠附加费优惠通话结束原因IMSI号
15、通话类型用户类型对方号码综合帐单付款冲正编码生成时间帐单状态状态变更时间销帐标志应收费用已收金额应收滞纳金实收滞纳金 修改昨日数据修改昨日数据 批错价批错价/ /延迟话单等延迟话单等ETLETL 抽取抽取/ /转换转换/ /加载加载 源数据的理解源数据的理解 加载时间加载时间4 4小时小时 ETLETL实现实现工具工具LoaderLoader 汇总(数据库汇总还是文件汇总)汇总(数据库汇总还是文件汇总) 调度调度ETL-ETL-调度调度 一天几十一天几十GBGB的数据的数据 并行度并行度/ /任务大小任务大小/ /资源资源/ /优先级优先级 调度调度清单类(大数据量)清单类(大数据量)- -文
16、件的拆分和合并文件的拆分和合并/ /实时实时处理处理业务类(实体之间的关系复杂)业务类(实体之间的关系复杂)- -稽合稽合帐务类(数据准确)帐务类(数据准确)- -验证验证参数类(变化影响其他实体)参数类(变化影响其他实体)- -告警告警/ /事先处理事先处理其他任务其他任务月末处理月末处理前端展现 固定报表 多维分析 即席查询 仪表盘 数据挖据BO(CR)Hyperion(Brio)CognosMicrostrategy仪表盘OLAP分析报表,即席查询固定报表 格式灵活多变 Crystal Report MSTR Brio ReportNet多维分析 MOLAP - Cognos Power
17、Play,Hyperion Essbase ROLAP - BOE, MSTR HOLAP - BO - MS OLAP 切片 旋转 切块 钻取OLAP分析 多角度、多层次对同一主题进行分析 通过旋转、钻取、切片等技术探察数据 旋转:按不同顺序组织各个维,对结果进行考察 钻取:在一个维内部沿着从高到低或从低到高的方向考察数据(有上钻和下钻两种) 切片:在确定某些维数据的情况下对其他维进行观察 有MOLAP、ROLAP、HOLAP三种实现方式OLAPOLAP设计设计- -指标还是维度指标还是维度性别年龄长途类型通话时段客户数通话时长性别年龄客户数通话时长 长途类型通话时长 通话时段通话时长 1-
18、2点通话时长即席查询 语义层 效率很关键 BO语义层仪表盘 仪表盘、KPI-EPM 整合了企业的整个绩效、把告警、报表、分析穿在了一起 BO EPM Hyperion BPM数据挖掘 机器学习 数理统计 数据库 预测、特征分析、客户分类 SASSPSS数据挖掘实施的体系结构数据挖掘实施的体系结构数据仓库数据挖掘引擎算法数据选择知识库评价修改知识建模分析员领域知识元数据元数据管理元数据管理 什么是元数据?什么是元数据? 元数据和开发文档有何区别?元数据和开发文档有何区别? 为什么单单在数据仓库中如此重视为什么单单在数据仓库中如此重视元数据?元数据?文档语音计费GPRS计费文档帐务文档结算营业文档文档客服文档MIS网管HR文档文档文档元数据管理元数据管理( (续续) ) 业务元数据业务元数据业务元数据用业务名称、定义、描述和别名业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用。直接供业务分析人员使用。 技术元数据技术元数据技术元数据描述了数据源、数据转换、抽取技术元数据描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的定义等。过程、加载策略以及目标数据库的定义等。 元数据管理元数据管理( (续续) ) CWM 1.0CWM 1.0数据源数据源ETLETL数据仓库数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老婆发出协议书
- 自愿辅导协议书
- 政府招商协议书
- 搬迁框架协议书
- 车牌受让协议书
- 拆迁过渡协议书
- 福晟战略协议书
- 断绝父子协议书
- 村医医保协议书
- 板厂合伙协议书
- 四川省内江市2023-2024学年七年级上学期期末测评英语试题
- DB11∕T 594.1-2017 地下管线非开挖铺设工程施工及验收技术规程 第1部分:水平定向钻施工
- 家园共育背景下幼儿良好生活习惯与能力的培养研究
- 四川省高等教育自学考试自考毕业生登记表001汇编
- 国家开放大学《民法学(1)》案例练习参考答案
- 美容行业盈利分析
- 垃圾中转站运营管理投标方案
- 手术室PDCA-提高急诊手术器械物品准备的完善率
- 中药现代化生产技术课件
- 2023年普通高中学业水平等级性考试(浙江卷)政治(6月)(含解析)
- 商业广场经营管理及物业管理服务方案
评论
0/150
提交评论