数据仓库实践第一课__昨夜西风凋碧树独上高楼望尽天涯路ppt课件_第1页
数据仓库实践第一课__昨夜西风凋碧树独上高楼望尽天涯路ppt课件_第2页
数据仓库实践第一课__昨夜西风凋碧树独上高楼望尽天涯路ppt课件_第3页
数据仓库实践第一课__昨夜西风凋碧树独上高楼望尽天涯路ppt课件_第4页
数据仓库实践第一课__昨夜西风凋碧树独上高楼望尽天涯路ppt课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库实践系列课程 第一课昨夜西风凋碧树 独上高楼 望尽天涯路 王国维在 人间词话 说 古今之成大事业 大学问者 必经过三种之境界 昨夜西风凋碧树 独上高楼 望尽天涯路 此第一境也 衣带渐宽终不悔 为伊消得人憔悴 此第二境也 众里寻他千百度 蓦然回首 那人却在 灯火阑珊处 此第三境也 王国维认为治学第一境界 昨夜西风凋碧树 独上高楼 望尽天涯路 这词句出晏殊的 蝶恋花 原意是说 我 上高楼眺望所见的更为萧飒的秋景 西风黄叶 山阔水长 案书何达 在王国维此句中解成 做学问成大事业者 首先要有执着的追求 登高望远 瞰察路径 明确目标与方向 了解事物的概貌 王的治学第二境界是说 衣带渐宽终不悔 为伊消得人憔悴 这引用的是北宋柳永 蝶恋花 最后两句词 原词是表现作者对爱的艰辛和爱的无悔 若把 伊 字理解为词人所追求的理想和毕生从事的事业 亦无不可 王国维以此两句来比喻成大事业 大学问者 不是轻而易举 随便可得的 必须坚定不移 经过一番辛勤劳动 废寝忘食 孜孜以求 直至人瘦带宽也不后悔 王的治学第三境界是说 众里寻他千百度 蓦然回首 那人却在 灯火阑珊处 是引用南宋辛弃疾 青玉案 词中的最后四句 王国维以此词最后的四句为 境界 之第三 即最终最高境界 要达到第三境界 必须有专注的精神 反复追寻 研究 下足功夫 自然会豁然贯通 课程安排 一 总学时 15学时 其中12学时理论 3学时联系 课后作业估计有5学时 二 考核方法 平时考勤 30分理论答题 30分随堂练习 20分课后作业 20分 三 教材 数据仓库生命周期工具箱 kimball等著 清华大学出版社 数据仓库工具箱 维度建模权威指南 kimball等著 清华大学出版社 四 教学方法讲师讲解课程 布置家庭作业 利用网络资源完成讲师制定任务 随堂作业 现场完成作业结业考试 检查教学成果综合练习 提升学习成果 目 2 3 4 5 6 数据仓库是一个解决方案 数据仓库几种常见架构 数据仓库类项目中人员配置 个人职业发展规划建议 汇聚数据财富挖掘潜力无限 录 初识数据仓库 基本概念 1 Kimball生命周期导图 小明的大学生活 你们认识小明吗 小明 男 南京人 父母在职 数学系五班 大二 辅导员李华 小明 喜欢吃混沌 口味便辣 每周必有三次吃拉面 每半月吃3一次鱼 几乎每个2天吃一次肉类食物 体重75KG 身高170 偏胖 需要改善食物结构 小明 每周二 四 六 日 22点后回校 在外承接的家教任务 家境条件困难 申请贫困奖学金 小明 学习成绩良 离散数学成绩不好 统筹学成绩最佳 有3们课程优秀 1门课程挂科 体育成绩一般 小明 身体健康状况正常 颈椎僵硬 小明 多在晚上7点30分进入图书馆自习 虽然是数学系 但喜欢历史和物理 本学期借阅历史书籍32次 物理数据28次 小明 积极参加课外活动 涉及足球 演讲比赛 围棋 曾获得班级级别奖励5次 其一等奖1次 二等奖2层i 院系级奖励1次 小明参加工作5年后的求职简历 知识导引 什么是数据仓库 什么是DSS 什么是经营分析 什么是EIS 什么是OLTP OLAP 什么是BI BO COGNOS 安讯 BRIO Teradata SAS SPSS 数据仓库系统 BI 90年代提出 90年代中形成潮流 BI描述了一系列的概念和方法 通过应用基于事实的支持系统来辅助商业决策的制定 GartnerGroup1996商业智能领域 DSS OLAP 数据仓库 ETL 数据集市 数据挖掘 商业建模 为提高企业运营性能而采用的一系列方法 技术和软件的总和 70年代 70年代提出 80年代得到发展 数据仓库产生背景 需求的变化业务系统的建设逐渐完善分析类需求不断增加不断增加的信息孤岛导致数据集成问题不断增加技术发展状况关系数据库技术日趋成熟报表和复杂查询处理起来非常困难各个系统之间数据不一 OLTP系统 生产系统 面向应用事务驱动的实时性高数据检索量相对少只存当前数据数据仓库系统 决策系统 面向主题分析和决策实时性要求不是特别高数据检索量大存储大量的历史数据和当前数据 数据仓库为用户提供多样的功能需求 数据仓库理论的形成 数据仓库的定义 数据仓库 DataWarehouse 是一个面向主题的 SubjectOriented 集成的 Integrated 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 用于支持管理决策 DecisionMakingSupport BillInmon 什么是数据仓库 相关概念 以DataWarehouse技术为基础 以OLAP和DataMining工具为手段实施的一套解决方案 DSS DecisionSupportSystem 相关概念 EIS 主管信息系统 ExecutiveInformationSystem 指为了满足无法专注于计算机技术的领导人员的信息查询需求 而特意制定的以简单的图形界面访问数据仓库的一种应用 ETL 数据抽取 Extract 转换 Transform 装载 Load 的过程 它是构建数据仓库的重要环节 DataMart为了特定的应用目的或应用范围 而从数据仓库中独立出来的一部分数据 也可称为部门数据或主题数 subjectarea 经营分析系统 BusinessAnalysisSupportSystem 元数据 元数据是描述数据仓库内数据的结构和建立方法的数据 可将其按用途的不同分为技术元数据 业务元数据和管理元数据 数据质量 数据质量管理平台能够使得数据质量管理流程自动化 集中化 智能化ROLAP 关系型在线分析处理 MOLAP 多维在线分析处理 HOLAP 混合型线上分析处理 数据仓库的特点 分布式 数据集市 集中式 数据仓库 垂直 水平 数据仓库与数据集市的业务分析能力 DW DM的流派之争 BillInmon与RalphKimball 双方的观点 围绕主题来组织数据仓库中的数据 每个主题区域仅仅包含该主题相关的信息 数据仓库应该一次增加一个主题 并且当需要容易地访问多个主题时 创建以数据仓库为来源的数据集市 数据仓库是数据集市的联合 通过一系列相同维度定义的数据集市递增地构建数据仓库 而每个数据集市通过联合多个数据源来满足特定的业务需求 自上而下 自下而上和自上而下的结合 双方的观点 使用数据集市联合的方式 开始会带来极高的用户体验 但随着数据集市的增多 会形成网状结构 建设重复 数据质量变差 使用数据总线的结构来控制数据集市点建设 所有的数据集市在一套总线环境中 有相同的维度定义 故既可以迅速部署 满足业务需求 也可以规范的形成数据仓库 Inmon Kimball 维度 对数据进行分类的一种结构 用于从特定的角度观察数据 例如 时间 地区 产品 维度的两个用途选择针对期望详细程度的层次的数据 分组对细节数据综合 聚集 到相应的详细程度的数据层次 维的组织方式 维层次路径 HIERARCHY 维层次路径由代表不同详细程度的维层次 Level 组成 维的层次 特定角度的不同细节程度 基本概念 维度 度量 指标 数据的实际意义 一般是一个数值度量指标例如 销售量 销售额 一个度量的两个组件数字型指标聚集函数 CUBE 一个多维模型构成的多维数据空间我们将其称做数据立方体 Cube 其逻辑上相当于一个多维数组 基本概念 度量 cube 这个方格代表在某个时间 某个地区通过某个销售渠道所销售的产品的销售额 基本概念 多维数据模型 多维模型通常用Cube来表示 多维模型可以更加直观的表示现实中的复杂关系多维模型的基本组成 维 度量 举例 计算每一个商场 每个产品的销售额维 Dimension 维层次路径 维层次 维成员 维实例 维层次属性度量 Measure 数据立方体 Cube 切片Slice 基本概念 多维分析基本动作 切片 切块 切块Dice 旋转Rotate 基本概念 多维分析基本动作 旋转 钻取 钻取Rollup Drilldown 基本概念 多维数据模型的实现技术 RelationalOLAP ROLAP 利用关系数据库来存储和管理基本数据和聚合数据 并利用一些中间件来支持缺失数据的处理具有良好的可扩展性MultidimensionalOLAP MOLAP 利用多维数据库来存放和管理基本数据和聚合数据 其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引HybridOLAP HOLAP 利用关系数据库来存储和管理基本数据 利用多维数据库来存储和管理聚合数据 基本概念 OLTP与OLAP 针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度 快速 一致 交互 深入观察使用预定义的多维数据视图对数据进行分析处理 支持对数据的切片 切块 钻取 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统 在使用时需要将数据从关系数据库中转载到多维数据库中方可访问 也称为面向交易的处理系统 其基本特征是顾客的原始数据可以立即传送到计算中心进行处理 并在很短的时间内给出处理结果 这样做的最大优点是可以即时地处理输入的数据 及时地回答 也称为实时系统 RealtimeSystem 衡量联机事务处理系统的一个重要性能指标是系统性能 具体体现为实时响应时间 ResponseTime 即用户在终端上送入数据之后 到计算机对这个请求给出答复所需要的时间 OLTP数据库旨在使事务应用程序仅写入所需的数据 以便尽快处理单个事务 On LineAnalyticalProcessing On LineTransactionProcessing MOLAP表示基于多维数据组织的OLAP实现 MultidimensionalOLAP ROLAP表示基于关系数据库的OLAP实现 RelationalOLAP ROLAPvsMOLAP 基本概念 星型模式 StarSchema 星形模式是一种多维的数据关系 它由一个事实表 FactTable 和一组维表 DimensionTable 组成 每个维表都有一个维作为主键 所有这些维的主键组合成事实表的主键 事实表的非主键属性称为事实 Fact 它们一般都是数值或其他可以进行计算的数据 而维大都是文字 时间等类型的数据 按这种方式组织好数据我们就可以按照不同的维 事实表主键的部分或全部 来对这些事实数据进行求和 summary 求平均 average 计数 count 百分比 percent 的聚集计算 甚至可以做20 80分析 这样就可以从不同的角度数字来分析业务主题的情况 基本概念 雪花模式 SnowFlakeSchema 雪花模型 当有一个或多个维表没有直接连接到事实表上 而是通过其他维表连接到事实表上时 其图解就像多个雪花连接在一起 故称雪花模型 雪花模型是对星型模型的扩展 它对星型模型的维表进一步层次化 原有的各维表可能被扩展为小的事实表 形成一些局部的 层次 区域 这些被分解的表都连接到主维度表而不是事实表 相比星型模型 雪花模型的特点是贴近业务 数据冗余较少 但由于表连接的增加 导致了效率相对星星模型来的要低一些 基本概念 事实星座形 事实星座形 一种常见的数据仓库的概念模型 这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合 事实星座模型需要多个事实表共享维度表 因而可以视为星形模型的集合 故亦被称为星系模型 基本概念 数据架构 数据架构包含内容有 1 数据流架构 设计数据流层次及每个层次间的关系2 数据管理架构 需要依据数据使用频率和价值考虑历史存储方式 存储粒度 数据集市的粒度与事实表的冗余 3 业务数据架构 设计模型时 需要考虑表的拆分与合并 字段的派生与去冗 关注业务过程 4 数据安全架构 一般安全管理分为操作系统级 数据库级 Schema级 表 视图级 数据级 行数据 以及BI界面控制级别 CUBE控制等多个层次 这里主要说的是数据行级 基本概念 元数据 基本概念 元数据是描述数据的数据 其内容主要包括数据的格式 结构 约束 加工过程 部署情况等 元数据管理包括元数据采集与关联 元数据信息维护 标准代码及术语信息维护等内容 对元数据的分析包括血缘分析 影响分析等 元数据 业务元数据 业务属性 业务实体 数据质量业务规则 技术元数据 列 字段 表 视图 文件 数据库 文件服务器 数据质量控制规则 数据映射逻辑 业务指标 企业级数据模型 数据规范定义 数据质量 贷款余额的定义 贷款合同的定义 还款日期 贷款日期 CAPMCURBAL CAPM db2 sybase oracle Len 身份证 15或18 ETL过程 不良贷款率的口径 指标体系 报表体系 数据质量 包含子项 示例 关联工作 数据架构 DataWarehouse ArtificialIntelligence DataMart OLAP DecisionSupportSystem DataMining OperationDatabase BusinessIntelligentSystem DatabaseSystem 各种概念之间的关系 作业一 搜集右图中涉及的概念含义 提交 数据仓库相关重要术语定义 作业二 企业什么样要建立数据仓库 提交一页纸内容进行说明 目 2 3 4 5 6 数据仓库是一个解决方案 数据仓库几种常见架构 数据仓库类项目中人员配置 个人职业发展规划建议 汇聚数据财富挖掘潜力无限 录 初始数据仓库 基本概念 1 Kimball生命周期导图 数据仓库是一个建设过程 不是一个产品 是一个持续的过程 35 数据仓库是一个解决方案 多层结构体现可扩展架构 DataWarehouse OLAP引擎 AnalysisQueryReportsDatamining Monitor Integrator Metadata 数据源 前端工具 Serve DataMarts 数据存储 OLAPServer 数据仓库解决方案 群雄逐鹿1 数据仓库解决方案 群雄逐鹿2 数据仓库解决方案 群雄逐鹿3 数据仓库解决方案 工欲善其事 必先利其器 商业工具篇 建模工具 Powerdesigner ErwinETL工具 用于数据的集成和处理Datastage Infomatic Automation数据质量工具 一般集成在ETL工具中分析工具 报表工具 BO COGNOS 安讯 润乾 BRIOOLAP工具 COGNOS BOBI分析门户 一般集成在分析工具中数据挖掘工具 SAS SPSS元数据管理工具 metacenter 石竹 CA Infomatic 数据仓库解决方案 工欲善其事 必先利其器 开源工具篇 报表工具 EclipseBIRTEclipse下面的一个企业智能和报表工具 能为J2EE的WEB应用程序创建漂亮醒目的PDF或者HTML格式的报表 它提供了核心的报表功能JasperReportsJava报表工具 始于2001 现在JasperSoft公司持续开发和支持该工具 该工具类似于商业软件CrystalReport 支持PDF HTML XLS CSV和XML文件输出格式 现在是Java开发者最常用的报表工具 JFreeReport现在是Pentaho的一部分 它是一个优秀的用来生成报表的Java类库 它为Java应用程序提供一个灵活的打印功能并支持输出到打印机和PDF Excel HTML和XHTML PlainText XML和CSV文件中 Mondrian是Pentaho的一部分 为一个用Java开发的OLAP服务器 实现了MDX语言 XML解析和JOLAP规范 可以不写SQL就能分析存储于SQL数据库的庞大数据集 可以封装JDBC数据源并把数据以多维的方式展现出来JPivot一个JSP自定制的标签库 可以绘制一个OLAP表格和图表 用户可以执行典型的OLAP导航 如下钻 切片和方块 它使用Mondrian作为其OLAP服务器 它使用WCF WebComponentFramework 基于XML XSLT来渲染WebUI组件 KETL由具有IBM和KPMG背景的KineticNetworks公司开发 现在已经有三年多的产品应用历史 成功应用于一些产品中 在点击流 ClickStream 分析应用中表现出色 KETL采用Plug in的架构 使用Java开发KETTLE一个元数据驱动的ETL工具 已经加入Pentaho CloverETL一个基于Java的ETLFramework 可以用来开发自己的ETL应用EnhydraOctopus一个基于Java的ETL工具 使用JDBC来连接各种数据源 易于使用和部署 数据仓库解决方案 工欲善其事 必先利其器 开源工具篇 ETL工具 Pentaho一个以工作流为核心的 强调面向解决方案而非工具组件的BI套件 整合了多个开源项目工作流引擎 SharkandJaWE数据库 FirebirdRDBMS集成管理和开发环境 Eclipse报表工具 EclipseBIRTETL工具 Enhydra KettleOLAPServer MondrianOLAP展示 JPivot数据挖掘组件 Weka应用服务器和Portal服务器 JBoss单点登陆服务及LDap认证 JOSSO自定义脚本支持 MozillaRhinoJavascript脚本处理器 数据仓库解决方案 工欲善其事 必先利其器 开源工具篇 BI工具 SpagoBI集成了Mondrain和JProvit 能够通过OpenLaszlo产生实时报表 SpagoBI使用java开发 不依赖于具体的操作系统 有很强的扩展能力报表工具 JasperReports EclipseBIRT iReportOLAPServer MondrianOLAP展示 JPivot数据挖掘组件 WekaMap引擎 GeoETL BIE搜索引擎 LuceneDashboard OpenLaszloPortalServer JBoss Tomcat JOnAS 数据仓库解决方案 工欲善其事 必先利其器 开源工具篇 BI工具 项目实施 数据仓库项目组织步骤 人员角色 建设放方案等一系列方法的集合 指导方针 数据模型的建模方法 统一的概念模型 逻辑模型 数据库中对应的组织 物理化 ETL功能组件 前端门户组件 模版 元数据管理 用户与组织 权限组织 面向业务的分析 面向问题的专题 固定报表 即席查询分析 KPI 分析 互动流程 数据的加载 清洗 组织规划的过程 用户本地的需求整理与实现 与开发者的经验 技能相关 数据仓库解决方案 工欲善其事 必先利其器 关注项目实施过程 矿工 勘探员 农夫 操作员 旅行者 老总 经理KPI 仪表盘 简单的综合信息报表 营销人员当前周期的数据 明细数据 直接获取下载 用来做业务 分析员有一定的分析能力 对预定义的报表 查询感兴趣 偶尔使用灵活的动态报表组合自己需要的在综合信息 熟练的分析员精通分析技术 对数据敏感 除使用固定报表 查询外 会针对特定的业务问题 数据质量问题进行分析 常使用灵活的动态可配置的应用 必要时会进入数据仓库直接探索 专业分析员对业务发展的趋势的假设作出求证 或者通过挖掘等技术找出改善业务的途径 特定用户进行细分等 一般直接使用数据仓库 数据仓库解决方案 工欲善其事 必先利其器 重点关注业务需求 用户 简单图表展现 固定报表 动态的可配报表 图表互动分析 可切片旋转的OLAP KPI指示器 可层级筛选的明细查询 对以上进行组合的复杂应用 带有分析流程的应用 数据仓库解决方案 工欲善其事 必先利其器 重点关注业务需求 需求类型 规范功能 个性需求 新需求提出 统一的应用框架下管理和开发 数据仓库解决方案 工欲善其事 必先利其器 重点关注业务需求 应用框架 作业三 申请百度文库用户 搜集数据仓库类项目解决方案一个 提交 解决方案阅读笔记 要求4 5页 参考 阅读笔记中要求能够回答如下问题 数据源有哪些 源系统的数据是怎么捕获加载到数据仓库就中 数据仓库内部逻辑层次是如何划分的 方案解决用户什么样的问题 用户群体是哪些 目 2 3 4 5 6 数据仓库是一个解决方案 数据仓库几种常见架构 数据仓库类项目中人员配置 个人职业发展规划建议 汇聚数据财富挖掘潜力无限 录 初始数据仓库 基本概念 1 Kimball生命周期导图 数据仓库领域的两位大师 BillInmon数据仓库之父 数据仓库概念的创始人理论 CorporateInformationFactory CIF 主要著作 数据仓库 企业信息工厂 主要著作 数据仓库工具箱 维度建模的完全指南 数据仓库生命周期工具箱 设计 开发和部署数据仓库的专家方法 RalphKimball数据仓库方面的知名学者理论 MutildimensionalArchitecture MD BillInmon企业信息工厂 Kimball企业数据总线 两种架构方案对比分析 混合架构方案 融合 趋势 利用EDW 存储各源系统明细粒度数据 解决源系统变化对数据仓库系统的冲击 解决代码标准化的问题 利用企业数据总线结构 解决应用一致性的问题 可以快速见效 实现投入产出比 敏捷架构设计方案 企业数据总线 1 基于企业数据总线方案进行模型设计2 维度模型包含明细粒度数据和汇总数据3 维度模型是企业级 维度的设计围绕业务过程而不是按照某个部门进行设计4 维度模型也是支持扩展的5 维度模型设计不应该仅仅关注报表或分析 应该以度量过程为中心6 一致性维度作为集中的 持久的主数据建立在ETL系统中7 关注业务度量过程 而不是仅仅是报表或分析8 数据管理和治理首先应该关注维度数据9 维度建模的考虑应该早于设计星型模型或OLAP多维数据库10 开发小组与业务相关方的值合作11 以迭代 增量方式处理开发过程12 避免陷入凭空使用敏捷技术建立分析或报表方案的陷进中 敏捷架构设计方案 企业数据总线矩阵示例 数据仓库实施方法概论 方法论主要描述了项目实施的步骤 系统建设的内容以及过程管理中的一系列方法 实施过程中的具体内容 采用的软件工程方法 项目管理的内容 实施的目标管理 风险管理 重点 螺旋式上升式的建设模式 对于应用分析建模 数据建模乃至整个系统的建设 都是适用的 例子 某项目 分析 建设 培训 使用 反馈 分析 改进 国外常见的项目过程 ETL工具 展现分析工具 数据库 元数据管理工具 数据库建模工具 COGNOS BO BRIO ORACLE DB2 SYSBASE CA MetaManager PowerDesigner ERWIN Infomatic DataStage Infomatic 解决方案 方法论 行业模型 典型分析 项目控制 项目建设 物理模型 数据加载 应用开发 上线加载 产品选购 方案选择 项目工作 1 功能组件高度抽象与产品化 ETL 展现分析 建模 元数据等 2 项目以解决方案的实施为主 公司一般具有相关行业的通用解决方案 3 建设 实施过程以本地化 个性化为目的 完成用户的分析目标 技术方面比重较少 生命周期法的建设模式 业务维度建模的生命周期法 Kimball 业务需求定义 技术轨迹 技术结构设计 产品选择与安装数据轨迹 维度建模 物理设计 DataStagingArea设计与开发应用轨迹 最终用户应用规范 最终用户应用开发部署维护与增长 技术平台 数据平台 产品平台 吉贝克数据仓库实施方案 目 2 3 4 5 6 数据仓库是一个解决方案 数据仓库几种常见架构 数据仓库类项目中人员配置 个人职业发展规划建议 汇聚数据财富挖掘潜力无限 录 初始数据仓库 不是数据库 1 Kimball生命周期导图 Kimball生命周期导图 程序 项目规划与管理 评估准备 范围及论证 人员配备 规划的开发及维护 1 强有力的执行主管 有相关经验 能够协调内部资源 能够说服上层领导支持项目推进 2 解决DW BI活动的引人注目的动机3 准备可行性 技术 资源 数据三要素 1 确定项目范围 对业务有意义 对IT可管理2 避免太原则 即时间太短 源系统太多 源系统分布不能太广 用户群体太多 3 项目启动利益与成本 关注后期成本4 业务团体确定预期财务收益 1 业务发起人 推动者 领导者 用户2 实施方提供项目经理 架构师 模型师 业务分析师 BI设计与开发人员 ETL架构师设与开发人员 数据库管理员3 实施方上层领导 销售人员 协调内部资源 与外部沟通 1 划分项目阶段 建立里程碑2 项目经理组建队伍 制定计划3 项目经理需要非常了解用户需求 应对项目变化 sayNO 增加范围与预算 更换项目内容 业务需求定义 1 2 3 需求预规划1 选择讨论话题 希望做什么 为什么要做 如何知道决策等2 确定及筹备需求小组 确定懂业务的分析师 准备调查问卷 3 选择 调度和准备业务代表 与业务人员沟通 与业务管理层沟通 关注战略方向 不宜过多关注战术 约谈客户1小时 1 5小时为宜 收集业务需求1 初启 主持人点出访谈重点 以业务为中心2 访谈流程3 形成最终文档 提交会议纪要 整理收集资料 指导以数据为中心的访谈 数据探查小组 模型师参与访谈 了解需求可行性 文档管理 编写需求规格说明书 需求优先级管理和需求范围管理 目标 明白他们做什么和为什么要做了解访谈者对数据的数据经验分析类型 了解业务人员对bi的理解了解潜在的其他需求和管理层的规划 业务需求定义 关键任务 用户访谈 针对不同的用户角色 采用不同的访谈方式 提问内容 技术架构设计 46 22 19 数据转换标准 BI架构占据比例虽然没有ETL环节高 但影响了业务人员对系统的认可度 他们关注需求是否准确实现 关注数据模型的设计思路 etl加工的便捷性 数据是否支持等 ETL环节验证占据比例最高 成功关键环节 系统是否好用 是否可管控 影响用户对系统的最终评价 数据管控 及元数据与数据质量 7 6 描绘DW BI环境的技术服务与基础设施蓝图 建立架构组 包含ETL BI 甲方技术负责人 架构设计成果应用 收集与架构相关需求架构需求文档化 列出影响架构的需求3建立架构模型 架构需求划分为主要组件 如ETL BI 元数据 数据质量 数据标准等确定架构实现阶段 重新审视架构需求设计并定义子系统 部分需求商业产品无法提供 需要构建这些产品建立架构规划 编写架构设计文档 初步架构设计 评审及确定技术架构 与项目小组内部 甲方项目经理与技术负责人讨论架构蓝图确定架构设计中待验证的技术问题3准备验证方案和可接受的验证结果与标准修订架构设计蓝图再次评审6评审通过的架构设计蓝图在项目组内培训 形成共识 架构设计评审 产品选择与安装 3 进行市场调研 2 建立产品评价矩阵 4 评价选项列表不要太多 5 构建原型系统 6 选择产品 安装试验及谈判 1 了解公司采购流程 了解公司内部硬件与软件采购流程 了解市场上流行的商业工具和开源工具 罗列核心的重要的评价选项 应该驾驭评估过程 而不是被供应商驱动 确定评价准则矩阵及指示重要性的权衡因素 厂商提供机器 进行POC试验 实现某个场景 通知期望的某个厂商 产品试用 开始培训 保留谈判的能力 维度建模 确定参与人 特别是业务代表 业务需求评审 将需求转为维度模型 支持更广泛的分析而不是特定报表利用建模工具 支持将设计成果同步到数据库中 利用数据分析工具 编写sql 探查源表结构 字段 关系 获取规则等内容利用或建立命名规则 包含主词 限定词 类词日期与设施的协调 制定计划 准备会议室或沟通用设施 如白板 投影仪 统一对高层气泡图的理解 利用气泡图 将事实表和与之关联的维度表之间的关系清晰的展现给非技术人员 粒度需要建模小组考虑业务需求需要什么以及物理数据源能够提供什么数据总线矩阵一行可能对应多个气泡图 每个气泡图对应特定粒度的特定事实表气泡图保证在陷入细节前 每个人能够具有共同的理解 也有助于与利益相关方交流时介绍项目时使用 确定维度及其属性 确定事实 确定缓慢变化维度技术 建立详细的表设计文档 模型问题跟踪 维护总线矩阵 IT评审 由IT部门组织同行进行评审 挑战 不熟悉维度建模 需要提供必要的培训 核心用户评审广泛的业务用户评审 实质上是教育与培训 启迪 而不是强迫他们接受 先评审气泡图 在评审总线矩阵 在到维度 再到事实表 在到如何应用 项目简短描述 高级数据模型图详细的针对每个事实和维度表的维度设计工作单开发的问题 客户 InsuranceAgency代理机构 Geography位置 Demography人口统计特征 BehaviorScores行为 FinancialScores财务 Product产品 Psychographics购买特征 消费行为 SinceDate相关行为开始日期 BeginDate初始日期 EndDate结束日期 Assets资产 Policy保单 PolicyRating相关费率 PolicyLifeCyclestatus保单状态 ApplicationDate申请 PaymentCat支付 InsuredParticipant 保单 MaturityDate到期 满期日期 DeterminationDate其他重要日期 Currency货币 高级维度模型 气泡图 企业总线矩阵 维度详细工单设计 维度建模小结 2 3 4 5 维度建模是一个迭代的过程 需要不同技能的人员通力合作 包含业务专家 设计工作从总线矩阵中抽取的实体级别的初始图形模型开始 详细建模过程要深入到定义 资源 关系 数据质量问题以及每张表的需求转换 确定列和表名的工作始终与设计过程交织开展 提供给BI工具的列名必须是业务团体能够理解的 最终结果是维度模型通过业务与数据两方面验证 经验 要将甲方的业务专家 核心技术人员纳入到建模小组中 切记切记 经验 依据企业价值链将核心过程画出气泡图 经验 通过维度的一致性来讲业务过程串起来 通过扩展维度或者扩展事实表的方式将多个源表数据纳入进来 经验 有限级别 参考核心系统的名称规则 参考已有BI系统的命名规则 参考专业术语翻译规则 自定义规则 经验 维度的加工规则整理出来 数据质量问题和缓慢变化维的问题考虑进来 1 物理设计 物理设计与物理模型的设计紧密相关 表和列名是用户体验的关键因素 用于数据模型和BI应用的导航 因此它们对业务来说应该是有意义的 空值 异常值处理规则 增加硬件资源 更多的cpu和内存利用聚集表 缩减维度 提高查询性能获取用户的访问模式 通过评价数据统计分布寻找划算的聚集点 包含块 文件 磁盘 分区 表空间以及数据库的具体存储细节 索引和聚集表 提供优秀的查询性能 设计聚合 包含OLAP数据库 确定物理存储细节 数据库规划 如数据库名 表空间 网络端口 用户 索引规划 主键唯一索引 位图索引 过滤和分组 B树索引事实表中日期宜建立位图索引 主键建立B树索引或聚集索引 开发命名及数据库标准 开发数据库规划 BI应用规范 BI应用规范 不是Bi开发规范 是需求实现结果呈现方式的一种描述 在需求明确后着手的一项工作 创建应用程序标准和模板 包含报表名 标题 报表主题 页眉页脚 报表文件名 创建仪表板和分析性应用程序模板确定初始应用程序集 需要将报表进行合并与拆分 确定优先级制定详细的应用程序规范 关注实体模型 用户交互 数据集 计算规则 与其他报表交互设计导航框架和门户 制定一种策略来帮助用户迅速找到他们所需的东西审查以及确认应用程序和模型 结合模型设计成果和需求对比 审视如何sql编写 olap如何查询 发现问题与业务人士一同审查 BI应用规范 BI应用规范示例 BI应用规范 实体模型 BI应用规范 应用程序详细定义 BI应用规范 应用导航框架 BI应用程序开发 准备应用程序开发 构建应用程序 应用程序和数据测试验证 完成文档 部署计划 BI开发与与ETL开发同步进行 优先准备好维度数据 部署 测试环境 Descriptionofthecontents 生产环境 程序功能测试 数据集测试 部署过程测试 程序部署 数据初始化加载 上线成果验证 Descriptionofthecontents 运维与发展 数据仓库是一个长期的过程 需要不断的维护和升级 系统程序执行状况 日常监控 性能调优基础数据维护日志跟踪与清理监控后台资源利用率管理磁盘空间备份与恢复 管理磁盘空间 数据库空间文件存储空间应用端文件存储空间BI离线报表和cube存储空间 备份与回复 关系数据库配置文件上传数据文件离线数据文件日志文件元数据资料库备份策略有增量备份 全量备份 新增需求 新增需求 体现在基于现有数据 新增分析粒度和指标新增源系统数据入库 增加分析应用系统对外供数 开发接口 需求变更 源系统业务规则变化导致需求变化业务用户提出修订现有应用整合企业多个应用 数据源切换外部接口调整 应用下线 依据应用访问情况统计 无人使用或者使用率极低的报表下线处理 数据上传 计划值导入系统外部数据文件准备与导入 系统融合 与多个应用系统进行融合 培训 持续不断的为DW BI系统提供教育培训 包含入门培训 进修课程 高低级培训鼓励思想交流 1 2 3 4 管理前台 管理后台 新增需求或需求变更 其他 应对避免的常见错误 10 过于迷恋技术和数据 而没有将重点放在业务需求和目标上 9 没有一个强有力的项目发起人 8 将项目处理为持续性项目 而不是追求更容易管理的 有挑战性的迭代开发工作 7 过于耗费精力关注数据结构和数据模型 用尽所有预算 6 过于关注后台数据处理过程和易于开发 没有重点考虑前端查询性能和易用性 5 展现区数据结构复杂 花费大量时间支持业务用户 4 维度模型被放入单一基础之上 不考虑使用可共享的 一致性维度通过数据结构将这些模型联系在一起 3 只将汇总数据加载到展示区的维度结构中 2 臆想业务 业务需求及分析 其涉及的数据及支持技术都是静态的 1 忽略数据DW BI系统的成功直接来源于业务的认可 10 应对关注业务需求和目标 技术是实现业务需求的一种手段而已 9 在立项或者项目启动阶段 寻找一个有影响力 平易近人的高级管理人员作为项目发起人 8 需要明确项目可实现的目标 迭代开发 7 经常review项目计划 数据模型建设规划适度为止 关注项目工期和实际投入 6 后台与前台需要均衡考虑 提供一个较优的方案 5 基于需求调整明确展现区数据结构 部分工作转入后台预处理 4 部分维度信息被纳入到事实表或者维度表的属性中 应用提炼出可共享的 一致性的维度 3 展现区的数据需要保护较细粒度的指标数据 甚至明细基础数据 一切依据需求来设计1 如果用户未将DW BI系统当成他们决策的基础 那么您的工作就是徒劳无益的 因此需求的实现程度 易用性及其关键 需要在实施过程中重点关注 目 2 3 4 5 6 数据仓库是一个解决方案 数据仓库几种常见架构 数据仓库类项目中人员配置 个人职业发展规划建议 汇聚数据财富挖掘潜力无限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论