




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
菲奈特数据仓库实施方法论,实施部2005,本手册是菲奈特公司实施部实施项目的参考手册。拿到本手册的菲奈特员工必须确保本手册没有被复制、散发或采取任何方式为第三方所用。在您离开菲奈特公司时,有义务归还本文件。,主题,菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法,菲奈特之“一种方法两个模型”,菲奈特做为商业智能解决方案的领导者,一直致力于BI领域的创新,创建了DW的最佳实施体系“一种方法两个模型”-“一种方法”,菲奈特数据仓库方法论是菲奈特经过多年的数据仓库实施积累的最佳实践经验。-“两个模型”指的是DWM和BAM。DWM(FEnetDWIntegrationDataModel)用于企业数据整合的数据模型是对企业数据进行整合和组织的工具,描述了数据仓库各个主题域的实现。BAM(FEnetBusinessAnalysisDataModel)用于企业数据分析的数据模型,是技术人员与业务人员沟通的载体和工具,反映了业务分析需求、指标体系、行业最佳实践经验。-建设数据仓库一定要统一规划,分步实施。建议企业在数据整合和业务分析两方面对EDW蓝图进行统一规划。方法论是使蓝图得以实现的路线图,建议企业循序渐进,逐步建成企业级DW。,什么是菲奈特数据仓库方法论,菲奈特数据仓库方法论:-是菲奈特多年的数据仓库系统实施过程中积累的最佳经验。-是一套建立企业级数据仓库解决方案的方法。帮助定义灵活的、可扩展的DW体系架构;采用结构化方法,详细定义了建设一个满足客户需求的数据仓库系统所不可缺少的任务和步骤。-可提高工作效率,保证项目实施质量;减少项目的实施风险,确保在预算的范围内按时完成项目,满足用户的需求。-可解决诸如:确定正确的系统范围和需求、建立灵活的系统架构以满足不断变化的分析决策需求等等比较棘手的、高风险的问题。,菲奈特数据仓库方法论体系,菲奈特数据仓库方法论包含的内容:一、体系架构。帮助建立灵活的、可扩展的EDW架构。二、数据模型。包括DWM和BAM。三、实施方法论。采用结构化方法,定义了建设一个DW包含的详细任务和步骤。四、项目管理。减少项目的实施风险,确保在预算的范围内按时完成项目,满足用户的需求。过程管理委员会对项目进行评审和指导。,主题,菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法,菲奈特数据仓库数据处理流程,名词解释-DW,数据仓库是与操作系统分离的、基于企业模型集成的、面向主题的、稳定的、历史的数据集合。数据仓库的数据模型是应用无关的,换句话说,DW是一个数据平台,提供各种查询的数据支持,但最终用户的查询并不直接在DW中执行。DW的物理设计也无需针对用户查询和分析的需求进行优化。,名词解释-DWM,数据仓库数据模型是对企业数据进行整合和组织的工具。首先抽象出企业概念模型,然后将其转换为DWM。企业概念模型把现实世界高度抽象为信息世界。概念模型是主观与客观之间的桥梁。概念模型是设计系统、收集信息的概念性工具。用ER图描述概念模型,形式简单,便于交流。系统设计阶段把概要模型转换为DWMDWM描述了数据仓库各个主题域的逻辑实现,即每个主题所对应的关系表的关系模式定义。DWM是当前和未来数据的集成蓝图,用来指导企业级数据仓库建设。DWM主题域保证数据组织独立于数据处理逻辑,因而可以从DWM之上方便的开发新的分析应用。定义主题域采用结构化、逐步求精的方法,确保主题域的独立性和完备性。,名词解释-DataMart,用户所有的数据需求都通过访问DataMart,DataMart可分为:1、DataMart(RDBMS)面向业务需求;存储在关系数据库中;一般采用反规范化设计方法,包括明细的数据,或者聚合、冗余的数据;2、OLAP(MDBMS)OLAP根据存储方式又分为三类:1、ROLAP,数据以Star-Schema存储在关系数据库中。2、MOLAP,数据先以Star-Schema存储在关系数据库中,再加载到OLAP。3、HOLAP,把上面两种方式结合起来。,名词解释-BAM,BusinessTemplates是用来指导数据集市建模(BAM)和前端开发的业务分析需求、指标体系、行业最佳实践经验等。BAM是数据集市的数据模型,根据分析需求组织数据,通过数据冗余和数据库优化来满足数据访问的快速响应要求。BAM设计必须与行业经验结合,采用结构化、逐步求精的方法。BAM的设计采用反规范化以及Star-Schema。,名词解释-ODS,ODS(OperationalDataStorage)是一个包含了面向主题、集成、可变、当前的(或最近一个阶段)和详细的操作信息。ODS的优点:ODS提供了改善的方法进行数据库的存取。通过ODS,企业可以在客户交易的过程中获得客户的完整视图。ODS可在实时或近实时的基础上提供查询产品和服务所需数据的能力。与传统系统相比,ODS能以更高的性能生成操作报告。ODS可帮助集成现有新型系统。根据W.H.Inmon的提法,把ODS按照数据更新频率分为3类,后来随着业务的发展,又出现了第4类ODS:ODSI:实时或准实时,数据整合少、简单。ODSII:每1小时或半小时更新一次,数据整合比较复杂。ODSIII:每天更新一次,或者每周更新一次。ODSIV:把DW的分析结果存储到ODS,该ODS保证交易访问这些数据能在2-3秒获得。,名词解释-StagingArea,StagingAreaStorage由一些ETL处理过程的辅助表组成,辅助ETL工具完成复杂的转换和计算,StagingArea通常是一些临时表。StagingArea的作用与实现:1、减少对数据源的查询压力,有助于不同数据源的整合。2、应用于增量处理,可以减少处理的记录数量,使增量处理更加容易。3、对数据的格式进行转换,例如日期格式、数据类型转换等。4、时间调度上的灵活性,通过建立StagingArea,把数据存储在临时空间,使ETL调度更灵活。5、作为ETL后续处理的统一接口,建立StagingArea作为ETL每个处理阶段的接口,对系统的灵活性和可扩展性非常有帮助。,主题,菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法,菲奈特实施模式与关键因素,系统测试,系统建立,系统设计,需求分析,以业务为驱动,需求明确,用户培训,试运行,部署,上线运行,监控,业务增长,业务分析,管理层重视,业务积极参与,循序渐进,螺旋式开发,数据质量控制,成熟的实施方法,风险控制,灵活的架构和数据模型,最佳实践经验,数据仓库实施评估,表中的百分比以一个中等规模的项目为例,说明每个过程的工作量在各个实施阶段中所占的比例,该百分比是多个项目的平均值,仅供参考。,项目组织结构图,实施团队模型,实施团队模型定义了相互协作、同等角色关系的工作模型。每个组中的成员在项目中都有一个明确定义的角色,并且关注于一种特定的任务。每个人的工作是同样重要和有价值的。每个人必须对其交付品的质量负责。团队模型不是组织结构图。,菲奈特数据仓库实施流程,方案评估系统定义系统分析系统设计系统开发系统测试系统上线系统维护,方案评估概述,本阶段为售前阶段,以客户策略性业务需求和目标为基础,提供解决方案,完成对系统目标和企业数据仓库基础结构的定义。对客户组织结构、成功的关键因素、主要的限制因素、事项、风险和由数据仓库系统带来的收益进行评估。此外,还要完成对高层的技术实现结构、高层的数据仓库结构进行定义,确保方案的可行性和扩展性。,菲奈特数据仓库实施流程,方案评估系统定义系统分析系统设计系统开发系统测试系统上线系统维护,系统定义概述,本阶段项目组尚未正式进场,根据商务合同文本及其附件,明确定义迭代过程的目标和范围,对用户目标和分析需求的信息进行收集,在已确定的解决方案实施范围内确定整体技术方案。在本阶段还需建立在需求范围控制、数据获取、数据质量控制、数据仓库管理、元数据管理、数据访问和培训等方面的策略性方案。必要的时候,PM可以与客户相关人员进行沟通。本阶段确定项目组的成员和项目范围、分工,各个阶段的主要提交物,以及项目预算。通过内部Kickoff确认资源安排、计划以及预算等。,系统定义实施流程,系统定义主要任务,主要任务n确认项目范围和主要目标;n确认项目阶段性验收及总体验收标准;n熟悉合同附件中的系统解决方案建议书和SOW;n确认项目实施初步计划;n成立项目组,确定各项目小组的成员及各自的工作职责;n确定各项目小组的阶段性工作目标;n确定系统最主要的EndUser;n工具选型和评估。交付物n项目组织架构和人员组成;n项目实施初步计划;n项目实施成本预算;,菲奈特数据仓库实施流程,方案评估系统定义系统分析系统设计系统开发系统测试系统上线系统维护,系统分析概述,在本阶段开始之前,在客户现场召开项目启动会议,重申项目目标、重点,以及需求访谈的模式等。在本阶段中,在已确定的解决方案实施范围内,进行现状分析,明确详细的业务需求,项目组集中精力收集详细的分析需求,设计数据仓库构架,收集最终用户对数据的访问需求。本阶段的结果提交一个详细的需求分析报告,这些需求将用于数据仓库设计和项目的其它阶段。在系统分析阶段,确定数据获取方案,包括从源系统中抽取什么数据;确定业务数据处理周期、更新周期,以及ETL周期;完成源系统的初步分析,源系统和目标系统的差异分析。,系统分析实施流程,系统分析主要任务,主要任务n用户需求调研与确认;n数据源确认和分析;n用户需求和数据源的筛选和分析;nETL处理规则确认;n系统安全性设计;n系统命名规范设计;n设计并演示Demo。交付物n需求说明书SRL(SystemRequirementList);n系统命名规范说明书;n数据质量初步分析;nETL处理规则说明书和脏数据处理规则;n总体设计说明书;n交付系统原型(Demo)。,2019/12/14,29,可编辑,系统分析需求界定,需求的不明确前期阶段,用户:“你先告诉我这个系统能够提供哪些功能,我才知道我需要什么”。解决方法设计并演示Demo,进行用户体验,引导用户提出需求。,系统分析以业务为驱动,以业务为驱动,收集客户需求,形成需求文档。分析方法结构化分析,逐步细化(菲奈特五步法):,系统分析以数据为驱动,以数据为驱动,完成企业概念模型的分析。概念模型是对企业模型较高层次的抽象,用ER图进行描述。企业概念模型分析的任务:对现有业务系统的数据进行分析,了解现有数据库系统“如何组织”和“如何分布”。分析企业经营管理过程,把企业的信息结构抽象为概念模型。企业概念模型分析的要完成的工作:确定系统的边界,确定哪些数据是DW所需要的。确定主要的主题域以其内容,以及实体之间的关系。,系统分析“齐头并进”,以数据为驱动的系统分析和以业务为驱动的系统分析同时进行。以业务驱动分析为主线,以数据驱动分析为辅。定义初步的逻辑数据数据:-用于整合的数据模型DWM-用于分析的数据模型BAM,系统分析数据质量分析方法,高质量的数据是指那些符合业务需求的、反应客观事实的数据。衡量数据质量可在以下几个方面进行:,系统分析数据质量优化方案,一旦在测试中发生数据质量问题,将采取以下可选方案优化数据的质量,菲奈特数据仓库实施流程,方案评估系统定义系统分析系统设计系统开发系统测试系统上线系统维护,系统设计概述,本阶段的目标是使用在系统分析阶段确定的信息建立满足需求的详细技术定义。包括系统详细设计,ETL设计,数据元素、数据粒度的确认,数据一致性的检查,对数据访问和查询、编制报表等部分的详细定义。详细定义逻辑模型、数据查询需求、来自系统分析阶段的数据映射,以及DWM和BAM的物理设计。逻辑数据模型是用来发现、记录和沟通业务需求的载体和成果。DWM来源于企业数据模型(操作型数据模型),BAM充分体现了业务需求。ETL在设计和开发阶段占用50%以上的工作量,需要予以足够的重视。系统设计阶段还完成系统配置方案,制定测试初步方案,和用户培训的初步方案,以及制定系统上线策略。,系统设计实施流程,系统设计主要任务,主要任务n定义数据仓库成功的关键因素和数据仓库的实施原则;n设计可扩展、灵活的系统结构;n确定数据规模、数据粒度;n元数据管理方法、数据质量管理策略、ETL策略;n备份系统和系统安全策略;n设计逻辑数据模型和物理数据模型;n数据抽取、转换、清洗和加载策略设计;n数据抽取失败的恢复处理策略;n实施严格的数据质量评价方法论,审计、监控和保障数据质量。交付物n系统体系结构与ETL流程说明书和ETL详细设计说明书;n逻辑数据模型说明书和物理数据模型设计说明书;n前端应用设计说明书;n系统管理说明书。,系统设计DWM设计,DWM的逻辑设计:分析主题域。确定本阶段包括哪些主题。粒度划分。确定采用单一粒度或者多重粒度。关系模式定义。确定每个主题的主键和属性,以及主题之间的关系。DWM的物理设计:确定数据的存储结构,考虑存取时间、存储空间利用率和维护成本。确定索引策略,创建合适的索引,采用合适的索引类型。确定数据存储位置,例如更加数据的使用频率和重要性分别存储在不同的存储设备上。空间分配。调整数据块大小、缓冲区大小等优化参数。采取一些提高性能的技术,如数据库分区等。,实例-FEnet银行DWM10大主题域,系统设计BAM设计,BAM(OLAP)的逻辑设计:设计多维模型。分析报表需求和决策分析需求,寻找需求与多维模型的维度之间的对应关系,最大限度的减少每个多维模型的维度数目。调整多维模型。每个多维模型反映特定分析问题的商业逻辑,根据业务需求、维度和指标综合考虑多维模型的合并、分拆。考虑添加或移动成员的处理。确定数据加载策略。通过数据库或是文本文件加载。确定多维模型的粒度;BAM(OLAP)的物理设计:确定OLAP增量更新策略和处理方法。确定OLAP计算指标的策略。哪些计算在OLAP实现,哪些需要动态计算。确定OLAP最佳的稀疏/紧密维设置。确定OLAP存储和空间分配。确定OLAP的分区策略。确定哪些CUBE需要设计分区。确定OLAP的并行处理策略。,系统设计ETL设计,ETL设计(包括数据质量处理策略):根据数据质量分析结果,确认脏数据处理规则;确定ETL处理日志的技术实现和日志内容;确定ETL数据临时存储区(StagingArea)的存储策略;确定ETL日常增量处理流程的策略;确定ETL历史数据处理流程的策略;确定ETL失败、异常的处理策略;确定ETL数据正确性测试策略;确定ETL性能测试策略;保证ETL模块的高内聚和低耦合;如果业务系统允许修改已经发生的业务,确定处理策略;确定代码统一编码的处理策略;确定衍生指标在OLAP中计算还是在ETL中计算;确定渐变维SCD的处理策略。,菲奈特数据仓库实施流程,方案评估系统定义系统分析系统设计系统开发系统测试系统上线系统维护,系统开发概述,本阶段以系统设计阶段完成的方案为基础,完成数据仓库系统各组成部分的开发,以及系统优化。包括DW、OLAP、ETL和数据访问的开发;开发数据抽取、转换、装载、增量更新流程,以及系统管理体系;安装前端工具,定制查询、编制报表。,系统开发实施流程,系统开发主要任务,主要任务n对物理数据模型进行修正;n存储、性能调整与优化;n建立开发环境和生产环境;n建立DW/OLAP分析模型;n开发历史数据加载的程序和处理流程;n开发日常增量加载的程序和处理流程;n开发数据备份与恢复程序;n前端应用开发;n单元测试。交付物n物理数据模型说明书;n数据库描述语言DDL;n数据转换加载(E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年清洁机器人行业当前发展现状及增长策略研究报告
- 2025年医药制造外包(CMO)行业当前发展趋势与投资机遇洞察报告
- 基于虚拟现实技术的2025年成人继续教育线上学习模式创新研究报告001
- 生态补偿机制在2025年区域生态保护中的实践与成效分析报告
- 土建技术负责人培训知识课件
- 民族服饰片头课件
- 小学语文基础拼音教学设计方案
- 2025乡村医生培训考试题及答案
- 2025全科医生考试题及答案
- 2025一级建造师继续教育考试题及答案
- 第四课 公民义务 复习课件-2022-2023学年部编版道德与法治八年级下册
- UG基础培训课件
- 初二英语上册完形填空练习题及答案
- GB/T 1149.4-2008内燃机活塞环第4部分:质量要求
- 2022年高校教师资格证(高等教育心理学)考试题库深度自测300题加下载答案(四川省专用)
- 地基基础工程施工方法及基础知识课件
- 2017年9月国家公共英语(三级)笔试真题试卷(题后含答案及解析)
- 膀胱镜检查记录
- 2021年西安陕鼓动力股份有限公司校园招聘笔试试题及答案解析
- 江西师范大学研究生院非事业编制聘用人员公开招聘1人(专业学位培养办公室助理)(必考题)模拟卷
- 2021社会保险法知识竞赛试题库及答案
评论
0/150
提交评论