数据整合培训.ppt_第1页
数据整合培训.ppt_第2页
数据整合培训.ppt_第3页
数据整合培训.ppt_第4页
数据整合培训.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据整合培训,郑 斌 高级顾问,培训时间安排,主题,数据整合方法论 主流方法简介 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager Director design 基本功能 Datastage高级功能,数据整合方法论,数据整合,成熟的方法论 多年的积累,成熟的经验 以方法论为核心指导原则,统一的标准化方法论 模型标准化 代码统一 数据结构统一 业务术语统一,完善的元数据管理 数据源元数据管理 数据中心元数据管理 应用元数据管理,正确的数据质量评估方法论 数据质量暴露 数据质量评估

2、数据质量对策,主 题,数据整合方法论 主流方法 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager Director design 基本功能 Datastage高级功能,数据整合方法论-主流方法,主流方法简介 先统一再ETL 先抽取再统一,最后进行数据转换和装载,代码、数据结构、业务术语统一,清洗、转换、装载,数据抽取,Integration,T+L,代码、数据结构、业务术语统一,清洗、转换、装载,数据抽取,E,Integration,T+L,E,DB2 II,Datastage/P

3、ower Center,Datastage/ Power Center,Datastage/ Power Center,Datastage/ Power Center,主 题,数据整合方法论 主流方法简介 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager Director design 基本功能 Datastage高级功能,数据整合方法论-设计方法,架构设计,架构设计 流程设计 模块设计,数 据 中 心,数据整合方法论-设计方法,流程设计 流程设计指的是关于数据处理流程的设计,通常

4、有 2种设计思路: 分层设计 分层设计是指将数据处理的流程细分,将共性归类,形成数据处理 的几个层次 按业务流程设计 按业务流程设计是指将数据处理流程与业务流程相对应,即面向业 务流程进行设计,架构设计 流程设计 模块设计,数据整合方法论-设计方法,分层设计图例,数据源,数据原始层,数据转换层,应用数据层,数据整合方法论-设计方法,按业务流程设计图例,车险理赔进度分析,数据直接 从源到目标,数据整合方法论-设计方法,模块设计 模块功能 维度处理 业务数据处理 脏数据处理 数据备份及日志处理 流程处理(流程调度与控制) 历史/增量数据处理 模块复用性 公共业务数据 公共系统参数 公共转换过程 模

5、块处理性能 整合工具调优 转换过程优化 数据库性能调优,架构设计 流程设计 模块设计,数据整合方法论-设计方法,设计注意事项(一) 取数规则、数据转换规则 取数规则的设计要求双方技术人员参与,数据转换规则的 设计除要求双方技术人员参与,还需要业务人员参与。 这2个规则是后续设计的基础,为了避免在后续过程中因 规则改变导致重新修改结构的情况发生,这个步骤应给与足够 的重视。 脏数据处理规则 脏数据即不符合业务逻辑、不适合做业务分析的数据,因 此,在设计过程中应确定脏数据处理的原则,避免系统中存 在的脏数据给分析决策带来误导。,数据整合方法论-设计方法,高质量的数据是指那些符合业务需求的、反应客观

6、事实的数据。衡量数 据质量可在以下几个方面进行:,数据整合方法论-设计方法,设计注意事项(二) 历史数据处理策略 历史数据即系统正式运行前所有的数据,数据量大,处理 逻辑可能与增量的不一样,应该根据实际情况进行设计。 增量数据处理策略 增量数据的确定。增量数据主要根据业务逻辑来确定是否, 通常根据时间戳来确定,但是存在一些特殊的情况,需要通过 日志来判断。 如:某条数据在当天被做了修改,但是时间戳没有改变, 仍然是以前的某个时间,这就只能通过日志或者其他辅助手段 进行判断。 增量数据的处理方法,同历史数据相比,二者的数据不 一定完全相同,因此需要单独考虑。,数据整合方法论-设计方法,设计注意事

7、项(三) 失败、异常的处理策略 由于数据整合过程是一个复杂的数据处理流程,没有好的失败、 异常处理策略会增加维护的难度,同时给维护带来大量的工作。 下图是一个好的监控系统,维护人员可以很方便的看到系统的 执行状态,并及时进行维护。,主 题,数据整合方法论 主流方法简介 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager Director design 基本功能 Datastage高级功能,数据整合方法论-实施方法论,需求分析 报告书,开始,业务需求分析,规则评审,数据源分析,数据处理

8、 规则确定,概要设计,概要设计评审,详细设计 (历史、增量、 失败处理等),详细设计评审,编码,单元功能测试,数据质量测试,数据质量评审,流程测试,性能测试,结束,处理规则 说明书,业务规则,数据源 分析报告,脏数据 处理规则,概要设计 说明书,开发计划,A,详细设计 说明书,测试计划,数据 测试报告,流程 测试报告,性能 测试报告,A,Yes,Yes,No,No,Yes,No,No,Yes,主 题,数据整合方法论 主流方法简介 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager D

9、irector designer 基本功能 Datastage高级功能,Ascential 数据集成解决方案,Ascential Enterprise Integration Suite,Parallel Execution Engine,DISCOVER,Discover data content and structure,PREPARE,Standardize, match, and correct data,TRANSFORM and DELIVER,Transform, enrich, and deliver data,ProfileStage,QualityStage,DataSt

10、age,Meta Data Management,Real-Time Integration Services,Enterprise Connectivity,and Event Management,Complementary To BPM, EAI, and EII Technologies,Open, Service-Oriented Architecture Integrated Data Profiling & Data Quality Advanced Data Transformation and Routing Reusable Components & Rules Unlim

11、ited Performance with Linear Scalability Robust, Intelligent Adapters Anytime, Anywhere Connectivity Industry Standard Compliant (XML, EDI, JMS, JCA) Industry-Ready Integration Solutions,Service-Oriented Architecture,DataStage Deployment Modes,Target (Database or File),ODBC/Native,DataStage Server (

12、WinNT, Win2000 or UNIX),ODBC/Native,Data Sources (Database or File),Data flow,Data flow,DataStage Server,运行 DataStage 作业 底层引擎 采用UniVerse RDBMS 可运行于6种平台 Intel NT, Alpha NT AIX, HP UX, Sun Solaris, Compaq Tru64,DataStage Repository,存储各种定义 Meta data Transformations Stages 存储运行信息 存于 UniVerse RDBMS中 能 im

13、port / export 从/到各种环境,主 题,数据整合方法论 主流方法简介 设计方法论 实施方法论 Ascential Data Integration Solution Datastage组件 Administrator Manager Director design 基本功能 Datastage高级功能,Manager,Designer,Director,4 Components in DataStage,Metadata collection and management,Design Job/ process flow,Run jobs, check logs and set s

14、chedules,Administrator,Config system environment,DataStage Administrator,系统配置 创建Project 系统变量 管理DataStage引擎 清除, 调整 查看设置 License 情况 权限管理,DataStage Manager,管理各种定义 Meta data(元数据) Transformations Stages,Import / Export ODBC 或 API MetaBrokers Microsoft Repository / Sybase WCC ActiveX transformations,Meta data repository,DataStage Direc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论