企业数据集成DI平台介绍_第1页
企业数据集成DI平台介绍_第2页
企业数据集成DI平台介绍_第3页
企业数据集成DI平台介绍_第4页
企业数据集成DI平台介绍_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、企业数据集成DI平台介绍企业数据集成平台概述企业数据集成功能特性企业数据集成应用场景目录前言:数据集成的定义数据集成就是把不同来源、格式、特性的数据在逻辑上和物理上有机地集中,从而为企业应用系统提供全面的数据共享。OracleMySQLDB2SybaseXML文件TXT共享库Excel主题库主题库主题库源数据前言:数据集成的定义(续)数据集成的目的:数据统一存储、统一管理、保证数据一致性异构系统之间的数据共享提供统一的数据视图数据集成是IT系统整合的首要任务,是信息整合的基础通常采用的数据集成方式有:联邦式、基于中间件模型和数据中心、数据仓库服务集成流程集成界面集成数据集成应用系统整合前言:当

2、前企业数据集成中遇到的困扰55 快速构建流程应用企业级性能稳定性敏捷响应流程优化调整应用系统的管控图形化、脚本化的数据处理模型实现异构数据源的数据处理数据集成平台易学易用二次扩展开发能力1 快速构建数据处理模型:对海量数据处理能力的需求不断增加每天要执行上千个job,每个job要处理上千万条数据如何应对未知的数据异常。3 企业级性能稳定性:模型监控管理模型调度管理自定义作业管理作业自动化处理系统管理4 数据处理模型的管控:业务变化与调整导致数据结构不断变化传统的手工编码或存储过程已经无法满足快速变化的需求2 敏捷响应数据结构优化调整:企业数据集成平台概述企业数据集成功能特性企业数据集成应用场景

3、目录企业数据集成平台(DI)的定位与目标7基于元数据驱动的数据集成平台丰富的数据处理模式以及数据转换功能灵活的二次开发接口,适应各种数据结构支持各种关系数据库、空间数据库、半结构化数据、非结构化数据强大的ETL管控与统一的作业调度与监控平台可作为第三方ETL工具的有效补充打造企业级数据交换平台提供统一的调度管理与监控平台自动化作业生成平台,提高开发效率和质量产品功能定位产品目标企业数据集成平台(DI)功能架构DI Studio模型设计工具调度设计工具调试工具性能监控工具Metadata WarehouseDI Server业务模型引擎任务调度引擎元数据引擎消息构建元数据解析集群部署元数据查找流

4、向控制模型导入异常机制模型导出分布式处理引擎DI Component Library全量抽取定时服务通知服务邮件服务文件验证逻辑判断FTP服务文件比较SQL执行增量抽取文本抽取批量装载选择性装载JavaScript数据合并数据映射数据拆分数据排序数据分类数据过滤DI Governor模型监控管理模型调度管理模型部署管理作业自动化系统管理作业管理企业数据集成平台(DI)部署结构DBDBXML文件ExcelDI Server1/JVMDI Server2/JVMDI Server3/JVMDI Studio/JVMDI Governor/J2EEDI Metadata Warehouse/DB数据

5、中心数据源DI Server ClusterDI功能组成-可视化设计界面(Studio)可视化设计界面(Studio)提供了数据模型设计、任务调度设计、运行监控管理等一体化的集成开发环境10DI功能组成-组件库组件库是DI产品的功能组件仓库,产品预制了几十种数据抽取、转换、装载的常用组件以及任务调度组件,提供了企业数据整合中的常用功能业务模型组件集:对数据本身进行操作的组件集合任务调度组件集:对设计好的数据流程进行管理调度的组件集数据抽取组件数据转换组件数据装载组件DI功能组成-服务引擎(Server)服务引擎不依赖任何J2EE应用服务器,独立部署在JVM之上包括业务模型引擎、任务调度引擎、元

6、数据引擎以及分布式处理引擎它是模型文件解析以及数据处理模型运行的平台JAVA(JVM)DI Server业务模型引擎任务调度引擎元数据引擎分布式处理引擎DI功能组成-元数据仓库(Metadata Warehouse)DI Server1/JVMDI Studio/JVMMetadataWarehouse(DB)基于关系型数据库用于存储数据处理流程信息(数据源、转换规格、路由条件等)元数据建模上传元数据解析构建流程实例执行企业数据集成平台功能组成-调度与管理调度与管理是一个ETL管控及实施工艺促进平台,不但可以调度PrimetonDI提供的ETL工具,更可以调度其他第三方ETL工具,如:Data

7、stage、Powercenter等调度与管理提供了一个统一的作业调度和监控平台,可调度多类作业,结合DIServer打造完整的企业数据整合平台;于此同时,产品提供了自动化作业生成工具,可以结合DI引擎,快速配置出高效的ETL处理模型调度与管理:模型监控管理15提供作业流和作业总体监控、作业流和作业的执行日志。在作业流总体监控中,可执行启动、停止、断点续跑和重置状态等作业流干预动作。 调度与管理:模型调度管理16通过配置作业执行频率,供计划调度使用,频度可供多个调度计划重用;配置日期进行模型调度 ;模型运行状态消息发送。VIP通道优先级发送的内容可以筛选允许带上附件发送方式可以是集中发送,也可

8、以逐个作业发送调度与管理:作业自动化作业自动化的意义实施工艺规范化 规范了实施技术体系,有利于提高工作效率、控制风险和降低成本提供了灵活简便的需求管理,使得需求管理更加规范化高效的开发过程 自动生成ETL Job,提高开发效率支持Oracle、DB2、SQL Server等主流数据库支持DataStage等第三方ETL工具,实现脚本自动生成高质量的程序代码内置了脚本生成模板,使脚本更加规范化,提高开发效率,提升开发质量17作业自动化:数据结构管理18从其他系统导入Mapping管理需要用到的数据库表和字段信息,支持从已有数据库、Excel文件和元数据系统导入结构信息。 可以同步数据库表中的字段

9、展现可用数据源作业自动化:映射定义19映射定义用户定义作业的映射管理,支持通过Excel制作好后映射后导入和通过系统图形拖拉方式管理。 也支持导出Excel格式映射定义。映射类型:注释项,不影响自动化程序生成。作业自动化:生成DI作业20作业自动化:生成存储过程21将映射定义生成存储过程脚本,支持Oracle、SQLServer和DB2数据库。源数据用户:填写存储过程连接源用到的用户目标数据用户: 填写连接目标数据使用的用户日志数据用户: 存储过程执行日志的用户 临时用户: 存储过程写临时表需要的用户历史表开始(结束)字段名称:拉链表A3、I3、D3、C3需要填写历史拉链表开始和结束日期字段名

10、称作业自动化:生成DataStage作业22将映射定义生成DataStageJob,生成程序的方式,目前支持:生成XML文件,生成并编译JOB 调度与监控:系统管理资源监控与负载均衡对系统内的服务器和逻辑资源进行资源监控 对系统内的相关服务器和逻辑资源,包括管理服务器、调度服务器、代理服务器,包括物理服务器的CPU、内存、硬盘空间使用情况进行监控;对上述逻辑服务器的连接性情况进行监控可视化的监控界面直观清晰,易于运维人员及时发现故障服务器,并及时排除错误,保证系统的正常运行阀值设置 对运行中的相关指标值进行阀值设置:如高位警戒值、低位警戒值、监控数据采集频度(时间间隔)、代理状态采集频度、HT

11、TP连接超时时间、监控历史保存时间通过这些设置可使监控界面色彩丰富,在某些数值到达临界值时,起到提醒运维管理员关注的作用负载加权算法 可以自定义加权算法区别作业对CPU优先和内存优先系统依据加权负载值对作业进行均衡负载,在代理服务器上分担作业的运行,从而最大限度的保障系统的可靠运行23阀值设置系统管理:资源监控24内存占用超限连接失败,可能是此资源已掉线系统管理:配置25系统管理:作业导入导出26企业数据集成平台概述企业数据集成功能特性企业数据集成应用场景目录功能特性-基于数据流的并行处理模型基于数据流的数据处理模型,最大程度的发挥各步骤的处理能力;同时支持多实例并行执行DI ServerIn

12、stanceInstanceStreamStreamStreamStreamStreamStreamStreamStreamRunningRunningRunningRunningRunningRunningRunningRunningRunning功能特性-基于元数据驱动技术元数据数据源信息、连接池信息、表结构、字段属性等业务元数据转换规则、映射规则、合并规则、业务处理脚本等技术元数据与业务元数据的统一存储保证了ETL流程的可配置、可管理、可优化,同时便于明确业务数据的具体来源元数据存储流程实例功能特性-多种异构数据源支持关系数据库Oracle、MS SQL 、MySQL、DB2、Sybas

13、e空间数据库ArcGIS半结构化数据XML、Excel非结构化数据TXT、DOC、PDF功能特性-增量数据抽取以及数据装载基于触发器的增量数据抽取优点:可靠性强缺点:对源系统有侵入性,需要建立触发器基于时间戳的增量数据抽取优点:速度快,ETL流程简单缺点:源系统没有时间戳字段的时候需要更改表结构基于日志文件的增量数据抽取优点:可靠性强、对源系统没有影响缺点:受数据库制约,例如Oracle数据库的增量数据日志文件只有Oracle的ETL工具可以读取基于全文比对的增量数据抽取优点:对源系统没有影响缺点:面对海量数据时有一定的性能问题有条件的数据装载可根据某字段的值有选择的进行新增、删除、修改操作数

14、据同步:基于全文比对通过DI 引擎获取某一时刻源数据库与目标数据库的数据快照,然后逐一进行对比,找出新增、删除、修改的数据后进行相应操作。32数据同步:基于触发器与时间戳基于触发器在这种方式下需要在业务数据库中针对增、删、改三种操作建立触发器,并由触发器将变化的数据写入临时表中,最后由DI从临时表中读取数据,实现增量数据抽取基于时间戳这种方式是使用数据库本身的日志系统,由DI读取并解析数据库的日志文件,然后在目标数据库中进行相应操作。33功能特性-数据转换1、对数据按照某一标识进行拆分2、根据字段值的不同进行数据映射;3、对一份数据按照不同类型进行分组4、针对源数据库与目标数据库的字段名称不同

15、进行字段映射5、将两份数据合并成一份6、将一份数据按照某一列的值进行排序7、指定一个逻辑条件进行数据的过滤8、对数据中涉及到的数值记录进行数学计算9、对两份数据进行全文比对,找出其中的异同10、现有组件无法满足的需求可以借助JavaScript组件自定义处理,同时可以集成JAVA逻辑代码功能特性:基于DI实现两种ETL架构同步ETL架构异步ETL架构35SourceTargetDI ServerSourceTargetDI ServerDI Server网络传输(P2P、FTP、Socket、JMS)DI产品的突出 特色:ETL模型设计与运行提供图形化设计界面,简单易用丰富的组建库,可应对复杂

16、的数据整合要求提供可视化监控工具,可实时监控到数据变换的情况跨平台和丰富的数据源支持底层采用数据流的方式进行数据交换,多引擎并行处理,在大负荷的数据整合中仍然有良好的性能 以元数据驱动为核心,对技术层面和业务层面的元数据进行统一存储提供了JAVA、JS、XML等多种扩展机制,可自定义实现复杂数据转换模型36DI产品的突出 特色:ETL调度与管理开放的调度引擎,丰富的作业类型调度引擎与作业引擎分离,扩展非常灵活。支持作业集中调度或者作业分组调度,调度引擎支持FailOver。支持负载均衡、作业优先级分配及VIP通道支持作业参数及参数传递灵活的翻牌支持,包括单个作业/作业流翻牌,一组作业翻牌,定时

17、翻牌和整体翻牌灵活的调度配置计划任务:日历+频度+时间窗+作业+消息设置触发方式:计划、事件、作业依赖、前后置处理、手工触发良好的运维体验Web界面,图形+表格更直观强大实用的特色功能内置数据质量检核组件,形成事前、事中、事后的质量管理体系提供资源监控、自定义内容监控和作业运行性能分析灵活的权限管理和资源安全机制支持作业自动化,根据源、目标的Mapping关系,自动生成作业37PrimetonDI的产品价值38功能强大的ETL处理引擎更简易的查错流程灵活的调度监控Job自动化及代码规范多种异构数据源的支持丰富的数据处理组件企业级的高性能数据处理能力支持多种数据处理模式 提供计划、事件、手工触发机制 Web监控界面,运行干预直接 简单,可监控系统资源 可调度Datastage、Shell、 存储过程等多类作业/作业流监控界面按对象粒度从大到小,从作业流、作业、返回值、错误以及历史日志逐级查找出错原因 根据源、目标映射关系直 接生成Job 统一代码规范,优化代码 质量PrimetonDI企业数据集成平台概述企业数据集成功能特性企业数据集成应用场景目录ETL处理使用PrimetonDI构建数据仓库应用OracleMySQLDB2SybaseXML文件TXTExcelData SourcePr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论