OracleSOA主数据管理解决方案_第1页
OracleSOA主数据管理解决方案_第2页
OracleSOA主数据管理解决方案_第3页
OracleSOA主数据管理解决方案_第4页
OracleSOA主数据管理解决方案_第5页
免费预览已结束,剩余46页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实用文档Oracle技术解决方案ORACLe目录1. 概述 41.1 背景 41.1.1 南方电网“十一五”信息化现状 41.1.2 南方电网“十二五”信息化定位 错误!未定义书签。1.2 项目建设目标 错误!未定义书签。1.3 项目建设范围 错误!未定义书签。1.4 项目建设内容 错误!未定义书签。1.5 需求分析 错误!未定义书签。2. Oracle 主数据管理方案 42.1 Oracle 主数据管理设计 72.1.1 Oracle 主数据管理总体架构设计 72.1.2 主数据方案设计 152.1.3 交换数据方案设计 192.1.4 数据交换系统功能设计 213. Oracle 主数据管

2、理设计产品介绍 373.1 Oracle BPM Suite(业务流程)373.1.1 BPM 方案总体架构 373.1.2 闭环的 Oracle BPM 解决方案 383.1.2.1 业务流程分析 BPA阶段 393.1.2.2 业务流程执行 BPE与业务流程监视 BAM阶段413.1.3 Oracle BPM 平台中主要模块介绍 423.1.3.1Oracle BPM 服务器 433.1.3.2Oracle 业务规则 433.1.3.3Oracle 流程建模与模拟工具 453.1.3.4Oracle 元数据资料库 453.1.4 Oracle BPM 解决方案的优势 463.2 Oracl

3、e SOA Suite应用集成)473.2.1 价值主张 473.2.2 创建服务 473.2.3 服务连通与转换 473.2.4 流程编排和整合 483.2.5 服务发布与注册 493.2.6 服务的安全管理 503.2.7 用户身份管理 513.2.8 SOA平台的系统管理 513.3 Oracle Data Integrator( 批量数据抽取) 553.3.1 产品概述 553.3.2 ODI 产品体系结构 563.3.3 数据分发和传输 573.3.4 数据集成核心 593.3.5 数据质量核心 593.3.6 数据连接 613.3.7 ODI 主要优势 623.4 GoldenGa

4、te(实时数据同步方案)623.4.1 高可用和容灾解决方案 633.4.2 实时数据整合解决方案 633.4.3 复制模式 643.4.4 关键特性 663.4.5 应用方式 684. 软件配置及部署方案 694.1 软件配置及硬件推荐 694.2 部署架构图 71实用文档1. 概述1.1 背 景1.1.1 南方电网“十一五”信息化现状Oracle 主数据管理方案南方电网的数据质量管理必须有一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。( 1)数据标准管理数据标准包括各业务域的数据集标准、数据模型标准及信息分类编码标准。这些标准用于指导各业务系统建

5、设与实施。在标准管理上,数据资源管理工具应能有效管控标准的变更与执行。尤其是“十二五”期间,如何管理网省两级、省级集中的业务系统的统一版本问题是关键。( 2)主数据管理通过企业范围内的统一视图,即ECIM 模型,实现主数据管理,促进业务系统的数据集成与共享。主数据管理需要解决主数据的定义、标识、存储、汇集、清洗、监管与共享。主数据可以为业务系统或数据中心服务。( 3)数据质量管理数据管理的最终的目标是为了提升系统数据质量。在主数据的清洗阶段,通过数据质量管理工作,对数据进行解析、标准化、匹配&去重、补充及验证建立可靠的数据。对于核心结构化数据在加载到数据中心时也进行相似的工作,提高决策

6、支持水平。南方电网的主数据管理系统从IT 建设的角度而言都会是一个相对复杂的系统,往往会和企业数据仓库/ 决策支持系统以及企业内的各个业务系统发生关系,技术实现上也会涉及到ETL、流程、SOA企业服务总线等多个方面,一个典型的主数据管理的信息流为:? 某个业务系统触发对企业主数据的改动;? 主数据管理系统将整合之后完整、准确的主数据分发给所有有关的应用系统;? 主数据管理系统为业务系统和决策支持以及数据仓库系统提供准确的数据源。因此对于南方电网数据质量管理的建设,必须从项目建设初期就考虑整体的平台框架和技术实现。Oracle主数据管理(Master Data Management , MDM是

7、当前业界最完整的是一种集成的、完整的企业主数据(企业业务运行和商务分析所依赖的关键性基础数据)管理平台,具有企业级主数据存储、主数据整合、主数据清洗、主数据监管以及主数据共享等五大功能,可全面连接企业数据内容(广泛使用和在部门间共享的数据)和实现企业范围内的主数据统一、完整和一致。作为企业的真实数据来源,Oracle主数据管理(MDM严台通过数据治理服务以及对周边应用系统的集成和对商务智能系统的支持,来统一管理企业内重要的基础数据信息, 可以整合并维护企业范围的全面、准确且权威的主数据,并将这些主数据信息作为共享服务分发到所需的业务和分析系统。Oracle 主数据管理解决方案具有以下特性:?

8、保证数据的唯一性和准确性:有效整理和集中分散在关键企业流程和应用软件中的数据片断,通过一系列匹配、整合和清洗规则使之形成单一真实数据源,并提供基于工作流的数据监管流程来实现持续的数据质量维护。最后将统一的数据资产作为Web服务提供给周边的业务系统,实现企业范围的主数据协同;? 有效降低数据管理成本:提供统一的资源库来集中管理企业重要的数据资产,并能将对这些数据资产的访问以服务的方式提供给周边应用系统,实时地提供访问主数据的WE国艮务,包括匹配、申请全部信息以及申请所需信息等;? 实现更好的报表:准确、有效的数据是准确、有效的报表的基础,Oracle MDMT以将清洗、排重、整理之后的准确数据提

9、供给企业的商务分析系统,得到更加准确的决策支持;? 提供企业系统架构灵活性和创新性的基础:维护持续的、唯一而准确的主数据资产,能够在不断变化的业务环境中增强IT 弹性,满足爆炸式数据增长的需求。实用文档Oracle主数据管理能支持以下六大功能:A力蕾第与二/ &工工引用台产的逆录订留受受曾锂Zft*士 一工踹我才产. 城维美可T一的33ShareI ' -I- J? 指定每个特定主数据域的业务职责,例如,产品、客户、供应商和组织结构。? 严格履行职责可保证接入共享资源的系统始终保持高质量主数据。? 提取分散在各个应用系统中的主数据集中到主数据存储库,主数据存储库一般采用二维数据

10、库存储主数据。? 根据企业业务规则和企业数据质量标准对收集到的主数据进行加工清理,从而形成 符合企业需求的主数据。? 制定主数据变更的流程审批机制,从而保证主数据修改的一致性和稳定性。? 实现各个数据利用系统与主数据存储库的数据同步,从而保证每个系统使用的主数据相同。)随着IT系统的建设,主数据的修改动作必然从现有分散的各个系统转移到主数据存储 库集中进行,因此必须保证当前主数据管理系统的灵活性,方便修改、监控、更新关联 系统主数据的变化。Oracle主数据管理在企业范围内主数据协同方面完善了一套端到端的模式可满足客户不同的实施需要,即“推动模式”和“拉动模式”, 前者通过前端独立应用软件 (

11、包 括Oracle应用系统、企业自主开发以及第三方软件) 的主数据改动,经过Oracle应用 集成架构自动且快速地同步到 Oracle MDM主数据平台,可实现企业范围内的全面数据整合,而后者则是由主数据平台主动对前端应用软件进行实时的访问,获取新增、更改和补充数据,并经过 Oracle 应用集成架构和内部数据规则实现标准化,从而最终在主 数据平台实现唯一准确地共享数据。2.1 Oracle主数据管理设计2.1.1 Oracle主数据管理总体架构设计营梢管理财务管理 协同办公资产管理综合管理人力资源管理面向E0A的集成服务业务流程管理(即心企业那完总战伽5周II II II财鼻管呷I 1 悔产

12、管牌 稹撵阵批地数据集成©DI、GoldenGate)I数据 中心Oracle主数据管理的主要功能可归结为以下六大功能:? 主数据存储?主数据整合与连接?主数据质量管理?主数据管理监控? 主数据共享安全可靠的平台实用文档主数据存储? 一个具有无限可扩展性的内置、灵活(随时间变化)的开放数据模型可维护南方电网主数据和所有需要的属性(结构化和非结构化的)、相关实体、分类和关系;? 可跟踪主数据属性、审计跟踪信息和历史主数据剖析的来源主要用于存储整合后主数据,将各系统的需求信息概括形成一条完整的记录并进行存储供应,提供一个完整的数据模型。主数据的不同部分分布在不同的业务系统中,比如一个ca

13、llcenter 系统需要保存客户的所有联系信息,但是一个计费系统可能只需要保留客户的与计费相关的信息,如何将客户信息形成一条完整的记录并进行存储供应,当然是需要概括所有这些系统的需求,提供一个完整的数据模型。数据整合与连接? 领先的嵌入式数据质量管理工具及与第三方数据源的集成,用于验证和充实数据? 可保持数据最新的持续数据清理功能集? 快速安全的参数化搜索引擎,能识别和避免重复数据? 智能合并和自动合并功能,消除数据重复,同时确保正确的数据属性排除? 利用与外部内容提供商的预建集成来充实主数据内容? 包括主数据生命周期管理工作流主数据分散在不同的业务系统中,要进行数据整合,第一步是实现这些异

14、构系统的互联互通,然后通过一定的触发机制将各个系统针对主数据的修改同步到主数据存储库。但是在实施数据集成的过程中,由于不同系统提供的数据内容、数据格式和数据质量千差万别,甚至会遇到数据格式不能转换或数据转换格式后丢失信息等问题,将会严重阻碍数据在各部门和各应用系统中的流动与共享。因此, 如何对数据进行有效的集成管理是数据共享中心建设的一个关键难点。ETL是实现数据集成的主要技术。ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1) 数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的

15、数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3) 数据加载:将转换后的数据装载到目的数据源。ETL实用文档过程中的主要环节就是数据抽取、数据转换和加工、数据装载。Master1 M»1 rsvQ>BniRii w ,wxftm In HAHi 3:1m ” itOpen fri New VMrrdow",1 Ed* Memo 内Enterprise Service BusCerere DDLCRM3CMLegacyERPOracle的主数据整合管理 ET匪于ODI来实现,使用OD设计和生成典型格式;利用已有 的元数据格式设计 MDM应用(实体,字段,关系

16、);生成和维护主数据结构;生成和部署转 换。主数据质量管理? 为每个主数据实体创建通用ID并构建针对每个所连接记录 /系统对的交叉引用? 一个数据导入工作台和用户界面,以帮助数据管理员管理源系统的映射和数据加载 及主数据剖析? 使用预建、符合标准的业务服务和适配器实现集成? 使用可配置的属性“排除”规则,根据多个数据源创建单一的记录? 利用基础服务框架的数据联合功能主数据维护着企业里该种类型数据的最值得信任的数据,所以使用质量管理技术来保证这些数据的准确是主数据管理里非常重要的一环。使用行业&云司标港自动产工和确认匹配引擎使用定制的引擎运行人 量搜索识别重豆井预防重复发 生i在主从目录

17、中进行分类数据标准化抽取相机酒化局性bde数据,皿工作流W,通逑条目号和描述生成规则进行敢据规格什在所号数据入口点请求用.尸自定义确U;书且处理合并条目纪录以防止 在产晶数据存储中产 生重复rator里工具-一感炎执行期条目定义 和审批潦程2,心品变化持优*乃除不酬要的已 尿彳覆小M据量条日清晰1 .数据清洗:数据清洗是对数据进行校验和标准化,比如地址邮编是否存在等等。2 .数据匹配:数据匹配是找出有可能重复的记录。比如 MDM系统里有两个阈值是用于控 制数据匹配的流程,第一个阈值是高分阈值,对于数据匹配分值高于高分阈值的记录将会使用数据存活规则进行自动合并; 第二个阈值是中分阈值, 数据匹配

18、得分在高分阈值和中分 阈值之间的记录将会进入人工判断工作流,由管理员或者其他指定的人决定合并还是作为新记录。低于中分阈值的记录都将会被作为新记录。数据存活规则(Survivorship rules)一般而言,企业里的主数据来源于企业里的各个系统,当不同系统的同一个属性值有不同的值的时候,就需要决定哪一个系统的值是准确的。 数据存活规则指定各种规则来决定新的数据进入到主数据库或者当新数据和旧有主数据冲突的时候的处理方法。数据存活规则主要有三种:? Recent规则:当相同的数据进入主数据系统的时候,以后来的数据为准,后来数据替换原来的数据。比如 contact (联系人)信息,缺省是以后来的更新

19、为主。? History规则:当相同的数据进入主数据系统的时候,以原来的数据为准,不接受后 来数据的更新。? Source规则:当相同的数据进入主数据系统的时候,以数据来源系统的可信度为作 为使用哪个数据最后存活的规则。比如当源系统有A, B, C三个系统的时候,我们需要在主数 据管理系统里注册这三个系统的时候,同时给这些源系统评分,则当 使用source规则的时候,则以后的数据将以评分高的系统为准。比如有三个系 统,CRM财务,物流,对于客户信息而言,我们认为 CRM系统里的客户信息应该是最准的,我们应该给于 CRM系统较高的分值,则这个时候对于客户数据我们将使用Source规则,则以后所有

20、的 CRM系统相应客户的更新会覆盖原来不是CRM系统的更新。3 .数据质量管理流程数据质量的大致控制流程, 即当记录进入主数据系统时, 先会在主数据系统里寻找可能匹配的记录,如果结果认为是不匹配,则将进入处理不匹配流程来增加一条新记录;如果是分值足够高,则进入自动匹配流程把该记录和原有记录进行数据存活规则处理并合并记录;如果是分值不足够高,则需要人工来决定该记录是新记录还是需要和原有记录合并。主数据管理监控丰富的最终用户交曳a.具定怕白忖忖(ft71油ftl门户 MS Crffic*-、I柞列.叁Q流也编出器24? 最佳的工作流功能(例如针对南方电网主数据定义和审批路由的可配置工作流)响应整个

21、主数据管理生命周期事件;oracle BPEL规范制定自动化业务处理流程,支持用户自定义变更类型?确保坚如磐石的安全性和法规遵守证明的完整历史和审计跟踪? 纳税人数据认证,支持机构创建数据质量标准,遵守这些标准并提升用户对数据的信心? 商务智能基础架构,支持剖析、法规遵守和业务绩效指标实用文档? 自动化、人工流程,提供良好的用户界面UI ,多种通知方式? 自动化、人工的审核和批准,逐级审批? 易于多组织的协同工作主数据发布和共享? 面向终端用户和数据管理员的直观GUI, 管理主数据的整个生命周期 从创建或导入主数据信息到清理、匹配、增强和发布。使用预建的流程使南方电网更轻松地管 理主数据? 对

22、所有集成模式 实时(紧耦合和松耦合)、近实时(松耦合)和批量 的严格的多模型支持? 提供作为业务服务和Web 服务的常用功能? 一个内部触发的机制,创建变更信息并向所有相连系统部署? 为所有的管理软件和分析系统提供主数据记录和所选属性? 在面向服务的架构(SOA开口/或消息传递总线上的运营管理软件和数据仓库双向交互? 通过 Oracle 应用集成架构(AIA) 流程集成包(PIP) 预建的集成? 与Oracle商务智能企业版 (OBI EE)预建的集成为了实现主数据共享,首先全网应该各个分散的业务系统连接起来,实现各个业务系统与主数据存储的互联互通,目前的南网主数据管理解决方案主要采用两种方式

23、来实现:基于ETL工具的方式和基于SOA体系架构的方式。1 . 基于 ODI 的方式MetadataManagementWDMApplicationsChange Da CaptureData WarehouseData MartsBusinessIntelligence基于ODI这样的ETL工具设计的架构更适合全网业务系统中的非实时数据量大的主数据共享发布。如上图所示,采用基于ODI的ETL工具具有连接各种异构数据源和变化捕捉的能力,采用它来实现MDM中异构系统的数据触发、整合和发布应该是顺理成章的事情,当某个主数据的源发生变化时,ETL的CDC段化数据捕捉)功能就会捕获到变化,进而将变化的

24、数据传输到主数据管理系统的临时存储区,然后ETL工具根据定义的数据转化规则对数据进行清洗转化,形成主数据,进而ETL调用审批监管流程,一旦获得审批,ETL即可将主数据同步到主数据存储系统,同时分发给各个订阅该主数据的业务系统。同时ODI可以支撑流程的设计、运行、监控,否则 ETL工具必须可以调用其它的工作流引擎,ODI可以实现与SOA的无缝集成,既可以将数据或者转化封装为Web Service服务,也可以调用外部的 Web Service服务。2 .基于SOA架构的方式:在该方案更适合实时的数据量小的主数据共享发布,采用OSB (企业服务总线)技术构建应用集成平台,采用 web service

25、方式实现在多个系统间应用集成和互联互通。应用集成平台是数据采集、数据交换及服务提供能力的直接承载。数据的收集和分发采用各种应用和适配器实现,各种应用适配器一般提供变化数据的的轮询或者推送功能。监控管理可以采用SOA中的工作流引擎来实现,同时 SOA中的流程监控系统可以对整个主数据的收集、转化、审批分发提供端到端的监控。采用SOA技术设计的主数据管理架构基于J2EE的开放架构,会非常灵活,同时便于和其它系统集成,系统的扩展性比较好,其问题在于如果主数据同步的量非常大,效率会有一定问题。安全可靠的平台? 基于标准的开放平台? 多语言和多国家支持? 经验证的平台,全球各行业(包括公共部门)数千客户的

26、选择? 面向混合的重工作负载一一Oracle拥有巨大数目的客户一一下关键数据访问的高度可用和可伸缩的平台。? 安全特性包括全面且灵活的认证、全面的审计和监控以及所有架构级别的加密。Oracle已经获得了 17项独立安全性评估的担保,确立了Oracle在该领域的领导地位。这些评彳包括tcsec ITSEG FIP褥口各种通用标准评估。实用文档2.1.2 主数据方案设计主数据管理的核心是数据整合、数据管控和数据服务。在横跨这三个层次需要进行数据安全管理、质量管理和元数据管理。下面分别进行介绍:数据整合: 数据整合就是将离散于各个业务系统中的数据进行集中化,统一整合集成至数据中心。数据整合将通过ET

27、L工具实现数据的抽取、转换和加载等功能。数据管控: 主要包含数据中心物理模型、逻辑模型的设计,数据的维护管理以及存储管理等管控功能。数据服务管控: 数据服务管控主要是对采集至数据中心的数据进行数据交换和管控,主要包括数据交换服务设计,数据总线交换共享,以及数据交换管理等功能。元数据管理:元数据管理是整个数据共享中心中基础信息的管理,包才ETL元数据、接口元数据、模型元数据和数据服务元数据等的管理功能。质量管理: 在数据管理的不同阶段,数据管理对数据质量管理的侧重点也有所不同。数据质量管理的目标,逐步从单纯地提高数据准确性,延伸至保障数据的完整性、唯一性、合法性、 一致性、及时性等属性;从单纯以

28、技术角度考虑数据质量问题,发展至从用户视角衡量数据质量问题,提高用户对数据的满意度;建立数据质量监控机制,及时发现、报告、处理数据共享中心中的数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系的重要组成部分。安全管理:主要包括数据存储安全、数据管控安全和数据交换等安全管理。主数据方案设计原则主数据方案设计,遵循以下一般原则:? 每类业务数据实体的属性有且仅有一个所有者(Owner ) ,零个或多个消费者( Consumer) ;? 对数据的维护必须通过所有者进行,消费者对数据只有只读功能;如果消费者需要对数据进行维护,必须调用所有者数据维护服务;? 数据有且仅有一个主数据源(Ma

29、ster Location ) ,主数据源可以是数据所有者的应用数据库(ADB )或者数据中心数据库。基于性能的考虑,消费者可以在ADB 保存数据的备份,由主数据源实时或定时发起数据同步;? 主数据源提供相应的数据存储和数据服务;主数据集成方案设计根据主数据源位置(Location)、数据冗余方式( Redundant)和数据维护的归属(Owner), 一般的主数据集成方案分析如下表:力杀123456主数据源数据中心数据中心数据中心数据中心ADBADBOwner数据中心数据中心ADBADBADBADBConsumer是否有备份YNYNYN数 据 维 护 方 式Owner 读直接读Owner A

30、DB 中的数据 备份同1调用数据 中心数据 访问服务调用数据 中心数据 访问服务直接读Owner ADB直接读Owner ADBOwner 写Step 1、在 一个交易 内写Owner AD* 口数据 中心;Step 2、通 过数据中 心启动对Consumer ADB的数据 同步在一个交 易 内 写Owner ADB 和数据中 心Step 1、 调用数据 中心数据 维护服 务;Step 2、 通过数据 中心启动 对Consumer ADB的数 据同步调用数据 中心数据 维护服务Step 1、写 Owner ADBStep 2、通 过数据中 心或主数 据源启动 对Consumer ADB的数 据

31、同步写 OwnerADBConsumer读直接读 Consumer ADB中的数 据备份调用数据 中心数据 访问服务直接读Consumer ADB中的 数据备份调用数据 中心数据 访问服务直接读Consumer ADB中的 数据备份通过数据 中心的统 一视图获 取数据;Optionl :在一个交 易内,Consumer 调用OwnerOptionl : Consumer 调用Owner 的数据维 护服务;同1同2同1同2的数据维Option2 :护服务,同集成Owner时写的数据维ConsumerADB Option2 : 集成Owner 的数据维 护界面,由护界囿数据中心启动同步Consum

32、erConsumer写ADB卜面就各个方案进行分析,对于方案1和方案2:柒成方案3集成方案1轲点里卡有情多点春鹏.兰芝逞丰心负力弛再2遑手Owner啦嘱寺心蚊指丰心Master题羯*心蚊落中心迷童指集中到蚊插中心平台中.其它系或不 声事与.*亘系统对我F的通胃会梆敢到 赞赠中心平告上/熬喑弟联优.对主意再殳1里看后更三芸过薨 捎中心生分.月之虻掘丰心斐息时影加建却步箜酸立果 郭福共累克.事指W业票交不唯才紫,碧殳书里看.优点退过嵬势竺本手蒙立宜有毒蓬皆拄时M啮 上一空壬旦江=.龙蓑盍的更至房=皆挖,虢M不洋的整旬数强的展直.献点费据中心平台压力限大.风凄慑高.箕之 豪更鼓过重号大源案蜕处事一定

33、的唆连星.需屏iE箕它系篁时逮登表1的惨敌:效情中匕平叁端薪总对运至救窟的学理之费这两种方案主要适用于尚无任何系统时,进行一体化系统建设,如应用于已有系统则改造量较大。同时,这两种方案均以数据中心做为主数据的维护中心。对于方案3、4和方案5、6:数据中心日旧群数据中心_(箓方粼方案5、6较适合已有大量系统的情况, 带来的系统改造量最小。 方案3、4适合在主数据维护职能不变的情况下将主数据在数据中心中进行集中,并提供给新建应用。主数据实施方案设计 1、主数据创建抽取设计主数据创建抽取过程如下:其一、先对现有业务系统进行解耦,解决目前各业务系统间交叉访问,耦合度过高的问题。通过建设共享数据库, 并

34、将目前南方电网各系统交叉访问的共享数据通过数据复制机制 同步或异步复制到共享数据库,然后再更改各业务系统现有的共享视图或物化视图定义,将共享访问数据源统一指向共享数据库。通过共享数据库的建设及数据复制机制的建立,可以将目前网状的交叉访问接口平滑过渡到基于共享数据库的星状接口,有效解决各系统依赖度过高的问题,同时也为下一步各系统的升级改造打下基础。这里的数据复制产品可以考虑Oracle的GoldenGate实时复制产品,先将数据复制到共享数据库,完成“系统解耦”工作。其二、是进行数据共享协同平台的建设。在进行系统解耦时,我们会构建共享数据库,但该共享库仅仅是将当前分散到各业务系统的共享数据进行了

35、集中,还缺乏统一的规划,因此还需要对共享库进行重新规划设计,同时也需要对共享协同平台和外部交换库进行规划设计。总体规划设计完成后,即可开始构建数据共享中心和业务协同平台,其中数据共享中心构建完成后,就可以逐步将各系统间原来基于视图和物化视图的数据共享访问调整为基于数 据共享中心的访问模式。共享库规划生成主数据管理,可以考虑Oracle Data Integrator产品,实现数据 ETL的工作。-集中蛾鼾着即_1_作曲集成正靠It汩乳.检发I麦里管理、物部牌钝上翻附的萧0倒州曲本管理*提供集的Meb服务士措威图性能与入国林安全校制* Exel:;入用出支持-十而审计至韩丈特第二方救据质 I具,

36、反需发送刊质为业 等系统支持寺泰统中瞅器合 井,fl用碓因米致U 源I 1救糊宜串和川主数据存储 I企业里数耨模型*荒一本表横带源库:试活可学数据梅 隼*篁胞敷典格式支持2、主数据共享分发流程设计主数据创建生成后,就是对主数据进行有效管理和利用。同其他系统进行可以进行实时或半实时的同步从多个源系统建立统一、完整的记录,再将主数据信息同步到其他系统中。通过内嵌的集成服务同其他系统进行集成,例如丰富的公共API和业务事件。通过不断的数据清理和转换规则来确保同步数据的质量。主数据管理功能设计主数据的管理功能基本与内部交换数据、外部交换数据相似。2.1.3 交换数据方案设计内部数据、外部数据在数据交换

37、上的业务功能和逻辑, 以及技术实现都是相似的,可以 采用相同的数据交换方案框架。数据交换方案框架涵盖了数据交换, 质量清洗,数据管控和 数据使用,解决了如何在核心数据上实现统一的存储,维护和使用的问题。? 数据集成:数据集成就是将离散于各个业务系统中的数据进行集中化,统一整合集成至数据共享中心。数据集成需要对南方电网内部系统以及外部系统进行数据集成。对于不同的数据集成场景, 有不同的数据集成实现模式, 比如有基于Oracle ODI 的“拉”数据集成模式和基于 ESB总线的“推”数据集成模式等。质量管理:在数据管理的不同阶段,数据管理对数据质量管理的侧重点也有所不同。数据质量管理的目标,逐步从

38、单纯地提高数据准确性,延伸至保障数据的完整性、唯一性、合法性、一致性、及时性等属性;从单纯以技术角度考虑数据质量问题,发展至从用户视角衡量数据质量问题,提高用户对数据的满意度;建立数据质量监控机制,及时发现、报告、处理数据共享中心中的数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系的重要组成部分。象相标准化'Extract & 式立nmrdir utlnbut?家嵬打动校验.潘式化 Apply MiHtry &骂也匕;£配合老孙全 Run 栩mnustMrdnesus-ing cufi-tanmxBbis- engine IdemiTy融5 和

39、日pnBuarit fulurE! c4xir renos博;'GliEsrfy m I tern his ser -andA NormaiLiedra睛is tenn and dHcptwi genertni Apply ukdefined “IdSig riJtas st b II daw 印try paints. Merge rt:em to pTEf/errt duplicstes in 口pd向 data epc&Rry*new ciwmdtfinition and opprovsl processes* P radudchange continl图:数据质量管理Da

40、ta Qliairly fools"REnrove unwantsd records tsi red jds da 3b g lu me数据管控:数据管控不是纯粹的技术问题,而是由技术、人、信息和流程 4个方面共同影响的综合管理问题。数据管控的演进思路划分为4个步骤:提出管理需求、制定管理流程框架、细化具体管理流程、与组织机构具体角色进行对应。数据使用:存在于数据共享中心中的数据主要有两大方面的使用,一是封装成数据服务,并集成于业务协同平台(服务总线平台)进行数据服务共享,南方电网信息内部系统和其他外部系统统一通过业务协同平台获取所需业务数据;二是基于数据共享中心的集成化数据进行综合

41、查询分析的应用,查询分析统计功能不再基于核心业务数据库,避免造成对核心业务系统的性能影响。通模式一基于服务首理平台配置生成数加服务图:数据服务共享2.1.4 数据交换系统功能设计基于内部数据交换方案框架, 并结合南方电网数据共享协同平台总体功能需求分析的基础上,梳理出南方电网共享中心的总体功能组织结构如下图所示:/ 狂费片咨L/以下将分别对数据共享中心数据集成域、数据管控域、质量检测域和数据使用域的功能衅使用鹿规划进行详细介绍:数据集成数据集成引擎(Data Integration Engine)面向应用系统,在各个应用系统的数据源中提取数据,是一个跨平台的用于整合异构系统数据的ETL工具,在

42、数据共享中心中,数据集成引擎实现了从各业务应用系统的数据源中提取用于整合共享的数据,经过质量检查后,按新 的数据模型对数据进行转换和清洗,正确无误后加载到目标数据共享中心中。数据集成引擎(Data Integration Engine)目标数据加载(Target Data Loading)数据质量检查(Data Quality Check)批量数据提取(Bulk Data Extract)变化数据捕获(Change Data Capture)元 数 据 模 型数据接口数据转换清洗(Data Transforming & Cleaning)实用文档下面对数据集成引擎中的各个部分的功能进行

43、详细介绍。元数据模型为了可以自动完数据提取、质量检查、数据转换清洗和数据加载这个数据整合过程,数据集成引擎需要知道源数据、目标数据的数据结构,源数据到目标数据的转换及清洗规则,还有源数据的质量检查规则等数据,这些用于描述数据本身的数据被称为数据集成的元数据, 而元数据模型是元数据的一个实例集合,描述了具体的数据结构和规则,在数据进行集成前,必须先定义好元数据模型。具体的元数据包括:1) 数据源定义2) 目标库定义3) 数据物理模型4) 数据检查规则5) 数据转换规则6) 数据清洗规则批量数据提取批量数据提取( Bulk Data Extract) 从数据源定时批量提取数据进行整合,是数据集成引

44、擎的前端功能,与元数据模型中定义的各个数据源进行连接,获取需要整合的数据,然后存储到中间数据库(Staging Database)进行后续的质量检查、清洗和转换处理。批量数据提取因为提取的数据量较多,对于性能的影响也较大,一般用于非实时的数据整合,适用于时效性要求不高并且不希望过多影响源系统数据处理性能的情况。对于关系型数据库的批量数据提取可以使用两种接口方式来进实现:1) ORACLE DB LIN:K这种方式适用于目标数据库和数据源数据库都是Oracle 的情况,直接在目标数据库建立源数据库的DB LINK,通过DB LINK就可以像在一个数据库一样通过SQL直接提取数据源的数据。2) J

45、DBC Data Source:这种方式适合源数据库是非Oracle并且支持JDBO议的数据库,目前大部分主流数据库都支持JDBO议,在JDBO议上建立 Data Source,通过JDBC在源数据库上执行 SQL进行数据提取。使用批量数据提取的方式来提取数据可以用于首次初始化加载全量数据,也可在首次加载数据后通过两种方式实现非实时的增量更新,这两种方式分别是:1) 基于时间戳的增量更新这种方式提取数据速度较快,源数据库通过物理表或者试图的方式暴露数据,但要求数据源的表或者视图必须有时间戳的字段并且不能对数据记录进行物理删除。2) 基于主键比对的增量更新这种方式需要每次都提取全部数据,然后在目

46、标数据库上按主键标识对所有数据进行全量比对来识别增量更新的数据记录,效率低,数据源的压力较大,只适合小数据量的提取,基于主键比对的更新对源数据的表或者视图无特殊要求。变化数据捕获和批量数据提取一样,变化数据捕获( Change Data Capture)同样是数据集成引擎的前端功能,和数据源进行队列;但顾名思义,变化数据捕获只提供增量数据提取的功能,通过对源数据库上变更数据的捕获,数据集成引擎可以实现实时或准实时数据同步,此方式适用于整合有较高时效性要求的数据。变化数据捕获提供多种技术实现方式,包括数据库触发器、数据库日志采集器、基于消息队列的变更数据订阅和基于Web Service的数据变化

47、通知,下面对几种方式进行描述:集成数据引擎主动捕获数据变化的方式:1) 数据库触发器(Database Triggers) :通过在源数据表上创建触发器来获取变化的数据,此方式实时性高,但需要对源数据库进行改动,对高负载应用的性能有一定的影响,此方式支持主流的关系数据库。2) 数据库日志采集器(Log Miner ) :通过对源数据库日志文件进行分析,实时捕获数据库数据的变化情况,此方式速度较快,对源系统不会造成太大的压力,但需要数据库本身的功能进行实现,目前只支持Oracle 和DB2 两种数据库类型。上面两种方式是数据集成引擎主动捕获变化数据,而下面的两种方式则是数据集成引擎被动接收源系统

48、的通知:1) 变更数据订阅(Change Data Subscriber:)通过消息队列技术,变化数据捕获功能在数据源应用提供的基于JMS 标准的消息队列上订阅数据的变化消息,通过监听数据变更队列,实时获得数据源应用放到队列中的数据变化消息,此方式的提取速度快,并且JMS 消息队列提供了消息传输的高可靠性,但实时性取决于数据源应用,并且数据源应用需要开发相应的功能来实现。2) 数据变化通知(Data Change Notification):和变更数据订阅相同的原理,数据变化通知技术是通过暴露数据变化通知的WebService 接口给数据源应用,当数据的变化被数据源应用捕获后,数据源应用调用通

49、知接口把变化的数据传递给数据变化捕获功能,此方式提取速度快,并且可通过ESB 统一暴露服务接口,消息传输可靠性也可以通过ESB 的获得支持(需要ESB 的实现支持此功能) ,但实时性同样取决于数据源应用,需要数据源应用做相应的开发。对比主动和被动捕获的几种实现,主动捕获技术更适用于数据源是关系数据库并且数据变化不需要进行逻辑处理的情况;而当数据源不是关系数据库又或者数据的变化后需要进行逻辑处理,不能直接通过数据库触发器或者日志分析进行判断数据是否发生变化的情况下,则需要改造数据源,使用被动捕获技术来实现。在数据共享中心中,为减少对数据源的影响和改造,建议主要通过数据库触发器和数据库日志采集这两

50、种方式来实现实时/准实时数据提取。数据质量检查在数据集成引擎中的数据质量检查( Data Quality Check ) 功能是数据质量的第一道防火墙, 在数据的来源入口根据元数据模型中设定的数据检查规则对从数据源中提取的最原始数据进行规则验证,当某条数据记录不符合检查规则,会被数据质量检查工具自动标记为问题数据,同时在质量问题表中对引起质量问题的原因和出现问题的数据记录进行记录。数据质量检查功能实现的检查规则类型可分为数据约束检查和业务规则检查,具体如下:(一)数据约束检查:基本数据约束,如:人员名称不能为空唯一性约束,如:? 人员身份证号码不能相同有效引用约束等(二)业务规则检查数据约束检

51、查可通过关系数据库约束实现,而业务规则检查需要执行SQL 查询分析才能完成,而由于数据质量检查功能是在数据整合的过程中执行,只能做到事前控制,并且是使用关系数据库提供的功能进行检查,复杂的数据质量问题检测或者要在多个数据源的数据集成后 (事后控制)才能进行检查的问题则需要在数据质量服务器中的质量检测服务中执行或检测。数据转换清洗数据集成引擎把各个数据源的数据提取后进行了集中存储共享,并建立唯一的数据标准, 使用一致的方式向应用提供数据;实际情况中,集中存储和共享的数据数据模型和数据源的模型大部分情况下都不会完全一致,这就需要在数据源的数据进入到目标数据库前进行转换或被清除掉不需要和无效的数据。

52、数据转换清洗功能根据元数据模型中定义的转换和清洗规则进行数据自动转换清洗。目标数据加载目标数据加载(Target Data Loading)把经过了质量检查、数据转换与清洗后的数据加 载到目标数据库中进行存储。目标数据存储可以是标准的关系型数据库或者数据文件(如XML 、 Excel 等) ,在此方案建议书中使用Oracle 关系数据库作为数据集成的目标数据存储库。质量检测数据质量检测是数据共享中心数据质量控制的核心,负责数据质量问题的检测与收集,当检测到质量问题时,产生相应的事件并进行事件记录与通知,让用户可以快速和直观的了实用文档解到数据产生了质量问题并进行及时处理;对于系统可以按规则设定

53、进行自动修正的质量问题,数据质量管理内置的自动数据修正( Auto Data Correct)功能将自动修正并记录修正日 o数据质量服务器(Data Quality Server)质量监控引擎(Quality Monitor Engine) 事件Lj事件J事件 收集r分析处理质量检测服务|自动数据修正(Quality Check) (Auto Data Correct)数据质量规则引擎(Data Quality Rule Engine)上图中的质量检测服务提供数据质量问题的自动检测功能,通过调用数据质量规则引擎执行预设的规则或者通过定制开发的检测代码,定时扫描检测目标数据库中的数据,当发现问题后如果可以进行自动修正则调用自动数据修正功能进行修正,否则直接通知质量监控引擎,告知产生一个质量问题事件。数据质量规则引擎是自动质量检测和自动数据修正的基础运行引擎,可支持通过规则来设定与实现简单问题的检测和数据修正。质量监控引擎除了收集质量检测服务产生的质量事件,同时也会监控其他模块检测到的质量问题记录(如数据集成引擎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论