ODS在金融行业的应用_第1页
ODS在金融行业的应用_第2页
ODS在金融行业的应用_第3页
ODS在金融行业的应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ODS在金融行业的应用ODS项目组什么是ODS?ODS(Operational Data Store)操作型数据存储,对于一些准实时业务数据库当中的数据的暂时存储,支持一些同时关联到历史数据与实时数据分析的数据暂时存储区域。ODS 是一个集成了来自不同操作数据库数据的环境,其目的是为终端用户提供一致的企业数据集成视图。例如,目前中国建设银行内部有很多系统:核心业务系统CCBS、信贷管理系统CMIS、个贷系统PLS、外汇资金系统OPICS、抵债系统DMAMIS、总帐系统GLMIS等等,他们之间的信息有重叠和不一致存在,如客户资料、客户所对应的业务信息等,如何综合应用这些数据,首要任务就是进行数据

2、整合,ODS的特点恰恰可以解决这个问题,而且ODS的出现,也正是因为有了这种需求的存在。中国建设银行ODS采用统一的数据模型,保存全行标准化全量数据、短期(30-60天)的明细/流水数据,屏蔽目标系统对源系统的数据需求,满足DW&MIS、ERP、APMIS、NARMIS、CCMIS等分析系统的数据交换需求。ODS在商业智能中扮演什么角色?金融行业的ODS提供了一个统一的标准数据平台,基于ODS平台的数据交换,为金融行业的数据仓库以及各数据分析系统提供所需的源数据。ODS有如下优势:1.组织机构可以获得他们业务分析和客户交易的完整视图,有利于更好地了解客户和做出统观全局的商业决策。2.O

3、DS能以较高的性能生成操作报告,并实时或近实时地查询产品及服务相关的数据。3.它提供一个平台,可以集中共享不同应用软件系统数据;一种方式是应用软件直接访问ODS中的数据;另一种方式则可从ODS中将数据变化复制到现有系统的数据库中。4.由于部分集成数据已驻留在ODS中,因而ODS可缩短迁移DW所需的时间。5.ODS可帮助集成现有新型系统。上图所示,中国建设银行ODS,通过ETL从CCBS、CMIS、PLS等源系统提取业务、管理数据,并经过标准化处理(公用代码标准化、数据类型标准化、数据格式标准化以及客户信息标准化),建立全行统一的标准化ODS数据模型ODSDB。ODS平台按照需求定期向DW以及其

4、他管理系统ERP、APMIS等提供全量、增量数据;DW对ODS提供的数据进行整合、加工和分析,建立面向主题的、集成的、与时间相关的、不可修改的数据集合,满足建行的企业管理、决策需要。如何实现ODS? 首先,需要建立一个统一的ODS数据模型。这个模型必须涵盖所有需要整合应用系统内的信息,该数据模型一般不需要保留历史信息,只需要保留当前的信息(而DW中需要保存每一个修改的历史记录)。例如,目前建行ODS整合了11个源系统的信息,ODS模型保存了全行当前的全量数据以及短期的明细/流水信息,对于历史数据进行了必要的备份,保证数据的可回溯性。建行ODS模型基本沿用了被整合系统的数据结构,只对客户模型进行

5、了整合,建立了统一的客户模型。 其次,就是数据处理,主要包括数据导入以及数据导出。其中,数据的导入就是利用ETL,将源系统的数据通过extract(抽取)、transfer(转换)、clean(清洗)和load(装载)整合到ODS的统一模型中。数据的导出就是为DW等目标系统提供提供经过整合的数据。ETL在ODS中至关重要,它将影响数据模型的准确性、完整性以及数据处理的效率,以下将结合中国建设银行的ODS项目,着重讨论ODS中ETL的实现。1ETL过程,可以利用数据库系统、业务子系统工具自行开发,或者购买现成的ETL工具(如EAI、Informatic等厂商的ETL工具 )。自行开发可以充分利用

6、子系统的优化操作,提高数据处理效率,但是灵活性以及可拓展性欠佳;现成的ETL工具可以灵活定制数据处理流程、简化开发、缩短ETL方案实施周期,但是其处理效率较低、工具购买成本较高。效率至上的指导方针,决定了建行ODS采用自行开发的方案。2ETL主要包括数据抽取、数据转换/清洗、数据装载以及数据统计管理四个模块。数据抽取模块,主要分为DB到DB以及DB到文件两种方式,数据的抽取很大程度受到了数据源的影响,不同的数据库需要开发不同的数据抽取程序,同一数据源需要考虑能够灵活增加数据抽取的对象。数据转换/清洗模块,在ODS中主要是数据的标准化转换,包括数据类型标准化、公共代码标准化、数据映射转换等,同时

7、需要考虑非法数据的清洗、检核处理,该模块包括文件中转换清洗以及数据库中转换清洗两种方式。数据装载模块,是整个ETL过程的效率瓶颈,这一部分可以利用数据库的工具,例如ORACLE的sqlldr工具或者ORACLE 10g的数据泵,如何捕获数据库工具的异常是利用数据库工具的关键。数据统计管理模块,主要对ETL作业的监控以及数据流的监控,包括ETL各模块作业处理的过程、结果,以及数据的完整性监控等。3元数据管理,ETL过程需要通过元数据的管理来实现数据流程的监控以及作业的灵活调度。需要定义:源数据结构、目标数据结构、源和目标的映射(包括定制映射的方案、定制映射调用的函数、定制清洗的方案)、作业处理日

8、志以及作业依赖关系。4异常处理,ETL异常主要包括:硬件、操作系统、网络导致异常;数据源数据传输、质量导致异常;ETL过程处理导致异常;目标数据模型导致异常;人工干预导致异常等;处理方法包括:手工干预,重新调整ETL过程;终止流程,通知管理员;拒绝数据,记录原因;清洗数据,部分入库;监控资源,反复尝试。5作业调度、监控,根据作业依赖关系的元数据进行ETL作业的调度,并对执行过程进行监控。作业调度需要包括以下功能:灵活启停作业;根据日期规则设置作业执行计划;支持作业的并发执行;允许作业网络的嵌套;方便新增ETL作业。作业的监控需要包括以下功能:监控作业的当前执行情况;查询作业历史执行情况。6其他考虑。job粒度:一个大的数据流动才定为一个job,比如从接口到表,虽然经过了转换、清洗、装载,但这个步骤都只为一个目的服务:将数据从接口装入到表,因此可以定为一个job,而不是象常见的ETL工具,定为3个job,否则就割裂了之间的联系,不便于描述数据流向。数据流图:能够结合元数据管理,对ETL过程的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论