劳动与社会保障数据交换平台建议方案.doc_第1页
劳动与社会保障数据交换平台建议方案.doc_第2页
劳动与社会保障数据交换平台建议方案.doc_第3页
劳动与社会保障数据交换平台建议方案.doc_第4页
劳动与社会保障数据交换平台建议方案.doc_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用信息集成技术构建劳动与社会保障数据交换平台ibm技术建议方案一、 概述以现有信息网络为依托,以现有业务信息为枢纽,为劳动与社保客户建立统一的数据交换平台。在建立集中统一的数据交换平台,实现提取生产区的实际业务数据,并进行数据的过滤、检测。统一数据标准。形成统一的交换资源数据库,为统计分析提供基础数据。完成全国联网数据上报工作。同时实现业务资源数据库的远程备份。1. 现状现在的劳动与社保数据库有近十个,其中数据库容量平均是50g,而且数据源为异构数据源,包括oracle、db2、sqlserver等数据库;2. 系统主要建设目标:l 建立数据中心业务资源库的数据采集平台,用以实现对垂直的下级业务系统数据向上级中心业务资源库的及时更新以及数据转换。数据中心资源库数据采集平台包括数据采集和数据转换两个主要部分。数据采集平台起到隔离基层业务系统和相关资源库应用的作用,使得未来任何的业务系统的变化(系统更新、升级、数据格式改变甚至数据库系统变更等)都不会影响整个资源库系统的运行。数据转换平台起到数据质量管理的作用,对数据的属性、逻辑正确性、完整性、一致性等进行验证查核工作。保障信息资源库取得的数据是真实、一致和完整的。数据采集和数据转换相结合,将形成一个长期稳定的数据采集平台。l 支持数据分析和综合决策。在资源库基础上,进行数据信息的综合利用,实现信息分析、数据挖掘和决策支持。同时资源库的建设将为数据仓库及应用的建设打下基础。l 建立对外的统一数据交换区,实现业务资源数据与交换资源数据的数据交换、上报的功能,将数据及时地通过统一的数据交换平台,实现向部里及横向与其它平级单位间的数据交换。实现业务资源数据库到交换资源库的数据交换,实现向部上报数据的功能。建立统一的交换数据区。l 基于交换平台,实现对业务数据的检测、过滤、筛选、抽取等功能。实现业务资源数据的数据检测、过滤、筛选、抽取。 数据交换平台是建设劳动与社保数据分析区及数据交换区的核心系统,其主要的作用为: 为地市级社保信息向上级提供安全、高效的信息传递、采集通道; 保证社保分析数据信息交互的数据实时性和数据一致性; 在社保内部形成统一的数据视图,方便管理; 提供向部里进行数据交换的统一平台; 屏蔽当前劳动与社保内的i t环境的复杂性,方便应用开发和管理; 屏蔽当前劳动与社保管理机构内的i t环境的分布式特性(省级、地市级管理),方便应用开发和管理;在此,我们建议利用ibm最新的信息整合的技术和解决方案构建一个统一的公共数据交换平台方案。下面我们对这样的一个解决方案进行详细说明。二、 劳动与社会保障行业数据交换平台方案1. 本解决方案的设计出发点: 快速实现对多种异构数据源的集成 保证劳动与社保分析区数据采集、交换区数据的实时性、一致性; 建立一套安全可靠的信息交换通道,实现数据在上、下级管理系统之间的数据交换、数据同步; 建立统一数据视图,支持真正意义上的劳动与社保信息分析区及交换区的建立,提供复杂、分布式环境下的可读写操作环境,并支持今后建立跨业务系统条块的新的业务流程; 简化应用编程的难度,缩短开发和实施的周期,降低日常维护难度; 能够很好地将当前业务系统与新的综合业务系统的用户管理、认证及授权机制结合,建立方便、清晰、易管理的用户安全认证管理机制; 在分布式的环境下实现全局优化,保证分析应用及数据交换的整体性能表现; 适应未来扩展性要求,方便应用范畴的扩展;2. 建议通过ibm信息集成(ii)技术方式实现公共数据交换平台信息整合方式也称为数据整合方式。信息整合就是将业务系统的数据进行有机的整合集成,从而实现对信息数据共享、交换的过程。ibm信息集成ii的核心在于业务数据的采集,并不关心原有业务数据的流程。因此,ii的核心是数据的集成。它采用数据包装器作为连接件,将现有客户的异种数据库(oracle、db2、sqlserver)等连接在一起。ii可以采用xml格式或者关系型格式对数据进行标准定义,平台工具内嵌数据采集监测功能。应用的开发支持sql99、xml和web service标准,保障了数据使用的通用性。并且可以保证系统的有效性、性能和易开发性。在有效性方面,ii的数据采集机制,对源数据增量识别的问题采用了侦听同步或者数据复制的方式,可以有效地解决数据采集同步的问题。而ii的数据包装器运行在资源库系统中心,无需异地开发。ii能跨本地和异地网提取数据,也能在源业务系统屏蔽访问时,由源业务系统传递xml数据包,对xml数据文件进行信息分解和提取,能够满足不同的源业务系统的特点。在性能方面,实际的测试表明,ii的数据复制能够达到1.26gb/小时的数据提取量,而ii的快速数据导入功能更能达到30gb/小时,而该测试结果还是在一台资源紧张的服务器运行出来的。由于ii的平台设计的目的就是为了解决数据整合的问题,因此能够得到这样比较理想的测试结果,而无需依赖于特殊的开发和编程手段。基于上述理由,我们推荐使用信息集成平台来完成资源库的数据采集功能,以建立长期稳定的综合资源数据库平台,满足中心业务数据库交换和数据复用的需求。通过ibm数据整合平台,建立劳动与社会保障业务数据中心及数据分析区和交换区我们利用ibm数据整合平台建立一个信息集成访问接口,建立起社保信息数据交换平台,同时在分级上下系统间业务数据的数据采集平台,并在分析数据区、交换数据区间建立一个可读写的双向访问接口,实现不同数据分区间的数据交换。在所提供的统一访问接口的支持下,就可以在一个整体数据库的逻辑视图下(这一视图跨越地市级劳动与社保信息管理系统),经过相应的数据转换,来实现中心业务数据,和面向劳动与社保信息分析及交换的数据流程和业务流程,实现整个劳动与社保分析系统和数据交换系统快速开发和部署。在分级纵向信息整合建立起数据中心的过程中,建议分阶段实现,第一阶段旨在利用数据映射层,实现统一查询访问,使全省数据可共享。第二阶段,结合数据整合层的各项功能,进行分极系统的数据标准的规范化,提高共享的质量和数据复用,并为数据交换做准备。这两个阶段是信息整合所不可或缺的必要环节。第三阶段,将部分被频繁访问、且实时性要求有限的数据物理集中,提高数据查询的质量,便于决策分析等业务应用。第四阶段,在第二阶段数据标准规范化的基础上,实现统一的数据交换。这两个阶段可根据实际业务需求取舍,也可更换先后次序。数据交换平台的架构图如下:数据整合平台负责从市级业务数据库及外部数据源中获取资源库所需的数据,实现中心不同数据分区间的交换。数据整合平台位于业务数据库和数据转换平台之间,屏蔽了后续数据处理与数据来源间的直接关系。整合平台主要实现两个方面的功能: 业务数据中心的数据采集和转换 不同数据分区(业务数据区、分析区、交换区)间的数据交换为保证对数据整合平台的统一控制和管理,我们采用集中式的数据整合平台设计思路,即在中心部署一个大的平台上完成对主要业务数据的采集,及不同数据分区间的数据交换。数据整合平台设计的基本原则是在业务系统部署软件,和编写专用接口,所有的软件部署也都在此平台上实施。2.1实现数据交换在本方案中,根据与已有系统连接的要求,需要支持实现与oracle,sql server,db2等异构、多个数据库系统之间的数据复制,这就面临着一个异构数据库之间双向复制的技术要求,这在数据库领域一直是一个很难解决的问题。而ibm websphere information integrator 恰恰在解决一个企业级异构数据集成同时,很好地解决了这一棘手的问题。ibm websphere information integrator 能够支持用户在一个广泛的异构数据环境内,定义各个异构数据源之间的复制关系和复制机制,ibm websphere information integrator可以支持表级的、双向的、指定时间点的复制,能够提供接近实时的,事务一致的数据复制机制的定义和实现。使用ibm websphere information inetgrator 后,ibm db2,ibm informix,microsoft,oracle,和sybase都可以作为复制源或复制目标; 用户可以配置一个多样性的拓扑环境l 复制服务器支持分布式(从一个数据库到多个数据库的数据迁移)和集中式(从多个数据库到一个数据库的数据迁移)l 数据迁移可以同时使用标准的sql表达式或存储过程l 数据迁移可以定时的自动执行,或在一定的时间间隔执行,或连续执行,或者由事件触发执行数据复制定义关系如下图所示:数据运输表oraclesql serverany source地市级管理系统统县级管理系统ibm information integrator数据复制引擎外部应用管理系统数据库系统oracle从上图可以看出,使用ibm websphere information integrator后,可以非常方便地实现跨业务平台、跨数据平台、跨地域的业务数据汇总、统计分析等工作的开展。而从前,我们要实现这样一个应用,就需要花费大量的精力,进行数据采集汇总的工作,从各个地域、各个业务系统、各个数据库平台上进行数据迁移,工作量大,而且准确率和实时性都很差。而在本方案中,这一切难题都会迎刃而解。2.2实现数据采集通过数据整合平台,实现中心对垂直业务数据的采集,我们可以提供三种数据采集的途径,分别说明如下:批量数据抽取 对于比较规范的业务系统,如果通过理解其数据库表结构能够识别增量数据,则建议采用批量数据抽取的方式。批量数据抽取的方式一般为非实时模式,在业务系统空闲时进行运行。对于网络条件较好的数据源,该方式可直接通过信息采集平台向业务数据库发送数据抽取的sql 语句,增量信息通过where 条件传入,采集的数据直接保存在信息整合平台。对于网络状况不理想的业务系统,该方式可分两步进行。首先在业务系统数据源将增量信息卸载为文件,然后再将文件传送到信息采集平台。这种模式要求在数据源部署卸载及数据传输程序,管理维护成本较大,建议尽量采用第一种方式。数据复制数据采集平台提供对各类主流数据库的各主要版本数据复制的能力。在复制的过程中,系统自动抽取数据的变化,通过中间的传输,最后加载到目的地。在大多数情况下,复制应该不干预现有的应用,对系统的影响应该降到最低,复制过程有必要进行管理和监控。复制可分为两个步骤capture用于获取数据源数据的增量。对oracle数据源,通过trigger机制实现。apply负责将变更的数据送到数据目标。wii提供对纯增量的复制能力,在目标端自动附加操作类型、时间戳等信息,以用于后续数据转换的处理。wii所提供的数据复制方式提供多种调度手段,支持分钟级数据的同步。对大多数据业务系统而言,数据复制对系统有一定影响,但影响有限。建议应用在难以提供增量信息,而业务负荷又有一定扩展性的系统。数据侦听同步数据侦听同步的模式与数据复制有一定类似,但可大大降低对业务系统正常工作时间的影响。对于部分不能提供增量信息,而当前业务系统负荷又较重的系统,可采用数据侦听的模式。数据侦听与数据复制最大的不同是在变更数据捕获方面。数据侦听只捕获变更数据的主键信息,占整个记录的信息量很小。因而对业务系统的工作时间的影响很小。数据侦听同步分两个步骤完成数据的采集。首先通过数据侦听获取变更数据的主键及操作类型信息,并同步到数据采集平台。然后在业务系统的空闲时间,通过侦听得到的变更信息,重新通过数据采集平台访问数据源,批量将其他数据内容信息抽取到数据采集平台。数据同步中可能的意外情况由系统自动管理。数据采集平台通过提供批量数据抽取、数据复制和数据侦听同步的方式,针对省厅的多种不同情况的源业务系统,均提出了有效的采集方案,对建立系统打下了坚实的基础。3. ibm数据整合平台的功能我们建议选用ibm数据整合平台websphere information integrator作为数据交换平台的核心技术。将市社保的各类数据源通过联邦的方式映射到一个数据采集平台的逻辑数据库中。对所有业务数据的访问都通过websphere ii完成,数据存储的异构性和不同数据库操作的异构性由websphere ii屏蔽。信息整合平台基础架构如下所示:基于联邦数据映射能力,在数据整合平台可直接获取业务数据库的数据。在此基础上,wii还提供异构数据复制技术及数据侦听技术,实现对增量信息的识别和同步。其实现原理如下图所示:图中:联邦服务器(federated database server)通过称为包装器(wrapper)的软件模块与数据源进行通信。对于上述各类数据源,websphere ii 提供专用的wrapper,每个wrapper实现异构数据源的sql处理,支持异构数据库间数据类型的转换和函数的转换。对关系型数据库数据源而言,包装器通过安装在信息整合平台的该数据库的客户端与其进行交互。对非关系型数据源,包装器直接进行数据访问。包装器从信息整合服务器接受数据访问指令,进行转换为数据源所支持的sql,通过数据源的客户端提交执行。然后将结果返回给信息整合服务器处理。除包装器外,信息整合服务器还有三个核心的部分。信息整合服务器维护一个全局的数据字典,其中保存需在信息整合平台被访问的数据的相关描述,包括数据源的配置信息,数据源表的结构,字段数据类型,相应的索引及数据量数据分布的统计信息。(注:该类信息无需用户自行输入,在定义过程中,系统可从源数据库系统的数据字典中自动获取)。另外全局数据字典还记录数据源的cpu,网络,i/o等系统资源情况。现对ibm信息集成关键技术进行说明1)联邦技术采用联邦技术,可通过简单的配置,快速实现数据共享。其主要特点为:l 透明性。所有信息源看起来就像是一个信息源。l 异构性。从不同数据源整合数据。l 双向sql访问。基于标准的通用访问方式,且双向可读写。l 可扩展性和工具化。可以访问任何数据源,配置方便。l 避免对现有数据源和应用程序进行更改。l 其性能可以满足实际应用程序和可能应用程序的需要,包括高级查询优化技术、本地数据访问以及透明缓存支持。l 可以充分利用标准的分析、报告和开发工具等高级功能。websphere ii查询接口提供了基于标准的完整功能包括对后端数据源中缺失能力的补偿。 2)sql复制在多种数据源的环境中,主要采用sql复制技术。sql复制技术能够支持网络上同构或异构数据库之间的数据的有效传输和冗余性复制,能够实现多种复制模式(如:准实时复制、定时复制、双向复制、复制转发等,复制范围可整表复制或表中部分行复制或修改单元复制)。复制运行时包括三个组成部分:capture、monitor和apply。其中capture提取复制数据源的变化增量;apply获取capture的结果,并根据复制映射关系进行转换,按照一定的时间规划,作用于目标数据;monitor监控复制过程,并给出监控信息。sql复制实现机制能够解决以下三个主要问题:增量复制支持对数据的变化增量识别、提取和复制,与全量数据复制相比,可避免全量数据传输的巨大负载对各个系统的影响。对db2家族的复制数据源而言,通过读取数据库日志信息获取数据增量,可避免对数据库运行性能的影响。对于复制数据源为非db2的数据库,其获取数据增量的capture方式由数据源的trigger机制实现(注:这些trigger由db2的复制机制自动维护)。图3.1 sql复制机制源数据与目标数据间的复制转换源数据与目标数据之间,往往存在着数据类型、格式、逻辑等不一致。为了使目标数据源能够读懂、接受复制数据源的数据,就必须进行复制转换。在复制过程中的常用转换方法有如下两种:复制映射和添加计算列:复制映射主要指复制源和目标之间的列映射,可以用如下图所示的配置工具实现。鼠标拖拽产生的箭头指示源与目标列的对应关系。“添加计算列”可以使用sql对复制源的某列进行运算,产生一个计算列,该列的定义记录在复制控制表中,不影响源表。如下图紫色方框标注的两列:右侧的是目标列,其定义长度为30个字符;左侧的是对源表某列作substr字符串截取生成的计算列,截取前30个字符。此外常用的sql还有date函数、case语句等等。图:复制映射和添加计算列两阶段复制:一致更改数据ccd表作中间表两阶段复制的优势在于能够获取数据增量及其类别,并结合多种数据转换方法。两阶段复制中,首先由源表复制到一致更改数据ccd表,后者能够记录在源表上所有的更改操作的类型(插入、更新及删除)和结果,从而捕获源表中所有的增量信息。第二阶段,开发者可以编写存储过程、或应用程序处理ccd表中的数据,再采用复制方法使数据作用到最终目标表。可配置、可管理的数据分发数据分发主要指apply的过程,即将复制数据源的增量应用到复制目标。数据分发过程中的配置和管理,对复制的可靠性和可管理十分重要。数据分发提供的配置选择包括:启动/停止数据应用到目标表;选择连续复制方式或设置复制时间间隔等;提供自动数据分组、出错自动回滚等功能,处理传输过程中的异常处理,用户可配置发生网络或系统故障时的传输重试间隔。3)双层认证授权机制websphere ii的双层认证授权机制,充分保证异地数据访问下的数据安全。information integrator用户对数据的操作权限,取决于各个应用系统数据库向它开放的用户的授权,是且仅可能是后者的子集。通过开放不同权限的用户给information integrator,可限制通过ii的用户访问的数据内容和数据库操作(如插入、修改和删除),这样就保证了业务数据的安全性,不会出现超越业务授权的所谓超级用户,消除数据安全隐患。三、 ibm 信息集成技术的特点3.1 全局统一的数据视图按照 ibm 的预想,信息集成基础构架必须为应用层提供对其所需访问数据的全局统一的数据视图,使应用对数据的访问不受数据格式、数据位置和访问接口差异的限制。对数据管理系统的发展不仅是要实现对单一数据库中存储的信息进行管理,而且还要能够提供对所有形式数据的增值性集成、对数据安排实施动态管理以满足可用性、实时性同时满足性能要求以及提供可继续减轻 it 人员管理复杂数据体系结构负担的自主特色功能。为此,ibm 制订了一项代号为 xperanto 的计划,旨在应对客户对集成结构化、半结构化和非结构化数据的需求。依靠在研究上的不断投资及在关系数据、xml、内容管理、联邦、搜索和复制等领域所拥有的可靠的数据管理技术,ibm 正着手开发集成式基础构架(如下图所示)。ibm 基础构架凭借一系列程序设计模型、一套丰富的集成特色功能及与 ibm 的整个业务集成框架的互操作性提供了灵活的访问方式。3.2 灵活的访问方式ibm 的设想是通过行业标准接口提供对信息集成基础构架的灵活访问。客户应用访问信息可通过 odbc、jbdc、网络服务、本地客户机或异步客户机接口来实现。无论数据是分布在何种数据库,文件或消息队列中,应用对数据的访问都如同是在对一个逻辑的数据库进行. 它所支持的查询语言将包括:l 结构化查询语言 (sql):业界最成熟、功能最强大的查询语言,市场应用广泛;l xquery:有关 xml 数据访问的新兴标准,万维网协会 (w3c) 目前正在进行其标准化工作l ibm db2 content manager: 是面向对象的应用程序编程接口,它支持内容管理生命周期,包括富文本和图像查询。无论采用何种客户访问方式和查询语言,应用程序都应能够访问通过集成服务器连接的所有数据。这种客户访问和查询语言灵活性的组合使现有开发和分析工具能够通过集成服务器访问更广泛的数据,并直接利用集成服务器所提供的信息集成功能。它还使基础构架能够通过web services适应以服务为导向的体系结构,还可提供与工作流异步集成或轻松调度长耗时的查询任务,并能保护您在现有和新应用程序基础构架上的投资。3.3 丰富的特色功能利用 ibm 信息集成基础构架可实现对各种分散于各处的实时数据的集成,就好像它们来自同一数据源。该基础构架具有联邦、搜索、高速缓存、转换和复制异构数据等重要的功能:联邦: ibm 提供业界领先的对相异数据源的联邦功能。联邦的概念是:用户可以像对待一个数据源那样对多个数据源实施查询和处理,同时保持数据源各自的独立性和完整性。视实施的具体情况,这些数据源可能是同构或异构数据源,也可能是集中或分散的数据源。ibm 的联邦引擎提供了下述功能: 透明度:它具有屏蔽作用,可协助使用户在访问数据时,无法察觉底层数据源的差异、特质和实现方式,并使一组联邦数据源看上去就像是一个系统。异构性: 一如其名它具有联邦异构类型数据的功能,这些数据类型包括结构化数据(例如,关系数据库)、半结构化数据(例如,xml 文档)、非结构化数据(例如,自由格式文本)。可扩展性: 一种可将联邦能力扩展到几乎任何数据源的功能。可扩展性专为这一目的而设计,即最大程度降低集成新数据源的工作量,同时灵活地为优化查询访问提供必要的信息。丰富的函数功能: 包括通过支持的查询语言提供的函数、对后端数据源中所缺函数的补偿以及将数据源专用功能无缝嵌入到查询语言中的功能。数据源自主性: 即可将数据源联邦在一起,而对现有应用程序或系统没有或几乎没有影响。性能优化: 使联邦查询成为一种现实备选方案的性能特性。凭借超过 25 年的研究和开发经验及专利的优化技术,ibm 可以事实证明,联邦是一个能够满足性能要求的可行方案。搜索: ibm 的基础构架将提供高级搜索和查询功能,包括网络爬行、文档索引建立、多搜索引擎搜索结果联邦、以实现智能访问为目标的文本文档分类和摘要信息建立以及语义理解。2002 年,ibm 组建了“ibm 搜索和文本分析研究院”,以通过集成式体系结构统一并加速 ibm 在高级搜索和挖掘功能上的研究和部署。研究成果将可为 ibm 信息集成平台以及其它 ibm 方案提供动力。高速缓冲存储器: ibm 的信息集成基础构架将支持在数据层级中的多个点放置和管理数据,以改善性能。这绝非是简单的高速缓存功能,而是基于策略的数据安排和管理。需要由一系列高速缓存策略才能向发出请求的应用程序提供足够的性能、实时性和可用性特性。转换: 基础构架必须提供丰富的转换特色功能,以便进行分析、交换和呈现。转换功能完成不同类型数据库sql语句的动态转换(如数据类型及函数的匹配).另外还包括对数据源缺失函数的补偿和原有数据源专用功能(如存储过程和用户自定义函数)的嵌入。复制: 作为信息集成基础构架的一个基本特征,复制功能不可或缺。它是分布式访问特色功能的有益补充,实现了对集中式数据存储器的管理,并为高效管理数据高速缓冲存储器提供了必需的基础构架。信息集成可实现异构关系型数据源之间的相互复制. 支持多点对一点的数据集中模式和一点对多点的数据分发模式. 包括初始的数据同步和增量的鉴别和同步. 并提供对复制过程的监控.简化全面业务集成: 如前所提及,信息集成只是整个业务集成基础构架的一部分。为支持业务的改良需求,此基础构架补充了强健的数据和内容存储器及附加集成技术,并采用了行业标准。数据存储:ibm 现今提供业内领先的关系数据库管理系统和内容管理系统,并在提供集成 xml 支持方面引领着行业的发展。除现有功能(基于关系数据库模型)外,xml 储存还必须完整地包含和充分利用 xml 数据模型。xml 储存设计有一个内置 xml 注册表,可以轻松管理大量 xml 工件。这些工件包括随 xml 数据数量和种类的增加而可能产生的 xml schema 文档、文档类型定义 (dtd) 和web services说明文档等。利用互补的集成技术:开发企业集成基础构架的关键在于能否自如地组合利用或单独利用适用的集成技术。ibm 继续专注于信息集成对“ibm 软件集团”全线产品,特别是 websphere 业务集成系列产品的集成,以提供一套全面的业务集成基础构架。websphere 软件平台为数据库及联邦数据库应用程序提供了一个开放、集成式的 java 技术开发环境。同时,ibm 也在投入力量使其能够与 microsoft visualstudio 顺畅协作并实现集成。简言之,ibm 的集成式解决方案是业内覆盖领域最广、最完整的集成式解决方案。 支持行业标准:ibm 继续处于开发和采用行业标准的最前沿,为在不同开发商工具间实现广泛的互操作性提供便利。四、 ibm信息整合解决方案的优势我们建议的社保信息数据交换平台解决方案具备以下几个关键的技术优势:41建立、地市级管理系统之间的信息交互、地市级管理系统的信息交互,实际包含两方面的含义:u 数据交换:实现、地市级级系统之间的数据交换,实现数据的物理迁移,数据由某个数据源传递到某个目标数据库中;数据共享:为跨越社保管理现有的业务系统、各个合作机构的业务系统中所有相关数据,进行综合查询和分析提供数据集成访问支持; 42利用异构数据透明访问技术实现数据共享ibm解决方案的核心产品是ibm information integrator,其中核心技术之一为联邦数据访问技术。如下图所示,通过采用 ibm information integrator, 将数据交换平台各级业务管理系统中的各类数据源,通过联邦的方式映射到一个逻辑的数据库中。对所有数据的访问都通过ibm information integrator完成,数据存储的异构性和不同数据库操作的异构性由ibm information integrator屏蔽。基于ibm information integrator可实现异构平台的表级数据库的通用sql操作。43统一编程接口,简化应用编程由于对所有数据的访问都通过ibm information integrator完成,数据存储的异构性和不同数据库操作的异构性由ibm information integrator屏蔽。因此对于新的省级社保信息综合业务系统(如数据实时交换、综合查询、数据迁移等)的开发者来说,不必了解现有各种业务系统的数据库访问接口及编程方法,而只需熟练掌握ibm information integrator所提供的一套编程访问接口就可以实现所有的应用开发工作。整个编程开发将非常简便。44提供全局优化技术,保证系统整体性能领先的基于成本的优化器:ibm 在业界最早实现了基于成本的优化技术,优化器能够模拟采用不同方式从磁盘中查询数据所付出的代价,从而选用最佳查询方案。它在优化时考虑了cpu速度、磁盘i/o率、表格尺寸、有效访问路径,并且如果可能的话可以重写查询,以得到更高的性能。ibm的优化器充分考虑了并行、大量并发用户、复杂查询等各种可能遇到的情况,使其能够运行于各种计算环境。通过调节相应参数,数据库管理员还可以根据数据库应用的具体类型方便地选择是否让优化器为此种应用做专门的优化。独特的查询重写技术:ibm对用户的每一个sql语句的处理过程于其它数据库有所不同:在经过语法分析和语义检查之后,先对用户的sql语句进行查询重写,再将重写后的查询sql语句送交优化器优化。由于经过查询重写的sql语句可以最有效的被优化器优化,程序员可以专心于业务逻辑的实现,而不必过多地将精力放在了解数据库优化器工作原理以及关注sql语句的写法上,减少了应用程序不能正确实现业务逻辑的可能性。另一方面,查询重写技术还有助于消除经常见到的由于项目组中不同开发人员的水平差异导致的程序执行效率不同,或图形界面动态生成sql语句繁琐、低效的现象。在异构环境下优化技术同样适用:使用ibm information integrator构建一个异构分布式数据库环境后,ibm先进的基于成本优化器仍然可以通过ibm information integrator发挥作用,也就是说,ibm可以将一个跨越多个业务系统的sql语句根据各个业务系统的实际状况进行成本估算、查询重写、最优查询路径模拟及确定。实现一个跨业务系统的全局优化。从而保证了整个系统的整体性能。ibm information integrator 提供一个本地的数据存储支持,联邦服务引擎实现sql的分解和访问路径的优化,其主要原则为将对数据的操作尽量分发到分布式的数据源,在ibm information integrator 联邦服务引擎中统一考虑处理的成本,选择成本最低的路径。成本优化依据保存在ibm information integrator catalog 中的各类数据源的统计信息。45先进的cache技术,保证系统性能ibm information integrator内置了先进的cache技术,可以支持用户建立物化查询表(materialized query table),这个物化查询表可以跨越各个业务系统建立一个针对经常查询内容的预计算、预处理的结果集,使用cache技术存放起来,来提高使用到这些结果集的运算或查询操作的速度。46对xml技术的完美支持我们知道xml作为数据交换的一个载体,将在未来的应用中占据越来越重要的位置,因此,在ibm information integrator中对xml有强大的支持,以适应当前和未来的应用需要。ibm information integrator提供了专用的xml wrapper。 通过xml wrapper, ibm information integrator支持对xml内容基于sql的访问支持。即用户可以使用sql直接操作xml文本,将存放在各个业务系统中的数据组成一个xml文本输出,或者将一个xml文本依照dtd或schema分解存储。47简化web services技术实现ibm作为web service架构的倡导者和领导者,在自身的全部产品线中,都提供了全面的web services支持,ibm information integrator也不例外,如下图所示,基于统一数据服务平台,可大大简化复杂异构环境的web services的实现。48对mq的直接支持mq是在消息传输中间件市场的冠军产品,在很多涉及数据传输和数据交换平台建设中,ibm mq产品系列得到了广泛的应用,因此作为综合业务系统整合的数据管理产品,一定要具备与mq的直接访问和支持的能力。而在本建议方案中,ibm information integrator提供了对mq message的直接访问能力。可将sql的输出直接送入mq的队列,也可用sql直接访问mq队列,对应用的整合提供了更好的灵活性。49 结合各业务系统用户管理机制,支持建立跨业务应用的用户管理机制使用ibm information integrator可以实现一个原有系统的用户及其权限对information integrator用户权限的一个映射定义。即information integrator中的一个用户,也就是省级数据交换平台系统中的一个用户可以映射到下属各个业务系统中的某个或某几个用户上,由各个业务系统管理访问自身业务数据的所有用户及其授权,而省级数据交换平台的用户仅是这些数据的一个使用者,其对数据的操作权限不能超越自身系统的授权机制,这样就保证了业务数据的安全性。不会出现超越业务授权的所谓超级用户,消除数据安全隐患。410 开放性,支持多种主流平台ibm information integrator是一个开放的系统,能够支持主流的unix、windows、linux: microsoft windows nt microsoft windows 2000 aix hp-ux sun solaris linux五、 ibm配置方案方案中,我们通过先进的数据整合技术,实现一个逻辑集中、物理分布与物理集中相配合的中心业务信息库,从而构建起一个数据交换平台,解决了数据的读写双向访问技术难点,在此之上可以定义跨越社保管理条块的业务流程和数据流程。是一个先进、合理、可实施的方案。在方案中,数据中心部署ibm数据整合平台,建立数据中心的业务数据中心,形成一个全局范围内的业务数据全集,首先可以满足对劳动与社保业务的分析要求,而且,在一定程度上满足了数据层面中心对市级单位数据的冗余,备份。系统配置如下图所示:市级社保业务应用l ibm db2 information integrator advanced edition connectorl ibm db2 ii connector内蒙古劳动厅数据中心磁盘阵列数据中心管理员企业级数据备份系统磁带库社保信息系统主干网+部里社保分析应用根据各地的实际情况,ibm websphere information integrator advanced 可以考虑配置在unix、windows或者linux服务器上,支撑整个信息集成的应用。如果在该级数据中心需要建立一个本地数据库系统来支撑类似统一单位库、统一人员库等标准化的数据存储,同时还考虑开展决策分析系统,那么可以使用ibm information integrator内置的企业级数据库存储引擎支持建立一个本地的数据库系统。根据数据量的大小,配置合适的磁盘阵列。同时我们建议购置磁带库及相应的企业级备份管理软件,配合ibm information integrator实现数据的备份/恢复工作。以保证整个系统运行的安全、可靠。建议软件配置: ibm websphere information integrator advance edition ibm websphere information integrator connector ibm websphere data stage server edition附件ibm db2 information integrator产品简介由于当前信息技术的飞速发展,各企业的业务环境日益复杂,各种业务数据不断的增加,使得企业中各种数据类型繁多,数据源也十分分散。用户越来越希望能够对整个企业不同数据源及数据类型的数据进行统一的相关联的管理。但是目前很多企业受各方面因素的约束,分散的且不同厂商的数据源很难复制或集中到单一的数据库上。因此,这就使用户越来越渴望能够获得一个可以整合企业中各个分布式的数据源以方便访问多样化数据的解决方案。在这种需求之下,ibm公司提供了ibm information integrator系列产品,能够在整个企业范围内访问关系型、结构化和非结构化数据。它能提供战略上的数据集成架构,以帮助用户去访问、处理以及整合异构的、分布式的实时数据。ibm information integrator包括联邦数据服务器(federated data server)和复制服务器(replication server),用于整合异构的实时数据。联邦数据服务器(federated data server)利用sql或产生sql的工具(整合的开发环境、报表、分析工具)访问、整合及处理分布式的和异构的数据。该产品主要适用于数据源为各类关系型数据库及其他如xml、web或内容数据源。ibm informatio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论