电子政务数据交换、数据流引擎及数据中心 _第1页
电子政务数据交换、数据流引擎及数据中心 _第2页
电子政务数据交换、数据流引擎及数据中心 _第3页
电子政务数据交换、数据流引擎及数据中心 _第4页
电子政务数据交换、数据流引擎及数据中心 _第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

市电子政务系统 数据交换 /数据流引擎及数据中心 目 录 一、 总论 . 3 1.1 概述 . 3 1.2 我们对标书的理解 . 5 1.3 系统建设原则 . 6 1.4 系统建设总体目标 . 6 1.5 系统平台的技术指标 . 7 二、 CIP IESD 在电子政务中的应用 . 9 2.1 需求分析 . 9 2.1.1 数据交换 . 10 2.1.2 数据流引擎 . 10 2.1.3 数据中心 . 12 2.2 系统总体结构 . 13 2.3 数据交换系统(数据交换 /数据流引擎)设计 . 14 2.3.1 需要解决的问题 . 14 2.3.2 系统体系结构 . 15 2.3.3 数据交换标准 . 17 2.3.4 数据交换中心系统结构设计 . 21 2.3.5 CIP 数据交换器的作用 . 23 数据流引擎 . 24 XML 数据(表单)处理 . 25 交换标准管理 . 26 2.3.6 数据交换节点(各委办局)数据交换适配器配 置 . 26 2.3.7 CIP IESD 平台构建电子政务数据交换系统的特点 . 28 2.4 数据中心系统设计 . 28 2.4.1 需要解决的问题 . 28 2.4.3 数据中心数据库类型划分 . 30 2.4.4 数据中心基础数据库服务器的选择 . 32 2.4.5 数据中心功能体系结构 . 33 UDDI 注册中心 . 34 基于 XML 和 Web Service 的元数据共享服务系统 . 37 动态数据管理系统 . 42 数据挖掘和决策支持系统 . 46 运行管理系统 . 50 2.5 平台的集成 . 52 2.6 数据中心的安全 . 53 三、 CIP IESD 在电子政务应用中的优势 . 53 一、 总论 1.1 概述 国家信息化领导小组决定,把电子政务建设作为今后一个时期我国信息化工作的重点,政府先行,带动国民经济和社会发展信息化。国家 信息化领导小组关于我国电子政务建设的指导意见(中办发 2002 17 号文件)中明确指出,电子政务建设对于应对加入世界贸易组织后的挑战,加快政府职能转变,提高行政质量和效率,增强政府监管和服务能力,促进社会监督具有十分重要的意义,因此电子政务系统必将成为我国重要的信息化基础设施,成为贯彻党的方针政策、保障政令畅通、落实政府监管职能、提高政府服务水平的重要手段。 “十五”期间,我国电子政务建设的主要目标是:建成标准统一、功能完善、安全可靠的政务信息网络平台,发挥支持作用;重点业务系统建设取得显著成效;基础性、 战略性政务信息库建设取得重大进展,信息资源共享程度明显提高;初步形成电子政务网络与信息安全保障体系,建立规范的培训制度,与电子政务相关的法规和标准逐步完善。 同时,国家也提出了电子政务标准技术参考模型以指导全国电子政务建设。 管理网络基础设施层应用支撑层信息交换 事务处理 流程控制 其他应用层政府 企业 社团 公民公众服务网信息安全公文处理 业务处理 信息发布 服务 其他 图 1 国家电子政务标准技术参考模型 市作为我国重要的城市,近年来,各级政府部门的信息化工作取得了很大进展。许多政府部门内部及其纵向的网络建设有了长足的发展,不少部门正在或准备启动本系统电子政务系统建设,这是好的一面;但 另一方面,电子政务系统在快速发展的同时也存在并且将会不断出现很多问题。最严重的问题是以前所建的系统,大多数都是属于局部单位的、分散建设的和只有部分功能的系统。这些系统相互之间没有统一的标准,采用不同的系统平台,形成了一个个信息孤岛,不能发挥整体的作用。造成这种状态的原因,除了缺乏总体规划、整体设计和集中管理等原因外,缺乏一个适合市情的整体电子政务硬软支持平台也是一个重要的原因。 为了尽快改变电子政务系统建设中存在的分散状态,使其走向健康发展的道路,一方面要做到各级领导重视,一把手挂帅,加强统一规划、整体 设计和系统建设;同时还要结合国情,大胆创新,开发和采用具有中国特色的电子政务系统硬软件支持平台。这一平台的成功建设,不仅将有效解决现有系统的有机整合问题,同时也将使得市电子政务系统具有良好的可扩展性,为将来新系统、新应用的无逢集成提供高效的适配接口。 目前,基于国家有关电子政务的建设标准,市已初步规划了市电子政务软件平台,其总体体系结构如图所示: 图 2 市电子政务软件平台总体体系结构 依据上述平台建设规划,数据交换服务、数据流引擎及数据中心三个系统在整个政务平台建设中具 有重要的地位,是电子政务工作流控制、信息交换和存储的中枢。 异步、同步工作服务 数据交换服务 数据中心 公务服务与视频会议 门户服务与管理 系统运行监控与维护 安全保障体系 OS DBMS MWS(中间件服务器) 系统级安全 1.2 我们对标书的理解 我公司对于所提出的项目建设总体目标、市电子政务建设的现状及数据交换、数据流引擎和数据中心系统的技术要求以及项目实施的总体规划进行了认真的研读和分析,对任务书的内涵进行了充分的理解。 1、数据交换、数据流引擎和数据中心系统的建设必须基于成熟、可靠的平台产品。 数据交换、数据流引擎和数据中心系统是协作式电子政务应用平台(包括政府职能部门之间的电子协作、政府与公众 /企事业单位的服务管理等)的核心基础服务模块,负责实现跨系统 的数据交换、流程控制和分布式数据存储服务。因此,这些系统的开发,必须基于成熟、可靠、遵循国际通行标准的相关平台产品。 2、数据交换、数据流引擎和数据中心系统的建设是一个复杂的系统工程 数据交换、数据流引擎和数据中心系统的建设也并非采用和配置一两套现有的产品软件就可以完成的,它是一个综合的应用支撑平台,担负着与电子政务软件平台中其他后台系统和服务的集成和接口。 从项目所要实现的功能和性能来看,数据交换、数据流引擎和数据中心系统必须与服务门户、安全体系、管理系统等政务平台核心服务紧密集成;必须为139 个局委办的 众多业务系统和协同办公系统提供安全可靠的数据交换和存储服务;必须为海量政务信息的发布和查询提供方便的管理。 从技术实现过程中所采用的技术来看,它包括了软件开发技术、互联网技术、webservice 与 XML 技术、中间件技术、数据库和数据仓库技术等当今最先进的计算机技术。 因此,数据交换、数据流引擎和数据中心系统的建设是一个复杂的系统工程。 3、项目成功的关键因素取决于管理和协作 提高管理和协作水平是本项目成功的最为关键的因素。首先,政务系统的建设不仅仅取决于技术,更重要的是人的因素和管理方法,而这些又具体体现 为一整套严谨的、规范化的工程实施和管理方法;第二,电子政务系统建设的复杂性决定了数据交换、数据流引擎和数据中心系统建设必须与其他平台服务系统和业务应用系统建设的紧密协作和配合,这也是项目建设的关键之所在。 4、先进实用与安全可靠是本系统成功的重要因素 任务书中的技术要求,充分体现了采用当今世界先进计算机技术与保护现有投资的结合,在各项技术指标满足要求的前提下,对于现有的计算机设备、应用系统和信息资源进行合理的利用,充分发挥投资效益。 在任务书中对于系统的安全可靠提出了全面的要求,这也是电子政务数据交换、数据 流引擎和数据中心系统的核心技术要求,必须将电子政务数据交换、数据流引擎和数据中心系统建设与电子政务安全体系建设紧密集成,才能保证各个系统全部范围的安全可靠和数据安全。 1.3系统建设原则 作为市电子政务系统的核心服务层,政务数据交换、数据流引擎和数据中心系统的建设必须遵循以下基本原则: 1、安全可靠第一原则 数据交换、数据流引擎和数据中心系统所处理、传送和管理的信息,可能涉及到政府、企业、社会经济和个人隐私等秘密或敏感信息,此类信息处理和传递的任何环节如果出现漏洞,其损失将是巨大的。因此,系统的安全性将 是十分重要的原则。其次,数据交换、数据流引擎和数据中心系统承受着大批量的关键性数据的流转、交换和存储,系统的可靠性将是系统建设需要重点考虑的问题。 2、经济、实用原则 确保系统具有友好的用户界面、便于掌握、使用和维护,且能解决具体的实际问题。在保证系统性能并达到要求的前提下,尽量使系统投资最省。 3、灵活、高效原则 确保系统 具有良好的系统性能、较高的处理效率,且配置和使用灵活,响应速度快。 4、先进、规范原则 采用符合国际标准的、先进而且成熟的数据平台产品,使系统具有较高的技术水平和较长的生命周期。同时具 备较好的开放性、可靠性及可扩展性。与此同时,开发定制过程控制、文档规范化等应遵循相应的国际标准、国家标准和惯例。 5、投资保护原则 极大限度地保护原有业务系统和数据库系统的投资,充分利用现有和将来的业务系统采集的信息资源,并为这些业务系统在数据交换、数据流引擎和数据中心系统上的数据交换和存储提供标准的或定制的接口支持。 6、统一规划、分步实施、尽快见效原则 由于数据交换、数据流引擎和数据中心系统所涉及的内容多,需要集成的系统和服务多,为了尽快见效,应该在统一规划下,采用分步实施方法来进行配置和定制开发。 1.4系统建设总体目标 市电子政务平台建设的总体应用目标 是:通过政务平台为公民提供教育培训、就业、电子医疗、社会保险、公民信息、交通管理、电子税务、电子证件等各类服务;为工商、企事业单位提供电子采购与招标、电子税务、电子证照、信息咨询、网上投诉等服务;为上下级政府、不同区县政府、 139 个局委办部门之间的法规政策、公文流转、司法档案、办公培训、业绩评价等方面的服务。 市电子政务平台建设的总体技术目标 是:通过政务平台的建设,在平台各核心服务之间,平台与政府各部门业务应用系统之间形成统一的数据交换协议、标 准和服务;实现政府各部门信息系统的互通互联;建立统一的政务信息数据模型和中心数据库,实现数据在全局意义上的动态性、一致性和完整性。 市电子政务数据交换系统建设的目标 是:在综合业务支撑平台所提供的信任服务基础之上,通过对业务系统提供标准的信息交换服务调用,并确保整个信息交换过程的安全性、可靠性,最终实现整个市电子政务系统内部自由的信息交换。通过可信信息交换系统,实现电子政务系统跨平台、跨系统、跨应用、跨地区的互联互通和信息共享,为政府部门之间进行公文交换、并联审批等提供支持。 市电子政务数据流引擎 建设的目标 是:为全面实现“网上并联审批” 、“一网式”审批、“一站式”领证、“一表式”登记的电子网上服务提供支撑平台。 市电子政务数据中心建设的目标 是:建立一个集中分散、异构、可扩充、可集成、有统一数据模型、有多种角度视图的、可交换的和安全可靠的复合数据库系统。该系统包括五类数据库:关系数据库,文件数据库, UDDI 注册中心数据库,数据仓库和多媒体库。它将成为政府各种业务系统、政府部门之间协同工作的数据中心,是市政府门户的信息中心,多媒体、文档资料和政策法规的存储中心和预测决策所有的数据仓库中心。 此外,市政府通过系统的建设与推广,一方面培养出一支具有工程管理、系统维护、系统管理的技术队伍;更为重要的是培养出既精通政府工作业务,又掌握信息化管理技术的人才。 1.5系统平台的技术指标 由于数据交换、数据流和数据中心系统将成为电子政务应用和集成的中心平台,在整个电子政务系统中位于核心的地位,因此对系统基础支撑平台的设计、选型和研制时。必须考虑下面所述的基本原则和技术指标: 1、规范性: 系统符合国家电子政务有关标准和规范要求; 系统的结构设计遵循一定的规范,保证细化设计和未来的发展保持完整性; 遵循 严格的开发规范,保证开发过程的质量和系统组件的可重用性; 制定和遵循严格、先进和完整的接口标准,保证系统内各组件之间以及系统对外支持的应用系统的接口实现; 电子政务平台数据交换按照一定的规范要求交互。该平台应使用 XML的数据交互,符合国家或行业的电子政务及电子商务数据交互规范,以保证数据交换的通用性。 组件的设计和数据结构设计采用先进完整的规范,保证系统的可发展性; 2、可扩展性: 平台能提供一组用于响应来源于电子政务系统请求和访问平台业务的应用接口,以使电子政务内部管理系统提供商开发基于该平台的应用组件或 系统; 平台所有的对外接口既可开发针对主流产品的完整接口,又可提供开发接口的 SDK,用于扩展支持的对象,使用户可以方便的开发新接口; 平台自身采用分布式组件化设计,实现高度的开放性和可扩展性,保证能适应庞大的政府机构的分布式的应用; 3、可管理性: 平台提供完善的安装、部署、配置、监控手段,保证平台高度的可维护性; 系统应针对所有核心平台和所有功能模块的管理功能、数据定义、流程处理以及政务流程处理功能提供简洁、方便的管理或开发定值用户界面,保证所有系统用户能够高效地实施操作; 平台具备高度的适应性,以适应政 府信息化软件的现状;平台提供灵活、丰富可扩展的配置功能适应政府内部数据结构的变化。 4、可靠性: 平台提供有效的安全保障机制并与整个软件平台的安全支撑系统相结合; 系统结构设计的完整和坚固性,保证平台运行稳定可靠; 保证数据的安全性、重要数据的完整性、一致性和可恢复性; 系统提供备份和恢复机制,确保在日常维护或是意外崩溃时政府信息化网络平台可以正常运转; 系统应用服务能力的线性扩展和流量均衡,以保证在大事务量、大数据量的环境下能加以调配以满足实际情况的需求; 服务器具备高可用性,以保证在个体服务器或服务出现 故障时,平台应用和服务不受影响。 5、兼容性: 支持主流数据库系统的市场现行版本,包括 Oracle、 DB2、 MS SQL Server、 Sybase、 ACCESS 等; 支持主流的应用服务器软件市场现行版本,包括 BEA WebLogic、Borland Application Server、 IBM Websphere、 Oracle Application Server 产品、 Sybase EP/Jaguar CTS、 SUN iPlant; 支持主流的 WEB 服务器市场现行版本,包括: Apache、 Netscape Enterprise Server、 Microsoft Internet Information Server; 支持主流的应用服务组件(中间件),包括: Enterprise Java Bean、CORBA、 COM/DCOM; 符合 cnXML、 cegXML 等流行的电子政务(商务)数据交互规范。 二、 CIP IESD 在电子政务中的应用 2.1 需求分析 根据市电子政务宽带网络软件平台总体设计方案的要求,本项目的任务是:基于国家有关电子政务的建设标准和 WEB SERVICES 和 XML 等技术,构建市 电子政务软件平台,解决 139 个直属的委局办应用系统之间的互联、互通、资源共享,通过外网实现各政府部门之间网上分布式办公及政府门户网站。为电子政务系统可靠地运行提供安全保证体系和监督管理体系。 根据系统总体规划,建设数据交换、数据流引擎及数据中心是实现电子政务应用层“互联互通、信息共享”的基础,同时也是实现公文交换、并联审批的支撑系统。 数据的集成与交换是各项业务功能实现的基础。基于数据源分布的多样性,以及结构的多样性,要求平台以 XML 为基础,同时结合各类数据提取、转换网关,实现基础的数据表示和数据交换。对基 础的数据元、业务元与业务流,采用统一的元数据管理机制,服务于数据集成、数据交换、业务协同和业务集成。同时,以元数据管理为基础,实现具体目标业务系统的数据结构、业务单元的自动生成与统一重构。 数据流引擎侧重于机构内部业务流程一体化的构建,要求在更高的层次上,能将不同机构、不同类别的应用系统集成为一体。以政务务协同与政务集成为基础,以业务数据的整合、交换和智能化利用为核心,为最终的使用者提供集成化、个性化的业务访问入口,支持政务运作体制的优化。数据交换、政务协同与政务集成平台,以支持 J2EE 架构的应用服务器为基 础,采用 EJB 和 Web services 的方式实现业务过程的表示与封装,并以 EJB 和 Web services 为基础实现业务过程的协同和政务数据的交换。 2.1.1 数据交换 作为数据平台重要组成部分,数据交换负责整个电子政务平台对同构或异构数据源之间的数据交换。 市的政府信息化工作已经开展了很长一段时间,政府各部门已经先后建立起自己的应用系统。这些应用系统之间都是独立的,数据没有统一标准、系统也没有相连。这种现状导致,各政府部门之间的信息资源无法共享、部门之间工作移交无法电子化。这极大地限制了信息化提高 政府工作效率的效果。 要解决这个问题,就需要建立一个数据交换平台,能连接在各种开发平台下开发的系统,能实现异构数据的转换,并有严格的安全控制措施。 1、目标需求 可信的信息交换系统是电子政务综合业务支撑平台所提供的关键服务。可信信息交换系统在综合业务支撑平台所提供的信任服务基础之上,通过对业务系统提供标准的信息交换服务调用,并确保整个信息交换过程的安全性、可靠性,最终实现整个市电子政务系统内部自由的信息交换。通过可信信息交换系统,实现电子政务系统跨平台、跨系统、跨应用、跨地区的互联互通和信息共享,为政府 部门之间进行公文交换、并联审批等提供支持。 2、功能需求 提供跨平台、跨多种网络模式的数据交换的全套软件系统 同安全、门户、并联审批平台和公共服务等部分进行统一的实施 提供各个局委办的信息系统的接口和统一的接口开发工具,并能为实现 10业务系统提供全面的技术支持 2.1.2 数据流引擎 1、目标需求 为全面实现“网上并联审批”,“一网式”审批,“一站式”领证,“一表式”登记的电子网上服务提供支撑平台。 2、功能需求 ( 1)工作流引擎 工作流引擎是工作流平台的核心,它是业务流程的任务调度器。工作流引擎的具体功能 如下: 对过程定义进行解释 控制过程实例的创建、激活、挂起、终止等 控制活动实例间的转换,包括串行或并行的操作、工作流相关数据的解释等 支持分布式工作流的协同 管理流程的柔性执行 提供支持用户操作的接口 维护工作流控制数据和工作流相关数据 提供用于激活外部应用程序和访问工作流相关数据的接口 提供控制、管理和监督工作流实例执行情况的功能。 ( 2)表单设计 用户可以使用图形化设计方法,开发出动态页面应用,其结果可保存为 XML并具有数据库访问能力。表单开发工具的主要功能有: 所见即所得的文档和表格设计 多文档复合 信息支持 多种业务文档类型 文档与 XML 数据的连接与输入自动感知 复杂文档窗体的设计 文档视图动态测试 业务文档事件 ( 3)流程建模 使用图形化的方法,让开发者用最少的时间设计或修改业务工作流程,建模工具提供了相当丰富的流程逻辑表达方式,可以表示非常复杂的流程,和表单设计工具相结合可以轻易的设定每个流程步骤要执行的功能,和组织机构建模工具相结合,可方便准确地选择每个活动执行的参与者。 流程建模工具的主要功能有: 支持专业的流程建模 流程协作定义 任务协作定义 事件驱动和流转条件控制 时间控制 分布式流程设计 决策型流程支持 ( 4)角色建模 使用角色建模工具建立参与业务流程的人员角色,使得流程的管理与具体的人员分离,可以通过管理工具灵活的变化流程角色,使岗位职能转变等变化很容易被适应。 角色建模工具的主要功能有: 定义角色权限 定义角色范围 分派角色任务 ( 5)组织机构建模 利用图形化的形式定义组织机构图,让用户以图形化的方式为政府几个部门及单位建立组织机构图,组织机构图能显示使用者的职责、职称及从属关系等。管理者可以根据工作流使用者在不同工作流程中需要完成的任务,为其赋予角色。角色建模工具与统一用户管理平台相 连接,能够读取或更新统一用户数据库中的数据,保证用户信息的集中管理。 组织建模工具的主要功能有: 实体定义(包括人员、角色、职务、部门、工作组) 业务分工 权限管理 2.1.3 数据中心 数据中心系统作为数据整合平台 对各种分布、异构的数据资源进行全局、统一、高效的访问和管理,为 业务协同 和决策支持提供一个良好的数据基础。 数据整合平台要实现如下设计目标: 1、目标需求 目标是建立一个集中分散、异构、可扩充、可集成、有统一数据模型、有多种角度视图的、可交换的和安全可靠的复合数据库系统。该系统包括五类数据库:关系 数据库,文件数据库, UDDI 注册中心数据库,数据仓库。它将成为政府各种业务系统、政府部门之间协同工作的数据中心,是市政府门户的信息中心,多媒体、文档资料和政策法规的存储中心和预测决策所有的数据仓库中心。 2、功能需求 市电子政务数据中心必须满足电子政务平台进行数据交换的需要,同时还必须满足在平台上建立的个业务系统进行综合业务处理的要求。为门户系统提供各种静态和动态的数据、信息。所谓静态信息是指对电子政务的运行中不经常变化,供各个业务系统查询、处理的数据或信息:政策、法规、元数据、资料库、各种多媒 体数据等,它们会随着时间而逐步增大。所谓动态数据是指随着运行而增加、修改的数据:并联审批中文件流转状态数据,反映企业、个人所处状态的数据,国民经济运行状态的数据等。动态数据同各个局委办的信息密切相关,但又是面向主题的,如市社会保险这个主题,实际上同保险、工资、税务和银行密切相关;个人信用使用主题,它的数据与银行、税务、个人消费、个人收入密切相关。而数据仓库显然也有面向主题的定义,但这些主题是较长时间的,具有战略定义的主题。 由安全体系、门户管理、数据交换服务、并联审批平台、公务服务及视频会议、运行管理等 各部分提供商设计、实施各自要存储到数据中心的数据模型。提供安全运行、维护、备份、审计等数据库必备的工具软件,并能集成一个完整的软件工具。 业务系统开发商设计、实施相应的数据中心数据库模型,提供数据安全、运行、维护、备份、审计等必备的工具软件。 2.2 系统总体结构 面对我国电子政务的迅速发展,我们针对电子政务的基本需求,跟踪国际最新技术标准的发展,对其通用信息处理平台( CIP2.2 版)进行了功能的提取、整合和重构,将其改造升级为 CIP3.0 版,成为面向电子政务建设的基础软件平台。CIP3.0 电子政务软件平台 包括了 CIP 政务门户平台( CIP GP) , CIP 集成化服务支撑平台 (CIP IESD)等几个组成部分。在电子政务系统建设中, CIP 平台产品的分布如下图所示: 图 3 基于 CIP 构建电子政务软件平台总体体系结构 其中集成化服务支撑平台 CIP IESD(Integrated Electric Service Delivery)是基于 Software AG 公司系统软件,面向电子政务,基于 XML 和 Web Service 技术的数据交换、数据流管理和跨部委协同工作功能的应用支撑平台系统。 CIP IESD 集成了 Software AG 公司的 Tamino XML Server 和 EntireX,并以此构成了系统基本体系架构。其基本组成包括 (详细描述见产品介绍 ): CIP 数据交换适配器(基于 EntireX Communicator) CIP 数据(基于 EntireX XML Mediator) Tamino XML Server 作为应用支撑平台的核心, CIP IESD 平台的目的是构建电子政务系统平台中的数据交换平台和数据共享平台(数据中心),实现数据交换、跨部门协同工作(数据流引擎和管理)和数据共享。 由上图可见,基于 CIP IESD 平台的 CIP 数据交换器和 Tamino XML server,可以方便地构建统一的数据交换平台,该平台能够实现不同的政务应用系统之间的基于统一标准的数据交换和共享。同时,还可以建立应用系统的数据中心( 1、大量的基于 XML 标准的实时、动态的交换数据可以高效地在纯 XML 数据服务器上构建起面向主题的操作数据库; 2、通过 Tamino XML server 提供的强大的元数据管理功能,可以实现对分布在各委办局的信息资源的管理、查询和数据交换),从而实现对众多的政务应用系统中关键数据的抽取和集中。上述的两者相互配合 ,便为整个电子政务应用系统提供了核心的数据交换与共享平台。 基于 CIP IESD 平台的 CIP 数据交换器所提供的工作流引擎和 XML 文档(表单)处理功能,可以快速地构建电子政务一站式服务平台。通过搭建一站式服务平台,能够实现对众多的电子政务应用的协同和调度,从而使得在同一系统中处理需要多系统业务协同的政务要求成为可能。同时, CIP IESD 平台提供针对不同业务应用系统的数据交换适配器,这些数据交换适配器将成为应用系统连接到CIP 数据交换器也就是一站式服务平台上的纽带,数据交换适配器技术使得我们充分利用原有的 应用系统的功能成为现实。 2.3 数据交换系统(数据交换 /数据流引擎)设计 2.3.1 需要解决的问题 应用系统环境的不一致 各个职能部门内部的业务系统实现的内容各异,其信息化程度不尽相同。 数据库环境的不一致 由于缺乏统一管理,各个职能部门内部业务系统的数据库往往不尽相同。除了数据库环境的不同外,还包括数据结构设计的各异、所支持数据类型的不同等等问题。 缺乏统一的数据格式 在各个职能部门的内部业务系统中,数据的组织是内部相关的一个自主系统,缺乏与其他职能部门间相关数据的交叉与关联定义。由于没有一个统一的共享化格式,从一个内部系统去访问另一个内部系统中数据的唯一方式是必须了解对方的数据格式,然后再考虑筛选出自己所需要的数据集合。 这种“点对点”的数据引用模式带来的问题首先是低效,并且并没有从根本上解决数据的有效共享问题:由于缺乏标准数据格式,各个职能部门要分别从各个单位获取自己所需的数据。这点在具体实现中几乎是一种不可能的情况。例如:当某个应用系统的数据格式发生改变时,所有用到这一数据的其他系统也必须进行修改。 解决这一问题的一个办法是 建立一个统一的数据格式集合,而由各个应用系统依照集合中的各个数据格式来设置与自己的数据格式之间的匹配关系。 不同系统间缺乏数据传递的统一机制 从纯技术的角度来说,要实现不同应用系统间统一的数据交换与共享,必须由一种数据通讯机制来控制数据传递,以保证不同系统间数据交换的一致性。这就好比用电子邮件系统来控制收发内容和目的地各不相同的邮件,必须有一整套完整的传输控制机制,才能保证邮件不会投递到错误的地址、不会发生邮件内容的错位等等问题。 2.3.2 系统体系结构 可信的信息交换系统是电子政务综合业务支撑平台所提供 的关键服务。可信信息交换系统在综合业务支撑平台所提供的信任服务基础之上,通过对业务系统提供标准的信息交换服务调用,并确保整个信息交换过程的安全性、可靠性,最终实现整个市电子政务系统内部自由的信息交换。通过可信信息交换系统,实现电子政务系统跨平台、跨系统、跨应用、跨地区的互联互通和信息共享,为政府部门之间进行公文交换、并联审批等提供支持。 图 4 数据交换系统总体体系结构 如上图所示,基于 CIP IESD 平台的数据交换系统为一个星型结构,这种结构简化了电子政务应用主体内部功能体之间、主体与主体之间所存在 的复杂的相互关系。 数据交换中心处于核心位置,通过配置在数据交换中心的 CIP 数据交换服务器提供的标准化的 Web Service 接口( SOAP 网关)为每个数据交换节点(需要进行数据交换的各个委办局)提供服务。每个数据交换节点只需要与数据交换中心通过 Web Service 进行交互,并通过 XML 进行数据转换,而不需要相互直接连接访问就可以获取到所需要的数据。 对于遗留的老系统,通过在该数据交换节点上配置数据交换适配器,可以方便地将老应用系统封装成 Webservice 服务,从而能够接入数据交换中心并提供一致的访问行 为和接口。 数据交换中心的整体行为就像一个虚拟的中心数据库,同时又像一个交换机。整个数据共享和交换的底层实现和存储机制对各应用节点是透明的。该结构属于松耦合,如同星形网络一样,很容易进行层次化的结构扩展,构建出多级的数据交换中心结构,以支持更大范围的广域方案。 数据交换中心将政务办公应用系统的协作、电子政务安全支撑平台所提供的信任与授权服务、数据存储层与应用层的有效隔离有机地结合在一起,实现了大量的不同位置、不同格式的数据的共享和相互访问,进而集成相关的业务应用,形成协同办公、一站式服务的基础平台。 2.3.3 数据交换标准 数据交换系统的目的是在数据交换中心和各委办局等机构之间交换数据。由于各单位的信息系统构架不同,信息的表示也各不相同。要在这些不同的系统之间交换数据,首要的问题就是定义一种标准的数据格式。 数据格式的制定,一方面要进行周密的调研,另一方面要充分吸收和采纳国际、国家的较为成熟的标准。我们建议以下参考标准: 政府信息交换语言 (Government Information eXchange Language, gXL) gXL 核心 (gXL Core) 语法:所有交换的数据格式为 XML 文档,标准以 XML Schema 定义。 消息结构:每个消息分为消息头和消息体 例如: 图 5 gXL 消息结构实例 如上所示,消息头可以含有消息 ID、发送人、发送单位、接收人、接收单位、发送日期、优先级、密级等标准元素。 消息体则包含要传输的信息。 标准元素:消息中必须或可以出现的元素 标准类型:可重用的类型定义( simpleType 或 complexType)。 例如: 图 5 gXL 消息类型实例 传输协议 定义如何把逻辑地址解析为物理地址 路由规则的定义 错误处理机制 gXL 消息 (gXL Message) 具体 的消息 Message Body 中的内容的定义。 会议通知、简报等等 例如: 图 6 gXL 消息实例 图 7 gXL 消息实例 市建委 String 2001-12-17T09:30:47-05:00 市建委 abcd 秘书处 保密 String 2.3.4 数据交换中心系统结构设计 数据交换中心包括了数据交换管理和数据交换中间件(数据交换器)两个部分的交互,可以实现以统一的数据描述为基础的电子政务应用数据访问服务。 数据交换中心的系统逻辑结构如下图所示: 图 8 数据交换中心系统逻辑结构 数据交换中心的数据交换管理功能主要包括: ( 1)数据交换标准定义管理模块 根据对决策支持、政府部门 间协作办公(如并联审批)、政务信息公开等综合性应用内容的需求分析,定义出一系列的数据交换标准。这些标准将反映各个应用所需要的数据的结构。同时在标准中定义的还有数据“宿主” 位置等信息,表示该块数据将向哪个业务系统请求获得。 所有的数据交换标准定义信息,均以 XML 结构记录。可以通过数据交换标准定义管理工具完成如下功能: 新建标准、修改或删除标准 维护标准中的属性,包括数据结构、数据“宿主”位置、缺省过滤条件等 实现对用户身份识别与管理权限控制 ( 2)数据交换流程定义和管理模块 数据交换是依据数据交换流程实现的 ,针对不同的数据,需要设定和管理不同的数据流转过程。该模块的作用是提供图形化界面,供给数据交换平台的管理人员实现数据流转过程的定义。数据交换流转过程的描述也采用 XML 方式。 具体功能如下: 新建流程、修改或删除流程 维护流程的规则、数据加工过程和数据路由方式 实现对用户身份识别与管理权限控制 ( 3)数据交换标准与内部数据结构的映射关系管理模块 由于数据交换标准并不知道在具体业务系统内的相应数据的位置、属性、名称等等信息,所以需要在业务系统内对数据交换标准中的对应项有一个映射关系的定义。这种定义包括数据项与数 据项的对应或组合对应(公式化)、数据类型的匹配或转换关系、数据项位置描述记录等等。以 XML 结构保存定义的内容。 具体功能包括: 数据交换标准定义信息的导入 维护数据交换标准与内部数据结构间的映射定义表,包括数据项与数据项 的对应或组合对应(公式化)、数据类型的匹配或转换关系、数据项位置描述记录等等 实现对管理员的身份识别与管理权限控制 数据交换中心的数据交换器功能主要包括: ( 1)数据交换工作流执行模块 数据交换工作流的执行是通过数据交换中间件和 XML 数据库实现的。采用中间件产品可以保证数据交换的高效、安 全和可靠地进行。其工作原理是:读入数据交换流程,根据流程设定,启动数据交换过程。根据业务需要,同时可以并发若干个数据交换工作流。当业务变化是,只需修改数据交换流程定义,就可以实现基于新业务的数据交换过程,因此系统具有很好的可扩展能力。 XML 数据库以 XML 的原生方式保存数据交换过程中的产生的各种数据,提供日志管理和数据分析的功能。 具体功能如下: 接收数据 验证数据 分析流程定义 根据流程进行数据交互过程 数据交互的事务管理 日志管理和交换数据存储 消息队列管理 实现对管理员的身份识别与管理权限控制 ( 2) XML 数据处理模块 XML 数据处理模块提供对数据交换系统中的 XML 消息的处理能力,从而对基于 XML 标准的表单设计、处理提供了有力的工具。 XML 数据处理功能主要包括: XML 数据(文档)的查找 XML 数据(文档)的校验 XML 数据(文档)的转换 XML 数据(文档)的复制 /复合 XML 数据(文档)的操作日志记录 XML 数据(文档)的事件触发 2.3.5 CIP 数据交换器的作用 图 9 CIP 数据交换器的作用和基本结构 如上图所示, CIP 数据交换器是数据交换系统的核心。它包括强大的分布式数据流引擎和 XML 数据的处 理能力。这也是电子政务平台对数据交换中心服务的一个关键的要求。 数据流引擎 数据流引擎是数据交换器的核心,它是业务流程的任务调度器。构建数据流引擎的主要目的是为了全面实现“网上并联审批”,“一网式”审批,“一站式”领证,“一表式”登记的电子网上服务的跨部门协同工作。 CIP 数据交换器以数据流引擎为核心,来实现数据流设计、运行和管理过程。其基本框架如下图所示。 图 9数据流引擎结构原理图 如上图所示, CIP 数据交换服务器根据数据流引擎定义的流程可以执行以下任务: 接收数据 验证数据 根据流程 进行数据交换 日志管理和交换数据存储 事务管理 实现管理员的身份识别与管理权限控制 .1 数据流引擎的功能 CIP 数据交换器中的数据流引擎功能包括: 对流程的 XML 描述 流程实例的创建、激活、挂起、终止等 流程实例间的关联,包括串行或并行的操作、工作流相关数据解释等 支持分布式工作流的协同 提供支持用户操作的接口 维护工作流控制数据和工作流相关数据 提供用于激 活外部应 用程序和 访问工作 流相关数 据的接口( SOAP/HTTP/SMTP ) 提供控制、管理和监督工作流实例执行情况的功能。 .2 流程 设计器的功能 CIP 数据交换器提供图形化流程设计器,让开发者用最少的时间设计或修改业务工作流程。流程设计器提供了相当丰富的流程逻辑表达方式,可以表示非常复杂的流程。流程设计的主要功能有: 支持专业的流程建模 流程协作定义 任务协作定义 事件驱动和流转条件控制 时间控制 分布式流程设计 决策型流程支持 在流程设计器中,还包括了对角色建模工具和组织机构建模工具的开发接口。 角色建模工具建立参与业务流程的人员角色,使得流程的管理与具体的人员分离,可以通过管理工具灵活的变化流程角色,使岗位职能转变等变化很容 易被适应。角色建模工具与电子政务平台中安全体系提供的统一用户管理平台相连接,能够读取或更新统一用户数据库中的数据,保证用户信息的集中管理。;组织机构建模工具可以利用图形化的形式定义组织机构图,让用户以图形化的方式为政府几个部门及单位建立组织机构图,组织机构图能显示使用者的职责、职称及从属关系等。管理者可以根据工作流使用者在不同工作流程中需要完成的任务,为其赋予角色。 流程设计器中的对角色建模工具和组织机构建模工具提供的开发接口。使得角色建模工具和组织机构建模工具定义的角色和工作节点可以有效地加入到数据流过程 中来。 XML数据(表单)处理 CIP 数据交换器提供提供了强大的 XML 数据处理能力。包括: XML 数据(文档)的查找 XML 数据(文档)的校验 XML 数据(文档)的转换 XML 数据(文档)的复制 /复合 XML 数据(文档)的操作日志记录 XML 数据(文档)的事件触发 上述功能实现了对流入数据交换中心来的 XML 数据(文档)的处理和转换工作。基于 XML 数据与表现形式分离的特性,对 XML 数据的处理与对 XML页面表现模板的设计可以完全分离。因此, XML 数据处理结果可以多种表现形式灵活地呈现,从而使得 CIP 数据交换器能够十分方便地与各类基于 XML 的图形化表单和界面设计工具进行集成。基于 CIP 数据交换器的表单开发工具可以实现: 所见即所得的文档和表格设计 多文档复合信息支持 多种业务文档类型 文档与 XML 数据的连接与输入自动感知 复杂文档窗体的设计 文档视图动态测试 业务文档事件 交换标准管理 采用 CIP 数据交换器提供的标准管理模块,可以方便高效地维护 gXL 标准。CIP 数据交换器提供的标准管理功能包括: 浏览、新建、修改标准。 用户定义标准的合法性校验。 用户权限控制、修改日志记录等功能。 标准及其原信息存储在标准库 (gML Standard Repository)中。 标准的编辑。使用 XML Schema 编辑工具编辑标准。 可以通过 Web 管理界面进行远程维护。 2.3.6 数据交换节点(各委办局)数据交换适配器配置 由于各委办局的信息系统建设的时间阶段不同,其采用的技术也差别很大,老系统一般是 C/S 架 构,新系统可能采用 JAVA 技术或 .Net 技术,总之,因此委办局和部门各自的信息系统对 SOAP 技术的支持程度也不尽相同。 针对此情况,我们提出两种方案来进行委办局系统数据交换器的配置工作: 老系统( C/S 结构)或不直接支持 SOAP 技术的系统 对于此类系统可以采用 CIP 数据交换适配器(或其他支持对老系统进行Webservice 封装的 EAI 中间件产品),根据前面的介绍,该中间件可以为老系统创建可重用的服务或者将老系统中可向外发布的功能转换为 Web Services,因此,可以通过 CIP 数据交换适配器为委办局已有系 统配置具有数据交换功能的 Web Service,实现与数据中心进行数据交换的功能(可参见 CIP 数据交换适配器的产品说明)。 图 10 CIP 数据交换适配器对遗留系统的封装 支持 SOAP 技术的系统 对于新构建的系统,往往是采用 J2EE 架构或 .NET 架构,体系上都为三层或多层,因此都可以对 SOAP 或 HTTP 技术提供较好的支持,因此既可以采用 CIP数据交换适配器抽取和配置具有数据交换功能的 Web Service,也可以直接构建数据交换 SOAP 服务器来实现数据交换器功能。 图 10 对新系统的连接 2.3.7 CIP IESD 平台构建电子政务数据交换系统的特点 有优异的性能,强大的可扩展性和可靠性,能够实现应用系统间的无缝衔接,兼俱开放性与灵活性 利用组件包裹技术,无需对原有程序代码做出修改即可重新使用原来的工作流程中的业务逻辑和业务数据。同时将应用转化为服务,使之能够与其他新建立的服务一起接受各种应用的访问,从而高效率地管理了 各 种 资 源 工程实施周期短 通过可靠消息代理技术的方式提供多种市政府业务之间的同步 /异步的通讯方式 易学易用,适合 政府技术人员和系统维护人员掌握 支持 WAP 设备(如 WAP 移动电话, PDA)与相关后台应用程序的集成。通过内建 JAVA 类,可产生 WML 页面给 WAP 设备。 通过 SOAP 安全机制,可与电子政务平台中安全支撑服务(授权、登录系统等)无缝衔接。实现可信的数据交换。 2.4数据中心系统设计 2.4.1 需要解决的问题 市电子政务数据中心必须满足电子政务平台进行数据交换的需要,同时还必须满足在平台上建立的各业务系统进行综合业务处理的要求。为门户系统提供各种静态和动态的数据、信息。所谓静态信息是指对电子政务的运行中不 经常变化,供各个业务系统查询、处理的数据或信息:政策、法规、元数据、资料库、各种多媒体数据等,它们会随着时间而逐步增大。所谓动态数据是指随着运行而增加、修改的数据:并联审批中文件流转状态数据,反映企业、个人所处状态的数据,国民经济运行状态的数据等。动态数据同各个局委办的信息密切相关,但又是面向主题的,如市社会保险这个主题,实际上同保险、工资、税务和银行密切相关;个人信用使用主题,它的数据与银行、税务、个人消费、个人收入密切相关。而数据仓库显然也有面向主题的定义,但这些主题是较长时间的,具有战略定义的主题 。因此,数据中心的建设,首先要解决数据库异构信息类型的分类存储和检索体系以及针对不同类型数据模型的设计这一基本问题。 另一方面,数据中心管理着大量的结构化和非结构化信息。所谓非结构化信息,是相对于那些有清晰的结构和类型定义以及有数据相关性的明确描述的信息类型而言的。比如,在财税分析系统中,财政收支情况的月度数据,可以理解为一种有清晰结构的信息;而一份综合性包含了文字、报表、分析图形的财政收支分析报告则是一种非结构化的信息。网站上发布的信息,如新闻动态、政务公开等等,一般也是非结构化的信息。 此外,非结构化信 息中还包括了一类对象数据信息。所谓对象数据信息,是指一个包含了内敛结构的专门数据块,这个数据块单独无法建立与别的数据项的关联关系,并且需要工作在特定的工作模块下。比如: GIS 空间定义信息数据、多媒体的声像数据等,均为对象类型的数据。 在政府决策应用中,非结构化信息将占到相当的比例。所有的政府文件均属于非结构化信息,政策法规属于非结构化信息,一些决策分析的综合性资料也是非结构化信息。 与结构化信息相比,非结构化信息的管理利用存在一些难点,就是: ( 1)定义管理的难度 “非结构”化表明了没有一种象关系数据库规范 那样的定义模型来对非结构化信息进行定义管理。虽然你可以强制对一个非结构化的信息块进行解构,将其分成类似头、中、尾这样的半结构。但是这种解构只有在制定了具有普遍含义的结构描述定义后才有真正的意义。 对非结构化信息进行定义管理的另一个难点在于数据元类型无法穷举。不象关系型数据系统中,对数据元类型有完整清晰的定义。在非结构化信息中,包含了错综复杂的数据元类型。比如,仅文档类型就包括 Text、 Word、 PDF、 Excel、Word Pro 等等,还有各种图片文件格式、多媒体压缩信息格式等等。此外,在象网页这样的非结构 化信息中,所有的信息都是文字类型,设定时间、数字等类型的信息元并不具有运算上的意义。 ( 2)存储管理的难度 对信息进行存储管理的前提是能够建立有效的数据定义,然后才能进行非结构化信息的组织存放。而前面已经提到了在非结构化信息的数据定义方面存在的难度,因此也就造成了在非结构化信息存储管理方面的困难。 当然,对非结构化信息最简单的存储方式是直接存放在文件系统中。这样做避免了依据主题等分类因素对非结构化信息进行管理的问题,但也是最最低效的一种存储管理方式。 在非结构化信息的存储管理中还涉及到一个问题,由于这些信息 元(如果对非结构化信息进行一定的半结构化处理后)的数据可能来自关系型数据系统(比如 Oracle)、对象数据系统(多媒体数据或空间数据)乃至文档数据系统(比如Notes),所以一个非结构化信息的存储管理系统将充当一个数据的汇整者,需要具备联合各个外部数据系统的功能。缺乏对非结构化信息的有效管理造成的直接结果就是无法对非结构化信息进行有效检索。 ( 3)信息检索的难度 由于不能像关系数据库那样建立起清晰定义的数据主题,非结构化信息的检索依照的只能是机械的全文内容检索。 这是对信息检索非常不利的一点。虽然对信息内容 的全文检索可以做到资料检索的遍历,但其检索的效率和命中率是很低的。由于不象关系数据库那样有一种象 SQL(结构化查询语言)那样强大的关联检索工具,并且在定义数据时也没有建立数据项之间的关联关系,要具有针对性地查询非结构化信息的内容,必须要依靠应用程序中设置对特定非结构化信息类型进行专门处理的功能内容,才可能提高信息检索的强度和效率。但另一方面讲,一种专用于理解特定非结构化信息类型的处理模块,无论在运行效率还是在可维护性上,都是非常不现实的。非结构化信息检索的另一个难度也是与数据元类型的多样性有关的。比如,不同的文档类型结构需要不同的全文索引工作模块。这也无形中加大了对非结构化信息进行检索的难度。 因此,数据中心的建设,还必须从技术体系上解决如何对非结构化信息进行有效定义、有效管理和有效利用的基本问题。 2.4.3 数据中心数据库类型划分 图 11 数据中心数据库类型划分 如上图所示,数据中心中的数据库按所服务的业务功能,可以大致分为如下种类: 办公数据:记录政府系统办公的数据。如并联审批,用户使用状态日志以及进行平台管理、电子政务系统维护管理的数据。 面向主题操作数据库:存有经常使用的业务数据,可存在数据 中心,但大量的是以目录形式存储,而其数据总是存在各局委办,这样既保证了数据的动态更新的一致性,也保证了数据的安全性。面向主题操作数据库的数据来自数据交换过程中的 XML 文档和信息,因此,操作数据库必须具有良好的对 XML 标准的支持,才能保证信息存储、交换和检索的高效和准确。 元数据库:它包括政务叙词表(如机关公文主题词表、宏了经济主题词表、行业主题词表、社会事业主题词表以及科学与技术主题词表)、信息分类、代码和指标体系表(如国民经济行业分类代码、联合国及各国海关协调制度分类与代码、全国行政区划分类与代码、全国工 农业产品 /商品分类代码、各主导行业信息分类与代码以及文件格式及其结构描述规范代码等),主要用于各职能部门的信息联接与交换。由于电子政务数据交换依托 XML 标准,而 XML 也具备良好的元数据定义和管理能力。因此,有必要将元数据库中的元数据按 XML 标准进行定义、存储和检索。 资料和文档库:资料文档主要包括国家的政策的指令,湖北省和市的资料和条文等信息,是各级工作人员办理各种业务的依据,也是学习国家和省市政策和法规的途径。资料和文档库主要有以下一些特点: 以非结构化文档形式存储 资料的共享性要求 涉密资料的安全存 储 支持智能和模糊查询 基于上述特点,在全市建设一个统一的资料库。这样做得好处在于便于统一管理,尽可能提供资料共享。 多媒体数据库:它包括各种政务图像、视频,用于宣传报道和视频点播。它还可以用于管理空间地理数据。 数据仓库:数据仓库的使用者主要是机关单位、市委领导等决策相关人员,为他们提供在业务办公基础数据库的基础上各种层次汇总的数据,帮助他们进行各种决策支持。 UDDI:提供对整个电子政务系统中的 Webservice 服务注册信息的管理和存储。 2.4.4 数据中心基础数据库服务器的选择 根据我们对数据中心所 面临的问题的分析和对数据中心数据库类型的划分,我们认为,数据中心基础数据库服务器应该具有强大的 XML 数据存储和处理能力,这是一般关系型数据库所不具备的。必须选择一种基于 XML 的数据库系统作为数据中心建设的基础数据库服务器,由这种基础服务器存储和管理基于XML 的面向主题的动态交换信息、非结构化信息和元数据,同时,将实时性要求不高的静态结构化数据和数据仓库存储在关系型数据库内,如 ORACLE、 DB2等。 Tamino XML Server 是目前世界一流的 XML 数据库,选择它作为数据中心基础数据库服务器相对关系型 数据库而言具有明显的技术优势,包括: 基于 XML 的应用程序开发更为快速,尤其是基于 XML 标准的应用,如 Web service 等。 Tamino 易于学习。这是由于采用了 XML 规范和众所周知的 XML 标准( XPath, XML Schema, DTD) 应用程序之间交换的 XML数据和消息可以立即存储在 Tamino中并进行检索,不必进行复杂的数据库结构设计。 高度复杂的数据结构可以使用户以更快、更方便的方式进行存储和获取,如同在 SQL 数据库中一样。 可以同时进行结构化( XPath)和非结构化查询(全文)。 Tamino 有很好的跨平台能力,可运行于所有重要的平台上。同时,Tamino 同所有主要关系型数据库通过标准 XML接口可以互相访问和进行数据存取。 可与 XML 签名技术进行集成,提高数据安全性。 支持现有的 XML Schema, DTD 和相应的 XML 文档。加载时间在几分钟之内。 Tamino 可直接连接到 Internet,提供与 URL 相同的 XML 和非 XML数据访问方式。 正是因为以上优势使得 CIP IESD平台使用 Tamino作为数据存储和处理的核心,有效地提高了系统平台的综合能力。 2.4.5 数据中心功能体系结构 数 据中心的建立是电子政务信息平台建设的核心内容之一,一个体系完整、标准统一、内容实时、流程规范的数据中心数据库系统对于政府各部门的大量信息在信息平台内的流动、交换、发布、管理具有重要的意义。同时,政务数据仓库建立在各政务资源数据库基础之上,为实体政府实行全社会的电子化管理提供政务信息数据资源的采集、分析、管理、挖掘和决策支持。 图 12 数据中心功能模块划分 如上图所示,数据中心中需构建下述功能服务系统 : UDDI 注册服务系统 元数据共享服务系统 数据挖掘和决策支持系统 多媒体数据管理系统 动态数据管 理系统 运行管理系统 UDDI注册中心 .1 UDDI 介绍 UDDI(统一描述、发现和集成协议)是一个广泛的,开放的行业计划,它使得 业务 实体能够 作到: 彼此发现 需要使用的 Web Service; 定义 Web Service 在 Internet 上互相作用,并在一个注册体系架构中共享信息。 UDDI 是一种基础的系统构筑模块,使业务实体能够快速,方便地使用他们自身的应用软件来发现合适的 业务 对等实体,并与其实施电子化的 协同工作 。 UDDI 中的数据可以看作服务元数据。 .2 系统 结构和功能 该系统通过分类注册不同的部门的服务元数据,为消费者提供该服务的信息。其系统结构如下图所示: 图 13 UDDI 注册中心结构图 利用 Tamino 提供的 UDDI API 可以在数据中心数据库上快速建立 UDDI 注册中心。构建 UDDI 注册中心包括了下述规范和功能: UDDI 的规范 UDDI 的 Schema,例如: 图 14 UDDI Schema 示例 该 Schema 主要是来定义需要注册的部门实体的信息。 图 15 UDDI Schema 示例 该 Schema 主要是来定义 UDDI 中遇到的服务规范。 UDDI 的注册 包括注册部门实体名称、联系方法等,将该业务实体存储到 UDDI 注册中心,只有注册到 UDDI 中心的业务实体才可能被其他用户查询的到。 服务的发布 经过注册的部门实体可以发布自己的 Web 服务。 基于 XML和 Web Service的元数据共享服务系统 .1 元数据技术 元数据 (Metadata)是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具。 在本系统架构 中,元数据分为两类:一类是描述 Web Service 服务的服务元数据,另一类是描述分布在各个委办局的信息的数据元数据。其中数据元数据又分为两种:核心元数据和内容元数据:内容元数据是对相关行业的国际或国家元数据标准进行合理的裁减或增补后得到的对实际数据的业务相关的元数据描述,核心元数据是从内容元数据中抽取来得,是对分布在各委办局的信息的一种通用描述方法。 在这个系统中,服务元数据就存在位于信息资源中心的 UDDI 注册库中,数据元数据保存在中心的元数据库中。当完成元数据查询,需要获取原始数据时,将通过 SOAP 协议 来调用委办局提供的数据获取 Web Service 来实现。 .2 元数据标准 本系统以 Dublin Core 为基础,参考其他元数据标准,结合实际需要,定义了公务资源元数据规范(对于本系统来说,也可以采用其他的元数据标准)。 标题 名称:标题 标识: title 定义:赋于资源的名称。 解释:一般而言,这一名称指的是资源对象的正式公开的名称。 作者 名称:作者 标识: Creator 定义:制作资源内容的主要责任实体。 解释:创作、制作者包括个人、组织或机构。应该是用于标识创作、制作者实体的具有代表性的 名称。 主题 名称:主题 标识: subject 定义:资源内容的主题。 解释:一般而言,一个主题和关键词通常采用描述资源内容的关键词,短语或分类号。推荐主题和关键词最好是取自于一个受控词表或是一个规范的分类体系。 说明 名称:说明 标识: Description 定义:有关资源内容的说明。 解释:可以包括但并不限于:摘要,内容目次,内容图示或内容的文字说明。 发行者 名称:发行者 标识: publisher 定义:对资源内容负有发行责任的实体。 解释:包括个人、组织或机构。应是用于标识发行者实体的有代表性的名称 。 参与者 名称:参与者 标识: contributor 定义:对资源内容负有发行责任的实体。 解释:如包括个人、组织或机构的出版者。应是用于标识出版者实体的有代表性的名称。 日期 名称:日期 标识: Date 定义:与资源使用期限相关的日期、时间。 解释: 资源产生或有效使用的日期、时间。推荐使用 ISO 8601W3CDFT定义的编码形式,跟随的是 YYYY-MM-DD 形式。 类型 名称:类型 标识: type 定义:资源内容方面的特征或体裁。 解释:类型包括种类、功能、体裁或作品集成级别等描述性术语。推荐从 可控词表(如 Dublin Core TypesDCT1)中选用有关术语。对于资源物理或数字化方面表示,采用 格式 项描述。 格式 名称:说明 标识: format 定义:资源物理或数字化的特有表示。 解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间。 标识 名称:标识 标识: Identifier 定义:依据有关规定分配给资源的标识性信息。 解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。如正规标识系统包括统一资源标识( URI),统一资源地址( URL)、数字对象标识( DOI)以及国际标准书号( ISBN)、国际标准刊号( ISSN)等。 来源 名称:来源 标识: source 定义:可获取现存资源的有关信息。 解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确定的字符或号码标引资源来源信息。 语言 备用,目前只有汉语资源,无其他语言的资源。 名称:语言 标识: type 定义:资源知识内容使用的语种。 解释:推荐使用由 RFC1766 定义的语种代码,它由两位字符(源自ISO639)组成。随后可选用两字符的国家代码(源自 ISO 3166)。如 en表示英语, fr表示法语。 相关资源 名称:相关资源 标识: relation 定义:对相关资源的参照。 解释:推荐用依据正规标识系统确定的字符或号码标引资源参照信息。 范围 名称:范围 标识: coverage 定义:资源内容的领域或范围。 解释:范围包括空间定位(地名或地理座标),时代(年代、日期或日期范围)或权限范围。 权限 名称:权限 标识: rights 定义:有关资源本身所有的或被赋予的权限信息。 解释:版权项包括资源版权管理的说明。版权信息通常包含智力知识内容所有权( IPR)、著作权和各种拥有权。如果缺少版权项,就意味着不考虑有关资源的上述版权和其它权力。 .3 元数据维护纪录 1. 简介 元数据从新建到提交、审核、修改存在一个生存周期,因此定义了一组属性来记录这个过程,供元数据管理系统使用。 2. 属性 名称 标记 说明 类型 纪录号 Id String 状态 Status Submitted 提交 Valid 有效 Disable 禁用 提交时间 submitTime Time 提交者 submitUser String 审核时间 verifyTime Time 审核者 verifyUser String 最近修改时间 lastModifiedTime Time 最近修改者 lastModifiedUser String .4 元数据服务系统 1、 概述 该系统采用 J2EE 构架,两级元数据方式,即核心元数据和各委办局的内容元数据。核心元数据以 Dublin Core 为参考,建立公务信息元数据规范。例如: 北京市 2002年政府工作报告 政府 办公厅 总结了 2002年北京市政府的工作,完成了 data1/reportuid=3501 图 16 元数据定义示例 该系统的工作机理是,当用户进入元数据服务系统后,通过关键字查到核心元数据,然后根据元数据想查到那个部门的内容元数据,只需要点击某个核心的元数据。这时通过 SOAP 就可以把所需要的数据 从委办局的数据库中调出。由于SOAP 是标准 XML 形式,这就解决了的不同类型和格式的数据交换的问题。 2、 元数据的管理 数据中心的核心数据库需要对来自各委办局的核心元数据进行管理。 只有通过对各委办局核心元数据进行良好的管理,保证元数据的质量,才能保障核心数据库的数据质量。 各委办局利用 SOAP 协议可以主动发送数据到数据中心的核心数据库。 数据中心管理界面也可以通过 SOAP 服务自动获取各委办局的内容元数据和实际内容数据。 3、 核心元数据的服务 用户通过调用数据中心的元数据查询服务,输入关键字,执行查询服务就可以查询 到存放在纯 XML 数据库 Tamino 中的核心元数据,并可将查询到的核心元数据结果返回给用户。 数据中心提供核心元数据注册和管理 Web Service,使委办局可以及时、准确地向数据中心发布和维护其核心元数据。 4、 内容元数据和内容数据的服务 用户可以通过调用以 Web Service形式发布的各委办局的内容元数据服务来对内容元数据进行访问,如果这个内容元数据服务已经与绑定好了,那么直接通过 SOAP 就可查到委办局的内容元数据;如果该内容元数据服务还没绑定,则需要查询 UDDI 注册中心,查到该服务,下载服务对应的 WSDL,然后再绑定该内容元数据服务,查询该内容元数据。 在完成内容元数据查询后,可以通过 Web Service 查到委办局的实际内容数据,如果该服务还没绑定,需要查询 UDDI,查到该服务,下载 WSDL,绑定该服务,查询该实际内容数据。 动态数据管理系统 动态数据管理系统直接管理面向主题的操作数据库,动态数据管理系统管理的数据来自于数据交换平台中的动态信息。通过动态数据管理系统,可以对业务系统数据模型进行定义,建立各局委办业务数据库同操作数据库中的映射关系,从而建立和维护面向主题的操作数据库。同 时,动态数据管理系统也能够通过操作数据库向数据仓库提供数据,形成决策数据的积累。面向主题操作数据库及其动态数据管理系统的系统定位如下图所示: 图 17 面向主题操作数据库及其动态数据管理系统的系统定位 面向主题的操作数据库一方面需要与数据交换系统交换大量的基于 XML标准的数据和文档,吞吐能力和存储能力要求很高;另一方面,又要依据元数据的定义与各局委办数据库建立映射关系,保持与各局委办数据的一致性要求。这就要求面向主题的操作数据库应该直接建立在纯 XML 数据库之上,同时,依靠XML 数据库提供的动态数据管理系 统来管理和维护。 图 18 动态数据管理系统的功能结构 如上图所示,动态数据管理系统包括了以下功能模块: ( 1)数据收集和预处理模块 这个模块负责根据结构化、半结构化信息定义的内容从各个外部数据资源中获取相关的 XML 数据。数据资源可以是来自各个外部数据系统或文件系统的资料,比如,可以从关系型数据库中获得关系表的数据资料,可以从文件系统中取得诸如 html、 xml 或 Word、 Excel、 PDF 或图片文件等资料,或者从 GIS 系统的空间数据库或视频资料库中获得工作于多媒体、 GIS 系统的对象资料等等。 通过将来自各个 数据源的资料联合定义到一个用 XML Schema 来描述的半结构化的主题之下,将一些种类各异、结构各异、内容封闭的独立信息块,按一定方式组织起来。这就是这个模块的基本作用。 在做数据存入的过程中,这些外部数据资源可以被复制迁移进非结构化信息管理系统内部的数据存储服务器中;也可以只是将有关外部数据源的描述信息记录进来,当进行数据检索时,再到相应的外部资源中去获得数据。 具体功能如下: 完成对不同外部数据源的连接访问,包括对关系型数据库( Oracle,SQL Server 等)、文件系统和 GIS、多媒体信息库的访问 能力 根据半结构化信息定义的 XML 结构主题,对来自外部数据源的信息内容进行半结构化预处理,形成具有 XML 结构的内容 根据需要将外部数据源的资料内容按非结构化信息管理系统的内部约定存放格式导入 Tominal XML 数据库 ( 2)数据处理和管理模块 负责对信息资源进行定义,以及完成非结构化信息的 XML 主题维护。这里的信息资源定义,是针对外部数据源上的数据资料资源。需要定义这些外部数据资源的类型、位置、资源项目名称,比如关系型数据库的 JDBC 连接串、连接账号、内部数据表名等等。 这里定义完成的 XML Schema 就好比关系数据库中的表定义,将作为对非结构化信息内容进行分类组织管理的基本标准。当进行数据资源的倒入时,将按照这些主题定义的结构对倒入内容进行预处理;当进行数据资源的检索查询时,将可根据这些主题定义的结构对非结构化信息进行索引查询。 具体功能包括: 外部信息资源的查找、维护管理工具,实现外部资源的定义、修改、删除 半结构化信息主题的定义维护,结合对信息资源的定义,设定、修改、删除以 XML Schema 方式定义的数据主题格式 对工具访问的访问控制及操作审计功能 ( 3)数据挖掘分析模块 数据挖掘分析将被用于综合 查询和统计分析中,帮助建立分析模型、引入分析数据。在数据挖掘分析中,挖掘系统建立分析模型的信息元,可能来自于非结构化信息管理系统的某个数据主题中。通过从非结构化信息管理系统中导出此项数据主题(或主题中的某个数据片断),就可以将信息元建入分析模型中。同样的原因,分析模型的数据引入也离不开非结构化信息系统的支持。 ( 4) 数据导出模块 实现响应外部数据请求从而导出数据内容的管理功能。当外部数据库中需要包含非结构化信息的数据内容时,通过与数据导出模块的交互,实现向外部数据源的数据导出。 实现的功能包括: 按照非结 构化信息查询条件,对导出内容进行过滤 导出非结构化信息内容中某个片断 对导出权限的控制及审计记录 向包括多种关系型数据库如 Oracle 等在内的外部数据源导出数据的能力 (5) 信息发布模块 用户可以自由定义需要发布 /管理的数据的格式,可以对新闻、多媒体新闻、政务数据等各类数据进行分类管理,统一发布。 系统应支持动态信息发布,可以将数据通过数据库同步机制和复制机制将数据发布到远程的数据库服务器上,从而在远程的门户服务器中的信息发布系统可以使用动态检索进行数据发布。 采用动态数据发布,因为是将数据发布到远程的数 据库中,因此可以实现在web 发布端提供全面的数据库检索功能。而且如果采用数据库同步的机制进行动态数据发布,那么能够更好的体现信息的实效性。 除了数据库同步外,信息发布模块也支持对发布内容进行 Web service 封装,使得门户系统通过对 Web Service 的调用来实现信息的获取。 信息发布模块实现的功能包括: 发布数据的定制 用户可以自由定义需要发布 /管理的数据的格式,可以对新闻、多媒体新闻、政务数据等各类数据进行分类管理,统一发布。 发布数据类型的添加 管理员可以随时添加新的发布数据类型,使网站改版和扩 充非常容易。 数据录入可视化 支持可视化图片管理 html、 txt、 Microsoft word、方正 ps、 s2 文件的导入, html文件格式的导出 支持可视化编辑、 html 源文件编辑间的切换 支持图片的层管理 支持表格操作、表格的格式属性设置 支持系统内部、系统外部的 URL 管理 支持段落的格式属性设置 支持字体的格式属性设置 数据容量没有限制 模板编辑的可视化 模板制作支持可视化编辑,提供了字体、配色、表格、布局、风格、图片等的可视化操作。支持 HTML 文件、文本文件、 PS 文件、 Word 文件的导入。可将制作的 模板导出保存为 XML 格式的文件。 相关数据检索 提供自定义条件的稿件检索,检索脚本生成器等功能。 即时预览 在稿件录入过程中,可随时通过点击“稿件预览”、“栏目预览”等按钮,查看稿件的最终合成效果。 通过上述功能的组合,在数据中心里建立和维护起来的面向主题的操作数据库能够以纯粹且标准的 XML 格式进行信息储存与撷取,而不需要间接转化成其它格式。操作数据库也提供接口模块容许从不同的信息来源存取外部信息,诸如Oracle, DB2, MSSQLServer。操作数据库能够通过对 HTTP/SOAP 网关 (web server)的访问处理大量的输入、输出信息。除此之外,操作数据库也可以处理结构化与非结构化信息 (如影像、声音等多媒体信息 );可以通过 URL 及部份 HTTP要求进行储存对象的修改;可以通过 XQL 查询语言对一般性结构对象或特殊属性的 XML 对象来进行复杂查询 (如全文检索功能 )。操作数据库的存取模块支持Http V1.0 与 V1.1 协议,通过标准的 Web server 就可以将操作数据库与网络结合。操作数据库数据对象可直接经由 URL 存取,甚至可以把储存在信息资源数据库内的传统信息转换成网络对象。 总之,面向主题的操作数据 库将成为数据中心里基于 XML 的重要的信息服务器。 数据挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论