数据中心方案设计_第1页
数据中心方案设计_第2页
数据中心方案设计_第3页
数据中心方案设计_第4页
数据中心方案设计_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中心方案设计数据中心方案设计全文共26页,当前为第1页。数据中心方案设计全文共26页,当前为第1页。数据中心方案设计Bychja、系统拓扑图b、数据中心方案设计全文共26页,当前为第2页。4.5.1设计目标

建立一个集中分散、异构、可扩充、可集成、有统一数据模型、有多种角度视图的、可交换的和安全可靠的复合数据库系统。它将成为政府各种业务系统、政府部门之间协同工作的数据中心,是政府门户的信息中心,多媒体、文档资料和政策法规的存储中心和预测决策所需的数据仓库中心。

4.5.2数据中心设计基础

4.5.2.1现状分析

对于一个完整的电子政务系统来说,统一的框架和相应的数据模式是十分重要的。电子政务的构建,正经历着由以技术为中心向以数据为中心的方向转变,没有数据也就没有信息,也就没有政府网站及电子政府。数据中心在电子政务系统中处于中心地位,具有公共数据(信息)库、模型库、文件交换站以及发布信息的政府门户网站的功能,各数据源将自己的数据上传给数据中心,而各部门根据自己的需要从数据中心获取数据,实施自己的应用。

按信息的应用属性,可将电子政务的数据类型分为空间数据、基础数据、政务数据、专题数据和多媒体语音数据。整合政务信息资源,建设和改造政务数据库,并建立人口、法人机构、空间地理和自然资源、以及宏观经济四个基础数据库,将成为我国今后数年电子政务建设的关键。

由于我国政府各部门对信息化建设的深远意义认识不够,以及政务建设有一个发展过程,造成了政府各部门、城市各行业信息化发展步调不一,从而使政务信息化建设存在一些问题:

㈠、信息的共享、公开没有立发,信息采集、储存标准不统一,造成了互联互通不畅,共享程度低。

㈡、信息共享机制尚未建立,各职能部门内部的信息相对封闭,产生了信息孤岛效应,造成了信息资源的巨大浪费。

㈢、大部分单位业务应用系统还未形成一个内部资源共享、有效运行的整体,需要在电子政务设计建设的过场中进行整合和改造。

㈣、网络建设各自为政,结构不合理,互连互通十分困难。

㈤、安全性存在隐患,人门还不放心在网上共享数据。

基于以上问题,需要在法律、技术、设备、管理等多方面加以考虑。

数据中心方案设计全文共数据中心方案设计全文共26页,当前为第2页。数据中心方案设计全文共26页,当前为第3页。4.5.2.2资源分类

数据中心是电子政务数据资源建设的基础,它是各类信息采集、加工和整合的平台。数据中心资源大致可分为三大类,一是元数据库、政务叙词表和分类体系与代码表,二是GIS平台,三是服务资源。

(1)元数据库

考虑到今后各职能部门的信息联接与交换,电子政务元数据库必需严格定义并向全网开放,否则将造成今后机构间数据交换无法实现。具体内容请参见4.3.3和4.3.4节。数据中心方案设计全文共26页,当前为第4页。(2)政务叙词表

电子政务与电子商务的一个显著不同是前者是为主题所驱动的,而后者是交易驱动的。在主题驱动系统中,规范主题词(叙词)库是至关重要的,因为它是库内资源组织、管理以及库际资源交换的基础。规范政务叙词表即是对所有入库资源进行科学标引、描述与分类,通过叙词严格的语义内涵和位属关联,建立所有资源在主题层的映射关系,对各类信息产品和服务过程起到基准性、规范性、参照性、结构性和工具性的支持作用,以实现全库资源的有序化,并提升其可用性。

如"Internet"有"因特网"、"互联网"、"网际网路"等名称,仅以其中一个名称进行全文检索、关键词检索等并不能保证文献的查全率。而严格定义的叙词表会在这些表达间建立关联,同时还会给出相关同位词,如"Internet"的同位词有"Intranet"(即"内部网"、"企业网"、"内联网"、"内特网"等),以及"Extranet"("外部网"、"外联网"、"外特网")等数据中心方案设计全文共26页,当前为第4页。(3)信息分类、代码和指标体系表

分类与代码对于库中信息的组织管理和服务是极其重要的,同时,随着国际经济一体化进程的加快,与国际标准信息分类体系的兼容问题也日益重要。这些分类代码体系涉及到国民经济行业分类代码、联合国及各国海关协调制度(HS)分类与代码、北美工业标准分类代码(NAICS体系)、全国行政区划分类与代码(扩展到乡镇级)、全国工农业产品/商品分类代码、各主导行业信息分类与代码以及文件格式及其结构描述规范代码等。

此外,各种指标体系与格式化文件对于政府的宏观管理和决策分析也是极其重要的。此类数据常以表格形式出现,并在各级机关部门中流转生成,它们之间的交换也以表格形式进行。所以,字段统一、代码统一、格式统一、定义统一的表格是主管部门从事经济分析、数据再处理和决策支持的前提。数据中心方案设计全文共26页,当前为第5页。(4)GIS平台

几乎所数据中心方案设计全文共26页,当前为第5页。(5)服务资源

电子政务系统的服务对象有4类:政府机构、公务员、公民、企业单位。服务资源即指直接为这4类客户提供服务的信息。其中包括政府系统办公数据、各类业务数据、国家政策指令,各种政务图像、视频,还包括电子商务、工商、税务、金融、海关、法律、卫生、医疗、教育、职业等基础设施服务信息。4.5.2.3数据特性

(1)静态数据与动态数据

电子政务数据中心必须满足电子政务平台进行数据交换的需要,同时还必须满足在平台上建立的各业务系统进行综合业务处理的要求,并为门户系统提供各种静态和动态的数据、信息。所谓静态信息是指对电子政务的运行中不经常变化,供各个业务系统查询、处理的数据或信息:政策、法规、元数据、资料库、各种多媒体数据等,它们会随着时间而逐步增大。所谓动态数据是指随着运行而增加、修改的数据:并联审批中文件流转状态数据,反映企业、个人所处状态的数据,国民经济运行状态的数据等。动态数据同各个局委办的信息密切相关,但又是面向主题的,如社会保险这个主题,实际上同保险、工资、税务和银行密切相关;个人信用使用主题,它的数据与银行、税务、个人消费、个人收入密切相关。数据中心方案设计全文共26页,当前为第6页。(2)微观应用与宏观应用的数据共享

政府业务中的信息应用有微观的应用与宏观应用之分,微观数据的应用主要是针对个案的事务处理。比如工商登记,业务申报,税务处理,个人劳保、补助、婚丧、驾照、护照、医疗等等。微观事务处理的业务既包含对社会市场秩序的监管,又包含对企业、对公众的服务。这类事务处理的工作主要是由基层的一线人员来承担的,其信息共享的特点是:由来自不同方面的信息要围绕一个主体来整合起来,比如将医疗卫生、计划生育、社会保障等信息依据人的身份证号码整合起来,这就构成了以人为主题的数据库。同样还可以建立以法人为主题的数据库来整合法人的信息咨询。实际上,微观信息共享的核心是将不同来源的数据资源,整合为主题数据库。

微观数据的收集经常是由不同的主管部门来做的,如公安、税务、卫生部门、社保部门、工商部门等。要让这些部门收集的数据依据主题(主体)整合起来并不是容易的,首先必须要解决这些部门主观上的抵制,这是一个政务改革与利益处置的问题。在技术上,要求有非常标准化的唯一的主体编码,并要开放数据结构,这样才有利于可共享的主题数据库的诞生。进一步,我们应当尽量通过一表式的调查、登记,将尽可能多的数据集中地通过一次调查来完成,从而能尽量地节约成本。由于管理的角度不一样,我们很难通过一个主题数据来集中所有的共享数据,也许,我们还是需要几个系统来分别处理各自的业务,但是,经过数据整合设计之后的系统,肯定能够降低数据收集的总成本,并为微观业务提供更数据中心方案设计全文共26页,当前为第6页。数据中心方案设计全文共26页,当前为第7页。宏观应用的数据共享,主要是为领导层服务,希望通过共享数据资源来提高政府的决策水平。然而如何从纷繁庞杂的数据中挖掘出有用的信息进行预测分析,如何更好地管理和决策呢?我们可以选择数据仓库(DataWarehouse)作为决策支持系统的核心。数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。利用数据仓库,对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。

数据仓库的使用者主要是机关单位、市委领导等决策相关人员,为他们提供在业务办公基础数据库的基础上各种层次汇总的数据,帮助他们进行各种决策支持。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于现有的业务型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库主要有三方面的作用:首先,数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个集成信息的报表和图表;其次,数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用;第三,数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出预测。

虽然数据仓库也有面向主题的定义,但这些主题是较长时间的,具有战略定义的主题。

由以上分析可见,根据数据库的操作性、数据的语义,应该把数据库分为三大类:一般意义的数据库即关系数据库、文本数据库(DB);供综合业务系统和门户使用的面向主题的数据库(OSD);数据仓库,它是供内门户决策者使用的数据库(DW)。DB数据主要分布在各局委办,数据中心只有少量的;所以它是集中分布的。面向主题的操作数据库(OSD)是电子政务数据中心的主体,它是DB按主题映射的数据库;数据仓库建立在DB和OSD之上的主题数据库。

这三种数据库的关系描述如下:

面向主题的操作数据库是数据库体系的中间层,一方面包含全局一致的、细节的、当前或接近当前的数据;另一方面它是面向主题的,集成的数据环境,且数据量小,供各个综合业务系统查询处理使用,主要用作辅助完成日常决策的数据中心方案设计全文共26页,当前为第8页。数据中心方案设计全文共26页,当前为第7页。数据中心方案设计全文共26页,当前为第8页。(3)集中分布式数据管理

当我们的微观数据规模非常大的时候,依靠集中的数据处理会是很不方便的,我们可以将数据库建设分散化,由本地来进行数据收集、整理和数据库更新。然而,数据的使用却不能是地区化的,数据的查询是全国范围的。这样,共享数据的管理与共享数据的使用范围就会不一致。为了解决这一问题,可以考虑使用标准的目录数据库,统一结构的目录数据库将允许多层次分布式的建立自己的子系统,而又能自然形成一个整体,以支持统一的数据库查询,这对于建立大规模的主题数据库体系是非常有效的。数据就近的管理与联合统一的使用不仅会大大提高数据共享的范围,而且会有效地降低数据维护管理的成本。数据中心方案设计全文共26页,当前为第9页。(4)数据源的异构性

数据源异构性主要表现在两方面:

s系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之间的不同构成了系统异构。

s模式异构,数据源在存储模式上的不同。一般的存储模式包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注意的是,即便是同一类存储模式,它们的模式结构可能也存在着差异。例如Oracle所采用的数据类型与SQLServer所采用的数据类型并不是完全一致的。

4.5.2.4数据整合和集成需求

异构数据源的数据整合和集成的目的是为综合应用系统提供集成的、统一的、安全的、快捷的信息查询、数据挖掘和决策支持服务。为了满足这个需求条件,整合、集成后的数据必须保证一定的集成性、完整性、一致性和访问安全性。

1、集成性

各种原先孤立的业务信息系统数据经过整合、集成后,应该达到查询一个综合信息不必再到各个业务系统进行分别查询和人工处理,只要在数据中心中就可以直接访问到,即整合、集成后的数据是各异构业务数据的有机集成和关联存储(整合、发掘出各业务数据间的内在关联关系),而不是简单、孤立的堆放在一个数据库系统里。

2.完整性

包括数据完整性和约束完整性两方面。

s数据完整性是指完整提取数据本身,一般来说,这一点较容易达到。

s约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提高效率。

3.一致性

数据中心方案设计全文共26页,当前为第10页。不同业务信息资源之间存在着语义上的区别。这些语义上的不同会引起各种不完整甚至错误信息的产生,从简单的名字语义冲突(不同的名字代表相同的概念),到复杂的结构语义冲突(不同的模型表达同样的信息)。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交换。

整合、集成后的数据应该根据一定的数据转换模式和业务规则进行统一数据结构和字段语义编码转换。

4.访问安全性

由于数据库资源可能归属不同的单位,各业务数据系统有着各自的用户权限管理模式,访问和安全管理很不方便,不能集中、统一管理。所以既要保证能访问异构数据源中的数据,又要保障原有数据库的权限不被侵犯,实现对原有数据源访问权限的隔离和控制,就需要设计数据中心统一的用户安全管理模式来解决此问题。

值得注意的是,多个数据源之间的数据集成,并不是要将全部的数据进行集成,那么如何定义要集成的范围,就构成了集成内容的限定问题。

针对异构数据源的整合和集成需求,可以采用数据仓库技术和数据抽取工具来实现。另外,根据国务院17号文件精神,电子政务系统需要"整合信息资源,建立人口、法人单位、空间地理和自然资源、宏观经济四个基础数据库"。为什么选择这四个库而不选择别的数据库呢?这是基于基础性、公益性、战略性考虑的。由于这四个数据库对别的数据库建设来说是一种公共产品,其它数据库需要通过它的服务,在它的基础上不断发展,而产业库可以由中介机构来做。

4.5.2.5数据元标准化

很多信息的描述、定义、获取、表示形式由于缺乏统一、严格的标准,致使大量的信息数据处于分散的、部门所有的和各自为政的状态,造成数据信息资源浪费,不利于实现全社会的数据共享。为了提高政务信息的共享和集成分析,保证为政府的管理决策和社会各阶层提供科学准确的信息,迫切需要开发出一数据中心方案设计全文共26页,当前为第11页。种统一的、以标准数据元形式的对政务信息的表示方法,以支持政务信息的共享和交换。

数据元(DataElement)是表示概念的一类数据,其特性可由支持信息交换的一组数据元属性来表示。或者说数据元是一组可识别和可定义的数据基本单元。一般来说数据元由数据元的名称、属性、表示三部分组成。

数据元是用一组属性描述其定义、标示、表达和允许值的一个数据单元。组成数据元规范的基本属性分为标示类属性、定义类属性、关系类属性、表示类属性、管理类属性。当然还可以根据需要增加扩展属性。数据元属性应依照一种标准方式来注册和控制,以便数据元字典中的数据元在信息交换中保持一致性,并且能够在不同的数据管理环境中进行数据元管理。数据元的基本属性主要有以下几类:

s标示类,适用于数据元标示的属性。包括名称、标示符、版本、注册机构、同义名称、相关环境。

s定义类,描述数据元语义方面的属性。包括定义。

s关系类,描述数据元之间相互关联和(或)数据元与分类模式、数据元概念、对象、实体之间关联的属性包括分类模式、关键字、相关数据参照、关系类型。

s表示类,描述数据元表示方面的属性包括表示类别、表示形式、数据元值的数据类型、数据元值的最大长度、数据元值的最小长度、表示格式、数据元允许值。

s管理类,描述数据元管理与控制方面的属性包括主管机构、注数据中心方案设计全文共26页,当前为第9页。数据中心方案设计全文共26页,当前为第10页。数据中心方案设计全文共26页,当前为第11页。数据中心方案设计全文共26页,当前为第12页。数据元表示是在数据处理和信息交换过程中数据元所采用的格式。如数据的长度、数据的类型等都要给予说明,数据元的格式受数据元的属性及应用环境限定。

数据元可分为通用数据元和应用数据元。通用数据元是独立于任何具体的应用而存在的数据元,其功能是为应用领域的数据元设计也就是为应用数据元的设计提供一部通用数据元字典。应用数据元是在特定领域内使用的数据元集,例如在电子政务领域的应用。从这个意义上来讲国家标准《数据元及交换格式、信息交换、日期和时间表示法》就应该是一部通用数据元字典。所谓数据元的标准化就是对数据元的总则、定义、描述、分类、表示和注册等制定统一的标准,并加以贯彻、实施的过程。在大量繁杂的政务信息中,哪些概念可以作为我们定义数据元的基础,数据元概念的特性中哪一个可以继承下来作为派生的通用数据元的特性,通用数据元特性中的又有哪些可以被应用数据元所继承。以上这些问题都是数据元标准化过程所要解决的。数据中心方案设计全文共26页,当前为第13页。随着社会的发展,信息在社会各个行业中的作用不断提高,数据元标准也越来越引起各个行业的重视。人们认识到只要对信息按共同约定的规则进行统一组织、分类与表示,使用同一的概念,并用相同的表示,就能做到共识,不致产生歧义。这种简化的概念表述,提高了数据的准确性,有利于数据的共享、交换。

各政务系统所要处理的对象主要是数据,数据元标准所要起的作用就是用一个统一的标准来描述、定义、规范这些系统所要处理的数据,为系统间的数据共享、数据交换提供一个公用的信息接口。这个公用的信息接口的基础是政府部门的数据环境建设,而数据环境建设的基础就是用数据元标准来描述数据源数据中心方案设计全文共26页,当前为第13页。数据元的标准化过程起到了一个针对要处理的数据源进行规范化的作用。通过这个过程,规范了其中的概念、定义、以及知识的描述,形成了数据元词典,根据这个词典一方面数据库的内容的规范有了依据,另一方面数据库的结构也得到了规范。4.5.2.6模型设计基础

异类软件产品、应用程序、和数据库系统想要有效地互操作,它们必须要对彼此间的信息结构有一个共同的理解。元数据是描述数据的数据,或是与数据有关的信息,通常由信息的结构描述组成。元数据对不同厂商提供的异类软件系统和产品之间的集成起着不可或缺的作用。传统的四层元数据体系结构图如下:图4-9四层元数据体系结构l数据层(0层)是用户对象层,它表示的是"目标"数据,即我们所希望描述的信息。比如在特定关系数据库中表示为特定表的实例。例如,公民基本信息表中某个具体公民的信息,相当于公民基本信息表中的一条记录。

CitizenNoNameAgeAddress

张三28武汉

李四45北京数据中心方案设计全文共26页,当前为第14页。数据中心方案设计全文共26页,当前为第14页。l元模型(2层)包含了定义模型层的元数据,也就是表示M1层元数据的抽象语言。比如在关系数据库系统中,表示为特定数据库中表的定义、列的定义、主键的定义和外键的定义等。相当于UML元模型定义的很多元素如类,操作,属性,关联等等。

DataStoreComponent……

FileTable

Column

Attr

l元元模型层(3层)是由定义元数据结构和语法的描述组成,也可以说它是定义各种元数据的抽象语言。数据中心方案设计全文共26页,当前为第15页。传统的元数据集成

图4-10是数据中心中一个典型的信息供应链(ISC)的示例。信息从其源头(即原始数据的提供者)流出,经过一系列精炼过程,最终产生信息产品。这些产品可能对于高层决策者来说具有重大的战略价值。

图4-10数据中心中的信息供应链

以上每个软件产品和工具,在它们能在数据层上有效集成之前,必须在元数据层上被集成。元数据集成是有效的数据集成的一个先决条件。然而,元数据的集成是十分困难的,因为大多数的业务产品使用千差万别的格式存储元数据。具有不同元数据的工具,往往是通过建立复杂的元数据桥来集成的。元数据桥是一种能将一个产品的元数据转换成另一个产品所需元数据格式的一段软件。元数据桥的构建是一项艰巨、耗费大的过程。这样的桥需要具有它要集成的每个产品的元数据结构和接口的详细知识;关于不同模型间如何相互映射的知识也要融入桥中。

图4-11在信息供应链中增加一个元数据库

图4-11中使用了元数据库,它突出显示了定义对全局可获得的、和广泛被理解的元数据是有必要的。元数据库是具有特定目的的数据库,它存储、控制所处环境中,除它自身之外的所有相关的元数据组件,并对这些元数据组件是可获得的。从图中我们可以看到,各种软件产品从中央元数据库中提取全局数据,而不是通过与其它产品的点到点连接。这个存储库包含了定义信息供应链(可推广至数据中心)的所有元数据的单一定义。这个定义基于一个针对存储库产品本身数据中心方案设计全文共26页,当前为第15页。数据中心方案设计全文共26页,当前为第16页。基于模型的元数据集成

用一种形式化语言(如UML)描述的模型(图4-12)可以被用来定义描述某种信息结构或模式的元数据。这种形式化语言可以被翻译成相应的元数据定义,后者能被用来创建信息结构本身的真正的实例。这些各式各样的形式化模型通常是平台无关的,它们并不显示用来配置实际的信息结构的计算机平台的物理特性,因为形式化建模语言(如UML以及其它各种数据建模语言)的定义通常是与平台无关的。一个SQLDDL语句集可以被看成是一个与平台相关的模型,因为它们用一个特定计算机平台的语言定义目标信息结构(例如,一个与SQL兼容的关系数据库引擎)。将一个形式化模型转换为SQLDDL的假定的翻译过程,称为将与平台无关的模型映射为与平台相关的模型,该映射是基于翻译过程所实现的某些形式化映射的规则集。

图4-12简单关系数据表模型

由上我们可以得出三个非常重要的结论:

▅一个信息结构的任何形式化模型都是定义该信息结构的元数据(元数据本质上是它所描述的数据的一个形式化模型)

▅元数据,当用一个形式化的、与平台无关的模型表示时,可以独立于任何特定的目标平台而存在。

▅元数据,当用一个形式化的、与平台无关的模型表示时,可以被翻译成若干与平台相关的模型中的任何一个,每一个代表一个不同的目标平台(当然要特定适当的映射规则以及实现这些规则)。

元数据集成的一个可能的方法就是开发一个元数据的外部表示,它不依赖于任何一个特定的产品和工具。这样一个表示是基于信息结构的形式化的、与平台无关的模型,该模型用一种恰当的语言(如UML)描述。一个产品用这样一个形式化模型作为它自己的元数据的基础,通过调用一个恰当的导入映射(importmapping)过程将这个形式化模型翻译成它自己的、与产品相关的元数据的实例。类似的,一个产品可以通过一个将它自己的内部元数据翻译成一个与平台无关的形式化模型的导出映射(exportmapping)过程,将它所有的元数据显示给其它产品。

这个方案在哪些方面优于前面提到元数据桥解决方案呢?元数据桥的主要问题数据中心方案设计全文共26页,当前为第17页。是每座桥要在两个与产品相关的模型之间进行映射,桥本质上需要将元数据从一个产品的元模型规定的格式转换成另一个与产品相关的元模型所规定格式。现在,元模型本身被外部化(externalized),与特定的实现平台无关;并且,产品交换的元数据也基于这个公共的、外部的元模型,这样,在各自的实现模型间翻译的问题也就不存在了。

这种元数据级的集成和互操作方法称为模型驱动的元数据体系结构。从根本上说,它是由软件产品之间元数据的交换构成,这里的元数据定义是以形式化的、与平台无关的模型来表示的。参与的软件产品和工具就定义整个域的公共元模型达成一致,这样它们就能很方便的理解该元模型的任何实例(例如可能被交换的、任何共享的元数据)。任何产品将这个共享的元数据映射为它自己内部的元数据表式方式。这要求元模型在它的领域有一个完整的描述。

OMG的公共仓库元模型(CommonWarehouseMetamodel)CWM就是一个基于模型的元数据集成的实现典范,它是一个完整描述数据仓库和业务分析领域的元模型。作为一个元模型,CWM提供了构建元数据(例如模型或者元模型的实例)所需的语义和语法。

CWM实际上是由若干互不相同但又紧密相关的元模型构成。图4-13描述了CWM的总体结构,每一块代表CWM的一个元模型(或包)。由CWM某个包的得到的某特定的模型(例如,某个元模型的实例)定义了描述对应功能域中数据的元数据。例如,由关系元模型得到的某个模型是描述某些关系数据的实例(即产品数据表的行集合)的元数据。

管理层Management数据仓库处理包WarehouseProcess数据仓库操作包WarehouseOperation

分析层Analysis转换包Transformation联机分析、处理包OLAP数据挖掘包DataMining信息可视化包InformationVisualization业务命名规则包BusinessNomenclature

数据中心方案设计全文共26页,当前为第18页。资源层Resource对象包Object关系包Relational记录包Record多维包MultidimensionalXML包XML

基础层Foundation业务信息包BusinessInformation数据类型包DataType表达式包Expressions键和索引包KeysandIndexes软件配置包SoftwareDeployment类型映射包TypeMapping

对象模型层ObjectModel核心包Core行为包Behavioral联系包Relationships实例包Instance

图4.13CWM元模型层次图

另外,基于模型的元数据集成体系结构要求有一种形式化语言,它能够以共享的、与平台无关的模型来表示元数据。在CWM中,这种语言是UML(事实上是UML的一个特定子集)。

首先,最低的一层是对象层,这个UML的子层用作CWM的基本元模型。对象层由4个元模型构成:核心元模型、行为元模型、关系元模型和实例元模型。其中的关系元模型定义了模型元素之间的基本关系(如表和列之间的关联)。

基础层为更高层次提供CWM特定的服务。例如,数据类型元模型为定义基本数据类型和构造数据类型提供基础结构;类型映射元模型定义的新类型使我们能够在不同类型的系统之间建立映射模型(对于确保不同软件工具和平台之间的互操作性很显然是必不可少的);索引元模型同样以对象层的基本模型元素为基础,定义了唯一键和外键的抽象概念,这对于建立关系数据库的模型至关重要,同时它对面向记录的和多维的数据库同样重要。业务信息元模型定义的元素支持对基本业务信息的建模。

资源层定义了各种数据资源的不同类型。该层含有的元模型包,允许描述面向对象的数据库和应用系统、关系数据库管理系统、传统的面向记录的数据源(诸如文件和记录模型数据库管理系统),以及由联线分析处理(OLAP)工具和XML流建立的多维数据库。数据仓库和ISC(信息供应链)中需要管理的各种数据资数据中心方案设计全文共26页,当前为第19页。数据中心方案设计全文共26页,当前为第16页。数据中心方案设计全文共26页,当前为第17页。数据中心方案设计全文共26页,当前为第18页。数据中心方案设计全文共26页,当前为第19页。数据中心方案设计全文共26页,当前为第20页。公共元模型,作为基于模型的元数据集成方法的核心,必须依照一定的形式化规则(一种抽象语言)来建立,以确保所有的软件都能用相同的、预期的方式对其进行解释。对CWM而言,OMG的元对象设施MOF提供了所需的形式化规则集。MOF是为元模型规范定义公共抽象语言的一种OMG标准。MOF本质上是一种元-元模型,或者说是元模型的模型(有时候称为本体(ontology)),它定义了对离散系统建模要用到的元模型中的基本元素、语法和结构。MOF是UML和CWM的公共模型,MOF使不同的元模型(代表不同领域)可以互操作。遵循MOF规范的应用软件一点也不了解某个模型实例与特定领域相关的接口的情况,但是它仍然能够通过使用反射接口的通用操作对该模型进行读取和更新的操作。

MOF的语义一般定义了支持模型创建、发现、转换和更新的某些元数据库服务。特别的,MOF定义了模型生命周期的语义。模型生命周期定义了关于元数据的创建和发布的有效操作,特别是结合到可视化建模的时候(例如,面向UML建模的工具)。例如,新开发的元模型可以存储在MOF存储库中,并与其它以存在的元模型结合起来使用。一个支持MOF的存储库除了负责元数据的创建和获取,还提供了很多重要的元数据相关服务(例如持续化、版本控制、查询等)。

总而言之,MOF试图给出建立元对象模型的统一规范,其主要活动是描述元对象和建立元对数据中心方案设计全文共26页,当前为第20页。数据中心方案设计全文共26页,当前为第21页。基于模型的元数据集成方法还要求有一个用于交换共享元数据实例的公共交换格式,以及访问元数据的公共程序接口。CWM使用的XML互换编码XMI是定义如何将支持MOF的元模型(如CWM)映射到XML的一个OMG标准。XMI精确定义了在XML文档中如何用XML标签定义CWM元模型的实例。CWM元模型用来定义以XMLDTD形式表示的XML标签集。然后CWM的元数据(例如CWM元模型的实例)在XML文档中被序列化(seri数据中心方案设计全文共26页,当前为第21页。对CWM元数据资源的程序访问是由从支持MOF的元模型到各种编程语言的映射标准来定义的。MOF规范特别定义了从任何支持MOF的元模型,例如CWM,到OMG的IDL的映射。CWM规范包含完整的IDL定义。用选定的某种语言(例如Java或C++)定义程序接口,必须使用适当目标语言编译器将CWMIDL编译为符合目标语言语法的接口定义。

最后,我们认为一个基于模型的元数据集成解决方案还必须提供一些扩展模型的标准方法,这对于定义CWM没有考虑到的、与产品高度相关的元数据而言是必不可少的。数据中心方案设计全文共26页,当前为第22页。数据中心方案设计全文共26页,当前为第22页。

数据中心方案设计全文共26页,当前为第23页。图4-14数据库类型

四大基础数据库:包括人口数据库、法人单位数据库、空间地理和自然资源数据库、以及宏观经济数据库。

主题操作数据库:存有经常使用的业务数据,可存在数据中心,但大量的是以目录形式存储,而其数据总是存在各局委办,这样既保证了数据的动态更新的一致性,也保证了数据的安全性。但设计业务数据时,要在响应速度,冗余,一致性上作出折中。

办公数据:记录政府系统办公的数据。并联审批,用户使用状态日志以及进行平台管理,电子政务系统维护管理的数据。该项数据根据相关平台工具和业务系统进行定义和维护其结构模型遵循

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论