




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、上海交通大学硕士学位论文基于主数据管理技术的企业信息集成方法研究姓名:钱鹏程申请学位级别:硕士专业:计算机应用技术指导教师:王英林20090201摘要基于主数据管理技术的企业信息集成方法研究摘要随着企业数据量的逐年增加以及企业信息系统功能模块的扩充,企业数据管理变得越来越困难。由于存在为不同目的而分散建立起的多个应用系统,这往往导致了数据冗余、不一致等问题。为此,提出了主数据管理技术,以解决数据的一致性等问题。主数据管理是一个以创建和维护可信赖的、可靠的、能够长期使用的、准确的和安全的数据环境为目的的一整套业务流程、应用程序和技术的综合。然而,目前对于主数据管理系统的研究还相对缺乏,有关如何通
2、过主数据管理对参与集成的各业务系统中的数据进行同步、匹配、转换、访问等方法,还需要更有效和细致的研究。本文研究了基于主数据管理技术的企业信息集成方法。在讨论主数据管理有关技术方法的基础上,研究了实现不同应用系统之间集成的过程,分别讨论了在固定数据模型以及可定制数据模式两种情形下的集成方法。以基于本体的可重构企业知识管理系统和员工管理系统之间的集成为例,进行了集成系统的设计。其次,本文以本体和关系数据库两种元模型下的数据模式为例,改进了异构元模型下的数据模式语义映射算第 i 页摘要法。通过使用相似度初始值和前后两次迭代结果的线性相关系数作为迭代收敛的判断依据,并根据迭代时结点相邻元素数目的不同设
3、定权重,提高了算法的收敛速度和计算精度。数据模式之间的自动映射可为建立主数据管理系统提供有效的辅助手段。关键词:主数据管理,企业信息集成,可定制,模式映射,相似度迭代第 ii 页abstractresearch of enterprise informationintegration method based on master datamanagement technologiesabstractwith the size of enterprise data increasing year by year, enterprise datamanagement becomes more an
4、d more challenging. sparsely locatedapplication systems created for different purposes could also lead to dataredundancy and inconsistency. master data management (mdm) technologyhas been put to use in enterprise information integration to improve theconsistency of data. master data management is th
5、e framework of process,technologies and applications aimed at creating and maintaining anauthoritative, reliable, sustainable, accurate and secure data environment thatrepresents a single accurate version of data. however, there is still anembarrassing lack of research in mdm systems. more effective
6、 research isdemanded on business data synchronizing, matching, transformation andvisiting through mdm systems.第 iii 页abstractthis paper carries research on enterprise information integration basedon master data management technologies. in this paper, the process andmethod of integrating different ap
7、plication systems is analyzed based ontechnologies related to master data management technologies, and theintegration method under the scenarios of both fixed and reconfigurable dataschema are proposed. furthermore, we put forward the design of theintegrationsystembetweenreconfigurableenterpriseknow
8、ledgemanagement system and employee management system. on the other hand,we have made improvements to the schema mapping algorithm on differentmeta-models.weintroducelinearcorrelationcoefficientbetweensimilarities as a criterion for convergence, and set similarity iterationweightings according to th
9、e number of adjacent elements. experiments haveshown that these techniques have improved the algorithm both in iterationconvergence speed and in mapping accuracy. automatic schema mappingcould be an effective auxiliary means of master data management systemcreation.keywords: master data management,
10、enterprise information integration,reconfigurable, schema mapping, similarity iteration第 iv 页第一章 绪论第一章绪论1.1研究背景1.1.1传统企业信息集成研究随着企业拥有的数据量日益庞大,企业需要为存储和管理这些数据不断投资。然而,由于受到实施数据管理系统的阶段性、技术性以及其它因素的影响,甚至在一个单独的企业,采用的数据管理系统也不相同。为了使企业能够访问网络不同位置上的多个数据管理系统中的数据,企业需要一个强大的系统集成这些数据。信息集成技术就是要为全局应用建立一个统一的、透明的方法,来访问一组已
11、经存在的自治的、分布的、异构数据源或应用程序1。信息集成屏蔽了各种异构数据源之间的差异,通过集成系统提供的接口对数据进行统一操作,集成后的信息对用户来说是统一的、无差异的。信息集成通常以数据集成为起点。数据集成就是将不同的数据源中的数据在逻辑上或者物理上有机地集中,并进行统一的存储、表示和管理的过程2, 3。数据集成的目的是为了向用户提供一个数据操作的透明的接口,通过它用户可以对数据进行读取和存储,而屏蔽了各种数据间网络位置和结构上的差异。数据集成所采用的方法基本可以分为两大类:物化方法和模式映射方法2, 4, 5。物化方法是在客户端与数据源之间增加一层,称为数据仓库,用于存储来自各数据源的待
12、集成数据,由系统提供对这个数据仓库的查询机制。模式映射方法中的数据仍保存在各数据源上,由集成系统提供一个虚拟的集成视图(即全局模式)以及全局模式查询的处理机制。企业的数据量越来越庞大的同时也会导致数据管理的困难,如果仍然按照传统的分散的数据管理方式或者使用普通的数据集成的方法,包括实视图方法和虚拟视图方法,在企业数据量非常庞大,并且面临异构的、自治的复杂数据环境时,由于分散的数据管理方式过程容易带来不一致的数据,以及可能产生的数据映射错误或者数据重复存储等各种各样的问题,数据中错误将会明显增加。这些将严重影响数据的质量,为企业处理业务带来困难。第 1 页第一章 绪论1.1.2基于主数据管理的企
13、业信息集成研究为了解决数据的准确性、一致性等问题,主数据管理技术被应用到企业信息集成中。主数据管理是一个以创建和维护可信赖的、可靠的、能够长期使用的、准确的和安全的数据环境为目的的一整套业务流程、应用程序和技术的综合6。使用主数据管理,可以实施一个可以从企业中任何位置访问与核心商业实体有关的信息的数据整合平台,可以根据业务规则自动创建一个正确反映了真实世界的需求的逻辑视图,并实时为应用程序提供高质量的数据。使用基于主数据管理系统的方法来建立数据集成系统,可以解决数据集成中的如下两个关键问题:能够对参与集成的各应用系统中的数据实施单独管理,因此可以确保数据的完整性、可靠性,提高数据质量,避免各应
14、用系统中数据的不一致性;企业的核心数据往往要求在多个业务系统中被使用,主数据管理的方法可以保证参与集成的业务系统都能够实时地访问到这些数据。1.2研究现状主数据管理已经成为企业信息集成的一个新的研究点,目前已经有国内外学者做出了部分研究工作。如 alex berson 和 larry dubov 在书6中从企业实施主数据管理方案的架构决策上的考虑、实施技术,以及主数据管理同客户数据集成之间的联系等方面论述了主数据管理方案的实施;cornel loser 等在论文7中针对主数据管理提出了四种存储结构,分别从主数据是否集中存储和数据是否集中创建和维护两个角度,将主数据管理的存储结构划分为四类,并分
15、别讨论了四种存储结构的优缺点;张德进等在论文8中针对企业主数据的分析和建模方法做了研究,并将企业主数据管理框架分为主数据分析建模和主数据表达建模两个步骤;于卓桐、刘峰在论文9中将主数据管理技术用于建立动车信息共享平台,以保证铁路行业内业务系统的一致性。同时,在工业界,也出现了一些公司使用主数据管理技术集成企业数据。如 ibm将主数据管理分解为多个步骤的管理过程和数据处理过程实现,这些管理过程和数据处理过程包括:源数据剖析、数据标准化、全局标识符验证、匹配与记录联合、第 2 页第一章 绪论主数据聚集、留存、转换、连接与交付、数据质量监控以及元数据管理等,并且采用 ibm websphere 数
16、据 整 合 套 件 , 包 括 websphere profilestage 、 webspherequalitystage、websphere datastage、websphere metastage 等工具,来识别主数据和保证主数据的质量。oracle 则在客户主数据管理系统 ucm(universal customer master,全局客户主数据)中实施了主数据管理。该系统包含客户主数据模型存储、数据质量控制和额外的数据集成管理三个模块。oracle 使用如下的方式保证主数据系统中新进入的数据的质量:当记录进入主数据系统时,先会在主数据系统里寻找可能匹配的记录,如果结果认为是不匹配,
17、则将进入处理不匹配流程来增加一条新记录;如果是分值足够高,则进入自动匹配流程把该记录和原有记录进行数据存活规则处理并合并记录;如果是分值不足够高,则需要人工来决定该记录是新记录还是需要和原有记录合并。主数据管理并不是一个单独的技术,它需要其它与数据集成相关的技术支撑它的运作,保证数据的一致性。主数据管理解决方案相关的支撑技术主要包括如下几个方面10, 11:源数据剖析、数据标准化、匹配、记录联合以及同步。另外,主数据管理的解决方案需要引入元数据管理来标准化主数据的表示。1.3课题意义及论文主要工作1.3.1研究意义国内的一些大型企业的各个部门中都有各自的计算机应用软件和数据库系统,这些软件有自
18、行开发的,也有从其它公司引进的。虽然它们在生产和销售中起到了一定的作用,但是由于这些应用软件和数据库系统开发时很少使用统一的设计规范,经常会出现数据不一致的情况存在;另外,由于系统开发时数据接口编写的不一致,针对数据库或其它种类的数据源的调用可能并不一定相同。这些种种可能性都制约了系统间数据的相互调用。主数据管理系统的提出就是为了解决上述的种种问题。从学术界研究工作的成果来看,目前对主数据管理的研究主要集中在数据存储模式、数据建模方法上,至今为止对于主数据管理的运行时系统的研究相对较少,特别是主数据管理系统在建第 3 页第一章 绪论立之后的运行过程中,如何对其它各业务系统的数据进行同步、匹配、
19、转换等工作,以及主数据管理系统如何针对其它业务系统提供方便的访问接口这些方面的研究。1.3.2研究内容针对主数据管理的相关研究工作,本文的主要研究内容如下:1.2.3.4.如何使用主数据管理技术进行信息集成系统进行设计,对多业务系统环境下的数据建立数据模型的抽象表达,并建立元数据映射表来表示多业务系统中的数据之间的映射关系;分析其它业务系统参与主数据管理系统进行集成的方法,包括在新业务系统和遗留业务系统参与主数据管理系统进行集成的的情况下,业务系统集成到主数据管理环境下所需要的步骤,以及主数据管理系统对业务系统的设计约束;研究在主数据管理中,在已有的数据模型表达建立的基础上,数据实例的匹配和转
20、换的实现方法;针对数据异构的系统之间的数据集成问题,研究异构数据模式的半自动映射算法,以辅助人工完成数据模式映射的大量工作,减少数据集成过程中的工作量。1.4论文组织结构本文的主要内容组织如下:第二章首先介绍了企业信息集成和数据集成中与本文有关的一些工作,然后介绍了主数据管理的基本概念以及主数据管理系统的运行时框架和存储部署,最后在主数据管理系统的框架下介绍了与主数据管理相关的一些数据处理的技术,包括源数据剖析、数据标准化、主数据匹配、主数据同步、主数据转换、版本管理、元数据管理以及模式映射等工作。第三章对使用主数据管理技术进行信息集成系统进行了设计,首先介绍了主数据管理系统的功能模块,其次介
21、绍了如何在异构环境下映射不同业务系统中的数据第 4 页第一章 绪论从而建立数据的对应关系,接着在实现映射的基础上分新业务系统和遗留业务系统两种情况讨论了在主数据管理的环境下参与集成的系统的设计,包括将业务系统集成到主数据管理环境下所需要的步骤,以及主数据管理系统对业务系统的设计约束。第四章研究了集成系统实施的过程中使用到的一些关键技术。为了确保各业务系统中能够实时地得到正确的数据,以及能够正确地从主数据管理系统中识别出正确的数据实例,本文将数据对象的匹配和转换过程被引入到主数据管理系统中,并研究了数据匹配和转换的实现方法;另外,针对数据异构的系统之间的数据集成问题,我们利用构建异构元数据和数据
22、之间的语义映射的方法来解决,针对基于相似度的关系数据库模式和本体之间的映射策略,提出一种改进的相似度计算算法,并利用实验验证了该算法在运行速度和准确度上的优越性。第五章对现有工作进行了总结,并对进一步研究的工作方向作了展望。第 5 页第二章 主数据管理驱动的企业信息集成概述第二章主数据管理驱动的企业信息集成概述2.1企业信息集成和数据集成信息集成是指不同应用系统之间实现数据共享。这些应用系统分布在网络环境下的异构系统中,它们所管理和操作的数据格式和存储方式都有所区别。实现信息集成就是要实现数据的转换(不同数据格式和存储方式之间的转换)、数据源的统一(同一个数据仅有一个数据入口)、数据一致性的维
23、护,以及异构环境下不同应用系统之间的数据传送。信息集成的首要指导原则是:在用户看来,他们需要的所有数据,应该好像驻留在一个单一的数据源里一样。信息可能在不同的地方,以不同的语义、格式存储,访问方法各异,因之对信息的检索也变得极为复杂。信息集成技术实质上将信息需求者屏蔽于所有这些复杂性之外。用户或代表用户的应用程序可以通过诸如 sql 或 xml 等统一的语言或网络服务、编程接口(api),来对数据进行寻址。这样,用户就可以毫无障碍地查看信息,而不用考虑其物理实现过程。在信息系统中,数据位于它的中心地位。大多数信息系统,都是由一些数据库或其它数据源的创建和更新活动组成的,包括对数据安全性的适当控
24、制,对数据库的使用、分析、汇总和操作处理,或者从数据库中打印出报表。数据结构是稳定的,处理是多变的。因此,我们可以通过将信息集成的重点放在数据集成上。数据集成的目的是对各种异构数据源提供统一的表示、存储和管理2。数据集成屏蔽了各种异构数据间的差异,通过数据集成系统进行统一的操作,从而使集成后的数据对用户来说是统一、无差异的。数据集成系统最重要的特点就是为用户提供一个统一的访问界面,使用户能够将注意力集中在要读取或查询的内容上,而屏蔽了如何得到数据的底层操作。构建数据集成系统主要面临的困难包括:集成数据源的异构性12, 13、数据完整性以及集成环境的复杂多变性等2。从目前的研究情况来看,主要出现
25、了三种数据集成的体系结构,即联邦数据库、中间件方式和数据仓库,这三种数据集成的方案又可以分为两大类:物化方法(实视图方法)和模式映射方法(虚拟视图的方法)4, 14。物化方法即数据仓库方法,第 6 页第二章 主数据管理驱动的企业信息集成概述是在客户端与数据源之间增加一层,称为数据仓库,用于存储来自各数据源的待集成数据,由系统提供对这个数据仓库的查询机制。模式映射方法中的数据仍保存在各数据源上,由集成系统提供一个虚拟的集成视图(即全局模式)以及全局模式查询的处理机制。数据仓库方法在数据仓库方法中,数据周期性的通过迁移和转换将原有的局部数据源上的数据移植到新的数据仓库中,最后对该数据仓库提供查询机
26、制15。数据仓库方法的优点是处理简单,可以为用户提供简单快速的数据访问。其缺点是数据更新周期长,各局部数据源和和数据仓库上的数据重复存储。中间件方式中间件方式通过提供一个全局数据模式和对应各数据源的局部数据模式,提取各数据源中的数据并且将其组合成为全局数据模式下的数据,完成各数据源的集成,并将生成的全局数据模式下的数据作为统一的规范格式提供给用户使用16。在中间件方式下,数据将会转化为一种通用的全局数据模式。xml 技术17通常用于这种全局数据模式中,作为数据集成的中间结果。相对其它方法而言,该方法不需要重复存储大量数据,能保证查询到最新的数据,比较适合于集成数据多、且更新变化快的异构数据源集
27、成。联邦数据库联邦数据库系统18是由参与联邦数据库系统的各半自治的数据库系统构成,其中每个数据库之间的操作独立于其它数据库。联邦中的各数据库都添加了彼此访问的接口。在实际应用中,由于联邦系统中的所有数据源都要添加彼此访问的接口,所以需要编写大量的接口程序,因此联邦数据库的方式无法面对现在大量数据源的集成需求。第 7 页第二章 主数据管理驱动的企业信息集成概述2.2主数据管理2.2.1主数据管理技术研究现状主数据是企业业务中相对静态不变的实体信息的描述,在多个业务事务实例(包括同类业务的若干实例)中反复使用,是业务运行中所必须的关键信息及其元数据。主数据通常包括企业的组织结构、产品、客户、雇员、
28、材料、供应商等。例如,erp系统中通常会有客户、物料和账户作为主数据。主数据通常是公司的关键财产。主数据管理是为了创建和维护能够支撑其它业务活动的权威的、可靠的、准确的、安全的核心业务实体的视图而采用的过程和技术的框架。该业务实体视图能够反映企业内数据的一个一致可靠的版本,可以在企业内和企业间被分散的应用系统、业务流程和用户群体所使用6, 10。发达国家的一些企业,在上世纪 70 年代中期至 80 年代初期的计算机应用系统开发工作中,也遇到过包括“信息孤岛”问题在内的“数据处理危机”问题。现在在许多企业中,所谓的信息系统实际上是一些互不关联的数据结构(数据文件和应用数据库)和一些程序的堆砌。这
29、类信息系统已变成一张难解的、充满冗余数据存储的复杂大网。由于每个应用所存储、变换的冗余或重叠的数据紧紧交织在一起,要修改或扩充这种系统的任何部分,都是十分困难。主数据已经成为集成事务数据和其它业务数据的主要障碍19。现在业界 ibm、sap 等公司提出的主数据管理的概念和理论方法,正是为解决这些问题而做出的重要贡献。大部分企业纷纷在业界的帮助下完成了自己企业的主数据管理工作,如西门子医疗系统集团通过主数据管理建立了高度自动化的全球综合解决方案,使整个发布过程变得面目一新。该公司还通过将网站内容与其后台系统集成的方法使客户能够获得更为动态的信息。为了将复杂的决策变得更加简单,西门子医疗系统集团还
30、在客户信息中加入了完备的个性化功能。该公司还将其系统与流程合并到单一平台上,使其变得更加灵活,对更高的处理需求做出积极响应。在国内范围,很多企业信息化程度不高的企业还没有实现办公自动化,部分已经有一定信息化基础的企业在这些初级的信息系统运行期间也发现了问题,在ibm、sap 的业界公司的帮助下做出了一些尝试。现在国内一些国有企业与 ibm 合第 8 页第二章 主数据管理驱动的企业信息集成概述作在企业主数据管理方面取得了一定的成绩:完成了数据的统一,为公司提供了统一的数据、监控和管理视图;为领导的科学决策提供准确、可靠的基本数据,对于保证安全生产、加速资金周转等工作将产生不可估量的作用;数据规范
31、化:通过系统的建设,改变过去管理中的数据管理混乱的现象,促使数据规范化、工作条理化和决策合理化,加速信息传递,缩短处理时间和及时择优决策;通过系统的建设,提高管理人员业务水平。每个管理人员的业务达到了规范化和标准化,从而提高现代化管理水平,减少冗余环节,提高劳动生产率和工时利用率。主数据管理是一项针对数据集成问题的新兴的解决方案,但是目前已经有许多相关方面的技术可供主数据管理来使用,如主数据管理系统通常需要引入元数据管理来标准化主数据的表示,还会使用到其它数据处理的方法来保持主数据的数据质量10, 11,如源数据剖析、数据标准化、匹配与记录联合以及数据同步等。2.2.2主数据管理系统框架通过利
32、用 soa 自身的技术优势来搭建主数据管理系统,是目前工业界主流的做法。图 2-1是关于面向服务的主数据系统架构参考视图。第 9 页第二章 主数据管理驱动的企业信息集成概述应用层业务系统主数据识别服务元数据管理服务数据同步服务数据仓库主数据功能服务层外部服务层主数据分析服务内部服务层匹配服务主键管理与记录定位服务原子服务层数据分析与挖掘主数据管理服务版本及权限管理服务读取主数据创建主数据企业数据源数据层删除主数据更新主数据主数据存储与部署图 2-1 面向服务的主数据管理系统架构fig.2-1 service-oriented mdm system architecture如图 2-1所示,基于
33、 soa 的主数据功能服务层是核心,由原子服务层、内部服务层和外部服务层三部分组成。原子服务层主要负责针对主数据的一些原子操作,比如创建与更新等。内部服务层利用原子服务层提供的服务来支撑外部服务层的操作。内部服务层的核心是元数据管理,它支持数据同步技术以及针对主数据记录的操作。外部服务层通过调用内部服务层提供的服务来完成诸如客户信息识别与认证,客户关系聚类等功能,并且为应用层中的业务系统、数据仓库或者商业智能系统的数据请求提供支持。主数据功能服务层将会用到一系列数据管理相关的技术方法,包括数据匹配、数据同步、数据转换、版本管理等,同时,在建立主数据管理系统的过程中也会用到一些数据分析和处理的技
34、术,如源数据剖析、数据标准化以及建立异构数据之间第 10 页第二章 主数据管理驱动的企业信息集成概述的映射关系等。2.3节将介绍这些相关的技术。2.3主数据存储部署随着各企业业务范围的扩大,企业间也逐渐出现了一些需要两个或多个企业共享一些企业业务边界上的关键数据。这时,主数据管理系统也会应用在跨企业的范围上,为多个企业提供数据服务。由于主数据管理系统范围的扩大,这时,就需要有相应的主数据存储方案使主数据能够有效地在企业内和企业间起协调作用。主数据存储模式的设计要求解决的问题包括:数据是集中式存储还是分布式存储;如果是集中式存储,或者虽然是分布式存储但是所需要的数据可能不在本地,如何确定数据的位
35、置;如果是分布式存储,如何保证数据的一致性,以及在数据更新发生时如何保证数据的同步;如果数据源之间的数据是异构的,如何实现数据之间的共享。结合文章7和47对主数据管理系统的存储方案进行的研究,按照主数据管理系统中主数据与其它数据之间存放位置的关系,可以将主数据管理系统的存储方案分为三大类:集中式存储、分布式带同步存储和仓储参照式存储。2.3.1集中式存储在集中式存储方案中,将会有一个单独的数据存储,它负责所有主数据和非主数据的保存。业务系统对主数据和非主数据的访问必须通过主数据存储获得数据。因此,这实际上相当于一个简单的单数据源的数据系统。系统存储的示意图如图 2-2所示:第 11 页第二章
36、主数据管理驱动的企业信息集成概述salesglobal data componenttransactionhubsuppliershr图 2-2 集中式数据存储方式示例图fig.2- 2 an example of data distribution using centralized data storage集中式存储方案的优点和缺点分别为:优点:数据集中存储,维护方便,而且不需要进行数据源之间的映射,修改数据方便,只需要对单数据源进行改动,并且数据的格式统一,不需要进行数据转换。缺点:每次数据访问时都要通过 transaction hub,导致 hub 上负载过重;另外,由于 transa
37、ction hub 作为数据存放的唯一数据源,一旦它出现网络中断或者硬件错误,都不能保证业务系统对数据存储的访问能够得到及时正确的响应。2.3.2分布式带同步存储在分布式带同步存储方案中,主数据的部分集中存储在一个数据源,其他数据可能分开到几个数据源存放。数据在各数据源中可能出现重复存储,这时要求主数据管理系统负责数据之间的同步。系统存储的示意图如图 2-3所示:第 12 页customerpk,fk1customeridcustomerclassdiscountcodeemployeepk,fk1employeeidsalarytitlecontractorpk,fk1supplierids
38、ervicetypepersonpkpersionidnamedateofbirth第二章 主数据管理驱动的企业信息集成概述sales datasalesglobal data componenthrhr datasupplierssuppliers datamaster图 2-3 分布式带同步存储方式示例图fig.2-3 an example of data distribution using distributed synchronized data storage分布式带同步存储方案的优点和缺点如下:优点:应用系统业务逻辑及其数据(如图中的 sales 和 sales data)可以在
39、同一台机器上实现,这样,在处理该系统的数据请求时,部分数据可以是本机存取,加快处理速度。缺点:数据的更新与一致性检验需要花费一定的时间。2.3.3仓储参照式存储仓储参照式存储方案42提供一个参照数据源,在该数据源上只记录元数据信息以及数据存放位置。数据在各数据源可能存在重复存储的关系。主数据中实体的第 13 页customerpk,fk1customeridnamedateofbirthcustomerclassdiscountcodeemployeepk,fk1employeeidnamedateofbirthsalarytitlecontractorpk,fk1supplieridname
40、dateofbirthservicetypepersonpkpersionidnamedateofbirth第二章 主数据管理驱动的企业信息集成概述主属性以外的部分通过外键映射到主数据中。系统存储的示意图如图 2-4所示:sales datasupplierssalesglobal data componenthr datahrsuppliers datarepository图 2-4 仓储参照式数据存储示例图fig.2-4 an example of data distribution using repository data storage method仓储参照式数据存储方案的优点和缺点
41、如下:优点:数据实例中只被一个系统使用的数据源可以与应用系统放在同一台机器上,而对那些可能被多个系统访问的数据实例可以选择一个业务系统存放,也可以重复存储在各个数据源上,使网络访问化为本地访问。对于主数据而言,我们可以通过仔细地选择它们的存放位置达到负载均衡。缺点:数据的存放是异地的。有时甚至可能出现同一个实体的不同属性值被存放到不同机器上的情况,各业务系统可能会出现获取其它系统中大量数据实例的情况,这对网络的消耗是非常大的。在数据存储方案的实际选择过程中,应分析企业自身的服务器配置、内网及外网的网络连接速度、服务器容量、服务器预期负载等各种因素,做出综合决策。第 14 页customerpk
42、,fk1customeridcustomerclassdiscountcodeemployeepk,fk1employeeidsalarytitlecontractorpk,fk1supplieridservicetypepersonpkpersionidnamedateofbirth第二章 主数据管理驱动的企业信息集成概述2.4主数据管理相关技术2.4.1源数据剖析源数据剖析通常作为主数据管理实施过程的第一个阶段。首先了解源系统中的数据十分关键,这有助于了解源数据的质量,以及源数据中的使用模式和规则。源数据剖析工具的目的就是要自动化这一流程,同时详细洞察源系统中的数据,避免传 统 数 据 分
43、 析 的 手 工 操 作 。 目 前 已 经 出 现 了 较 为 成 熟 的 产 品 , 如 ibmprofilestage20。数据剖析过程用于评估数据质量,由多种分析组成,它们调查和研究数据的结构和内容,并对数据作出推断。在分析完成后,用户可以检查结果,并接受或拒绝推断结果。下图展示了数据剖析的几个分析过程的关系21。其中虚线表明列分析不必在跨域分析前做。primary keyanalysisforeign keyanalysiscolumnanalysisbaselineanalysiscross-domainanalysis图 2-5 数据剖析的分析过程fig.2-5 analysis
44、 process of data profiling列分析列分析22是一个检查数据中列的内容的数据剖析过程,用于理解数据的结构和内容,找出可能影响数据质量的异常。除了跨域分析,列分析是所有其他分析的第 15 页第二章 主数据管理驱动的企业信息集成概述先决条件。列分析过程中,在一个表或文件中的列或字段数据将被评估,并且建立频率分布。该频率分布概括了每列相关数据特征的统计和推断的结果。用户可以检查频率分布以找出数据中的异常,并随后使用数据清洗工具清除异常。频率分布的结果通常也作为后续分析,如主键分析和基线分析的输入数据的一部分。列分析一般主要包括四种分析:1.2.3.4.域分析:识别无效和不完备的
45、数据值;数据分类分析:为数据中每列推断出一个数据类,用于分类数据;格式分析:为数据值建立一个格式表达式,用于确保与定义的标准一致;数据属性分析:分析数据中定义的属性的准确性。主键分析主键是用于在表中识别一行而使用的一列或多列。一个主键必须是唯一且不能包含 null 值,例如:包含客户号的列。主键分析是识别表中所有候选关键字的过程,其目的是检测出一列或多列,它们可能适合作为相应表的主键。基于上述列分析的结果,可以通过设定系统定义阈值等方式挑选主键23,因为要成为主键的一个候选,列必须包含唯一值的百分比应当比系统定义阈值还要高,例如一个系统定义阈值为 95%,则某列包含 95%或更多的唯一值时,可
46、被推断作为主键的候选,而剩余的 5%是重复值,重复值的出现可能由于数据与其他数据源整合或数据格式改变等,所以如果确定这样的列为主键,需要清除这些重复值。用户也可以通过比对某个几个列组成的数据样例或整体源数据来参与挑选多列主键。外键分析外键分析24是找出外键并识别表间关系的过程,是比对表中所有列与同样那些表中主键的过程。其目的是基于每个指定列与已识别的主键间值的重迭检测出两表间存在的外键关联。基于上述主键分析和列分析的结果,在为每个表识别主键以后,将在多个表之间寻找具有相同数据分类和数据类型的列。一旦找到匹配对,外键分析过程开始识别是否为重迭数据,用户可以参与评定主键和对应列是否为外键关联。分析
47、过程大致可描述如下:第 16 页第二章 主数据管理驱动的企业信息集成概述1.2.3.4.在选定两个或更多表后,某个表中主键开始与其他表中所有列进行配对。此时,系统对这些配对执行相容性测试,根据列的数据类、类型和长度等判断这些列的相容性;检查结果,看是否需要重新运行相容性测试或重新选定表范围;相容性测试完成后,系统开始比较相容配对的列的频率分布,以决定他们是否具有公用域。比较后,将计算出相容配对的列的公用百分比,并可以此为依据来判断两列是否具有公用域;用公用域测试的结果,可判断是否一个表中的一列或多列匹配另一个表中的主键。如果存在一个匹配,则前一个表中的列被推断为外键候选。跨域(cross-do
48、main)分析跨域分析25决定了是否多个列共享一个公用域,是比对选定的表集合中每个表所有列与其他表所有列的过程。其目的是检测出共享某个公用域的那些列,一个公用域的存在表明多列包含重迭数据。共享一个公用域的列可能指示一个外键和一个主键之间的关系,然而,大多数这样的公用域表示列之间的冗余。如果存在冗余,可能需要清除。例如,当数据被系统处理流程移入不同表时,数据很可能产生冗余。例如,银行 a 希望将自己的客户数据与银行 b 的客户数据进行整合,则两个银行都可能包含冗余的客户数据。跨域分析过程通常是选定两列或多列进行相容性分析和跨域公用性分析。基线分析基线分析26是对相同数据源比对以前的分析结果与现在
49、的分析结果。如果前后有差异,应评估变化的意义,如是否质量被提高了。为了比较数据,首先选定一分析结果作为基线版本,再用基线版本去比较同一数据源的所有后续分析结果。例如,用户在周二对数据源 a 运行了一个列分析,可保存此版本为基线,则周三如果再运行列分析产生的新分析结果就可与周二的基线进行比对。为了识别数据的变化,基线分析根据基线结果和现在结果的不同评估数据的内容和结构,主要包括数据类、数据属性、主键和数据值等。如果这些数据内容改变,则会引起不同版本分析结果的不同。所以可以通过设定每隔一定时间段的检查点程序来监控数据的变化。第 17 页第二章 主数据管理驱动的企业信息集成概述2.4.2数据标准化标准化是主数据管理的一部分,通常在主数据管理实施中处在源数据分析之后,匹配与记录联合之前27。由于企业在实施信息系统集成时要兼顾遗留系统和集成系统两个方面的需求,既要考虑到系统集成的需要也要考虑到遗留系统对集成系统的制约,同时由于设计和实施集成系统费用和资源上的限制,标准化其中的数据对集成系统的质量影响十分巨大28。数据标准化是为了建立核心商业实体的描述规则。由于核心商业实体往往在企业中多个数据源中同时使用,而且很可能描述不同,因此有时需要在主数据管理系统中创建参照数据来标准化源数据。标准化就是这样的一个过程,它能够固定信息或属性的描
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中数学必修四知识点总结
- 多发伤的临床护理
- 幼儿园语言教育与活动设计 课件 第3、4章 幼儿园语言教育活动设计的原理;幼儿园语言教育活动与其他教育活动的交叉与融合
- 人美版小学五年级美术下册台历挂历的设计教学设计
- 汽车销售补充合同范本
- 预防医学招聘个人简历
- 科学护理宝宝
- 肢体断离伤的临床护理
- 断指再植的临床护理
- 2025年中小学落实双减工作总结模版
- 粮食平房仓设计规范课件
- 物质创造普遍秩序中文版
- 国家级高技能人才培训基地建设项目申请书
- 高校在完善国防动员机制中的作用与实现路径
- 化工原理习题(谭天恩)解答上
- 库欣综合征英文教学课件cushingsyndrome
- 推进中国法治进程的10大案件
- 聚酯合成的酯化与缩聚课件
- 交管12123驾驶证学法减分题库与答案(通用版)
- EHS监测测量控制程序
- 《数控车床编程与操作》PPT课件
评论
0/150
提交评论