异构数据集成思路总结_第1页
异构数据集成思路总结_第2页
异构数据集成思路总结_第3页
异构数据集成思路总结_第4页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、- 精品 word 文档值得下载值得拥有 -基于 XML 的异构数据集成方案一、设计任务设计出基于XML 的异构数据集成方案,具体要求:i. 数据源包括:结构化数据、非结构化数据和半结构化数据ii. 实现功能包括:能够用统一的方式实现查询等处理iii. 应用的技术为 XML 技术,实现异构数据集成二、设计应用的具体集成方法2.1 异构数据集成方法简介:异构数据集成方法包括:模式集成和数据复制方法。1、模式集成方法中的数据仍保存在各数据源上,由集成系统提供一个虚拟的集成视图(即全局模式 )以及全局模式查询的处理机制。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求,转换成各个数据源

2、在本地数据视图基础上能够执行的请求。2、数据复制方法将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的数据一致性、提高信息共享利用的效率。3、模式集成包括:联邦数据库和中间件集成方法是现有的两种典型的模式集成方法。4、数据复制方法:数据仓库方法。2.2 异构数据集成方案分析1.联邦数据库数据集成联邦数据库是数据库集成的最简单结构,将所有组件数据库进行一对一的连接为了实现各个数据库和其它数据库数据之间的互操作,需要解决各个数据库之间的格式冲突问题,就要为每一个数据库向其它数据库的数据类型转换提供转换规则。这就是说这样的异构数据库系统需要建立N X( N 一 1)/2 个转换规则

3、,或者说要编写N X (N 一 1)/2 段代码来支持两两之间的查询访问。在联邦数据库数据集成方式中,如果要向系统中加入新的节点,就需要再建立很多转换规则,并且为系统之间只有通过编写软件来实现互相的信息正确地传递,这样做既费时又费工。如果各个子系统需要修改,那么会带来更多的问题,大大影响了系统的可扩展性、移植性和稳定性。其模型示意图如下图所示:- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -图 1 联邦数据库集成方法示意图2 中间件集成方法中间件数据集成基于一个“公共数据模型” ,实质上数据仍旧保存在各个参加集成的数据源中,通过各数据源的 “包装器 将数据

4、虚拟成公共数据模式, 用户的查询是基于公共数据模式基础上的, 即建立基于公共数据模式的虚拟数据库集成系统。 中间件将用户提交的基于公共数据模型的查询分解、 解析成针对一个或多个数据源的查询, 然后将数据源的查询结果综合处理成公共数据模型的数据, 并将结果返回给用户。 这种方法中向用户屏蔽了底层数据源的差异, 使得用户的查询表面上是针对单一数据源的, 而实际上查询是对各个数据源的子查询的结果综合而成的, 因此也叫做虚拟视图法。 中间件异构数据集成模型示意下图所示:- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -图 2 中间件异构数据集成模型示图3 数据仓库集

5、成方法数据仓库数据集成方法是建立一个数据仓库, 并将参加集成的各个不同的信息源的数据的副本载入到数据仓库, 合成一个全局模式, 用户的访问是基于数据仓库中的数据进行的查询等处理。数据仓库集成方法如下图所示:图 3 数据仓库集成方法示意图4 几种数据库集成的比较联邦数据库集成方法、 中间件数据库方法和数据仓库集成方法, 它们拥有各自己的特点,具体特点如下表所示:表 1 各类异构数据集成方法比较集成方法解决的问题优点缺点缺乏必要的标准, 只适用于数据联邦数据库数据源间异构支持读写访问源个数很少的数据库系统中,对系统问题非数据库系统的数据库无能为模力。式集屏蔽了系统的异1.利于复用1.缺乏通用标准成

6、2.2.中间件系统构性,使应用软管理方便耦合度要求高件能够在不同平3.易维护3.对于穿越防火墙台上运行4.节约成本4.模式构建和异构性解决比- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -5.利于移植较复杂数1.访问效率高1.实时性差据数据仓库技术解决了数据分布2.网络依赖性2.开发周期长复性问题弱3.费用昂贵制4.更新困难2.3XML 技术1.XML 语言XML 可扩充的标记语言(Extensible Markup Language)标准是一个基于文本的WorldWide Web 协会 (W3C)规范的标记语言。 与 HTML 使用标签来描述外观和数据不

7、同,XML 严格地定义可移植的结构化数据。它能作为定义数据描述语言的语言,例如标记语法或词汇、 交换格式和通讯协议。 XML 己经成为开放环境下描述数据、描述信息的标准技术。 Web Services全部的规范、技术都是以 XML为底层核心和构架基础的,对 Web Services而言,无论是 SOAP、WSDL, UDDI,都是使用 XML 作为信息描述和交换的标准手段。2.XML 的特点XML 是一种元标记语言, 强调以数据为核心, 这两大特点在的众多技术特点中最为突出,同时也奠定了在信息管理中的优势。XML 是一种元标记语言与HTML 不同。 XML 不是一种具体的标记语言,它没有固定的

8、标记符号, 是一种元标记语言,是一种用来定义标记的标记语言,它允许用户自己定义一套适于应用的DTD或 XMLSchema。XML 的核心是数据。在一个普通的文档里,往往混合有文档数据、文档结构、 文档样式三个要素。而对于XML 文档来说,数据是其核心。将样式与内容分离是XML 的巨大优点。一方面可以使应用程序轻松的从文档中寻找并提取有用的数出蓦信息,而不会迷失在混乱的各类标签中。另一方面,由于内容与样式的独立,也可以为同一内容套用各种样式,使得显示方式更加丰富、快捷。正是 XML 的特点决定了其卓越的性能表现。作为一种标记语言有以下几个主要特点:可扩展性XML 是设计标记语言的元语言,而不是像

9、HTML 这样的只有一个固定标记集的特定的标记语言。 XML 在两个意义上是可扩展的。首先,它允许开发者创建他们自己的DTD或XMLSchema,有效地创建可被用于多种应用的“可扩展的”标志集。其次,使用几个附加的标准,用户可以对XML 进行扩展, 这些附加标准可以向核心的XML 功能集增加样式、 链接、- 精品word文档值得下载值得拥有- 精品 word 文档值得下载值得拥有 -和参照能力。作为一个核心标准,XML 为可能产生的别的标准提供了一个坚实的基础。灵活性与 HTML 相比, XML 提供了一种结构化的数据表示方式, 使得用户界面分离于结构化数据。这样既可以只关心数据的逻辑结果,

10、也可以通过样式表来格式化数据的表现, 甚至可以定义自己的个人样式表来显示各种不同的 XML 数据。自描述性XML 文档通常包含一个文档类型声明,从而 XML 文档是自描述的,不仅人能读懂 XML 文档,而且计算机也能处理。 XML 文档中的数据可以被任何能够。 XML 数据进行解析的应用所提取、 分析、处理,并按所需格式显示。这个特性使计算机可以在没有人为干涉的情况下,理解数据的定义,处理数据。简明性作为 SGML 的一个子集,它只有 SGML 的 20%的复杂性,但具有 SGML 约 80%的功能。同完整的 SGML相比, XML 简单得多,易学、易用并容易实现。此外, XML 的诞生也吸收

11、了人们多年来在W 亡 b 上使用 HTML 的经验,正如 HTML 开辟了一种计算机用户能浏览Intemet文档的途径, XML 将成为人们读和写的世界语。所有这一切使 XML 成为数据表示的一个开放标准,这种数据表示独立于机器平台、 提供商和编程语言。 它将为数据交换带来新的机遇。3 .XML 的相关技术DTD与 XML SchemaXML文档的实质就是保存数据信息的结构化载体。为了能够得到有效的XML 文档,必须要明确文档中的信息必须遵守哪些结构,即需要一种用来描述据模型。 DTD和 Schema 就是规范 XML 文档的技术。XML文档中信息结构的数DTD(document type d

12、efinition,文档类型定义 )一个 DTD 可以看作是标记语言的语法文件,它是一套定义XML 标记如何使用的规则。刚开始建立XML 时,它是Standard Generalized Mark 即 Language(SGML)的一个应用。 SGML通过让设计人员创建DTD 来允许不同的系统彼此对话。只要数据符合该DTD,每个系统就能阅读它。然而,DTD 有着不少缺陷 :1、 DTD 基本上没有数据类型的定义,尤其对数据元素的内容而言。DTD 中所有的表示- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -都是基于字符串,所以对于价格、数量是无法表示成数字的

13、。在计算机与计算机之间进行信息交换,常涉及数据格式,这就显现出DTD 的局限性。2、 DTD 只能进行有限的扩展,扩展性不好。3、 DTD 中约束定义能力不足,无法做出更细的语义定义。例如,表示价格精确到小数点后两位数是有困难的。4、 DTD 不够结构化,重用的代价相对较高。相对于 DTD 的不足, XML Schema出现较好的解决了 DTD 的缺点。XML SchemaXML Schema 如同 DTD 一样是负责定义和描述XML 文档的结构和内容模式。它可以定义XML 文档中存在哪些元素和元素之间的关系,并且可以定义元素和属性的数据类型。XMLSchema本身是一个 XML 文档,它符合

14、 XML 语法结构。可以用通用的 XML 解析器解析它。 XML schema 的优点 :XML Schema 基于 XML,没有专门的语法 ;XML 可以像其他 XML 文件一样解析和处理 ;支持一系列的数据类型 (int. 、 neat、 Boolean、 date 等),提供可扩充的数据模型 ;支持综合命名空间;支持属性组。三、基于XML 的异构数据集成方案设计设计的基于 XML 的数据集成系统的功能目标主要是实现异构数据源的集成,方便数据的访问、 分析。在对异构数据源数据查询上通过查询处理层将查询语句分解成对各个数据源的子查询,并将各个子查询结果合并返回给用户。基于 XML 的数据集成

15、系统设计的具体目标有 :( 1)解决数据的异构性问题,使不同格式、不同数据管理系统中的数据能够互相交流和转换。( 2)保持已有系统的自治性,在进行数据集成的同时不影响已有系统的正常运行。( 3)能够满足用户不同层次的数据集成要求,通过中间件集成满足。( 4)系统具有较好的可扩展性,能够适应需求的不断变化。( 5)系统对用户层提供统一的、透明的数据访问接口。使用户不必过多的关系各个底层数据源的差异结构。考虑到集成方法有多种,所以将集成分为:基于 XML 的数据仓库异构数据集成方法和基于 XML 的中间件异构数据集成方法。3.1.基于 XML 的数据仓库集成方法充分发挥 XML 作为载体时的可扩展

16、性、结构性、平台无关性等特点,用于数据异构集成是本设计的突出特点 .- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -基于 XML 的数据仓库集成方法系统架构数据仓库集成的主要思想是,将分散在不同地点的异构数据集中到一个数据库,使之统一管理。在这个转移过程中,主要运用 XML 作为载体实施操作。基于 XML 的数据仓库集成示意图:数据挖掘数据交换交互接口数据分析数据共享.数据应用层查询响应接口模块数据结构转换数据加密数据解压模块数据仓库数据解密数据载入网络数据压缩数据加密数据签名XML数据模块数据转换快照法日志法时间戳法影子表法API法. 数据提取MySQL

17、SQL Service. Oracle数据源图 4 基于 XML 的数据仓库集成系统示意图详细分析设计图基于 XML 数据仓库集成系统设计分为:数据源层、数据提取层、数据转换层、数据载入层和数据应用层。数据源层数据源层是数据最原始存储处,它主要是分布在不同地区或者不同机器上的原始数据。从其存在形式可以将数据分为:结构化数据、 非结构化数据和半结构化数据三大类。由于数据存在形式的不同,外部应用程序不能直接按一种模式进行管理应用。为此设计了个数据包装器,以达到不同数据的统一化处理。数据包装器封装了所有异构数据源的数据细节,对外提供相应的XML 数据处理接口。- 精品word文档值得下载值得拥有-

18、精品 word 文档值得下载值得拥有 -它也是整个数据集成系统中最重要的部分之一。 不同的异构数据源都有相应的包装器。 包装器实现的主要功能是对下封装异构数据源的一切细节,对上提供 XML 操作接口。数据源包装器主要封装的功能是对数据的查询, 以及其他的数据操作功能。 包装器主要实现查询转换、数据转换。最终将数据源转换成统一结构模式,存储在数据仓库中。数据提取层增量数据提取是数据库集成的基础,直接决定了数据库集成数据集成的效率和质量。中最常用的数据提取方法有:快照法、 触发器法、 日志法、时间戳法、 API法和影子表法几种。本系统设计时通过应用综合运用各类数据提取方法,达到数据提取效率。其快照

19、法快照是数据库中存储对象在某一时刻的即时映像。通过为复制对象定义一个快照或采用类似方法 可以将它的当前映像作为更新副本的内容。基于快照法是最简单的增量数据提取方法, 可以在任何数据库上实现。它不需要依赖特别的机制,不占用额外的系统资源,管理和操作也非常容易,而且在复制初始化和崩溃时是必需的。但由于无法仅分复制对象中那些具体发生改变,因此效率很低。触发器法此方法在数据库表上建立相应的触发器, 当数据库表发生新增、 插入和删除操作时, 此时触发器就会被执行, 通过相应的数据提取程序, 将增量数据写入目标数据库中, 实现本地数据库和目标数据库数据保持一致。日志法数据库日志作为维护数据完整性和数据库恢

20、复的重要工具, 其中已经包含了全部成功提交的数据库操作记录信息。 基予日志法就是通过分析数据库日志的这些信息来捕获复制对象的变化序列。目前常见的服务器关系数据库系统有Oracle、 DB2、 SQL Server、 Informix 等,它们都提供了日志机制的支持。 因此理论上可以用同志检测可以分析出数据的变化序列, 这种方法不仅方便, 也不会占用太多额外的系统资源, 对任何类型的复制都适合, 不但能提高效率和保证数据的完整性, 还能在对等式复制时提供详细的控制信息。 但由于数据库日志的格式是不公开且存在差异, 它们所提供的日志接口也各不相同, 因而不得不基于某一固定的数据库日志分析工具或接口

21、,这给异构数据库复制带来了问题。日间戳法基于时间戳的方法主要是根据数据记录的更新时间来判断是否最新更新, 并据此对数据每个表的修改时间。 这种方法不影响原有应用的运行效率, 但却需要对原有系统做较大的调整,而且不能捕获到那些并非通过应用系统引起的操作数据变化。- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -API 法在应用程序和数据库之间引入中间件,在完成应用程序对数据库修改的同时,记录下复制对象的变化序列,从而达到数据提取的目的。但是中间件的编写一般比较复杂,但是随着计算机技术的不断发展,面向方面编程AOP(Aspect Oriented Program

22、ming)间件的编写带来很大的方便。中间件会技术给中AOP 将一个系统中的非功能性需求(横切关注点)从系统中分离出来,将这些横切关注点单独模块化为独立的方面,而不是像 OOP 那样将这些横切关注点加在每个需要的对象中封装。 AOP 在系统编译时静态的或在系统运行时动态的将这些模块化的方面织入到每个类中,实现业务逻辑实现类和方面的组合。数据提取关心的是如何获得用户操作数据库的信息,这在 AOP 中属于关注点,关注的是对数据库的操作。 当用户操作应用系统时, 应用系统会通过调用数据库驱动 (JDBC,ODBC,ADO NET 等 )程序的方法来进行对数据库的操作,此时通过AOP 技术来通知数据提取

23、模块来分析用户要执行的操作,从而取得用户要对数据库的操作。这种方法既可以实现异构数据库复制,也减轻了DBA 的负担,但是对于不经过API 操作进行的SQL语句而产生的变化,API 法是无法捕捉到的,另外这种方法可移植性差,当从一种运行环境 (DBMS, OS 等 )移植到另一种运行环境时,往往要重新编写应用程序甚至改变数据库模式。 同时当复制逻辑复杂时,有可能影响应用程序的运行效率,因而这种方法不适用于企业级数据复制。影子表法影子表法在初始化时为复制对象表T 建立一个影子表S,也就是做一份当时的拷贝。以后就可在适当时机通过比较当前T 和 S 的内容来获取净变化信息。影子表法是一种通用的增量数据

24、提取方法,能在任何数据库上实现。影子表法得到的是净变化值,传输效率比较高。影子表法的缺点也很明显。首先,它不符合单副本可串行性的要求,中间过程的操作信息全部丢失不能提供足够的控制信息。其次, 每次数据提取时都需扫描整个T 表和 S 表,数据提取效率很低,随着数据的增多会成为一个严重的性能瓶颈。数据转换层数据转换层包括:数据压缩、数据加密、数据签名和XML 数据模块等。它们的主要功能是完成数据转换,最终输出XML 格式的数据。由于接受到提取的数据一般情况下都是非常大的,直接应用于传输不太合适,而且有时也不可行, 为此数据压缩变得十分重要了。通常不同的数据压缩方法有所不同,如音频数据的压缩、视频数

25、据的压缩以及文件数据的压缩等,它们应用的标准都不太一样。在该层,通常先对数据进行压缩,从而达到减少传输数据量的目的;数据压缩后, 将对数据签名, 签名的主要目的是保证数据的安全性和可信任;签名后现对数据进行加密,数据加密的主要目的是实现数据的安全性, 保证数据不会在传输过程中被泄漏了;当数据的其它一切都处理完后,将对数据进行XML 格式的转换,转换的主要目的是运用XML 数据的优点, 实现数据的传输。网络通信考虑到各局部数据源的分布分散、- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -数据仓库层数据仓库层主要是对实现统一化后的数据的存储, 并且提供数据管理

26、系统。 数据管理系统主要功能主要包括:对数据仓库内部数据更新、数据查询以及将存在的数据统一转换成 XML 格式供数据传输。而其内部的数据将通过 ETL得到更新。查询处理层查询处理层将从数据仓库层得到以 XML 格式的数据,并且提供应用程序接口,为应用程序提供数据支持。基于 XML 数据仓库集成方法软件的设计ETL控制是数据仓库更新时需要设计的一个重要部件,它的软件设计流程图如下:3.2 基于 XML 中间件数据集成方法设计基于 XML 中间件数据集成方法系统架构图的设计中间件数据集成方法有实时性较好的优点,它可以用来对多源异构数据进行实时监控的作用。但是异构数据无法实现直接统一管理应用,在此设

27、计中,选择XML 作为载体对异构数据进行集成。基于 XML 中间件数据集成方法架构图设计。数据挖掘数据交换交互接口数据分析数据共享.数据应用层XDBC查询分解查询优化查询执行引擎XML文档SQL包装器自定义包装器HTML包装器XML文件.OracleMySQL SQL Service数据源图 5 基于 XML 数据异构集成方法- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -详细分析设计图三基于 XML 的异构数据集成系统分为:数据源层、中介层和查询处理层三层。数据源层3.2 基于 XML 中间件数据集成方法设计基于 XML 中间件数据集成方法系统架构图的设

28、计中间件数据集成方法有实时性较好的优点,它可以用来对多源异构数据进行实时监控的作用。但是异构数据无法实现直接统一管理应用,在此设计中,选择XML 作为载体对异构数据进行集成。基于XML 中间件数据集成方法架构图设计。应用程序查询处理层查询解析器包装器数据缓存触发选择中介层包装器包装器包装器包装器数据源XML文件.DB1DB2DB3图 6 基于 XML 数据异构集成方法详细分析设计图基于 XML 的异构数据集成系统分为:数据源层、中介层和查询处理层三层。数据源层数据源层是数据源,可以分为结构数据、非结构数据和半结构数据。考虑到数据之间结构的差异, 所以在集成时通过包装器处理掉数据间的差异。 包装

29、器的主要作用是屏蔽掉数据集成时之间的差异,也封装好数据结构之间的差异,将数据转换成可统一的结构模式。- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -中介层中介层包括数据缓存和触发器两大部分。 数据缓存主要是存储转换过来的数据, 以供查询处理层调用,数据缓存的存在有利于提高数据调用时的速度,从而提高整个系统的速度;触发器的主要作用是调用特定的数据源, 它的主要作用是将不同的数据源转换成某一特定格式后,将其存入缓存中,以使应用程序调用。数据查询层数据查询层的主要目的为应用程序提供数据接口,以便应用程序能够更好的访问数据。它的主要手段是给中介触发器一个信号, 使

30、触发器触发特定的数据源, 从而产生特定的数据并且转换成特定格式数据缓存到缓存器中,并且方便的为应用程序应用。触发器程序设计触发器是中间件设计的主要部件,它的作用是触发特定的数据源,识别特定查询层的命令。具体流程图设计如下:其中n 表示第 n 个数据源, N 表示总共数据源个数。应用程序请求判断访问地址n<N?Yes访问第 n个数据源并返回 XML格式数据No数据存入缓存器中图 7 触发器程序流程图四、基于XML 的异构数据集成在演出院线网络化协同服务平台中的应用4.1 系统架构图基于 XML 的异构数据集成在演出院线网络化服务平台中的应用架构图如下图所示:- 精品 word 文档值得下载值得拥有 - 精品 word 文档值得下载值得拥有 -查询处理层中间层应用程序查询解析器包装器识别器数据仓库数据缓存器触发选择ETL控件数据源层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论