




已阅读5页,还剩76页未读, 继续免费阅读
(计算机科学与技术专业论文)分布式综合查询调度技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 查询调度问题是分布式开放环境中进行查询处理的一个关键问题。给定一个用户的查 询,假定我们已经知道有n 个资源与应答这个查询相关,则我们需要解决的首要问题就 是考虑我们应当如何将查询分解为n 个子查询,每个子查询对应一个单一的资源。其次 是在存在站点之间的连接时如何为n 个子查询实现同步。第三是如何根据用户的原始查 询表达式将从n 个信息源上返回的结果打包并装配起来。 经过研究和探索,我们实现了一个分布式综合查询调合系统( d i s t r i b u t e di n t e g r a t i o n m e d i a t i o ns y s t e m ) ,我们在这个环境中解决了前面两个问题。本文的主要内容包括: 1 d i m s 系统介绍: 2 元数据模式( 接口描述语言和接口查询语言) ; 3 分布式综合查询调度框架: 4 分布式综合查询调度和优化技术研究。 关键词:分布式综合调合系统d i m s 分布式查询调度d q s 调合器封装 v v 元数据模式 7 第1 l i 页 国防科学技术大学研究生院学位论文 o n eo ft h ek e yi s s u e sf o rq u e r yp r o c e s s i n gi nd i s t r i b u t e do p e ne n v i r o n m e n t si st h eq u e r y s c h e d u l i n gp r o b l e m g i v e n au s e rq u e r y ,a f t e rw ek n o wt h a tt h e r ea r ens o u r c e st h a ta r er e l e v a n t t ot h ea n s w e ro ft h i sq u e r y ,t h ef i r s ti s s u ew en e e dt oa d d r e s si sh o wt od e c o m p o s et h eq u e r y i n t ons u b q u e r i e s e a c ht a r g e t i n ga to n es i n g l es o u r c e t h es e c o n di s s u ei sh o wt os y n c h r o n i z e t h e s ens u b q u e r i e si nt h ep r e s e n c eo fi n t e r - s i t ej o i n s 1 1 l et h i r di s s u ei sh o wt op a c k a g ea n d a s s e m b l et h er e s u l t sf r o mni n f o r m a t i o ns o u r c e sa c c o r d i n gt ot h eo r i g i n a lq u e r yp o s e db yt h e u s e r w eh a v ed o n eas e r i e so fr e s e a r c ho ft h e q u e s t i o n ,a n d h a v ea c h i e v e dd i s t r i b u t e d i n t e g r a t i o nm e d i a t i o ns y g e m ( d i m s ) w e h a v er e s o l v e dt h ef i r s tt w o q u e s t i o n si nt h ec o n t e x t o f d i m s t h i st h e s i si n c l u d e st h ef o l l o w i n gc o n t e n t s : 1 i n t r o d u c t i o no f d i m s 2 r e s e a r c h i n g o f m e t a d a t a m o d e l ( d i m s - i d l i q l ) 3 r e s e a r c h i n g o f d i s t r i b u t e d i n t e r o p e r a b l eq u e r ys c h e d u l i n gf r a m e w o r k 4 r e s e a r c h i n g o f d i s t r i b u t e di n t e r o p e r a b l e q u e r ys c h e d u l i n g a n d o p t i m i z i n gt e c h n o l o g y k e y w o r d :d i s t r i b u t e d i n t e g r a t i o n m e d i a t i o n s y s t e m ( d i m s ) ,d i s t r i b u t e dq u e r y s c h e d u l i n g ( d q s ) ,m e d i a t o r , w r a p p e r , m e t a d a t a 第l v 页 国防科学技术大学研究生院学位论文 第一章绪论 1 1 研究背景 当今的计算机应用信息系统的实现和运行环境不同于以往的单机平台或同机种自蝴网 络平台,而是基于网络( 特别是i n t e m e t 技术) 的开放式信息处理平台。开放式信息处理平 台意味着能在不同机种,不同通信网络,不同数据库系统,不同操作系统的环境中,实施 网络通信和资源共享。 一个开放系统或开放系统环境是指适用于网络系统或计算系统的组件集合,技术界认 为开放系统应具备以下四个特征: 1 可移植性( p o r t a b i l i t y r ) 2 互操作性( i n t e r o p e r a b i l i t y ) 3 可伸缩性( s c a l a b i l i t y ) 4 可用性( a v a i l a b i l i t y ) 开放式信息系统的基本特性是应用的互操作和可移植性。互操作是开放系统中的一个 重要概念。目前对互操作概念的理解并不一致,还没有统一的定义。虽然不同的定义给出 不同的表述,但在其内涵上有共通之处,即互操作是建立在网络基础平台之上的、实现应 用程序之间功能与数据资源透明利用的规范与实现技术( 注:c o e 对互操作有多级陈述, 不仅仅指应用互操作) 。所谓透明访问就是要实现应用程序对资源的使用不特殊依赖于程 序语言、数据表示、通信协议、操作系统和机器体系结构,与服务提供者的位置无关。互 操作的起点是网络传输层a p i ,要求网络基础平台已解决了网络的互连互通问题。 今天的数据库应用有两个明显的特点,即异种和共享。多种数据库产品并存,原有主 要厂商不断强化各自产品与市场份额,新的技术如面向对象数据库等的不断出现,基于多 种数据库模型的产品都同时存在一个分布的环境中。这一事实不会有任何改变,而且随着 新的数据库产品的出现会进一步加剧,新的应用又呼唤新的数据库技术。另一个特点就是 对这些异质的数据库之间实现信息共享的要求越来越高。随着网络技术的迅速发展,原来 孤立的计算机系统实现了互连,这为信息的共享提供了基本条件,尤其是在i n t e r n e t , i n t r a n e t 环境中,信息共享已成为主要目标,而异种数据库的信息互用更是其中一项关 键的技术,在这类环境中要实现完全集中的数据管理或采用完全同质的数据库系统是不可 能的。这是因为。一、已形成了多种数据库并存的事实;二、从技术性能、经济效益及防 止垄断考虑,也不宜采用单一的产品:三、网上所应用的数据并不是一个机构所能单独建 第l 页 国防科学技术大学研究生院学位论文 立的。因此,问题的关键是在承认事实的情况下,如何实现多种异质数据库之间的信息共 享。异种数据库的信息互用技术已成为数据库应用领域最有价值的技术之一。本课题就是 根据这个需求,开展异种信息源互用问题研究。 1 2 研究内容 大范围的信息合作系统常常是各部门间的、各组织间的以至于各国家间的信息用户和 信息生产者的合作。合作的目的是为了提高生产率,并且降低生产和交易事务的成本。信 息源由独立的信息生产者提供,而这些信息源由于其生产者的数据模式、d b m s 、和传统 的应用程序等的不同常常是异构的。而由于存在不同的商业对象及商业规则,使信息用户 常常有很多不同的用户需求,如u s e c a 属性:对异构信息源的一致的访问( u n i f o r m ) ;对 信息源扩张的可伸缩性( s c a l a b i l i t y ) ;软件和信息源的进化和可构造性( e v o l u t i o na n d c o m p o s a b i l i t y ) 以及信息用户或信息生产者的独立性( a u t o n o m y ) 。本文的目的是建立一 个使信息用户和信息生产者能够相互联系的互操作信息系统,这个系统透明地提供多种异 构的和独立的信息源之间的专用的信息访问( 包括数据库、知识库、f i a t 文件和程序) 。根 据以上需求,确定本课题研究内容如下: 查询调度技术研究:通过研究提出一个调度技术,在进行开销评估之前首先削减解决 方案空间,从而削减查询处理本身的费用; 调度技术的实现:实现一种通用的分布式查询调度处理过程,包括查询调度工具的设 计和实现,并以此为基础实现一个查询调度框架: 语言实现:实现一致的接口描述语言和接口查询语言。 1 3 相关的工作介绍 对于多种异构信息源的信息收集已经有不少途径。一种典型的多数据库管理方法就是 依靠建立一个全局唯一的调度表来处理多个本地数据库表之间的差异。从每一个本地表到 全局表之间的映射通常用一种公共的类似于s q l 语言的语言来描述,如在p e g a s u s 系统中用 h o s q l ,在u n i s q l m 系统中用s q l m i 吾言等。尽管对于所有的访问而言,这个贯穿数据 集成域的唯一的全局调度表的实现是完全透明的,但由于组件数据库有严格的独立性及可 伸缩性,因而其发展就变得比较困难。 联合途径引入了多个模式。并可定制多数据库在不同层次上的集成,从而改善了独立 性和多数据库管理的灵活性( 可交换) 。但是,每一个多数据库层次上的组件模式的集成 是由系统执行的。集成模式是静态的,异构问题在模式集成阶段解决。在有新资源需要被 加入到已存在的多数据库系统中时,这种途径不能很好的实现扩展。而且没有集成模式的 第2 页 国防科学技术大学研究生院学位论文 允许,组件模式也不能扩展。 分布式对象管理途径通过将不同粒度的异构数据库建模为一个分布式对象空间中的对 象,进一步发展了联合途径。这需要定义一个公共对象模式和一个公共对象查询语言。o m g 和o d m g 标准将o m g 对象模式扩展到数据库互操作领域。这对于分布式对象管理是一个重 要的里程碑。 另一条途径,称之为智能信息集成( 1 3 ) ,可以被看作是普通的信息集成系统结构,在 1 3 计划中a r p a 投资了多个项目。例如,t s i m m i s 是一个最著名的系统,他通过一个简单 的对象交换模型实现基于调合的信息集成结构;又如,m i t 的上下文交换项目( c o n t e x t e x c h a n g e ) ,在上下文媒介中使用上下文知识明确定义了由资源提供的信息和接收器获得的 信息的含义;同样的,巴尔的摩( b a l t i m o r e ) 大学开发的智能代理集成系统使用知识查询 和控制语言( k q m l ) 集成异种数据库;s i m s 项目使用l o o m 知识表达系统作为数据模型 和查询语言来实现基于代理的集成:其它的例子还包括马里兰( m a r y l a n d ) 大学和s r i 通过 另外的途径实现了基于多f 逻辑对象模式的异构数据和知识的综合,即使用k i f 失i 识交换逻 辑。 在这些项目中,只在查询处理和查询优化问题方面有一些不同。例如,t s i m m i s 查询 处理是基于预定义的查询模式匹配。查询的重组和简化是通过使用基于逻辑的重写规则实 现的,而不是预定义查询模式。m a r y l a n d 大学矛i s r i 的信息媒体项目中,查询处理是使用f 逻辑定义一组异构对象等价规则,来简化多数据库和本地模式之间的映射。s i m i 中的查询 处理是通过查询重组和查询优化实现的。l o o m 推理模块在s i m s 中用于实现查询优化。但 是,他们查询重组和简化的结果不能满足系统模式中所有的u s e c a 属性需求,这是我们的 实现途径的主要目标。 1 4 研究进展 经过研究室同事的鼎立合作我们在以下几个方面取得了较大的进展: 1 对当前异种信息源互用技术状况进行了充分的调查分析,尤其是分布式技术在异种信 息源互用中的应用状况和技术进展。最初的研究集中在移植已经成熟的计算机技术, 实现数据的共享及互用。发现每一种方法都存在一定的局限性,如过去大多数工作仅 仅支持一条或一部分u s e c a 属性,组合所有的u s e c a 属性还面临着挑战。 2 提出一个异种信息源互用系统框架。网络的飞速发展,实现分布式系统之间的信息共 享是必然的趋势,包括计算资源和信息资源共享。而由于存在不同的商业对象及商业 规则,使信息用户常常有很多不同的用户需求。我们建立了一个使信息用户和信息生 第3 页 国防科学技术大学研究生院学位论文 产者能够相互联系的互操作信息系统分布式综合调合系统( d i m s ) ,这个系统透 明地提供多种异构的和独立的信息源之间的专用的信息访问( 包括数据库、知识库、 f l a t 文件和程序) 。 3 接口描述语言和接口查询语言的实现。使用个统一的d i m s 接口描述语言 ( d i m s i d l ) 来描述信息生产者的资源模式,并使用d i m s 接口查询语言( d i m s i q l ) 来表示信息用户的查询模式。d i m si d l i q l 提供的可扩充性和抽象使得在信息源个数 增长及信息源演变时,对查询路由模块、查询分解机制、查询翻译方法和集成操作结 果的扩展成为可能。 4 实现一种通用的分布式查询调度处理过程,包括查询调度工具的设计和实现。为了消 除各种信息源之间结构、属性等方面的差异。本文提出了一个灵活的查询调度处理框 架,用于对用户的查询进行分解和转换,并确定最佳的查询调度计划,以及最终向用 户返回装配好的查询结果,其中最重要的部分是最佳查询调度计划的确定。 1 5 论文组织 第一章:绪论,给出本课题的背景、研究内容以及相关工作。 第二章:系统模型概述,概要介绍d i m s 系统。 第三章:元数据模式,讨论t i d l 及i q l 语言的实现。 第四章:分布式信息调合系统的查询调合过程,介绍异种信息源互用系统框架的查询调合 过程,并给出一个查询示例。 第五章:分布式查询调度,讨论了实现查询调度、查询优化的思想及理论基础。 第六章:结束语,对已经完成的工作进行总结以及对将来的工作进行展望。 第4 页 国防科学技术大学研究生院学位论文 第二章d i m s 体系结构综述 分布式综合调合系统( d i m s ) 弓i a t 一种直接定义信息消费者和信息生产者之间接口的 方法,用以在日益增多的自动数据源作为组件的异种信息系统中进行动态匹配( 信息消费者 和信息生产者) 来获得互操作的能力。d i m s 系统中使用的调合器封装结构是在分布式环境 中常用的技术,具有普遍性,但由于封装是针对具体数据库的,涉及不同数据库中的语义 差异,因而对不同的数据库必须构造不同的封装,所以局限了d i m s 的应用范围。但是只 要已经确定了相关的信息资源以及与它们相关的内容和性能的统计信息,都可以使用 d i m s 的分布式查询调度工具生成分布式查询执行计划,本文中对此不再做特别说明。 2 1d i m s 体系结构概述 在d i m s 中我们将信息消费者和信息生产者之间的动态互连而非静态数据分发系统函 数视作先进的分布式信息系统。这样将带来两个问题:( 1 ) 信息生产者的源数据与信息消费 者查询请求的异构性问题:( 2 ) 随着急剧增长的信息源以及消费者和产生者需求快速变化而 引发的分布式查询扩展性问题。 为了解决上述两个问题,可扩展性和可扩充性成了d i m s 的关键问题。为了在实现分布 式互操作服务时获得好的可扩展性和高的可扩充性,d i m s 提出了两个独立而完整的策略: 使用一种添加法,通过网络内特定域的调合器来构建和组织信息访问,并通过特定数 据仓库的封装来支持对异种信息源的动态调合链接( 见图2 1 ) 。 提供一系列工具集合使信息消费者能在说明其查询时指定查询结果的接收方式和表示 方式,而不仅仅只是一种所有源信息结果的简单提供。 图2 ,1 :调合器网络的协同体系结构 第5 页 国防科学技术大学研究生院学位论文 第一种策略保证了将新的信息源加入d i m s 时的无缝添加。第二种策略则通过在查询处 理阶段建立信息消费者和信息生产者之间的互连使得分布式查询服务发展成为与信息源 无关的中间件服务。这样,每添加一种新的信息源到系统中只需要安装一个新的d i m s 封 装即可。该d i m s 服务能动态捕捉新的可用信息源并将其加入分布式查询调度进程。 2 2d i m s 分布式查询调度框架 分布式查询调合器管理者的主要任务是在根调合器及其下属调合器以及封装之间处理 信息消费者查询请求时进行通信和分布处理的协调。 d i m s 中分布式查询调度处理的通用过程如下,它在处理提交到d i m s 服务器上的用户 查询时主要有以下步骤: 查询的路由, 查询的分解, 生成并行访问计划, 子查询转换和执行, 查询结果装配。 图2 2 :d i m s 中的分布式查询调度框架 图2 2 给出了d i m s 系统中如何处理一个查询的过程。在第四章中我们将对d i m s 系统中 的查询过程做更详细的描述和说明,本章对此就不再赘述。 第6 页 国防科学技术大学研究生院学位论文 2 3实现语言_ j a v a 概述 根据分布式查询调度工具的系统需求分析和体系结构设计,我们选择j a v a 编程语言作 为实现这个系统的编码工具。本节我们先给h g j a v a 语言的概述 参考文献6 ,在第五章我 们将具体地讨论使用j a v a 进行编码过程中遇到的问题。 j a v a 起源于1 9 9 0 年,作为消费电子产品开发的一种编程语言,其目标是小巧、可靠和 体系结构独立。随着世界万维网( w o r l dw i d ew e b ) 在i n t e r n e t 上的出现,j a v a 变成了在 i n t e r n e t 上进行编程的理想语言,因为j a v a 的最初目标极适合i n t e r n e t 编程。 j a v a 的语法看起来与c 和c + + 的语法很相似。同时,它的语法结构更小,这使得学习起 来更容易,而且编码更简单而且可靠。 j a v a 是一个面向对象编程语言。这对应用开发者的分析和设计约束会产生强制性的影 响。为了最有效地使用语言,开发者必须采用面向对象的途径进行软件工程的分析和设计 阶段。 j a v a 是一个分布式语言,它支持在不同程度的网络连通性上的网络应用。 为了实现j a v a 的平台独立性,其编译器形成了一个平台中立的程序代码,也就是字节 代码。这个代码由语言解释器执行,通常使用j a v a 虚拟机( j a v av i r t u a lm a c h i n e ) 。这 样j a v a 是一种解释性的编程语言。 j a v a 的设计能实现高可靠的和健壮的程序归功于以下特性: 它是强类型语言,它强制显式进行类型说明和方法声明; 有高可靠的内存模型,例如,程序员无需担心内存释放和内存渗漏,以及检查数 组边界; 有便捷的异常处理机制,使用t r y c a t c h f i n a l l y 结构,并允许程序员简化错误处理任 务。 编译好的j a v a 程序可以在任何实现 j a v a 虚拟机的平台上运行,这个特性起源于语言 的初始设计,并被进一步扩展到i n t e r n e t 的发展上。同时,这个特性具有的良好的支撑环 境,事实上,大多数软件开发者都想要创建可以在任何平台上运行的软件。j a v a 提供了一 个叫做a b s t r a c tw i n d o w i n gt o o l k i t 的包( 指j a v a a w t ) ,它允许程序员为他们需要的本 地运行平台开发应用程序用户接口。 同时,j a v a 是一个可移植语言,也就是说,它显式地定义了每一种原始数据类型,因 而为具体的实现提供了完整的独立性。 j a v a 编程语言还有很多其它属性,如安全性、高性能、多线程、动态扩展等等。 参考 第7 页 国防科学技术大学研究生院学位论文 文献6 详细说明j a v a 语言的这些良好特性。 小结 本节对分布式综合调合系统d i m s 做了简要的介绍,给出了d i m s 系统中进行查询的基 本步骤,并描述了d i m s 系统的实现环境,如实现语言、开发和测试平台等问题。我们将 在后面的章节中,对d i m s 系统的组成,以及查询的详细过程进行更详细的讨论。目前这 个系统还不是很完整,需要进一步的改进,我们将在以后的工作中进一步完善这个系统。 第8 页 国防科学技术大学研究生院学位论文 第三章元数据模式 3 1d i m s 概述 在d i m s 环境中,信息源可能由于其组织不同而不同,如传统数据库、知识库和f i a t 文 件等;或由于其结构不同而不同,j i j h t m l 超文本、关系表和复杂类结构对象等;也可能 由于许多浏览器和图形用户接口( g u i ) 不同而不同,如同进行信息访问使用的查询语言 不同一样。图3 1 给出了一个通过d i m s 调合器网络体系结构合作的信息调合器网络的例子。 图3 1d i m s 系统体系结构:不例 这个网络包括简单的基于封装的调合器,如b o o k s t o r e 数据仓库的封装,b o o k s t o r e 数据仓 库仅提供并访问有关b o o k s t o r e 硷;库的信息。然后用这个基于封装的调合器被构造一个 b 0 0 k s a l e 调合器。再用b o o k s a l e 调合器建立一个文档查询调合器和一个旅行计划调合器。 这种递归创建和组织信息访问的方式有如下重要特征: 调合器可以独立创建和维护。每一个特定调合器表示在急剧增长的信息源中使用大量 第9 页 国防科学技术大学研究生院学位论文 信息访问的信息使用者的一种个人消费观点。 这些调合器可以自动或半自动地使j 唾 d i m si d l i q l 接口说明语言以及相关的添加编 辑技术来生成。这些特点也使d 1 m s 结构在信息源个数增大及内容增长时或在不同信息 用户需要不同专用信息时,可以方便地进行缩放或扩展。 为了创建网络上一个特定的信息调合器,需要给出单个调合器的具体构成( 也就是所 谓元调合器) 。我们可以将元调合器初始化创建成各种特定调合器。为了实现这一点,就 需要d i m s 系统提供下列功能: 1 需要提供一个一致性接口描述语言; 2 需要生成一个接口排序元操作工具集; 3 需要提供可裁剪的并且可以用于大量特定调合器的查询处理服务从而提供对异种 信息源进行访问的能力。 图3 2 :d i m s 元调合器体系结构 一个典型的d i m s 调合器具有两层结构客户,服务器结构,同时对调合器层和封装 层提供服务。图3 2 给出了一个调合器对象服务器的结构,它主要提供下列服务: 1 在信息消费者域使用模式和相应信息源模式之间进行协调和信息交换; 2 调合后的元数据构成的元数据库和对应的元数据信息源模式的分布; 3 在加入和修改信息源时进行元数据目录的维护。 d i m s 中的调合器是面向应用的。每个调合器包括一个信息消费者域模型和众多信息生 第1 0 页 国防科学技术大学研究生院学位论文 产者信息源模型,并且是用d i m s 接口定义语言进行描述( d i m si d l ) 。信息消费者域模型 说明消费者查询目的和预期的查询结果表示。信息生产者信息源模型描述由d i m s 接口管 理者生成的d i m s 接口对象表示的信息源。消费者域模型和众多信息生产者信息源模型构 成了一般意义上的调合器,用于决定如何处理消费者的查询请求。调合器子系统的主要任 务是利用信息消费者和信息生产者提供的调合器来有效处理分布式查询。 每个封装仅服务于一种信息源。封装由若干软件模块构成,需要基于已存在的信息源 构建,从而使d i m s 本地代理能访问系统中的信息源并得到查询结构。封装的主要任务是 通过使用在已实现的数据仓库和封装函数维护下的本地元数据来控制和提供对信息仓库 的外部访问。一个封装提供的服务如下: 将消费者查询表示中的子查询转换成信息生产者查询语言表示; 将转换后的子查询提交目标信息源; 将子查询结果按照对应调合器可理解的对象进行封装。 图3 2 中底部的信息源可能是下列某种信息源之一: 完全缮杉纪:如关系的和面向对象的数据库管理系统。 半缮杓纪:如h t m l 文件,书籍目录文件以及其他基于文本的记录等。 嚣络:,i 争纪:如技术报告和文档,a s c i i 文件和图像文件集合等。 每个信息源都是独立的它可以不经调合器允许而对信息进行修改。但是如果一个 信息源对其输出规范包括逻辑结构、命名和语义约束等进行修改,它必须通失i d i m s 对象 服务器。要建立一个具体的信息调合器网络,我们需要一个可以动态创建多个具体调合器 的体系结构元调合器。开发这样的调合器体系结构最终目标是提供一个统一的接口描 述语言和相关的查询处理服务,大量的特定应用调合器可以利用和定制它们来较为便利地 访问异构和独立信息源。每一个d i m s 调合器包含一个其专业知识域的详细的查询模式和 可获得的信息源的模式。d i m s 查询可以被归纳为五个步骤: i 信息用户用d i m s 接口查询语言i q l 或基于预定义的i q l 查询模式提出一个查询。 2 接收查询,确定一组合适的信息源来应答查询。 3 重新描述原始的i q l 查询,将其分为一组合适的i q l 子查询或进程,每一组对应一个 信息源。 4 将每一个i q l 子查询转换为可以在信息源级执行的查询表示。 5 从信息源获得结果,进行相应的转换、过滤和信息合并,并将最终的结果集返回给 信息用户( 用户或应用程序) o 第“页 国防科学技术大学研究生院学位论文 3 2d i m s 元数据模式 d i m s 元数据模式包含接口描述语言( i d l ) 和接口查询语言( i q l ) 。与访问其它面向 对象数据模式不同,d i m s 采用i d m g i d l 茅i i d m g - i q l 对象数据库标准作为基本模式,同 时带两个主扩展: 1 d i m si d l 增加了一些接口提取,允许新的接口依照已存在的接口构造,并且为 u s e c a 属性提供更好的支持。这些增加的接口构造工具包括:导入( i m p o r t ) 机制、 接口聚集( a g g r e g a t i o n ) 、接口泛化( g e n e r a l i z a t i o n ) 和接口特化( s p e c i a l i z a t i o n ) 。 2 d i m s i j i 进了基本接口和混合接口概念来区分信息生产者资源模式的接口描述和信 息用户域应用模式( 个人视图) 的接口描述。这样的区分服务有双重目的:( a ) 使得 系统能够自动描述基本接口;( b ) 允许信息用户在信息源个数增加的情况下,建造 动态的和个人的视图,而不是单片的和综合的瞬象。 元数据这个词涉及两种数据类型和数据语义。d i m s 元数据模式包含两个主要部分:信 息用户域应用模式的描述( 用户的域接口模式) 和一部分与信息用户域模式相关的信息源 模式的描述( 输出模式) 。我们使用“调合的元数据”与元数据的描述区分开来,它是信 息用户在多数据库级定义的,而元数据在信息源级定义。在详细讨论d i m s 接口描述语言 时还会涉及这个问题。 在d i m s 查询调合框架中,一个信息用户可以用d i m s i d l 或d i m s i q l 和相关查询服务 来建造他她自己的有特殊用途的信息调合器。一个典型的具体应用程序的信息调合器包括 两级接口描述: 一个信息用户的域查询模式( 个人视图) ,描述域的应用和职责; 一些信息生产者的源数据模式,为信息用户提供用户关心的相关信息目录。 每一个依照d i m s i d l 定义的调合器都专对一个特定的应用域,并提供对可获取的与此 项应用域相关的信息源的访问。由于我们关注的是在一个大的异构环境中的实现查询处 理,所以我们在这里只大致列出相关的元数据管理服务。在本文中,我们假定在d i m s q 3 的分布式元数据管理系统有能力表示和维护调合器的知识。基本的服务需包括:( i ) 一个 存储信息生产者的资源注册轮廓的信息源目录;( i i ) 一个存储信息用户的领域应用模式、 查询轮廓和调合器的域知识的接口仓库;和( i i i ) 实现仓库,每个仓库由指定的资源管理, 存储信息生产者的数据源模式,调合器的域模式和资源模式间的语义映射,以及特定资源 的知识。 第1 2 页 国防科学技术大学研究生院学位论文 3 3d i m s i d l 每一个调合器都由一个信息用户的领域模型和许多信息生产者的资源模型组成。信息 用户的领域模型指定了专门知识的调合器领域;信息生产者的领域模型由其他调合器或数 据仓库管理员管理,并被选择作为与它们相关的调合器的专门知识。信息用户领域模型和 信息生产者资源模型组成了调合器的一般知识,用于确定如何处理信息用户的信息请求。 信息用户的领域使用模型关心的是一组信息用户感兴趣的具体的应用领域。它提供了 对象( 接口) 的类描述和他们彼此间的相关关系;它还描述了用户的使用模型与相关信息 生产者的资源模型间的关系。调合器的领域模型不仅定义了它的专门知识领域,而且定义 了其它调合器可用于与此调合器交互作用的术语。信息生产者的资源模型描述应答信息用 户申请时d i m s 系统中可获得的资源。一个生产者资源模型只包括部分选择用于导出到 d i m s 的生产者资源,而不是整个信息资源的完整描述。构成一个生产者资源模型的典型 信息包括:( 1 ) 从一个信息生产者资源导出的类的相关描述;( 2 ) 这些类间的关系。 一个信息用户的领域模型的接口和为生产者信息资源生成的接口是使用d i m s i d l 定 义的。下面本文首先主要讨论了d i m s 如何使用三个众所周知的面向对象数据抽象机制( 聚 集、泛化和特化) 来建立完全不同的数据源间的有用连接并解决必然的表示冲突。然后描 述了d i m s 支持的第四个接口组合机制,称为导入( i m p o r t ) 机制。 聚集:聚集是允许从已经存在的接口中组合形成新接口的机制,以使容器( c o n t a i n e r ) 接口对象可以直接访问组件接口对象。这样,组件接口中定义的操作可以通过容器 ( c o n t a i n e r ) 接口直接调用。 泛化:泛化提供一个很方便的工具,用于将语义上相近但具有不同接口的几个信息资 源合并成为一个更通用的接口。这样,它使存在于迥异的数据仓库中的对象可以被访 问而且统一视为一个通用的d i m s 接口。 特化:特化是一个用于依照某些已存在的接口通过类型重定义构造新接口的有用机制。 这个机制改善了信息局限,使得一个对象类型或其实现中的改变可以被自动传播到它 的特化版本中的子类型中。 导入:导入机制设计用于从给定的导出模式中导入选定的数据部分,而不是导入所有 可获得的数据。对于管理复杂对象的数据仓库,导入机制执行自动检测类型封闭特性 和导入类型,类的索引完整性。类型封闭特性是指子类型超类型继承上的类型一致性约 束。索引完整性是指对象索引关系的类型“完全”规则,用于确保在导入模式中不存 在摇摆索引。导入机制的使用可以为我们带来如下获益:首先,通过导入机制,用户 第1 3 页 国防科学技术大学研究生院学位论文 可以简单地确定应用中感兴趣的关键信息。系统将自动推断为保持索引完整性和类型 封闭特性而需要被导入的类型类的余数。其次,导入机制允许用户在导入进程期间通 过排除资源数据的不相关部分定制资源数据。第三,当应用程序感兴趣的大部分数据 类型来自于一个数据仓库时,使用导入机制可以减轻数据库管理员的工作,不必总是 为每一个资源数据类型指定库接口。最后,在组件模式改变时,导入机制显示了更高 的容错性和适应性。 每一个d i m s i d l 接口模式包含一个或多个i d l 混合接口描述,彼此间依照d i m s 接口构 造机制如泛化、特化、聚集和导入等连接。当一个用户只关心某个信息源的一部分时,可 以依照d i m s 导入机制显式地定义一个对此信息源模式的混合接口来指明所关心的对象。 例如,在对一本书的查询应用中,信息源d r l :l i b r a r y d b q b 的j o u r n a l 和t c c h r e p 类型的对象 可能是不相关的。此时可通过使用导入机制对源d r l :l i b r a r y d b 定义一个混合接口显式地 指明所关心的对象。下面的例子举例说明了如何用d i m s i d l 定义混合接口,假定信息用 户领域模型由下面四个接口组成: j o b = c o m p a n y = t i t l e ,p a y ,d e s c r i p ,c o m p a n y ,p o s t d a t a 】 【n a m e ,a d d r e s s ,c i t y ,p r o v s t a t e ,c o u n t r y , m a i l c o d e ,d e s c r i p ,p h o n e ,f a x ,u r l 【n a m e ,a d d r e s s ,c i t y ,p r o v s t a t e ,c o u n t r y , m a i l c o d er d e s c r i p | p h o n e ff a x u r l a u t h o r ,f o r m a t ,t i t l e ,p a g e s ,p u b l i s h e r , a d d r e s s ,y e a r 则其完整的i d l 定义如下: c r e a t e 工n t e r f a c ej o b s g e n e r a l i z a t i o no f s e l e c ti n t e r f a c e - n a m ef r o mi n t e r f a c e r e p o s i t o r y w h e r ed e s c r i p t i o nc o n t a i n s 【、j o b 7 i l 、p o s i t i o n ; a t t r 工b u t e s s t r i n g t i t l e , d o u b l e p a y , v a r s t r i n gd e s c r i p , s t r i n g l o c a t i o n , c o m p a n yc o m p a n y , s t r i n gp o s t d a t e c r e a t e 工n t e r f a c ej o b s g e n e r a l i z a t i o no f s e l e c ti n t e r f a c e - n a m ef r o mi n t e r f a c e r e p o s i t o r y w h e r ed e s c r i p t i o nc o n t a i n s 【( 、b u s i n e s s7 ) ( 、a d d r e s s | i 、d e s c r i p t i o n 7 ) ; 第1 4 页。 国防科学技术大学研究生院学位论文 a t t r i b u t e s s t r i n g s t r i n g s t r i n g s t r i n g s t r i n g s t r i n g v a r s t r i n g s t r i n g s t r i n g s t r i n g s t r i n g n a m e , a d d r e s s , c i t y , p r o v s t a t e , c o u n t r y , m a i lc o d e , d e s c r l p , p h o n e f a x , e m a l 上 u r l c r e a t ei n t e r f a c ej o b s g e n e r a l iz a t i o no f s e l e c ti n t e r f a c e - n a m ef r o mi n t e r f a c e r e p o s i t o r y w h e r ed e s c r i p t i o nc o n t a i n s 【( 、b u s i n e s s7 、c o m p a n y ) a d d r e s s 1 1 、d e s c r i p t i o n ) 】; a t t r 工b u t e s b u s i n e s s b u s i n e s s p t r) c r e a t ei n t e r f a c ej o b s g e n e r a l i z a t i o no f s e l e c ti n t e r f a c e - n a m e f r o mi n t e r f a c e r e p o s i t o r y w h e r ed e s c r i p t i o nc o n t a i n s p l a c e m e n t il 、r e c r u i t e r 】; a t t r i b u t e s b u s i n e s s b u s i n e s s p t r) c r e a t ei n t e r f a c ej o b s g e n e r a l iz a t i o no f s e l e e ti n t e r f a c e n a m e f r o mi n t e r f a c e k e p o s i t o r y w h e r ed e s c r i p t i o nc o n t a i n s 【、r e s u m e h e l p ii c v b o o k s 7 1 | 、r e s u m e a r t i c l e s ; a t t r i b u t e s s t r i n ga u t h o r , s t r i n gf o r m a t , s t r i n gt i t l e , s t r i n gp a g e s , s t r i n gp u b l i s h e r , s t r i n ga d d r e s s , s t r i n gy e a r 用d i m s i d l 定义的用户接口模式在多数据库综合上不同于传统的全局模式,有三方 粤!二一 第1 5 页 国防科学技术大学研究生院学位论文 1 与将等价属性融合到一条单独属性的模式综合的紧耦合途径不同,d i m s 只是给出 个逻辑表格用以调合属性。也就是说,条调合后的属性只单独对应一条组件信息 源中等价属性的语义,而不是绝对的综合泛化。由于d i m s 系统中没有融合的属性, 因此域以及操作可以有所不同,没有影响。这样,编码和数据结构的实现细节也不 必过多考虑。 2 每一个d i m s 接口模式只表示一个信息用户对相关信息源的个人视图。我们称之为域 查询模式。系统本身不为所有多数据库的用户创建全局模式。对每一个用户的领域 模型,使用d i m s 元数据命名协定来指示用户定义的接口类型,属性和关系。例如, 使用属性命名协定来指示调合后的属性,用箭头符将调和后的属性与它的接口类型 名关联起来( 例如,b o o k - p r i c e 和s u p p l i e r - n a m e ) 。 3 d i m s i d l 支持的接口抽象机制不仅确保无缝扩展到用户的接口模式,而且确保了 i d l 规范的可伸展性。每一个用户定义的i d l 接口模式被看作一个全局信息的动态视 图来维护,而不是静态的“瞬像( s n a p s h o t ) ”。在个新信息源到来后,将透明地执 行相关用户i d l 接口描述的增量再编译,以确保新信息源无缝合并到全局查询计划和 动态资源选择进程中去。从信息用户的角度来看,新信息源到来后,不需要对接口 模式做任何手工修改。 简而言之,d i m s 元数据模式为我们将在后面讨论的可扩充的( 以及可伸展的) 查询处 理框架建立了基础。 3 4d i m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陶瓷彩绘工前沿技术考核试卷及答案
- 搬家行业创新模式效益分析报告
- 部编版语文教学案例反思报告
- 数字出版用户满意度报告
- 中药材购销员安全规范考核试卷及答案
- 木工技能培训课程评估分析报告
- 耕种机械制造工内部技能考核试卷及答案
- 电化学盐合成环保效益分析报告
- 制氢工技能巩固考核试卷及答案
- 71 关爱他人 说课稿-2023-2024学年统编版道德与法治八年级上册
- 注塑设备维修培训课件模板
- 应急预案管理中的法律风险与责任防控
- 多源异构数据融合与知识图谱构建
- 邯郸城市介绍民俗文化旅游景点推介图文课件
- 超高强钢冷冲压三点弯曲与辊压弯曲性
- 基于双减背景下小学英语项目式学习创新研究 论文
- 人教版(2019)选择性必修第一册Unit+2+Using+Language+课件
- 使用智能手机教程课件
- 苏教版三年级数学(下册)《间隔排列》课件
- 2023-2023年中国工商银行校园招聘考试历年真题、考查知识点以及备考指导
- 临时聘用合同模板(三篇)
评论
0/150
提交评论