(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf_第1页
(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf_第2页
(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf_第3页
(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf_第4页
(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)异构数据源数据交换引擎的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 高校信息管理系统普遍存在着多平台运行、多种数据库、分散凌乱等弊端, 建立统一的信息平台是数字化校园建设的核心课题之一。由于异构数据源在结构、 数据、d b m s 、硬件、网络协议等方面的差异性和自治性,构建多数据源数据交换 引擎是实现多数据源数据集成与共享的有效解决途径。本文采用x m l 数据模型,根 据目录服务的思想,将p b p 与分布式网络有机地结合起来进行资源管理,最终形成 异构数据源数据交换引擎。 x m l 是一种采用开放的自我描述方式定义的数据格式。它包括了文档格式化标 准( s c h e m a ) 、文档显示模式定义( x s l ) 、文档查询标准( x o u e r y ) 、文档解析标准( s a x ) 和文档链接标准( x l i n k ) 。作为一种元标记语言,x m l 可针对不同应用环境和要求 定制标记,并以统一、开放、基于文本格式的模式来描述和交换数据。x m ls c h e m a 是一种规范的x m | 。文档,通过使用x m l 作为描述手段,使之具有很强的描述能力、 扩展能力和处理维护能力。x o u e r y 是对x m i 数据集进行查询的功能语言,简单灵活, 易于理解和实现。 p 2 p ( p e e r t op e e r ) 又称为对等网,它让用户可以与网络上的其他计算机直 接连接,进行文件共享与交换。p 2 p 是由物理上分布的节点组成,所有节点都是对 等的( 称为对等点) ,各节点具有相同的责任和能力,并协同工作共同完成任务。 对等点之间直接相连,共享信息资源,无须依赖集中式服务器。在p 2 p 模式中,对 等点具有很高的自治性和随意性,它们既是信息的消费者( 客户端) ,也是信息的 提供者( 服务器端) ,在执行计算、提供和消费时分担相同的作用。 基于以上理论基础,论文提出了异构数据源数据交换引擎的总体方案设计, 包括总的体系结构、系统功能模块、系统总体流程以及开发环境。 论文给出了数据交换引擎的设计模型,该数据交换引擎采用j 2 e e 架构,以j a v a 为编程语言、以x m ls c h e m a 定义数据模型,开发了数据交换引擎的简单实现模型。 该模型提供模板定制功能。相对于其他的系统需要用户熟悉查询语句,在提交查 询时需输入详细的查询语句,本系统为用户提供模板定制服务,用户只需在友好 用户界面上选择需要查询的数据,即可提交查询,并将该查询定制为模板,以便 今后直接调用模板进行查询。查询处理器提供了数据查询的功能,将整个查询过 程定义为查询规范化、查询分解、查询重写以及结果合成几个部分,并给出实现 算法。最后介绍了异构数据源数据交换引擎简单原型系统的工作原理及主要类。 论文构建了异构数据源数据交换引擎的简单原型系统,对a c c e s s 、s q ls e r v e r 2 0 0 0 $ o r a c l e9 i 中的例子数据库进行数据交换的应用,给出了一个应用的具体实 例系统以及介绍该系统的特点。 最后,对本文的工作做出了总结,并讨论了下一步要进行的研究工作。 本文的研究课题来源于广东省教育厅科研基金项目“基于多校区办学的高校 教学管理信息化运作模式研究与实践”。 关键词:分布式,x m l ,模板,数据交换,异构数据源 i i a b s t r a c t t h e r ea r em a n yi r r e g u l a r i t i e s ,s u c ha sm u l t i f l a t ,v a r i e t yd a t a b a s e , v a r i e t yc i r c u l a t i n gw a ya n dd i s p e r s i o ni ng r e a td i s o r d e r ;e x i s ti nm a n y i n f o r m a t i o nm a n a g e m e n ts y s t e mo fc o l l e g e i ti so n eo ft h ec o r et o p i c so ft h e e s t a b l i s h m e n to fn u m e r a lt u r nc a m p u st ob u i l du n i t i r ei n f o r m a t i o nf l a t h e t e r o g e n e o u sd a t a b a s eh a v ev e r yb i go fd if f e r e n c ea n da u t o n o m yb e c a u s eo ft h e d i f f e r e n c eo fs t r u c t u r e ,d a t a ,d b m s ,h a r d w a r ea n dn e t w o r kp r o t o c 0 1 t os o l v e t h ec o m m u n i c a t ep r o b l e ma m o n gt h eh e t e r o g e n e o u sd a t a b a s e s , i ti st h ef i r s ta n d f o u n d a t i o np r o b l e mt os e tu pah e t e r o g e n e o u sd a t a b a s ee n g i n ef o rd a t ae x c h a n g e t h i sp a p e rf o r mt h ee n g i n eb yt h eu s eo fx m ld a t am o d e l ,a c c o r d i n gt ot h ei d e a o fc a t a l o g u es e r v i c e ,a n db a n dt h ep 2 pt o g e t h e rw i t hd i s t r i b u t en e t w o r k o r g a n i c a l l y t h ex m li sak i n dd a t af o r m a tw h i c hd e f i n e sb yo p e ns e l f - d e s c r i p t i o nw a y i ti n c l u d e sd o c u m e n tf o r m a ts t a n d a r d ( s c h e m a ) 。d o c u m e n tm a n i f e s t a t i o nm o d e d e f i n i t i o n ( x s l ) ,d o c u m e n tq u e r ys t a n d a r d ( x q u e r y ) ,d o c u m e n ta n a l y z es t a n d a r d ( s a x ) a n dd o c u m e n tl i n ks t a n d a r d ( x l i n k ) a sak i n do fm e t a - m a r k u pl a n g u a g e 。 t h ex m lc a no r d e rm a r k u pa i ma td i s s i m i l a r i t ya p p l i c a t i o ne n v i r o n m e n t sa n d r e q u e s t s ,a n dd e s c r i p ta n de x c h a n g ed a t aw i t hu n i f y ,o p e n ,m o d ea c c o r d i n gt o d o c u m e n tf o r m a t t h e ) 【m ls c h e m ai sak i n do fs t a n d a r dx l ld o c u m e n t i th a sv e r y s t r o n go fd e s c r i p t i o na b i l i t y e x p a n da b i l i t ya n dp r o c e s s i n gm a i n t e n a n c e a b i l i t y ,b yu s i n g la sad e s c r i p t i o nm e a n s t h ex q u c r yi st h ef u n c t i o nl a n g u a g e w h i c hg a t h e r st oc a r r yo naq u e r yt ot h ex m ld a t a i ti ss i m p l ev i v i d b ee a s y t oc o m p r e h e n s i o na n dr e a li z a t i o n t h ep 2 p ( p e e r t o p e e r ) i sa l s oc a l l e da ne q u a ln e t 。c u s t o m e rc a nd i r e c tl i n k t ot h eo t h e rc o m p u t e r so nt h en e t ,a n dc a r r yo naf i l es h a r i n ga n de x c h a n g e p 2 p i sm a k eu po fp h y s i c a ld i s t r i b u t en o d e s a l ln o d e sa r ee q u a l e a c hn o d eh a st h e s a m er e s p o n s i b i l i t ya n da b i l i t y ,a n dc o o p e r a t e sw i t ht h ec o m m o nm i s s i o n t h e e q u a ln o d ei sd i r e c tc o n n e c t i n gw i t he a c ho t h e r ,s h a r i n gi n f o r m a t i o nr e s o u r c e s , i l i n e e dn oc e n t r a l i z es e r v e r i nt h ep 2 pm o d e ,t h ee q u a ln o d eh a sav e r yh i g h a u t o n o m ya n dw i l l i n g n e s s t h e ya r et h ec o n s u m e r ( t h ec l i e n t ) o fi n f o r m a t i o n , a n da r ea l s ot h ep r o m o t e r ( t h es e r v e r ) o fi n f o r m a t i o n ,s h a r eh o m o l o g yo ff u n c t i o n a tp e r f o r m i n gc a l c u l a t i o n ,p r o v i d ea n dc o n s u m e t h ep a p e ri n t r o d u c e st h et o t a ld e s i g no ft h eh e t e r o g e n e o u sd a t a b a s ee n g i n e f o rd a t ae x c h a n g e ,i n c l u d i n gt h et o t a ls y s t e ms t r u c t u r e ,t h es y s t e mf u n c t i o n m o d u l e s ,t h es y s t e mt o t a lp r o c e s sa n dt h ed e v e l o p m e n te n v i r o n m e n t t h ep a p e rg i v e sam o d e lo ft h ed a t ae x c h a n g ee n g i n e t h ep a p e rt a k e sj a v a a st h ep r o g r a ml a n g u a g e ,u s e st h ex m ls c h e m at od e f i n ed a t am o d u l e ,a n dd e v e l o p s as i m p l er e a l i z a t i o nm o d e lf o rt h ed a t ae x c h a n g ee n g i n e t h em o d e lp r o v i d e st h e f u n c t i o no ft e m p l a t e o p p o s i t ea tt h eo t h e rs y s t e md e m a n dt h ec u s t o m e ra c q u a i n t w i t ht h eq u e r yl a n g u a g e ,a n di n p u ta ni m p o r t a t i o nd e t a i l e do fq u e r yl a n g u a g e s e n t e n c et oh a n do v e rt h eq u e r y ,t h i ss y s t e mp r o v i d e st e m p l a t e c u s t o m i z a t i o n s e r v i c ef o rt h ec u s t o m e r c u s t o m e rj u s tn e e dt os e l e c tt h ed a t aw a n tt oq u e r y o nt h ef r i e n d l yu s e ri n t e r f a c e ,t h e nc a ni m m e d i a t e l yh a n do v e rt h eq u e r y ,a n d c u s t o m i z et h eq u e r ya sat e m p l a t ef o rt h ed i r e c tu s el a t e r t h e nt h ep a p e rg i v e s t h ed e s i g na n dr e a l i z a t i o no ft h eq u e r yp r o c e s s o r t h ew h o l eq u e r yp r o c e s s d e f i n e sa sq u e r yr e g u l a r i z a t i o n ,q u e r yd e c o m p o s e s ,a n dq u e r yr e w r i t ea n dq u e r y r e s u l ts y n t h e s i z e ,a n dt h e ng i v e st h er e a l i z a t i o na r i t h m e t i c a tl a s t ,i tg i v e s t h ew o r k i n gt h e o r ya n dt h em a i nc l a s so ft h em o d e l t h em o d e lu s e st h ee x a m p l ed a t a b a s e so fa c c e s s ,s q ls e r v e ra n do r a c l et o a p p l yt h ed a t ae x c h a n g e t h ep a p e rg i v e sam a t e r i a la p p l i a n c eo ft h em o d ea n d i n t r o d u c e si t sc h a r a c t e r i s t i c s a tl a s t ,as u m m a r yo ft h ep a p e ri sg o i n g ,a n dt h ef u r t h e rr e s e a r c hi sp u t f o r w a r d k e yw o r d s :d i s t r i b u t e ,x m l ,t e m p l a t e ,d a t ae x c h a n g e ,h e t e r o g e n e o u sd a t as o u r c e 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均己在文中以明确的方式标明。 本人完全意识到本声明的法律结果由本人承担。 论文作者签名:叻磷 日期:7 一年矽月f 。日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在j 后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:辱玢旃 日期:删降( 7 月f 日 导师签名:似何缪、 、 日期:伊年彳月7 日 第l 章绪论 1 1 课题背景 第1 章绪论 异构数据库因为结构、数据、d b m s 、硬件、网络协议等不同,具有很大的差异性和 自治性,构建多数据库数据交换引擎是解决局部数据库之间的通信问题的有效途径。 当前,高校信息管理系统存在着多平台运行、多种数据库、多种运行方式、分散凌 乱等弊端建立统一的信息平台是数字化校园建设的核心课题之一。数字化校园的建设 绝不是在原有系统的基础上进行简单的重复或升级,而是要从更高起点上进行发展和创 新,实现应用集中、信息共享、消除信息孤岛。数字化校园建设的一个重点便是要对信 息进行统一管理,这就涉及到了多种数据库的集成问题。 本文以华南师范大学校园数字化应用为背景,就华南师范大学。一校三区”教学管 理集成展开深入研究。如图卜1 所示。在“一校三区”格局下,学校教学管理信息化的 现状为:学校规模的不断扩大和学分制的推行,对学校教学管理信息化提出了更高的要 求:学校各个校区教学信息管理系统分而不聚,聚而不合,为学校教学管理的信息化提 出了新的课题;学院教学信息管理在局部取得初步成效,但在整体发挥效能上还需要进 一步努力。 苣虱 图i - i 一校三区的教学格局 教学信息管理系统是一个贯穿整个教学过程的复杂系统,教务、学籍、考试、学生 管理、教师管理、计划管理、教学资源管理等必须成为一个整体,才能进一步提高教学 管理效率,提升教学质量,降低管理成本。本文通过构建异构数据源数据交换引擎,解 华南师范大学硕士学位论文 决在“一校三区”格局下的多种数据库的集成问题,使得最终建立一个构建实现“教务 管理信息化”的简单模型。通过异构数据源数据交换引擎的使用,学校各个教学部门可 透明的获取和处理来自于三个校区的不同软硬件系统,以及不同信息源之间数据相互交 换和共享。 1 1 1 异构数据集成概念 异构数据的异构性从不同的角度考虑主要体现在以下几个方面: 从计算机体系结构的角度:各个参与的数据库可以分别运行在大型机、小型机、工 作站、p c 或嵌入式系统中。 从基础操作系统的角度:各个数据库系统的基础操作系统可以是u n i x 、w i n d o w sn t 、 l i n u x 等。 从数据库系统的角度:可以是同为关系型数据库系统的o r a c l e 、s o ls e r v e r 等, 也可以是不同数据模型的数据库,如关系、模式、层次、网络、面向对象,函数型数据 库共同组成一个异构数据库系统。 异构数据集成构成异构数据库系统,异构数据库系统是相关的多个数据库系统的集 合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身 就已经存在,拥有自己的d m b s 。异构数据库的各个组成部分具有自身的自治性,实现 数据共享的同时,每个数据库系统仍保留自己的应用特性、完整性控制和安全性控制。 异构数据集成的目标在于实现不同数据库之自j 的数据信息资源的共享。其中关键的 一点就是以局部数据库模式为基础,建立全局的数据模式或全局外视图。这种全局模式 对于建立高级的决策支持系统尤为重要。 异构数据集成实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的 透明访问。 1 1 2 异构数据源集成方案 目前实现异构数据源集成一般有两种方法: 1 ) 数据仓库法“1 该方法主要基于数据转换的角度,周期性的通过数据的迁移和转换将原有的局部数 据源上的共享数据移植到新的数据仓库系统中,最后提供对该数据仓库的查询机制,实 2 第1 章绪论 现数据共享的目标。大型机构在许多地点都有分支机构,每个子机构的数据库中都有着 自己的信息数据,而决策制订人员一般只关心宏观的、为全局模式所描述的信息。建立 在数据仓库技术基础上的异构数据库全局模式的描述是一种好的解决方案。数据仓库可 以从异构数据库系统中的多个数据库中收集信息,并建立统一的全局模式,同时收集的 数据还支持对历史数据的访问,用户通过数据仓库提供的统一的数据接口进行决策支持 的查询。该方法的系统结构如图卜2 所示。 该方法的优点是处理简单,可以为用户提供简单快速的频繁数据访问,同时还可以 为其他应用提供o l a p 及决策支持等功能。但是这种方法实施的周期较长,不能充分利用 企业已有的信息投资。而且在各个局部数据源和数据仓库上都保存数据,数据重复存储, 不便于数据的及时更新。随着数据库的升级,为了适应新的数据库系统,原有的相关应 用软件必须废弃或者重新开发。 囱岛囱 图卜2 数据仓库法的系统结构 2 ) 虚拟法( 又g q m e d i a t o r 中间件法) ” 该方法主要基于数据透明访问的角度,不需要改变原始数据的存储和管理方式,使 用一个中问模式来虚拟表示全局数据模式,满足我们对分布性和自治性的要求。用户不 必知道数据源的位置与特点,将异构分布式数据库系统看成普通的分布式数据库系统, 用自己熟悉的数据处理语言去访问数据库,如同访问一个数据库系统一样。中间件位于 异构数据源系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据源系统,向上为访 覃 华南师范大学硕l 学位论文 问集成数据的应用提供统一数据模式和数据访问的通用接口,将基于中间模式的查询分 解为对各个局部数据源的子查询。分别执行,最后把它们返回的数据综合起来得到查询 结果。这种方法适合于数据源数目多,局部数据源的数据变化频繁的异构数据源集成。 目前,主要的研究都是集中在虚拟法,而本论文的异构数据源集成中间件也是在虚拟法 的思想上构建的。该方法的系统结构如图卜3 所示。 固审圈 自寓窗【鍪塑塑j【塑塑塑jf 翌塑塑j 图1 3 虚拟法的系统结构 显然,中间件方案是实现异构数据集成的较为理想的解决方案。 1 1 3 相关研究 一、集成数据模型 当前已有的数据集成系统中,使用的集成数据模型主要有以下三种: 1 ) o e m ( o b j e c te x c h a n g em o d e l ) 。1 o e m 是一种简单的、带标签树的自描述的对象模型,用带标签的有向图来描述半结 构化数据。图中结点表示对象,标签传递对象之间关系的语义信息,叶子对象表示原子 对象有相应的值关联,其他对象为复合对象。o e m 中的每个对象都有对象标识( o l d ) 和 值,值可以是原子类型,如整型、字符串型、g i f 、h t m t 等,也可以是一个复合类型, 以对象引用集合的形式表示。 2 ) o i m ( o b j e c ti n t e g r a t i o nm o d e l ) “1 对象模型 o i m 是v e r s a t i l e 系统的公共数据模型。一个o i m 对象0 是一个带根连通有向图,表示 4 第1 章绪论 成0 ( r ,v ,e ) ,有向图中的每个结点表示对象,边表示对象与其他成员间的关系:根结 点r 是一个聚集对象,它是引用类型的,v 是该聚集对象及其所有成员对象的集合,e 是 对象与其成员之间关系的集合。o i m 对象模型将元数据附在数据上,便于集成来自各个 异构数据源的异构数据。相对于其他模型,o i m 模型更适合作为异构数据集成的公共数 据模型。 5 中提出了一个改进的基于c o r b a 的异构数据集成系统框架,在该系统中提出 了异构数据目录服务概念,他们使用这种目录服务进一步增强o i m 模型的查询效率、安 全控制等方面的能力,并扩展s o l 语言的异构数据目录服务功能,以便操纵o i m 模型,他 们称这种改进的o i m 模型为u d m ( u n i f o r md a t am o d e l ) ,其操作语言为u d m q l 语言嘲。 3 ) x m l 数据模型 x m l 数据模型能够采用树状结构作为数据的组织形式,具有两种描述实体的方法一 一索引型和嵌套型,以及一种描述关系的方法链接型。由于该模型不依赖于特定的 应用,仅提供了用于反映结构特征的标记,具有内容的自描述、跨平台、内容和显示分 离、可扩展性等特点。它的强适应性使其可以实现对资源的快速包装和集成发布,与其 他数据模型相比,更适合用来描述各种异构数据源。因此,本文采用x m l 数据模型。 二、异构数据源集成系统 目前许多数据集成系统都基于m e d i a t o r 中间件法实现,其代表性的工作主要有如下 几个: t s i 删i s ( t h es t a n f o r d i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 是由 s t a n f o r d 大学研究开发的异构信息源集成系统。1 ,该系统采用“结构化”的方法,使用 自描述模型( o e m ) 将各异构数据转化为o e m 数据”1 ,并提供l o r e l 语言对这些数据进行访 问嘲。这种方法提供了集成不同数据源信息所具有的表现力和灵活性,用模式匹配技术 作预定义集进行查询,好处是对异构数据没有任何限制,不同的数据可以编写不同的程 序来解决。该系统的缺点是对非结构化的数据描述仍存在问题,而且将异构数据源转化 为o e m 数据的转换程序主要靠手工编程,对于动态增加数据源非常困难。 m i x 系统”1 基于x m l 数据模型,通过x m l 进行数据交换和集成,用x m ld t d 作为交换数 据的结构化描述,它的m e d i a t o r 视图基于d t d 结构。虽然它在形式化集成规则时基于树 型结构的模型表示局部d t d 模式和集成模式,但并未考虑语义模型。 w e b n r s d 模型由日本t s u k u b a 大学的h i r o n o r im i z u g u c h i 等人提出的基于嵌套的关 系数据模型,它提供了嵌套的关系代数操作。它提供了一个名为s d 类型的抽象数据类型, 华南师范大学硕:学位论文 用来存储和管理半结构化文档,如x m l ,s c m l 和h t m l “”。基于这种数据模型的系统比较 容易实现,但是具有不能保证客观世界中实体的确定性的缺点,实体的引用只能通过码 和数据冗余来达到。 东南大学删 v e r s a t i l e “1 是一个基于c o r 队的分布式异构数据源集成系统原型。 该模型在i o n a 公司的o r b i x 产品上,对s q ls e r v e r ,v e r s a n t 、文件系统、超文本数据 进行包装和集成。它使用对象集成模型( o i m ) 作为数据集成的公共模型,同时引入了 模板和动态字典的概念统一描述各种异构数据源的模式,利用局部动态字典的模板操作 构造集成系统全局动态字典,为查询的分解和优化奠定了基础。 随着x m l 技术的发展,将x m l 技术与全局数据模式相结合可以使异构数据源集成中间 件系统能更好地适应开放、发展环境中的数据集成。许多著名的异构数据源集成研究都 引入了) 【m l 相关技术,例如前面介绍的t s i 删i s ,m i x 等。另外,动态字典以及目录服务 的使用也引起了大家的关注。 在已有的研究中,各位研究人员提出了很多解决的方法,并且对各种方法的优化和 实现做出了努力。但是这些方法有一个共同特点,就是要求用户须明确知道所查数据库 的数据结构;不能从整体的角度对数据进行查询,要求用户精通所用的s q l 或者是x m l 查询语言。这些不足,给普通用户的信息查询带来了很大的困难和不便。然而,普通用 户大多为非专业的,他们对查询语言和数据库结构不熟悉。因而,为用户提供友好的查 询界面,具有相当大的应用前景和意义。 1 2 课题研究内容和重点 本文的研究课题来源于广东省教育厅科研基金项目“基于多校区办学的高校教学管 理信息化运作模式研究与实践”。本论文研究的异构数据交换引擎,其目的就是为高校 建立一个公共的交换与共享的集成平台,通过这个平台屏蔽校内各部门中异构数据源平 台、系统环境、内部数据结构等方面的异构性,对它们进行无缝连接,为工作人员提供 一个统一和透明的数据交换接口。 文章设计了异构数据源数据交换引擎,其主要设计思想是:各数据源节点采用p 2 p 分布式网络体系结构,使用x m l 数据模型,通过动态数据字典构造目录服务。用户通过 调用目录服务实现信息的查询与发布,即进行数据交换。 系统由三部分组成:目录服务构造、模板定制与生成以及查询处理器。系统使用x m l 6 第1 章绪论 作为全局数据模式,定义专门语义规则作为统一的数据源查询语言。查询引擎将用户提 交的全局查询分解并转换成一个或多个对数据源的查询,再将数据源的查询结果进行综 合处理,以x m l 文件形式返回给用户。 1 3 约定 本文研究的异构数据源数据交换引擎主要是为了实现异构数据源间关联查询与信 息共享,在多个自治异构数据源上提供一个统一的查询接口和友好的查询界面,不涉及 数据源数据的更新操作或事务处理。 1 4 本文组织结构 本文的组织结构如下: 第一章介绍了课题背景以及选题意义。 第二章简单介绍了) 【m l 技术的特点、模式定义技术与查询语言;目录服务的思想、 服务策略以及优点;p 2 p 的技术特点、体系结构、应用模式以及应用等;分布式资源管 理与p 2 p 资源管理各自的特点以及它们之间的差异等内容。并以这些技术作为本论文的 理论基础。 第三章本章采用虚拟视图法,采用x m l 数据模型,提出目录服务与模板结合的方 法,提出了适合校园异构数据交换系统的解决方案,说明了系统的层次结构和各模块功 能及关系,叙述了系统总流程和开发环境。 第四章查询分解与集成算法的探讨。 第五章局部模式与全局模式的转换方案。 最后结论给出全文总结和进一步研究方向。 第2 章相关概念弓技术综述 第2 章相关概念与技术综述 2 1x m l 技术 随着x m l 及相关的技术和应用的发展,x m l 不仅成为数据交换的一种标准,且也是互 联网中重要的信息交换标准和信息表示的技术之一。) o i l 强适应性使其可以实现对资源 的快速包装和集成发布,所以将x m l 技术与全局数据模式相结合可以使异构数据源数据 交换引擎系统能更好地适应于开放、发展环境中的数据集成。 2 1 1x m l 标准 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展的标记语言) 是由w o r l dw i d ew e b c o n s o r t i u m ( w 3 c ) 的x m l i 作组定义的“”“”,是一种采用开放的自我描述方式定义的数 据格式,由于x m l 的自描述性和可扩展性而倍受关注。虽然x m l 标准本身简单,但随着x m l 处理和应用的发展,与x m l 相关的标准逐步建立起来,w 3 c $ 0 定的相关标准就有二十多个, 包括与x m l 相关的各个方面。其中不仅有x m l 标记语言本身,还包括了很多相关的规范, 比如文档格式化标准( s c h e m a ) 、文档显示模式定义( x s l ) 、文档查询标准( x q u e r y ) 、文 档解析标准( s a x ) 和文档链接标准( x l i n k ) 等等,而且基于x m l 这个底层的规范,还有很 多高层的应用协议。 根据x m l 相关标准的含义和作用不同,由下至上分为元语言标准( 即核心定义) 、基 础标准、应用标准三个层次。其中核心定义层是基本概念的定义,基础标准层在核心定 义层的基础上对处理共性问题制定的规则,应用扩展层则是在下面两层的基础上针对特 定应用而制定的专用规范。如下图2 一l 所示。 第一层为x m l 核心定义,主要是描述标准的元语言。在x m l 标准体系中就是x m l 标准 本身和一些附加概念定义,是整个体系的核心,其他x m l 相关标准都是以它们为基础制 定的或为其服务的。 第二层为基础标准,这一层次的标准是为x m l 的进一步实用化而制定的标准,规定 了采用) 【m l 标准时的一些公用特征、方法或规则。如:d t d 和x m ls c h e m a 描述了更加严格 地定义x m l 文档的方法,以便可以更自动化地处理x m l 文档;x p a t h 。x s l ,x q u e r y 等是为 方便对x m l 数据进行处理而规定的一些统一规则;s a x ,d o m 等是被广泛使用的x m l 编程接 9 华南师范大学顼上学位论文 口标准等等。 第三层为应用扩展标准( a p p l i c a t i o ns t a n d a r d s ) ,这层主要是一些采用) ( m l 制定的 行业标准。其中包括了特定的模式规范,如x h t m l ( 采用x m l 对h t m l 的重新定义) 、 m a t h m l ( 数学公式符号的x m l 化) 、c m l ( 化学公式符号的x m l 化) 、s v g ( 有关矢量图形的) 等;关于元数据的标准,如r d f ( 资源描述框架) 等:用于w e b n 艮务领域的标准,如s o a p 等; 以及一些其他领域的应用标准。随着更多的行业加入到) ( m l 应用中来,这一层仍在不断 的增长中。 特定模式规范:m a t h m l ,c m l 。s v g 元数据领域:r d f w e b 服务领域:s o a p ,w s d l x m l 应用扩展 x m l 结构定义:d t d , x m ls c h e m a , x p o i n t e r , x l i n k x m l 数据处理:x p a t h 。x s l x q u e r y , x f o r m x m l 编程接口规则:s a x ,d l m x m l 基础标准 x m l 核心定义 x m l x m l 概念补充:c a t a l o g s , x m lb a s e x l n c l u d e x m li n f o s e t , x m ln a m e s p a e e s 图2 1x m l 标准体系 x l d l 是元标记语言,可通过它定制针对不同应用环境和要求的标记。它以统一、开 放、基于文本格式的模式来描述和交换数据。它是s g m l 的一个简化而严格的子集。x m l 具有自描述性、结构化、内容与显示分离、可扩展性以及跨平台性等特点。本论文正是 使用x m l 描述数据模型,以达到可自描述、可跨平台应用的目的。 2 1 2 ) 珏也s c h e m a x m ls c h e m a 的主要目的是定义一类文档用来建立一个模式,从而规定文档中的标记 和文本可能的组合形式。它不仅包括了d t d 所能实现的所有功能,而且x m ls c h e m a 完全 使用x m l 作为描述手段,它本身就是规范的x m l 文档,具有很强的描述能力、扩展能力和 1 0 第2 章相关概念与技术综述 处理维护能力。 从总体上来说,s c h e m a 具有以下优点: 一致性:s c h e m a 对x m l 的定义不再局限于某一种特定的形式化的语言,而是直 接借助x m l 自身的特性,利用x m l 的基本语法规则束定义x m l 文档的结构,使x m l 达到了从内到外的完美统一,也为x m l 的进一步发展奠定了峰实的基础。 扩展性:s c h e m a 对d t d 进行了扩充,引入了丰富的数据类型,它支持1 9 种基本 数据类型和2 5 种内建派生数据类型。支持由简单类型生成的复杂类型。此外, s c h e m a 还支持用户自定义数据类型、支持命名空间、支持域名,这些都使其具 备了较强的可扩展性。 互换性:利用s c h e m a 能够书写x m l 文档以及验证x m l 文档的合法性。另外,通过 特定的映射机制,还可以将不同的s c h e m a 进行转换,以实现更高层次的数据交 换。 规范性:同d t d 一样,s c h e m a 也提供了一套完整的机制以约束x m l 文档中标记的 使用。相比之下,s c h e m a 基于x m l ,更具有规范性。s c h e m a 利用元素的内容和 属性来定义x m l 文档的整体结构,如出现的元素、元素问的关系、元素包含的 内容和属性以及元素出现的顺序和次数等等。 与d t d 相比较,x m ls c h e m a 具有更强的表现力,因此本文采用x m ls c h e m a 描述数据 集成全局模式、局部模式、模板以及查询语句。 2 1 3x q u e r y 查询语言 x q u e r y1 o t s r 1 6 是用来从x m l 文档中提取信息的w 3 c 标准。x q u e r y 是对x m l 数据集进 行查询的功能语言,它简单灵活,易于理解和实现。 x q u e r y 的功能实际上是用来把查询的数据模型的一个实例转换为另一个实例。在查 询之前,先产生x m l 数据模型。x q u e r y 对这个数据模型的实例执行查询,其返回结果为 另一个数据模型的实例。对这个返回的实例进行序列化,将它再转换成为x m l 数据。本 论文采用x q u e r y 对半结构化数据源进行查询,以及对各个局部数据源返回的x m l 数据进 行拼装。 x q u e r y 中最强大的语法类型之一是f l o w r 表达式。f l o w r 类似于s q l 的 s e l e c t f r o m l h e r e 语句,代表f o r 、l e t 、w h e r e 、o r d e rb y 以及r e t u r n 表达式。每个f l o w r 华南师范大学硕士学位论文 表达式都有一个或多个f o r 子句、一个或多个l e t 子句、一个可选的w h e r e 子句以及一个 r e t u r n 予句。其中: f o r 子句:将一个或多个变量同表达式结合在一起,每一个变量都被赋予一个序列。 它循环遍历序列中的每个节点。 l e t 予句:将变量直接与一个完整的表达式绑定在一起。它将变量绑定到整个节点 序列。 w h e r e 子旬:依据一定的条件对绑定的变量进行过滤。 o r d e r b y 子句:指定结果的顺序。 r e t u r n 子句:用来构造f l o w r 表达式的执行结果,并对w h e r e 过滤子句中符合条件的 每一个捆绑变量进行一次操作。 2 2 目录服务 随着网络的规模与复杂性的不断提高,文件,数据库、打印机等资源被存放在网络 中的任何地方,用户对于网络的依赖程度不断增强,并且希望能像在集中式系统中一样 能够透明地进行信息交换和资源共享。因此,在分布式系统中,需要解决两个问题 信息选择和资源配置,目录服务正是达到这个目的的有效工具。 目录服务允许集中统一地管理分布在网络上的资源与对象的基础信息,建立并确认 资源与对象的关系,提供用户管理和配置信息管理服务,允许用户直接搜索信息或者是 通过搜索更容易记住的相关信息来进行检索。 目录服务具有以下优点: 简化管理:提供对用户、应用程序、设备以及数据库的单一、一致性的管理点。 加强安全性:向用户提供单一的网络资源登录,为管理员提供强大、一致性的 工具以使他们能够管理为用户提供的安全服务。 扩展的互操作性:向所有活动目录特性提供基于标准的存取方式以及对通用目 录的同步支持。 目录服务兼任管理工具和用户工具,在一个庞大的分布式系统中发挥着网络集线器 的作用。目前,各高校均在致力于建立数字化校园,因此校园网络中的对象数量不断增 加,强大、透明且高度集成的目录服务便成为必不可少的管理工具。 更形象地说,目录服务在网络操作系统中扮演着一个接线总机的角色。它是通过对 1 2 第2 章相关概念与技术综述 一致性进行管理,并调度那些分布式资源问关联,从而使它们共同工作的中心授权机构。 由于目录服务提供这些基础的网络操作系统功能,它必须与用于管理和提供安全性的操 作系统机制紧密结合在一起,从而保证网络的完整性和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论