




已阅读5页,还剩46页未读, 继续免费阅读
(系统分析与集成专业论文)基于soapxml异构数据集成及交换的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 伴随着i n t e r n e t 的不断发展,信息量呈现出飞速的增长的趋势。网络上出 现了数量巨大的异构的数据源,这些数据源有其自身的专有结构,有些甚至仅仅 只是半结构化的数据。如何提供一个统一的查询手段和查询界面的异构数据源集 成系统是本文要讨论并实现的重要问题。 本文首先介绍了论文需要用到的协议和理论知识,包括数据库数据模型理 论,分布式数据库及异构数据库集成理论等,分析了x m l 进行数据包装的作用以 及s o a p 的实现大量异构程序和平台之间的互操作性。讨论了已有的数据集成技术 的一些诸如各数据源模式的转换工作复杂、对半结构化数据不够重视、底层通信 机制缺乏互操作性等不足之处。 基于上述理论知识的讨论和铺垫,本文提出了一个基于s o a p x m l 的异构数据 源集成系统原型。提出了系统的系统结构、工作原理、工作流程。对其中的数据 源代理模块、元数据管理、s o a p 协议层等关键技术和实现策略进行了详细的讨论 和设计,基本上完成了系统的设计工作。 关键词:半结构化数据,异构数据源,数据模型,x m l ,s o a p a b s t r a c t w i t h t h e d e v e l o p m e n t o f i n t e r n e t a n d t h er a p i d i n c r e a s e o f i n f o r m a t i o n i n t h e w e b 。 t h ew e bh a sb e c o m eaw a r h o u s ew i t hah u g en u m b e ro f i s o m e r o u sd a t as o u r c e s w i t ht h e i ro w n s p e c i f i cd a t as n _ :l l c n l r ei n c l u d i n gs o m es e m i s t r u c t u r e dd a t a m yp a p e r w i l lw o r ko nh o wt od e s i g nad e m od a t ai n t e g r a t i o ns y s t e ms u p p o r t i n gt h ei s o m e r o u s d a t a 。s o u r c e so nt h ew e ba n dp r o v i d e sau n i f i e dr e t r i e v a lt e c h n i q u ea n di n t e r f a c et o m a k et h eq u e r ye a s i e r t h ep r o c t o c o l sa n dt h e o r i e si n c l u d i n gd a t am o d e l ,d i s t r i b u t e dd a t a b a s ea n d i s o m e r o u st h a tu s e di nm yp a p e rw i l lb ei n t r o d u c e df i r s t l y t h e nw ea n a l y s e dt h e f u n c t i o no fx m la sad a t aw r a p p e ra n dh o wt oa c h i e v et h ei n t e r o p e r a b i l i t yo ft h e i s o m e r o u sp r o g r a n m a sa n d 露a t f o r m s 谳斑s o a p , a n dt h e n ,t h ep a p e ri n t r o d u c e dt h e s h o r t a g ei ne x i s t i n gd a t ai n t e g r a t i o nt e c h n i q u e s ,s u c ha sc o m p l e xc o n v e r s i o no fa n y d a t as c h e m at ot h ec o m m o ns y s t e m ;l i t t l ei n t e r a t i o na b o u ts e m i s t r u c t u r e dd a t aa n dt h e l a c k n e s so f i n t e r o p e r a b i l i t yi nb o t t o ml e v e lc o m m u n i c a t i o nm e c h a n i s m b a s e do nt h et h e o r i e sa n dp r o b l e m sm e n t i o n e di nt h ea b o v ep a r a g r a p h ,t h i sp a p e r p u tf o r w a r dad e m oi s o m e r o u sd a t as o u r c e si n t e g r a t i o ns y s t e mb a s e do ns o a p x m l t 毯sd e m od e s i g n e dt h es t r u c t u r eo ft h es y s t e m , t h ew o r k f l o wa n dd i s c u s st h et h e o r y o ft h es y s t e m t h ek e yt e c h n i q u e sa n di m p l e m e n t i n gs t r a t e g ys u c ha st h em o d u l eo f d a t as o u c e sm a n a g e m e n t m e t a d a t am a n a g e m e n ta n dt h es o a pl a y e rw i l lb e d i s c u s s e da n dd e s i g n e di nm y p a p e rt of i n i s ht h ed e s i g n m e n to f t h ed e m os y s t e m k e y w o r d s :s e m i s t r u c t u r e dd a t a ,i s o m e r o u sd a t as o u r c e s ,d a t am o d e l ,x m l ,s o a p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得邂i 垦盘茎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:酋免签字日期:工f 年月孑日 学位论文版权使用授权书 本学位论文作者完全了解塑j 垦盘生有关保留、使用学位论文的规定。 特授权塑韭太鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:蚩屯导,施:姘给 签字日期:菇年月f 日签字日期:工弦年,月孑日 1 ,1 引言 第一章绪论 数据集成的需求由来已久,对数据集成系统的磷究一直怒数据管联研究领域 的一个非常热门的课题。发展至今天,i n t e r n e t 上颜已经出现弗存在者海量的数 摇源,这骛数据源经徒是异枣鼋瀚、结褐不绫一兹数据源。掰谮数据源雾构,指静 悬数据源可以是结构化或半结构化的数据;既可以是传统的获系数据库系统,也 霹疆是文俘系统,甚至是w e b 数爨源。元数臻( m e t a d a t 匐,是攒述资源震 雯兹数撵 用于描述数据源的内释和位置的数据元桊集合。数据源元数獬信息的凇确、完整 黥糖述,是数据集成匏重要基戤。集成系统采用“中闽层”爨成方式。菠过程是 中间层接到查询请求后,进行谮义检查和查询语句的x m l 封鼗,然后广播x m l 格式 的套询,最鼷收集查询返回的结果,集成转纯后返回用户界西簇。把已有躲多个数 糖源集成为一个全局篱理、采用统一模式、面向用户的集成系统,对用户操作而 富完全是透明的“。本文的后西章节将围绕着数据源集成系统的实现展开详细的 讨论。 。2 论文磁究背景 随着互联网的推广与普及,各种用户平台与系统大量出现在网络上。这些平 台和系统的结构环境存在着巨大的差异,无论是网络体系、使用协议、计算方式 述是交换的数据,都怒千差万别的。我们所面临的是一个物理上分散的、异质、 舅添豹买搦w e b 环凌。在这样瓣夺弄穗环境孛,遗没有密璇魄较成熟静统一熬、 接口良好的、包容性很强的信息集成和处理的平台朱为异构环境下的不同系统提 供数摇l 受务,黠异鹣强境中豹数舞交换翊蓬磐凌豹力度毽曼不足。 同时在数据的集成方面,传统的数据集成技术,例如多库方法,已无法适应 久们获取更多更耨数攥躲需要。人们要袋数擐集成琴统不仅熊集成数摅蓐系统中 的数据,而翩肩集成j # 数据库系统中的数据;不仅能集成传统数据,而鼠能集成 多媒体数据;不仅能集成已有数据源中的数据,恧黛鼹集成随时加入的耪数据源 中的数据。也就是说,数据集成系统必须具有可扩展性,可以实现数据源的“即 插即用”,这是传统的数据集成技术难以实现的。已有的数据集成技术,总体说 来存程潞一些不足,主要体现在以下方面: 公美模式磊各数攥漯豹转换王 筝繁杂; 夺对结构化数据豹支持较好,对半结构化数据不够重视,数据源参与集成 的程度不高; 审基于软件组件的底层通信机制缺乏曩操作性。 髯褥数援滚集成系统藏楚铮对以上的誉越来设诗豹。一令鬃秘数据源集成系 统躬终翔是提供一个统一静套询手段窥查璃赛蕊,支持对w e b 上熬异构数据源 的查询。其中的关键是如何以一种统一的数据模式描述各数据源中的数据,屏蔽 它们的平台、数据结构等的异构性,以实现数据的无缝集成。这就需要寻找能够 满足这葶孛饕求的技术。 w 3 c 定鬟戆x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,扩震标落添言) h 霸基予 x m l 的s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c o l ,简单对象传输协议) f 3 1 协议为解 决上述獭键技术和不足提供了新的契机。x m l 蒜有内容的自描述性、跨平台性、 内容和照示分离、可扩展憔镣特点,为数据访问和交换提供了一种新的模式。基 于x m l 约套耱技拳苓凝溺现,x m l 将残蔻餮囊豹互联网数攥淄夔露互操锋 静标准。x m l 无疑是来来分布式计算的重要缀成都分,为下彳弋静w e b 发震打 开了大门。s o a p 使用新的对象远程过程调用技术上面已经很成熟的h t t p 作为数 据的载体,传递x m l 消息,为数据集成系统的可扩展性和数据源的即插即用提供 了比较方便的方法。 1 3 本文研究目的及内容 本论文介绍了数据库数据模型理论,x m l 数据模型,x m l 的特点及其数据 管理功黪,分布式数据库煎分类及其异构数据艨集成理论等一些蘩零理论。剖析 了s o a p 技术豹特杰e 摄援x m l 数据静鸯赛特熹,透过分析魄较现有懿分布式 组件c o m 、c o r b a 、s o a p 等,在已有的僻息集成理论及技术麓础上,采用 x m l 模型作为集成的公欺数据模型,应用s o a p 作为底层的通信机制。设计了 一个基于s o a p x m l 的辨构数据源集成系统原型。并在其中分桥了原型系统体 2 系维褐,工作流程,备模袭的囊现策略。 1 。4 论文的组织络梅 论文分五个章节,具体章节安排如下_ 中文耩鞭 英文摘蒙 第一章绪论。奔绥论文磷究戆骛豢、论文礤究懿嚣的秘内容激及颦节安蓑 。 第二章相关数据库理论的介绍。主骤对相关的数据库理论知识进行简单介 缓。重点分绥了分带式数撂库瑗论鳃瑷以及半续梭徒数摆懿鲡谖。提窭了吴稳数 据库系统集成的概念知识。 、 第三章耀关知识的套绍。分绍了本文中涉及到豹x m l 技术以及s o a p 技本。 然后对s o a p 技术进行了综述性的介绍,包括s o a p 与x 眦的关系,选择s o a p 作为消息传递协议的原因,s o a p 的消息框架以及s o a p 消息交换模型。 第酉章原型系统的分析鸟设计。介绍了系统的体系结构,各部分组成及功 能,工作流程,系统特点,备部分的实现策略以及实现的关键技术。 第五章全文总鳐。在上述工律静基餮i 上对今掰缒进一步研究进行了努橱, 并且展望了此原型系统的应用前景分析以及相关拽术的发展。 参考文簸 第二章相关数据格式及数据库理论的介绍 本文中使用到了一系猁的数据格式l ;i 及相关的数据库理论知识,并且还要用 掰s o a p 协议馥及x m l 这些相关的内容。在本章以及下一章中,将对这些相关 静麓谈进行概婺径盼介绍,瑷偻读者对奉论文中讨论的系统源垒的稻美知谈有一 个综含性熬了解。本窜戳下静态容将分别奔缮数攒模登、拳结梅诧数据、分布式 数据黪系统理论麓谖以及嚣数据器定义等,s o a p 协议霹x m l 魏会绣将敖在下 一章遴行套绍。 2 1数据模型 2 1 1 数据模型韵定义 数据模型是数据艨系统中用于提供信息表示和操作手段的形式构絮。数据模 型通常毒兰邦分组成”“: 数擐结橡:燕魇磷究的对象类型( o b j e c tt y p e ) 戆集合;这些瓣象是数 据摩的组成部分,一般可以分为鼹类:一类是鸯数拨类型、建容、性襞 有关的对象;一类是与数据之间的联系有关的对象。 在数据库系统中通常按照数据结构的类型来命名数据模型,如层次结构、 网状结构和关系结构的模型分别命名为层次模型、网状模型和荚系模型。 夺数据操作:是指对数据库中各种对象的实例( 德) 允许的操作的集合, 包括操作及栩关操作规则。 夺数攒的约束条件:是完蹩性兢刚的集合。完整憔规剃是给定的数据模型 串数据及萁联系掰兵有豹制约和依存关系,用以限宠符合数据模璧的数 据簿状态以及状态懿交亿,滏保证数掭静燕确、有效、穗容。 数壤模型根据瘟耀懿苓曩嚣戆,分势秀个层次: 概念模型:用于信息世器憋建模。它燕理实夔爨到镕惑毯界静第一层攮 象,是用户和数据库人员之间进行交溅的谖言。 数搬模型:用于机器世界。通常要有严格的形式化定义,嚣旦常常会加 上一些限制或规定以便机器上的实现。 4 2 1 2 半结构化数据 w e b 信息是异构的、分布的、巨大的、有超文本链接所连接的文档的集合, 这些数据具有不规则的数据形式,缺乏明确的数据模式,对这样的数据进行组织、 查询和集成等管理,建立在传统数据模型上的数据库管理已不能适应,需要引入 新的数据模型“1 ,由此人们提出了半结构化数据的概念。 半结构化数据是介于严格的结构化数据( 如关系数据库中的数据) 和完全无 结构的数据( 如声音,图像文件) 之间的数据形式,具有以下特点: 夺隐含的模式信息。半结构化数据具有一定的结构,但其结构与数据混在 一起,没有显式的模式定义。如h t m l 文件。 夺不规则的结构。一个数据集合可能由异构的元素组成,同样的信息可能 由不同类型的数据表示。 夺没有严格的类型约束。由于没有一个预先定义的模式,以及数据在结构 上的不规则性,所以缺乏对数据的严格约束。 半结构化数据的模式是先有数据后有模式;模式用于描述数据的结构信息, 而不是对数据结构进行强制性的约束;模式是非模糊的,可能只描述数据的一部 分结构,也可能根据数据处理的不同阶段的视角而不同9 1 。 目前国内外关于半结构化数据的研究主要集中在数据模型、查询模式、存储 技术的方面。采用带标记的有向图作为半结构化数据模型,典型的是o e m ( o b j e c t e x c h a n g em o d e l ,对象交换模型) 模型,下面- - d 节就是这两个模型的介绍。 2 1 30 e m 模型和x m l 模型 半结构化数据有类似图或树的结构,o e m 模型是较为被认可的半结构化数 据模型,x m l 是半结构化数据的一个特例,x m l 数据模型1 1 0 与半结构化数据 模型有很多的相似性,o e m 模型稍加修改就可作为描述x m l 数据的x m l 数据 模型。 o e m 模型是一个基于图的自描述对象实例模型,数据用一些列队想来城县, 每个对象可以是原子的或复杂的,原子对象的值是一些基本类型( 整形、字符形、 图像等) 复合类型是一系列( 属性、对象) 对,o e m 模型是一个图,图的顶点 是对象,边用属性名标识,叶节点是原子值,图有一个根节点。 o e m 模型与x 1 l 模型之间的对应如下: 夺o e m 对象对应于x m l 中的元素( e l e m e n t ) 夺0 e m 中的子对象关系反映了x m l 中的元素嵌套 不同之处在于x m l 的子元素可能是有序的,以及x m l 元素可能包含( 属 性、值) 对的列表,在o e m 模型中引入有序的子对象、( 属性、值) 列表和参 照边( r e f e r e n c ee d g e ) ,就可构成x m l 模型。 2 2分布式数据库系统理论概述 分布式数据库系统是物理上分散而逻辑上集中的数据库系统。是计算机网络 与数据库系统的有机结合。 2 2 1 分布式数据库系统的分类 根据分布式数据库系统建立的原则,可以将分布式数据库系统分为两类”: 同构分布式数据库管理系统和异构分布式数据库管理系统。如图1 所示。 同构分布式数据库管理系统指各站点上的数据库的数据模型是同一类型。它 可以根据是否自治进行进一步划分。在这里,自治用于表明局部系统是否具有自 控能力。 同构分布式数据库类似于一个集中式数据库,只不过同构分布式数据库将数 据存放在网络中分布的不同节点内,而不是存放在一个节点内。 在分布式数据库系统中存在局部用户,所有的用户都要通过全局接口来访问 底层的数据库。全局模式是所有底层数据描述的统一表示,用户视图提出的分布 式数据库管理系统准概念级体系结构中,包括有局部数据库管理系统和局部模 式,但在具体实现中并不要求必须显式地表示出来。事实上,大部分分布式数据 库系统都没有局部模式,而且还对局部的数据库管理软件有一定的限制。 同构 自治非自治 异构 通过系统集成 通过网关集成 全d b m s 功能部分d b m s 功能( 多数据库) 非联邦联邦 松耦合集成紧耦合集成 单个多个 图1分布式数据系统分类图 异构系统是另一类型的数据共享系统,它的特点是在各节点数据库的数据模 型各不相同。异构系统又可以分为两个子类:一个是完全在本系统中进行集成; 另一个是还要通过网关( g a t e w a y ) 与其他系统实现连接。 通过系统集成的异构系统又可以进一步划分为两个子类,其中的一个重要子 类是多数据库管理系统。多数据库管理系统包含有多个不同类型的数据库管理系 统,以及多个已经存在的数据库。与同构分布式数据库管理系统不同的是,多 数据库管理系统既有全局用户,又有局部用户。多数据库管理系统集成了已有的 异构数据资源。多数据库管理系统的一个重要特征是,局部用户在不受多数据库 的影响的情况下,可以通过正常途径访问局部数据库。 多数据库管理系统还分为联邦和非联邦两种。在非联邦多数据库管理系统中 不存在局部用户,定义相对模糊。联邦多数据库管理系统又分为紧耦合和松耦合 两种。紧耦合的情况下有全局模式,而松耦合没有。 在典型的紧耦合多数据库管理系统的模式结构中,由局部数据库管理系统可 以自主地决定局部数据库中的哪一部分数据可以在全局模式中使用,所以全局概 念模式所包含的是所有局部概念模式的一个子集。这反映出了局部数据库的自治 性。 松耦合的多数据库管理系统也被称为互操作数据库系统。这类系统的一个重 要特点是,它们没有全局概念模式。全局概念模式的构造是一个复杂而困难的任 务,其中涉及到节点之间的语法和语义的不同。 建立一个松耦合的多数据库管理系统主要有两种方法:一是让用户利用查询 语言去建立自己的用户视图;二是局部数据库通过输出( e x p o r t ) 模式来定义对 联邦数据的作用。 应该指出的是,目前在这一研究领域还缺乏统一的标准术语。 2 2 2 异构式数据库系统的集成 异构数据库系统集成的一个基本概念是全局概念模式,它是独立于任何具体 的d b m s 的。全局数据模式是一个“虚表示层”,用户通过该模式对局部数据库 的数据集进行操作。 一个全局模式所表示的信息不可能比组成它的所有局部数据模式所表示的 信息更多,因此形成一个全局模式的过程是一个层层抽象的过程,在这种抽象过 程中可能有一些细节在表示中被删除。 有很多种形成全局模式的抽象方法,一种典型的方法是“聚集”,即把实体 之间的关系表示为一个更高层的对象,如可以用一个“预约”实体来表示“病人”、 “医生”和“诊所”这三个实体之间的关系。另一种抽象方法是“一般化”,即 把一系列相似的实体抽象为一个实体,如一个“p e r s o n ”实体可能是“医生”、“病 人”和“护士”这三个实体一般化的结果。还有一种抽象方法是“限制”,及对 一个类加上某些限制条件而得到这个类的子类,如限制类“病人”所得的病为“心 脏病”而得到它的子类“心脏病人”。 在形成全局模式的过程中,有时还需要对模式进行转换。有些转换有时是因 为语法的需要。如在两个实验室的数据库中对体积的表示单位不同,一个为“立 方米”,一个为“立方厘米”,则需要对数据模式进行转换。另外一些转换可能是 因为两个局部数据库中记录的结构不同而引起的。 还有一种转换是因为语义的需要。例如在一个医院的数据库中,运送病人的 工具被缺省地认为是救护车,而在另一个医院的数据库中要明确地指出运输工具 的属性,这就造成了模式的不一致,需要进行转换,这种转换从语法角度是无法 进行的,这就需要分布式数据库系统能根据系统设计者提供的语义信息,找出不 同局部数据库的数据结构的不同语义。 每一个局部数据库的数据模式都是由相应的数据描述语言d d l 和数据操作 语言d m l 来定义的。为了一致化已有的各个局部数据库的不同数据模式,需要 一种不同模式之间的“映射”方法。通过这种对应,可以使局部数据库系统的数 据模式和针对这些数据模式的操作能够继续保留和使用。也就是全局数据库的操 作都将转换成相应局部数据库的操作,来完成全局数据库的查询。但受局部数据 库物理访问方法的限制,这种映射不一定总是存在。 这里的数据模式转换是指在源数据描述( 对应一个源数据模式) 和目标数据 描述( 对应一个目标数据模式) 之间形成的映射关系,如果两个数据模式所产生 的数据库存在一对一的映射关系,则称这两个数据模式是相等的。如果源数据库 的状态和目标数据库的状态能够映射到同一个“抽象元模型”的状态之上,则称 这两个数据库状态是相等的。也就是说,它们表示的是同一个真实世界。这种相 等关系的建立基础是抽象元模型。但目前还没有一个被广为接受的抽象元模型。 一种理想的方法是建立一组在所有数据模式上都能执行的d m l 操作,所有 的数据库状态都能够通过一组操作而相互转变。如果这种数据操作的数据模式成 立,则任何一个数据库的操作都可以转换成另一个数据库的操作,并且执行。 2 3 元数据介绍 2 3 1 元数据的概念 元数据最本质,最抽象的定义为:d a t aa b o u td a t a ( 关于数据的数据) 。它是一 种广泛存在的现象,在许多领域有其具体的定义和应用。 在数据仓库顶域中,元数据被定义为:描述数据及其环境的数据。一般来说, 它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描 述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和 维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具 体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: 夺描述哪些数据在数据仓库中: 令定义要进入数据仓库中的数据和从数据仓库中产生的数据: 夺记录根据业务事件发生而随之进行的数据抽取工作时间安排: 夺记录并检测系统数据一致性的要求和执行情况: 夺衡量数据质量。 在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过 其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序 行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的 程序行为。 在信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据, 是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属 性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。 2 3 2 主要元数据格式介绍 由于元数据的广泛存在,导致元数据格式层出不穷,以下是几种主要的元数 据格式明。 4 - u s m a r c 。1 9 9 5 年,美国国会图书馆网络开发和m a r c 标准办公室颁布了 u s m a r c 一体化格式更新版,用以解决与书目文献有关的网络资源与电 子资源的连接机制等问题,增补了3 0 7 字段( 文献检索或获取时间) 、8 5 6 字段( “电子资源地址与存取字段) ,扩充了原有字段的内涵。它是目前 适用于书目记录数据的系统最完善、字段最复杂、标准最严格的元数据 格式。 夺艺术作品描述类目( c d w a ) :是描述艺术作品的结构化工具,主要应用 于艺术作品,珍善本和其它三维作品,它的描述重点在于“可动”的对 象及其图像。它有2 7 个数据单元,每一单元还包括若干子单元,包括 主题,记录,管理等项目。 夺编码文档描述( e a d ) :主要用于描述档案和手稿资源,并利用网络检索 和获取档案手稿类信息资源。其高层元素主要有:头标,前面事项,档 案描述。每一高层元素又包括多个小项以及若干细项。它能适应任何长 度的目录和记录,并能描述在各种媒介上的所有类型的档案。e a d 体系 l o 幽三部分组成:数攒模型,s g m l 文件必型定义和档案舀激。 夺v r a 核心类目( v r ac o r c ) :最初是为在网络环境下对艺术,建筑等艺 术类视觉资料的著聚而起草,以后逐渐扩大应用郅非艺术搬领域,目前 v r a 竣心类嚣格式曩l 露罄分缝或: 1 ) 作磊著录类鞲:用于任何一种律鼯实体或菜季中税爨文献所记载的 原始作品( 多为三维作品) 的鬻泶,包括作品类型、尺寸、主题 等1 9 个数搬单元。 2 ) 视觉文献著激类屋:用予记载菜秘作品实体的褫爨文献的著录, 包瑟筏凳文辍类型,撬觉文教穰斌等9 个数舞擎元。 夺机读目录( m a r c ) :它被广泛用于图书馆书目记录数据,照目前图书馆 描述、存储、交换、处理以及检索信息的基础。m a r c 记泶的总体结构 商以下特点:可交格式可变长字段的识录格式;采用目次方式;每条 m a r c 记录分三令嚣( 爻标嚣,嚣浚嚣,数据嚣) 。m a r c 格式遂疆 i s 0 2 7 0 9 1 9 8 1 规定,妇以下几个部分缀成,如图2 所示。 记录豳标区地址目次区数据字段区记录分隔符 i 指示蟹搓示特子字毅鼗撵元素予譬段数据元素事段势隔 l2 栝滋符橼漩符 符 图2m a r c 数据格式 呤都柏林核心集( d c ) :d c 元数据是在充分吸纳了图书情报界所具有编目、 分类、文摘等经验。它是描述、支持、发现、管理和检索网络资源的信 惑维织方式,其簸大耱焘是数爨结擒麓肇,痿惠撵供者霹纛接编码。d c 密简单d c 和复杂d c 之分。 2 4 本章小节 零攀分绥了数蠢摸鏊貔定义,半结穆纯数缀豹特点疆及冀鍪瓣拳绦糖纯鼗据 模型( o e m 模型) ,对分布斌数据库的定义、分炎、异构数据库系统的集成理论 进行了筒单的介绍,介绍了元数据的基本知识。 第三章x m l 及s o a p 技术概述 x m l 技术和s o a p 协议,是本文所要讨论的异构数据源集成系统原型所用 到静核心技术,这些技术静标准、特患、体系缭褐等等将会在本章迸行详缡舞甄介 绍,在介绍完避两部分知识之后,本颦将讨论这两个技术的联系。 3 1x m l 技术综述 3 。1 1x m l 橡准 x m l 劳不是单独移在静,虽然x m l 标准1 3 本身镶纂,毽与x m l 提关的标 准却种类繁多,w 3 c 制定的相关标准就有二十多种。x m l 标准的体系与s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 檬溱豹体系菲常粪儆,爵分为元诿畜 标准、基础标凇、应用标准三个层次。如下圈3 所示。 图3x m l 体系结构图 1 2 戴语言标准:即x m l 标准,描述的是用来描述标准的元语言,是整个体系 静孩心,萁稳稻关称准都是糯它裁定的或为箕服务豹,它毯疆x m l 语法,x m l 文档的合适性、有效性,d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 等。文档类型定义 d t d 厢来定义一类文档的绪构,由于它所支持的数撼类型的局限性,w 3 c 于2 0 0 5 年l1 月宣布了同d t d 兼容的正式参考标准x m ls c h e m a l ,0 ,x m ls c h e m a n n 6 是对d t d 的补充,提供了一种更为严格的描述x m l 文档的结构、属性、数据 类型等戆方法,提供曼多豹数据类鬟,兔谗搜建者定义数据粪型,辇王便哥鼹文搂 进行更加严格的自动化处理。 凝暖ls c h e m a 焉涞獾述x m l 文稽豹台法结摘、内容和限翻,定义了帮装享 的词汇表,使用这些词汇表的x m l 文档结构和提供了他们之间的联系手段。 x m ls c h e m a 由x m l 描述,使用了命名空闷,有丰富的内嵌数据类型和极其强 大的数据结梅定义功缝,充分戆改造并极大蟪扩展了d t d 豹魅力”。援蔻蠹三 部分组成:x m ls c h e m ap a r to :p r i m e r t 4 l ,讲述了什么是s c h e m a ,s c h e m a 与d t d 区剽介天帮稳造一个s c h e m a ;x m ls c h e m ap a r t1 i s ;s t r u c t u r e s ,详宝蠢说碉了播 述x m l 文档结构和内容限制的方法,定义了支配文档s c h e m a 的有效规则;x m l s c h e m ap a r t2 嘲:d a t a t y p e s ,定义了可用于x m ls c h e m a 和其他x m l 规范中定 义数据类型的方法,是d t d 的一个怒集,内嵌的数据类型京4 4 种,可通过念名 空间引用。 蒸秘标猴:是必x m l 浆避一步嶷焉位鼷定熬橡疆,鬟建了采羯x m l 拣准 时的一些公用特征、方法或规则。其核心包括x b a s e ( x m lb a s e ) 、n a m e s p a c e 、 x i n c l u d e ( x m i ,i n c l u s i o n ) 、c a n o n i c a l 、s c h e m a 。x b a s e 翊予定义) ( m l 静u 疆 的基础部分标准。x m ln a m e s p a c e 用来在x m l 文档中通道与由u r i 引用标识 的命名空间确关联来限定元素和属佼,提供解决多d t d 的x m l 文耥中元索名、 属性名冲突的基本方法。 x p a t h 描述如何识别、选择、匹配x m l 文件中的各个构成元件,撮供对x m l 文档瘫郄元豢定健款方法毒妥援烈。x l i n k 用泉搔述文糖中豹怒链接;x p o i n t e r 攘 述了定位到x m l 文档结构内部的方法,支持双向链接,扩展到1 :n 链接( 例 懿链攘至g 袒瓣文传煞数令舨本) ,淘接洼链羧。c s s ( 缀联样式表c a s c a d i n gs t y l e s h e e t ) 或x s l 用于您义文档的显示格式。 图3 中最右侧四个标准为x m l 文档的处理提供了有效的方法和规则。d o m 定义了一组与平台和语言无关的接口,以便程序和脚本能动态访问和修改x m l 文档内容、结构和样式,s a x ( s i m p l e a p i f o r x m l ) 是基于实践出发的,对x m l 文档进行顺序访问。x q u e r y 和x f o r m s 是出于草案制定中的标准。 应用标准:是用x m l 制定的行业标准,大量的应用标准纷纷出现。如有关 多媒体同步显示的s m i l ,用于数学公式符号描述的m a t h x m l ,用于电子商务 的e b x m l 等。 3 1 2x m l 的特点 v f i 。是元标记语言( 用来创建标记语言的语言) ,可通过它定制针对不同应 用环境和要求的标记。它以统一、开放、基于文本格式的模式来描述和交换数据。 它是s g m l ( s t a n d a r dg e n e r a liz e dm a r k u pl a n g u a g e ,标准通用置标语言) 的 一个简化而又严格的子集,而h t m l 是s g m l 的一种应用。x m l 具有以下特点: 夺内容的自描述性:x m l 用元素表示组成文件的逻辑部件,在元素上做标 记以标明数据的含义,并且用简单的嵌套和引用来表示元素间的关系。 h t m l 语言是面向现实的,无法通过它理解信息的内容,而x m l 语言 是面向内容的,其语义隐含在标记中,它反映的是有结构并具有自描述 能力的数据,从而可更优地实现万维网这一分布计算环境下的信息共享 和交换。 夺跨平台性:x m l 可以编码各种内容、语义和概要,包括文档、记录、带 有数据和方法的对象、w e b 站点的元内容等。x m l 采用u n i c o d e 字符 集,用纯文本表示,独立于平台、语言,能直接利用h t t p 协议传输。 夺内容和显示分离:x m l 的内容和显示的分离,x m l 文档用来记录内容, 用c s s 或x s l 在浏览器中能实现对同一x m l 文档的多种显示,实现了 一次性生成和维护信息,而且具有动态多样的呈现形式。 夺可扩展性:通过x m l 文件中命名空间的声明,x m l 标记可通过互联网 被任何组织和个人使用,因此可以使用一种统一的数据模型,而不必关 心数据所在的具体系统和应用环境。另一方面,x m l 可以在不破坏现有 结构的情况下增加新的数据字段,只需改变数据的模式定义,不用重新 编码已有的对象。 3 1 3x m l 的数据管理 3 1 3 1x m l 数据存储 基本的x m l 数据存储方法有4 种:关系数据库、面向对象数据库、直接存 储为x m l 文本文件和专门设计的x m l 数据库。 x m ld bi n i t i a t i v e 定义了三种类型的x m l 数据库”“ n a t i v ex m ld a t a b a s e ( n ) ( d b ) 为存储的x m l 文档定义一个基于x m l 的模式,此模式包括多层嵌 套核对半结构化数据的支持;存储的基本单元是单个的x m l 文档,就像 关系数据库用行作为逻辑的存储基本单元:它不需要任何特定的底层物 理存储模式,可以是关系的、面向对象的或层次的。其数据模型的理论 基础和技术未完全成熟,但它是x m l 存储的发展方向。 数据的访问使用x m l 技术,如x p a t h 、d o m 、s a x ,通过非x m l 方式的技术访问存储的数据是不允许的。一个n x d b 提供支持多种应用 和数据源的必要的访问方法和编程界面。能提供对x m l 数据的存储、转 换和查询的更强的处理能力,速度更快,更稳定,而管理工作却相对减 少。 夺x m le n a b l e dd a t a b a s e ( x e d b ) 此类系统在传统数据库系统上增加了一个x m l 的映射层,映射层的 功能是负责管理存储和检索x m l 数据。经映射保存到数据库里的x m l 数据被转换成其他的格式,而x m l 数据原有的结构和元数据可能丢失。 检索出的x m l 格式的数据可能来自于非x m l 格式的数据源。对数据的 操作既可以通过x m l 的特有技术( 如x p a t h 、d o m 、s a x 等) ,也可以 通过其他数据库技术来进行。存储数据的基本单元是由各系统不同的实 现方式来决定的。由于是基于转换的间接方式,其功能与效率都受到极 大的限制。o r a c l e 和m i c r o s o f t 的x m l 解决方案以及许多第三方的工具 都可以划归为这一类系统。 如采用x e d b 类型的数据霹管瓒系统,开发一个访问数据库的x m l 疫溺系统需要嗣对稽韵予x m l 编程接口零瑶数嚣库编稷菝翻,兹卷焉予对 x m l 文档蜓瓣柝、定位、凌询的操l 乍,艇霉技术识挺x m l 、d o m 及s a x ; 后糟是用于访问数据库,如数据库中数据的更新和捡索等,相应的技术 有o d b c 、j d b c 、a d o 等。开发工作量大,也增加了访阅时间。 夺h y b r i dx m ld a t a b a s e ( x d ) 毙类系统据其瘫j 霹l 露求甏褥捧烫n x d b 煮作为x e d b ,介于上述 聪独系绕之闻,如o z o n e 。 3 。 3 。2x 瓶数据囊询 3 1 3 2 1w e b 查询技术 w e b 尝询包含两个方面:基于内容的查询( 据贝面内容查询符食条件的页颟) 和基于页筒之间联结结构的查询。w e b 的主鬃特征是超链接,其模型一致采用“边 标记图”模壅,该模缀可以描述其他w e b 特有的结构。查询技术主要怒基于查 询语畜静,嚣蓠零用豹查诲语言肖: 令基于关系数摄摸型麴语害:如w e b s q l 、w e b l o g ,羔要是利用搜索弓l 肇 实现基于内容的查询,从借鉴数据滕技术实现然于结构的森询。 夺基于边标记圈或树模型的语言:如w e b o q l 、s t r u q l 、l o r d 等,支持页 面内部连接静查询,支持查询结果羹构成复杂的结构。 慕手数据库技零懿数摅麓捡索、转换帮集戏闽题都器解决,毽它稻酃依鞍于 一秽粪询谗言,关系的s q l 或霹肉对象鲍o q l ,妪x m l 数据模型与它蜘不惩。 近年米,给予半结构化数据的查询语言研究得到很大发展,a t & t 实验室提出了 一种基于x m l 的查询语言x m l q l ,它可以利用绑定变量、嵌套赢询等特点实 现关系代数中豹选择、连撩、投影、分组、排序等搡作。x p a t h 主疆是纂予链接 的,x q u e r y 综合了凡稀较好的技术“。 3 1 3 2 2x m l 查询语言x q u e r y 介绍 x m l 可以标记多霉孛数擐,魁括结构秘拳结捡化鲍文楼、关系数据露、对象 1 6 数据仓库。现有的机遇x m l 查询语言对某种特定类型的数据源是健壮的,但对 其他类型又很薄弱。 x q u e r y 噱1 短小、易于实现,其查询简洁易懂,适用于更广的数据源( 包括数 据库和文本) 。其数据模型是节点标记的树结构。它继承了x p a t h 和x q l 的适合 于层次式文档的路径表达语法;也吸收了x m l q l 的绑定变量且利用绑定的变 量产生新结构的特点;运用了s q l 的基于关键词的系列子句的思想提供了类似 于s e l e c t - f r o mw h e r e 模式的数据重组模式;结合了o q l 的通过组合几种 不同的表达式来提供最一般性的查询。x q u e r y 是一个用表达式来查询的功能性 语言,提供了路径表达式等多种表达式;也是一种s t r o n g l y - t y p e d 语言,其各种 表达式、运算符合函数的操作必须符合已定义的类型”。 其f l w r 表达式可用来组合不同的字句完成需要的查询,它完成重复查询和 绑定变量到中间结果,常用于多个文本间的连接计算。f l w r 表达式由f o r 、 l e t 、w h e r e 、r e t u r n 子句构成,f o r 、l e t 子旬用于变量的绑定,w h e r e 子句用于对被f o r 、l e t 子句绑定的变量的结果流的过滤,r e t u r n 子句用于 输出f l w r 表达式的结果。 3 2s o a p 协议简介 s o a p 是在非集中、分布环境中交换信息的轻量级协议,它是基于釉l 的协 议。包捂三个部分:封套( e n v e l o p e ) 定义7 消息内容和处理的框架、一套编码 规贴甬来表达应用定义数据类型的实侥以及表达远程过程调胃和晌直的协定,“ _ s o a p1 ,2 规范” 随着全球信息化步伐的迅猛发展,如何实现各种网络服务在i n t e r n e t 上的 跨平台、跨软硬件的无缝集成,已成为i t 业共同关注的一个问题。s o a p ( s i m p l e o b j e c ta c c e s sp r o t o c 0 1 ) 技术有助于实现大量异构程序和平台之间的互操作性 从而使存在的应用能够被广泛的用户所访问。s o a p 后面的指导理念是“它是第 一个没有发明任何新技术的技术”。它通过定义一个关于远程组件如何请求信息, 以及如何描述递交的信息的标准,从而扩展了w e b 应用的用途。s o a p 是一个基 于h t t p 和x m l 的请求响应r p c ( r e m o t ep r o c e d u r ec a l l i n g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园中班手指游戏教学设计案例
- 中学英语口语表达能力训练
- 客户投诉处理流程与满意度提升
- 委托收款法律文书模板及拟写规范
- 企业食品安全管理与培训讲稿
- 现代物流配送管理流程案例
- 移动式压力容器安全操作规范
- 节假日安全生产防范措施
- 幼儿园科学课程活动方案总结
- 制造企业节能减排专项方案
- 2025年华能上海电力检修有限责任公司招聘笔试参考题库含答案解析
- 保洁日常标准培训
- 人教版八年级物理上册《第一章机械运动》单元测试卷(含答案)
- 全国第三届职业技能大赛(工业机器人系统操作项目)选拔赛理论考试题及答案
- 高一 人教A版 数学 第三章《幂函数》课件
- 氩气瓶的安全使用要求
- 《大模型原理与技术》全套教学课件
- 糖尿病足的影像学鉴别诊断
- 象棋入门课件教学
- 第47届世界技能大赛江苏省选拔赛精细木工项目技术文件(初稿)
- VR医学模拟手术训练系统
评论
0/150
提交评论