




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于mediation的异构数据集成系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着数据存储技术的彳i 断发展,许多企事业集团部积累了大量的异构数据 源,遗留下在不同的数据源上用不同技术丌发的应用程序。异构数据集成是近 年来数据库研究领域的热点,它的目标就是针对这样的遗留数据源进行集成处 理,既维持原有应用程序的正常运行,又能在这些异构的数据源上建立新的集 成应用。 “基rm e d i a t i o n 的w e b 异构数据集成研究”是天津市自然科学基金资助 的项目,已经进行的前期工作取得了很大成果 1 8 】【1 9 】:总结出三种集成技术 p u l l 型、p u s h 型和h y b r i d 混合型;开发出骶个原型系统h d i s 和e x c e e d 。 h d i s 使用查询下推的p u s i i 方式查询数据,对外表现为一个关系型数据库, e x c e e d 使用数据预抽取的p u l l 方式,对外表现为一个x m l 型数据库。 本文在实验室前期研究的基础上,继续沿用h d i s 这种查询下推的更清晰灵 活的轻量级体系结构,对它进行设计和功能上的调整和改进,实现了原型系统 g h d i s 。主要的工作有: 参考e x c e e d 中使用x m l 方式集成数据的技术,将h d i s 的虚拟数据库部 分进行改进,采用国际| 二流行的x m l 集成标准建立虚拟x m l 映射视图,将原 有的中间虚拟关系型数据结构改造为虚拟x m l 数据结构,提供x q u e r y 查询接 口,对奄洵访问继续使用p u s h 查询下推模式,既扩大了h d i s 集成非关系型数 据源的能力,又避免了e x c e e d 中查询预抽取的性能损失,也避免了h d i s 中需 要用户使用类s q l 语句查询,返吲x m l 结果集的矛盾。 增强t t d i s 的数据操作功能,提供对底层多数据源之间的联合查找,不需要 考虑集中的通用模型而损失各数据源独有的信息。对于可更新数据源的数据更 新操作进行了尝试,增加了集成操作数据的能力。 对于异构数据集成中的热点问题如安全问题进行了尝试,根据x m l 技术的 特点,增加了用户、权限、名字空间等多数据库实例及安伞方面的管理处理。 刈_ 丁流行的分布式的异构数据集成体系结构也进行了尝试。 关键词:异构数据集成,x m l 虚拟映射视图,查询下推,中介器包装器 a b s t r a c i a b s t r a c t a st h ed e v e l o p m e n to fd a t as t o r a g et e c l m o l o g y , m a n yo ft h ee n t e r p r i s e sh a v ea l o to fh e t e r o g e n e o u sd a t as o u r c e s t h e r ea r ea l s oal o to fs y s t e m sa n da p p l i c a t i o n s d e v e l o p e du p o nt h o s el e g a c yd a t as o u r c e s h e t e r o g e n e o u sd a t ai n t e g r a t i o nh a s b e c o m et h eh o t s p o ti ad a t a b a s er e s e a r c h t h ea i mi st os e t u pn e wd a t a i n t e r o p e r a b i l i t ya p p l i c a t i o n su p o n t h eh e t e r o g e n e o u sd a t as o u r c e sw i t h o u ta n y b r e a k i n gf o rt h el e g a c ys y s t e m sa n da p p l i c a t i o n s d b i s ( d a t a b a s ea n di n f o r m a t i o ns y s t e m ) l a bh a sb e g u n t ow o r ko n h e t e r o g e n e o u sd a t ai n t e g r a t i o ns i n c ey e a r2 0 0 3 t h ep r o j e c tw a ss u p p o r t e db yt i a n j i n n a t u r a ls c i e n c ef u n da n dt i a n j i ni n f o r m a t i o nh a r b o rf u n d a n dw eh a v eg o tg r e a t a c h i e v e m e n t si nt h ep r e v i o u sw o r k w eh a v es u m m a r i z e dt h r e e i n t e g r a t i o n t e c h n o l o g i e sd s l :p u l l ,p u s ha n dh y b r i d ,a n dh a v ed e v e l o p e dt w os y s t e m t t d i sa n de x c e e d t ou s e r s ,h d i si sar e l a t i o n a ld a t a b a s e i tu s e sp u s ht e c h n o l o g y t oi n t e g r a t eh e t e r o g e n e o u sd a t a e x c e e di san a t i v ex m ld a t a b a s e i ti n t e g r a t e sd a t a s o u r c e sb yp u l lt e c h n o l o g y , t h i st h e s i sf o c u s e so ns u c c e e d i n gt h ep r e v i o u sw o r ka n di m p r o v i n gt h e i n t e g r a t i o nf u n c t i o n w ep r e s e n tan e ws y s t e mg h d i s ,w h i c hf o l l o w st h ep u s h t e c h n o l o g ya n dl i g h ta r c h i t e c t u r eo fh d i s ,i m p r o v e si t sd e s i g na n df u n c t i o n ,a n d s t r e n g t h e n si t si n t e g r a t i o na b i l i t y t h em a i nw o r ki s : g h d i sr e p l a c e st h ev i r t u a lr e l a t i o n a lt a b l e so fh d i sw i t hv i r t u a lx m lv i e w si n o r d e rt oc h a n g eh d i sf r o mr e l a t i o n a ld a t a b a s et ox m l d a t a b a s e ,g e t t i n gr e f e r e n c e f r o mt h ex m lm a n a g e m e n tt e c h n o l o g yo fe x c e e d a n dg h d i ss t i l lu s e sp u s h t e c l m o l o g yt om a n a g et h eq u e r yp r o c e d u r e t h er e p l a c e m e n ts t r e n g t h e n sh d i s i n t e g r a t i o na b i l i t yb yi n t e g r a t i n gu n r e l a t i o n a ld a t as o u r c e s ,a n da v o i d st h e p e r f o r m a n c el o s ti ne x t r a c t i o na n ds a v i n go fe x c e e d g h d i so f f e r ss t a n d a r dx q u e r y t oq u e r yt h ev i r t u a lx m lv i e w , a n dr e t u r n sx m lr e s u l t t h i sa v o i d st h ec o n f l i c t i o no f u s i n gs q l t og e tx m lr e s u l t si nh d i s g t l d i ss t r e n g t h e n sh d i s sq u e r ya b i l i t y u s e r sc a r lq u e r yu p o nd a t as o u r c e s a b s t r a c t j o i na n dd on o tc o n c e r nt h ec o m m o ns c h e m aw i t h o u tl o s i n gt h es p e c i a li n f o r m a t i o no f e a c hd a t as o u r c e a n dg h d i sw o r k so i lu p d a t i n gm e t h o dt o s t r e n g t h e nt h ed a t a i n t e r o p e r a b i l i t y g t i d i st r i e st ow o r ko nd a t a b a s em u l t i i n s t a n c ea n ds e c u r i t yp r o b l e mi nd a t a i n t e g r a t i o nb ya d d i n gu s e r ,p o l i c ya n dn a m e s p a c e i ta l s oa c h i e v e sa d i s t r i b u t e dd e s i g nt ol e ti t s e l f m o r ef l e x i b l e k e yw o r d :h e t e r o g e n e o u sd a t ai n t e g r a t i o n ,v i r t u a lx m lv i e w , p u s hm e t h o d , m e d i a t o r w r a p p e r i i i 本文的研究工作得到以下项目资助 项f 1 名称: 项只编号: 资助部门: 执行期限: 项目名称 项目编号 资助部fj 执行期限 基1m e d i a t i o n 的w e b 异构数据集成研究 0 3 3 6 0 0 4 1 l 天津市自然科学基金 2 0 0 3 年5 月2 0 0 5 年1 2 月 基于w e b 的分布式异构数据集成平台研究与丌发 0 3 5 1 1 5 0 2 2 天津市信息港 2 0 0 3 年8 月一2 0 0 5 年8 月 南开大学学位论文版权使用授权书 本人完令了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位沦文的印刷本和电子版 本;学校有牛义保存学位沦文的印刷木和电子版,并采用影刚、缩印、 扫描、数字化或其它手段保存论文;学校有权提供日录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在小以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位沧文作者签名:斗面浑 删 s 年j 月三节。 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 l 指导教师签名:学位论文作者签名: l 解密时间:年月 日 南开大学学位论文原创性声明 术人郑蕈声明:所呈交的学位论文,足本人在导师指导下,进行 研究:】:作所取得的成果。除文巾已经注明引用的内容外,本学位沧文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的| ! | 容。对本沦文所涉及的研究工作做出贡献的其他个人和集 体,均已在文巾以明确方式标明。木学位论文原创性声明的法律责任 山本人承担。 学位论文作者攀名: 牟丽蓐 砂5 年5 月卿日 第一章介绍 第一章介绍 第一节数据集成研究的重要意义 计算机领域的迅猛发展,带来了计算机各方面技术的不断提高。许多大的 企业在不同的历史时期都经历了用不同的开发技术开发程序、不同的存储技术 存储数据的过程。在大型的现代企业巾,公司的不同部门不可避免的会使用彳i 同系统产生、存储和搜索他们的关键数据。网络的不断普及,公司业务逻辑的 梳理整合,也使原本受部j 、地域限制而遗留的各种异构信息源,亟待整合。 异构数据集成技术在这样的环境中应运而牛。 早期的异构数据集成,主要集中在设计特定工具,用以支持数据库的直接 连接访问,数据库复制和数据交换,以及数据之恻的协同处理。许多使用关系 型数据库模式对这些数据源进行集成的研究也蓬勃发展起来。 随着网络上大量的w e b 数据,新兴的x m l 技术、面向对象数据库的不断 壮大,都带给我们新的数据问题。它们剥早期的关系型数据集成带来了新的挑 战,也使这研究朝着更深更广的领域发展起来。因为原有的关系型数据集成 形式难以适应新的集成要求,许多新的集成技术应运而生。 现在已经有很多在建的和已经完成的优秀集成应用实例,如澳大利亚的 h e a l t hd a t ai n t e g r a t i o n ,美国的r a p i de a r t h q u a k ed a t ai n t e g r a t i o np r o j e c t t ”j l “j ,他 们不仅在集成度,而且在实时性上都有很高的要求,促进了集成课题的研究。 第二节数据集成技术的发展 i b m 的d b 2 最早实现了使用联邦数据库( 关系型数据库) 对异构数据进行 集成。现今,又有许多新的如面向对象的数据集成,基于x m l 的数据集成和 p e e r t o p e e r 的数据集成也,1 :始发展起来。 数据集成可以分为几个层次1 1 1 :最低层次是,赢接连接几个数据源,用特定 的工具定义视图,实现数据集成,例如【2 1 中介绍的系统;要实现完全的集成町以 使用分布式或联邦数据序获得。 第一章介纲 从表1 1 中显示的现今国际上大部分的热门集成系统,我们可以看到,x m l 已经实际上成为业界通用的数据集成标准。 表11 部分常用数据集成系统i s ;c o r r m a e r c i a l x m l i “ 。 | a c a d e m i c ,o p e r a t i o n a l s q l “ 。” 一” “ ;a c a d e m i cp r o t o t y p e r e l a t i o n a l ”。 一 “ 一一 a c a d e m i cp r o t o t y p e x m l 。 一“7 | ”“i a c a d e m i cp r o t o t y p e x m l 一 一 4 i n d u s t r i a lp r o t o t y p e ;o b j e c t r e l a t i o n a l ; ! 一一 另外还有较新的,表中尚未收录的p e e r t o p e e r 的数据库集成系统d a l e t 7 1i s 是2 0 0 3 年3 月由几位教授丌始进行研究的。许多新鲜的思路都给数据集成这个 领域注入了鲜活的思想。 第三节实验室的前期工作 根据列数据集成方案的综合考虑,实验室总结出了异构集成系统对查询处 理的p u l l 、p u s h 和h y b r i d 这三种集成技术方案【1 9 】: l p u l l 方式:通过各数据源相对应的包装器w r a p p e r 将数据按照一定格 莒 u ,。婴 北 l 掣莹| i i t 椭 e n ( l “蒹茹飘 记州 h 攀差;墨|蜊l=批 = 乏, 要 胁,m 第一章介缁 式抽取出来( e x t r a c t o r ) ,抽取出的数据多为x m l 格式的文档;然后 经过x q u e r y 分派器触发x q u e r y 引擎查询转换后的x m l 数据并把结 果发送到结果组装器( c o m b i n e r ) ,最后由组装器把最终的x m l 结果返 回给用户。 2 p u s h 方式:把用户输入的查询请求( x q u e f f 或s q l ) 分解为对各数 据源的查询请求,再发送到数据源剥应的包装器( w r a p p e r ) ,由w r a p p e r 把查询清求转换为本地数据源的特定查询语句,并将得到的返回结果组 装后直接以x m l 或关系表的形式返回给用户。 3 t t y b r i d 方式:结合p u s h 和p u l l 两种方式,根掘数据源的类型,由 具体的转换模块选择使用的查询方式。 实验室分别刺这儿种方案进行分析,设计出两个异构数据集成系统h d i s 和 e x c e e d : 1 i t d i s 系统是实验宜前期设计完成的个关系型通用数据库。它基1 : m e d i a t o r w r a p p e r 体系结构,用x m l 存储m e t a d a t a ,使用p u s h 方法 向关系型数据源奄询数据。h d i s 平台可以接受用户建立关系型虚拟数 据表,接收用户的杏询( h d i s 定义的类s q l ) ,并用w e bs e r v i c e 返回 x m l 格式的查询结果。h d l s 不支持联合查找和更新,无法集成结构复 杂的非关系型x m l 数据、w e b 数据及面向对象结构存储的数据,但是 可以成功的集成结构类似的关系型数据库,与可转化为关系型的x m l 数据,查询效率高。使用h d i s 系统需要用户熟悉掌握它所定义的类s q l 文法,同时对返回的x m l 结果集能够理解,增加了用户学习使用的难 度。 2 e x c e e d 系统是实验室f i i f 期设计完成的一个同样基于m e d i a t o r w r a p p e r 体系结构的集成系统。它使用p u l l 方式,在每次查询时,预先使用 e x t r a c t o r 从数据源抽取数据。用户可以在e x c e e d 上建立x m l 形式的虚 拟数据表,使用x q u e r y 进行查询,e x c e e d 可以对各类数据源进行抽取, 并剥抽取出的数据进行全文索引。e x c e e d 具有良好的扩展性,新增的数 据源只要支持抽取,简单配置便可加入此系统。e x c e e d 支持联合查找, 但m 丁数据是抽取出来的,e x c e e d 也存在着无法更新数据源的问题,而 上l 在数据量过大时,存在严重网络传输和临时结果存储的瓶颈。 第一章介绍 第四节研究目标 术篇论文立足丁实验室已有的数据集成研究基础,分析综合两种既有系统 的优缺点,参考国际先进的集成技术,将h d i s 这种更轻巧的结构进行改造,使 用最流行的标准的x m l 集成概念,设计完成了一个完全基于虚拟x m l 映射的 数据集成系统g h d i s 。g t t d i s 的系统特点: 1 更清晰的体系结构:体系结构继续沿用成熟的m e d i a t o r w r a p p e r 体系结 构,中间虚拟数据库完全为x m l 结构,使用x q u e r y 查询此x m l 虚拟 库,得到x m l 结果集,将h d i s 用关系查询语句得到x m l 结果集的 矛盾剔除。m e d i a t o r 只在x m l 视图上,解析x q u e r y 语法,分配查询 任务到各数掘源的w r a p p e r ,并组织返回的x m l 结果集;处理非x m l 数据源映射为x m l 视图以及查洵语句本地化的- 1 :作完全由w r a p p e r 进 行。 2 集成功能增强:将h d i s 关系型的虚拟数据库替换成、k 界标准x m l 虚 拟数据库,克服了h d l s 无法集成结构复杂的x m l 数据库、w e b 及文 档数据的缺点:由于沿用p u s h 查询下推方式,不抽取有驱动数据源的 数据,没有e x c e e d 大量抽取复制数据的缺点。 3 数据操作能力增强:g h d i s 还可实现数据源之i 、日j 的联合查找及数据更 新( 更新只针对可更新数据源) 。 4 多实例多用户支持和丰富的安全性:增加了多数据库实例、多用户的概 念,弥补了原有设计中只有虚拟表,没有数据库、用户的缺陷。对现在 集成系统普遍存在的安全方面的问题作了很好的尝试。g h d i s 不要求 丌发的程序对所有要集成的数据源都有d b a 的权限,用户可以根据自 己的权限,自由设置虚拟数据库,通过不同的身份访问虚拟数据库,更 好的进行读写等权限控制。 5 可扩展为p e e r t o p e e r 构架:使g h d i s 的结构可以支持p e e r - t o p e e r 的 网络数据访,使系统具有分布性能。 第五节论文的组织结构 第一章介缁了异构数据集成的意义,现有的集成系统,和本文的继承、创 4 第一章介绍 移f 点。 第二章介绍了异构数据集成系统的发展及应用环境,着重介绍了实验室研 究实现的h d i s ,e x c e e d 系统,分析了新兴的p e e r t o p e e r 模型,并引入数据集 成领域中目前亟待解决的安全、实用等问题。 第三章引入根据h d i s 体系结构改造的新系统g h d i s ,并描述新系统的体 系特点。 第四章对于g h d i s 在关键技术上的突破与问题的解决给予详细的说明。 第五章演示与验证g h d i s 的使用及一个简单应用。 第六章总结了g h d i s 原型系统的实现点,为后续研究提出建设性意见。 第二章异构数据集成分析及方案选择 第二章异构数据集成分析及方案选择 2 1 1 应用结构 第一节异构数据集成介绍 系统结构清晰的应用程序最易被集成【4 j d 图2 1 巾展示了两个经典三层架构 的应用体系,可以在这三层巾的任意一层连接集成,例如数据集成、业务逻辑 集成和展示集成。、i k 务逻辑集成非常有意义,也很有挑战性,但是在这里我们 关心| e 勺是底层的数据集成。对大型的商业金融集团,他们的数据比代码更有意 义。【0 】 p r e s e n t a t i o nt ie r ( b ) i l b u s i i e s si ,o g c ( b ) d a l a b as et ier ( b ) 图2 1 两个i 层应用程序【4 在这样的结构层次巾建立数据集成应用,可以将d a t a b a s e 层分为两个子层, 历史数据库层作为最基木的子层继续对原囱的程序提供数据支持,新加子层集 成数据库层,构建出新的集成应用。见图2 2 : 第二章异构数据集成分析及方案选择 a p p l i c a t i o na 1 t tl e g f a t i or la p p l i c a t i o nc 圈22 三层聚构下的数据集成 2 。i 2 集成技术发展 数据集成的概念已经出现了l 几年,许多1 苛_ 、i k 和开源的项目组织都在这个 领域( 相对于图2 2 的“f e d e r a t ed a t a b a s e ”数据集成研究领域) 进行了大量的 研究:如何在底层的数据源( 不仅是传统的关系型数据库,还包括x m l 数据源, 甚至是文本数据、w e b 页面数据) 上建立联合的数据模型,对外提供统一的数 据信息和操作。 从早期的用上具、命令直接连接远程数据源,数据源复制、同步,商用联 邦数据库,至今数据集成领域已经出现了各种体系、各种技术广泛发展的局面。 数据集成技术逐渐成熟的过程中,从体系结构上有代表性的实现有以下几 种 1 9 1 : 1 联邦数据库( f e d e r a t e dd a t a b a s e s ) 联邦数据库的定义为: o n er e l a t e da r e ao l w o r ki nt h ed a t a b a s ef i e l di s f e d e r a t e dd a t a b a s e s ,w h e r ea u t o n o m o u sd a t a b a s e sc a l lb ev i e w e dc o n c e p t u a l l ya sa s i n g l ed a t a b a s ew i t has i n g l e ( i n t e g r a t e d ) s c h e m a i nt h ec a s ew h e r ee a c hp a r t i c i p a n t u n d e r l y i n gi n f o n n a t i o ns o u r c e si s ad a t a b a s ew i t has c h e m aa n dw h e r et h es t r u c t u r e d m a pd e f i n i t i o nc o r r e s p o n d st oag l o b a ls c h e m a ,t h e nas t r u c t u r e dm a p i saf e d e r a t e d d a t a b a s e 垂 至 熏 第二章异构数据集成分析及力案选择 图2 3 联邦数据库 联邦数据库最早由i b m 提出并实现h 9 j ,用视图体现与其它数据库的映射, 支持异构数据库的统一访问操作,并能提供事务支持。但是联邦数据库映射十 分复杂,当底层的一个数据源发生变化时,所有的顶层视图都要作卡甘应的调整。 现今主要以血层和八层的体系结构出现【5 j ,图2 3 显示的是一个四层的抽象模式 体系结构。在底层数据库( d s ) 的基础上,导出本地的模型( e s ) ,再建立全局 的模型( f s ) ,提供刺其他今局系统的应用。集成数据库的数据模式不必同于各 组合数据库f i 勺模式,所以具有不同数据模式的异构数据源均能被集成。从各组 合数据库到集成数据库的映射过程分为三步: 第一步,通过配置输出模式来克服不同数据库模型( 关系数据库、x m l 等) 之间的区别,该模式是用同一规范的数据模型表示的。每个组合数据库能自发 的决定在输山模式中要提供哪些数据和对数据的哪些访问。这些输出模式能被 不同的集成数据库使用。 第二步,集成数据库指定一个输入模式后,决定要使用哪些取白组合数据 库巾的数据。输入模式由底层数据库提供的输出模式进行组织,是输出模式的 视图。 第三步,集成的d b m s 把从不同的数据库获得的数据映射成一个通用的视 图,数据是在输入模式中定义的。这个映射足在模式层和数据层之间的复杂映 射,集成的模式是集成数据库作为逻辑数据库模式提供给应用程序的。 2 数据仓库( d a t aw a r e h o u s e s ) 第二章异构数据集成分析及方案选择 图2 , 4 数据仓库 数据仓库多被用来全面分析许多大数据集,以做出商业决策分析。大数据 集是从o i x p 数据库的数据源组合而成( 例如,全国一个零售商的所有仓库中的 数据) ,而且数据仓库中的数据不需要进行及时更新。大数据集的有效性处理过 程,即数据源数据信息的抽取、净化是关键的第一步。因为底层数据源的数据 在组合数据库t p 存在的是被集成数据库和中央数据仓库抽取制作的副本,他们 本身不直接被访问。丌发人员町以通过在数据仓库中获得的数据副本上制作特 定的应用视图,然后对这些视剧使用不同的数据分析工具得到决策结果。相应 于数据集成,即在抽取出的稳定统一的数据模式上,直接进行查询访问。 数据仓库法中重要的问题存于统一模式的定义和抽取器的开发。抽取器彳i 仅需要处理从不同数据模型和模式到数据仓库模式的映射,还要执行数据清理 工作,例如除去原始数据中的错误和“噪音”数据。 数据仓库r r l 抽取山的信息具有同一的相同模式,可以支持统一的访问操作, 但是m 于其数据更新的不及时,查询信息滞后,无法得到实时的结果,而且如 需捕取的数据量巨人,效率也是很大的问题。 3 m e d i a t o r w r a p p e r 系统 第二章异构数据集成分析及方案选择 | 璺| 25 :m e d i a t o r w r a p p e r 结构 m e d i a t o r w r a p p e r 方法由于其体系结构的突山优点,已经成为目前数据集成 领域中使用最广泛的一种。m e d i a t o r 的定义最早由g w i e d e r h o l d 【6 给出: am e d i a t o ri sas o f t w a r em o d u l et h a te x p l o i t se n c o d e dk n o w l e d g ea b o u ts o m e s e t so rs u b s e t so f d a t at oc r e a t ei n f o r m a t i o nf o rah i g h e rl a y e ro f a p p l i c a t i o n s 现在,更普遍更准确的说法足m e d i a t o r 是一种软件组件,它支持虚拟数据 库,用户可以查询这个虚拟数据库,就像它是一个已经被创建出的完整的数据 库。m e d i a t o r 不存储实际的数据,它将片j 户的访问翻译为对底层数据源的查询; 底层数据源的映射包装和查询操作由w r a p p e r 负责,m e d i a t o r 将从w r a p p e r 返回 的数据源结果进行重组并返回给用,“。 比较于其他的集成方法,m e d i a t o r w r a p p e r 采用集中的方式进行虚拟映射, 相对于数据仓库法的大量数据复制,这种方法只存储少景的元数据( m e t a d a t a ) , 而且虚拟的映射结构保证了底层数据的实时性。相对丁联邦数据库,这种方法 由r 其具体的数据源由w r a p p e r 进行管理,统一映射,所以当有某个数据源的结 构发生变化时,只需要处理相应w r a p p e r 的映射关系。新增数据源类型也只需要 增加对应的w r a p p e r 类别,结构更加灵活。 本文一卜而介绍的i t d l s 、e x c e e d 和g i t d i s 系统都是基于这种体系结构的。 2 1 3x m l & x q u e r y 这里剥x m l 的特性做一个简短的介绍,用以说明异构数据集成领域大多采 第一章异构数据集成分析及方案选择 用x m l 作为中间虚拟数据结构的主要原因;并讲解x m lq u e r y 的简单语法, 以便说明后面将会使用的x q u e r y 表达式。 1 x m l l l 5 1 1 1 6 1 1 2 8 1 x m l ( e x t e n s i b l em a r k u pl a n g u a g e 可扩展标记语言) 是一种描述“元数据” 的标记语言,任何人都可以根据需要使用自定义的元素和属性定义x m l 文档的 结构信息以扩充标配集。 x m l 与h t m l 同样继承自s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e 标准通用标记语言) ,h t m l 将数据和标签混合使用,而且标签属性都是定制的, 不能更改。x m l 允许自由地创建标记和属性,根据应用需要,你可以为标记指 定更有意义的、自描述的名称而不用遵循某种限制。 由于x m l 可扩展的优点,x m l 文档在各个领域( 如科技词典、法律词汇 表、医学词汇表、计算机词汇表、公用电话交换网络词汇等) 的标准化建设中 得到了广泛的应j j 。 基于x m l 的特点,它的应用丰要集中在两个方面:将x m l 主要作为文档 使用( 这很大程度上反映了x m l 起源于s g m l ) 和将x m l 作为数据使用。 异构数据集成系统需使用与系统、平台和数据源属性等无关的介质存储元 数据,以便集成任何需要的数据源:刑时也需使用与系统、平台、编程语言无 关的介质返同给用户查询访问的结果,以便访问者可以将得到的结果信息应用 于任何系统。x m l 的特性同时能够满足这两方面的需求,这就是x m l 能够成 为异构数据集成领域中实际标准的最主要原因。 2 x q u e r y x m l q u e r y ,通常缩写为x q u e r y ,是这几年中以各种方式存在的规范。x m l q u e r y 工作组在1 9 9 9 年9 月正式成立,任务是创建一种灵活的查询语言用以 从x m l 文档巾抽取数据。 剥于x m l 用户柬说,最熟悉的x q u e r y 关键组件是x p a t h ,它本身就是 一个w 3 c 规范。单独的x p a t h 位置路径,就是有效的x q u e r y ,f f r j 女u ,“1 作者”即为“在当前集合巾查找所有图书节点下面的作者”。在数据访问方而, x q u e r y 具有类似于s q l 的外观和能力,为关系型数据库用户所欢迎。 x q u e r y 构建在x p a d a 规范之上。事实上,x q u e r y 的一些特性已公认为是 最基本的,以致于它f f j 已被合并入x p a t h2 0 的规范中,而且这个规范目前为 w 3 c 的x m lq u e r y 和x s l 工作组共同拥有。 第二章异构数据集成分析及方案选择 3 f l w r 表达式简介【3 4 l x q u e r y 中最强大的新特性是f l w r 表达式。f l w r ( 发音为l l o w c r ) 是 f o r l e t w h e r e r e t u r n 的酋字母缩略词,每一个表达式允许出现在表达式的任何 一个子句中。f l w r 表达式不仅可以对x m l 文档的查询精确定位,对关系型数 据库的查询也游刃有余。异构数据集成系统e x c e e d 和g h d i s ,就是使用f l w r 对底层数据源进行建模和对外提供x m l 查询。 f o r 子句 f o r 予句用于指定一组笛卡尔元组,通过为这些笛卡尔组选定次序来控制求 值的次序,以便表达式的其余部分对该元组的处理,如表2 1 : 表2 1 单个f o r 子旬 f o r $ e x p li n ( 抄, ) “一十m一,n 1 一1 ”。“1 表2 1 中f o r 控制对表达式进行两次求值,其巾变量$ e x p 分别被设置为值 和 。如果连续使用两个f o r 表达式,程序将对元组的笛卡尔积求值。见表2 2 : 表2 2 多个f o r 予句 f o rs e x p li n ( 咖, ) f o r $ e x p 2i n ( , ) 。 ,一。 。,。二 程序将对表2 2 中的表达式进行四次求值( 抄, ) 、( 咖, ) 、( , ) 和( , d 胁) ,每次等于一个元组,同于编程语言中的循环嵌套。 l e t 子旬 l e t 了上j 为一个变量赋一个值或一个序列,用于在w h e r e 或r e t u m 予句中 简写。 w h e r e 和r e t u r n 子句 w h e r e 了旬可以剔除不满足条件的元组,r e t u m 了句定义要返回的内容。 这儿个定义在常用的编程语占和s q l 语句中都有类似的概念。f 面介绍 f l w r 使用的实例:查询“a u t h o r l i s t x m l ”( 见表2 3 ) ,返回已编写多于三本书 的作者名字。 表2 3 示例文档“a u t h o r l i s t x m l ” = 3 )条件 r e t u r n 返回 $ a u t h o r n a m e , : 一“一 一。 、+ ,。一。 表2 4 中的x q u e r y 将返回内容: 表2 5 对多产作者查询的结果 k e v i nw i l l i a m s d i s t i n c t - v a l u e s 函数 3 第二章异构数据集成分析及方案选择 d i s t i n c t v a l u e s 是在执行数据操作时进行重复项剔除的函数( 在x p a t h2 , 0 中 也有) 。如表2 6 l i 客户与已购产品的列表: 表2 6 样本客户数据“c u s t o m e r l i s tx m l ” “十 5 ”十h l , p r o d u c tn a m e = ”m y d a t a b i n d e r ”、。 根据这个文档中的数据,列出所有产品以及每个产品的客户列表非常烦琐。 通过d i s t i n c t v a l u e s 函数( 表2 7 ) ,就可简单的得到j 卜确的结果( 表2 8 ) 。 表2 7 透视客户产r 帚关系的f l w r l e t $ i n p u t := d o c u m e n t ( ”c u s t o m e r l i s t x m l ”1 f o r $ p r o d u c ti nd i s t i n c t - v a l u e s ( ”$ i n p u t c u s t o m e r p r o d u c f f n a m e 、 r e t u r n ( f o r $ c u s t o m e ri n $ i n p u t c u s t o m e r w h e r e $ c u s t o m e r p r o d u c t n a m e = $ p r o d u c t r e t u r n ) 4 箜三里墨塑塑塑塞堕坌堑墨互墨垄堂 表2 8 查询结果 c u s t o m e rd a m e 。”p h a r m a c o r p 1 n c ”胁 第二章异构数据集成分析及方案选择 第二节h d i s 系统 蚓2 6 h d i s 体系结构图 图2 , 6 鼹示了h d l s 的结构图。h d i s 系统是实验室前期设计完成的一个关 系型通用原型系统。它基于m e d i a t o r w r a p p e r 体系结构,使用查询下推p u s h 方 法向关系型数据源查漪数据,对于结构可转化为关系型的x m l 文档也可以将其 载入系统,作为一类本地关系型数据源进行查询。 i i d i s 用x m l 文件存储m e t a d a a ,用户可以在平台上通过u i 或w e bs e r v i c e 的v d b 管理接口建立关系型虚拟数据表,将底层数据源统一映射为同一的模式, 使用h d l s 定义的类s q l 文法刘这些定义的虚拟表结构进行查询,并从w e b s e r v i c e 得到返回的x m l 格式的查询结果。h d i s 的w r a p p e r 可以处理【u 驱动关 系型数据库,如o r a c l e ,s q l s e r v e r ,a c c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 演出经纪人之《演出经纪实务》能力测试B卷含答案详解【预热题】
- 2025年教师招聘之《幼儿教师招聘》检测卷包附参考答案详解(能力提升)
- 2025年教师招聘之《幼儿教师招聘》通关练习题和答案附参考答案详解【培优】
- 花烟草养护知识培训内容课件
- 教师招聘之《小学教师招聘》题库检测模拟题(必刷)附答案详解
- 2025年教师招聘之《小学教师招聘》通关试卷提供答案解析审定版附答案详解
- 教师招聘之《小学教师招聘》能力测试备考题含完整答案详解(网校专用)
- 教师招聘之《小学教师招聘》题库(得分题)打印附完整答案详解(易错题)
- 教师招聘之《幼儿教师招聘》复习提分资料及参考答案详解【b卷】
- 2025年教师招聘之《幼儿教师招聘》模拟考试题库B卷及答案详解(必刷)
- 垃圾渗滤液处理站运维及渗滤液处理投标方案(技术方案)
- 高职建筑设计专业《建筑构造与识图》说课课件
- 人教版九年级物理上册《第十三章内能》单元检测卷(带答案解析)
- 3DMine-矿业工程软件-帮助手册说明书
- 中小学五项管理-作业-睡眠-手机-读物-体质五项管理-课件-(26张课件)
- 2024年苏州历史文化名城建设集团有限公司招聘笔试冲刺题(带答案解析)
- 医院保洁中央运输服务项目管理制度
- 阿里巴巴与四十大盗的故事
- 《CT检查技术》课件-CT检查原理
- 新能源汽车功率电子基础 习题答案汇总(程夕明) 习题集1-6
- 《前列腺增生手术》课件
评论
0/150
提交评论