(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf_第1页
(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf_第2页
(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf_第3页
(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf_第4页
(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机科学与技术专业论文)面向数值天气预报研究的数据管理系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院工学硕士学位论文 摘要 数值天气预报研究是气象应用界的热点问题之一,随着气象科学、数值预报 理论以及高性能计算机技术的不断发展,特别是s o a ( s e r v i c e o r i e n t e d a r c h i t e c t u r e ) 技术的迅猛发展,拉开了气象数值预报从传统基于脚本的方式到基 于s o a 工作流方式的转变序幕。而对气象数据集成与访问业务自动化的支持是 s o a 数值预报工作流中迫切需要解决的问题。 数据集成是应对信息孤岛、解决数据共享与访问的有效方法。但目前的气象 数据集成与访问系统主要是应对储存气象资料和用户检索的需求,提供的接口也 是人机交互的方式,需要用户的参与,且有太多的手动操作,很难满足数据集成 与访问业务的自动化需求。 本文针对s o a 数值预报工作流对气象数据集成和访问的需求,研究了基于元 数据的气象数据集成的技术和方法。通过研究s o a 数值天气预报中元数据自动生 成技术,提出了两种元数据掘取框架,解决了气象资料元数据的自动生成问题; 通过研究x m l 的存取技术,针对原生x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 数据 库存取速度慢的现状,提出了一种在关系数据库上存取x m l 元数据的方法,解决 了元数据目录的构建问题;在g l o b u s 已有的数据服务组件基础上,通过服务整合, 形成了一个可用于气象数据资料传输、主副本和数据c a c h e 管理的综合数据服务, 解决了自动检索后的数据访问与传输等问题。 最后在以上研究的基础上,使用w e b 服务技术,设计和实现了支持s o a 数值 预报工作流的气象数据集成和访问系统,较好的满足了引入s o a 技术后,数值预 报工作流中所面临的数据集成和访问业务自动化的需求。 关键词:数值预报,数据集成,数据访问,元数据,工作流,科学数据,s o a 第i 页 国防科学技术大学研究生院工学硕士学位论文 a bs t r a c t t h eh u m e r i c a lp r e d i c t i o no ft h ew e a t h e ri sa l li m p o r t a n tr e s e a r c ha r e ai nt h e p r e s e n tw o r l d w i t ht h ep r o g r e s so ft h ec l i m a t es c i e n c e ,t h en u m e r i c a lp r e d i c t i o nt h e o r y a n dt h ec o m p u t e rt e c h n i q u e ,e s p e c i a l l yt h ee v o l u t i o no fs o & t h en u m e r i c a lp r e d i c t i o n t u l t l si t sw a yf r o mt h ec o n v e n t i o n a ls c r i p ts t y l et ow o r k f l o wb a s e do ns o a t h ew a yo f w o r k f l o wb a s e ds o an e e d st h es u p p o ao ft h ed a t ai n t e g r a t i o na n da c c e s su r g e n t l y d a t ai n t e g r a t i o nt e c h n i q u ei saw a yt od e a l i n gw i md a t ai s l a n d a n da l le f f e c t i v e a p p r o a c ht os o l v et h ep r o b l e mo fs h a r i n ga n da c c e s sd a t ai nad i s t r i b u t ee n v i r o n m e n t t r a d i t i o n a ld a t ai n t e g r a t i o nf o c u s e so ns h a r i n ga n da c c e s s i n gd i s p a r a t ed a t ar e s o u r c e w i t has e a m l e s sa n dt r a n s p a r e n tw a y d u et oi t sl i m i t so fp r o c e s s i n ga u t o m a t i o n , t r a d i t i o n a ld a t ai n t e g r a t i o nc a n n o ts a t i s f yt h en e e do fn u m e r i c a lp r e d i c t i o nb a s e ds o a c o n s i d e r i n gt h er e q u i r e m e n to fd a t ai n t e g r a t i o na n da c c s si nt h e n u m e r i c a l p r e d i c t i o nb a s e ds o a ,b a s e do nt h er e s e a r c ho ft h ei n t e g r a t i o nc o n c e p ta n dr e l a t e d t e c h n i q u e s ,t h i st h e s i se x p l o r e st h ed i f f e r e n c eo fd a t ai n t e g r a t i o ni n t r a d i t i o n a la n d u n d e rs o a i nt h i sp r o c e s s ,t h i st h e s i sp r e s e n t saa p p r o a c ht os t o r ex m lm e t a d a t ai n r e l a t i o n a ld a t a b a s et h a te x p l o i t st h es p e c i f i cc h a r a c t e r i s t i c so fam e t a d a t ac a t a l o g ,a n d l a t e re s t a b l i s h e sap l u g - i nb a s e df r a m e w o r kn a m e ds p i d e rt h a tc r a w l st h ec l i m a t ed a t a a n dc r o s s w a l k sm e t a d a t a ,a n dt h e nd e r i v e sad a t as e r v i c ei n t e g r a t e db yt h er e l a t i v ed a t a s e r v i c e si ng l o b u st o o l k i t i nt h ee n d ,b a s e do ns p i d e rf r a m e w o r ka n dt h ei n t e g r a t e dd a t as e r v i c e ,t h i st h e s i s a p p l i e st h et h ex m l - r e l a t i o ns t o r i n ga n da c c e s s i n gt e c h n i q u em e n t i o n e da b o v et o r e a l i z i n gt h ec l i m a t ed a t ai n t e g r a t i o na n da c c e s ss y s t e mi nt h en u m e r i c a lp r e d i c t i o n e n v i r o n m e n to ns o a 。 k e yw o r d s :n u m e r i c a lp r e d i c t i o n ,d a t ai n t e g r a t i o n ,d a t aa c c e s s ,m e t a d a t a , w o r k f l o w ,s c i e n c ed a t a ,s o a 第i i 页 国防科学技术大学研究生院工学硕士学位论文 表 目录 表2 1w m o 核心元数据标准草案阳1 5 表3 1 测试结果( 单位是毫秒) 2 2 表4 1g r i b i 编码资料各段的含义3 5 第1 v 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图2 1g l o b u s 组件图8 图2 2 联邦数据库集成法1 0 图2 3 中间件集成法1 0 图2 4 数据复制集成法1 l 图2 5s o a 下的服务部署和访问1 8 图3 1 基于缓存的x m l 储存与查询方法2 5 图3 2f g d c 元数据x m ls c h e m a 片段2 6 图3 3 含有递归的x m ld t d 及其x m l 实例2 7 图3 4 处理流程图2 9 图4 1w e b 服务与工作流示例3 3 图4 2 元数据获取模式的框架结构3 5 图4 3s p i d e r 的使用场景3 6 图4 4 两种风格的插件体系3 7 图4 5j p f 的框架3 8 图4 6s p i d e r 的框架3 9 图4 7 一个插件自描述文件示例4 1 图5 1m e t e o r s t u d i o 的体系架构4 5 图5 3m e t e o r s t u d i o 的数据模型4 8 图5 4d s p ( d a t as e r v i c ep r o v i d e r ) 的框架结构4 9 图5 5o g s a d a ia c t i v i t y 引擎架构5 2 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书面使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:亘囱熬焦丞氢亟塑叠塞鲍邀塑笪理歪统 学位论文作者签名:蝴日期: 学位论文版权使用授权书 朔弓勺日 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阕;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:亘自熬焦丞氢亟担盟究鲍熬塑筻垄歪统 )r、 月 月 薛年 |砷川 期 期 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 1 1 研究背景 对气象变化的模拟与预测是全球的热点问题,随着气候科学、数值预报理论 以及高性能计算机技术的不断发展,利用数值模式和高性能计算机资源对气象变 化进行模拟与预测已经成为了气象科学领域内的一个非常重要的研究方向。因此, 如何在高性能计算机资源上组织气象模拟与预测也就成为了应对气象预报需求、 气候异常预警等问题的关键。过去几十年来,计算机软硬件技术飞速发展,这在 很大程度上促进了气象模拟、预报与重大灾害天气预警水平的不断提高。随着卫 星观测数据的应用,常规数据采样点的增加中小尺度四维资料:温、压、湿、 风的获取问题逐步得到解决,并且气象数据资料日益丰富,这一方面使得更精准 更全面的气候系统模拟和预测成为了可能,另一方面也由于气候预测应用软件同 步增长的复杂性、以及气象数据资料的急剧膨胀而对计算机技术特别是气象 数值预报组织技术、气象数据资料的管理技术提出了新的、更高的要求【l 】。 目前,就国内的气象预报工作而言,数值预报流程的组织仅限于基于脚本的 工作流方式。而从事气象预测应用软件和脚本工作流的开发者主要局限于气象科 学领域的专家,他们虽然有着丰富的气象建模和模拟知识,对所开发和使用的气 候预测软件有充分的了解,但业务过程管理方面的训练,所以从业务过程管理的 角度看,所开发的基于脚本的数值预报工作流系统普遍缺乏良好的组织、可复用 性。先前,由于气象资料和气象预测应用软件的规模有限,业务过程管理的缺失 所导致的问题尚不突出。近年来,一方面气候预测应用领域发展迅速,研究的对 象也从单独的大气环流模式拓展到包括大气环流模式、海洋环流模式、陆面模式、 海冰模式等部分的耦合模式1 2 j ,因此相关的应用软件的规模日益庞大、结构更趋复 杂;另一方面,气象卫星观测资料的应用和常规数据采样点的增加也使得气象观 测数据急剧膨胀。在这种情况下,基于脚本的数值预报工作流系统越来越不能适 应气象领域的需求:1 对大量的分布式高性能计算资源不能充分的整合加以充分 利用。2 对数值预报的流程缺乏有效的管理。3 不能支持面向个人用户的气象实 验。同时也使得气象科学家在相关软件开发、工作流脚本编写上花费了过多的时 间,并且日益饱受大量数据资料管理的困扰。 s o a ( s e r v i c e o r i e n t e da r c h i t e c t u r e ) 技术的面世给业务流程管理领域带来了 新的契机,出现了基于s o a 技术的工作流系统。基于s o a 技术的气象预测业务 过程管理新方法也应运而生。总的来说,s o a 工作流技术对解决上述弊端指明了 方向。但是,机遇总是伴随着挑战,由于s o a 工作流是相对来说比较新的技术, 第1 页 国防科学技术大学研究生院工学硕士学位论文 目前对s o a 工作流系统的辅助支撑软件系统的还相对较少,而且对s o a 工作流 系统支撑的技术和方法也不尽完善。就气象应用领域而言,仍然存在以下突出的 问题亟待解决: 卫星观测数据的应用,常规数据采样点的增加导致气象数据量的急速 增长。如何用好这些数据对气象工作者提出了新的挑战。 在基于s o a 技术的工作流系统中,缺乏相应的以用户为中心针对气象实 验的信息、数据回溯、及其他相关数据的辅助管理系统。 气象实验中用到的和产生的数据缺乏有效的组织和管理。即使储存到大型 数据库或磁带备份,在缺乏对元数据的有效管理情况下,也会在检索和使 用上存在很大的不便。 总的来说,就气象领域而言,在s o a 工作流集合预报系统中还缺乏数据集成 系统的支撑。这就要求使用相关的技术和方法,在分布式的网络环境下把各种气 象数据有效的集成起来,屏蔽它们的异构性,当工作流系统运行的时候能准确、 可靠、快速的输送需要的输入数据和归档服务运行时所产生的数据。 1 2 气象数据集成的研究现状 大气是一个混沌系统1 3 ,e p s t e i n l 4 和l e i t h 5 l 提出了集合预报的思想和方法。这 是一种动力随机预报方法。依据非线性理论,由于数值模式对初始状态的敏感性 州,集合预报方法使用多个成员来描述大气状态的不确定性【刀,通过模式运行产生 大量预报信息,可生成真正“概率论”意义下的预报结果。集合预报在最近十多年来 得到迅速的发展与推广应用j 目前研究的重点主要集中于初始场扰动的生成 【8 】【9 】【1 0 1 、预报信息提炼1 0 】【11 1 等方面。 集合数值天气预报业务系统一般是由前处理子系统、客观分析子系统、资料 同化子系统、集合预报初始场生成子系统、模式预报子系统、模式后处理子系统、 产品生成子系统以及可视化监控子系统组成。在基于脚本方式的数值预报工作流 中,每个子系统的实施都需要不同的脚本来控制。而且,在集合数值天气预报中, 模式预报子系统产生的输出结果反过来又可以当作资料同化子系统的输入背景场 资料。因而,在脚本工作流方式下,子系统之间的处理流程没有、也难以自动的 链接起来形成一个符合气象工作者所设想的组织关系。这就使得必须依靠气象工 作人员在上一子系统完成后将所得的数据拷贝、迁移到下子系统所需的储存系统 和目录中。这样,各子系统的数据准备很大程度上是一个手动过程。而这些个过 程是繁琐的,即使使用脚本来完成数据的传输、迁移和准备也会让人感到厌倦。 更麻烦的是,一旦需要搜索一个特定文件或是结果集合时就会出现问题,原因是 在保存气象数据时只是在气象数据这种层次进行存储,而气象资料间的联系、气 第2 页 国防科学技术大学研究生院工学硕士学位论文 象资料的数据志【1 2 】等信息在脚本工作流中没有建立并记录保存。这使得很多气象 数据在储存到底层储存系统后永远也不会被再次访问。 在基于s o a 技术的数值预报工作流系统中,对气象资料处理的各个数值预报 组件被封装成w e b 服务,并由工作流引擎负责统一调度。用户的参与则体现在设 计工作流程的时候,用户只需在工作流编辑界面以拖拽的方式遴选出所需的w e b 服务、设置控制参数,然后以某种顺序将它们组织起来就可以开始数值预报了。 而后的过程是完全自动化的,在正常情况下不需要人工干预。那么这就要求把相 关的数据资料有机的集成起来,提供一种自动、透明的方式,在处理组件需要数 据的时候能及时输送正确、完整的数据,在w e b 服务产生了输出数据时能及时归 档。也就是说为了有力的支撑s o a 数值预报工作流,我们需要做的气象数据集成, 不仅是要满足气象资料的储存需求和一般的检索需求,更进一层的是,这些工作 要能自动化的完成,并能与整个s o a 数值预报工作流和谐地结合起来。 然而,目前气象数据资料的集成与访问管理主要依靠数据库。应该说,在气 象数据资料的检索和归档上,取得了不小的进展,使用各种方法和技术逐步建立 起了各种气象数据资料库【1 3 】【1 4 】【1 5 】【1 6 1 。但是,这些系统主要是应对储存气象资料和 用户检索的需求。提供的接口也是人机交互的方式,需要用户的参与,并有太多 的手动操作,不能满足基于s o a 技术工作流的业务自动化需求。s o a 工作流技术 是最近几年计算机软件技术发展的产物,而它与数值预报的结合也尚待进一步的 探索和研究。就数值预报领域,在引入s o a 工作流技术后,对气象数据的集成与 访问提出了新的更高的要求。 广义上讲,数据集成古已有之。自文字发明以来,人们使用文字记录各种信 息。到后来印刷术及造纸术的发明,大大促进了各种信息的融合与流传。再后来 伴随计算机的出现,文件系统应该算是一个真正意义上的数据集成的产物。特别 是大名鼎鼎的w i n d o w s 操作系统,它把计算机内各种格式的文件组织起来,与对 应的处理程序相关联,使得用户可以通过鼠标点击这么简单的方式就可以透明的 访问、编辑各种文件而不必关心文件在计算机上编码与组织等问题;与此同时另 一方面,数据库技术的出现和发展,更使数据集成从一堆数据合成的文件纵深到 到了数据信息本身。但由于信息化建设的阶段性和分布性特点,导致了所谓的“信 息孤岛”现象的存在:大量的冗余数据、垃圾数据,无法保证数据的一致性。有鉴 于此,人们开始关注对数据集成的研究。 与一般的应用相似,气象的数据集成与访问的主要目的就是要将互相关联的 分布式异构气象数据源集成到一起,达成透明的访问这些气象数据源的目的,解 决异构数据源的访问和储存问题【l 7 1 。而在s o a 数值预报工作流中的气象数据集成 与访问与一般应用所不同的是,对数据的的透明访问必须要能让计算机自动完成。 第3 页 国防科学技术大学研究生院工学硕士学位论文 这就要求维护数据源整体上的数据一致性、实现对异构气象数据源数据的访问, 而且不需要用户关心以何种方式访问数据,提高信息共享利用的效率。从形式上, 气象数据集成与访问是对不同来源、格式、特性的气象数据实施逻辑上或物理上 的有机集中,有机是指数据集成时充分考虑气象数据资料的属性、时间和空间特 征、气象数据自身及其表达的准确性。 气象数据集成与访问是气象信息系统、数值预报业务自动化系统等系统的基 础和关键。要实现数据的有机集成和透明访问,面临了数据源异构、分布、自治 的难点【l8 】【1 9 】。为了解决这些问题,人们尝试了很多方法,但还没有完全解决数据 集成中的一些难题。这也是数据集成备受关注的原因。 1 3 本文的内容和工作 为了实现集合预报方式从脚本工作流到s o a 工作流的转变,本项目组还有两 个与本文工作并行的重要研究:以w e b 服务实现的s o am 作流引擎e p g f i o w ( c e n s e m b l ep r e d i c t i o ng r i dw r k f l o w ) 的研究;对集合预报遗留应用程序的w e b 服务包装器w a - w r a p e r ( w e ba p p l i c a t i o nw m p e r ) 的研究。 本文的工作就是为满足引入s o a 技术后,数值预报工作流系统对大规模的气 象数据资料集成与访问的需求,以及为了实现对气象实验的支持,与上述两个系 统有机的结合起来,并最终实现集合预报方式的转变。有鉴于此,我们开发了一 个面向个人用户以数据为核心的虚拟工作空f 司( w o r k s p a c e ) 管理系统m e t e o r s t u d i o 。 为了与现有系统相适应,降低与集合数值预报系统中其它模块的耦合度, m e t e o r s t u d i o 采用s e r v e r a g e n t 架构,使用w e b 服务技术实现。它负责对用户的 个人数据空间进行管理,并支持气象实验。如前- d , 节所述,在s o a 数值预报工 作流中,对数据的管理不仅是需要完成集成与访问,更为重要的是还必须实现集 成与访问业务的自动性。 而我们的解决办法就是在m e t e o r s t u d i o 中采用标准的气象元数据方案,使用 元数据来组织数据空间,完成气象数据的集成,同时在访问时,也通过元数据来 自动检索、访问。通过研究气象元数据的掘取框架,解决了气象资料元数据的自 动生成问题。通过研究x m l 的存取技术解决了元数据目录的构建问题。在g l o b u s 已有的数据服务基础上,通过服务整合,形成了一个可用于气象数据资料传输、 主副本和数据c a c h e 管理的综合数据服务,解决了自动检索后的数据传输等问题。 以此满足气象数据的集成与访问需求。不仅如此,通过使用消息系统与e p g f i o w 和w a w m p c r 的交互,m e t e o r s t u d i o 还能组织并跟踪气象实验运行中的各种相关 信息,这些信息包括用户的实验流程、实验流程中的输入数据和脚本、实验流程 中产生的数据结果及其数据志【1 2 】、以及其他相关信息。比较好的解决了引入s o a 第4 页 国防科学技术大学研究生院工学硕士学位论文 技术后,数值预报中所面临的气象数据集成与访问的问题。 本文的内容和工作: 1 研究了数据集成的相关技术。针对x m l 格式元数据储存与查询的需求, 探索了x m l 数据在关系数据库中的存取技术,提出了一种基于缓存技术 的x m l r e l a t i o n a l 快速储取方法。 2 研究了元数据及其应用。在分布式环境中,针对气象数据资料自描述特征 以及气象元数据的挖掘、索引需求,研究了基于插件的元数据掘取框架, 并实现了该框架印i d e r 。 3 研究了在分布式环境下,数据的可靠传输、c a c h e 、主副本管理的实现原 理,利用g l o b u s 【2 0 j 里的数据服务组件g r i d f t p 和r f t ( r e l i a b l ef i l e t r a n s f e r ) 提供的可靠传输服务,整合了一个可用于分布式环境中数据 c a c h e 、主副本管理的数据服务系统。 4 研究s o a 数值预报工作流对数据管理的需求,在上述研究的基础上,开 发了一个面向用户以数据为核心的个人数据空间管理系统m e t e o r s t u d i o 。 较好的解决了引入s o a 技术后,在数值预报工作流中对气象数据集成的 需求。 1 4 论文的结构 全文共分六章: 第一章绪论。首先介绍了课题研究的背景,然后介绍了数据集成以及气象数据集 成的研究现状,最后简要描述了本文的内容和主要工作。 第二章数据集成与访问基础。介绍了数据集成的概念,分析了数据集成中的几种 关键技术,探讨了在o g s a d a i t 2 1 1 ( o p e ng r i ds e r v i c ea r c h i t e c t u r e - - d a t aa c e s sa n di n t e g r a t i o n ) 平台上开发数据集成系统的技术和方法。 第三章x m l 元数据的存取研究。研究了基于s o a 的科学数据集成和访问,测试了 原生数据库与关系数据的性能,针对x m l 元数据的存取特点,提出了基 于缓存,在关系数据库上存储和访问x m l 元数据的一种技术方法。 第四章数值天气预报中元数据自动生成的分析与研究。对比研究了基于脚本的气 象集合预报工作流和基于s o a 的气象集合预报工作流,分析并总结了在 基于s o a 集合预报工作流中数据管理的需求,提出了在气象数据内部和 集合预报工作流两种不层层次上自动生成元数据的方法。 第五章m e t e o r s t u d i o 个人数据空间管理系统。基于第三章的x m l 元数据存取技 术与第四章里提出的元数据自动生成技术,通过对g l o b u s 已有数据管理功 能的整合,实现了m e t e o r s t u i o 系统。对引入s o a 技术后的集合预报工作 流提供了有力的气象数据集成和访问支撑。 第六章结束语。总结论文的研究工作,并展望了未来的工作方向。 第5 页 国防科学技术大学研究生院工学硕士学位论文 第二章数据集成与访问基础 2 1 引言 近几十年来,随着科学技术的迅猛发展和信息化建设的推进,人类社会所积 累的数据量与日俱增,数据的采集、存储、处理和传播需求也随之放量增长。网 络的飞速发展,更使得数据交换从组织内部走向了部门、组织之间;但是,由于 不确定性因素和各数据系统的自治性,以及在实现技术上各个系统上的差异、各 系统与数据对象之间的紧耦合关系,导致一旦应用发生变化或数据变动,整个体 系将不得不随之修改。因此,数据集成将面临着有效扩展应用领域、分离实现技 术和应用需求、充分描述各种数据源格式以及发布和进行数据交换等问题。 数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用 户能够以透明的方式访问这些数据源【2 2 】。实现数据共享,可以使更多的人更充分 地利用已有数据资源,减少资料收集、数据采集等重复劳动,降低相应费用节省 开支。但是,在实施数据共享的过程当中,由于不同的数据来自不同的途径,其 内容、格式和质量也千差万别,难以找出一种普适的方式访问和存取各种不同的 数据,也更不可能有一种通用的软件来编辑、修改这些数据,有时候甚至会遇到 数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据的流 动与共享。因此,对数据进行有效的集成管理已成了普遍的需求、亟需解决的问 题。 本章介绍了数据集成的平台、传统方法以及新兴的数据集成技术,为后面的 研究做相关的铺垫。 2 2 数据集成的平台 2 2 1 数据库发展与现状 真正意义上的数据库系统萌芽出现于上世纪6 0 年代。当时数据管理广泛采用 计算机来完成,传统的文件系统已经不能满足当时人们日益增长的、复杂的数据 管理需求。能够统一管理和共享数据的数据库管理系统( d b m s :d a t a b a s em a n a g e s y s t e m ) 应运而生。到了1 9 7 0 年,i b m 研究实验室的e f c o d d 发表了一篇关于关 系数据模型的论文。这篇论文里解决了以前d b m s 所用技术和方法的不足瞄】。从 那以后,关系数据库开始了迅猛的发展。 数据模型是数据库系统的核心和基础,。各种d b m s 软件都是基于某种数据模 型的。按照数据模型的特点将传统数据库系统分类有这么三类:网状数据库、层 第6 页 国防科学技术大学研究生院工学硕士学位论文 次数据库和关系数据库。网状数据库和层次数据库比较好地解决了数据的集中和 共享问题,但是在数据独立性和抽象级别上存在比较大的欠缺。用户在对这两种 数据库进行存取时,需要明确数据的存储结构,指出存取路径。而关系数据库不 仅在数据集中和共享上给出了很好的方案,也较好地解决了网状数据库和层次数 据库在数据独立性和抽象级别的问题。 随着信息技术和市场的发展,产生了诸如w e b 数据,x m l 数据等新型数据形 式,虽然关系数据库能很好的处理“表格型数据”,但却对越来越多的复杂类型的 数据无能为力。因此,上世纪九十年代以后,人们一直在研究和寻求新型数据库 系统。受当时学术风潮的影响,在相当一段时间内,人们把大量的精力花在研究“面 向对象的数据库系统( o b j e c t o r i e n t e dd a t a b a s e ) ”或简称“0 0 数据库系统”。但是, 面向对象数据库的发展并不理想。理论上的完美性并没有带来市场的热烈反应。 伴随基于p c 的客户朋艮务器计算模式和企业软件包的广泛采用,数据管理的 变革基本完成。数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各 种管理方式。互联网的高速发展以及x m l 语言的出现,给数据库系统的发展开辟 了一片新的天地。九十年代末,第一个“原生x m l 数据库系统( n a t i v ex m l d a t a b a s e s y s t e m ) ,- _ t 锄i n o 在德国问世,标志着数据库系统进入了一个新的发展时期。随 后,一些大型数据库系统生产厂家,如:甲骨文、微软等纷纷宣布要发展支持x m l 的数据库产品。追踪数据库的发展趋势,可以发现,除了半结构化的原生x m l 数 据库,数据库技术还在向以下几个方向发展【2 4 1 ,并有望取得新的更大的突破:信 息集成、数据流管理、网格数据管理、d b m s 自适应管理、移动数据管理、微小 型数据库。 2 2 2 数据库与数据集成的关系 数据库可以说是数据集成技术发展的基石。数据集成这个概念最开始提出时 主要也是针对数据库系统。人们在数据库上的数据集成做了很多探索,并取得了 丰硕的成果。数据库上的数据集成需求来由很简单,在复杂的应用环境中,特别 是大型企业里,由于生产自动化进程的阶段性,一般都存在基于多种数据库管理 系统( d b m s ) 的应用程序系统,如基于m i c r o s o f ta c c e s s 的底层生产过程控制系 统、基于o r a c l e 或者s q ls e r v e r 的高层企业资源计划系统( e r p ) 等等,这些系 统的数据库一般都只在本系统内部存取,而不能被其他系统访问。这种状况导致 企业不同层次信息孤岛的出现,严重影响信息传递、加大了信息维护的成本。 这些现存的数据库系统的异构主要体现在以下几个层次:( 1 ) 操作系统的异构 与网络平台的异构;( 2 ) 数据模型的异构,查询语言的异构,事务管理、并发控制 机制的异构和查询优化方法的异构等;( 3 ) 模式冲突,数据库和运行方法的异构; 第7 页 国防科学技术大学研究生院工学硕士学位论文 ( 4 ) 数据库系统的开发使用的编程语言以及运行环境的不同。在数据库上的数据集 成主要任务是把多个数据库系统集成为一个多源异构数据库系统。 所集成的多源异构数据库系统是相关的多个数据库系统的集合,应该实现数 据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存 在,拥有自己的d b m s 。异构数据库的各个组成部分具有自身的自治性,实现数 据共享的同时,每个数据库系统仍保有自己的应用特性、完整性控制和安全性控 制。所采用的集成方法根据不同的应用有多种,最常见的异构数据库集成方式就 是:1 、中介层方式:中介层提供一个应用程序负责专用的数据转化与共享访问; 2 、数据仓库 2 5 j 方式:数据仓库方式将各分布场地的数据提取到中心数据仓库中。 2 2 3g l o b u s 与o g s a d a i g l o b u s 项目是美国多个组织共同对计算网格的构建进行的研究。从1 9 9 7 年 发行的g t 2 ( g l o b u st o o l k i t2 ) 开始,g l o b u s 被视为计算网格技术的典型代表和事 实上的规范。总的来说,g l o b u st o o l k i t 是网格的中间件平台,提供了一整套完整 的w e b 服务接口,g l o b u s 本身可以看作是提供了一整套安全机制的w e b 服务的容 器。图是o l o b u s 联盟于2 0 0 5 年4 月底发布的g t 4 0 的组件构成内容,新版本 的w e b 服务组件将基于w s r f ( w e bs e r v i c e sr e s o u r c ef r a m e w o r k ) , 且完全兼容 w e b 服务标准;非w e b 服务组件也将服从各种标准规范,强调质量、鲁棒性、 易用性及文档完备性阴。 p y t h o nw s c a sd i 塔 核心 jl 代理服务o g s a d a ic s fc w s 核心 w s w s 基件 w s a ar f tm d s 4j a v ac o r e g r a m p r e w s p 托j w $ a ag t i d l 叮pm d s 2 c 公共库 g r a m非w :;组件 证书管理 i u ,so r l奎竺l 兰兰竺兰i 垫竺竺兰l 竺皇竺苎i 竺苎竺兰l 图2 1g l o b u s 组件图 从图2 1 可以看出,在g l o b u s 里,数据的管理是很大的一块,其组件包括: g r i d f t p 、r f t ( r e l i a b l ef i l et r a n s f e r ) 、r l s ( r e p l i c al o c a t i o ns e r v i c e ) 和d r s ( d a t ar e p l i c a t i o ns e r v i c e ) 、o g s a d a i 等。数据的管理在网格体系构架中具有 相当重要的地位,特别是在网格环境下数据的传输是至关重要,数据以高效、可 第8 页 国防科学技术大学研究生院工学硕士学位论文 靠、方便地迁移和复制关系到整个系统的效率。在第5 章里,即基于g l o b u s 提供 的数据服务r f t 、r l s 、g r i d f t p 整合了一个数据服务d s p ( d a t as e r v i c ep r o v i d e r ) 。 o g s a - d a i 是一个中间件软件,它的目标是提供一种简便的方法,在网格环 境下实现数据的访问和集成。在数据访问方面,o g s a d a l 支持关系数据库、x m l 数据库、文件系统。在数据的集成方面,o g s a d a i 在不同的层次上提供了各种 接口,并最终以w e b 服务的方式集成其制下的数据资源。o g s a d a i 提供了对开 发人员非常友好的开发环境,利用o g s a d a i 可以很容易的开发出基于s o a 架构 的数据集成和访问的w e b 服务。 2 3 传统的数据集成方法 2 3 1 数据集成的方法 1 1 模式集成法 模式集成是人们最早采用的数据集成方法 2 7 1 2 8 1 。其基本思想是,把各数据源 的数据视图集成为一个全局模式,使用户能够按照全局模式透明地访问各数据源 的数据 2 9 1 。用户在访问数据资源时与全局模式打交道,就好像是在操作一个数据 源一样。而在计算机内部,则由数据集成系统处理这些请求,完成访问请求转换, 使得在各个数据源的本地数据视图上能够执行。用户使用的全局模式实际上并不 存在,因此也有人把模式集成方法称作虚拟视图集成方法【3 0 1 。 为了达成模式集成的目标,要解决两个基本问题【3 l 】:构建全局模式;查询请求 转换。构建全局模式的方法有两种1 2 9 】:全局视图法( g l o b a l a s v i e w ,也有称作 g l o b a l c e n t r i c ) 和局部视图法( l o c a l a s - v i e w ,也有称作s o u r c e e e n t r i e ) 。文【3 2 】对这 两种方法做了详细的对比,它们在映射策略上完全不同。全局视图法【3 3 l 中的全局 模式采取的策略是将数据源数据视图与一系列元素形成一一映射关系,不同的元 素表示不同数据源的数据结构和操作;局部视图法1 3 4 】则先构建全局模式,然后由 全局模式按一定的规则推理得到各个数据源的数据视图。 另一方面,在全局模式基础上查询请求需要被映射成各个数据源能够执行的查 询请求【2 9 1 1 3 2 】【3 5 】。其转换过程跟所采用的全局模式构建方法相关。基于局部视图法 的查询转换1 3 2 】【3 5 】比较复杂,而在基于全局视图法的构建里则相对简单口9 】。 总的来说,目前基于模式集成的数据集成方法主要有两种:联邦数据库和中间 件集成方法。下面分别对两种方法做相应的介绍。 1 1 1 联邦数据库 联邦数据库是由参与联邦的各自治数据库系统组成。它是数据集成研究早期 人们普遍采用的一种模式集成方法【3 6 l 。联邦数据库中数据源之间把自身的一部分 第9 页 国防科学技术大学研究生院工学硕士学位论文 数据模式拿出来共享,形成一个联邦模式。通过模式翻译与联合实现在各信息源 之间按对等方式( p e e r t op e e r ) 进行无缝互访。 图2 2 联邦数据厍集成法 而根据其模式的共享程度,联邦数据库系统又可分为两类【3 0 】:紧密耦合联邦 数据库系统、松散耦合联邦数据库系统。紧密耦合联邦数据库系统将各数据源的 数据模式映射成一个全局数据模式,屏蔽了数据源间的异构性。这种方法集成度 较高,方便使用;但是缺点也是很明显的,构建一个全局数据模式的算法复杂, 而且整个系统扩展性较差。松散耦合联邦数据库系统则没有统一的全局数据模式。 这种方法提供统一的查询语言,将很多异构性问题交由用户处理。松散耦合方法 对数据的集成度不高,但其数据源的自治性强、动态性能好,但是在使用上没有 紧密耦合方法简便。 1 1 2 中间件集成方法 岂 包装器 结果ii用户蠢询 结果 达 包装器 查询上丫结果 结果 上t 查询 图2 3 中间件集成法 中间件集成方法是另一种典型的模式集成方法,它使用全局数据模式,通过 提供所有异构数据源的虚拟视图来集成它们。g w i e d e r h o l d 最早给出了基于中间 件的集成方法的构架【3 7 j 。与联邦数据库相比,中间件集成方法的数据集成功能大 大增强,不仅能够集成关系数据库这种结构化的数据源,还能集成半结构化或非 结构化数据源。斯坦福大学开发的t s i m m i s 系统【3 8 】,就是一个典型的中间件集成 系统。 如图2 3 所示,中间件的数据集成系统通常主要包括中间件和包装器,其中每 第1 0 页 泰 国防科学技术大学研究生院工学硕士学位论文 个数据源之上都有一个包装器,中间件通过包装器和各个数据源交互。中间件在 处理用户请求的时候,将其转换成基于各个包装器的查询请求,通过查询处理的 并发性,对查询请求有很大优化,减少响应时间。在包装器一层,对特定数据源 进行封装,完成数据模型转换,在此基础上一致的访问视图和机制。 1 2 数据复制方法 在维护数据源整体上的数据一致性前提下,数据复制方法【3 9 】将各个数据源的 数据复制到其它数据源上,减小请求响应时间,提高了共享效率,从而提升数据 集成系统的性能。 数据仓库方法m 就是一种典型的数据复制集成法。它把各个数据源的数据复 制到同一处被称为数据仓库的地方,这就减免了查询的网络开销。依据数据传输 方式和数据复制触发方式的不同,数据复制方法又可分为多种。 图2 4 数据复制集成法 数据传输方式是指数据的源点与数据的副本点之间的数据传输形式。常用到 的传输形式有两种:数据推送和数据拉取。数据推送是指数据源点主动发出复制 请求,将数据推送到数据副本点上。而数据拉取则是数据副本点主动向数据源点 发出数据请求,从数据源点获取数据到本地。在特殊情况下,数据源点传出的数 据需要先经过副本点的本地化处理,这时通常采用缓存机制来协调数据源点和数 据与数据副本点异步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论