(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于全局数据库的科学数据共享平台的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息t 稗大学硕十学 奇论文 中文摘要 科学研究工作的开展极大地依赖于相关的数据分析。作为一种宝贵的资源,科学数据 在推动定量化研究和模式研究,认识复杂的系统,推动社会经济进步,协调科研机构的关 系等方面具有重要作用。科学数据共享己在科学界达成共识,这是本项目研究的原因。 在研究分析了各种科学数据共享工程的方案之后,针对郑州市的实际情况提出了一种 适合于科学数据共享的全局数据库模型,把多个异构的、分布的科学数据库构建为一个在 物理上分布、逻辑上统一的全局数据库系统,重构了一种适合科学数据共享的全局数掘库 的模型结构,并结合关系数据库理论定义了它的四级模式结构和三级映象功能。科学数据 生产者可以方便地、自主地、可控制地、有偿地、安全地共享自己的部分或全部数据;数 据消费者登录郑卅i 市科技局的门户网站,使用一站式的数据查询服务。 本文着重论述了全局数据库概念模式实现局部数据库共享资源在局部数据库外模式 和全局数据库概念模式之间相互映射的两个阶段。对于局部数据库外模式到全局数据库概 念模式的映射阶段,首先确定了局部数据库的共享资源,接着构造了局部数据库外模式到 全局数据库概念模式的映射函数。对于全局数据库概念模式到局部数据库外模式的映射阶 段,其实质是数据查询,将其划分为单库单表问题和多库多表两个问题。对单库单表问题, 转化为单点全局视图查询,给出了它的查询算法和查询流程。对多库多表问题,转化为多 点全局视图查询,给出了其查询策略的分析及优化,查询流程,异构数据格式统一的处理 方法,不同结点的数据集的同步机制和合成处理策略。 关键词:全局数据库;元数据;全局数据库概念模式;算法;优化;同步; 第1 页 信息t 稃大学硕十学何论文 a b s t r a c t t h er e s e a r c hd e v e l o p m e n tr e l i e so ne n o r m o u s l yt h er e l a t e dd a t aa n a l y s i s :a so n ep r e c i o u s r e s o u r c e s ,t h es c i e n t i f i cd a t ah a v et h ev i t a lr o l ei ni m p e l l i n gt h eq u a n t i t a t i v er e s e a r c ha n dt h e p a t t e r nr e s e a r c h , k n e wt h ec o m p l e xs y s t e m ,i m p e l l i n gt h es o c i a le c o n o m yt ob ep r o g r e s s i v e , c o o r d i n a t i n gt h er e l a t i o n so fs c i e n t i f i cr e s e a r c hi n s t i t u t i o n s c i e n t i f i cd a t as h a r i n ga c h i e v e dt h e m u t u a lr e c o g n i t i o ni nt h es c i e n t i f i cc i r c l e t h i si sr e a s o no f t h i sp r o j e c tr e s e a r c h a f t e rr e s e a r c h i n ga n da n a l y z i n gt h ep l a no fe a c hs c i e n t i f i cd a t as h a r i n gp r o j e c t ,t h i sa r t i c l e p r o p o s e do n el 【i n dt h eg l o b a ld a t a b a s em o d e lw h i c hi sf i tf o rt h ez h e n g z h o us c i e n t i f i cd a t a s h a r i n gb a s e do nt h ea c t u a ls i t u a t i o no f z h e n g z h o u i tm a k e sm a n yh e t e r o g e n e o u sd a t a b a s e sa n d d i s t r i b u t i o ns c i e n t i f i cd a t a b a s et ob ea d i s t r i b u t i n gg l o b a ld a t a b a s es y s t e m ,w h i c hi sd i s t r i b u t e di n t h ep h y s i c sa n di su n i f i e si nt h el o g i c i th a sd e f i n e di t sf o u rl e v e l so f p a t t e r n ss t r u c t u r ea n dt h r e e l e v e l so fr e f l e c t i o n sf u n c t i o n sb a s e do nr e l a t i o nd a t a b a s et h e o r y t h es c i e n t i f i cd a t ap r o d u c e r c o n t r o lc o n v e n i e n t l y , i n d e p e n d e n t l y , p a i d , s a f e l ys h a r e so w n p a r t i a lo rt h ec o m p l e t ed a t a t h e d a t ac o n s u m e rl a n d st h ew e b s i t eo fz h e n g z h o us c i e n c ea n dt e c h n o l o g yb u r e a u ,a n dc a nu s e ”o n e s t o p ”w o r ks t y l eo f d a t ai n q u i r ys e r v i c e t h i sa r t i c l ee m p h a t i c a l l ye l a b o r a t e dt w os t a g e st h a tt h ec o n c e p tp a t t e r no ft h eg l o b a l d a t a b a s er e a l i z e sl o c a ld a t a b a s es h a r e dr e s o u r c e ,w h i c hm a p sm u t u a l l yi nt h ee x t e r i o rp a t t e mo f l o c a ld a t a b a s ea n dt h ec o n c e p tp a t t e r no ft h eg l o b a ld a t a b a s e r e g a r d i n gf i r s ts t a g e ,i th a sf i r s t d e t e r m i n e dt h es h a r e dr e s o u r c eo ft h el o c a ld a t a b a s e ,t h e nd e s i g nt h em a p p i n gf u n c t i o nw h i c hi s f r o mt h ee x t e r i o rp a t t e r no fl o c a ld a t a b a s et ot h ec o n c e p tp a t t e r no ft h eg l o b a ld a t a b a s e r e g a r d i n gs e c o n ds t a g e ,t h i se s s e n c eo ft h i ss t a g ei st h ed a t ai n q u i r y t h ea r t i c l ed i v i d e si ti n t o t w oq u e s t i o n so ft h eq u e s t i o no fo n ed a t a b a s ea n do n et a b l ea n dt h eq u e s t i o no ft h e m u l t i d a t a b a s e sa n dm u l t i t a b l e s t of i r s tq u e s t i o n ,i tt r a n s f o r m st h i sq u e s t i o na st h ei n q u i r yo f s i n g l e - p o i n tv i e wo ft h eg l o b a ld a t a b a s e ,h a sd e s i g n e di t sa l g o r i t h mo fi n q u i r ya n dt h ef l o wo f i n q u i r y t os e c o n dq u e s t i o n , i tt r a n s f o r m st h i sq u e s t i o na sm u l t i - v i e wi n q u i r yo ft h eg l o b a l d a t a b a s e ,h a sd e s i g n e di t ss t r a t e g ya n a l y s i sa n dt h eo p t i m i z a t i o no fi n q u i r y , t h ef l o wo fi n q u i r y , t h ep r o c e s s i n gm e t h o do f u n i f i c a t i o no f h e t e r o g e n e o u sd a t af o r m a t ,t h es y n c h r o n i z e dm e c h a n i s m a n ds y n t h e s i sp r o c e s s i n go f d i f f e r e n tp o i n to f d a t a b a s e s k e yw o r d s :t h eg l o b a ld a t a b a s e ;m e t a d a t a ;c o n c e p tp a t t e r no f t h eg l o b a ld a t a b a s e ;a l g o r i t h m ; o p t i m i z a t i o n ;s y n c h r o n i z a t i o n ; 第1 i 页 论文原创性声明和使用授权 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了本文中特别加以标注和致谢中所罗列 的内容外,论文中不包含其它人已经发表或撰写过的研究成果;也不包 含为获得信息工程大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确 的说明并表示了谢意。 本人完全了解信息工程大学电子技术学院有关保留和使用学位论 文的规定,即:学院有权保留论文的复印件,允许查阅和借阅论文;可 以公布论文的全部或部分内容;可以采用影印、缩印或其它手段保存论 文。涉密论文按保密规定执行。本论文取得的研究成果归学院所有,学 院对该研究成果享有处置权。 槲名孝仙m - 箬 日期:2 口衫 导师签名名的弛 日蛾一。 6 笪:垦二翌查主堡兰笪笙兰 第一章引言 1 1 课题来源及意义 本课题是结合信息工程大学电子技术学院的项目而设定的。项目的执行单位是信息工 程大学河南省电子商务工程研究中心,本人参与了此项目的研究、设计与实现。本项目是 郑州市科学数据共享工程的一个重要构成部分。 科学研究工作的开展极大地依赖于相关数据的分析,科学数据共享已经在科学界达成 共识。科学数据具有涉及面广、来源和类型复杂、数据量大、数据获取困难等基本特点, 作为一种宝贵的资源,科学数据在推动定量化研究和模式研究,认识复杂的系统,推动社 会经济进步,协调科研机构的关系等方面具有重要作用1 4 1 。国际上许多国家己相继实施了 科学数据共享工程并颁布了相关法规。美国早在2 0 世纪8 0 年代初期就开展了共享科学数 据对科学进步和社会效益的重大意义方面的研究,有着大量的系统性研究著述,欧洲主要 国家近年来也日益重视科学数据共享政策的制订工作,欧美国家对科学数据的开放政策基 本形成共识,已经或正在建设共享科学数据的制度性国家数据政策环境【7 】。我国科学家很 早就注意到科学数据不能共享给我国科学发展造成的损失,并一致认为在我国实施科学数 据共享,增强我国科技创新能力,是一项功在当代、利在千秋的大工程。 所以,郑州市科技局经过调研、规划、论证,确立了首批建库名单,主要包括科技资 源库、地质科学数据库、地震信息数据库、农业科学数据库、植物数据库、气象数据库、 经济作物数据库、医学科学数据库和其他共8 大类、6 6 个专题数据库,预计总容量可达 2 0 0 0 g b ,以后递增。为增强郑卅i 市科技创新能力和科技竞争能力,需要建立科学数据共享 平台。 1 2 研究现况及存在的问题 目前,我国科学数据资源十分丰富,基本上构成了海量数据库的大致轮廓,形成了以 部门为主体,科研院所和大学互补的科学数据采集、处理、管理和使用,但局限性较强的 工作格局。这些数据信息,均为多源、异构的数据资源系统,各个单位对数据的独占性比 较严重,绝大部分没有实行统一标准的数据化改造,尚未形成综合集成的共享系统【2 】。 近2 0 年,我国的信息化进程累计投入3 0 0 0 0 亿元,在基础设施、数据信息等方面已经 形成了非常雄厚的资源基础。但由于信息化比例失调,造成不同的技术标准、不同的应用 系统、不同的地域的分散态势,使科学数据资源成为信息孤岛。 第1 页 信息1 二稃大学硕十学位论文 为了解决科学数据的共享问题,最近几年,国家科技部实施了科学数据的共享工程, 构建了相应的科学数据共享平台,先后建立了一批国家及科学数据共享中心。建成规模不 等、质量各异的科学数据库5 0 0 0 - - 6 0 0 0 个,内容覆盖了科学技术的各个领域。与此同时, 我国的科技界和教育界也积极地对原有科学数据库系统进行改造,有部分数据库已经开展 了范围和程度不同的共享服务,以取得了部分成效f 4 】。 但是我国的科学数据共享状况也存在着一些问题: 缺乏有效的科学管理和协调机制; 科学数据共享的政策法规和标准化相对滞后; 在现行的利益驱动影响下,数据资源建设各自为政,共享性较差; 缺乏合适的共享技术平台; 缺乏元数据; 数据共享的服务体系和市场机制尚未形成; 缺乏科学数据的分级管理和用户的分类管理机制; 标准和规范化这一块没有相应的机制和体制作为数据共享的支撑和保障。 这些因素有政策因素、科技因素、经济因素、管理因素等。标准的缺乏,技术积累的 缺乏都制约着我国科学数据共享工程的健康发展。 1 3 论文研究内容 本文首先研究分析了国内外的科学数据共享工程的技术概况和郑州市科学数据共享 的实际情况,提出了一种适合于科学数据共享的全局数据库模型,基于这个全局数据库概 念模式构建了郑州市科学数据共享平台。本文的主要研究工作如下: 1 ) 研,冗分析j ,各柙科字数据共孚工栏的方粟,针对郑州市的实际情况提出了一种适合于 科学数据共享的全局数据库模型,把多个异构的、分布的科学数据库构建为一个在物 理上分布、逻辑上统一的全局数据库系统。科学数据生产者可以方便地、自主地、可 控制地、有偿地、安全地共享自己的部分或全部数据;数据消费者登录郑州科技局的 门户网站,使用一站式的数据查询服务。 2 ) 介绍了科学数据共享的相关概念,分析了郑州市的实际情况,提出用全局数据库解决 郑州市的科学数据共享问题,重构了一种适合科学数据共享的全局数据库的模型结构, 结合关系数据库理论定义了它的四级模式结构和三级映象功能。 3 ) 制定了科学数据库平台的设计目标。在给出的系统总体设计方案中,使用w e b 服务中 间层实现全局数据库概念模式,把各个局部数据库有机的整合在一起,利用元数据作 第2 页 信息t 稃大学硕十学位论文 为数据共享的媒介,实现局部数据库外模式到全局数据库概念模式的映射,体现了科 学数据的关联性、一致性和重叠性。 4 ) 着重论述了全局数据库概念模式实现局部数据库共享资源在局部数据库外模式和全局 数据库概念模式之问相互映射的两个阶段。对于局部数据库外模式到全局数据库概念 模式的映射阶段,首先确定了局部数据库的共享资源,接着构造了局部数据库外模式 到全局数据库概念模式的映射函数。对于全局数据库概念模式到局部数据库外模式的 映射阶段,其实质就是数据查询。将其分单库单表问题和多库多表两个问题。对单库 单表问题,转化为单点全局视图查询,给出了它的查询流程和查询算法。对多库多表 问题,转化为多点全局视图查询,给出了其查询策略的分析及优化,查询流程,异构 数据格式统一的处理方法,不同结点的数据集的同步机制和合成处理策略。 1 4 论文结构 本论文的其它组织结构如下: 第一章、引言。说明课题的来源及意义,概述了我国的科学数据共享现状,介绍了论 文的主要研究内容和组织结构。 第二章、相关概念及关键技术分析。本章主要阐述科学数据共享的相关概念,研究分 析了国内外科学数据共享工程的技术取向,根据郑州市科学数据共享工程的实际情况,提 出将全局数据库应用到科学数据共享平台的建设中,接下来,对全局数据库技术的进行了 深入的分析。最后,指出用全局数据库系统构建科学数据共享平台需要解决的几个问题。 第三章、科学数据共享平台的总体设计方案。确定了科学数据共享平台的总体功能设 计目标,给出了科学数据共享平台的体系结构,详细地描述了系统的架构。最后,明确的 指出我们的整个系统就是全局数据库系统,全局数据库概念模式就充当科学数据共享平 台。 第四章、全局数据库概念模式的分析。介绍了数据库系统的三级模式结构理论和数据 库系统的二级映象功能;根据关系数据库理论重构了全局数据库系统的四级模式结构和三 级映象功能;对新增加的全局数据库概念模式在科学数据共享工程中的作用进行深入的分 析,即实现局部数据库的共享资源从局部数据库的外模式到全局数据库概念模式的映射。 第五章、基于全局数据库的科学数据共享平台的几个典型问题分析。首先,论述把局 部数据库共享资源从局部数据库外模式到全局数据库概念模式的映射,先确定了局部数据 库的共享资源,再设计了对这些资源的映射函数;其次,对科学数据的查询问题进行了归 纳总结,将其归纳为两类:单库单表问题,多库多表问题。第三、对单库单表问题,通过 第3 页 信息t 稃大学硕十学何论文 其查询的过程描述和查询算法等方面来论述。第四、对多库多表问题,通过多点全局视图 解决多库多表的综合查询问题,接着论述了多点全局视图的查询及优化,分别包括:查询 流程描述、查询策略分析及优化、异构数据格式的处理、交换区合成管理和查询结果的显 示处理。 第六章、查询子系统的设计与实现。本章论述论述了信息资源目录和元数据检索在科 学数据共享平台的作用,给出了其生成算法,介绍了其使用方式。最后,描述了一次查询 过程。 第七章、结束语。文的工作进行了总结,说明了论文的创新点,指出了系统存在的不 足,明确了今后的研究方向。 第4 页 信息工稃大学硕十学 市论文 第二章相关概念及关键技术分析 2 1 相关概念 科学数据库数据是指有各类科技活动产生的原始性的、基础性的数据以及利用知识工 具对海量科学数据进行内深层加工的数据集合和相关信息,按照标准的格式数据库化,形 成的便于有效地利用的数据库信息资源。 科学数据具有涉及面广、来源和类型复杂、数据量大、数据获取困难等基本特点,作 为一种宝贵的资源,科学数据在推动定量化研究和模式研究,认识复杂的系统,推动社会 经济进步,协调科研机构的关系等方面具有重要作用。作为科学数据库中的数据是信息时 代最基本、最活跃、影响面最宽的科技资源,它通过计算机网络和软件技术成为信息,信 息经过加工处理转化为知识,所以具有明显的潜在价值和开发价值,并在应用的过程中增 值”。 科学数据共享主要包含五个基本因素:数据资源、组织管理、共享规则、共享技术和 发展需求,它们之间彼此关联和相互作用。 2 2 国内外有关研究 共享技术是在现代信息技术的支持下,整和分散的各类数据资源并实现规范化管理和 共享服务的技术支撑;它需要科学数据共享的标准体系;标准化是数据共享的前提。共享 系统的整体框架是利用网络构建物理上分布的、逻辑上统一的,以数据库为基础的科学数 据共享服务系统,通过统一管理、统一技术和统一的用户界面,将各个数据库及其服务系 统联结为整体体系,它是科学数据共享的核一5 , t ”。 目前,在实现科学数据资源的有效整合与共享的过程,采用的共享技术各有不同: ( 1 ) 采用w e bs e r v i c e s 技术和x m l 技术唧】。 系统通过对每一个科学资源数据分中心提供一个基于w e bs e r v i c e 的服务节点,通过 该节点提供的服务,通过x m l 格式的数据完成数据在异构系统的交换共享。该系统的一个 主要思想就是科学数据共享由科学数据中心和一组应用服务组合而成。 每一服务节点对外提供的服务描述都符合本系统制订的相应标准,系统为每一个服务 节点开发提供一套科学数据转换中间件,用于实现服务节点和本地数据库之间的数据转 换。 x m l 技术:实现各类信息在不同单位和不同应用系统之间交换;利用x m l 元数据标准 作为描述数据的资源的数据,实现不同计算机对同一数据的一致性处理。在促进科学数据 第5 页 信息t 稃大学硕十学付论文 共享中,它起到规范元数据、发布共享信息、促进管理的重要作用。再对x m l 文件的处理, 从而达到数据共享的目的 2 2 1 。 w e bs e r v i c e s 技术:利用w e bs e r v i c e s 技术,建立跨平台的网络资源数据的w e b 服 务节点,每个节点都是一个服务,这些服务发布一个a p i 供网络中的其他服务使用,并且 封装了实现细节。通过发布、共享及交互机制,实现科学数据资源的共享【2 0 】。 ( 2 ) 基于新一代互联网技术即网格技术的全新资源管理应用技术c n k i 网格资源共享 平台 t 2 1 c n k i 网格资源共享平台是由清华同方光盘股份有限公司和知识传播工程技术研究 院,在近十年大规模开发知识资源及其整合传播技术的基础上研制成功一种全新的资源管 理应用技术。它能有效地克服各种数据库之间自成体系、相对对立、只供单独使用的不足, 也能克服网上资源结构错综复杂、内容残缺或重复、功能参差不齐、难于驾驭、使用不便 的缺点。 c n 网格资源共享平台,是一个全面支持知识信息资源建设、共享、增值应用、增 值服务、运营管理以及网络出版的数字图书馆系统软件平台。它是各大图书馆、情报所、 教育城域网中心以及各大单位信息中心建立具备全球知识资源共享、个性化知识服务及网 络出版功能的数字图书馆、学习中心或资源信息中心必不可少的基础平台。 “网格”是构筑在互联网上的一组新型技术,它将高速互联网、高性能计算机、大型 数据库、传感器、远程设备等融为一体,为科技人员与普通用户提供更多的资源、功能和 交互性 1 2 1 。 网格要实现互联网上所有资源的全面连通,它把整个因特网整合成一台巨大的超级计 算机,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全面共享。 “嬲格资源”足指在地理上分布的和在互联网上,工筒地方按入的知识告患资源。“共享” 是指任何人通过互联网都可以随时随地获取( 免费下载或在线支付购买后即时下载) “网 格资源”中所需要的知识内容。 “平台”是实现“网格资源”共享的操作系统,它使分布在世界各地、各种结构的数 据库、网页及其他各种知识资源可以互相关联并且光滑无缝连接。用户不需要关心资源在 什么地方,通过平台统一的操作界面,就可以一站式检索到自己需要的内容,并且可以通 过平台构建的知识网络在“网格资源”中漫游,不断得到相关知识,发现新的知识。 ( 3 ) 基于元数据和y j v i l 技术数据共享方案。 以总中心一分中心的模式,采用元数据集中管理、数据体分散贮存的策略实现上述构 架。根掘数据共享需求分析,按“数据汇交一数据查询一数据浏览一数据下载”服务功能 和“数据存储一数据分类一数据审核一安全控制日志分析”管理功能,两条主线进行了 第6 页 信恩工稃大学硕十学付论文 系统功能的设计。提出了“模块一复合元素一数据元素”三层结构的科学数据核心元数 据框架【l ”。 ( 4 ) 通过数据降维降低数据库结构上的复杂性,以实现数据库之间方便灵活的数据共享。 各主题数据库结构的复杂性、以及共享数据指标变量之间广泛的相关性,是异构数据 库实现共享的重要障碍目前的许多研究是针对异构数据库结构复杂问题,提出实现一致 性访问的策略,但这些解决方案无法使系统达到良好的可扩展性文中提出了一种新的解 决方案,即发掘各主题数据库的结构共性,通过数据降维降低数据库结构上的复杂性,以 实现数据库之间方便灵活的数据共享,从而达到较好的可扩展性。主成分数据视图还较好 解决了共享数掘指标集之间存在的广泛的数据相关问题【l ”。 ( 5 ) 运用a g e n t 实现数据共享。利用a g e n t 及相关技术来实现企业数据的共享和交换, 保证数据的一致和完整,并能提高处理效率,增强了数据的正确性。在实现的过程中,充 分考虑到a g e n t 技术所包含的智能化的优点,结合信息处理技术尤其是现代数据库管理系 统所提供的强大的管理功能对协同工作中的数据共享和交流尽心了有效的设计和实现。克 服数据的不一致性和滞后性【1 ”。 以上几种技术方案都是针对各种情况下采用的科学数据共享工程中比较通用的方案。 第一种,不仅数据提供单位提供数据库服务,还需要提供w e b 服务;第二种的全新资源管 理应用技术c n k i 网格资源共享平台是一个数字图书馆系统软件平台,目前仅仅适合于图 书馆的图书资源共享;第三种、第四种、第五种都是具体情况具体分析,而且处于一种科 学研究阶段。 目前郑州市的实际情况:科学数据提供单位分布在许多的单位;单位的人员素质和计 算机系统的状况参差不齐;有些科学数据提供单位连数据服务都没有,就更别提w e b 服务; 有些单位仅有各式各样的数据库系统或e x c e l 格式的电子数据:缺乏专业的人员。 针对以上的几个问题,本文提出了一种适合科学数据共享的全局数据库模型,基于此 模型设计了科学数据共享平台。即所有参与共享的科学数据库通过科学数据共享平台( w e b 服务中间层) 有机整合在一起,形成一个分布式的全局数据库系统,科学数据库的用户用 w e b 浏览器作为全局数据库的客户端,通过i n t e r n e t 访问全局数据库服务器,为用户提供 一站式的查询服务和信息发布服务。服务器端接收到客户端的查询要求,通过科学数据共 享平台生成网页返回给用户。另外,科学数据共享平台提供信息资源目录导航、元数据查 询、数据查询、数据下载等功能,方便用户的操作,从而达到科学数据共享的目的。 基于全局数据库的科学数据共享平台的设计方案的优点: 对于各个科学数据资源提供者来讲,仅提供数据库服务,通过登录科学数据共享 平台的注册系统实施维护,操作起来也特别容易,对人员素质要求不高; 第7 页 信息t 稃大学硕+ 学付论文 基于b s 架构,接入方便; 数据集成简单,新的科学数据库加入共享实现方便; 数据拥有者对自身的数据有绝对的控制权,免去他们的后顾之忧; 数据分类、用户分级易于科学数据的商业化运作,提高数据拥有者的积极性; 技术实施难度不大。 2 3 全局数据库 2 3 1 定义 全局数据库系统是由多个异构的、自主的数据库为基础,按照一定的规则集成的一 个松散系统。这些局部数据库允许部分的、有控制的共享他们的数据,但是对本地数据库 具有高度的自治权,它们之间不能进行信息共享,不同的数据库问的信息共享只能通过协 调器来实现,它们没有集中的控制机制,各个局部数据库通过协作实现不同程度的集成。 2 3 2 特征 提起全局数据库系统,不可避免我们会联想到分布式数据库系统,下面阐述一下它们 之间的区别和联系。 1 1 全局数据库系统和分布数据库系统的区别和联系 全局数据库系统是对分布式数据库系统的继承和发展,二者既有相同之处又有区别。 分布式数据库系统和全局数据库系统的最根本的区别在于:分布式数据库系统拥有单一的 逻辑数据库,这个数据库在物理上可以分布,但是仅有一个数据库管理系统( d b m s ) 为 苴腽辞提供一种的查询和更新弘格地说。各个部分的子季统是同构的:而全局数据审 系统则是有多个异构的、自主的数据库系统为基础,可以是物理分布的,通过一定程度的 集成而构成的一个分布式的数据库系统。 2 1 三种特征 自主性 构成异构数据库系统的各个子系统具有各自的自主性,这些自主性体现在他们拥 有对自身系统资源的使用权利,包括设计、执行、修改等,同时它们具有和其他系统 交互的权利,包括加入、退出、通信、提供服务等。它们有权利接受外界的请求,也 有权力拒绝。在这些权利和义务之间应有一定的规则来约束。“1 分布性 全局数据库系统的各个组成部分是分布在不同的位置的各种数据库系统,系统通 第8 页 信息t 稃大学硕十学位论文 过i n t e r n e t 或专用的网络建立与各局部数据库的连接。系统的数据保存在各个数据库 系统中。亦即数据在物理上是分布的,逻辑上是互联的。 异构性 数据库管理系统( d b m s ) 的异构和语义异构。另外,数据库访问接口协议的不同。 2 3 3 全局数据库模型 为了解决科学数据共享问题,所需要的全局数据库模型负责在用户和异构的数据源之 间提供一个中间部,实现数据操作的地域透明性。目标是建立一个对用户而言是统一的、 一致的数据源。它对各个局部数据库而言是一对多的映射模型。其核心是建立全局数据字 典,它负责对全局数据库中所有的数据资源( 共享资源) 的定义及分布进行描述【2 】。 数据字典作为记录数据库中所有元数据的系统表,他向各种应用提供有用的信息,引 导它们向正确的方向运行,起着“指南针”的作用。它分为局部数据字典和全局数据字典。 其中局部数据字典用于记录一个服务站点中数据库的控制信息,如表的模式、视图的模式 即各个数据区的文件名称信息。全局数据字典用于记录分布式数据系统各个服务器站点上 有关全局的数据库的控制信息。如服务器的站点信息,各个服务器的全局表名称和表的内 码记录。各个服务器站点上的全局数据库表的名称和视图的名称、用户名称、口令记录、 用户权限记录等信息。各个局部数据字典可以不同,但是各个局部数据库的全局数据信息 是一致的,全局数据字典必须是一致。 旦k 固 : l 客 户 端 歹 1i 如何将科学数据共享的问题,科学数据的集成性、一致性、重叠性和关联性转 化为全局数据库的问题来处理,将在第五章论述; 2 4 本章小结 本章主要阐述科学数据共享的相关概念,研究分析了国内外科学数据共享工程的技术 取向,根据郑州市科学数据共享工程的实际情况,提出将全局数据库应用到科学数据共享 平台的建设中,接下来,对全弱数据库技术的进行了深入的分析。最后,指出用全局数据 库系统构建科学数据共享平台需要解决的几个问题。 第l o 页 信息工稃大学硕十学付论文 第三章科学数据共享平台的总体设计方案 上一章提出了用全局数据库系统解决科学数据共享问题,本章主要是依据科学数据 共享平台的设计目标给出它的总体设计方案。 3 1 总体设计目标 在现代计算机技术的支持下,构建物理上分布、逻辑上统一的,以科学数据库为基础 的科学数据共享服务系统,通过统一管理、统一的技术和统一的用户界面,将各个科学数 据库的共享资源连接起来整合为一个体系。使科学数据生产者方便地、自主地、可控制地、 有偿地、安全地共享自己的部分或全部数据;让数据消费者能够方便地检索对自己需要的 数据,进行科学生产活动;让数据生产者方便共享自己的资源和对数据的共享有可控性, 即方便实现不同粒度的共享。 科学数据库共享平台应具有的几个特征:方便科学数据库集成;实现科学数据的关联 性和重叠性;具有较好的商业运作性;方便系统的使用和维护;数据提供者掌握自身数据 的控制权。 方便科学数据库集成 科学数据共享是科学数据库的有机集成,但不是简单的数据库堆积。根据郑州市 科学数据共享工程的建设方案,专题数据库由数据采集单位负责建设。这样,首批数 据库建设涉及到郑州市2 2 个企事业单位的3 0 多个部门,各专题库科学数据涉及面宽 广,采用的数据规范五花八门,平台要有效地实现当前及以后建立的专题数据库的集 成。 实现科学数据的关联性和重叠性 科学数据有着很强的重叠性,对同一数据往往有多个部门或多个单位通过不同途 径采集。这样,在建立的科学数据库中必然存在数据的冲突和矛盾。如何实现去伪存 真,实现整个数据共享工程中数据的一致性。科学数据中的数据存在着时间、空间、 个体的关联性。例如描述一条河流,一般数据侧重于河流的流域面积,水流量,枯水 期等。而空间数据则侧重于河流的位置、长度、发源地等和空间位置有关的信息。复 杂一点的还要处理河流与流域内城市间的距离、方位等空间关系。而它们来自不同的 专题数据库,平台如何将来自不同专题数据库中的科学数据的关联性和重叠性,体现 出来。 具有较好的商业运作性 科学数据有价值性,科学数据要面向商业化运作的发展。因此设计的科学数据库 第1 1 页 信息t 稃大学硕士学俯论文 共享平台要为它们提供技术的支持和保证。科学数据按一定的衡量标准分等级,科学 数据使用用户也要分等级。要实现科学数掘分类,用户分级。 方便维护、易于用户操作。 科学数据来源于数据提供者,由于人员素质良莠不齐,因此,要方便他们的数据 共享。 局部数据库资源具有较好的可控性 即局部数据库资源的有限制的共享。通俗地讲就是,数据具有不同的共享粒度。 科学数据共享并不是完全意义的共享,而是指部分的、可控制的、分等级的共享。各 个单位或部门由于其本身特殊的业务信息是其商业秘密,禁止公开也不需要公开。所 以,科学数据共享平台应该具有对数据资源可控性,这主要由全局数据库概念模式的 注册子系统来保证。 3 2 系统结构 全局数据库是由多个自主的、异构的、分布式的数据库系统,通过协调建立一个松散 的数据库系统。科学数据共享平台就是要在多个异构的、分布的科学数据库之间实现科学 数据共享。这就需要在多个科学数据库基础上建立一个多个数据库系统交互的通信平台, 用户只有通过这个平台才能同时对多个异构的数据库系统进行透明地访问。 窭蜀 錾据碉 一一 i 数据黪 卜 数据使用j 一 数 w e b l o g i c 露蜀 据 一访 s e v e rn 户 图3 - 1 系统结构示意图 第1 2 页 信息t 稃大学硕七学何论文 本文就是在多个异构的科学数据库和数据使用者之间,通过一个w e b 服务中间层旺l 作为数据源和用户之间的通信平台。局部数据库管理员把本数据库的共享资源信息映射到 w e b 服务中间层数据库中,构成全局数据库的全局数据字典,作为构成科学数据共享平台 的目录服务和数据资源定位的依据。数据使用者通过i n t e r n e t 登录科学数据共享平台,使 用信息资源目录服务和元数据检索功能,以w e b 形式提交自己的查询要求,系统能够根据 用户提交的查询要求从各个局部数据库中获得所需数据,并且以w e b 页形式返回给用户浏 览器,从而满足用户的查询要求。 3 3 应用体系架构 根据科学数据共享平台的设计目标、使用方式和体系结构,确定在数据科学数据共享 平台中采用分布式多层应用体系结构。 3 3 1 应用体系结构图 表示层功能屡廊用服并层 数据服务层 一灞丽l 骥w 一溺 黢l 强虢撼麟轴强黼鞫麟薹灞霹搭“湖 一、 用户登录用户认证数据库访问接口 、, 共享数据库 数据库选择查询策略优化分析 数据交换接口 、 查询策略定制优化策略执行互斥、同步机制 ,、 、一一 交换区 查询结果显示查询结果处理交换区( 缓冲区) 处理 、 一 芏局裂砰庠穰怎俱瓦 7 客户端全局数据库服务器 图3 - 2 应用体系结构 系统采用j 2 e e 架构,包括表示层、功能层、应用服务层和数据服务层等四个层面: ( 1 ) 、表示层:就是w e b 浏览器,是人机交互的界面,它位于数据共享平台的客户端, 也是全局数据库系统的客户端,含有系统的显示逻辑,负责接受用户需求。服务器对用户 第1 3 页 信息t 稃大学硕十学位论文 身份进行验证后,向w e b 服务器提出服务请求,通过h t t p 协议把信息传送给客户机,客 户机接收服务器端反应的内容后把它显示在w e b 浏览器上,供用户查看。 表示层仅仅是人机交互的界面,许多复杂的表示逻辑隐藏在简单的用户界面下。表示 层主要包括以下内容: 用户登录 用户在查询页面上输入用户名和密码,提交程序将该信息提交到服务器,服务器 根据用户标识、密码或p 地址进行合法性确认; 数据库选择 用户可以选择对单个数据库查询,也允许用户以复选方式选择多个数据库; 查询策略定制 用户可以指定专业、查询分类、主题词、分类号、年代、数据来源等多种组合查 询项进行查询,经系统合成后是一组动态形成的s q l 语句; 查询结果显示 将服务器返回的检索结果显示给用户。 ( 2 ) 、功能层:功能层是具有应用程序扩展功能的w e b 服务器层,其中包含系统功能 处理逻辑,位于w e b 服务器端,同时它也是全局数据库的服务器。它的任务是接受用户的 请求,以特定的方式向应用服务器提出数据处理申请,通过执行相应的扩展应用程序与应 用服务层进行联接,当得到应用服务器返回的处理结果后提交给w e b 服务器,再由w e b 服务器传送回客户端。功能层主要包括以下内容: 用户认证 在功能层由w e b 服务器及其控制下的数个模块和控制机构组模块通过用户认证标 识或用户口进彳亍辨认,经确认为合法用户后允许边彳亍下面操作。 查询策略优化分析 接收到用户输入的查询策略后,由查询策略分析模块对用户输入的查询策略进行 分析,确定是单个数据库的查询或者是多个数据库的查询。如果是单数据库的查询, 直接形成查询指令,并且传递给查询策略优化模块;如果是针对多数据库的查询,还 要对动态的s q l 语句按照一定的规则进行拆分,然后形成的多个子查询指令和一个 合成语句,并且使得这些查询指令局部数据库的外模式能够识别。进行拆分的同时, 要对查询指令进行优化。最后将查询指令交给优化查询策略执行模块处理; 第1 4 页 信息t 稃大学硕七学付论文 单数据库 + 查 查查查 询询 查询询 m i 击入-策 策询 策 策。* - 略略 弋厂 略略指 分拆优令执 析分化行 图3 - 3 查询策略优化分析流程 优化查询策略执行 检索策略执行模块把单个或多个优化的查询指令传送到应用服务层,应用服务层 利用数据库访问接口协议进行多数据库查询; 查询结果处理 查询结果处理由查询结果处理模块完成,将应用服务层传回的单个或多个数据库 查询结果先收集起来,并且将检索结果按一定的方式处理后交给表示层的查询结果显 示模块,呈现给用户。 ( 3 ) 、应用服务层:应用服务层中包含复杂的事务处理逻辑,主要由中间件构成。中间 件是位于上层应用和下层服务之间的一个软件层,提供更简单、可靠的服务,是实现异构 数据库查询的关键技术支撑。它能够使应用软件相对独立于计算机硬件和操作系统平台, 把分散的异构数据库系统有机地组合在一起。为应用软件系统的集成提供技术基础,中间 件具有标准程序接口和协议,可以实现不同硬件和操作系统平台上的数据共享和应用操 作。而在具体实现上,中间件是一个用a p i 定义的分布式软件管理框架,具有潜在的通信 能力和良好的可扩展性能】。 先把合成语句储存起来,然后利用子查询从各个异构数据库系统提取x m l 格式数据, 如果不支持x m l 格式数据,经过数据交换接口转化为x m l 格式数据。然后,把数据放入 交换区,等待所有的子查询的结果到达,在交换区由关系操作合成模块利用合成语句对所 有的子查询结果进行关系操作,形成数据块。最后把数据块返回给查询结果处理模块,对 数据块进一步的处理。 应用服务层主要包括以下内容: 第1 5 页 生:垦三翌查主堡兰生丝苎 图3 - 4 应用服务层结构图 关系操作合成 关系操作合成主要有关系操作合成模块完成,当查询指令由功能层传递给数据库 访问接口模块的同时,拆分出的另一条合成语句传递给了关系操作合成模块,等交换 的数据准备结束后,对数据集进行关系操作; 数据库访问接口协议 查询指令根据所选的数据库类型,选用合适的数据库访问接口协议,把s q l 语 句导入对应的数据库: 数据交换接口 数据接口包括x m l 定义库、x m l 生成器、标准的x m l 接口数据、x m l 解释器,具 体负责与异构数据库、平台数据交换区以及通过业务系统数据交换接口的数据传输。 数据库导出的数据集经过x m l 生成器,全部成为x m l 格式的数据暂时放入交换区,关 系操作合成模块等所需要的全部数据集都存放入交换区后对它们进行合成,仅能标准 的x m l 的数据接口导出,再经x m l 揭示器解释,在把数据返回给功能层的查询结果处 理模块。 交换区处理 交换区是数据交换过程中需要临时存放数据的地方。交换处理由交换处理模块完 成,主要负责交换区的数据管理。 ( 4 ) 、数据服务层:即数据库服务器层,其中包含系统的数据处理逻辑,位于不同的操 作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论