(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)科学文本数据建模及转换技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文摘要 科学文本数据建模及转换技术的研究与实现 摘要 科学数据是科学研究的基础,随着测量技术的发展,在现代科学几乎所有的学科罩, 数掘量每年都在成倍地增长。m a f l a b 、m a t h e m a t i c a 以及e x c e l 等流行的桌面数据分析工 具难以处理数以千万计的数据,学术界迫切需要处理科学数据的新方法。 科学文本数据是科学数据的一种重要保存格式。关系数据库技术避免了传统的以文 件方式保存科学文本数据所具有的数据意义不明确、管理难度大、查询代价大、开发工 具少等明显缺点,为科学文本数据提供了优秀的应用平台。最近一段时期,大量科学文 本数据被导入到关系数据库中进行研究,同时,数据也不断地从数据库中导出以满足发 布、共享和交换的需求。因此,如何提供一种描述科学文本数据的形式化模型,以及设 计一种科学文本数据和关系数据库数据高效相瓦转换的系统成为计算机专家和自然科 学家共同关注的问题。 传统的数据转换技术大多缺乏对转换模型的统一定义,要么需要中问临时数据,要 么只能采用依赖于数据库的商业产品,要么只能运行在c s 方式下。鉴于以上原因,本 文提出了”一种基于映射模型的科学文本数据与关系数据库数据转换新方法。首先,本文 分析了科学文本数据的结构特点,将其与其它类型的数据进行对比,然后提出了科学文 本数据模型的形式化表达方法,并建立了科学文本数据同关系数据库数据之间的映射模 型s t r i p e 。然后,结合海洋文本数据的特点,给出s t r i p e 模型在海洋数据环境中的 实现过程。基于s t r i p e 映射模型,本文设计了w e b 环境下海洋文本数据转换系统的框 架结构,阐述了实现过程中若干问题的处理方法,并介绍了分布式环境下基丁二转换系统 的科学数据共享解决方案。 s t r i p e 模型定义了科学文本数据和关系数据库数据的映射模型。基于s t r i p e 的 数掘转换系统,利用统一的模型描述两种数据之f 叫的关系,避免了中间临时数据的产生, 并可以方便地嵌入到b s 结构的w e b 系统中。同时,基于s t r i p e 映射模型的转换技术 为在分布式w e b 环境f 发布、共享、交换科学数据提供了一种高效、安全的新方法。 关键字:科学文本数据:海洋数据;数据建模;映射技术;转换系统 一i i 东北大学硕士学位论文 a b s l r a c t s t u d ya n di m p l e m e n t a t i o no fm o d e l i n ga n dt r a n s f o r m i n g s c i e n t i f i et b x td a t a a b s t r a c t s c i e n t i f i cd a t ai st h eb a s i so fs c i e n c er e s e a r c h ,w i t ht h ed e v e l o p m e n to fm e a s u r e m e n t t e c h n o l o g y , t h ev o l u m eo fd a t ah a sd o u b l e di na l m o s ta l lm o d e r ns c i e n t i f i cf i e l d s a tt h es a m e t i m e ,s o m ep o p u l a rd e s k t o pd a t aa n a l y s i st o o l s ,s u c ha sm a t l a b ,m a t h e m a t i c a e x c e la n ds o f o r t h ,c a l ln o th a n d l eh u n d r e d so fm i l l i o n so fd a t a t h e r e f o r e ,s o m en e w e rm e t h o d st od e a l w i t ht h es c i e n t i f i cd a t ai sr e q u i r e di m m i n e n t l y s c i e n t i f i ct e x td a t ai sa l li m p o r t a n tf o r m a to fs c i e n t i f i cd a t a t h e 仃a d i t i o n a lm e t h o d s p r e s e r v i n gs c i e n t i f i cd a t ai n f i l et y p eh a v es u c hs h o r t c o m i n g sa su n c l e a rd a t am e a n i n g , d i f f i c u l tm a n a g e m e n t ,l a r g eq u e r yc o s t ,l i t t l ed e v e l o p m e n tt o o l s r e l a t i o n a ld a t a b a s e t e c h n o l o g ya v o i d st h es h o r t c o m i n g sa n dp r o v i d e s a ne f f i c i e n ta p p l i c a t i o np l a t f o r mf o r s c i e n t i f i ct e x td a t a s o ,m o r ea n dm o r es c i e n t i f i ct e x td a t aa r et r a n s f o r m e di n t or e l a t i o n a l d a t a b a s e m e a n w h i l e t h ed a t ah a sb e e ne x p o r t e d 鼢t h ed a t a b a s et om e e tt h ed e m a n do f r e l e a s e , s h a r i n ga n de x c h a n g e t h e r e f o r e ,h o wt op r o v i d eam a p p i n gt e c h n o l o g yb e t w e e n s c i e n t i f i ct e x td a t am o d e la n dr e l a t i o n a lm o d e l ,a n dd e s i g nat r a n s f o r m a t i o ns y s t e mf o r s c i e n t i f i cd a t aa n dr e l a t i o n a ld a t a , b e c o m eac o m m o nc o n c e r nf o rb o t hc o m p u t e re x p e r t sa n d n a t u r a ls c i e n t i s t s t h et r a d i t i o n a lt r a n s f o r m a t i o nt e c h n o l o g yl a c k st h eu n i f o r md e f i n i t i o no ft r a n s f o r m a t i o n m o d e l s s o m et r a n s f o r m a t i o ns y s t e mm a yc r e a t et e m p o r a r yd a t ao rd e p e n do nc o m m e r c i a l d a t a b a s ep r o d u c t ,a n do t h e r sc a no n l yr u ni nc sm o d e g i v e nt h ea b o v ed r a w b a c k s ,a t r a n s f o r m a t i o nt e c h n o l o g yb e t w e e ns c i e n t i f i ct e x td a t aa n dr e l a t i o n a ld a t ab a s e do nm a p p i n g m o d e li sp r e s e n t e di nt h i st h e s i s a tf i r s t ,t h es t r u c t u r eo fs c i e n t i f i ct e x td a t ai sa n a l y z e da n d i t sf o r m a ld e f i n i t i o ni sg i v e n t h e nan o v e lm a p p i n gm o d e ls t r i p ei sp r o p o s e d ,w h i c h c o n v e r t sn o n s e l f - d e s c r i b i n gs e m i s t r u c t u r e ds c i e n t i f i ct e x td a t ai n t or e l a t i o n a ld a t a b a s e s ,a n d v i c ev e r s a h lp a r t i c u l a r , o n ee x a m p l eo ft h i sm a p p i n gm o d e li sd i s c u s s e du s i n gt h em a r i n e d a t a ,a n dat r a n s f o r m a t i o ns y s t e mb a s e do ns t r i p em a p p i n gm o d e li sd e s i g n e da n d i m p l e m e n t e d ,t h es o l u t i o nt os e v e r a lk e yi s s u e s i sp r e s e n t e da n dt h eu s a g eo fw e b b a s e d t r a n s f o r m a t i o ns y s t e mf o rd a t as h a r i n gi nd i s t r i b u t e dw e be n v i r o n m e n ti sd i s c u s s e d t h es t r i p eh a sw e l ld e f i n e dt h em a p p i n gm o d e lb e t w e e ns c i e n t i f i ct e x td a t aa n d r e l a t i o n a ld a t a t h es t r i p eb a s e dt r a n s f o r m a t i o ns y s t e mu s e su n i f o r mm o d e lt od e s c r i b et h e 。i i i 东北大学硕士学位论文 a b s t t a c t m a p p i n gr e l a t i o nb e t w e e nt h et w ok i n d so fd a t a i ta v o i d s t h ec r e a t i o no fr e d u n d a n c y t e m p o r a r yd a t aa n dc a l lb ee a s i l yp l u gi n t ob sw e bs y s t e m s m e a n w h i l e ,s t r i p eb a s e d t r a n s f o r m a t i o nt e c h n o l o g yp r o v i d e sa ne f f e c t i v en e wm e t h o df o rs c i e n t i f i cd a t ar e l e a s e ,s h a r e a n de x c h a n g ei nd i s t r i b u t e dw e be n v i r o n m e n t k e y w o r d :s c i e n t i f i cd a t a ;m a r i n e d a t a ;d a t am o d e l i n g ;m a p p i n gt e c h n o l o g y ; t r a n s f o r m a t i o ns y s t e m i v 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:码对 签字 日期: 2 棚1 l 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并岛国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名:,与畸 签字日期:硼1 导师签名: 签字日期: 亭戋1 7 川己- 彳 , 东北大学硕士学住论文 第一章引言 第一章引言 1 1 问题的提出 很久以来,科学家们就习惯于在实验室记录本中记录下实验数据和观察过程。以便 用它们分析实验结果。其他人也可以依据这些记录重复他们所做的实验,伽利略、曼德 尔、达尔文也都是如此。当记录的数据量不大,即时可以对数据进行计算的时候,这种 工作方式效果不错。但是,在现代科学几乎所有的学科里,数据量每年都在成倍地增长, 而且对这些数据的分析过程也越来越复杂,显然这一传统的实验室记录方法已无法应对 目前呈指数级增长的数据量。 今天,绝大多数科学家已经把他们的记录本换成了功能更为强大的桌面计算机用 它来记录结果,查阅科学文献,并用电子邮件同合作者们联络。除此之外,这些计算机 还承担数据分析的工作。尽管m a t l a b 、m a t h e m a t i e a 以及e x c e l 都是现行的数据分析工 具,然而,它们都难以处理数以百万计的数据,而且从很多方面来看,它们还是非常“原 始”的。随着数据量的不断增大,从中获取知识的难度也越来越大。科学家们花费大量 的心血去组织、排列和优化数据。据统计,一项科学研究从立项到课题完成,花在查找 最新文献和数据上的时间至少占全部科研时间的1 0 0 6 到2 0 0 , 6 ,有的甚至更长。原始的科 学数据研究方法已经不能满足呈指数级增长的科学数据的需求。 为了应对科学数据的洪流,人们在研究过程中开始把系统地使用数据库作为一项不 可或缺的工作。随着关系数据库技术的发展,市场上己经有很多成熟的关系数据库产品。 关系数据库提供高效的并行查询算法以及非过程化的查询语言大大降低了数据检索所 需要的时间。同时,关系数据库系统还是各种高级开发工具的应用平台,许多商用软件 可以直接作用在关系数据库中的科学数据集上,实现科学数据的统计、分析、报表、挖 掘和预测等等。 科学文本数据是科学数据的一种保存形式,它拥有半结构化数据的模式,并采用 a s c i i 等编码格式保存科学信息。由于早期科学数据采集仪器的限制,许多珍贵的历史 资料都是以文本文件的形式保存在存储介质中。随着利用关系数据库系统保存科学数据 成为必然趋势,越来越多的科学文本数据被导入到关系数据库之中。与此同时,传统的 科学文本数据作为数据的原始形式以及数据交换的标准仍然有存在的必要。在未来一段 时间内,科学文本数据将与关系数据库数据共同存在。因此,如何提供一种科学文本数 东北大擘硕士学位论文第一章引 言 据模型和关系数据模型的映射关系,以及设计一种科学文本数据和关系数据库数据相互 转化的系统成为计算机领域科学家和自然科学领域科学家共同关注的闯题。 1 2 课题的背景及任务 本文的研究来源于课题“海洋环境数据仓库与数据挖掘技术研究”,这是国家重点 专项基金项目。该课题对科学文本文件形式的海洋环境数据按海洋科学领域的主题进行 划分,进行建模并通过转换系统保存到数据库中。该课题研究面向海洋数据环境的数据 库构建以及在此基础上的数据质检、数据导入、数据导出、数据管理及数据统计,并在 海洋环境数据库的基础上,实现数据仓库、数据挖掘、o l a p 分析等功能。 国家海洋信息中心【i j 工作的对象包含海洋水文、海洋表面气象、海洋生物、海洋化 学、海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、 海洋经济、海洋资源等数据内容,数据总量多达千亿字节以上全球范围的海洋各学科领 域的科学数据。 国家海洋局作为国家海洋主管部门,为了充分发挥海洋资料的作用,急需收集国内 外海洋资料及其元数据信息,建设世界海洋资料元数据库;改造、更新和建立国家海洋 资料数据库群;继续拓宽国外海洋资料交换收集渠道,做好海洋资料交换与服务,开发 高水平的海洋资料基础产品,建立海洋资料管理和传输网络共享服务系统,最大限度地 实现海洋资料共享。 海洋环境信息管理系统是国家海洋信息中心与东北大学软件与理论研究所共同合 作开发建设的。海洋信息系统的建设实施不但能够实现海洋信息的计算机处理,而且能 够为国家海洋信息中心和相关政府部门提供方便、快捷的数据信息服务与强有力的战略 决策支持。将使海洋信息管理更加现代化,从而为我国海洋事业的发展做出积极、重要 的贡献,具有重大的现实意义和战略意义。 以各种调查手段采集的海洋信息数据被数字化后形成文本文件,保存在各种磁带或 磁盘介质中。同时由于数据交换的需要,这些文件必须以现有的格式继续保存,新的数 据也必须以这样的格式继续追加进入数据文件。海洋环境信息管理系统数据库的数据来 源于海洋文本数据,而海洋信息获取手段的限制及与外界的信息交换又需要海洋环境基 础数据文件继续保留并更新,亦即“数据文件与数据库并存、互不替代”的局面。鉴于 这种情况,本文通过分析科学文本数据的结构,建立了科学文本数据同关系数据库数据 之间的映射模型,并基于该模型设计并实现了两种类型数据之间的高效转换系统。本文 2 东北大擘硕士擘住论文 第一幸孳l 言 所研究的内容为海洋乃至其它类型科学文本数据的发布、共享和交换提供了理论基础与 技术实现,并将在将在科学数据的研究中发挥积极的意义。 1 3 国内外的研究现状 如何提供一种管理、利用科学数据的高效方法已经成为自然科学研究人员和计算机 专家共同关注的热点。在文献【2 】中,j i mg r a y 等人分析了在海量数据条件下,传统的以 文件系统保存、管理、分析科学数据存在的弊端,提出了以关系数据库技术管理科学数 据的未来趋势。a l e x a n d e r 等人将天文数据保存到s q ls e r v e r 数据库中唧,并通过实验 证明,利用索引、集群以及分区技术,关系数据库系统为科学数据提供了一种简单而又 高速的查询、分析解决方案。在文献【4 】中,w i l l i a m 等人基于数据库技术开发了一种多 服务器多队列的科学数据查询处理系统c a s j o b s ,将以往需要几小时甚至几天的查询时 间降低到可接受的范围内。同时,c a s j o b s 利用m y d b 技术在服务器端为用户提供个性 化数据集合,用户可以在服务器端与合作者共享查询结果数据集,而不需要将它们下载 到本地系统中。从而避免了科学数据在异地问的传输问题。p e t e rb u n e m a n 等人提强丁 c u r a t e dd a t a b a s e s 的概念【5 6 7 j ,分析并解决了如何在数据库中管理数据注释、数据起源 以及提供多版本科学数据控制与查询等问题。s h i r l e yc o h e n 等人对多维数组形式的数据 进行建模【s j ,并分析了利用数据库技术保存科学数据的优势。 科学文本数据是一种半结构化的数据,目前,已经有一些针对自描述型半结构化数 据的比较成熟模型被提出。l o r e l | 9 和o e m 1 0 l 利用图形学的方法定义了自描述型半结构 化数据。在这种模型中,反映数据间关系的模式被定义为标识图形边的属性。j a s o n m c h u g h 等人利用这种模型设计了一种半结构化数据的管理和查询系统l o r e 1 1 j ,该系统 提供了按照d b m s 方式管理半结构化信息的方法。文献0 2 提出了一种将自描述型的半 结构化数据转化为关系数据库数据的方法s t o r e d ,以及如何利用s t o r e d 将关系数 据库数据转化为x m l 文件。在文献 1 3 ,1 4 】中,作者提出了半结构化数据的范式。文献 【1 5 】提出了一种基于s h a r e d - i n l i n i n g 的算法,利用该算法可以将x l v i ld t d 映射为关系 模式,从而可以将沮。文件转换到关系数据库中保存。 以上文献所提出的方法或模型大多所针对的是具有语义标识( s e m a n t i ct a g s ) 的自描 述型半结构化数据,这种数据是与模式紧耦合的,模式蕴含在数据之中,并通过标识体 现出来。科学文本数据同一般的自描述型半结构化数据不同,它通过少量的行标识( r o w i d e n t i f i e r s ) 来区分数据,并利用独立的元数据或说明文件来定义数据的模式,解释数据 3 一 东北大学硕士学位论文 第一章引言 的意义。因此,传统的半结构化数据模型到关系模型的映射机制并不完全符合科学文本 数据的结构特点。 o r _ m 1 q 指的是对象关系映射,利用o r m 模型可以进行对象和关系数据库之间的相 互转换,程序员只需要关注业务逻辑中的对象架构,而不是底层的重复性的数据库s q l 和j d b c 代码,这样大大节省了开发时问。随着研究的深入,近几年出现了一些较为成 熟的o i l m 映射工具和框架,如【1 7 】和 1 8 】,程序员可以通过标准的o d m ga p i 来进行 对象的持久化工作嘲。 到目前为止,这些框架和模型适合于程序对象或x m l 型半结构化数据和关系数据 库之间的映射,一些映射方法的主要目的是利用关系数据库提供半结构化数据的查询方 法,并没有把两种类型数据的转换作为关注的重点。至今,还没有一种有效的非自描述 型半结构化科学文本数据和关系数据库数据之间的双向映射模型被提出,也没有合适的 基于科学文本模型到关系模型映射机制的数据转换系统的实现。 我国利用数据库技术管理科学数据起步较早,中国科学院从1 9 8 3 年开始建设一个 大型综合性科学数据库群,到目前已经发展为国内信息量最大、学科专业最广、服务层 次最高、综合性最强的科技信息服务系统1 2 0 2 “。其内容涵盖了海洋、化学、生物、天文、 材料、腐蚀、光学机械、自然资源、能源、生态环境、湖泊、湿地、冰川、大气、古气 候、动物、水生生物、遥感等多种学科。到2 0 0 5 年l o 月底,中国科学院分布在全国各 地的四十五个研究所的科研人员参加了科学数据库的建设。各领域的专业数据库达到 5 0 3 个,总数据量1 6 6 t b 。 s d gs e t r i c e sa r c h i t e c t u r a 4 东北大学硕士学位论文第一幸引言 图1 1 科学数据网格服务架构 f i g 1 1a r c h i t e c t u r eo f s c i e n t i f i cd a t a 可试s e r v i c e 国家“十五”8 6 3 重大项目科学数据网格( s d g :s c i e n t i f i c d a t a g r i d ) 圜是以科学数 据资源的共享以及在此基础上的协同工作为核心的应用网格,它集成了当前在信息化环 境中的科学研究的主要资源科学数据和数据分析处理所需要的计算能力,是在科学 研究领域中非常有代表性的应用网格。科学数据网格的服务架构如图1 1 所示 科学数据网格实现了大规模的分布、异构、自治科学数据库群的统一访问。然而, 在各个科研单位,保存在关系数据库中的科学数据一般只占该单位拥有数据量的一部 分,有大量的历史数据没有入库。同时,很多单位只是利用关系数据库保存元数据,基 础科学数据仍然以文件型式保存。因此,在网格中的每个数据节点,有大量的科学文本 数据向关系数据库数据转化的需求。 在分布式环境下所采集的科学数据最后都要汇集到各个学科研究机构所设立的数 据中心保存。科学数据网格中心位于中科院计算机网络信息中心,科学数据库超级服务 器包括一台由5 9 个节点组成的联想深腾6 8 0 0 机群系统,配备2 0 t b 光纤盘阵和5 0 t b 磁带库。中心利用名为s s l 如l s 的类f 1 p 工具软件提供海量数据的存储服务,具体流程 如图1 2 。 图1 2 科学数据网格中心数据共享方案 f i g 1 2s c i e n t i f i cd a t a 鲥d c e n t e rd a t as h a l es c h e m e s s t o o t s 是一种c $ 结构的软件 2 3 1 ,从图1 2 中可以看出为了使得科学数据能够保 存到数据库中,用户需要先要以文件方式将数据上传到中心的存储系统中,然后再利用 某种方式将数据加载到数据库系统中,中间必然涉及到人为的数据库模型建立、数据导 入等相关操作,步骤繁琐、管理复杂。 远程外部用户通常可以采用三种方式获得数据中心的科学数据: 5 东北大学硕士学位论文第一章引言 ( 1 ) 直接f t p 发布。用户通过f t p 工具下载在服务器端存储系统中共享的数据文件; ( 2 1 间接f t p 发布。用户通过网页向数据中心提供数据需求,数据中心根据需求将 数据库中符合条件数据导出成数据文件并利用f t p 的方式将数据发布给用户; ( 3 ) w e b 发布。用户通过w 曲系统向数据中心提出查询条件,数据中心根据条件查 询数据库,直接将查询结果通过w e b 页面显示给用户。 这些发布数据的方式有很多缺点,直接兀甲共享的方式不能灵活反应用户的查询需 求;间接f t p 发布方式流程复杂,响应时间长;当数据量增加时,网页的显示时间显著 增加,因此w e b 发布方式不能满足海量数据的共享。 鉴于以上科学数据共享中存在的问题,如果利用统一的模型建立基于w e b 方式科学 数据同数据库数据的直接相互转化系统,避免以文件方式的中间传输流程,解决海量数 据的共享问题,必然能提高科学数据的利用效率,从而使数据在科学研究中发挥更加显 著的作用。 】4 本文的研究内容 : 在海洋环境数据管理系统中,原始海洋文本数据向数据库中的导入操作和以数据共 享和数据交换为目的数据导出操作是海洋数据日常管理业务中的主要工作,分布在文件 系统中保存的大量历史数据等待被导入,同时全国各地的海洋研究机构和高等院校需要 向海洋数据中心提出数据共享的需求。 数据转换指的是通过某种技术将一种类型的数据转化另一种类型的数据。传统的文 本数据和关系数据库数据转换的系统缺乏统一的模型基础。有的利用数据库厂商的商业 产品,成本较高,而且很多都以c s 方式运行;有的是开发人员直接开发转换程序,导 致开发工作繁重;有的利用中间数据交换格式,在海量科学数据环境下会产生大量的临 时冗余数据。本文提出了一种基于科学文本数据和关系数据库数据映射模型的转换系 统。利用统一的模型描述两种数据之间的关系,可以有效的将两种数据关联起来,避免 了中间类型数据转换的环节。映射模型开发人员提供了操纵科学数据的统一接口,降低 了应用程序开发的复杂度,同时。利用映射模型实现的转换系统可以方便的嵌入到b s 模式的w e b 系统中,为科学数据的高效利用提供了一个新方法。 本文的主要工作包括三个方面的内容。首先文本通过分析科学文本数据的特点和结 构特征,同其它类型的半结构化数据进行对比,阐述了以文本文件方式保存科学数据的 缺陷和比要性,然后利用形式化的方法定义了科学文本数据,并建立了科学文本数据同 6 东北大学硕士学位论文第一幸引言 关系数据库数据之间的映射模型s t r i p e 。其次,本文针对海洋环境数据提出了s t r i p e 模型的一种实现方法,规范了海洋数据模型结构,为海洋文本数据同海洋科学数据库之 间建立了统一的映射关系。最后,针对海洋数据的转换需求,本文设计并实现了基于 s t r i p e 模型的w e b 环境下海洋数据转换系统,阐述了系统实现过程中遇到若干问题的 解决方案。通过测试,该系统可以满足海量海洋文本数据和海洋数据库数据相互转化的 需求,同时,该系统也提供了一种分布式环境下科学数据的发布、共享和交换的方法 1 5 本文的组织结构 本文其它章节内容的结构安排如下: 第二章主要介绍科学数据的概念以及科学文本数据的定义,分析科学文本数据的特 点,并与其它半结构化数据进行比较。在分析了科学文本数据的结构之后,提出了对其 建模的初步构想。最后指出了利用关系数据库技术管理科学数据的必然趋势以及转换系 统在其中发挥的作用与意义。 第三章主要首先介绍科学文本数据模型和其建模方法。然后提出科学文本薮孺模螯 和关系数据库模型之间的映射模型s t r i p e ,并介绍了s t r i p e 建立方法。 第四章主要介绍海洋环境下s t r i p e 模型的建立。这一章中首先分析海洋环境数据 的特点并建立海洋环境数据的模型,然后介绍s t r i p e 模型在海洋环境中的实现。 、 第五章主要介绍基于s t r i p e 模型的海洋环境数据转换系统的设计与实现,并讨论 实现过程中遇到问题的解决方案。 第六章通过试验和测试,对海洋环境数据转换系统的性能进行分析,同时对基于 s t r i p e 模型转换系统的应用价值进行评价。 第七章对本文的工作进行总结,并提出有待进一步研究和改善的问题。 7 东北太擘硕士学住论文第二章科学文本数据概速 第二章科学文本数据概述 本章将介绍科学数据和科学文本数据的相关概念,分析以文件形式保存科学文本数 据的必要性和不可避免的缺点。利用转换系统可以建立两种类型数据之间的桥梁,既能 保证文件形式存在数据的共享价值,又能利用数据库技术提高数据的分析与应用的效 率。 2 1 科学文本数据的定义 随着信息技术的不断发展,越来越多的信息数据被保存到计算机中。在天文、海洋、 地质、气象、环境、生物、能源等科学研究领域,全世界每年会有数万亿字节的数据保 存到计算机中。这些数据在科学研究工作中扮演着重要角色,很多分析、查询、挖掘、 预测工作都以这些数据为基础,可以说,科学数据是一切科学研究的基石。 2 1 1 科学数据 科学数据指的是在科学研究过程中通过测量仪器采集的,或者通过计算机模拟产g 的用来描述客观事物特征的信息数据。科学数据有各种各样的形式,包括图形、图像、 声音、文本等等。为了方便海量科学数据的管理,提高科学数据的利用效率,国际上有 很多通行的科学数据统一格式标准。 ( 1 ) h d f 层次数据格式( h i e r a r c h i c a ld a t af o r m a t ) t 2 4 】是美国国家高级计算机应用中心( n a t i o n a l c e n t e r f o r s u p e r c o m p u t e r a p p u c a t i o n ) :为y 满足各种领域研究需要而开发出的一种能高效 存储和分发科学数据的新型数据格式。一个h d f 文件中可以包含多种类型的数据,如 栅格图像数据,科学数据集,信息说明数据等。h d f 的数据格式是一种分层式数据管理 结构,是一个能够自我描述、多目标、用于科学数据存储和分发的数据格式。它将关于 数据结构的相关信息保存在内置的元数据之中,并与数据一起共享与发布。它针对存储 和分发科学数据的各种要求提供解决方法,通过标准a p i ,应用程序可以得到h d f 文 件的元数据,并由此读取并解释h d f 文件中的数据。 ( 2 ) 印) f e o s e o s 是e a r t ho b s e r v a t o r ys y s t e m 的简称 2 4 1 ,可以认为h d f e o s 是h d f 的扩展, 用以满足更多的需要。在h d f - e o s 中,有前面h d f 提到的栅格图像和多维数组,然而 也有一些e o s 类型的数据并不与h d f 类型直接匹配,特别是地理标识数据类型 ( g e o i o c a t i o nd a t a t y p e ) 为了将e o s 数据产品的需要同h d f 联系起来,在h d f 中又定 9 东北失擘项士学住论文第二章科学文本数据概速 义了三种新型的数据类型:点型( p o i n t ) 、带型( s w a t h ) 、网格型( c m d ) 。每一种数据都与 h d f 标准类型组织起来,并由特殊的应用程序接口所支持,这有助于开发者的工作。 ( 3 ) n e t c d f n e t c d f 2 4 1 是由大气研究大学协会c o c a r ) 在u n i d a t ap r o g r a m 中开发的,c d f 代表 “通用数据格式”( c o m m o nd a t af o r m a t ) 。由于n e t c d f 是一种灵活的,自描述的,并 能表达大量数组数据的格式,因此n e t c d f 在地球、海洋、大气科学中得到了广泛的应 用。n e t c d f 的灵活性允许数据提供者和用户创建n e t c d f 模式来满足自己特殊的需求, 所以在各个科学研究领域应用比较广泛。 ( 4 ) 二进制数据 二进制文件的特点是计算机可读但人不可读。这种文件格式通常在虚拟试验中由计 算机模拟产生,并利用计算机的程序读取,提供科学数据信息。 ( 5 ) 文本数据 科学文本数据是科学数据的一种重要格式,早在计算机还没有出现的时代,记录在 纸上的试验数据就在科学研究中扮演了重要角色。虽然信息技术迅猛发展,但是一些传 统的测量仪器并不是数字化的,它们只能产生人类可读的数据,并通过人力按照某种格 式记录下来。因此,在现阶段,仍然有大量的科学是以文本形式存在的。同时,很多科 学数据在采集之后的第一形态就是文本文件,然后再以某种方式转换为m ) f 或n e l c d f 等文件格式。 2 1 2 科学文本数据 科学文本数据指的是按a s c i i 或其它编码格式组织,有一定内部逻辑结构的,并以 纯文本形式保存科学信息的数据。科学文本数据是一种半结构化数据( s e m i s t r u c t u r e d d a t a ) ,那些无内部逻辑结构的纪录文本并不在本文的讨论范围之内。所谓半结构化数据, 就是介于完全结构化数据( 如关系型数据库、面向对象数据库中的数据) 和完全无结构的 数据( 如声音、图像文件等) 之间的数据,它具有如下一些特点: ( 1 ) 隐含的模式信息。半结构化数据具有一定的结构,通常结构会与数据混在一起。 ( 2 ) 不规则的结构。一个数据集合可能由异构的元素组成,例如学生集合中某些学 生有电子邮件地址,而另一些学生则没有。 ( 3 ) 没有严格的类型约束。 图2 1 显示的是一段1 9 9 9 年1 月1 9 日的太阳耀斑的采集数据样本。 】o 东北大学硕士学位论文 第二章科学文本数据概速 图2 i 太刚耀斑天文文本数据样本 f i g 2 is a m p l e o f s o l a r f l a r e t e x td a t a 2 2 科学文本数据的特点 2 2 1 基于文本保存科学数据的意义 在科学研究领域大量采用文本方式来保存数据并不是偶然的,其主要基于以下几方 面原因考虑。 ( 1 ) 采集数据的仪器只支持这种形式。计算机技术的普及和迅猛发展只是最近二十 年的事情,而传统科学数据测量方法可能使用了几十年甚至上百年,在某些研 究领域,数据的采集还需要手工来完成,因此在很多情况下,数据只能以文本 文件作为其原始的保存形式; ( 2 ) 可读性。采用a s c i i 等编码格式,科学数据文本有直观的可读性,科研人员不 需要借助其它工具软件,就可以获得相关信息; ( 3 ) 可附加性。新的数据可以方便的附加到原有的数据文件之中,而不需要改变原 来文件的结构; ( 4 ) 跨平台性。只要选择的字符集一致,那么文本文件可以保存在任何的操作系统 中,因此满足跨平台科学计算的需求; ( 5 ) 易交换性。有很多国际组织为科学文本数据制定通用的标准,利用这些国际标 准,各个国家的科研机构间可以方便的交流信息数据。 2 2 2 基于文本保存科学数据的缺陷 尽管科学文本数据有其存在的意义以及必要性,但是随着测量技术的发展。每年产 生的数据量越来越大,传统的科学文本数据的缺点变得越来越明显,具体可以体现为以 下几个方面。 ( 1 ) 数据意义不明确。科学文本数据并不具有完全自描述的特征,其数据的含义必 须通过元数据才可以被解释。独立存在的科学文本数据是没有意义的。 ( 2 ) 管理难度大。一次科学研究所需的文本数据文件可能有数十万之多,而且这些 数据很可能分布在每个研究人员的本地文件系统中。在这种情况下很难保证数 据的完整性、一致性和安全性。极易造成混乱。 e d “拍 c c c p掰”研 1 2 3 5 l 0 l 1 3 9鲇:= n 坛 哇2 6 s拍弱蚰 0 0 0 0 2 n n 睨:昌 8 2 6 3 砒鸵毗毗 8 2 6 3砒髭砒舵“们帖盯皓垤吁盯e吡:2 皓盯髓仰砸孤职豫弧垮均均均 l l l 1 一 一 一吕:吕:吕:吕:均垤均塘 东北大学硕士学位论文 第二章科学文奉数据概速 ( 3 ) 查询代价大。一次科学研究所需的文本数据量很可能在数百g b 甚至若干t b 。 在这种海量的数据环境中,传统的分析工具很难对文本文件提供高级的非过程 化查询语言以及高效的并行查询效率,一次查询所需要的时间会让科研人员无 法忍受。 “) 开发工具少。文本文件很难提供统一高效的数据操作接口,很多科研人员还是 在用f o r t r a n 等基础语言从数据底层开发统计分析应用,开发周期长,工作量 大,而市场上成熟的商用统计分析或数据挖掘软件很难直接作用到科学文本数 据上。 2 2 3 科学文本数据的特点 作为种数据结构,科学文本数据同h d f 、n e t c d f 等格式的数据还是有很大区别 的,具体可以体现在以下几个方面。 ( 1 ) 保存方式不同。科学文本数据采用纯文本形式保存数据;h d f 、n e t c d f 格式 数据通常是以二进制文件的方式保存。 ( 2 ) 数据结构不同。科学文本数据是半结构化的、非自描述的数据,其中数据的含 义需要通过元数据或者单独的说明文件来定义;h d f 、n e t c d f 格式数据是自 描述的,在这种数据格式中,数据与元数据是保存在一起的,一个h d f 文件 本身就具有其数据结构和含义的描述。 ( 3 ) 接入方式不同。科学文本数据是人类可读的,并且可以通过文本编辑工具修改; h d f 、n c t c d f 格式数据是计算机可读的,数据的操纵、更新必须通过标准的 a p i 或者专用的软件来实现。 科学文本数据是一种半结构化数据,现在比较流行的半结构化数据还包括以下几种 ( 1 ) x m l x m l 2 5 】是w 3 c 组织提出的一种超文本标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,它广 泛应用在i n t e m e t 上作为交换和表示数据的格式。一个x m l 文档由嵌套的元素层次结 构构成。每个文档有一个唯一的根结点。一个元素有一个标记( t a g ) ,描述该元素的含义 一个元素由从起始标记到终止标记的区域构成。该区域可以是嵌套的子元素,也可以是 属性或文本。一段x m l 文档的例子如图2 2 所示。 ( 2 ) r e s 们l c t l m 汨t e 】c t r e s m a e t u r e d t e x t 是一种易读的,所见即所得的纯文本标记语法和文件格式。 r e s u u c t u r e d t e x t 利用缩进或标记字符( 如星号或者下滑线) 来结构化文档的内容,并可用 1 2 东北大学硕士学位论文第二章科擘文本数据概速 于内嵌的程序文档( 比如p y t h 的文档字符串) ,快速生成简单的网页或者独立的文档。 ( 3 ) b i b t c x b i b 砥嗍是一种用于l a t e x 文档的文件格式,它利用标记( t a g ) 来结构化文档的内容 并预定义了一些标准t a g s 。b i b t e x 常被用作论文参考文献的通用格式。 “1y a 缸, y a m l ( y e ta n o t h e rm a r k u pl a n g u a g e ) 是一种人们可以轻松阅读的数据序列化格式, 它采用了同x m l 一样的嵌套存储结构,同时利用了嵌套元素缩排得方法,提供了更加 清晰,结构极其紧凑的指示符( t a g ) ,使得7 a m l 比x m l 更加简洁,在阅读、编辑、修 改和产生方面更加方便。 由以上的介绍可以看出,x m l 等半结构化数据都可以通过t a g s 来自描述文档的结 构以及数据的语义。利用t a g s ,应用程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论