已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)海洋核心元数据挖掘与标准研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
海洋核心元数据挖掘与标准研究 摘要 面对且益庞大的数据资源,数据挖掘技术应运面生。它是一种致力于数据分析 和理解、揭示数据内部蕴藏知识的技术,是当前人工智能领域和数据库领域相结合 的热点研究课题。概念格的出现使数据挖掘的功能变得更加完善,它是由德国w i l l e 教授在2 0 世纪8 0 年代初期提出的一种形式化概念分析方法,主要用于概念的发现、 排序和显示。 “数字海洋信息基础平台构建”作为国务院批准并实施的”我国近海海洋综 合调查与评价“专项( 9 0 8 专项) 中三大项目之一,主要开展海洋信息标准体系与质量 管理体系建设,利用9 0 8 专项调查资料、历史资料、海洋监测监视等工作中获褥的资 料,建立起多学科、多专业的国家海洋数据仓库和省市海洋数据库系统,开发公共 软件支撑框架,建立海洋信息更新体系,实现海洋信息的整合改造、高度集成和动 态更新,为海洋综合管理与服务信息系统、公共服务系统和“数字海洋”原型系统 等应用服务提供高效的数据和技术支撑,建立海洋数据中心,实现海洋信息的高效流 通和有效共享,提高海洋信息的管理和利用效率。其中建立包括海洋核心元数据标 准在内的海洋信息标准体系是9 0 8 一0 3 的一项关键任务。 在元数据标准的建设过程中,元数据的选择和提取是一个基础性、关键性的工 作。目前主要靠人工的方法从现有的业务数据资料中选择和提取。面对日益庞大的 数据量,人们渐渐显示力不从心。如何改变这种状况,寻求一种能够快速、自动提 取元数据的方法是目前亟待解决的问题,也是一个涉及数据挖掘和自然语言语义处 理等技术的困难问题。 目前,国内外对这方面的研究还不多见,本文从实际需要出发,在查阅大量文 献资料的基础上,对该问题进行了较为深入的研究。主要工作如下: 1 介绍了目前国内外海洋元数据如e d i o s 、m e d i 、o o h s 、a f g o 四种不同元数据 的研究现状,并以科学数据库核心元数据标准为例对元数据与元数据标准的一些基 本概念进行了分析。 2 针对目前海洋核心元数据标准建设过程中人工提取元数据费时费力且易出错 等问题,进行了深入思考、探索,提出了海洋核心元数据挖掘的框架,并对框架进 行了详细分析。该框架基于数据挖掘的思想,根据元数据的特点,对数据挖掘过程 进行了调整,引入了数据后处理阶段。在数据后处理阶段科学数据库核心元数据标 准进行了概念格构造。 3 为实现元数据挖掘框架,通过数据源选择、利用最小值支持度挖掘数据频繁 项。考虑到海洋核心元数据标准是科学数据库核心元数据标准的一个子集,选择概 念格化的科学数据库核心元数据标准作为海洋核心元数据挖掘的评价原则。 4 利用现有的海洋数据调查资料,通过计算机实验,对所提框架进行验证,并 对系统提取的备选元数据与人工提取的备选元数据进行了比较分析,实验结果表明 所提框架和方法基本可行。 关键字:海洋核心元数据元数据挖掘元数据标准概念格 海洋核心元数据挖掘与标准研究 a b s t r a c t d a t ar e s o u r c e sa r ee x p e n d i n gt o of a s tf o ru st or e c o g n i z ee v e r y d a y f a c e d w i t ht h i ss i t u a t i o n ,d a t am i n i n gt e c h n o l o g ye m e r g e d i ti sat e c h n o l o g yc o m m i t t i n g t od a t aa n a l y s i sa n dt h eu n d e r s t a n d i n ga n dr e v e a l i n go ft h ei n t e m a lm e a n i n go f d a t ar e s e r v e s n o wd a t am i n i n gi sah o tr e s e a r c ht o p i co ft h ef i e l do fa r t i f i c i a l i n t e l l i g e n c ea n dd a t a b a s ef i e l d s t h ee m e r g e n c eo ft h ec o n c e p to fl a t t i c em a k e s d a t am i n i n gf u n c t i o n sm o r ep e r f e c t i ti sr a i s e db yp r o f e s s o rw i l l ei nt h ee a d y 1 9 8 0 si n2 0 t hc e n t u r ya n dm a i n l yu s e dt od i s c o v e r , s o r ta n dd i s p l a yt h ec o n c e p t d i g i t a lo c e a n i n f o r m a t i o ni n f r a s t r u c t u r ep l a t f o r mc o n s t r u c t i o n 。a so n eo f t h et h r e em a j o rp r o j e c t so ft h ei n t e g r a t e ds u r v e ya n de v a l u a t i o no fc h i n a so c e a n ( p r o j o c t9 0 8 ) ,w h i c ha r ea p p r o v e da n di m p l e m e n t e db yt h es t a t ec o u n c i l ,i s a i m e dt oc o n s t r u c tt h es y s t e mo fo c e a ni n f o r m a t i o ns t a n d a r da n dq u a l i t y m a n a g e m e n ts y s t e m t h er e s e a r c hw o r k so fp r o j e c t9 0 8 h i s t o r i c a lr e s o u r c ea n d t h ef i n d i n g so ft h eo c e a ni n v e s t i g a t i o ni sa l s ou s e dt ob u i l dam u l t i d i s c i p l i n a r ya n d m u l t i s u b j e c tn a t i o n a lo c e a nd a t aw a r e h o u s ea n dm u n i c i p a lo c e a nd a t a b a s e s y s t e m se x p l o r et h es u p p o r t i n gf r a m e w o r ko fp u b l i cs o f t w a r ea n de s t a b l i s h u p d a t es y s t e mo fo c e a ni n f o r m a t i o n i ti sa l s ou s e dt or e a l i z et h ei n t e g r a t i o n , d y n a m i cu p d a t i n go fo c e a ni n f o r m a t i o nt og i v ee f f i c i e n td a t aa n dt e c h n o l o g y s u p p o rf o ra p p l i c a t i o ns e r v i c e ss u c ha si n t e g r a t e do c e a nm a n a g e m e n ta n d s e r v i c ei n f o r m a t i o ns y s t e m s ,p u b l i cs e r v i c es y s t e ma n dt h e 。d i g i t a lo c e a n 。 p r o t o t y p es y s t e ma n de s t a b l i s hao c e a nd a t ac e n t e r st or e a l i z et h ee f f i c i e n tf l o wo f o c e a ni n f o r m a t i o na n di m p r o v et h ei n f o r m a t i o ns h a r i n ge f f i c i e n c ys oa st oi m p r o v e t h ee f f e c t i v e n e s so ft h em a n a g e m e n ta n du s i o go c e a nd a t a t h ee s t a b l i s h m e n to f o c e a ni n f o r m a t i o ns t a n d a r ds y s t e mi n c l u d i n go c e a nc o r em e t a d a t as t a n d a r di sa k e y t a s ko f9 0 8 - 0 3s y s t e m i nt h ep r o c e s so fm e t a d a t as t a n d a r d sc o n s t r u c t i o n ,c h o o s i n ga n de x t r a c t i n g m e t a d a t ai saf u n d a m e n t a la n dc r u c i a lw o r k n o wi tm a i n l yr e l i e so nm a n u a l m e t h o d st oc h o o s ea n de x t r a c tm e t a d a t af r o me x i s t i n go p e r 锄i o n a ld a t ar e s o u r c e s f a c e dw i t ha ni n c r e a s i n g l yl a r g ea m o u n to fd a t a ,p e o p l ef e e lm o r ea n dm o r e i n c o m p e t e n c e h o wt oc h a n g et h i ss i t u a t i o na n df i n daw a yt oe x t r a c tm e t a d a t a r a p i d l ya n da u t o m a t i c a l l yi sas e r i o u sp r o b l e m i ti sa l s oap r o b l e mr e f e r r i n gt ot h e t e c h n o l o g yo fd a t am i n i n ga n dn a t u r a ll a n g u a g es e m a n t i cp r o c e s s i n g a tp r e s e n t t h e r ea r ei i t t l er e s e a r c hw o r k si nt h i sa r e aa th o m ea n da b r o a d o nt h eb a s i so fal a r g en u m b e ro fd o c u m e n t s ,t h i sp a p e rm a k e sap r o f o u n d a n a l y s i so ft h i si s s u e ,f r o mt h ea c t u a ln e e d s t h em a j o rr e s u l t sa r ea sf o l l o w s : 1 i n t r o d u c e dt h ed o m e s t i ca n di n t e r n a t i o n a la n a l y s i ss i t u a t i o no no c e a n m e t a d a t as u c ha se d i o s ,m e d i ,o d a s ,a f g o ,a n dt a k i n gt h es c i e n t i f i cc o r e d a t a b a s em e t a d a t as t a n d a r d sa sa ne x a m p l e ,e x p l a i n e dt h eb a s i cc o n c e p t so f a n a l y s i so fm e t a d a t aa n dm e t a d a t as t a n d a r d s 2 t h i n k i n ga b o u tt h ed e m a n d i n ga n dt i m e - c o n s u m i n gs i t u a t i o no fe x t r a c t i n g m e t a d a t ab yh u m a nd u n n gt h ec o n s t r u c t i o np r o c e s so fo c e a nc o r em e t a d a t a s t a n d a r d s ,r a i s e dt h ed a t a - m i n i n gf r a m e w o r ko fo c e a nc o r em e t a d a t a ,a n dg a v ea d e t a i l e da n a l y s i so fi t t h ef r a m e w o r ki sb a s e do nt h ei d e ao fd a t am i n i n ga n dt h e c h a r a c t e r i s t i c so f m e t a d a t a ,g a v e a n a d j u s t m e n t t ot h ed a t a m i n i n g p r o c e s s - - - i n t r o d u c e dd a t ap r o c e s s i n gs t a g e ,d u n n gw h i c hc o n c e p tl a t t i c e sa r e b u i l tf o rt h es c i e n t i f i cd a t a b a s ec o r em e t a d a t as t a n d a r d 3 1 or e a l i z et h em e t a d a t a m i n i n gf r a m e w o r k u s i n gm in i m u ms u p p o r tm i n e d f r e q u e n ti t e m st h o u g hd a t as o u m es e l e c t i o n t h i n k i n g 价甜t h em a r i n ec o r e m e t a d a t as t a n d a r di sas u b s e to ft h ec o r eo fs c i e n t i f i cd a t a b a s em e t a d a t a s t a n d a r d ,t h i sp a p 盯c h o o s et h ec o r es c i e n t i f i cd a t a b a s em e t a d a t as t a n d a r d sa s t h es t a n d a r dt oe v a l u a t eo c e a nc o r ed a t am i n i n g 4 u s i n gt h ee x i s t i n go c e a ns u r v e yd a t ar e s o u r c e s ,v e r t i f i e dt h ef r a m e w o r k t h r o u g hc o m p u t e re x p e r i m e n t s c o m p a r e dt h em e t a d a t ae x t r a c t e db yh u m a na n d c o m p u t e r , i ts h o w st h er a i s e df r 硼e w o r ka n dm e t h o da r ef e a s i b l e k e y w o r d s :o c e a nc o r em e t a d a t a ,d a t am i n i n g ,m e t a d a t as t a n d a r d ,c o n c e p t l a t t i c e s w 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除了特别加以标注和致谢的地方外,不包含其他人或者其他机构 已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献 均已在论文中作了明确的声明并表示了感谢。 作者签名: 论文使用授权声明 本人同意上海海事大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布 论文的全部和部分内容,可以采用影印、缩印或者其它复制手段保存论 文。保密的论文在解密后遵守此规定。 作者签名:罩五老豳导师签名:日期:碑2 型 海洋核心元数据挖掘与标准研究 1 1 课题背景及意义 第一章绪论 为全面推进十六大提出的“实施海洋开发”战略,促进海洋经济发展,国务院 批准并实施了“我国近海海洋综合调查与评价”专项( 9 0 8 专项) 。专项有三个项目, 其中之一就是“中国近海数字海洋信息基础框架构建”( 9 0 8 0 3 项目) 。项目在9 0 8 专项获取的近海海洋综合调查数据与评价成果的基础上,通过对现有海洋信息资源 的整合利用,搭建标准统一的“数字海洋”技术信息平台,构建“数字海洋”原型 系统,建立面向国防安全、经济发展、管理决策、教育科学、社会公众的“数字海 洋”专题应用系统,形成海洋管理决策支持和“数字海洋”服务能力,全面提高海 洋管理与服务信息化水平,参见文献【1 l 。 “数字海洋信息基础平台构建”是8 0 3 项目的首要实施部分,该平台开 展海洋信息标准体系与质量管理体系建设,利用8 专项调查资料、历史资料、海 洋监测监视以及海洋管理等工作中获得的资料,建立起多学科、多专业的国家海洋 数据仓库和省市海洋数据库系统,开发公共软件支撑框架,建立海洋信息更新体系, 实现海洋信息的整合改造、高度集成和动态更新,为海洋综合管理与服务信息系统、 公共服务系统和“数字海洋”原型系统等应用服务提供高效的数据和技术支撑;同 时建立多级海洋数据中心,实现海洋信息的高效流通和有效共享,提高海洋信息的 管理和利用效率。 海洋核心元数据标准建设是“数字海洋信息基础平台构建”的主要目标之一, 通过对9 0 8 专项中海洋资料调查、海洋监测等信息进行资源整合、加工处理、系统 集成,提取出元数据,来构建海洋核心元数据标准。 在海洋核心元数据提取过程中,主要由人工提取的方式从大量的海洋资料调查 表中寻找元数据,一般需要经过不同人员三遍以上的人工校对。面对日益庞大的数 据量,如果采用手工来提取,容易出现重复计算,或者是一些数据漏选等问题,不 仅计算量很大、耗费人力资源多,而且在元数据提取的精确度和可靠性等方面也会 海洋核心元数据挖掘与标准研究 存在很大问题。 本论文是基于“数字海洋信息基础平台构建”的一个研究课题,在开展海洋 核心元数据标准研究过程中,对元数据的提取过程进行了研究、探索,针对目前元 数据人工提取所面临的问题提出了一种新的解决方案。将数据挖掘技术与概念格的 思想引入元数据提取过程,通过设置最小支持度进行挖掘,并对挖掘结果采用概念 格的方法进行评价。从而可提高元数据提取效率,节省了人力和物力,为海洋领域 专家制定海洋核心元数据标准提供一定的支持。 1 2 本文的结构 第一章介绍了本课题的研究背景以及课题研究的意义。 第二章主要介绍了元数据与元数据标准的一些概念和功能,并对目前国内外海 洋元数据、元数据标准以及元数据自动抽取研究现状进行了介绍。, 第三章介绍了数据挖掘的一些基本知识,包括概念、分类及挖掘过程等。并介 绍了概念格的定义和性质。 第四章首先介绍海洋核心元数据挖掘中一些基本术语。对目前海洋元数据人工 选择和提取的现状进行了深入分析,提出了海洋核心元数据挖掘的框架。框架中引 入了数据挖掘的技术和概念格的思想。最后对框架的设计与实现进行了深入研究。 第五章实例分析了海洋核心元数据挖掘全过程,通过设置最小支持度挖掘频繁 项,并采用构造概念格化科学数据库核心元数据标准来进行频繁项的语义分析和评 价。最后,对挖掘结果与人工提取的元数据进行了比较。 第六章对本文研究内容进行了总结,并且提出所做不足之处,以及下一步研究 方向。 2 海洋核心元数据挖掘与标准研究 第二章海洋元数据与元数据标准研究现状 2 1 元数据 2 1 1 元数据基本知识 2 1 1 1 元数据的定义 元数据的概念起源于计算机科学。早在2 d 世纪6 0 年代,为了有效描述数据集, 在文献【1 8 j 中,j a c km a y e r s 提出了元数据的概念。然而直至2 0 世纪年代中期,它 的应用还主要集中在地理信息界。目前,元数据的定义方式有很多。常用的有以下 几种: 1 元数据是结构化数据i 馏。 2 元数据是一组独立的关于资源的说明【1 4 j 。 3 元数据是用于描述数据的内容、覆盖范围、质量、管理方式、数据的所有 者、数据的提供方式等信息,是数据与数据用户之间的桥梁1 1 0 - 3 。 4 。元数据是关于数据的数据,用于说明数据的内容、品质、产生过程和背景、 访问和获取方式以及其他有关特征1 1 6 1 。 从数据的使用来看,数据生产者可能在数据产生很长时问之后去使用或重用它 们,而且,目前数据生产者以外的人员使用数据的需求日益强烈。元数据能帮助数 据生产者以及数据生产者以外的用户更快地发现所需要的数据,更好地了解其内容 和限制,评估其对于应用需求的适用性,并恰当地获取和使用它们。另外,由于数 据生产者和用户都需要处理越来越多的数据,元数据能为他们提供关于这些数据的 关键知识,帮助其有效地保存、管理和维护这些数据,提高效率,从而能有效防止 数据资产的流失,提高数据资源的利用率1 1 7 1 。 海洋核心元数据挖掘与标准研究 2 1 1 2 元数据的功能 元数据应用领域很广泛,同时也可以有多种类型。因此,各种元数据发挥的功 能也有很大的差异。在文献1 1 8 中,对元数据的一些基本功能进行介绍: 一、描述功能 描述功能对信息对象的内容、属性等方面的描述能力,能够描述信息资源的主 题和内容特征,是元数据最基本的功能。衡量描述能力最重要的一点,就是它能否 准确地区别不同的具体信息对象可以说,所有的元数据都是描述性元数据,如 m a r c ( m a c h i n e - r e a d a b l ec a t a l o g u e 机读目录) 、d c ( 都柏林核心元数据) 等。 二、检索功能 检索功能能够支持用户发现资源的能力,即利用元数据来更好地组织信息对象, 建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,从而有利于 用户便捷、快速地发现其真正需要的信息资源。提供信息资源本身位置方面的信息, 由此可准确获知信息对象之所在,便于信息的获取。 三、管理功能 管理功能指保存信息资源的加工存档、结构、使用管理等方面的相关信息,以 及权限管理( 版权、所有权、使用权) 、防伪措施( 电子水印、电子签名) 等。 四、评估功能 评估功能保存资源被使用和被评价的相关信息。通过对这些信息的统计分析, 方便资源的建立与管理者更好地组织资源,并在一定程度上帮助用户确定该信息资 源在同类资源中的重要性。 五、交互功能 有些信息资源的元素内容需经过专家考据才能确定,尤其是在描述比较复杂的 对象( 例如古籍) 的时候。对使用元数据的专家学者提供专门的元素,允许他们对某 些数据项的内容进行反馈,有利于建立更为准确的元数据,提供更为良好的服务功 能。 海洋核心元数据挖掘与标准研究 2 1 2 国内外元数据自动抽取研究现状 目前,元数据主要通过人工从大量的业务数据资料中选择和提取的。据估计, 从一篇一百万字的文档中提取出元数据大约需要花费六十名人员一年的时间才能完 成。如果能够对元数据进行自动提取,即采用一种自动元数据提取工具,从而可以 大幅度降低人员和资金的消耗。于是。美国著名教授k u r tm a l y 在2 0 0 6 年7 月提出 了元数据自动抽取的概念,并给出了两种不同的方法,利用机器学习和基于规则的 方法对元数据进行抽取。机器学习方法优点是适应性强,但有如下缺点:一、训练 样本的提取是非常费时;二、在新的领域抽取比较困难;三,随着异构型数据的不 断增加,性能也随之下降;四、选择训练数据特征集比较难。而采用基于规则的方 法好处是无需训练样本,并且能够处理不同文档中的元数据,不过在规则库的建立 上需要大量专家的介入。 而国内在这方面的研究还很少,所以,也查阅不到与之相关的文献资料。 2 2 元数据标准 2 2 1 元数据标准基本知识 2 2 1 1 元数据标准的概念 元数据标准是用来描述某些特定行业或类型资料的规则和数据集合。它一般包 括了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义、一个著录 规则和计算机应用时的语法规定。元数据标准是实现基于元数据的数据共享的标准 之一,是数据共享的前提和提高数据共享应用系统综合效益的基础。元数据标准框 架是规范设计定制某类特定资源所用的元数据标准时,需要遵照的规则和方法。该 框架从更高层次上规定了元数据的功能、数据结构、格式、设计方法、语义语法规 则等多方面的内容。 元数据标准定义了一系列模块、复合元素和元数据元素,通过元素之间的引用, 5 海洋核心元数据挖掘与标准研究 类型定义等关系共同构筑了一个树形结构。对于元数据标准的制定,主要根据描述 目标需要,确定所采用元数据标准中应选定使用的模块和元素,确定有关模块、元 素属性的约束。以图1 为例,a 表示一个复合元素,有两个子元素b ,c ,其中c 是复合元素,并有下一级图例说明。b 和c 之间存在筛选关系,b 和c 可以同时著 录,用符号3 表示。 图1 元素关系图例 以s c d b m ( 科学数据库核心元数据标准) 为例,在科学数据库核心元数据标准 中,有两类元数据:一、数据集元数据,二、服务元数据。 数据集元数据是一个面向数据集层次的科学数据资源的元数据标准,定义了一 组元数据模块、元素。标准的主体包括数据集描述信息、数据质量信息、数据集分 发信息、元数据参考信息、服务参考信息以及结构描述信息等六个主要复合元素模 块,其中数据集描述信息,元数据参考信息两个模块为必选模块。此外,还包括范围 信息和联系信息两个辅助模块,此两个模块不可单独使用,供其它模块的特定元素 在需要的时候进行引用。 各模块具体含义如下: ( 1 ) 数据集描述信息是记录科学数据库数据集基本信息的主要模块,是一个必选 模块。通过使用数据集描述信息模块可以对数据集本身的基本属性信息进行详细描 述,用户可以对数据集获得一个总体了解。 ( 2 ) 数据质量信息模块应是用以记录与数据集中质量有关的信息模块,是一个可 选模块。通过这个模块,用户可以对数据质量作出判断,来确定此数据集是否满足 要求。 ( 3 ) 数据集分发信息模块是记录与数据集发行及获取相关信息的模块,为可选模 6 海洋核心元数据挖掘与标准研究 块。可包括数据格式、使用数据集的技术要求、收费策略权限声明、定购指南联系 信息等内容。 4 ) 元数据参考信息模块是关于数据集元数据本身状态的信息,为必选模块,包 括元数据创建时间、最近修改时间、联系信息、元数据标准名称等。通过这个模块, 数据集用户可以了解到与元数据建立的有关信息以便于对元数据维护。 ( 5 ) 服务参考信息模块指明与当前数据集相关的服务,是一个可选模块,记录与 数据集相关的服务标识信息,该模块用于在数据集与相关服务之间建立连接。 ( 6 ) 结构描述信息模块记录数据集所含实体的结构相关信息,包括实体基本信 息、属性信息、约束条件等内容。这里的实体结构主要指的是关系数据集中的数据 表及其属性信息 ( 7 ) 范围信息模块记录数据集内容所涉及的分类、时间和空间范围的信息。 ( 8 ) 联系信息模块记录与数据集有关的个人和组织的联系信息。 对于每个元数据的定义,在科学数据库核心元数据标准中采用了九个属性来进 行描述,如表1 所示: 名称属性 中文名称元素的中文名称 英文名称元素的英文名称 标识用字符串表示的元素标识 类型元素所属数据类型,如复合类型即该元素为复合元 素,整数类型,实数类型,文本类型等。 定义对元数据的定义 值域元素值的允许范围 可选性元素是必选元素还是可选元素 最大出现次数 元素所允许的出现次效,如1 表不个口j 重复出现,n 表 示可重复出现无限次 注释对元素属性的解释 表1元数据属性 海洋核心元数据挖掘与标准研究 2 2 1 2 元数据标准中常用术语 ( 1 ) 元数据元素 元数据元素( m e t a d a t ae l e m e n t ) 是元数据的基本单元。元数据标准中对每一个 元数据元素的定义都使用表4 中九个属性来描述,这些属性是中文名称、英文名称、 标识、类型、定义、值域、可选性、最大出现次数、注释。 ( 2 ) 复合元素 复合元素( c o m p o u n dd a t ae l e m e n t ) 是由若干元数据元素与其它复合元素、或 者若干其它复合元素共同组成的。通常,复合元素表示较高层次的概念。例如,数 据集名称是由“数据集中文名称”和“数据集英文名称”两个元数据元素组成的复 合元素,而“范围信息”则是由“时问范围”和“空间范围”二个复合元素组成的 更高层次的复合元素。 ( 3 ) 描述粒度 描述粒度( d e s c r i p t i v eg m n u l a r i t y ) 指元数据所描述的数据对象在内容层次和精 细程度上一种特征。例如,对于一个在逻辑或物理意义上由若干子数据集组成的数 据,可以直接将已作为元数据的描述对象,这种情况下的描述粒度较租;也可以将 个子数据集作为元数据描述的对象,这种情况下的描述粒度较细。 ( 4 ) 模块 科学数据库元数据标准按照层次结构组织元数据,不同的元数据元素和复合元 素共同组成一个模块。该层次结构的最高起始点为复合元素“数据集元数据”该 复合元素由其它表示数据集不同方面特征的复合元素组成。数据集元数据包括了8 个模块一数据集描述信息、数据质量信息、数据集分发信息,元数据参考信息、 服务参考信息、结构描述信息、范围信息以及联系信息。模块是该标准中一个最大 的组织单位。 ( 5 ) 数据类型 数据类型( d a t at y p e ) 是对数据的有效值域及对该值域中的值所允许的操作的规 定。例如,用整型、实型、布尔型、日期类型、字符串类型等。对于复合元素,其 数据类“复合类型”来标识。 8 海洋核心元数据挖掘与标准研究 2 2 2 国内外海洋元数据标准现状分析 一、国外研究现状 国外在海洋元数据的研究方面已经取得了一定的成果,一些国际组织在不少合 作项目中投入了一定的人力和物力,在海洋领域中进行元数据的应用研究,文献【1 9 1 对比较典型的海洋元数据进行了分析,具体有i o d e 的m e d i 、欧洲的e d l 0 s 、0 d a s 元数据以及a f g o 浮标元数据等。具体内容如下: ( 1 ) e d i o s e d i o s ( e u r o p e a nd i r e c t o r yo ft h ei n i t i a lo c e a n o b s e r v i n gs y s t e m ) 是在欧洲 海洋观测、测量和监测系统中投入运行的元数据,以描述原始资料为主,侧重对观 测和联系信息的描述,包括a 和b 两大部分。其中a 部分主要包括观测平台、地理位 置、仪器信息、调查参数信息、观测计划信息,主要内容见表2 。8 部分是有关数据 的联系信息,有负责机构、实时数据管理中心和数据归档中心的联系信息,主要条 目有详细的通讯地址( 邮政编码、国家,城市,区、街道等) 、电话、传真、邮箱、 网站,联系人、w e b 地址等。 a 部分b 部分 观测平台地理位置仪器信息调查参数信息观测计划信息通讯地址 标识符经纬度标识参数标识计划名称电话 类型位置类型类型参数名描述信息传真 操作者垂直范围制造厂商精度实施状态自5 箱 责任国家海底深度范围型号实时,延时数数据访问限制网站 据 开始日期生产日期采样频繁访问条款联系人 地理坐标参考描述信息相关访问的网 w e b 地址 系站 水深基准面 技术特征观测计划信息 相关信息计划名称 附加设备 表2e d i o s 元数据 9 海洋核心元数据挖掘与标准研究 ( 2 ) m e d i m e d i ( m a r i n ee n v i r o n m e n td a t ai n v e n t o r y ) 是i o d f ( i 雪际海洋资料和信息交换) 资料交换系统采用的元数据格式。m e d i 是在l o d e 直接指导下开发的,与i s o1 9 1 1 5 相适应。m e d i 使用目录交换格式( d i r e c t o r yi n t e r c h a n g ef o r m a t ) ,描述对象是数 据集,共包括3 3 项。其中目录标识、目录标题名称、参数、数据中心以及数据集概 要描述是必须提供的,其他都是可选项。具体分类如表3 所示: 目录标识时间范围访问限制相关u 只l 地址 目录标题名称地质气候日期使用限制父目录标识 数据集引用信息空间范围数据集概要描述综合数据网结点 人员信息 数据集进展源数据中心目录建立日期 学科 数据集覆盖地区数据中心最近修改日期 参数 数据分辨率发行信息修改记录 传感器名 计划多媒体样本下一次修改日期 关键字质量参考 数据来源摘要 表3m e d i 元数据 其中,数据集引用信息包括数据集生产者、数据集标题、数据集发行日期、发 行地、发行标识、发行者、发行版本、数据表达形式、其他引用详细信怠和在线资 源。人员信息包括描述资料调查者、技术负责人和目录作者的联系信息。在源数据 中心和数据中心中也设立了主要联系人的信息,人员信息包括了人员职责、姓名和 电话、e - m a i l 、f a x 和详细的通讯地址等。参数信息包括参数的从属学科、主题、变 量名和详细变量名。在目录的历史修改记录记载了目录每次修改的时间和修改的内 容。在传感器信息项中包括了相关计划主页、数据档案,服务器、在线软件包的u r l 地址等。 ( 3 ) o d a s o d a s ( o c e a nd a t aa c q u i s i t i o ns y s t e m ) 是c m m ( c o m m i s s i o n o fm a d n e m e t e o r o l o g y 海洋气候学小组) 为了建立数据获取系统( 包括系泊浮标、漂流浮标、 海上平台等) 综合元数据库而开发的,并d b c p ( d a t a b u o yc o - o p e r a t i o np a n e l , 数据浮标协作小组) 进行了广泛的审查。该元数据从内容上可分为标题信息和数据描 海洋核心元数据挖掘与标准研究 述信息两大类。标题信息是对整个观测平台的播述,在一个元数据实体中是唯一的, 共包括2 7 个要素。分别为:观测平台类型、平台标识、运行时间、平台所在位置, 平台的外观特征、浮标酌类型、国家和机构信息、元数据更新日期、资料传输信息 和w e b 地址等1 0 方面,其中对平台外观特征的描述包括:平台外部形状、监测范围 平台的长度、平台的宽度、圆盘型浮体的直径和平台图像资料、传输信息中提供卫 星接收系统代码,传输时间( 定时或时间间隔) 、资料观测、频繁资料传输格式。在 标题说明信息的描述中,提供了明确的平台类型和浮标的类型,为元数据的制作提 供选择。数据描述信息主要是指获取数据的传感器信息以及周围环境信息,包括观 测仪器( 传感器) 类型、传感器的位置及具体参数、传感器技术参数以及使用情况等。 具体元数据描述包括风速、气温、水温、气压、相对湿度、降水量、辐射、海流、 波和水平能见度等1 0 个参数的元数据格式。 ( 4 ) a f g o a f g o 浮标元数据内容由全球a f g 0 计划资料管理管理统一确定,以a f g o 浮标 为描述对象。一条浮标将产生一条元数据信息,具体内容有4 0 多项,如表4 所示: 一般信息投放信息参数信息传感器信息 浮标号项目名称循环周期数测量参数 传输号数据中心每一个循环所用时间 传感器制造商 传输系统主要调查人 驻停时间传感器型号 系统标识投放异常信息下降花费时间 序列号 传输频率投放日期 上升花费时间精度单位 重复时问纬度,经度 表面漂流时间精确度 定位系统地理位置质量控制符 驻停压力分辨率 时钟漂移首次下沉时间 上升最大压力校正参数 浮标型号时间质量控制符 下降最大压力 校正方程 序列号投放仪器标识 测量方向校正仪器标识 a f g o 浮标元数据对用户是否了解该浮标特征和使用该浮标资料影响非常大, 尤其是浮标的参数设置和传感器的相关信息有直接影响。 l l 海洋核心元数据挖掘与标准研究 以上这些海洋元数据从不同角度和方面对元数据进行了分类描述和编著,在一 定程度上满足了用户的需求,在国际上具有一定的影响力。对于不同的行业类型元 数据建立了相应的属性元素集,提高了海洋资料的利用率,为海洋信息标准化提供 了一定参考和帮助。 二、国内研究现状 国内在海洋元数据研究方面才f l o f j o 起步,还没有形成一定的元数据格式。目前, 由国家海洋局开展的“9 专项”,针对我国海洋领域进行了调查、研究,以期实 现海洋信息的高效流通和有效共享,提高海洋信息的管理和利用效率。“数字海洋 信息基础平台构建”作为9 0 8 专项中三大项目之一,目标就是要建立包括海洋核心 元数据标准在内的海洋信息标准体系,参见文献f 1 j 。 2 3 小结 本章主要介绍了元数据与元数据标准的一些概念和功能,并对目前国内外海洋 元数据、元数据标准以及元数据自动抽取研究现状进行了介绍。 海洋核心元数据挖掘与标准研究 第三章数据挖掘与概念格基本知识 3 1 数据挖掘的基础理论 3 1 :1 数据挖掘的定义 数据挖掘( d a t am i n i n g 。d m ) ,俗称数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) ,于1 9 8 9 在第一届k d d 会议中提出,参见文献 2 1 。数据挖 掘是近年来伴随着人工智能和数据库技术的发展而出现的一门新兴技术,它强调的 是通过数据驱动的发现方法,获得“知识”采用数据挖掘技术可以从大量的数据 中提取出隐含的、以前不为人所知的、可信而有效的知识,能够对数据进行再分析, 以期获得更加深入的了解,并具有预测功能。 数据挖掘利用聚类、分类、关联性、序列分析、群集分析、机器学习以及其他 统计方法,从数量庞大的数据中找出隐藏的、未知的、有用的信息。在数据挖掘的 应用中,通过收集与顾客相关的数据,利用统计分析与人工智能等算法对大量数据 进行筛选、推演与模型建造等,以揭露隐含在数据与模式中的可把原始数据转换成 商机并成为决策支持依据的新知识。文献f 2 2 】介绍了一个典型的数据挖掘系统的主 要包括部件:数据库、数据仓库或其它信息库,数据挖掘引擎,模式评估模块,可 视化用户界面等。数据挖掘的应用是极其广泛的,只要有数据的地方,基本上就有 数据挖掘的用武之地。 3 1 2 数据挖掘的功能 数据挖掘主要用于指定数据挖掘任务中的知识模式。根据任务的不同,数据挖 掘功能以及它们可以发现的模式大致可分为以下几种: ( 1 ) 关联分析 关联分析( a s s o c i a t i o na n a l y s i s ) 用于发现关联规贝m j ( a s s o c i a t i o nr u l e ) ,这些规 则展示属性值频繁地在给定数据集中一起出现的条件。关联规则是形如x - y , 海洋核心元数据挖掘与标准研究 即“ = 玩 瓦”的规则,其中, ( f 1 1 ,m ) 是属性- 值对鳃释 为“满足x 中条件的数据库元组也满足y 中条件”关联规则挖掘能够发现大量数据 中项集之间有趣的关联或相互联系。在数据挖掘研究领域,对于关联分析的研究开 展得比较深入,a g r a w a l 2 4 2 5 等入- 于1 9 9 3 年首先提出关联规则。关联分析的目的 是挖掘隐藏在数据间的相互关系,它能发现数据库中形如”9 0 的顾客在一次购买 活动中购买商品a 的同时购买商品b ”之类的知识。针对关联规则挖掘的研究是数据 挖掘研究最活跃的领域之一,这些研究包括a p f i o d 算法 3 1 1 3 2 3 5 、挖掘关联规则 的有效的增量更新【2 3 】【
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 热力系统优化设计方案
- 公路标线与交通设施设计与施工方案
- 天然气管网运营维护管理方案
- 河道整治环境影响评估方案
- 建筑装饰工程装修工程施工监理方案
- 风电场建设安全管理方案
- 人防工程防化防毒设施方案
- 设备维护保养方案及设备更新改造计划
- 2025年农产品产销合作合同协议
- 2025年内容电商合作合同协议
- 放射科医师晋升副主任(主任)医师高级职称病例分析专题报告(疱疹病毒脑炎)
- 2004陕西建设工程消耗量定额补充定额
- 戴炜栋《新编简明英语语言学教程》(第2版)课后习题详解(第4章句法学-第6章语用学)圣才出品
- GB/T 9254.1-2021信息技术设备、多媒体设备和接收机电磁兼容第1部分: 发射要求
- GB/T 31349-2014节能量测量和验证技术要求中央空调系统
- 风电机组现场安装验收报告
- 生产安全风险评估报告
- FDP对各疾病保护机制课件
- 提升基层应急能力筑牢防灾减灾救灾人民防线课件
- 2021年信阳市第六人民医院医护人员招聘笔试试题及答案解析
- 建筑消防设施故障维修记录表
评论
0/150
提交评论