




已阅读5页,还剩65页未读, 继续免费阅读
(控制理论与控制工程专业论文)数据资源描述与组织的元数据方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着网络技术的发展和数据资源的数字化进程,元数据作为揭示资源内容和 对其进行有效组织的手段,在数据交换与共享中发挥着越来越重要的作用。本文 的目的是研究元数据的设计方法,主要对多层资源集合、资源对象元数据和元数 据统一组织方案进行研究。 本文首先概述了元数据研究的国内外现状,指出元数据技术的发展趋势和国 内元数据标准建设中迫切需要解决的问题,并研究了用于数据资源描述与组织的 元数据理论,及元数据设计中的几种重要技术;都柏林核心元数据、资源集合元 数据、元数据模块化分析方法以及元数据统一组织框架。 然后,本文分别对资源集合、对象元数据,以及元数据统一组织方案的设计 思路与方法进行了研究。研究了数据资源一般描述、长期保存和质量评价三方面 的元数据内容;对m i c h a e lh e a n e y 提出的“集合分析模型”进行了改进,以揭示多 层资源集合特征;并对基于z c o l l e c t i o n 的元数据统一组织方案进行可行性分析, 以利用其灵活的结构对上述两种描述型元数据进行统一组织。 最后,本文分析了工业数据资源的特点和划分组织方式,并针对这一类应用 范围广泛但缺少有效共享途径的数据资源,进行了资源集合、对象元数据内容的 实际设计,并参考z c o l l e c f i o n 设计了z 3 9 5 0 环境下对资源集合、对象元数据进 行统一组织的元数据功能方案,即本领域z 3 9 5 0 规范。 关键词: 元数据多层资源集合资源对象z c o l l e c t i o n 工业数据资源 a b s t r a c t w j t l lt h er a p i d d e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n df a s tp r o g r e s si n d i g i t a l i z a t i o no fd a t ar e s o u r c e ,m e t a d a t aa c t sa sa na p p r o a c hd e s c r i b i n gt h ec o n t e n to f d a t ar e s o u r c ea n do r g a n i z i n gt h e me f f e c t i v e l y , w h i c hi sp l a y i n gam o r ea n dm o r e i m p o r t a n tr o l ei nt h ed a t ai n t e r c h a n g ea n dd a t as h a r i n g t h em a i nt o p i co ft h i sp a p e r c o n c e r n e dw i t l lt h ed e s i g no fm e m d m a , e s p e c i a l l yt h em e t a d a t ad e s c r i b i n gt h e r e s o u r c ec o l l e c t i o n sw i t hm u l t i p l eh i e r a r c h i e sa n dt h em e t a d a t ad e s c r i b i n gr e s o u r c e o b j e c t s ,a n dt h ef r a m e w o r kt ou n i f yb o t ho f t h e m t h ep a p e rf i r s t l yr e v i e w ss o m ec t t r r e n tr e s e a r c ho nt h em e t a d a t at h e o r y ,w h i c h c a ng i v eu sa l li n s i g h ti n t ot h et e n d e n c yo ft h em e t a d a t at e c h n o l o g ya n dt h ep r o b l e m u n s o l v e di nt h en a t i o n a lm e t a d a t ap r o j e c t s m e t a d a t aw h i c hi su s e dt od e s c r i b ea n d o r g a n i z et h ed a t ar e s o u r c ec o n t a i n ss e v e r a li m p o r t a n tt e c h n i q u e s ,s u c ha st h ed u b l i n c o r em e t a d a t a ,t h em e t a d a t af o rc o l l e c t i o n s , t h em e t h o d o l o 。w yf o rm e t a d a t am o d e l i n g , a n dt h ez c o l l e c t i o nm e t a d a t af r a m e w o r k n e x t ,w ec o n c e n t r a t e so nt h ea p p r o a c h e st od e s i g nt h em e t a d a t a :t h em e t a d a t a c o n t e n ta b o u tt h eg e n e r a ld e s c r i p t i o n s ,t h el o n g - t e r mp r e s e r v a t i o n ,a n dt h eq u a l i t y e v a l u a t i o no ft h ed a t ar e s o u r c ei sa n a l y z e df o rt h ec o n v e n i e n c et od e s i g nt h eo b j e c t m e t a d a t a ;m i c h a e lh e a n e y sa n a l i y t i c a lm o d e lo fc o l l e c t i o n sa n dt h e i rc a t a l o g u e si s i m p r o v e d t od e s c r i b et h e c h a r a c t e r so fc o l l e c t i o n sw i t h m u l t i p l eh i e r a r c h i e s ; f u r t h e r m o r e ,af r a m e w o r kb a s e do nz c o l l e c t i o ni ss t u d i e dt ou n i f yt h et w ok i n d so f d e s c r i p t i v em e t a d a t aa n di t sf l e x i b l es t r u c t u r e f i n a l l y , t h ec h a r a c t e r sa n do r g a n i z a t i o n o ft h ei n d u s t r i a ld a t ar e s o u r c ea r e a n a l y z e d ,a n dm e t a d a t ai sd e s i g n e df o rt h i sk i n do fd a t ar e s o u r c ew h i c hi sw i d e l yu s e d b u tl a c ko fe f f e c t i v ew a y st ob es h a r e d t h e n ,m o t i v a t e db yt h ez c o l l e c t i o nf r a m e w o r k , t h ez 3 9 5 0p r o f i l et ou n i f yt h et w ok i n d so fd e s c r i p t i v em e t a d a t am e n t i o n e da b o v ei s c r e a t e d k e yw o r d s :m e t a d a t a ,c o l l e c t i o nw i t hm u l t i p l eh i e r a r c h i e s ,r e s o u r c eo b j e c t , z c o l l e c t i o n i n d u s 荫a 1d a t ar e s o u r c e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得醚太堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文储虢覆笏签字吼6 j 一年,月fj 自 学位论文版权使用授权书 本学位论文作者完全了解丞望太堂有关保留、使用学位论文的规定。 特授权玉洼太堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 一繇穆彩 签字日期: o 多年f 月f 乡日 导师签名 签字日期:,r 年f 月垆日 第一章绪论 1 1 选题背景 第一章绪论 计算机存储和网络技术的发展,为数据资源的保存、发现和传输提供了方便 快捷的手段。越来越多的资源加入到数字化的大潮中,并通过网络向各个领域提 供服务。各类数据资源通过网络的有机结合,使人们获得了以往单个的资源所不 能比拟的、更丰富的信息。 在这样一个开放的网络环境中,数据资源的服务对象不再仅限于一个部门或 单位内部,而是扩展为网络中众多的用户。人们对数据资源的查询、检索也不再 仅限于单个数据库,而是包括各领域众多的数据资源。然而,当前组织和利用各 种数据资源的技术发展却落后于资源数字化和网络化的速度,难以满足人们对信 息的需求。一方面,网络条件下的资源数量庞大,位置分散,存储和表现形式各 异,远非传统的数据组织、管理工具可以应付;另方面,不同数据资源的描述 性信息并非按照标准的、可以被各领域共同理解的方式存储和表示,从而造成了 数据交换与共享的困难。 元数据是为了解决这一问题而兴起的。所谓元数据就是一种对数据资源的内 容、结构、价值、访问、使用等各个方面进行描述的工具,也是一种有效的资源 组织方法。其目标是通过对资源进行标准、有效的描述和组织,使得数据可以得 到高效的流动和使用。数据生产者依据元数据对资源进行有效的管理和维护,而 数据使用者则通过元数据方便地发现和定位其感兴趣的信息,并可以获得关于数 据资源的各个方面的帮助信息。 随着我国一批数据共享项目的深入开展,对数据资源的进一步整合成为了我 国科学数据共享工程的工作重点之一。如何设计有效、实用的元数据,对数据资 源进行描述和组织,是当前数据共享领域面临的关键问题。为有效揭示数据资源 的内容和结构特征,促进各层次数据资源的整合与共享,迫切需要加强对元数据 理论及应用的研究。本文以“装备制造业基础共性数据共享系统建设研究”项目为 背景,对元数据方案设计开展了研究工作。 第一章绪论 1 2 国内外研究现状 1 2 1 现有元数据标准 元数据作为在信息组织、管理与服务领域的重要概念和工具,已经得到了人 们越来越多的重视。目前国际上存在多种适用于不同领域、不同类型资源的元数 据。其对元数据的研究主要集中在数字图书馆、数字博物馆、网络资源描述、学 习资源描述、地理数据资源描述、音频视频资料描述等领域。 元数据标准可以按照被描述对象特征分类,国际上有代表性的元数标准如表 1 1 所示【1 】 2 川。 表1 - 1 主要元数据标准 类别元数据标准 文献、档案资料c d l 、m a r c 、m o d s 、n d m 、e a d 、t e i 、z c o l l e c t i o n 数字博物馆资源r e a c h 、c d w a 、v r a 网络资源 d u b l i nc o r e 、r o a d s 教育资源 l o m 、a d i s c o r m 、d c e d 、g e m 地理信息资源f g d c c s d g m 音视频资料m u s i c b r a i n z 各元数据标准具有不同的应用目的,比较典型的如:都柏林核心( d u b l i n c o r e ,d c ) 元数据【4 】主要用于资源的发现,机读目录格式( m a r c ) 1 5j 和美国联 邦地理数据委员会的数字化地理元数据内容标准( f g d c c s d g m ) 1 6 主要用于 资源的著录,r s l p 集合描述( r s l pc d ) 【7 】、都柏林核心集合描述应用规范( d c c da p ) 【8 j 和数字资源集合访问z 3 9 5 0 规范( z c o l l e c t i o n ) 【9 】等主要用于对资源 集合的描述与组织等。 资源集合元数据是元数据的一个重要组成,可以被用来描述任何物理的或者 数字化的对象集合瑙j 。它首先出现在图书馆、博物馆等领域,之后伴随着元数据 理论的发展逐渐扩展到了其他领域。目前已有多种元数据标准可以应用于资源集 合描述,如r l i nc o n s p e c t u s 、i s o2 1 4 6 、r s l pc d 、i s a d ( g ) 、e a d 、g i l s 、 d c c da p 、w e b m l 、r s s ( r d f r i c hs i t es u m m a r y ) 、z c o l l e c t i o n 方案等。 第一章绪论 1 2 2 元数据设计方法发展趋势 通常元数据应用项目中元数据的设计大多复用一种或几种通用元数据标准, 并在此基础上,扩展少量具有领域特色的元素。对于元数据框架,各元数据项目 一般根据需求选择已有的框架结构,或者不采用框架结构。元数据框架是由元数 据项目产生,逐渐被其他项目采纳并成为标准的。不同元数据项目采用框架时, 有必要对项目或框架本身作出调整。近年来,封装技术的发展促进了元数据框架 的应用。 元数据标准的设计有两种不同的结果。一种元数据内容庞大而复杂,比如 f g d c c s d g m 、各种m a r c 等。但它们具有很好的描述深度,能够揭示资源各 个方面的信息。这种元数据比较适用于具有良好编目传统的领域,且应用范围相 对固定。另一种元数据简洁易用,如都柏林核心元数据。它仅仅拥有少量元素, 但这些元素具有较强的通用性,且语义相对稳定。这种元数据适用范围广,通常 被用作跨领域检索。 随着元数据理论的发展,元数据的设计正从单纯的元素选择逐渐转移到依据 元数据建模方案进行设计。人们对元数据的要求也不再局限于对资源的简单查 找,其关注的重点逐渐转向对资源之间、同一资源内部各组成部分之间的复杂关 系、以及资源等级结构的揭示 。 国际图联( i f l a ) 1 9 9 8 年发表了著名的“书目记录功能要求”( f u n c t i o n a l r e q u i r e m e n t sf o rb i b l i o g r a p h i cr e c o r d s ,f r b r ) 【j 2 j ,提出了一种元数据与资源的 结合模式。根据这个框架可以分析元数据与资源逻辑层次的关系。i n d e c s 框架 【13 】是在分析知识产权交易活动所涉及的实体及其相互管理的基础上,提出的用来 定义知识产权交易的元数据框架。f r b r 和i n d e c s 具有相似的特点,比如都包 含了对知识产品形成过程的的建模。他们主要就资源对象本身以及与其他实体之 间相互之间的逻辑关系进行描述,而不涉及资源集合的内容。 m i c h a e lh e a n e y 在2 0 0 0 年提出的“集合分析模型” 14 】对资源集合生成、描述 和管理中所涉及的实体及关系进行了分析,并建立了参考模型,较全面地反映了 资源集合的逻辑构成。该模型的两个具有代表性的应用是r s l pc d 和d cc d a p 。它们在参考该模型的基础上,分别建立了资源描述框架。这些框架继承了“集 合分析模型”的优点,但不足之处在于它们是单层资源集合模型,没有有效地揭 示多层集合的内部关系,同时难以实现对资源集合、对象的统一描述。 1 2 3 元数据多样化的趋势 被描述资源具有不同的特征,不可能用一套元数据标准对所有资源进行描 第一章绪论 述。元数据项目中,即使是同一资源,从不同角度提出的元数据也是不同的,甚 至参照同一元数据框架制定的各个元数据也不尽相同。比如开放档案信息系统 ( o a i s ) 【1 5 3 强调的是数字资源的长期保存,而z c o l l e c t i o n 是从资源集合描述的 角度设计元数据。元数据存在一般性和特殊性的矛盾,多种元数据标准共存是这 一矛盾的结果。 1 2 4 元数据的互操作 对于同类资源,解决互操作问题关键在于建立统一的元数据标准。各机构需 要使用一致的元数据标准来描述其数据资源,明确所使用的元素集和语义,比如 图书馆领域的采用的机读目录格式m a r c 和数字地球空间领域采用的元数据标 准f g d c c s d g m 等。但互操作不仅仅局限于某一领域,也需要在各领域之间进 行。各领域存在不同的元数据标准,彼此之间不能完全兼容,因此降低了互操作 的效率。对于这一问题一般有如下解决方案: 一是建立元数据之间的映射。目前,各种元数据之间的映射问题已经取得了 一定的研究成果,如d c 与u s m a r c 、d c 与e a d 、d c 与g i l s 、d c 与l o m 、 g i l s 与m a r c 、m o d s 与m a r c 、t e lh e a d e r 与m a r c 、f g d c c s d g m 与 m a r c 、o n i x 与u n i m a r c 、m a r c 2 1 元素之间的映射都已有人进行了研究 1 6 1 1 ” 。随着元数据之间越来越多映射的出现,人们发现需要一种通用的元数据 标准,其他元数据标准都与之建立映射,从而减少重复工作。这个通用的元数据 标准是都柏林核心( d c ) 元数据f 4 1 。各种元数据研究机构已经意识到了互操作 的重要性,其制定的元数据标准纷纷与简单、通用的d c 元数据元素兼容。 二是通过元数据框架的方式实现互操作。早期的元数据方案大都采用了1 9 9 6 年提出的渥维克框架( w a r w i c kf r a m e w o r k ) 1 7 1o 该框架允许在统一的数据描述 格式之下包容各种不同的具体数据表现形式,为元数据的封装提供了统一的形 式。但它没有给出具体的实现工具和方法,只给出了一个概念模型,并没有实际 应用,因而没有彻底解决元数据的互操作问题。其他元数据互操作研究主要有: b l a n c h i 和p e t r o n e 【1 8 】提出一种基于数字对象体系结构的元数据互操作框架; l a g o z e t l 9 】等人提出一种实现不同领域元数据词汇之间互操作的概念模型;h u n t e r 和l a g o z e l 2o 】提出一种基于r d fs c h e m a 和x m ls c h e m a 的元数据互操作方案; 而万维网联盟( w 3 c ) 提出的资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k , r d f ) 【2 1 1 提供了w e b 数据集成的简单解决方案,可以方便地描述资源以及它们 之间的关系。r d f 目前已经成为网络上元数据互操作的重要标准。 第一章绪论 1 2 5 国内元数据研究现状 国内对元数据的研究开始于1 9 9 7 年。经过各领域专家的努力,元数据管理 与服务的理念已经获得了广泛的认同。我国主要元数据研究机构有:国家图书馆、 上海图书馆、北京大学图书馆、国际基础地理信息中心、国家信息中心等。 近年来,国内开展了一系列与元数据相关的研究项目,从对国外先进元数据 理论的引进、跟踪,到实际数据共享项目的应用,都取得了一些有益成果。随着 元数据研究的深入,各领域产生了系列元数据标准,例如,国家图书馆的中 国机读目录格式( c n m a r c ) 、中文元数据方案【2 “,上海图书馆的网络资 源描述元数据规范、基本数据对象描述元数据标准1 2 ,国家基础地理信息中 心的国家基础地理信息系统( n f g i s ) 元数据标准草案等。 国内对元数据的研究主要集中在描述型元数据上,而对其他类型元数据关注 较少。d c 元数据作为一种典型的描述型元数据,在国内得到了广泛的研究 f 2 4 j f 2 5 j f 捌。目前我国制定的元数据标准广泛支持d c 元数据,或者复用d c 元数据 元素,或者建立与d c 元数据的映射,例如中文机读目录格式( c n m a r c ) 与 d c 元数据的映射1 2 7j 。国内元数据的应用项目也大多建立在d c 元数据的基础上, 而对国外其他应用规范缺乏深入的研究。元数据应用规范涉及到元数据的实际应 用,也是元数据研究领域中的一个重要方面。 我国资源集合元数据的发展尚处于较为初级的阶段【1o j 。目前仅在个别特殊领 域存在一些实际的资源集合描述元数据,例如中国生物多样性信息中心动物学分 部【2 8 】的“中国生物多样性数据库索引元数据”、“中国脊椎动物分类代码数据库元 数据”等集合元数据,以及中国生态旅游信息共享系统的“中国生态旅游信息共享 库元数据 【”l 等。这类元数据是为了满足项目对数据集进行管理的需要而产生的, 拥有自定义的集合描述元数据格式,其内容、组织等方面与通常描述资源对象的 元数据相似,与对象元数据的不同之处在于其描述对象是一个集合。这类元数据 对资源集合进行整体描述,而并没有揭示资源之间的关系,也无法提供对象级资 源访问和数据资源组织等功能。严格地讲这些元数据并没有充分发挥资源集合元 数据的优势,而只是提供了集合元数据的部分基本功能,即对资源集合自身的描 述。近年来,我国部分元数据研究的项目中,如“分布环境下信息系统的开放描 述”、“我国数字图书馆标准规范建设”,出现了一些对资源集合元数据的研究 ”o 】【3 。其对数字图书馆领域资源集合元数据描述的内容与范围、一般设计方法、 发展和应用等方面开展了研究,并取得了初步成果。这为我国资源集合元数据的 进一步研究与应用奠定了基础。 目前,我国在元数据标准制定、以及元数据应用等方面与国外有较大差距【3 ”。 第一章绪论 对元数据的理解和应用多停留在平面的层次上,尚未形成完整的元数据体系。国 内元数据应用方案大多基于已有元数据框架,但对d c 之外的框架关注程度不 够。资源集合元数据的研究在我国刚刚起步,尚缺乏对多层资源集合元数据的研 究,缺乏对资源集合、对象统一描述方案的研究。目前国内集合元数据的设计与 应用仅限于对集合本身的描述。随着我国数据资源组织和整合工作的进一步深 入,我国的元数据研究需要在这些方面有所加强。 1 3 研究内容与创新意义 本文主要对数据资源描述与组织的元数据方法进行了研究。文中考虑影响数 据资源共享与使用的几个重要因素,给出了数据资源元数据内容的设计思路,提 出了用于揭示多层资源集合特征的“改进集合分析模型”,并提出一种z 3 9 5 0 环 境下的元数据统一组织方案。在此基础上,本文以目前缺乏有效共享机制的工业 数据资源为研究对象,进行了元数据方案的设计,并对结果进行了讨论。 本文的创新意义在于: ( 1 ) 研究了用于资源集合描述的“集合分析模型”,指出其在使用中存在的 问题,并对此作了改进,提出了“改进集合分析模型”,为建立描述多层资源集合 的元数据提供模型依据。新模型具有概念明确、简单易用的特点,能够有效描述 多层资源集合,并能对集合存在不同划分规则的情况进行处理。 ( 2 ) 在国内首次对z c o l l e c t i o n 框架的应用进行了研究,给出了一种z 3 9 5 0 环境下对资源集合、对象元数据进行统一组织的解决方案,并通过对z c o l l e c t i o n 功能的分析,以及对直接采用该框架的可行性研究,指出元数据统一组织方案应 部分而不是全部兼容z c o l l e c i i o n 框架。这也为元数据统一组织的z 3 9 5 0 规范和 z 3 9 5 0 服务的建立奠定了基础。 ( 3 ) 本文不仅研究了元数据的设计思路与方法,而且还针对国内应用广泛 但缺乏有效共享途径的工业数据资源,进行了元数据方案设计的实践,设计结果 验证了本文的元数据设计思路。文中分析了工业数据资源的特点和划分组织方 式,对该领域集合元数据、对象元数据,以及元数据统一组织方案进行了设计, 并给出了元数据内容的扩展和形式化描述方式,为该领域数据共享的开展提供元 数据支持。 6 1 4 章节组织 第一章绪论 本文各章节内容安排如下: 第一章综述了论文的选题背景和国内外研究现状,说明了论文的研究内容和 创新意义,并给出了本文的章节组织结构。 第二章主要对文中所涉及的元数据理论进行了研究,包括对元数据的概念、 分类和作用的介绍,以及对部柏林核,0 元数据、资源集合元数据、元数据模块化 分析方法和元数据统一组织框架的分析。指出元数据是资源描述和组织的有效手 段,同时为本文其他章节的展开提供元数据理眨支持。 第三章主要从数据盗源的一般描述信息、长期保存信息和质量评价信息三个 方面研究了数据资源元数据内容的设计思路。 第四章研究了用于资源集合描述的“集合分析模型”的特点和适用范围,指出 其在使用中存在的问题,然后针对这些问题进行改进,得到了“改进集合分析模 型”,并讨论了“改进集合分析模型”的特点。这为多层资源集台元数据的建立提 供了模型依据。 第五章主要研究了z 3 9 5 0 环境下对上述两种描述型元数据进行统一组织的 方案。文中分析了z 3 9 5 0 与元数据的关系,研究了z c o l l e c t i o a 元数据框架的功 能,对采用z c o l l e c * i o n 框架的可行性进行了研究。 第六章以工业数据资源为描述对象,给出了元数据方案的设计实例。首先分 析丫工业数据资源的特点和资源划分、组织方式,并由此提出了刘元数据的要求。 然后设计了该领域资源的集合元数据、对象元数据、以及元数据统组织方案, 并给出了元数据内容的扩展与形式化描述方式。最后总结了该方案的优点。 第七章对全文的工作进行了总结。 第七章对全文的工作进行了总结。 第二章元数据理论 2 1 元数据概述 2 1 1 元数据的概念 第二章元数据理论 元数据( m e t a d a t a ) 一词最早出现在1 9 8 8 年美国国家航空航天局( n a s a ) 发布的目录交换格式( d i f ) 手册3 2 】中,是为了解决网络资源无序化而提出 来的。目前国际上关于元数据的定义有很多种。一般认为比较确切的说法是国际 图联提出的“元数据是关于数据的数据。此术语可以指任何用于帮助网络电子资 源识别、描述和定位的数据”1 3 3 1 。 元数据并不是一个全新的概念。长期以来人们所熟悉的图书馆卡片、地图图 例等描述资源的信息都是元数据。它一般被用来帮助对资源的识别与定位,也可 以被用来说明资源的内容、来源、格式、质量、状态及其它相关信息。元数据对 于网络上数据资源的组织与管理起着重要作用【3 “。 随着人们对元数据的认识进一步深化,元数据研究领域又提出了狭义、广义 元数据的概念口6 j 。元数据作为描述信息内容对象的工具时,被称为狭义元数据; 而作为一种基本信息组织方法时,被称为广义元数据。广义元数据为信息系统各 个层次的内容提供规范的定义、描述、交换和解析机制,为数据的整合与分布、 异构系统之间的互操作提供服务。资源集合元数据是广义元数据中的种,对由 资源对象组成的资源集合及其管理、组织体系进行描述。 2 1 2 元数据的类型 元数据往往有着不同的描述对象、描述目的和描述角度,因此形成了多种元 数据标准。为了更好的区分和比较各类元数据的特点,有必要对其进行分类。1 9 9 8 年,美国g e t t y 信息研究所( g e t t yi n f o r m a t i o ni n s t i t u t e ) 对元数据进行过一次专 项研究3 6 1 ,在其有关的专著中,a n n ej g i l l i l a n d s w e t l a n d r 3 7 1 将元数据分为五种 类型:管理型、描述型、保存型、技术型和使用型。 从表2 1 中可以清楚地看出,这是种对元数据功能的分类。一个实用的元 数据标准并不是实现对资源描述的全部功能,而是根据需要对元数据的功能进行 取舍,有重点地对资源进行描述。 第二章元数据理论 表2 - 1 元数据分类 类型定义 管理型用来管理信息资源的元数据 描述型用来描述或者识别信息资源的元数据 保存型与信息资源保存管理相关的元数据 技术型关于该系统如何运作的元数据 使用型关于信息资源使用水平和使用类型的元数据 元数据的层次体系严格地讲并不属于元数据分类的范畴,但其也可以起到对 元数据分类的辅助作用,因此本小节对其进行了简单介绍。广义元数据的层次体 系f 3 j ( 3 6 由第一层至第六层依次为:信息内容格式元数据、内容对象元数据( 狭义 元数据) 、资源集合元数据、管理与服务机制元数据、过程与系统元数据、宏元 数据。这种层次体系可以更清楚地反映元数据描述的不同层次。其中对资源进行 组织以促进数据交换、共享的元数据目前主要涉及其中的第二、三层。 2 1 3 元数据的作用 元数据的作用在网络技术广泛应用于数据资源交换与共享时才得以真正地 体现。国际电气电子工程师协会( i e e e ) 认为元数据主要应用于以下几个方面【3 8 】: 查询、浏览、检索数据:数据获取、质量保证、再;h h 3 2 :系统间转换数据;存储、 建立数据档案。元数据对资源的特征进行揭示,使管理、维护、使用人员全面地 了解资源,进而有效地组织、管理和利用资源。其在上述资源的描述与发现、质 量评价、数据交换、长期保存等方面具有重要作用: ( 1 ) 有利于数据资源的长期保存 数据是人类智慧的积累,需要长期保存以便后人继承和使用。不同的数据有 不同的使用环境,当外部环境改变后,数据往往不可理解。元数据将提供有关数 据内容、使用等方面的信息,有助于重现数据的使用环境。统一规范的元数据标 准有利于数据生产单位对数据的长期有效保存,即使管理和维护人员变动也不会 影响对数据情况的了解。 ( 2 ) 有利于数据的组织和管理 在网络成为数据传播的主要途径的背景下,如何组织、管理分布异构的数据 第二章元数据理论 资源已经成为了个普遍存在的问题。如果能够提供相应的元数据,以及元数据 到数据资源的链接,则可以方便的管理本地或异地数据资源。 ( 3 ) 提高资源检索效率 元数据提供数据资源生产、存储、分类、内容、质量、交换、权限等方面的 信息,可以用作辅助检索。同时,用户使用元数据标准中统一的字段进行查询、 检索,可以提高检索效率。 ( 4 ) 有利于数据的共享和使用 对数据的描述信息,人们往往有着不同的表达习惯和存储方式,这给数据的 网络共享带来了困难。通过统一的元数据对数据资源进行描述,可以帮助人们更 好的理解不同来源的数据,避免重复的解释工作。元数据还可以帮助用户了解数 据的来龙去脉,以及数据抽取和转换规则,帮助用户就数据内容和质量是否满足 需要作出判断。 2 2 典型都柏林核心元数据 d c 元数据是跨领域的信息描述标准1 3 9 1 。这里信息指任何可以被标识的事物, 即d c 元数据的应用对资源类型没有限制。目前d c 元数据有两个可用标准版本: n i s os t a n d a r dz 3 9 8 5 - - 2 0 0 1 和i s os t a n d a r d1 5 8 3 6 - - 2 0 0 3 。 1 9 9 8 年9 月,因特网工程特别任务小组( i e t f ) 正式接受了d c 这一网络 信息资源的描述方式,将其作为一个正式标准发布( r f c2 4 1 3 ) 。d c i ,1 已经成 为美国和芬兰的国家标准,欧洲的准标准( c w a l 3 8 7 4 ) ,并且已经成为国际标 准( i s od i s15 8 3 6 ) 。目前,d c 元数据已经被翻译成3 0 多种语言,广泛应用在 多个国家的多种学科领域。 d c 元数据包含1 5 个元素,并依据所描述的类别和范围分为三类,如表2 2 所示。 这1 5 个元素不针对某个特定的学科或领域,同时又具有能够被普遍理解的、 长期以来相对稳定的语义,因此获得了广泛的使用。 d c 元数据具有简单、语义通俗易懂、扩展灵活等特点。但其为了保证通用 性,元素选择非常简单,不能满足特殊领域应用的需求,使用时需要对其进行扩 展。d c 已经逐渐成为了各种元数据互操作的基本格式,以其为基础扩展建立自 己的应用格式已经日益成为一种有效的保证元数据互操作的方式f 4 。基于d c 并 不等同于采用d c 的全部元素,只要能够保证基本的交换功能,可以根据需要对 d c 元数据进行取舍。 第二章元数据理论 表2 - 2 都柏林核心元数据元素 资源内容描述类知识产权描述类外部属性描述类 t i t i e ( 题名)c r e a t o r ( 创建者)d a t e ( 日期) s u b j e c t ( 主题) p u b l i s h e r ( 出版者) t y p e ( 类型) d e s c r i p t i o n ( 描述)c o n t r i b u t o r ( 其他责任者)f o n n 乱( 格式) s o u r c e ( 来源)r j 曲t ( 权限) d e n t i f i e r ( 标识符) l a n g u a g e ( 语种) r e l a t i o n ( 关联) c o v e r a g e ( 覆盖范围) 2 3 资源集合元数据 都柏林核心元数据项目( d c m i ) 资源集合描述工作组认为:“资源集合”一 词可以被应用于任何物理或数字对象集合。通常用来指物理对象集合、物理对象 的数字化资源集合、原生数字对象集合以及这些集合的目录。下列对象可作为“资 源集合”进行描述f 1 4 1 :图书馆馆藏;博物馆馆藏;档案文件;图书馆、博物馆、 档案馆目录;数字化档案;因特网目录和主题网关;网络索引;文本、图像、声 音、数据集、软件等资料的集合,或者它们的任意组合( 包括数据库、c d r o m s 和w e b 资源) :其他物理对象的集合。 由于数据资源组织的需要,常常要对数据资源对象组成的集合作为一个整体 进行描述,这种按照一定的内在联系所组成的信息资源体系或资源对象集合,就 是资源集合;对资源集合进行描述的元数据,就是资源集合元数据。相应地, 本文将对资源对象进行描述的元数据称为资源对象元数据。 资源集合元数据大致可以分为两种类型:一是纯描述型方案,二是功能型方 案【1 0 1 。 纯描述型资源集合元数据大多是静态的元素集,其中的元素以一定结构组织 起来,以便于元数据的管理和搜索。目前主流方案大多采用已有元数据方案,并 扩展领域特有元素而建立。这类集合元数据通常是在单层资源集合模型的基础上 设计的,并可以根据需要在模型外部扩展元素,如r s l pc d 和d cc d a p 。 功能型资源集合元数据提供了一个标准化的框架,以支持分布式信息检索、 第二章元数据理论 异构信息系统互操作和对象级资源发现。它具有更加灵活的结构,并通常提供了 封装、复用机制,以方便计算机的交互和自动处理。它规定各类构成元素的内容、 句法和语义表达方法以及各类对象之间的关系,提供系统自定义和扩展能力,但 具体的属性和语义只有获得实例后才能得到。但它不是传统意义上的元数据方 案,而仅仅是元数据功能的实现方案,因此这种方案需要与上述纯描述型方案结 合使用。功能型方案提供框架,描述型方案提供内容。目前功能型方案主要有 r s s 、z c o l l e c t i o n 等。 2 4 元数据模块化分析方法 模块化作为标准化的一种形式已经得到了人们越来越多的重视。在元数据领 域,模块化设计依据的是对系统或过程所涉及的实体及其关系的分析和分解。实 体包括物理实体和逻辑实体,关系包括内在关系和应用关系等。通过对实体及其 关系的分析,可以建立起元数据内容的逻辑划分框架,这将有利于设计或复用不 同的元数据模块来分别满足不同的逻辑功能【3 6 】,也有利于元数据具有清晰的层次 结构,便于理解和扩展。下面以两种典型的模型说明。 2 4 1f r b r 模型 1 f l a 的f r b r 模型 挖1 分析了文献实体的内在关系,根据文献著录内容的要 求来描述相关的逻辑关系,建立了文献及其著录内容的四层逻辑关系宏观框架, 逻辑实体层次如图2 1 所示。 图2 1f r b r 逻辑实体层次 其中的作品指智力或艺术创造的内容,是一个抽象的逻辑实体;表达实体是 指作品的艺术表达形式;表现实体指表达实体的一个实例;物项实体指特定表现 形式的一个物理单元。该逻辑层次与计算机领域的信息产品模型类似。从这个框 架中可以分析哪些描述要求及相应的元数据内容与哪个逻辑层次相关,如主题内 容元数据与作品相关,部分技术和制作元数据与表达形式相关,另一部分技术和 制作元数据与表现形式相关,而管理元数据与物项相关。该框架的思想影响了许 2 第二章元数据理论 多元数据模型和标准的建立。 2 4 2 “集合分析模型” m i c h a e lh e a n e y 在2 0 0 0 年1 月提出了一种用于集合描述的实体关系模型 “集合分析模型”【1 ”,用来对资源集合的形成过程、组织结构及描述信息进行 研究。该模型产生的背景是u k o l n 提出一个倡议:建立一个关于集合的更为全 面的模型,以改进图书馆领域对资源集合的描述方法。实际上,该模型并不对具 体的应用领域提出要求,而是提供了一个为资源集合描述服务的通用的模型。 “集合分析模型”较全面地反映了资源集合、对象、内容、角色以及各实体之 间的相互关系,并得到了广泛的研究和应用。r s l p 7 1 根据“集合分析模型”建立了 描述资源集合的元数据,并定义或复用了相应的元素来描述相关内容。最近, d c 资源集合描述工作组提出的都柏林核心集合描述应用规范( d cc da p ) 悼j 也 是在“集合分析模型”的基础上进行的设计。 在元数据的设计过程中,有必要选择适当的模型对元数据内容的划分进行指 导。首先根据需求建立元数据逻辑框架,然后在此基础上选择元数据元素,最后 根据实践的结果进行调整。 2 5 元数据统一组织框架 描述型元数据通常实现的是静态的描述功能,只针对最初设计时定义的内容 和层次进行描述。描述型元数据不能满足用户动态地定位被描述资源层次和对集 合、对象进行统一描述的要求。这时往往需要功能型元数掘与描述型元数据的结 合,前者提供结构,后者提供描述信息的内容。目前的功能型方案中只有 z c o l l e c t i o n 既能够描述资源对象又能够描述资源集合【lo 】。其优势在于为描述型元 数据提供了一个动态的、灵活的框架结构。 z c o l l e c t i o n 的全称是“z 3 9 5 0p r o f i l ef o ra c c e s st ot h ed i g i t a lc o l l e c t i o n s ”,是 美国国会图书馆为资源集合组织、检索开发的z 3 9 5 0 规范( p r o f i l e ) 9 1 。它具有 良好的框架结构和可扩展性,是当前唯一能够很好描述集合、对象,以及它们之 间关系的元数据框架。z c o i l e c t i o n 已经拥有了两个兼容规范( c o m p a n i o np r o f i l e ) : “ap r o f i l ef o ra c c e s st o d i g i t a ll i b r a r yo b j e c t s ”和“t h ec i m ip r o f i l ef o ra c c e s st o m u s e u mo b j e c t s ”1 4 “。它们分别对z c o l l e c t i o n 框架的不同部分进行了扩展。 z c o l l e c t i o n 提供了一个抽象记录结构( a b s t r a c tr e c o r ds t r u c t u r e ) ,描述资源 集合、资源对象,以及它们之间相互关系,而并不规定描述数据资源的详细元数 据标准。其他已有元数据能够通过抽象记录结构封装到z c o l l e c t i o n 中。z c o l l e c t i o n 第二章元数据理论 的抽象记录结构顶层元素如表2 3 所示。 z c o l l e c t i o n 建立了种元数据结构来描述资源的自身属性及资源之间的关 系。它既能描述资源集合,又能描述资源对象,还可以描述资源之间的关系。 z c o l l e c t i o n 提供了一个元数据框架而不是重新建立一套元数据标准,可以与描述 型元数据方案很好的结合使用,以发挥两者的优势。 表2 3z c o l l e c t i o n 抽象记录结构顶层元素 元素性质条件 可否重复数据类型 描述记录类型必选否 i n t e g e r 简述可选 否 b r i e f i e x t d e s c r i p t i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 拍卖业战略攻略
- 你思故你在?中英互译
- 河北省献县2025年上半年事业单位公开遴选试题含答案分析
- 河北省顺平县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省内丘县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省广平县2025年上半年公开招聘城市协管员试题含答案分析
- 2025版风电场建设土石方工程居间服务合同书
- 2025大棚租赁合同范本:设施农业项目投资合作
- 2025电商企业平台入驻培训与托管代运营合同
- 2025年度智能办公设备采购与销售合同范本
- 鸡蛋合作合同范本
- 外研版英语九年级上册-Module1-12作文范文
- 民用无人机操控员执照(CAAC)考试复习重点题库500题(含答案)
- 人教版六年级数学上册教案全册
- 学校生活指导老师面试问题
- 安防项目视频周界报警系统招投标书范本
- 烹饪概论高职全套教学课件
- 骨科患者的疼痛管理
- 2023年秋季国家开放大学-03593-机械制造装备及设计期末考试题带答案
- 建设用地报批服务投标方案(技术方案)
- 【公司财务风险管理问题分析国内外文献综述3000字】
评论
0/150
提交评论