基于CIDOC CRM 的文化遗产资源的元数据集成——以DC 元数据的映射为例.doc_第1页
基于CIDOC CRM 的文化遗产资源的元数据集成——以DC 元数据的映射为例.doc_第2页
基于CIDOC CRM 的文化遗产资源的元数据集成——以DC 元数据的映射为例.doc_第3页
基于CIDOC CRM 的文化遗产资源的元数据集成——以DC 元数据的映射为例.doc_第4页
基于CIDOC CRM 的文化遗产资源的元数据集成——以DC 元数据的映射为例.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于CIDOC CRM的文化遗产资源的元数据集成以DC元数据的映射为例陈艳,周馨(上海大学图书馆,上海,200444)文摘:文化遗产资源的异构性和保存机构的多样性,决定了文化遗产领域元数据标准的多样性。为了满足为异构信息资源提供统一存取的信息系统的需求,论文介绍了基于本体的元数据集成方法,提出了以CIDOC CRM为中介机制的元数据集成方案,并以DC为例,详细介绍了DC与CIDOC CRM之间的映射。关键词:元数据集成; CIDOC CRM; 本体; 文化遗产; DCMetadata integration based on CIDOC CRM in culture heritage collections-With the mapping of DC as an exampleChen Yan, Zhou Xin(Shanghai University Libraries, Shanghai, 200444)Abstract: Heterogeneity is one of the main characteristics of cultural heritage collections. Such collections may be composed of heterogeneous objects, which described by a variety of metadata schemas. This paper introduces an ontology-based metadata integration approach, proposes the use of CIDOC CRM ontology as a mediating schema and describes the mapping of the Dublin Core standard for different types to CIDOC CRM, demonstrating a real-world effort for ontology-based metadata integration.Keywords: Metadata integration; CIDOC CRM; Ontology; Cultural heritage; DC扮演着记忆性机构角色的档案馆、图书馆和博物馆都肩负着保存文化遗产实物及其相关信息的重要责任。这些记忆性机构所保存的文化遗产对象产生于同样的文化背景或时期,有时候拥有同样的创造者。对于一件艺术品来说,作者关于它的手稿或有关它的评论等都处于同一历史文化背景下,提供着份量相当的人文要素的证明和可比文化特征的证据。文化遗产资源的这种异构性和保存机构的多样性,决定了文化遗产领域元数据标准的多样性。而且随着信息技术的发展,用户对于全球存取的需求不断增长。选择一种体系结构和实现技术将现有的异构信息整合并使得以上问题得到解决是一项重要的任务。本体以计算机能够处理的表现语言提供了对同一领域知识的共同理解,支持人与计算机之间的沟通,能够满足为异构信息资源提供统一存取的信息系统的需求。因此,基于本体的元数据集成,能够确保文化遗产内容的完整性和语义网应用下存取的便捷性。1、CIDOC/CRM概念参考模型CIDOC概念参考模型(CIDOC Conceptual Reference Model,简称CIDOC CRM)是国际博物馆理事会(International Council of Museums)下属的国际文献工作委员会(International Committee for Documentation,CIDOC)所开发的面向对象的概念参考模型。CIDOC CRM对文化遗产的文献信息工作中所涉及的隐性概念与显性概念及其关系提供了定义及形式化描述,其目的是通过提供一个通用的、可扩展的语义框架以达到对文化遗产信息的共同理解,使文化遗产领域内的信息交流与信息系统的建立拥有共同的语言。1因此,它同时也是文化遗产的领域知识本体,为文化遗产信息的标准规范及描述架构提供基础,是语义网环境下一个重要的信息标准和参考模型。CIDOC CRM模型的第一个版本于1998 年发表,其开发经历了10余年的努力。2006年起CIDOC CRM模型已为国际标准化组织采纳成为国际标准,标准号为ISO 21127:2006。目前最新的版本是2009年颁布的5.0.1版。该版本定义了90个类、148个属性,涵盖了围绕特定文物发生的历史史实、人文艺术、考古遗迹、时间地点人物以及版权声明等信息。所有的类都冠以E开头的序号,如E1 CRM EntityCRM实体;而属性都冠以P开头的序号,如P1 is identified by (identifies)。属性连接“域”和“范围”,定义类与类之间的特定关系。随着模型的不断扩展,类和属性的数量可能还会增加。图1显示了CIDOC CRM核心类之间的一个层级关系。图1:CIDOC CRM核心类的层级关系2CIDOC CRM是一个严格遵循知识本体原则的模型。由于有较长的历史,所以发展得比较完善。而且,2003年成立的FRBR和CIDOC CRM国际协调工作组(International Working Group on FRBRCIDOC CRM Harmonisation),将包括作品在内的概念整合到CIDOC CRM中,从而进一步优化了CIDOC CRM,使博物馆界的模型可以更好地适用于大规模生产的现象。3此模型目前已被多个本领域很有影响的项目所采用4。2、基于CIDOC/CRM的元数据集成由于文化遗产信息的异构性和记忆机构的多样性,各个机构所采用的元数据方案不尽相同。开发一种能够满足各方面需要的统一的标准元数据格式,是解决元数据互操作的方法之一,但在各种信息资源和应用环境之间存在复杂差异的现实环境下不可能真正适应变化多样的应用。元数据是为识别和描述资源而产生的,它并不表达丰富的语义。即使元数据信息的含义及其与所描述资源的关系能够容易的被人所理解和处理,但对于机器来说,这种关系并不显著。相反的,本体中的类通过属性相互连接,属性明确声明了实体之间的语义关系。本体的目的不是描述特定的资源,而是提供了领域内基本概念及其关系的宏观理解,蕴含丰富的语义关系和强大的推理功能,能够满足文化遗产信息载体和记忆机构多样性的要求。同时,由于本体具有良好的概念层次结构和对逻辑推理的支持,能够从语义层面解决数据之间的异构性。56因而,基于本体的中介机制,能够在语义上集成不同的元数据,为异构信息资源提供统一存取。选择CIDOC CRM作为中间标准有以下三个原因:1) CIDOC CRM是一个面向对象的概念参考模型。面向对象形式是目前为止能将多种概念模型集成在一起,而同时又保留各概念模型特性的唯一形式。72) CIDOC CRM的设计目标就是应用于异构文化信息的存档、集成、中介和转换的核心本体。它是由具有层次结构的实体组成的概念模型,实体之间通过属性语义相关。CIDOC CRM定义了文化遗产领域中存在于对象、艺术家、事件、地点及其他概念之间的复杂关系。3) CIDOC CRM作为一个全球标准,提供了与其它多种元数据格式之间的映射。并且,CIDOC CRM自身也在不断地发展和完善。CIDOC CRM作为不同系统、元数据和语义之间数据传输和交换基础的价值是显而易见的8。CIDOC CRM作为一个中间标准,可以方便地使文化遗产领域不同的元数据得到映射,从而使得集成并且解释领域内各种异构数据成为可能。作为核心本体,CIDOC还可以以合适的形式集合所有必需的文化信息为进一步的推理服务9。图2:基于CIDOC CRM的中介机制10图2展示了一个基于CIDOC CRM中介机制的数据资源集合的结构。不同的资源类型可能使用不同的元数据标准,所有的标准都映射到CIDOC CRM。用户可以向本地系统提出查询请求,本地的查询引擎返回本地数据的检索结果,同时向CIDOC中介系统提交查询。CIDOC系统自动根据模型与相关元数据间的映射机制对读者请求进行重新形成,转换成对应元数据能够执行的请求。最终,CIDOC将从各个资源返回的结果集中,转换成本地系统对应的结果形式,并通过本地系统将结果返回给用户。3、DC和CIDOC CRM的映射DC元数据标准框架分为都柏林核心元数据创新计划(简称DCMI)术语和应用纲要。DCMI元数据术语是定义元数据术语的通用标准,其体系为:都柏林核心元数据元素集(定义DC的15个核心元素)、其他元素和元素限定词(定义DC元素限定词和新增元素)、编码体系(定义DCMI中使用的编码体系修饰词)和DCMI类型词表(定义用于确定资源类型的资源类型元素的值)4个部分。DC包括15个核心元素,即:题名(Title)、主题(Subject)、描述(Description)、语种(Language)、来源(Source)、关联(Relation)、覆盖范围(Coverage)、创建者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限(Rights)、日期(Date)、类型(Type)、标识符(Identifier)、格式(Format)。这15个元素按照内容可以分为资源内容描述项、知识产权描述项、外部属性描述项三大项,它们可以选择使用,也可以重复使用,元素顺序可以任意排列,每个元素可以通过限定词进一步扩展。其中,DC. Type是DC元素集的一个元素,定义了描述资源对象的类型,并提供了一些通用的、跨领域的值的集合。包括:collection,dataset,event,image,interactive resource,moving image,physical object,sound,service,software,still image和text。特别是对于collection,DC资源集合描述工作组开发了一个专门的应用纲要(DCCAP),将资源集合作为一种独立的数字或物理对象。表1列出了当DC. Type取不同值时,DC记录对映的CIDOC CRM中相应的类。表1:DC. Type的值与CIDOC CRM中类的映射11-13DC. Type的值为CIDOC CRMPhysical objectE19 Physical ObjectCollectionE78 CollectionTextE33 Linguistic ObjectImage/Still ImageE38 ImageMoving imageE36 Visual ItemServiceE29 Design or ProcedureDatasetE31 DocumentSoundE33 Linguistic Object (如果内容包含演讲)or E73 Information ObjectSoftware/Interactive ResourceE73 Information ObjectEventE7 ActivityDC元素集是一个灵活可用的元数据方案,支持数字资源的信息交换和集成。因为其简单、易扩展的特性,DC在数字图书馆中被广泛应用。且DC与许多广泛使用的元数据标准之间存在映射,因此其在数据交换方面的重要性是显著的。但是,DC元素的语义依赖于被描述资源的类型。例如,元素DC.creator对于不同的资源类型来说,有不同的语义,对于文本(Text)来说DC.creator意味着文本的作者或者撰写者,但对于图像(Image)来说DC.creator意味着摄影者或者画家。表2列出了对于不同资源类型,其余14个DC元素所对映的CIDOC CRM类。表2:DC的14个核心元素及限定词与CIDOC CRM的映射DC的核心元素及限定词CIDOC CRMDC.TitleE35 Titleor E41 Appellation(DC. Type的值为Event)DC.CreatorE39(Actor)DC.PublisherE39(Actor)DC.DateE52(Time-Span)DC.SubjectE1 CRM EntityDC.ContributorE39(Actor)DC.IdentifierE42 Object Identifieror E75 Conceptual Object Identifier(DC. Type的值为Text/Sound/Software/Interactive Resource)DC.RightsE30 RightDC.SourceE24 Physical Man-Made Stuffor E53 Place(DC. Type的值为Physical Object/Collection)DC.CoverageE1 CRM EntityDC.DescriptionE62 StringDC.Format.MediumE55 Typeor E57 Material(DC. Type的值为Physical Object)DC.Format.ExtentE54 DimensionDC.LanguageE56 LanguageDC.Relation.IsVersionOf , or DC.Relation.HasVersion各种资源类型相对映的类,见表1DC.Relation.HasFormat or DC.Relation.IsFormatOf11 Motivation EventDC.Relation.Replaces or DC.Relation.IsReplacedByE81 Transformationor E7 Activity(DC. Type的值为Event)DC.Relation.Requires or DC.Relation.IsRequiredByE73 Information ObjectDC.Relation.References or DC.Relation.IsReferencedByE7 Activityor E73 Information ObjectDC.Relation.HasPart, or DC.Relation.IsPartOfE19 Physical Object or E78 Collection(DC. Type的值为Physical Object/Collection);E33 Linguistic Object(DC. Type的值为Text/Sound);E38 Image or E36Visual Item or E73 Information Object(DC. Type的值为Image/Still Image/Moving Image);E73 Information Object(DC. Type的值为Text/Sound/Software/Interactive Resource)在DC中,元素的语义及元素之间的关系说明隐含在元素的定义之中,计算机无法理解和处理。而在CIDOC CRM模型中,这个关系是通过实体-属性-实体显性声明的。因为CIDOC CRM主要关注围绕实体的事件的描述,因此DC元素的语义可以通过CIDOC CRM中的一组关系或者一个事件来表达。例如,在CIDOC CRM模型中类E12 Production与E65 Creation可以用来集中所有与创建事件有关的信息,这两个类都是E7 Activity的子类。下面以文本(Text)为例,列出与创建事件相关的元素在CIDOC CRM中的语义表达:DC-DC.Creator E33 Linguistic Object 94 has created (was created by): E65 Creation. P14 carried out by (performed) with subproperty P14.1 in the role: Author E55 Type: E39 ActorDC-DC.Creator.Name E33 Linguistic Object 94 has created (was created by): E65 Creation. P14 carried out by (performed) with subproperty P14.1 in the role: Author E55 Type: E39 Actor. 131 is identified by (identifies) : E82 Actor AppellationDC- DC.Publisher E33 Linguistic Object 94 has created (was created by): E65 Creation. P14 carried out by (performed) with subproperty P14.1 in the role: Publisher E55 Type: E39 ActorDC- DC.Publisher.Name E33 Linguistic Object 94 has created (was created by): E65 Creation. P14 carried out by (performed) with subproperty P14.1 in the role: Publisher E55 Type: E39 Actor. 131 is identified by (identifies) : E82 Actor AppellationDC-DC.Date.Created E33 Linguistic Object 94 has created (was created by): E65 Creation. 4 has time-span (is time-span of): E52 Time-Span4、结论本文针对文化遗产资源领域提出了一个以CIDOC CRM为中介机制的元数据集成方案,并以DC为例,详细介绍了DC与CIDOC CRM之间的映射。CIDOC CRM定义了文化遗产领域中各个概念的语义关系,为领域知识的描述提供术语,从而确定了该领域的基本知识体系,表达该领域中的公共知识。基于本体的元数据集成方案为不同机构间异构数据的集成提供了一种解决方案。参考文献:1 ICOM/CIDOC Documentation Standards Group. Definition of CIDOC conceptual reference model. Version 5.0.1 EB/OL. ICOM/CIDOC CRM Special Interest Group, 2009-11-23.2 http:/cidoc.ics.forth.gr/cidoc_core_graphical_representation/hierarchy.html, 2009-10-13.3 Riva P., Doerr M. and umer M. FRBRoo: Enabling a Common View of Information from Memory Institutions J. International Cataloguing and Bibliographic Control, 2009, 38(2): 30-34.4 http:/cidoc.ics.forth.gr/uses_applications.html, 2009-10-23.5 Skarka W. Application of MOKA methodology in generative model creation using CATIA J. Engineering Applications of Artificia1 Intelligence, 2007, 20(5): 677-690.6 Kim K.Y. Ontology-based assembly design and information sharing for collaborative product development J. Computer-Aided Design, 2006, 38(12): 1233-1250.7 Riva P., Doerr M. and umer M. FRBRoo: Enabling a Common View of Information from Memory Institutions J. International Cataloguing and Bibliographic Control, 2009, 38(2): 30-34.8 Crofts N., Doerr M. and Gill T. The CIDOC conceptual reference model: a standard for communicating cultural contents J. Cultivate Interactive, 2003, 9. /issue9/chios/, 2009-10-23.9 Doerr M. The CIDOC conceptual reference module: an ontological approac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论