第6章-元数据.ppt_第1页
第6章-元数据.ppt_第2页
第6章-元数据.ppt_第3页
第6章-元数据.ppt_第4页
第6章-元数据.ppt_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 信息资源描述与组织中的元数据方案,第五章 内容回顾,信息自由组织的描述工具 SGML HTML WEB信息的组织与发布 XML,更多内容回顾,信息组织基本知识 分类方法 主题方法 自然语言,本章内容,元数据基础知识 国内外元数据发展情况 DC元数据 元数据编码 元数据规范实例,6.1 元数据基础知识,数字图书馆与元数据 元数据的概念 元数据的方案 元数据的类型 元数据的功能 元数据的级别 管理工具,6.1-1 数字图书馆与元数据,数字图书馆 一个环境,将收藏、服务和人结合起来以支持数据到信息乃至知识的全部相关转化流程,包括从创造、传播、使用以及保存的全过程。(NSF,1997) 五大要

2、素:收藏、服务、人、技术环境和管理(用户为中心,服务为主导,资源为基础,技术为支撑,管理为灵魂),元数据是关于数据的数据,是专门用来描述数据(数字对象)的内容、特征和属性,并对数据进行管理和结构化的数据,是数字图书馆信息组织的基础。,6.1-2 什么是元数据?,data that describes data data about data structured data about data what, where, when, who, howabout data information about a resource cataloguing information administra

3、tive information metadata is a set of independent assertions about a resource data that defines and describes other data (ISO/IEC 11179-3:2003(E),“关于数据的数据 data about data” 假定任何信息资源对象(网页、音频、书籍、图像等)都是数据 最抽象的、概括的、普遍接受、深入传播的定义,需要强调的是:元数据是为了达到识别、发现的目的,有时候是为了管理的目的,描述信息资源对象属性的结构化信息。 即,人们需要获得前所未有的能力去发掘更有用的、

4、更可靠的信息来满足我们的信息需求(信息发现),而要获得这种能力,必须考虑对网络资源进行某种标准化的描述。 元数据是描述数据特征和属性的、即描述、组织、发现网络信息资源的工具。,6.1-3各种各样的元数据,书目描述(马克(MARC), 都柏林核心数据(DUBLIN CORE)等) 图像与实物(艺术作品描述类目(CDWA), 图像资源协会元数据(VRA) 等) 教育,学习材料 (DC-ED, 学习物件元数据(LOM) 等) 商务(联机信息交换(ONIX), 出版要求工业标准元数据(PRISM) 等) 数字数据(问卷设计与统计方法元数据(SDSM) 地域数据(电子地域内容标准元数据(CSDGM) 音

5、乐(标准音乐描述语言SMDL) 集合藏品(档案表述(EAD),Z39.50等) 权限管理 ( 电子商务数据互操作性(INDECS)元数据框架, 权限元数据(Rights Metadata), 电子物件辨识(DOI) 等) 电子文献保护 (CEDARS, EU-Metadata for Long Term Preservation),6.1-4元数据体系与类型,管理性元数据 结构性元数据 描述性元数据,管理性元数据 描述性元数据,元数据的管理 元元数据 对元数据的标记语言、格式语言、标识符、 扩展机制、转换机制等信息的描述,对象的服务 服务元数据 服务过程 数字资源服务的揭示与表现、服务过程 服

6、务系统 服务系统等方面的相关信息的描述,对象的管理和保护 管理元数据 数字对象的加工、存档、结构、技术处理、存取 控制、版权管理以及相关系统等方面信息的描述,内容对象集合 资源集合元数据 按照学科、主题、资源类型、用户范围、生成过程 使用管理规范等形成的信息资源集合的描述,内容对象 专门元数据 描述单一数字对象(学位论文、古籍等) 的内容、属性及其外在特征的元数据,信息内容 内容元数据 标记数字对象内容 及结构的元数据,描述元数据 管理元数据,管理性元数据:为了满足管理、制定决策、保管记录的需要。提供有关数字对象的存储条件和转换过程的相关信息。 结构性元数据:文件的结构或“标记”、数据集和其他

7、被描述的信息体。确保数字对象正常发挥功能的技术性信息。 描述性元数据:描述和识别信息对象特征和分析其知识内容的数据。,6.1-5元数据的级别,6.1-6元数据能做什么?,描述Internet数据内容的本质特征、存储相应的检索路径;查找 使得Internet数据便于发现,提高了信息资源的查准率和查全率; 识别 提供数据之间的联系,指出相关数据的地址和存取方法;获取 对Internet资源进行分类,有效选择用户感兴趣的信息;挑选 对某些缺少文本的数据进行文字说明,以便描述对象有一个完整的描述。 对资源分类组织,指引用户浏览式查询导航,声音、图像、视频,6.1-7元数据特征(1),互操作性 Inte

8、roperability 不同系统之间不管各系统使用哪种软硬件都可以实现互连,减少由于技术差异产生的信息损失; 包括语义互操作、句法互操作、结构互操作 灵活性 元数据的创建者在遵循某些专门的编目规则或规范列表时,可以在元数据记录中描述足够多的细节,而不遵守时,可以尽可能少的描述细节。,元数据特征(2),模块化 Modularity 对一种资源来说,其描述、管理、服务、保存等不同类型的元数据可以在各自模块中形成,再根据需要拼接; 对一种元数据,可以采用不同的元数据格式 可扩展性 Extensibility 满足特定需要的时候,可以使用另外的一些元数据元素和修饰词的能力,6.1-8 元数据方案/规

9、范,内容结构(结构):元数据术语之间的相互关系,如元素、修饰词及其属性等的相互关系,元素本身的层级描述。 语法结构(语法):元数据内容如何被描述与描述的句法。 DC采用开放结构,可采用XML、RDF、Html等 语义结构(语义):元数据术语的具体定义。 元素:封装描述信息体的一条一条信息类目或字段,如题名、作者、时间 修饰词:语义限定;编码体系限定,6.1-9元数据应用与应用纲要,元数据标准在不同领域、不同机构中的具体应用和相应变化元数据应用。 应用纲要在元数据核心集的基础上,根据具体应用的需要,规定了元数据的结构、编写格式、核心集元素及其修饰词的语义定义、复用其他元数据规范的元素及其修饰词的

10、语义定义、命名域,以及每个元数据的取值规则等。 DC图书馆应用纲要 DC-Lib DC教育应用纲要 DC-Education,Application Profile,6.1-10元数据登记,通过登记系统对元数据规范的注册,可以使元数据得到广泛使用、公共支持和维护、使得元数据更具互操作性和标准化。 建立开放的登记系统。 DC元数据登记系统 可参阅(我国数字图书馆标准规范建设)nstl网站相关网页,6.1-11元数据和编目,相同点 为信息单元进行描述,并提供访问途径,制作过程类似; 侧重点基本相同,关注用户需求; 电子资源与非电子资源本身有很多共同特征,如题名、创建者

11、、时间等。 从广义角度,可以认为编目属于元数据,6.1-12管理工具,元数据方案越来越多,为了信息共享与增值,开发了管理工具。 应用纲要 元数据登记系统 转换工具 (映射) 搜寻项目 (元数据收割OAI-PMH) 元数据制作模板,6.2元数据发展概述,国外描述元数据发展情况 国内描述元数据发展情况,6.2-1国外描述元数据的发展情况,专门领域的描述元数据 文献资料、音视频资料、藏品、教育资源、网络资源等 跨领域元数据 DC元数据,(1)文献资料(资源对象),MARC DTD系列 MODS(元数据对象描述计划) Z39.50 Profile(描述信息资源集合的元数据) ONIX ETD-MS (

12、电子硕博士学位论文元数据标准),ONIX,Online Information eXchange在线信息交换 美国出版社协会,英国图书行业交流委员会,欧洲电子书籍交换组织等 一种描述、传递和交换出版物元数据的国际性标准 由各国出版商、发行商、零售商、图书馆及这条供应链上的经营团体共同制定,适应电子商务 ONIX文件基于XML,由XML DTD定义其结构 定义了300多个数据元素,比较复杂。 必备元素:著者,题名,ISBN 可选元素:书评,封面图,(2)音视频资料(资源对象),MusicBrainz Metadata Initiative 开放的音乐百科全书网站,包含丰富的音频资料。目的在于对互

13、联网音视频资料的内容描述模式,最终希望创建一种可移植、可扩展的数字音视频资料元数据。 MusicBrainz的元数据都来自公众用户,它提供可以上传、修改、查询这些音乐元数据的系统。,/MM/ 推荐编码方案UTF-8 采用XML,RDF便于同其他元数据交换 定义了RDF类型和属性来表示基本音乐元数据 基本类型有艺术家、唱片、乐曲 艺术家的元素有名称、唱片清单等 唱片的元素有题名、创建者、乐曲清单等 ,(3)藏品(资源对象),CDWA 艺术作品描述类目 VRAcore 视觉资源协会核心类目 REACH 艺术品与文化遗产传输记录项目元素集 藏品博物馆、档案馆

14、、艺术馆等的藏品主要指这些机构收藏的文物、绘画、雕塑、照片或其他形式的藏品,还可包含关于这些藏品的资料(印刷或数字形式的介绍性文献、图文资料等)。,CDWA,美国艺术特派组开发,用来描述艺术品、建筑,以及艺术品的视觉和文字替代品。 包含27个核心元数据,下面又设一层或多层子元素。 采用Z39.50作为传输协议标准 目前应用于美国“文化遗产在线信息项目”,智利的Inventario del patrimonio cultural,(4)教育资源(资源对象),教育资源包括资源内容、资源适用对象、资源适用的教学和教学方法要求、资源适用的技术与过程要求。 DC-Education ADL/SCORM

15、高级分布式学习共享内容对象参考模型 IEEE LOM IEEE学习对象元数据 GEM 教育资源网关,DC-Education,DC元数据教育应用纲要,旨在DC元数据框架内开发一些专门针对教育资源的元数据元素。 研究范围包括应用于多国的教育资源和不同级别教育机构的教育资源。 描述对象是各种形式的教育资源,可以是物理的,如实验器材,课本等;可以是数字的,如教学软件和网络课件等。,直接将DC元数据集复用到DCEd命名域上, 在DCEd命名域内补充两个新元素audience(使用资源的用户种类)和standard(与资源相关的教育或训练标准),对DC.Relation元素扩展一个限制属性conform

16、s to(资源所遵循的标准), 复用IEEE LOM的三个元素,即Interactivity Type(交互类型)、Interactivity Level(交互程度)和Typical Learning Time(通常学习时间)。 2002年,DCEd工作组向DCMI UB 提议为受众元素增加一个新的限制属性level,用以描述教育或培训部门,如学前教育。,(5)网络资源(资源对象),非正式网络资源:免费资源,电子邮件、讨论组、论坛、BBS等; 半正式网络资源:特殊资源,各种学术团体或教育机构、商业机构、协会等单位的宣传介绍性信息; 正式出版信息:网络数据库、在线杂志和电子图书报刊等。 ROAD

17、S主题信息服务的资源组织和发现。由英国高等教育系统开发,目标是建立一个主题网关平台,帮助信息服务机构快速构建能够有效组织和建设专业领域信息的系统。提供面向用户的资源发现系统,致力于提高可供查询和浏览的WEB资源的目录和索引系统。,(6)其他,OAIS开发信息系统参考模型,档案存储系统 METS元数据编码与传输标准 CDL数字资源网络门户 ,国外元数据发展特点,以美英为代表,跨国合作;主要由图书馆、政府、行业协会、国际组织等开发 存在多种元数据方案 DC元数据占有重要地位 模块化成为发展重点 可扩展性是基本要求 互操作性是显著特征 多语种是一种趋势,6.2-2国内描述元数据的发展情况,2002年

18、10月启动“我国数字图书馆标准与规范建设”项目(CDLS) 文献资源 CNMARC, CDLS会议论文元数据规范等 古文献系列 CDLS古籍系列 藏品 MICI_DC 音频资料 中国民乐数据库元数据标准等 教育资源 CALIS系列 电子图书 超星电子图书元数据,CDLS规范 其他 国家基础地理信息系统元数据标准草案,特点 在国外研究基础上,开发适合中文资源的方案 传统中文文献资料类型领域,CNMARC占主导 中国特色的古文献系列,成就突出 国家宏观指导,多单位合作 国际标准的中文化问题,6.3 DC元数据,DC there are no prerequisites for participat

19、ion,DCMI Work Structure,More information about the operation of the groups listed below can be found in the document describing the operational aspects of DCMI Work structure: Communities and Task Groups.,DCMI Communities,DCMI Communities bring together people interested in a specific topic related

20、to Dublin Core metadata or the use of Dublin Core in a particular domain. DCMI Communities are moderated by one or two moderators. They have a Web page on the DCMI Web site and a mailing list for discussion and exchange of information. Participation in a DCMI Community is open for anybody who subscr

21、ibes to the open mailing list. Information on subscribing to the mailing list can be found on the Communitys Web page.,DCMI Accessibility Community DCMI Collection Description Community DCMI Education Community DCMI Environment Community DCMI Global Corporate Circle DCMI Government Community DCMI Ke

22、rnel Community DCMI Libraries Community DCMI Localization and Internationalization Community DCMI Preservation Community DCMI Registry Community DCMI Social Tagging Community DCMI Standards Community DCMI Tools Community,DCMI Task Groups,DCMI Task Groups are established around a specific set of acti

23、vities leading to a set of deliverables. Task groups are led by one or two Task Group leaders and consist of a group of people who commit to help perform the defined tasks. Task Groups may have a Web page, a Wiki and a mailing list. Anybody can ask for participation in a Task Group; the Task Group l

24、eaders are responsible for assigning tasks to the members.,DCMI Accessibility Task Group DCMI Agents Task Group DCMI Collection Description Application Profile Task Group DCMI Education Application Profile Task Group DCMI Government Application Profile Task Group DCMI Kernel Task Group DCMI Librarie

25、s Appication Profile Task Group DCMI RDF Task Force Joint DCMI/IEEE LTSC Taskforce,6.3-3 DC系列会议及成果,详见教材 掌握历次DC会议取得的主要成果,6.3-4 DC核心元素定义,对照教材 DC建立的初衷是建立一个简单的、用户可扩展的元数据体系 DC分为两类: 基本DC(简单DC):15个基本元素 限定DC:有较多的扩充,资源的定义,W3C/IETF 对资源的定义如下: “可被标识的任何东西。常见的例子有:电子文档、图像和服务(如”西安今天的天气预报“)、资源集合。并不是所有的资源都是可通过网络获取的,如

26、人、公司、图书馆流通的图书都可以被称作资源。 也就是说,资源可以是任何东西。 物理的东西(图书、汽车、人等) 数字的东西(网页,数字图像等) 概念性的东西 (颜色、时间点、主题等),DC 和资源,但是看来我们想用DC来描述的东西太过宽泛了! 我们真的能用 DC来描述人吗? 人有名称(titles)和主题(subjects)吗? 不太合适 一般而言,我们只用DC来描述所有资源中的一个子集 。 比如任何出现在DCMI类型词表(作为TYPE元素的取值范围)中的东西 (/documents/2006/08/28/dcmi-type-vocabulary/ ) 资

27、源集合, 数据集, 事件, 图象(静态或动态), 交互资源, 服务, 软件, 声音, 文本, 物理对象,DC元数据的描述对象:资源的抽象模型,每个资源(resource)具有零个或多个属性(properties); 每个属性(property)具有一个或多个值(values); 每个值(value) 本身是一个资源(resource)(即:用来描述资源,与属性相关的物理或概念实体。); 每个资源(resource)可以是一个或多个类(classes)中的成员;(注:作为属性值的资源所在的类(class)常被称为编码体系词表(vocabulary encoding scheme));,简单DC和

28、限定DC,简单DC(/dc/elements/1.1/) 遵从抽象模型 仅由一条描述组成 仅使用DC元数据元素集DCMES中的15个属性 不使用URI值,编码体系,复合值或相关描述 限定DC( /dc/terms/) (/dc/dcmitype/) 遵从DCMI抽象模型 至少包含一个来自于DCMI元数据术语推荐表DCTERMS中的属性,向上兼容(Dump-Down)原则,向上兼容即,限定DC相简单DC的转换; 并且在任何情况下,向上兼容算法都应该: 忽略任何相关描述和复合值 忽略任何编码体系URI,6.4 元数

29、据编码,元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。 在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML、XML和RDF,其中以XML/RDF最有潜力。,利用置标语言将元数据方案形式化,提供机器处理的规范表达,就是元数据置标。 (例如HTML/XML/RDF/XMLs/RDFs/OWL等) 形式化表述 结构化,如标记语言 例:ISO 2709,

30、元数据管理 组织与存储 元数据表现 元数据互操作 长期保存,用什么进行元数据编码?,普通文本 私有结构(WORD) 数据库 非人工可读计算机编码 机器语言 ISO 2709 标记语言 ,元数据由谁来编码,编目人员手工编码 专用的编辑器或客户端 由机器编码 自动生成描述性元数据 自动生成技术性元数据 由共享平台生成 由系统根据协议生成,SGML家族标记语言(回忆上一章内容),标记语言:标记通常是让软件识别如何来处理文本,包括: 对文本进行索引 用于屏幕显示或打印标记 转换至其他输出设备 标记语言的标记通常对最终用户是不可见的 标记语言的实例:SGML/HTML/XML,SGML,ISO 8879

31、: 信息处理-文本与办公系统-标准通用标记语言 (SGML), (日内瓦: ISO, 1986) 主要是为了定义通用的文件格式: 优点: 开放的ISO规范 可以描述复杂的文本,适用性强 适合支持对大信息容量及复杂的文本印刷的处理 缺点: 复杂的体系对效率与便携性是个挑战 成本很高,需要昂贵、复杂的软件支持 不能通过浏览器这种简单客户端来解析,HTML,一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网 优点: 相对易学易用 适用面广,有很多应用工具 非常适合用作信息展现 缺点: “非标准”的各种实现 将信息展现与信息本身混合在一起 预定义的标记集发展的空间受限 链接能力受限,Ea

32、rly Days in Richmond Hill: A History of the Community to 1930 : electronic edition. by Stamp, Robert M. Appendices compiled by Janet E Fayle Co-ordinated by Mary-Lou Griffin Richmond Hill Public Library Board 1991 based on the original document: Early Days in Richmond Hill: A History of the Communit

33、y to 1930 by Robert M. Stamp,HTML实例,From:edrh.rhpl.richmondhill.on.ca/,XML,XML 是一种较基本的表示结构化数据的语法体系 XML可以被用作: 标记一篇文档的结构与内容 表述结构化的元数据 作为一个容器表述非XML的内容 以上各种用途的综合 XML的一些原则: 可扩展: 每一个个人、机构或团体都可以定义自己的标记体系以满足各自的需求 清晰明确: XML文档可以自我表述定义 构造能力: 通过严格遵守的简单规则 可阅读: 基本上是,数据处理能力更强 索引 系统可以既快又聪明地索引XML文档 智能代理 XML能让计算机读懂哪一

34、部分的文档内容是哪一类型的数据 数据交换 可以在不同的领域交换数据,各种数据中介将会更简单、便宜与可靠 应用 与应用无关的数据共享能力 可移植性: 一次构建文档,可以按需要多次以各种格式发布 (HTML、PDF或其他各种格式,包括在手机与PDA上的应用等等) XML似乎要比其他文档格式寿命更长 信息展示: 采用XSL/XSLT语言可以使文档内容可以很方便的以各种形式被剪裁、翻译以及格式化,XML 家族,XPointer,XQuery,XLink,XML Schema,XML Infoset,XML Namespaces,XInclude,XPath,XSL/XSLT,XHTML,RDF (ht

35、tp://RDF/),6 RDF,RDF: Resource Description Framework 资源:所有在Web上被命名的、有URI的对象; 描述:对资源属性的一个陈述,表明资源特征及关系; 框架:通用模型,包容和管理资源的多样性、不一致性和重复性。 在W3C倡导下,由多家机构创立,给出了Web数据集成的元数据方案。,RDF认同“metadata是data”的观点,并以XML作为它的宿主语法,因此常常称为RDF/XML。 该通用框架,描述网络资源的方式: “资源属性值”,资源 resource,属性 property,属性值 value,语句 statement

36、,最新规范RDF (修订版) (W3C 推荐稿 (2004-2-10) 基于XML的描述语言 提供一种标准的描述模型 提供语义、结构、句法三个层次的互操作能力 模块化的互操作能力 有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用 应用前景广阔(如Semantic Web) 维护机构: W3C,换言之 “张三是由以下网址所标识的资源的作者: ”, 99-3/p22.htm,作者 author,张三, 99-3/p22.htm,作者 author,张三, 张三 ,RDF描述实例,为什么要使用 RDF?,RDF提供共享元数据的模型(model) 共享语义(meaning) 元数据可

37、以在相互了解不多或根本不了解的应用之间共享 例如一个基于RDF的书目应用能够吸收基于RDF的地理空间应用的元数据并对其意义有所理解。,RDF:三位一体的描述体系, Value-C ,value of property-B,RDF 的设计就是将你的XML文档结构化成资源、属性与值三位一体的描述方法。,value of property-A,为什么要用命名空间,推荐采用具有命名域的元数据规范有如下考虑,命名域提供了一种机制,能够: 标识元数据元素的管理机构,具有一定的权威性(某种意义上的权威控制); 支持元素的原有语义定义; 保证元素概念的“唯一性” 以及与相关概念的关系。,Namespace U

38、RIs used by the DCMI,/dc/elements/1.1/ The URI of the namespace for all DCMI elements that comprise the Dublin Core Metadata Element Set, Version 1.1 /dc/terms/ The URI of the namespace for all DCMI elements and DCMI qualifiers (other than those elements defined in the Du

39、blin Core Metadata Element Set, Version 1.1 above /dc/dcmitype/ The URI of the namespace for DCMI terms defined in the DCMI Type Vocabulary from /documents/dcmi-namespace/index.shtml,DC的RDF描述实例, 99-3/p22.htm,DC:Creator,张三, 张三 ,更多RDF描述实例, Dublin Core Metadata Initiative (DCMI) Home Page The Dublin Core Metadata Initiative is an open forum engaged in the development of interoperable online metadata standards that support a broad range of purpo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论