网络信息资源的组织原则研究对DC元数据的探讨_第1页
网络信息资源的组织原则研究对DC元数据的探讨_第2页
网络信息资源的组织原则研究对DC元数据的探讨_第3页
网络信息资源的组织原则研究对DC元数据的探讨_第4页
网络信息资源的组织原则研究对DC元数据的探讨_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络信息资源的组织原那么研究-对DC元数据的讨论引言如今人们已经进入网络时代,人们查询信息的手段越来越趋向于网络化,然而网络信息的提供者只注重信息的内容,而无视了网络信息资源的描绘问题。这使得搜索引擎无法提取网络信息资源的核心内容,从而导致查全率和查准率低。一种现象随之产生,即在互联网上总能找到甚至只能找到不需要的东西。网络信息资源被准确而合理的描绘是其被有效利用的前提和根底,尤其对庞大的网上资源而言。因此,只有对网上的信息资源进展整体上的有效组织、管理和个体上的充分提醒和描绘,才能从根本上解决查找、利用上的困难,进步查全率和查准率。但是,网上的信息资源不同于传统的文献资源的各种特点,要求创立

2、有别于传统书目著录组织方式的新工具元数据,就在这一背景下产生了。元数据,即关于数据的数据,用来描绘网络信息资源、加强对网上信息资源的组织和利用的网络数据集合。而都柏林核心元数据集Dublin Core Element Set,简称DC是其中开展比拟成熟而又比拟成功的一种元数据。DC 元数据方案的创立,是通过网络信息资源的提供者对资源属性信息的描绘,并对其内容进展编目、定位,来帮助人们尽快地在网上发现所需要的有效信息资源。因此,DC 元数据资源描绘方案又称为网上资源的编目。1 DC 元数据的开展和标准DC 是在网络环境中描绘文件类对象所需要的最小元素集。其中15 个元数据项可以分为【2】:1Ti

3、tle:标题项,由资源作者或出版者给出的被描绘资源的名称。2Subject:主题词或关键词项,一般是描绘资源的主题和内容的关键词或短语。3Description:描绘项,资源的文本描绘,包括文献类对象的文摘或视频的内容描绘。4Source:来源项,用来唯一标识被描绘资源的来源。假设当前的资源为其原始形式,来源项元素可以不用。5Language:语言项,被描绘资源内容的描绘语言。6Relation:关联项,被描绘资源与其他资源之间的关系。7Coverage:时空范围项,被描绘资源空间或时间特性。空间范围物理区域,来自标准词表的地名或全称。时间范围指资源内容,而不是资源产生的时间由日期Date 元

4、素表示。时间描绘采用与日期Date 一样的格式或者采用标准列表中的时间范围描绘。8Creator:作者或者创立者项,对创造资源知识内容负主要责任的个人或机构。9Publisher:出版者项,负责发行被描绘资源的组织。10Contributor:其他参与者项,指没有在Creator 元素中列出的对被描绘资源的创作做出了共献的其别人或组织,其奉献次于创立者。11Rights:版权管理项,被描绘资源的版权声明和使用范围。(12) Date:发布日期项,被描绘资源公开发布的日期。13Type:类型项,被描绘资源属性的范畴或类型,通常从资源类型列表中选取。14Format:格式项,被描绘资源的数据格式,

5、用于注明需要什么软件或硬件来显示和执行这一资源。为了进步互操作性,格式值应该从格式列表中选取。15Identifier:标识项,可以唯一标识描绘资源的字符或数字。这简单的 15 个元素由于具有可延伸性、可选择性和可重复性等特点,可根据不同行业的需求对其进展改编,到达描绘信息的完好性、可靠性和检索效率高的目的。从DC 元数据的元素构造及著录规那么可以看出有如下特点:1构造简单。只有15 个根本元素,且根据DC 的可选择原那么,还可进一步简化著录工程。2通俗易懂。非编目人员根据元素的含义易学易会。制作者可根据DC 的标准标引自己的网页、出版物等,进步标引的质量和效率。3可扩展性。可以与其他元数据如

6、RDFResource Description Framework,USMARC等连接使用,以弥补自身的缺乏,进步DC 在不同元数据系统中的互操作性。4可选择性。根据行业不同,选择不同的元素进展描绘,如对地图、天体、艺术品、多媒体等的描绘,由于它们各有其特点,在描绘时可选择Description(内容描绘)、Relation(关联)项来解决。5可重复性。解决了多创造者、多版本、多语种等的著录问题。如一个主页是由多部门协作完成和维护,或由几个语种提醒,DC 通过它的可重复性即可解决。6可修饰性。根据对不同资源信息描绘的需求,对元素可修饰。如对动态的网页进展描绘时,DC 可通过创作时间、修改时间、

7、有效时间等修饰性来解决。7信息描绘的灵敏性。既可用标准化中的标准化词标引,也可用关键词标引。在实际应用中,仅仅依靠这15 个根本元素的描绘才能是有限的,因此必须加以限定和进展假设干子元素的标准描绘。有关DC 限定词及子元素的定义目前正在开展之中,在1997年3 月的第四次DC 研讨会上确定了DC 附加的三个限定词:形式体系Scheme、语种描绘Lang、属性类Type。1Scheme 形式体系:用来指明元素值得选取遵从已有的或正在讨论中的某个体系构造中的合法值,如分类发表、主题词或各类代码值。如一个Subject 字段应从LCSHLibraryof Congress Subject Headi

8、ng中取值。Scheme 限定词对应用软件或应用人员能提供一个处理线索,以使被限定元素能更好的使用。2Lang 语种描绘:指明元素值描绘字段所使用的语种,而不是资源本身的语言。由于网络上的多语种问题越来越突出,这个限定词变得越来越重要。迄今为止,英语被假定为网上的语言,但这一现象正在改变,确定资源本身和资源描绘的语言问题变得极为重要。3Type 属性类型:指明目前元素的值是元素何种类型的值,一般以子元素限定的方式来描绘。2 DC 元数据的描绘对象和描绘原那么DC 元数据把它描绘的对象称为“资源,这种资源既可能是物质的实体也可能是抽象的实体,比方:当描绘创立者时,DC 就是一个人、或者一个团体、

9、或者一个效劳机构这就是物质实体;当描绘日期时,DC 就是时间上的一个点或一个段这就使一个抽象的实体;当描绘覆盖范围时,DC 就是一个地区或国家这就使一个物质实体。当描绘主题时,DC 可能是一个抽象实体的抽象概念,也可能是对一个物质实体的主题或人等等,所有这些描绘对象都称作“资源。可见,DC 元数据描绘的对象资源指任何可以标识的东西【3】。一条元数据可以由一个或多个关于一个或多个资源的元数据描绘组成,这个原那么超越了以前的简单DC 纪录只能有一条描绘的限定,一条DC 元数据就是一个元数据描绘集合,并可以采用任何一种编码语言来陈述,比方XHTML meta tags, XML, rdf/XML 等

10、。这个原那么同时规定每一个DC 元数据描绘只能描绘一个资源,也就是所谓“1:1原那么one-to-oneprinciple。3 从 MARC 到DC3.1 MARC 的产生MARC 是图书馆为适应计算机技术在图书馆编目的运用而产生的,图书馆历来依赖目录提供馆藏信息效劳,图书馆目录与图书馆是分不开的,最早的图书馆目录是书本式的目录,这些目录只能提供简单的少量检索点,而且因为是手工操作,出版时间长,更新不容易,有很大的局限性。因此,当计算机开场应用后,MARC 格式应运而生。MARC 是MachineReadable Catalogue,称为机读目录,可以把人们可以识别的书目信息,使计算机也能识别

11、,计算机同时将信息反应给人类,成为人类所需要的各种书目产品【4】。3.2 MARC 的局限性1这种方式只是用于图书馆,而且工作很繁琐。MARC 字段非常复杂,即使如今大局部图书馆都是进展联机编目工作,也要花费很多时间来添加本馆自定义字段。2编目人员需要经过专门的训练及长期的理论,对编目人员的素质要求很高,不仅要懂得一两门外语,而且要对计算机操作非常熟悉,编目工作是一项繁重又耗脑力的工作,必须是严谨的人员才能胜任这项工作。3MARC 的著录需要在专门的软件系统环境中使用,不适应如今的互联网环境。它适用于完好的、静止的信息内容的处理。但是,如今的信息资源不仅仅限于书本式的信息,网络资源开展迅速,动

12、态的多媒体信息资源日益增加,假如这些资源没有很好的进展组织和整理,它就会泛滥成灾,形成信息污染【5】。4MARC 的修订程序相当复杂,而且修改的进程非常缓慢。3.3 DC 元数据虽然 MARC 正在不断地开展,它进展的网络信息资源编目是受控编目,编目数据质量较高,但是编目速度慢,本钱高。面对这个问题,许多信息技术界的研究者设计了元数据格式来描绘电子信息资源。尽管MARC 也是元数据的一种格式,但是目前人们研究的较多的是侧重于电子资源和网络资源的应用。DC 元数据就是针对网络信息资源组织与整理问题而由图书馆和信息界提出来的解决方案之一【6】。4 DC 元数据的开展趋势4.1 对网络信息资源的影响

13、4.1.1 网络信息资源的特点由 DC 元数据的描绘原那么可以分析得出网络信息资源的特点:包罗万象,分布广泛,数量大,类型多,动态快速增加,可利用性和可靠性不断地变化,信息源分散无序。这些特点也决定了网络信息资源更迭和消亡都无法预测,同时,由于网络上存在的大量信息垃圾、信息病毒、信息孤岛,使得很多网络信息资源本身并不具备利用的环境和价值。这种种特点使得传统的文献组织方式和检索手段几乎无能为力。 网络的出现改变了人们交流的方式,也改变了传统的文献类型,网络信息资源以一种迅猛开展的态势冲击着我们组织、描绘文献资源的方式和方法,成为了一种无法无视和回避,又难以解决的问题。在网络时代,要解决检索网络信

14、息资源的种种障碍,除了在技术上不断开展以外,还应从源头上去标准网络信息,由信息提供者和信息机构对网络信息资源做深层次的加工与开发工作,使一般的网络信息检索者可以在这种重新开发的阶梯上找到自己真正想要的信息,到达检索的目的。因此,在组织网络信息资源时应坚持以下原那么:1信息共享网络世界没有了时空的间隔,假如还按照传统的工作形式,各自为阵、各自搜集、加工、处理、提供检索,那样既不利于搜集也不利于利用。因为没有任何一个信息机构有实力可以搜集完好所有的信息资源。多个信息机构结合不失为一个实现信息共享的好方法。2提供远程效劳目前,各个学科的开展都非常迅速,信息资源及信息资源的创立者和使用者构成了一个庞大

15、的、不断开展变化且极具活力的群体,信息机构要更好地担负起资源组织者的角色,就必须及时吸收这些专业的成果,才可以使经过整合后的信息资源具有更高的使用价值,否那么即使拥有再先进的技术和手段,也无助于进步信息机构在网络信息资源流动链中的作用。而组织信息的目的在于提供效劳,网络的开展已成为不可阻挡的趋势,因此将来信息机构在效劳上更多的以提供远程效劳为目的,提供尽可能完备的检索途径,方便人们通过各种计算机终端进展检索。3合适用户的检索习惯信息资源的组织是为了更好的利用,然而DC 元数据系统还不很完善,人们还习惯于使用MARC 格式进展标引的情况下,应充分挖掘MARC 标引系统的潜力以适应网络信息资源检索

16、的需要。近年来,MARC 格式一直处于不断的晋级过程中,特别增设字段为电子文档建立超链接,并对相关字段进展了个别调整,扩大了原有字段的内涵。MARC 还特别增加了856 字段,即电子地址检索方式字段,856 字段著录网络信息资源的获取方式及获取的必要信息,通过它可实现书目纪录与网络信息资源的链接。增加了856 字段后,使编目工作进入了一个新的阶段,其超文本的链接方式,扩展了机读目录的功能,为读者检索信息资源提供了更为快捷、高效的途径。4.2 MARC 与DC 并存是图书馆信息资源组织的开展趋势4.2.1 复合图书馆是将来图书馆的新形式目前大多数图书馆都存有数以万计的MARC 格式的书目数据,在

17、当前以及可以遇见的将来,传统的印刷型文献仍然是图书馆信息资源的重要组成局部和读者效劳的重要物质根底。纸质文献出版业将在相当长的时期内与数字化信息的出版发布共同繁荣。DC 元数据格式虽然开展迅速,但尚未形成国际公认的标准,不同的元数据有其发挥作用的不同领域。MARC 与 DC 的并存将是今后一段时期内图书馆信息资源组织的开展趋势。4.2.2 实现 MARC 与DC 的互相转换对 MARC 和 DC 两种元数据格式的讨论,目的是通过研究,找出一个在应用上最能发挥效益的资源处理方法。目前有关DC 元数据格式向标准 MARC 格式转化的理论已获得很大的打破,这使得 MARC 与DC 间互相转换成为可能

18、。从理论上讲,从DC 到 MARC的格式转换并不是件难事,任何一种构造化的数据都能转换成另一种数据构造,但是这种转换不可防止地会造成一定程度的数据损失。目前许多学者在研究 DC 格式与 USMARC 格式的转换,编制了一些词表反映二者之间的关系,U N I M A R C 和 U S M A R C 与 D C间映射已有成果面世,并有系统投入实际运作之中【7】。5 结语随着 Internet 的开展以及网络资源和技术越来越广泛的应用,数字图书馆的数量在网上不断增多正如纸介质图书馆中的图书、等收藏需要编目一样,数字图书馆的数字收藏(digital collection)同样需要著录和标引,以便用

19、户可以准确快速地找到自己所需的信息。DC元数据是解决网络信息资源无序化问题的一次有效的尝试和研究,特别是由OCLC 牵头组织那么意义更是重大而深远。网络信息资源的组织与整理工作已不是单由图书馆界就能完成的,更不是单纯地利用图书馆传统的编目理论就能胜任的。DC 元数据是在充分吸收了图书馆界所具有的编目、分类、文摘等经历的根底上,同时积极利用了计算机、网络界的自动搜索、编目、索引、检索等研究理论与成果所开展起来的,是当今国际图书馆界和网络界的研究热点之一。中国硕士提供大量免费工商管理硕士论文,如有业务需求请咨询网站客服人员! (References) 【2】 郝亚玲DC 元数据与网络信息资源的描绘情报科学2002,20 (10):1069-1074 【4】 董红霞从URMARC 到DC 元数据图书馆学研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论