




文档简介
ii abstract abstract network information, for its increasing intricately and severely, is unbalanced and out of control. a lot of unordered information is not the wealth, but the disaster. the search engine is not perfect because of the low retrieval efficiency, the high rate of mistakable or missing outcome, the large amount of returned information and the unsolved non-text document retrieval. the mode of “one search for all user”, cant meet the users individualized message requirements. so, the describing network resource in metadata, namely the network information catalogue, is attached importance to by people day by day. metadata is the data about data. marc and dc are both metadata forms that describe network information. by revising aacr2 and isbd(er), increasing 856 field and repacking with sgml or xml, marc has already become the exquisite method of network information catalogue. briefly describing network resources, dc is the first-selection. dcs 15 elements can be chosen, be repeated and be arranged at will, still can be limited with language, mode and type. in addition, dc form is elastic and expanding, allowing revising the element, adding or deleting the information items. in developed country, there is already a great breakthrough in the study and application of the network information catalogue. for example, oclc intercats marc record is up to 45,000, oclc corc adopts marc and dc to describe network resources and sets up the demonstrative databaseintercat and netfirst, oclcs spectrum system can change data of various metadata into usmarc data, marcit can “pick” websites information from the i 提 要 提 要 网络信息无序生产、无序分布和无序流动,导致其海量无序 剧增,并具有不均匀性和潜在的失控性 1。网络是一个信息聚宝 盆,提供了丰富的信息资源;同时,大量而无序的信息,不是财 富而是灾难。美国加州大学伯克利分校最新报告表明,每年世界 生产的信息量在千兆兆以上,这些信息多数为图像、声音和数字 数据,而印刷型资料只占总量的 0.003% 2。 搜索引擎检索效率不甚理想, 漏检与误检率较高; 返回信息 量太大, “忠实表达”和“表达差异”难以解决。 nature报告 指出:最大的搜索引擎覆盖了现有网络资源的 16%,即使把被调 查的 11 个搜索引擎加在一起,覆盖面也只增加到 42% 3。steve lawrence 和 clee giles 研究表明搜索引擎漏掉大约 84%的内 容 4。据专家评测,主要搜索引擎返回的相关结果的比率不足 45%,同一检索请求在不同搜索引擎中的查询结果的重复率不足 34% 5,而且目前没有任何搜索引擎充分解决了非文本,诸如图 片、压缩文件、音响、动画文件等的索引编制问题 6。 “一个搜 索适用于所有用户”的搜索模型无法满足用户个性化信息需求。 此外, url 改变造成了大量的死链接, 搜索引擎却对此反应迟钝。 “信息爆炸”导致信息“认知过载” ,信息的无序增长和人 们的特定需求形成了尖锐的矛盾。于是,网络信息资源编目提上 了议事日程,元数据标准迅速成长。元数据(metadata)是关于数 据 的 数 据 (data about data) , 或 描 述 其 它 信 息 的 信 息 (information that describes other information) 7。元数据 是结构化的数据,通过描述信息资源特征与属性,实现对信息资 源的揭示、定位、组织、索引与检索。 元数据对信息的内容和位置进行准确地描述, 提供有关信息 对象的名称、内容、年代、格式、制作者等基本属性。元数据的 功能主要有:描述、定位、发现、评估、选择、交互和管理等。 ii 在不同信息领域有不同的元数据标准,如书目信息 marc,艺术 信息 cdwa 与 vra core,档案和手稿 ead,网络信息 dc,政府公 用信息 gils,电子形式全文 tei,地理空间信息 fgdc/csdgm, 音乐资料 smdl,建筑信息 fda/adag,文化艺术信息 reach 等。 其中,marc 和 dc 是最突出的描述信息的元数据格式。 marc 是以代码形式和特定结构记录书目信息,能够被计算 机识别、存储、编辑和输出的目录形式。简言之,marc 就是机 器可读目录。marc 记录由记录头标(record label)、地址区 (directory)和可变数据字段(variable data fields)三部分构 成,每条记录均以记录终止符结束。marc 是最成熟、最规范和 最详细的元数据,著录信息可靠度和准确度高。通过修订 aacr2 与 isbd(er)、 新增 856 等字段和用 sgml 或 xml 重新包装 8, marc 已成为精致的网络信息资源编目方式 9。现在,我们还可以通过 xml/dtd 或 xml/rdf 描述 marc 字段,实现 marc 数据的 xml 结构 化,保证 marc 数据库与网络信息的集成。 marc 的 856 字段主要记录电子资源的存贮地址和存取方式, 包括 marc 的定位与电子资源检索所需要的电子资源地址、登录 方式、读取方式、传输方法、甚至口令等重要信息。指示符 1 表 示电子资源检索方式 9, 说明电子资源获取方式(access method), 即 emall(电子邮件)、 ftp(文件传输协议)、 dial-up(电话拨号)、 telnet (远程登录)、http(超文本传输协议)、mms(windows 流 媒体协议)等。指示符 2 表示编目记录与网上电子资源之间的关 系 91011:resource(电子资源),version of resource(有电子 版),related resource(有电子版相关资源),no display constant generated(没有显示)。此外,marc 还对网络信息资 源进行相关附注,如著录依据、检索限定、文件格式、其它载体 形态、系统要求、访问方式等 12。 oclc intercat 采用 marc 格式进行网络信息资源编目,现 有 marc 记录 4.5 万条。网络信息 marc 编目工具 marcit,可从 iii 浏览器“抓取”网站的标题、url 及其他数据,自动在 opac 上 建立一条 marc 记录 13。oclc 成功研制描述和检索网络信息资源 的 spectrum 系统,可以将各种元数据格式转换为 usmarc,利用 marc 对网络信息资源进行编目已经成为一种现实。 6 dc(dublin core)是 dublin core elements set(都柏林核 心元素集)的简写, 是网络信息描述的最小的标准元数据元素集。 dc 包括标题、著者、主题、资源描述、出版者、其他责任者、 日期、资源类型、格式、标识、信息来源、语言、关联、资源的 覆盖范围、版权等 15 个元素。这 15 个核心元素,可选择、可重 复和可任意排列, 还可用模式(scheme)、 语言(lang)和类型(type) 来限定与细化元素语义。获取题名、出版者、形式、类型、标记 符、日期和主题等 7 个元素,就可以对网络信息进行简单著录。 此外,dc 格式具有弹性和扩展性 14,允许修改或增删元素反映 特定的描述对象。例如有学者为了全面反映 marc 数据,提出将 dc 扩展为 edc, 新增 call-no(索取号)和 order-no(订购号)两个 新元素 15。dc 即能保证网络信息描述的简洁灵活,又能保证网 络信息著录的详细充分。目前,他已成为了世界上使用最广泛的 元数据格式。 1998 年,因特网工程任务组 ietf(internet engineering task force)正式接受 dublin core 元素集,将 dc 作为网络资源 编目方式的一个正式标准(rfc2413)予以发布 16。dc 可用 html、 xml 和 xml/rdf 等标记,其描述网络信息所形成的数据,既可以 作为独立的记录、存储和传递,又可以作为信息资源的一部分嵌 入信息资源中。 超文本标记语言 html(hypertext markup language)、可扩 展标记语言 xml( extensible markup language)和标准通用标 记语言 sgml(standard generalized markup language)是网络 上通行的三种标记语言。 实际上, html 就是 sgml 的一个专门 dtd 类型,而现在非常流行的 xml 可看成是 sgml 的一个简化版 17。 iv sgml 功能强大但过于复杂,实现和维护不易,不适合描述简单 的文档。因此 dc 通常以 html 和 xml 作为编码标准。 html 文档通过 head/meta 表明文档的某一属性及属性值, 即标题、作者、版权等文档信息。dc 设置了两种 html 语言标签 “name” 和 “content” , 同时将每个单元都加了著录标识(label), 既可使用 html 语言输出 web 产品,又保留其著录标识和体系。 每个 dc 元素对应一个head的meta标记,元素可能有修 饰词和内容细化属性,使用 html/meta 元素标记 dc 的基本格式 是为: 或: xml 可扩展性强,可轻易地完成不同元数据格式间的相互转 换,具有联接各种元数据格式的重要作用,因而逐渐为各种元数 据格式所采用。文献类型声明 dtd(document type description) 定义文件所代表的信息单元内容结构, 是 xml 用户扩展的重要途 径。资源描述框架 rdf(resource description framework)是一 个使用 xml 语法来表示的资料模型, 用来描述互联网资源的特性 及资源与资源之间的关系。xml 和 rdf 分别规范了 internet 上 资源描述的语法和语义,为元数据的编码、交换和重用提供了基 础架构。xml 可以看作为一种标准化的元数据语法规范,rdf 可 以看作为一种标准化的元数据语义描述规范 18。 网络信息数量庞大、质量不一,稳定性和可靠性差别很大, 其编目层次等级、格式要求和描述详略等各不相同,这要求以不 同的元数据标准对网络信息资源编目。因此 oclc 的专家提出以 不同的编目标准对网络信息资源编目的原则 19。michael gorman 建议以完整编目、完整“都柏林核心”记录、简化“都柏林核心” 记录和未结构化全文关键词检索等四种不同等级的描述方法对 网络信息进行组织,dillon 提出了另一个四层次的方案:传统 v 编目、 “都柏林核心”记录、粗略编辑的“自动收集”和没有编 辑的自动收集代理。 2021 oclc corc 采用 marc 或 dc 两种格式 描述网络资源,建立了示范性网络资源数据库 intercat 和 netfirst,并针对 web 提供多种输出格式 22,现有 web 电子资源 的目录记录 23 万条 23。 网络上每天发布 14 万件新的信息(总量约 450mb),全网提 供的信息总量超过 20tb。 24不同信息领域存在诸多元数据格式, 仅文献 25就列出了 14 种应用领域中的 22 种元数据格式。 众多的 元数据标准,描述信息耗时费力,并且要求从业人员专业化。网 络信息资源的著录、组织与检索,迫切需要一套标准化的信息描 述语言与数据交换格式。 marc 与 dc 两种元数据, 都是网络信息资源编目的格式。 marc 结构严谨,有统一的格式和编码规则,对信息资源的著录详细完 整,描述及定位准确 7,较好地保证了不同主体对于同一资源描 述的一致性。dc 元数据结构灵活,著录简单,数据格式互通性 强。dc 定义了网络信息描述的最小的元数据元素集,保证信息 资源发现工具之间数据的互相转换 26, 是网络信息资源描述的基 础的跨领域的元数据集 9,是简单描述 internet 资源的首选27。 marc 和 dc 适合网络信息分等级著录的要求,并且信息描述能力 突出、信息描述充分完整,具有良好的基础和较强的影响力。总 之,marc 和 dc 是网络资源揭示的首选格式,也是网络信息编目 的通用格式。 因此,我们可以构建基于 dc-marc 的元数据集,即以 marc 和 dc 为核心,各种元数据集并存发展。现有元数据标准的发展 与完善和新元数据标准的开发与制定,都必须以 dc-marc 为基 础。dc-marc 的元数据集既可对网络信息进行不同等级的编目, 又可实现元数据的互相转换。 当然, 某些特殊领域的元数据格式, 对特类网络信息有独到的描述功能。 我们可以通过 dc-marc 的扩 展把它们纳入通用格式之中, 或者建立数据映射与转换的 “接轨” vi 机制把它们与通用格式联系在一起。 基于 dc-marc 元数据集和 xml/rdf 资源描述体系, 各种元数 据的数据单元和描述方法基本一致, 数据转换和相互操作可以无 缝衔接。若能如此,我们就能真正实现网络信息的联机编目,就 能充分实现网络资源的分布式共建共享。 vii 注释:注释: 1 刘志勇.网络环境下信息检索效率的评价.大连大学学报 j,2002,23(1):110-112. 2 2002 年“数字图书馆新世纪信息技术的机遇与挑战”国 际研讨会背景介绍. 2002-09-22. 3 steve lawrence, lee giles c. accessibility of information on the web j. nature science journals, 1999,400(8):107. 4 张 廷 华 .web元 搜 索 引 擎 的 改 进 j. 计 算 机 应 用,2002,22(2):105-107. 5 李远明.试析搜索引擎技术及其未来发展趋势j.情报杂 志,2002(7):26-28 6 黄 晓 芳 . 论 网 络 信 息 资 源 编 目 的 实 现 j. 图 书 馆 论 坛,2003,(1):82-84. 7 朱红涛. 元数据、dublin core 和 marc 分析研究j.情报杂 志,2004,(1):85-86,89. 8 孙更新,雷小平.2001-2002 年我国文献信息编目研究概述 j.2004(3):28-30. 9 刘宇.网络信息资源编目概述j.图书馆界,2002,(2):7-10. 10 靳丽娟.marc 在因特网资源编目中的应用分析j.情报科 学,2004,(6):746-748,756. 11 高红.关于网络信息资源编目的探讨j.江苏图书馆学 报,2001,(5):16-18. 12 郑雯译,丁育明.网络资源与光盘资源编目要点探析j.现代 图书情报技术, 2004,(5):58-61,65. 13 rogers, m. infotech. library journal,1998,123(3):99-100. 14 赵光林.marc 与 dublin core 之比较研究j.情报学 报,2002,(2):181-184. 15 黄伟红,张福炎.基于 edc 的书目元信息管理系统设计与实 现j.情报学报,2001,20(1):82-89. viii 16 苏广利,姜翠景.机读目录格式与元数据格式用于网络资源组 织的比较研究j.图书馆杂志,2001,(1):19-22. 17 张晓林主编.元数据研究与应用m.北京:北京图书馆出版 社,2002. 18 黄伟红,张福炎.基于xml/rdf的marc元数据描述技术j. 情报学报,2000,19(4):326-332. 19 伍宪.美国图书馆界如何对因特网信息资源进行编目j.图书 情报知识,2001,(1):55-57. 20 许 磊 . 网 络 资 源 编 目 现 状 分 析 j. 情 报 科 学.2003,21(4):391-394 21 oder, n. cataloging the net: can we do it? library journal, 1998, 123(16):47-51. 22 陈如好.现代文献信息编目技术研究进展j.图书馆理论与实 践,2003,(6):5-6. 23 chepesink r. organize the internet: the “core” of the challenge. american library, 1999, 30(1):60-63. 24 宋 蓓 玲 . 网 络 信 息 资 源 编 目 初 探 j. 情 报 杂 志,2004,(4):123-124. 25 张晓林.元数据开发应用的标准化框架j.现代图书情报技 术,2001,(2):911,15. 26 刘嘉著.元数据导论m.北京:华艺出版社,2002. 27 刘延,原掁秋.元数据dc与机读目录marc的联系与区别j. 现代情报,2003,(10):136-137,128. x summary network information produces, distributes and transmits disorderly, which leads it to increase disorderly and severely, to be unbalanced and out of control1. the network offers abundant information resources. meanwhile, a lot of unordered information is not the wealth, but the disaster. the latest report of berkeley branch school of california university indicates that the world information output is above in giga every year, of which most are picture, sound and digital data, however the printing type materials only account for the total amount 0. 003%2. the search engine is not perfect because of the low retrieval efficiency, the high rate of mistakable or missing outcome, the large amount of returned information, the difficulty of faithful express and distinct express. nature report points out that the largest search engine cover 16% of existing network resource, that even if the 11 search engines investigated are added together, the coverage rate only rises to 42%3. steve lawrence and c. lee giless research indicates the search engine misses about 84% of the contents4. according to expert assess, the rate of relevant search result from main search engine is fewer than 45%, and the repetitive result of the same search in different search engines is fewer than 34% 5. now, there is not any search engine that can solve the problem of the non-text document retrieval, such as picture, compress file, stereo, index, cartoon, etc.6 the mode of one search for all user , cant meet the users individualized message requirements. in addition, a large number of death chains emerge from url changes, but search engines reaction to which is too low. the “information explosion” causes information “recognition over loading”, and there is a sharp contradiction between the xi unordered increasing information and peoples specific demand. so, the network information catalogue comes forth, and metadata standard grows up rapidly. metadata is the data about data, or the information that describes other information7. metadata is the structural data, which makes it a reality to discover, locate, organize, index and retrieve information resources by describing its characteristic and attribute, metadata accurately describes the content and position of information, and offers its basic attributes such as name, content, time, form, producer etc. the function of metadata is mainly as follows: description, location, discovery, evaluation, selection, exchanging and management, etc. in different information field, there exists different metadata standard such as marc, cdwa and vra core, ead, dc, gils, tei, fgdc/csdgm, smdl, fda/adag, reach, etc. among them, marc and dc are the most outstanding metadata forms that describe information. marc is the catalogue form, which is recorded with digital code and specific structure, and can be identified, stored, edited and exported by computer. in brief, marc is the machine-readable cataloging record. marc is composed of record label, directory and variable data fields, each record ending with record stopping label. being the most ripe, norm and detailed metadata, marc offers reliable and accurate information.8 marc has already become an exquisite catalogue method of network information resources9 by revising aacr2 and isbd(er), increasing 856 field and repacking with sgml or xml. nowadays, we can also describe marc field in xml/dtd or xml/rdf, and make marc data in xml structure to integrate marc database with network information. xii the 856 field of marc records the storing address and the access method of electronic resources, including its localization and requirement such as electronic resource address, log-in way, read way, transmitting method, even password etc. the indicator 1 demonstrates electronic resource access method9, namely emall, ftp, dial-up, telnet, http and others(for example mms). the indicator 2 expresses the relation between the catalogue record and the network electronic resource91011, including resource, version of resource, related resource and no display constant generated. in addition, marc also describes the relevant reference for network information resources, such as record sources, search limits, file forms, other carrier types, system requirements, access methods, etc12. oclc intercat adopts marc form to describe network information resources, and now there are 45,000 marc records. the network information marc cataloguing toolmarcit, can “pick” title, url and other websites information from the browser, and automatically set up marc record on opac13. oclc succeeds in developing spectrum system describing and searching network information resources, which can change data of various metadata into usmarc data. so, it becomes a kind of reality to utilize marc to catalogue network information resources.6 dc(dublin core), a simplification of dublin core elements set, is a minimum metadata element collection standard that describes network information. dc includes 15 elements, which are title, creator, subject, description, publisher, contributor, date, type, format, identifier, source, language, relation, coverage, rights, etc. these 15 elements, can be chosen, be repeated and be arranged at will, and still can be limited with language, mode and type. with title, xiii publisher, form, type, identifier, date and subject, we can record briefly the network information. in addition, dc form is elastic and expanding14. it is allowable to revise, add or delete the elements to give specific description about information. for example, in order to reflect marc data in an all-round way, some scholars propose to expand dc into edc by newly increasing “call-no” and “order-no”15. in this way, dc can describe network information in a succinct and flexible way as well as a detailed and sufficient way. at present, it has already become the most popular metadata form in the world. in 1998, ietf(internet engineering task force) accepted formally dublin core element collection as a formal standard(rfc2413) of cataloguing network resources16. dc can be marked in html, xml, xml/rdf, etc. in describing network information, dc data can be recorded, stored and transmitted independently, and can also be put into information resources as a part of it. html(hypertext markup language), xml(extensible markup language) and sgml(standard generalized markup language) are three kinds of current mark languages on the network. in fact, html is a special dtd type of sgml, and xml can be regarded as a simplified edition of sgml17. sgml is powerful but too complicated. being difficult in build and maintenance, it is unsuitable to describe the simple file. so dc regards html and xml as the code standard commonly. by head/meta, html file indicate the attribute and attribute value of the file, for instance title, author, copyright, etc. dc sets up two html language labels “name” and “content” and adds label for each unit at the same time. it can not only export xiv web products in html, but also retain its label and system. each dc element, including qualifier and content attribute, corresponds to a head/meta mark. the basic dc form marked in html/meta is: with strong expansibility, xml can easily transform data and have the important linking function in different metadata. so various metadata forms adopt it gradually. dtd(document type description) defines the information unit content structure of the file, which is the important way for xml users to expand. rdf(resource description framework) is the model to express materials in xml grammar, which is used to describe the characteristic and the relation among network resources. xml and rdf standardize the internet resources grammar and semanteme respectively, which offers the basic framework of metadata code, data exchange and data reuse. xml can be regarded as a standardized metadata grammar norm, while rdf can be taken as a standardized metadata semanteme norm18. there is a large quantity of network information with different quality, stability and dependability, whose catalogue grades, form requirements and description details are all different, which requires cataloguing different network information with different metadata standards. so the oclc experts put forward the principle that network information resources is catalogued with different metadata standard19. michael gorman proposes using four different network information description methods full catalogue, xv full “dc” record, simplify “dc” record and unstructured full text keyword index to organize network information. dillon has proposed the other four levels schemes: tradition catalogue, “dc” record, “collect automatically” being rough edited and unedited “collect automatically” agent.2021oclc corc adopts marc or dc to describe network resources, and has set up two demonstrative network resource database intercat and netfirst, which offer many kinds of outputs forms22 to web and own 230,000 catalogue records on web electronic resources23. it releases 140,000 pieces of new information (total amount about 450mb) every day on the network, and the whole network information quantity exceeds 20tb.24 there are a lot of different metadata forms in different information field, for example, the document 25 presents the list of 22 metadata forms in 14 application domains. numerous metadata standards, cost a lot of time and energy in describing information, and require special employees. the recording, organizing and searching of the network information resources, urgently needs a set of standardized information describing languages and data interchange forms. marc and dc are both the netw
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机场航空运营专家考试试题及答案解析
- 机电维修基础知识培训
- 2025年物流仓储安全操作题库
- 2025年安全生产保障题及答案
- 希沃课件制作教学设计
- 2025年建筑施工安全培训题及答案
- 2025年安全管理实操题及答案指南
- 2025年大数据技术应用能力提升专项面试模拟题及参考答案
- 2025年数据分析师职业技能水平评价试题
- 2025年健康指导员笔试模拟试卷
- 2022年全国中学生数学奥林匹克竞赛(预赛)暨2022年全国高中数学联合竞赛一试(A卷)参考答案及评分标准
- icp仪器分析考试试题及答案
- 核心素养培养:历史单元分层作业设计
- 水库引调水工程可行性研究报告(参考范文)
- 8.1薪火相传的传统美德同步课件 -2024-2025学年统编版道德与法治七年级下册
- 化妆画眉培训课件
- 2025年小学语文教师招聘考试专业知识全真模拟试题及答案(共七套)
- 基于PMTS传感器的GH4169智能螺栓(紧固件)技术规范
- 2024-2025学年人教版数学七年级下册期末测试卷 (含答案)
- 2025年合伙项目新增合伙人协议书
- 小学教师资格证笔试科目二-《教育教学知识与能力》124道简答题
评论
0/150
提交评论