




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)数字图书馆中基于本体元数据的语义搜索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河海大学硕士学位论文摘要 摘要 传统的数字图书馆由于文献资源缺乏语义描述以及查询缺乏语义支持,其信息检索 性能难以满足用户需求。下一代基于本体元数据的语义数字图书馆可提供文献资源的语 义搜索,提高信息检索的性能。本文在研究总结当前数字图书馆相关技术现状的基础 上,针对文献资源语义搜索这个问题,提出了基于本体元数据的数字图书馆体系结构, 并实现了文献资源语义描述及语义搜索功能。 本文主要工作包括:( 1 ) 通过对e ex p l o r c 与a c mp o n a l 等数字图书馆中信息搜 索方式的分析总结,提出了基于本体元数据的数字图书馆体系结构,该体系结构以 d u b l i i ic o r e 为元数据规范,以r d f 为资源描述语言,并基于主题本体来描述数字图书 馆中的文献资源;( 2 ) 提出了一套期刊会议论文元数据集,引入了r d f 容器机制来实现 d u b l i l lc o r e 元数据描述,使用本体对d u b l i i lc o 的主题词进行扩充,完成了本体元数 据设计;( 3 ) 提出了基于s p a r q i ,的语义搜索算法,该算法采用主题概念语义扩展规则 来提高检索性能;( 4 ) 设计了x s l l 样式表,将s p 灿l 查询结果友好地显示给用户; ( 5 ) 实现了一个基于本体元数据的计算机科学语义数字图书馆原型系统,实现了期刊论 文元数据的语义检索,并用典型案例验证了本文技术方案的有效性和可行性。 本文研究成果对开发下一代语义数字图书馆具有科学意义和实用价值。下一步工作 是跟踪语义数字图书馆的发展方向,进一步细化和完善本文提出的系统体系结构;同时 考虑利用语义w 曲规则语言,进一步提高数字图书馆的语义检索性能。 关键词:语义搜索,数字图书馆,本体,元数据,) f 河海大学硕士学位论文摘要 a b s t r a c t b e c 觚s e0 fm el a c k0 fs e m 矩t i c sf b rl i 胁眦s o u r c e sd c s c r i p t l a n ds 锄锄t i c s u p p o r tf b ft l l eq u e r yp c e s s i l l g ,打a d i t i 伽a ld i g i t a ll i b 忸r i 懿a r cu n a b l et os a t i s f yu s e 捧i l i i e p e 刮f b m 肌c co f i i i 】f b n n a t i o nr e t r i e v a l ,i l i en e x tg 钮e r a t i o nd i g i t a l l i b 谢e sw h i c ha r eb 嬲e d 吼 伽t o l o g ym e t a d a t ac 觚p d 0 v i d es 锄a n t i cs e a r c ho fl i t e i 劬j r er c s o u r c e 8 ,t l l u si m p r o v cm e p e r f b 珈匝a n c eo fi i l f b 珊a t i 伽r c t r i e v a l b y 觚a l y z i i i gt h ee x i s t i i i gt e c l i i l o l o g i e s i i id i g i t a l l i b r 撕e s 孤df o c u s i i l go ns e m 雒t i cs e a r c ho fl i t e r a t i l r er c s o u r c e s ,t i i i sp a p c rp r o p o s e sd i g i t a l l i b 蝴i d ,a r c h i t e c t i l r cb 鼬e do no n t o l o g ym e t a 挑锄di n l p l e m e n t s8 锄a n t i cd e s c r i p t i o n0 f i i t c r a t l l f em s o u r c e sa n d l es 锄a n t i cs e a r c h t h em a i l lw o d c0 fn i i sp a p 盯i i i c l u d c s :( 1 ) b y 趾a 蛇崦m 拙o d so fi n f o 皿a t i o ng e a r c h i i i :e ex p i o 孤da c mp o r t a l 强do m e rd i g i t a l l i b 伯r i e s ,t i i i sp a p 吼。p p o s e sd i g i t a l l i b r a 巧 躺h i t c c t l 玳b 勰e d 吼t o l o g ym e t a 如t aw h i c h u s e sd u b l i i ic o 托嬲m e t a d a t ac r i t e r i 吼,砌) f 嬲r e s o u r c ed e s c r i p t i o nl a n g u a g ea n dd e s c r i b e sl i t e m t i l 坞r c s o m c e si nd i g i t a ll i b 糟以e sb a s e d o nas u 巧e c to n t o l o g y ( 2 ) p 】r o p o s i i l gas u i to fj 0 u m a l c 优l f b 坞n c en l e s i sm e t a d a t as e t i l i 仃o d u c e sr d fc o n t a i l i e rm e c h a n i s mt 0d e 8 c r i b ed u b l i i ic o r em e t a d a t a 觚du s e so n t o l o g yt o e 蕊e n dt l i es u b j e c tc o n c 印to fi ) u b l i nc o r c ,s ot l i eo n t o l o g ym e t a d a t ad e s i g ni sc o m p l e t c d ( 3 ) p r 叩o s 证gas e m 锄t i cs e a r c ha l g o f 砒皿b 铺e d s n u lw h i c hu s e ss e m 锄t i oe 对e n d c d m l e so fs u b j e c tc o n c e p t st 0i m p r 0 v es e a r c hp a f b n n 龇c e s ( 4 ) d e s i g n i i l gx s l ts 够l e s h e e tt o d i s p l a yu s e 瑙s p a r q lq u e r yr c s u l t s ( 5 ) i n l p l e m e n t 证gap r o t o 锣p es y s t e m0 fc o m p u t e r s c i e n c es e m a n t i cd i g i t a il i b m r yb 嬲e do no n t o l o g ym e t a d a t a 锄dn l es 锄a n t i cs e a r c ho f j o u m a l - c o n f b r c n c e l 铭i sm e t a d a t a ,龃du s 近gt ) r p i c a lc 嬲e st oi l i d i c a t e i a tt l l ct c c h n i c a lp l 觚 0 f 也i sp a p 盯i se 彘c t i v e 跏df c 嬲i b l e t h er e s e a r c ho fn l i sp a p c ri 8u s e f i l lf o fd e 1 0 p i i i gn i en e 斌g e n e 豫t i o ns e m a n t i cd i g i t a l i i b r a r y 砚dh 嬲s c i e n t i f i cs i g n m c 锄c e 粕dp r a c t i c a lv a l u e t h en e 斌s t 叩o fn l i sp a p e ri st o 的c et l i ed c v e l 叩m 饥td i 心c t i o no fs e m 觚t i cd i g i t a l l i b r 撕e s 锄dr c f m e0 u rd i g i t a l l i b r a r y a r c h “e c t i l r e a l s o 、c o n s i d c ri l l 们d u c i i l gn l l el 锄g u a g e si l is e m a n t i ow g bt oi m p r 0 v en i e p e r f b 衄觚c eo fs 锄a n t i cr c t r i e v a li l ld i g i t a ll i b 期d e s k ) 啪r d s :s 锄锄t i cs e a f c h ,d i g i t a ll i 协吼t o l o g y ,m e t a d 呶r d f n 学位论文独创性声明 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 固圣垒& p 。睁6 月7 日 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权 河海大学研究生院办理。 论文作者( 签名) 盈垂丝 加睥6 月,7 日 河海大学硕士学位论文绪论 1 1 选题依据 第一章绪论 1 1 1 研究背景 数字图书馆( d i g i t a ll i 慨d l ) 是一种馆藏以数位化格式储存、可以利用电脑存 取的图书馆,而传统图书馆的馆藏则以印刷、微缩胶片或其他媒体等相对格式为馆藏主 体。数位化的内容可以被存在本地端或通过电脑网络由远端存取。数字图书馆可说是一 种资讯检索系统【l j 。 d l 是社会信息基础结构中信息资源管理、存储和传输的基本组织形式,它拥有丰 富的多种媒体介质的数字化信息资源,依托国际互联网和其他网络而存在,并通过网络 为信息需求者提供高效、快捷的数字化信息服务,使处在不同地理位置的人们能够方便 地随时利用大量的分散收藏数字化、操作计算机化、传递网络化、信息资源存取自由化 和信息资源全球共享化的数字图书馆资源。 在信息检索方面,当前大多数d l 所采用的主要检索方法是基于一定的格式和结构 对特定字段的检索,但是这种方法要求人工基于特定的字段对信息资源进行标识,检索 的效果取决于标识方法的优劣以及用户对标识字段的理解:而基于关键字的检索的效果 取决于用户输入的关键字,查准率不能让人满意。因此,无论是在语义互操作和信息检 索方面,当前的d l 都还有许多亟待改进的地方。 w w w 创始人t i mb e m e 鸺l e e 首次于1 9 9 8 年提出了语义w 曲( s e m 觚t i cw 曲) 的 构想【2 l 一语义w 曲上的信息都是机器可理解或可处理的,w 曲应用之间的语义互操作 性要求得以满足。语义w c b 被认为是下一代w r e b 的信息基础设施,它为w 曲的实际信 息内容提供形式化语义,以实现信息在语义层次的互操作能力,从而使得计算机和人类 能够更好的协同工作,更好的为人类服务。简言之,语义w 曲是当前w 曲的一种扩充, w - c b 信息将给予明确定义的含义( 语义) ,以使计算机和人更好的协同工作。 随着语义w 曲的发展,尤其是w 曲本体语言( w 西0 l i i t o l o g yl 锄g u a g e ,o w l ) 【3 1 【4 】 和资源描述框架( r c s o u r c ed e s c r i p t i o nf 豫m e w o 如l f ) 【5 1 1 6 1 【7 】以及新近成为w 3 c 推荐 标准的i 国f 查询语言和协议s p f 6 姻l 1 8 j 【9 】等相关技术的的兴起和发展使得d l 领域解决 上述问题成为了可能,尤其是在信息检索方面,将语义w e b 技术用于d l 的检索技术中 必然能够提高其检索性能。 语义数字图书馆( s e m a n t i cd i g b ll i b r a 嘎s d l ) 【1 0 1 可以认为是下一代的d l ,它可 以使不同的元数据信息一体化,如资源( r e s o u r c e s ) 、用户简档( u s c rp r o f i l e s ) 、书签 ( b o o l c n l 池) 等,具有高质量的语义信息,并且提供与其他系统间的互操作( 不仅仅 是d l 之间) ,可以提供更加健壮( r o b u s t ) 、对用户更加友好和易于适应的搜索( s e a r c h ) 河海大学硕士学位论文绪论 和浏览( b r 0 w s e ) 接口。 1 1 2 研究问题 传统的数字图书馆由于文献资源缺乏语义描述以及查询缺乏语义支持,其信息检索 性能难以满足用户需求。d l 中基于本体元数据的语义搜索是下一代语义数字图书馆中 的核心问题之一。针对基于本体元数据的文献资源语义搜索这个问题,本文以砒) f 为 资源描述语言,基于主题本体对d l 中的资源进行描述,根据预先定义的主题概念间的 语义扩展规则规范用户查询,实现d l 中信息的语义搜索。 1 1 3 研究动机 传统的数字图书馆由于文献资源缺乏语义描述以及查询缺乏语义支持,其信息检索 性能难以满足用户需求。下一代基于本体元数据的语义数字图书馆可提供文献资源的语 义搜索,提高信息检索的性能。本文旨在提出一种基于本体元数据的d l 体系结构,并 利用语义w c b 技术实现d l 中的语义搜索功能,为当前的d l 提供一种基于本体元数据 的语义搜索功能,更好地满足用户的需求。 1 1 4 研究意义 d l 中基于本体元数据的语义搜索是下一代语义数字图书馆中的核心问题之一。本 文旨在利用语义w 如技术来改进传统的d l 中信息检索技术,为d l 提供基于本体元数 据的语义搜索,更好地满足用户的需要,同时也为语义w 曲技术的应用和s d l 的发展 提供参考。本文研究成果对开发下一代语义数字图书馆具有科学意义和实用价值。 1 2 研究内容与目标 1 2 1 研究内容 传统的数字图书馆由于文献资源缺乏语义描述以及查询缺乏语义支持,其信息检索 性能难以满足用户需求。本文在详细研究当前d l 技术现状和不足之处的基础上,以及 对下一代d l s d l 相关技术的分析总结,提出了基于本体元数据的数字图书馆体系 结构,设计并实现了基于本体元数据的原型系统,并在该原型系统中实现了语义搜索功 能,最后用典型案例来验证所提出的方法及实现的原型系统的正确性和有效性。具体包 括: 1 ) 研究总结当前d l 资源组织、元数据格式及其语法描述等,分析它们各自的优 点和不足以及s d l 的优势; 2 ) 研究总结当前d l 领域中常用的元数据标准及它们各自的优缺点,选择一种适 合本文实现的元数据标准及描述语言,设计本文的期干u 会议论文元数据方案, 2 河海大学硕士学位论文 据此完成本体与元数据的设计; 3 ) 研究总结当前d l 信息检索技术,分析其不足之处,利用语义w c b 技术,基于 本体元数据实现d l 中信息的语义搜索。 1 2 2 研究目标 本文拟达到的研究目标为: 1 ) 在研究总结当前d l 资源组织方式、元数据格式及其语法描述的基础上,分析 采用不同元数据标准及元数据描述语言的优缺点,根据元数据方案设计原则提 出一套期刊会议论文元数据集,选择合适的本体描述d l 中的文献资源,最终 完成本体元数据的设计; 2 ) 设计并实现一个基于本体元数据的d l 原型系统,实现该原型系统信息的语义 搜索,并通过典型案例验证该原型系统的可行性和有效性。 为达到这两个研究目标,本文拟解决以下3 个关键问题: 1 ) 以砒) f 为资源描述语言,使用本体对d 帕l i l lc o r c 的主题词进行扩充,并基于 主题本体来描述数字图书馆中的资源; 2 ) 提出主题概念语义扩展规则,为实现语义搜索做好准备; 3 ) 本体元数据存储、s p a r q i ,查询生成及查询结果显示。 1 3 技术路线 i i l t e m e t 与信息技术的发展使得w - e b 成为一个巨大的信息源,互联网上的信息正以 几何级的速度增加,并成为全球范围内传播信息的最主要渠道之一,信息可以由任何人、 任何时间、任何地点自由的发布和获取,b b s 和博客( b l o g ) 的出现使得这种自由达到 极致。当前w 曲信息包括有关系数据库、文本文件、h r 池文档、儿文档、电子邮 件及多媒体信息等【l l 】f l2 1 。因此,d l 在如何对海量的、类型多种多样的信息资源进行有 效地组织、管理和检索也面临着严峻的挑战。 元数据( m e t a d a t a ) 【1 3 l 在图书馆界被定义为:“元数据是一种用来描述数字化信息资 源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够 被计算机及其网络系统自动辨析、分解、提取和分析归纳( 即所谓机器可理解性) 的一 整套编码体系。”从这个定义看,元数据是特指在标记语言环境下对数字信息资源进行 描述的解决方案,其主要用于实现两个功能:一是用尽可能少的元数据较为准确地描述 尽可能多的信息资源的原始数据或主题内容;二是能够通过计算机发现和提取等功能实 现数字信息资源基于内容的非线性、联想型、智能化知识组织,以便于数字信息资源的 发现、存储、管理和检索利用。 元数据的出现为数字信息资源的组织与描述提供了一种新思路。然而传统的采用 咖,、皿为元数据描述语言的d l 由于缺乏语义信息,使得d l 在实现智能浏览、 河海大学硕士学位论文绪论 提供个性化服务、语义互操作和信息检索等方面已无法满足用户的需要。而础) f 为数 字图书馆资源描述提供了一种通用框架,它以一种机器可以理解的方式被表示出来,可 以很方便的进行数据交换。用r d f 描述体系将多种元数据封装在一起,既保证了针对 不同资源类型描述的元数据要求,又充分利用了图书馆原有的元数据资源,满足了不同 元数据集间因应用的需要而产生的互操作性的需求。 本体通过对领域概念和概念之间关系的严格定义来确定概念的精确含义,表示共同 认可的、可共享的知识,从而为信息查询提供语义支持,因此,本文旨在将语义w c b 技术用于当前d l 中,为d l 实现基于本体元数据的语义搜索。下一代基于本体元数据 的语义数字图书馆可提供文献资源的语义搜索,提高信息检索的性能。本文在研究总结 当前数字图书馆相关技术现状的基础上,针对文献资源语义搜索这个问题,首先通过对 髓ex p l o f c 与a c mp o n a l 等d l 中信息搜索方式的分析总结,提出基于本体元数据的 d l 系统体系结构,以) f 为资源描述语言,使用本体对d u b l i i ic o r e 的主题词进行扩 充,并基于主题本体来描述数字图书馆中的资源,引入了) f 容器机制米实现d u b l i l i c o r c 元数据描述;提出基于s 嘲l 的语义搜索算法,实现d l 中信息的语义搜索: 设计x s l t 样式表,将s p a r q i ,查询结果友好地显示给用户。最后本文实现了基于本 体元数据的s d l 系统原型并用典型案例来验证本文所提出的方法和技术路线的可行性 和正确性。 1 4 本文组织 本文由7 章和参考文献、附录组成,正文的内容组织安排如下: 第一章绪论。介绍本文的选题依据、研究内容与目标、技术路线及学位论文的研 究意义。 第二章技术现状与发展趋势。介绍了数字图书馆和元数据的概念、元数据在数字 图书馆中的作用、现有的元数据标准和发展趋势及当前数字图书馆中信息检索技术的研 究现状,并分析总结了当前技术现状的特点和不足之处,接着介绍了s d l 中的关键技 术,阐述了将语义w r c b 技术用于d l 中本体元数据设计和信息检索的可行性和优势, 最后展望了d l 技术发展方向。 第三章系统体系结构及本体元数据设计。本章提出了基于本体元数据的d l 原型 系统,并介绍了其工作流程,以m ) f 为资源描述语言,并基于主题本体来描述数字图 书馆中的文献资源,提出了一套期刊会议论文元数据集,引入了) f 容器机制来实现 d 岫i i i ic o r c 元数据描述,使用本体对d u b l 证c o r e 的主题词进行扩充,完成了本体元数 据设计,为语义搜索提供基础。 第四章语义检索功能设计。本章详细描述了基于本体元数据的d l 语义检索功能 模块设计思想及各功能模块组成,对于每一个具体的模块,本章分别详细描述了其设计 4 河海大学硕士学位论文绪论 的原理和方法,其中重点介绍了主题概念语义查询扩展规则与基于s p 龇的语义搜 索算法以及x s l t 样式表的设计。 第五章原型系统实现。本章设计并实现了基于本体元数据的计算机科学语义数字 图书馆c s s d l ,详细描述了c s s d l 原型工具的各功能模块的实现技术:本体元数据存 储、s p a r q l 查询生成、主题概念语义扩展规则、s p a r q l 查询结果显示的编程实现。 第六章案例研究。通过典型案例来验证和展示本文技术方案及所实现的系统原型 的可行性与有效性。 第七章总结与展望。对本文的研究工作进行总结,提出对下一步工作的展望。 河海大学硕士学位论文技术现状与发展趋势 第二章技术现状与发展趋势 2 1d l 中的元数据 2 1 1 元数据在d l 中的作用 元数据是关于数据的数据。元数据为d l 提供了完整的数据描述形式,为分布的、 由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具,并承担 了向d l 中高层协议提供标准数据访问接口的功能,是广泛分布的d l 资源站点具有充 分的互操作性和可扩展性的基础,是提供d l 中资源描述、资源发现、资源处理、资源 评价与排序以及资源的人机交互和理解的基本要素,d l 的元数据体系是d l 所采用的 信息描述的方法,是整个d l 系统的基础结构。在d l 的资源描述、组织与管理、保存、 检索与服务各个环节中都起着十分重要的作用,可以认为是d l 系统的管理层和控制层。 2 1 2 现有元数据标准 元数据现在还没有统一的标准属性、没有统一格式,它的形式非常灵活,在不同领 域有不同的元数据标准,如用于档案领域的e a d ,用于音乐资料领域的s m d l ,用于 地理空间信息的d g m 等等。另外,不同的组织也编制了具体侧重点不同的各种元数据 标准,如d u b i 试c o 心、c d f 、m f c 等,下面简单介绍d l 领域中比较有代表的3 种元数 据标准:m a r c 、e a d 和d u b l i r ic o r e 。 m u 配是m a c h i i i er e a d a b i ec a t a l o g i n g 的缩写,意即“机器可读目录”,m 6 d 她标 准包含m 触犯格式【1 4 j ,它是将文献数据以代码的形式和特定的格式结构记录在计算机 存储载体上,以便能够被计算机识别并编辑输出书目信息的目录形式。m u 屺可一次 输入,多次使用,是信息技术发展和资源共享要求的产物。 m 蛾c 最初是由美国国会图书馆以阿弗拉姆夫人为首的一个小组于1 9 6 5 年研制 的一个先进计划,后来称之为m - 6 眦i ,其目的是探索以机读形式产生目录数据的可行 性。1 9 6 8 年英美两国合作研制出更好的机读格式即m m 屺i i 。世界上最早的m a r c 是 美国国会图书馆的l c m a r c ( 即u s m u ,六十年代开始研制,七十年代改进并成为 国家标准) 。其他国家由于不同的需要,在m 舢婶i i 的基础上研制出了自己的m 6 戚, 如英国的i m a r c 。为了防止失控并且方便国际交换,国际图联于1 9 7 7 年研制出 “u n i v e r s a lm 6 d 之cf o 眦a t ”,简称i 腻讧a r c ,以便实现数据的顺利交换。 我国于1 9 7 9 年起开始引进美国m _ 虹,加以研究。1 9 8 8 年起北京图书馆开始研制 c 疽a r c ,并于1 9 8 9 年底发行书目文献记录的数据磁带和软盘。c 嗄a r c 是我国通 用的机读目录通讯格式,它是依据u n 呲c 以及我国出版物的一些特殊情况和规则 的新变化而编制的。c n m a r c 基本上译自i 悄珈a r c ,只是根据我们的国情设计一些 6 河海大学硕士学位论文 技术现状与发展趋势 地方字段。1 9 9 1 年,我国有关部门在i n 寸n 以a r c 基础上加上我们所需的特定字段,编 制了中国机读目录通讯格式( c 嗄a r c ) ,此后多次修订。 e a d ( e n c o d c da r c h i v a ld e s c r i p t i o n ,档案编码著录) 【1 5 】格式主要用于著录档案和 手稿资源,包括文本文档、电子文档、可视材料和声音记录。最早是美国伯克利加利福 尼亚大学图书馆发起的伯克利检索工具项目( b e d ( e l e y f i i l d p 啊e c t ,b f a p ) 中提出的, 1 9 9 8 年完成了第一版e a d 标准,主要有四部分组成,其中e a dd r d 是该标准的主体 部分。e a dd ) 是基于通用档案著录国际标准i s a d ( g ) 之上的一部档案著录交流 标准。它是以s g l 儿和儿文件类型定义( d t d ) 的形式存在的,共1 4 6 个元素,现 在由美国档案馆员协会的编码档案描述工作组( m ee n c o d c d h i v a ld e s c r i p t i o n w 6 r k i i i gg 删po ft l i es o c i e 锣o fa m 矾c 锄a f c h i v i s t s ) 与美国国会图书馆网络开发和 m a r c 标准办公室( t l i en e 锕o r kd e 、r e l o p m t 觚dm a r cs t 姐d a r 凼。筑c co ft l l el i k a r y o f c 伽昭e s 3 ) 共同维护【1 6 j 。 为了寻求一种非图书馆人员可轻易掌握和使用的信息资源著录格式,以提高网络资 源的开发利用率,o c l c ( o l i i l i i i ec o m p u t e rl i b r a r yc a t a l o g ) 和n c s a ( n a t i o n a lc t 盯f b r s u p c r c o m p u t i i i g a p p l i c a t i o n ) 在1 9 9 5 年3 月联合召开了第一次都柏林核心集会议,5 2 位 来自图书馆界、电脑网络界专家经过讨论,最终达成一致意见,创建了只包含能够描述 电子文献基本特征的d u b l i l ic o r c ,并明确了元素的描述语义,目的是希望建立一套描 述网络电子文献的方法,以便网上信息检索。后来形成d c 元数据标准,都柏林核心元 数据元素集是一个标准的对跨领域信息资源的描述1 1 7 】,它定义了一个所有w ,e b 资源都 应遵循的通用的核心标准,标准内容较少,也比较通用,因此,得到了其它相关标准的 广泛的支持。其它关于学习资源的数据标准,基本上都兼容d 怕i i i ic o r c 标准,并对它 作了扩展。其后都柏林核心工作小组经过多次研讨,取得了以下一些成果: 1 ) 确立d u b l i i ic o r c1 5 个核心元素; 2 ) 确定了附加的d u b h nc o f c 限定词堪培拉限定词; 3 ) 采用) a 儿和砒) f 作为主要的语法格式。 1 9 9 8 年9 月,因特网工程专题( 匝t f ) 正式接受d u b l i nc o r e 元素集。这1 5 个未 结构化的d u b l i l lc o r c 元素被简称为d c l o 。1 9 9 9 年7 月,d c l 1 版本发布。该版本总 结了d c l o 发布以来对d u b l i i ic o r c 元数据元素定义的修改,每一个d u b l i nc o 坞元素都 使用i s o m c l l l 7 9 中关于数据元素描述标准的l o 个属性来定义,见表2 1 。 表2 1d c 元数据的1 5 个标记元素 元素名称说明 t i t l e 题名由创建者或出版者赋予资源的名称 s u b j e c t主题词资源内容主题词7 内容( c o n t 锄t ) d e s c r i p t i o n 描述资源内容的文本描述 描述元素 s o u r o e 来源产生该资源的其他资源 7 河海大学硕士学位论文技术现状与发展趋势 l 觚g u a g e 语种 资源的内容中所使用的语言 r e l a t i o n关联与其他资源的关系 c o v e r a g e 覆盖范围资源地理、时间或管理的范围 知识产权c r e a t o r 创建者资源的作者或创建者 ( h i t c l l e c t i l a l p u b l i s h c r出版者资源的提供、发表、出版者 p r 叩e f t y ) 相关 c o n h i b u t o r 其他责任者对资源做出其他贡献的个人或组织 元素 r i g h t s 权限 资源的版权声明和使用方面的规范 d a t e日期与资源的创建或可获得性相关的日期 外部属性描述 t y p e 类型 资源的类别 元素 f o r m a t格式资源的数据形式和尺寸 i d e n t i f i e r 标识符用来唯一标识资源的字符或数字 d c 元数据在各个领域的发展具体表现为产生各种d c 领域元数据,如用于描述教 育资源的d c e d 、用于描述政府信息的d c g o v 以及用于图书馆界的、由d c m i l l 8 】图书 馆工作组( d c m i l i l ) r 撕e s w o r k i n gc h u p ) 创建的d c l i b c - l i b 棚哆a p p l i c a t i p r o f i l e ) 【1 9 l 垒壅 寸o 我国数字图书馆标准与规范建设项目( c d l s ) 是科技基础性工作专项资金重 点项目。主要针对数字图书馆系统的数字资源建设与服务,制定我国数字图书馆标准规 范发展战略与标准规范框架,制定数字图书馆核心标准规范体系,建立数字图书馆标准 规范开放建设与开放应用机制,促进我国数字图书馆的快速、经济和可持续发展。具体 的子项目包括我国数字图书馆标准规范高层元数据规范、我国数字图书馆标准规范专门 数字对象描述元数据规范、我国数字图书馆标准规范数字资源检索协议规范、我国数字 图书馆标准规范建设之基本数字对象描述元数据规范等,由于本文旨在建立期刊会议论 文元数据,所以重点介绍期刊会议论文元数据规范与期刊会议论文元数据著录规则。 期刊论文元数据规范属于科技部科技基础条件平台专项资金项目我国数字图书馆 标准与规范建设的一部分,目的是为保证期刊会议论文元数据规范与其他元数据规范 在功能、数据结构、格式、语法、语义等方面的一致性和整体性,同时为了实现更大范 围内的数字图书馆之间的互操作和数据共享。 期刊论文元数据由核心元素、资源类型核心元素和个别元素三部分组成,表2 2 列 出了期刊论文的元数据规范。 表2 。2 期刊论文的元数据规范1 2 0 】 核心元素( 1 2 个) 修饰词 元素名称复用标准 元素修饰词编码体系修饰词 题名交替题名d c t e 地s :t “l e 主要责任者机构d o t e n n s : c r e a t o r 河海大学硕士学位论文技术现状与发展趋势 l c s h m e s h d d c l c c 主题 d c t i 印璐:s u b j t u d c 汉语主题词表 中图分类法 科图分类法 目次 描述 d c t c 眦s :d e s 踊p 6 0 n 摘要 其他责任者机构d c t e n n s :c o n 仃i b u t o r 接受日期 d c m ip e “o d 日期i :) c t e m 8 :l a t e 发布日期 w 3 c d t f 资源类型 d o t c m 8 :t y p c 范围 格式m d c t e 恤s :f b m a t 媒体 s i c i 标识符文献引用 d o t e 佃:i d a i t i f i 盯 d o i i s o6 3 9 2 语种d o t e r m s : l a n g u a g e r f c1 7 6 6 组成 相关资源参照 d c h ;n n s :i e l a t i o 珊 译自 权限 d c t c m s :r i g h t s 1 ) 核心元素。能在各类资源对象中通用,可以在该层上与其他系统进行交换,支 持通用的检索工具,核心元素及其修饰词基本复用d c m i 元数据集1 2 1 1 和d c m i 元数据词汇表f 2 2 1 ; 2 ) 资源类型核心元素。能在同一类型数字资源中通用,期刊论文的资源类型核心 元素,能在会议论文、学位论文中通用。期刊论文与学位论文和会议论文的通 用属性已在核心元素集中得到体现,因而没有再设置专门的资源类型核心元 素; 3 ) 个别元素。以某种类型的资源对象为基础,仅使用这类对象不一定支持交换。 本规范未设置期刊论文的个别元素。 2 1 3d l 元数据技术分析与评价 元数据通过定义d l 信息资源的组织结构,以及由数字对象构成的资源库的组织结 构,决定着d l 资源的组织和利用方式。d l 的建设与服务,无论是存取过程还是检索 过程,都是以元数据方案为基础实现的。从元数据标准角度分析比较m 、e a d 和 d c 如下: 9 河海大学硕士学位论文技术现状与发展趋势 m j 6 嵊c 格式随着计算机技术的发展由原来图书资料格式陆续发展出期刊、视听资 料、电子档案等多种格式,以适应不同类型信息的处理。m j 6 岖c 可一次输入,多次使 用,是信息技术发展和资源共享要求的产物。m 触的修订与应用,使得书目著录能 够为计算机识别,图书馆可通过m c 这一标准实现资源共享。经过近5 0 年的发展, m 姣c 具有严格的语义规则和完整的信息描述字段,能够精确、完整地描述信息资源, 尤其是对检索点的选取能够确保其数据元素组成具有统一性。运用m a r c 著录的信息, 具有可靠性、完整性、精确性等优点。其缺点在于:m 越屺元数据是基于计算机处理 的元数据,由计算机将m a r c 元数据作为单独的以数据库或文件形式进行管理,m 蛾c 元数据与其所描述的对象本身仍然是分离的:因此m a r c 元数据可读性较差;在进行 数据处理时对软件平台的依赖性较强,另外,m 蛆汜存在着结构繁杂、字段设置重复、 对图书馆编程人员要求专业性强等弊端。 e a d 是目前全球档案界最有影响的档案著录结构标准之一,主要具有以下优点: 1 ) 著录详尽,适用范围广泛。e a d 可以提供详细的全文描述和存取,为档案馆的 目录提供了一种结构化的描述,能适应任何长度的目录和记录,并能够描述在 各种媒体上的所有类型的档案,包括文本文档、电子文档、可视材料和声音记 录等等; 2 ) 易用性和兼容性。由于e a d 基于儿和s g l 皿,而舭和s g 池具有易用、 直观、透明度高、使用灵活、不依赖任何软、硬件平台等特点,因此e a d 具 有易用性,真正实现文件信息的共享; 3 ) 可扩展性。e a d 只有3 个层次,各档案机构可以根据档案馆的特点,在给定的 规则之下自行编写标签; 4 ) 便于检索。e a d 的元素是结构化、层次化的,除了支持对字段和全文一般的检 索如布尔逻辑检索、截词检索、近似检索之外,还可以在目录中查找单个项目 和离散的数据项,便于满足用户具体需要,快速获得所需信息。 由于e a d 基于儿和s g 池,而儿只是在语法上统一了数据交换的格式, 并没有提供充分的语义的表达方式,因此e a d 作为d l 的元数据描述语言在语义互操 作和智能浏览方面都无法获得满意的效果。 相比于眦c 和e a d ,d c 元数据较注重描述对象的内容、内部结构或标准以及 应用与管理方面的属性;在网络环境下,元数据本身有分布式管理与应用的需求;直接 利用标记语言或数据库等制作,保证了元数据的结构化,容易被计算机处理和交流,可 读性较强。同时d c 设计原则具有可扩展性、可选择性、可重复性和可修饰性的特征, 有利于揭示各类型电子文献的内容和其他特性,进而达到网络资源的组织、分类、索引 等目的。因此,本文选用d c 作为核心元数据,并采用科技部科技基础性工作专项基金 重大项目研究成果我国数字图书馆标准与规范建设项目中的子项目期刊论文元数据 规范定义元数据集。 l o 河海大学硕士学位论文技术现状与发展趋势 就元数据描述语言而言,元数据采用h r m i ,、v 几、融) f 三种描述语言的特点分 析比较如下: 删,( h y p e f t c ) 【tm a d k u pl 觚g l l a g e ,超文本标记语言) 是创建w r e b 页的标准语言, 简单易学且弥补了s q v 几( s t a n d a r dg e n e r a l i z e d m a 概pl 觚g i i a g e ,标准通用标记语言) 不适用于w e b 上的遗憾,然而随着w c b 的不断发展,h r 在扩展性、数据资源描述 及检索功能的局限性都影响着网络信息的传递和共享,对于删,编码虽然d c m i 有 编码规范的推荐意见,然而却不是值得推荐的方式,因为耵,基本没有基于语义的 结构化表达能力,不是元数据存储的良好形式,既然搜索引擎已经放弃收割网页中的元 数据,采用它来描述元数据已经没有任何意义了。 帆( e x t e n s i b l em a d ( i l pl 锄g u a g e ,可扩展标记语言) 具有可扩展性、互操作性 等h r 池所不具有的优点,但是帆只是在语法上统一了数据交换的格式,并没有提 供充分的语义的表达方式,单纯的舭不支持数据类型的定义,而必须用到舭 s c h e m a ,因此无论是采用h r m l 还是沮。作为d l 的元数据编码语言在语义互操作和 智能浏览方面都无法获得满意的效果。 r d f 为数字图书馆资源描述提供了一种通用框架,它以一种机器可以理解的方式 被表示出来,可以很方便的进行数据交换。用r d f 描述体系将多种元数据封装在一起, 既保证了针对不同资源类型描述的元数据要求,又充分利用了图书馆原有的元数据资源 ( 主要是c “a r k 记录) ,满足了不同元数据集之间因应用的需要而产生的互操作性 的需求。通过i f 的帮助,数字图书馆可以实现目前还很难实现的一系列应用,如可 以更有效地发现资源,提供个性化服务,分级与过滤网格的内容,建立信任机制,实现 智能浏览等。因此,期刊会议论文元数据编码语言采用) f m l ,并使用i f s 定义 砒) f 词汇。 2 1 4d l 元数据技术发展趋势 d l 是元数据的主要应用领域,元数据的应用体现在d l 建设的各个环节之中。d l 是基于数字资源的创建、描述、组织与管理、保存、服务的生命周期进行建设的,而元 数据则通过其在数字资源生命周期中各环节的应用支持着整个d l 系统的建设与服务, 尤其是在资源描述、组织与管理、保存、检索与服务中,元数据更是发挥着至关重要的 作用。 元数据方案的设计是构建d l 的关键问题,有代表性的研究如下: c d w a 硎( c a t e g 耐e sf ;d rt i l ed e s c r i p t i o no fw 6 d c so f a f t ) :c d w a 主要用于博物 馆的收藏,由美国j p a u lg e 衄1 m s t 资助的a i t f ( m ea r ti n f 0 锄a t i o n k f o r c e ) 项目开发,为提供和使用艺术信息的团体描述艺术作品,提供结构化工 具。 - r e s e a r c hi i im e t a d a t a 蠡wc o m p u t c rm o d e l s 【2 4 】:该站点整理了一些关于计算机模 河海大学硕士学位论文 技术现状与发展趋势 型方面的元数据的资料:如通过w e b 可以获得的模型,关于模型的研究和论文, 元数据及编目的实例、思想和文章。该站点还提供了计算机模型元数据的内容 标准。 名人手稿馆元数据方案的设计和实现1 2 5 】:由上海图书馆历史文献中心和系统网 络中心合作完成,目的是对名人手稿馆所涉及的所有资源进行有效的管理和利 用。名人手稿数字图书馆的元数据方案是一种“混合”型元数据应用概要的形 式,即借鉴o a i s l 2 6 1 、f r b r 以及d c m i l l 9 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025草坪修剪项目政府采购与生态修复合同
- 2025叉车租赁合同协议-仓储物流设施升级改造
- 2025版商场档口租赁合同(含品牌形象维护责任)
- 2025年泰州二手房买卖合同+智能家居设备安装服务合同
- 2025版智能通风排烟系统安装与能源审计合同样本
- 2025年度智能安防系统采购意向协议书
- 2025年大学兼职教师合作开发与成果转化协议
- 2025版核能设备监造与核安全防护合同
- 2025版农业合作社股权变更与乡村振兴战略实施协议
- 2025版房地产开发企业委托反担保合同范本
- 行为金融学案例
- 万科集团财务管理制度手册207
- “李可中医药学术流派论治厥阴病”-课件
- 通用技术作品设计报告
- 城市规划原理课件(完整版)
- 锚杆支护技术规范正式版本
- 隐形眼镜经营管理制度
- 下一代互联网技术
- 皮肤知识与问题性皮肤分析(入行必看)
- 单位消防安全评估报告(模板)
- 电子加速器辐照项目可行性研究报告写作范文
评论
0/150
提交评论