




已阅读5页,还剩55页未读, 继续免费阅读
(计算机软件与理论专业论文)数字图书馆建设中数字资源整合的研究与蓝图设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:本文以数字图书馆的建设项目为背景,针对目前普遍存在的信息孤岛问题, 从数字资源的存储、组织、检索三个层面上进行了数字资源的整合研究。通过对 现有的数字资源整合技术的分析与研究,本文提出了被称为u 1 q 取e s 的数字资源 的整合构架方案,该方案可分为,盯s 1 d r e ,u n i 慨和u n i s e a r c h 三个 部分。其中u 】m s t o r e 为整合存储方案,其架构以虚拟的存储域代替现有的文件 系统,并设计了资源访问协议和资源路有协议以满足资源的访问和大规模复制等 需求。u n i m e t a 方案提出用数字对象的概念解决存储与元数据,元数据与元数 据,元数据与索引之问的整合问题,其中还提出用本体论的方法使元数据与索引 在语意层面进行整合。u n i s e a r c h 为整合检索方案,它综合现有的产品的方案 提出了基于检索适配器的中间件架构,并针对协议适配等和非标准检索等问题提 出解决方案。 关键词:数字资源整合;数字图书馆;海量存储;存储网格:元数据;数字对象; 本体论;整合检索 分类号:哪! 5 a b s - i 砒c t w i t hab a c k g r o u n do fd i 百t a ll i b m r yb u i l d i n gp r o j e c t ,t l l i sp a p c r r e s e a r c h e dt h ej n t e g 阳t i o no fd i 舀t a lr c s 0 i h 优f r o ma n 酉鼯o fi t ss t o m g e ,o 唱a n i z a t i o n a i i ds e a r c h i i l g ,a i m i n gt os o l v et h ep r o b l e mo fl h es o - c a l l e dk f b 皿a i i o ni s l 柚dt h a ti s c l l f r c n t l ye x i s t i n g 蛐dw i d e s p r e a d t h r o u g l lt h ei n v e s t j g a t i o no fp r c s c n t t c c h n o l o g yo f d i 百t a lr e s o u r c ci l l i e g r a t i o ,i h i sp a p c rs c h e m eo u ta 胁m c w o r ks o i u t j o no fd i 酉t a l r e s o u r c ci l l t e g m t i o nt h a ti sn a m e du n 江毽t h eu n t e s 丘锄e w o r ks o i u t i o nc a nb e d i v i d e di n t o3p a r t s :t h eu n i s t o i t e ,t h eu n i - m e i aa n dt h eu n i s e a r c h a m o n gt h e m ,t l l eu n i s r o r ei sas l o m g ci n t e g f a t i o ns o l u t i ,w l l i c hi sd e s i 弘e dt o r c p i a c ee x i s t i n gf i l es y s t e mw i t ht h ev i n u a ls t o m g ed 哪a i n ,ar e s o u r c ca c c c s s p r o t o c o l 卸dar e s o u r c cr o u t i n gp r o t o c o ia r ca i s oo 彘r c df o rs a t i s f y 抽gt h en c e d so f r c s o u r c ea c c e s sa i l dm a s sr e s o u r c cf 印c a t i o ne 缸1 h eu n i m 田as o i u t i o np u t s f o n a r dad e s i 弘t h a tu s ec o n c e p to fi h ed j g i t a io 哧碰t o i v et h e 抽t e g r a t i o n p m b l e m s0 fs t o m g e & m e t a d a i a ,m e t a d a i a & m e t a 司a t a ,m e t a d a 诅& i n d e x ,a n dt l l i s s o l u t i o na i s os u g g e s tt h a tu s ct h ec c e p to fo n t o l o g yt oi i l t e g r a t em e t a - d a t aw i t l l i n d e xo ns e m 孤t i ci e v e l 1 1 l eu n i - s e a r c hi si n t e g m is e a r c h i n gs o i u t i o n ,w h i c h c o m b i i l e ss c v e f a lp r c s e n tp r o d u c t s 柚ds o l u t i o n st o c a r r yo u tam i d d l e w 孤e a r c h i t c c t u r ct h a tb a s e do n s e a r c h i n ga d a p t o r a n db i i n 擎s o l u t i o n sf o rp r o t o c o l a d a p t a t i o na i l dn o n - s t a i l d a r di n t e d a c cs e a r c h i n gi s s u e s k e y w o r d s :d i 舀t a ir e s o u r c ei i i t e g r a t i o n ;m a 豁s t o r a g c ;s t o r a g eg r i d ;m e t a d a t a ; o n t o l o g y ;d i 西t a lo b j e c t ;f c d e m ls e a r c h c l a s s n 0 :1 1 3 1 5 致谢 首先,我要感谢我的导师罗四维教授。在攻读研究生期问,能够成为罗四维 教授的学生是我莫大的荣幸。本文的选题和研究工作也倾注了罗四维教授的大量 心血和谆谆教诲。在项目研究和本文的撰写过程中,罗四维教授给与我了大量的 鼓励和指导,使得我能够顺利完成学业,同时提高了科研能力和实践能力。在此 衷心感谢三年来罗四维老师对我的关心和指导。 罗四维教授除了悉心指导我们完成学术和科研工作外,在学习上和生活上都 给予了我们很大的关心和帮助,让我明白了很多做人的道理,这将会使我一生受 益。 同时感谢在实验室工作及撰写论文期间,对我论文中的研究工作给予了热情 帮助的同学,在此向他们表达我的感激之情。 业。 最后我要感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学 1 1背景及研究动机 1 引言 随着数字化网络化进程的不断深入,每天都有数以亿万计的文档,网页,图 片,音视频文件等各类信息资源以数字的形式被创建,这里我们统称为数字资源。 与传统的纸制或者胶片保存的资料不同,数字资源具有信息量大,传播方便,制 作编辑简单等优点,但同时也有难以管理,生存周期短,格式繁多内容不规范的 缺点。数字资源属于人类的精神产品,而人既是其生产者又是其消费者,然而在 数字化信息化浪潮的如火如茶的今天,人与数字资源却面临着危机,我们称之为 数字资源危机:一方面每天有大量的数字资源被制造出来无处可以存放,另一方 面人们面对海量的数字资源无法找到自己想要的那部分。显而易见,数字资源危 机的核心问题就是,数字资源与可以提供的存储间的相对过剩和人们需求间的相 对缺乏的问题,如果把这对问题合二为一那就是数字资源管理的缺乏。 数字图书馆是目前最为流行的数字资源管理概念之一,所谓数字图书馆是指 用数字技术处理和存储各种图文并茂的文献的图书馆,它实质上是一种分布式信 息系统,这种系统把各种不同载体、不同地理位置的信息资源用数字技术存储起 来,以便实现跨区域的面向对象的网络查询和传播。据此可以把数字图书馆简明 扼要地概括为:有组织的信息资源( 数字化馆藏) 及相关服务,其中信息资源是用 数字化保存的,以便用户通过网络进行信息访问。因此数字图书馆并不是简单的 数字化收藏加上信息处理、传播和发布的工具,而是支持面向对象的分布式查询 的资料库,这样各种搜索网站也是属于数字图书馆的范畴【1 】。但随着数字图书 馆建设的深入,数字资源的数量越来越多,包括各种电子期刊数据库,电子图书 数据库,自建的特色数据库等等。由于这些数字资源被不同的机构利用不同的数 据库系统开发,采用数据结构和系统平台也各不相同,数据通常被存储为多元化 的格式,分散在不同的数据库系统中。数字资源出现整体的无序化,内容组织程 度不高,数字资源间交叉关联程度较低,这样的数字资源格局被形象的描述为信 息孤岛。 所谓信息孤岛,指的是一个个相对独立的不同类型不同学科的数字资源系 统。不包括网上无序和自身没有控制的数字信息资源。由于各系统相互封闭、无 法进行正常的信息交流,犹如一个个分敌、独立的岛屿,所以被称为信息孤岛【2 】。 从数字资源系统的不同层次上讲,存在三种类型的信息孤岛: 存储孤岛。在传统的计算机系统环境中,主机系统拥有自己的存储资源, 受磁盘和文件系统的限制,单个主机系统所能拥有的存储资源一般是很 有限的。当面对海量的数字资源存储需求时,就不得不将数据存储到多 个主机的存储中,为此每个系统管理员需要针对每一种系统来控制存储 资源的分配、使用和管理,这就是了我们所说的存储孤岛问题。 元数据孤岛。元数据是数字资源组织的关键性数据,在当今的图书馆界 存在着多种元数据标准,元数据标准实现的功能包括对资源的描述、管 理和定位,以及对资源的评估。但是由于它们分别适用于不同类型的信 息资源,其使用者和所针对的用户范围也有所不同。不同类型的元数据 格式构建的资源体系之间难以进行归类、组织、检索和资源利用的问题 我们称作元数据孤岛问题。 检索孤岛。随着网络技术的发展,图书馆的资源越来越分散,一个高校 的图书馆中就往往拥有数十套图书数据库系统或数字资源管理系统,而 且每套系统都拥有自己独立的检索模块,它们之间检索的界面和方法有 很大的区别。读者为了找到自己想要的资源往往需要熟悉多种检索环境 并在它们间来回切换,这样的现象我们称之为检索孤岛。 这些孤岛问题已经严重地阻碍了数字图书馆的进一步深入建设的进程,因此 建立一套完整的数字资源整合方案,形成一个效能更好、效率更高的新的数字资 源体系,以解决这些“信息孤岛”问题势在必行。 1 2 论文的研究内容 1 2 1论文的主要贡献 数字资源整合是依据一定的需要,对分散无序、相对独立的数字资源按照它 们之间内在的知识关联进行融合和重组,形成一个效能更好、效率更高的新的数 字资源体系。本文就是以数字资源整合为出发点,以数图书馆和数字资源库的建 设项目为契机,针对目前普遍存在的信息孤岛问题,从数字资源的存储、组织、 检索三个层面上进行数字资源的整合研究。通过分析现有的数字资源整合技术本 j e 哀窑烫太璺亟堂焦盈塞i i直 文提出了被称为i ,n l e s 的数字资源的整合构架方案,该方案主要包括三个部 分:u n i s t o i 匝数字资源的存储的整合方案,u n i m 翻隗元数据组织和标引整 合方案,u n i s e a r c h 异构检索资源整合方案。u n i s t o r e 方案可以将现有的 分散的孤立的存储空问加以组织和联合,进行统一管理和分配,形成一个海量的 资源存储空间,从而解决数字资源的存储孤岛问题。u n i m 朗a 方案提出用数 字对象的概念解决存储与元数据,元数据与元数据,元数据与索引之间的整合问 题,其中提出用本体论的方法使元数据与索引在语意层面进行整合。 u n i s e a r c h 方案为异构资源库的整合检索提出了一个实用的架构,该架构采 用元搜索引擎的方式对国内常见的几种资源库构建相应的检索适配器以实现一 站式整合检索,并已在实际项目中得到了比较成功的应用。 1 2 2论文组织 第1 章、概要介绍了数字图书馆的发展现状,同时提出了数字资源危机和信 息孤岛等问题,并阐述了本论文研究的意义和概要内容。 第2 章、在分析了现有的几种存储整合技术的基础上提出了u 】m s t o r e 存 储整合架构,对组织架构,模块、服务、协议等方面的设计进行了分析,并着重 对资源访问协议r a p 和资源路由协议r r p 的设计进行了阐述。 第3 章、在对常见的几种元数据类型进行分析和比较的基础上,提出了 m 叮m e l r a 元数据整合方案,提出以数字对象及语义本体论技术实现存储与元 数据,元数据与元数据,元数据与索引之间的整合。 第4 章、分析了几种常见的整合检索产品和方案,综合现有方案提出了 u n i - s e a r c h 整合检索架构,并针对协议适配等和非标准检索等问题提出解决 方案。 第5 章、对论文进行总结,并对下一步的工作进行展望。 2 1 概述 2 数字资源的存储整合 随着数字图书馆建设的不断进展,数字资源量的爆炸性增长,使得现有的存 储空间交得越来越紧张,存储管理也越来越困难且开销更高。而对孤立、非集成 的存储资源进行本地管理,就需要熟悉各种文件和操作系统,同时有更多的闲置 存储空间无法得到合理利用,这就是我们之间提到过的存储孤岛问题,存储整合 就是为了解决这一问题而提出的。所谓存储整合,就是将分散的孤立的存储空间 加以组织和联合,进行统一管理和分配,形成一个海量的,可无限制扩展的,虚 拟的存储空间【3 】。可以看出存储整合分为两部分内容,其一、存储空间的整合, 其二、存储管理或接口的整合。 2 2 现有的解决方案 针对存储整合的迫切需求,目前已经出现了一些比较成熟的解决方案,以下 将对几种常见的存储整合方案进行介绍和分析。 2 2 1 s a n 存储方案 s a n 英文全称为s t o r a g ea r e an e 咖r k ,即存储区域网络,简称存域网。它 是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带 等存储设备与相关服务器连接起来的高速专用子网。s a n 与通常所说的u 蝌和 w a n 类似,也是利用交换机、集线器等设备进行连接和组网,只不过建立s a n 的目的数据通信而是数据存储。s a n 具有以下优点: 可实现大容量存储设备数据共享 可实现高速计算机与高速存储设备的高速互联 可实现灵活的存储设备配置要求 可实现数据快速备份 a 塞銮适盔堂亟堂僮笙塞 熬星量湮艘在缱鳌金 提高了数据的可靠性和安全性 图2 1 为应用s a n 的一个网络拓扑图,其中l a n 部分是我们熟悉的局域网 结构,s a n 部分由两台交换机以光纤链路和千兆以太网将磁盘阵列和磁带机相 连构成存储网【4 】。 图2 1t h es a ns t o m g cf r 糊e w o r ks a n 存储架构 2 2 2h p s s 存储解决方案 h p s s 即高性能存储系统呷曲p e 血咖a n c cs t o m g es y s t e m ) 是基于以网络为 中心的结构开发而成的一种成熟的层次式存储管理系统,用户可以通过它访问第 三方控制的存储设备【5 】。因此h p s s 能够充分整合当前的存储局域网( s a n ) 为 用户提供高性价比的海量存储系统和高性能的全局文件访问功能。s a n 文件系 统的重要属性几乎都被移植到h p s s 系统中,而更多完整的s a n 文件系统能力 也正在进一步地加入到h p s s 中。与s a n 不同h p s s 本质上是一个局域网上的 跨设备的全局文件系统,s a n 可以作为h p s s 系统内的一个被管理的设备( 图 2 2 ) 。 图2 21 1 l e 期p s ss t o r a g c 胁m e w o f k h p s s 存储架构 2 2 3存储网格方案 网格是一种新兴的技术,正处在不断发展和变化当中。简单地说,网格是一 种信息社会的网络基础设施,是利用互联网把分散在不同地理位置上的多个资 源,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等全 面连通和统一分配、管理及协调起来,通过逻辑关系组成一台“虚拟的超级计算 机”。这台机器把每一台参与其中的、包括个人电脑在内的计算机都作为自己的 一个“节点”,成千上万这样的“节点”并联起来,就组成了“一张有超级计算 能力的网格”。而每一位将自己的计算机连接到网格上的用户,也就“拥有了” 这架超级计算机,可以随时随地调用其中的计算和信息资源,在获得一体化信息 服务的同时,最大程度地实现资源共享【6 1 。网格最早主要是以计算为目的的, 但高强度的科学计算会随之带来大量的计算结果和中间数据,传输和共享和存储 这些数据成为网格计算的一项任务,这些功能后来逐渐发展完善成为独立于计算 网格,构成了所谓的数据网格。存储网格其实就是一种数据网格,只不过它是以 存储为主要目的,而近些年随着网格和存储技术的不断发展,存储网格逐渐成作 为一种独立的技术被广为研究。 与s a n 和m s s 等技术不同存储网格不是一种限于局域网内部的存储技术, 它的存储范围是更为广阔的广域网,能够在更大的范围内提供存储服务和存储资 源整合服务。s r b 是最著名的存储网格项目之一,它是最初是由s d s q 圣地亚 哥超级计算机中心) 研制的进行分布资源管理的中间件,后来逐渐发展成独立的 网格存储系统【7 】( 图2 - 3 是一个s r b 的应用示例,图中s r b 整合了4 个不同物 理位置的存储资源,提供统一的存储服务给上层应用) 。 图2 - 3 1 1 l e s d s c s r b m o d e ls d s c 的s r b 架构模型 2 3u m s 1 o r e 整合存储系统的架构设计 以上介绍的几种整合存储解决方案都存在着一些缺陷:比如s a n 和h p p s 解决方案一是比较昂贵,二是没有定义网间的资源传输规范只能作为本地网存 储;存储网格是一个比较理想的解决方案,但目前大多不成熟或难以获取,比如 s r b 系统虽然为免费系统,但它只提供给欧美地区的非赢利机构使用,目前国 内还无法得到该系统。u n i s t o r e 是笔者吸取了一部分s r b 的优点,结合数字 图书馆方面的特殊要求进行设计的,以下将它的系统架构进行介绍和分析。 2 3 1 设计目标 u n i s t o r e 的目标是建立一个统一的抽象的与传统文件系统独立的逻辑存 储中间件,他提供的一致的无缝存储访问接口,系统具备如下特性: 统一性,它面向应用程序和用户提供一套统一的接口。 实用性,在满足最基本和最必要的存储需求前提下,系统只提供一套精 简的存储访问接口。 透明性,支持异构的透明性、位置和名字的透明性、分布的透明性、副 本透明性和拥有权的透明性。 分布式,系统能够整合局域网内的存储资源形成统一的资源域,并可以 实现不同地理位置的域与域之问的互操作。 高效率,作为中间件的u n i s 1 d i 也不应该降低对原有存储介质和文件系 统的访问效率,同时能够通过c a c h e 等策略提高对存储访问的速度。 安全的存储,系统能够为重要数据提供必要的备份机制。 安全的访问,通过完善用户安全认证机制和加密机制,系统能够实现保 险箱式的存储 海量存储,海量存储是u n i s 1 o r e 设计着重考虑的一个问题,整合存储 的最i 根本需求之一就是能够将原有零散的容量较小的存储空问整合成 一个大的统一的存储空间,从而达到海量存储的要求。 可扩展性,高可扩展性是实现海量存储所必须具备的,只有具备高可扩 展性的存储才能满足海量扩展的存储需求。 高效的存储空间分配机制,在物理存储空间有限的前提下,系统可以通 过分配管理和回收机制实现存储空间的最大化利用。 支持副本管理,出于数据的可用性和效率的考虑,一般资源的存储都会 存在一定量的副本,系统应能够对副本进行标识和管理。 高效可靠的数据传输,通过支持多重数据链路和数据的分块复制和路有 等技术,使得客户端对域和域之间的有着高速的数据传输和高效的访问 控制。 版本管理,支持资源版本的升级替换,并支持同一资源的多个版本并存 j b 虚銮逗太堂亟望焦论塞熬主童遂的在篮整金 管理。 2 3 2u 】m s 7 i o r e 的存储结构设计 u 】m s t o r e 的存储结构设计主要从两方面进行了考虑:从逻辑方面, 盯- s t o r e 主要的定位是基于资源的存储,这里说的资源一般是指具有一定保 存价值的档案或文件,它具有相关联的元数据和常规的属性,一个资源不限于单 个文件,它可能包括若干个文件或者有一定层次结构的文件组。另外从物理角度, 需要满足资源的存储的跨介质和分布式需求。图2 4 为u n i s m i 也的存储层次结 构。 图2 - 4t h eu n i s t o r es f o m g eh j e r a r c h i c a ls t r u c t u r cu n l - s 1 o r e 的存储层次结构 u n i s t o r e 存储的主体是s u ( s t o r eu n i t ) 存储单元,s u 是逻辑上资源的 存储单位。一般来说它代表了一个独立的资源,它主要包括三种类型的信息: 存储相关的元数据,比如:资源名,资源所有者,资源生存局期,资源 访问控制信息,资源的存储占用情况和资源空问的配额,资源的校验码 或数字签名,资源版本及创建修改时间等。 资源的内容,资源的内容从整体可以看作一块数据或一组比特流,一般 情况下它作为一个整体被创建,创建以后并不需要经常修改,如果对内容 实体修改则引发资源的版本变更。另外出于多版本支持的考虑一个s u 可以拥有多个内容实体。同时由于传统上我们对于资源的存储一般是在 层次式文件系统上实现,所以资源并不仅限于单个文件,它可能由若干 个文件或者有一定层次结构的文件结构组成。 资源的元数据,资源的元数据就是对资源的内容实体的说明信息,这部 分信息与资源内容相比占用空间较小但是相对活跃。元数据并不只存在 单一的表示形式,一个资源可能拥有多种元数据描述。 存储节s s ( s t o r cs c c l i o n ) 是s u 的存储实体,是资源修改和创建的基本单 位。不管是s u 的存储元数据、资源内容还是资源元数据最终都是以存储节的形 式存储的。s s 在具体的文件系统上可以影射为一个目录或者一个r p 文件( 后文 将进行详细介绍) 。 存储集s c ( s i o r ec o l l e c t i o n ) 是一个物理上的存储概念,简单的说它就是v 】晤 ( 虚拟文件系统) 上的挂载的物理文件系统,它可以存在于不同的磁盘或者磁盘 分区中或者网络上不同的计算机系统内。存储集的信息被注册在s m d b ( 存储元 数据库) 中由s r c ( 存储资源控制器) 控制和管理,存储集的注册信息主要包 括存储体的位置、格式、存储适配器类型,存储体的速度、介质安全程度、可以 使用的存储空间大小,访问控制信息等。 存储域s d ( s t o r ed o m a i n ) 是一个逻辑概念,结构上它由v s f 、s r c 、s m d b 、 s d a b ( 存储域架构库) 、a a 0 ( 安全机构) 组成。从资源存储的逻辑角度考虑 存储域是一维的存储空间,元素的单位是s u ,s u 在存储域中拥有唯一的编号。 2 3 3资源存储的命名策略和u r l 规范 资源的名称由三部分组成:存储域名s d n ,存储单元名和资源内部结构名, s d n 一般采用通用的h t e m e t 域名,比如:m y d o m a i n o r g 。为了透明的利用资源 域内的大量存储单元,同时也为了提高资源域的可扩展性,存储单元名一般为一 个整数型编号,我们称之为s u d 。s u i d 由存储域内的( 由s m d b 承担的) 统 一命名服务指派,一般情况下s u i d 是一个自动增长的不重复的整数。由s u m 支撑起一个一维的资源命名空间,比如3 2 位整型s u m 可以表示4 3 亿个s u 这 足以满足一般组织的需求。采取整数型s u 命名可能会存在两个问题:其一, 我们知道虽然在同一时间内一个组织不太可能拥有4 3 亿个资源,但是由于使用 过的s u d 短期将不能再使用,随着时间的推移s u m 总有一天会消耗殆尽。其 二,s u i d 的命名方法虽然简单但是存储域内必须有一个集中的命名服务来分配 s u d ,当访问频繁时它有可能成为瓶颈,而且不利于服务的分布式部署。其实 解决这两个问题可以采取同一种办法,就是对s u m 进行分区,比如我们将生存 期比较短的临时性资源分配到一个可以回收利用s u m 分区,而如果存储域中存 在多个s r c ( 存储资源控制器) ,则可以给它们指派不同的s u i d 分区,这样每 个s r c 可以独立的进行资源命名。s u 内部采取层次式命名法,s u 内第一级为 存储节的名字,之后是存储节内部的文件路径名。我们一般规定存放存储元数据 的存储节名为“s m d ”,存储内容元数据的存储节名为“m e t a ”,存储内容数据 的存储节为“b o d y ”,如果存在多个版本则跟随一个版本的后缀,比如“b o d y 1 ”, “b o d y 2 ”以此类推。 u r l 是当今互联网上最普遍的资源定位方式,u 】m s t o r e 的资源定位同样 采用了u r l 规范,其格式为p r o t o 1 s d a u i d s sn a m e ,p a t h 。以下为两个存 储资源u r l 的例子: r a p :m y d o m a i n o 呵1 2 3 4 5 6 b o d y 1 l b c d o c 第一个地址定位了一个m y d o m a i n o r g 域内s u l d 为1 2 3 4 5 6 资源的d c 元数据, 访问协议为m 1 t 协议。第二个地址指向1 2 3 4 5 6 存储单元版本1 数据内的一个 文档,协议为r a p ( 后文将详细介绍) 。 2 3 。4u n i s 1 o r e 的总体架构 超意室蓬塞璧嚣璺建造塞錾警塞瀵篷鬣链熬金 图2 巧是m 町踟的r e 的总体絮构,其中s a 为存储适配器,它介于底屡存 麓( 文露系统) 零s r c 之溺,它是赛嚣整会存储戆基疆。存诺逶嚣器之上戆s 蔑e 为襻耩资源控嬲嚣,玄隽文粹访簿涛求捂派穗皮炎鍪的s a ,访褥者乔诈要知道 被访问的存储的具体物理格式或者需要支持的访问协议,也就是说s r c 实现的 是一个瑟富格拭裙协议无关的发揪文箨访辩接搿。s 瓢d 8 存放装存糍榻关懿嚣数 掇,冀审惫搀纛羧文释鼹径瓤物缓鼹径之篱漪姨鸯雪蘩惑翻其它一些存豫蒎源魏嚣 数据信息,它通过s m c s 提供存储的目录和检索服务。客户端通过对鼢c 的a p i 调粥建巍与s a s 的连接,s a s 调用访河授权a a s 服务,当连接建立腐系统会从 s 躺溜努瑟一个存籍谤辩役蘧来驻务s a e 发蹬翡请求。 s a s 存储访问服务( s i o r a g c a c c c s ss e r v i c c ) ,酒斌s a p 协议接蹙存储访 怒涛求,它努酝& 鸦完成爨体的移储访翔。 s m c s 存元编爵服务 字符串”的检索模式,这显然 是得不偿失的。不管怎么说,当我们引入语义后不得不面对的问题就是如何建 立与系统上下的联系,语义层的上层是用户的查询语言,语义层的下层是资源。 因为查询语言对字符串的依赖,所以字符串到语义的转换过程对于系统可以说是 不可避免的,而对于语义到资源我们可以尽量不再借助字符串,事实上我们的资 源组织方式已经给我们建立语义与资源之间的联系建立了很好的基础。我们加入 语义的目的是更好的建立语言与资源之问的联系,要想做到这点就需要尽量的建 立语言到语义的关系和资源到语义的关系,这两个过程可以分别被描述为语义翻 译和语义标引。 甜i 图3 1 0t h et r a d i t i o n a lr e l a t i o n s h i pb e t w e e ni n d e xa n dr e s o u r c e 传统的索引与资源的关系 3 6 3语义空问的建立 如何表示和构建语义是将语义引入我们的检索系统的首要问题,而这个过程 其实就是一个知识的表述过程,我们所说的语义空间本质上就是某种知识系统或 者说是知识库。而用语义来组织一个知识系统是o n t o l o g y 的核心思想,0 i l t o l o g y 最早是一个哲学上的概念,从哲学的范畴来说,t o l o g y 是客观存在的一个系 统的解释或说明,关心的是客观现实的抽象本质,后来随着人工智能的发展,被 人工智能界给予了新的定义 2 4 】。一个o n t 0 1 0 9 ) r 包括一套关于某一领域概念的 规范而清晰的描述称为类( c l a s s ) 或概念( c o n c e p t s ) ,描述了有关概念的各种特 征的属性( p r o p e r t i e s ) 和属性插件s l o t s ,有时也被称为r o l e s 或p r o p e r t i e s , 还包括属性插件的限制条件( r e s t r i c t i o n s ) 和分面( f 8 c t s ) ,有时也被称作 r o l e sr e s t r i c t i o n s ,以及一系列与某个类相关的实例( i n s t a n c e ) ,这些实例组 成了一个知识库( k n o w l e d g e b a s e ) 。类是0 n t o l o g y 的核心,它描述了某一领域的 概念。属性插件描述了类的属性和实例。简单的讲,o n t o l o g ) r 是对一个概念的 详细说明,在某个领域内,o n t o l o g i e s 代表该领域对象及关系的概念化表示。 概念化是对世界的一种抽象化、简单亿的看法,并能够籍此达到表达的目的 2 5 。 也就是说o n t o l o g y 所描述的是由若干有意义的概念和它们之间的联系,而这个 概念就是我们所说的语义的承载者,我们称之为义项,语义空问就是由义项支撑 起来的空间。 3 6 4资源的语义标引技术 我们不难看出o n t o l o g y 和面向对象的思想其实非常相似,我们一般所说的 面向对象,是一种对事物从抽象到具体的构建方法,而o n t o l o g y 相反的过程, 錾塞塞适盔璺殛圭堂遣谂塞熬芏塞遂爨筮醛萎煎熬盒 o n t o l o g y 可说是对舆体的事物抽致出某种本质的抉同的概念或者类以达到建立 菜秘妇浚体系煞过纛。瞧裁是说瑟愆对象是一穆秩壤念裂对象鹣裁造静过程,瑟 o n t o l o g y 是从对象剿概念的认识的过程。两前筒提弱豹语义搜索的一个关键性 问题就是如何建立语义与数字对象之间的关系,如何建立语义空间与资源空间的 映射,遮藏是o n t o l o g y 可以派上用场的地方( 髓3 一l1 ) 。我镪前面所夯绍她的 数字资源对象元数攒i i 跨司薅氇怒建设o n t o | o g y 豹零蘑烹其之一,鲡祭说 c h l t o l o g y 给语义与资源之间的跌射提供了逻辑綦础,那么r d f 则为它们提供了 物质保障。根据我们之前的定义类是也是一种对象,而类在o n t o l o g y 中表承概 念,螽莱结合兹瑟鬟翔过戆壤基慰象,蓑锯霹蔹懿宅襄酃羟为羧念数字黠象躐蠹 义项编掰对象,它与资源数字对象一样由r d f 来袭示元数据。 墅3 一l l 强ei 蠡t e g r a t o no fs 雠s e dr e s o m eb y & t o l o 秽砖潦史与资滚的整套 3 。6 5从自然语富到语义 我稻说语义索雩l 的建立其缀零瓣麓就是秀了燹好豹理解入翡需求,丽自然语 言正是人表现其需求鼹直观的形式,但是很不幸f 乜脑并不理解自然语言,所以如 何将自然语言翻译成添义或者说如何提取自然语宙中的语义是实现语义索弓i 所 必须筑决懿楚霆。 ;蓼瑟我襄谥逑鑫然语言兹蛱点怒“一义多谣,一词多义”熬 最 题,( 这服的义可以形式化表述为义顶,义项( s e n s e ) 是语义的单位,它可以区 分一个明确的无歧异的语义) 对于“一义多词”随题可以通过将多个索引词映射 到一个义顼上来织决。褥对于“一溺多义8 鲻题墩可鼓篱单麴将一个词欧慰劐多 个义项上,毽这又会瘩现和全文检索网样的捡准率低豹缺络,褥耍想提高检准率 还得我们挖掘词汇的语义,找出索引词真实关联的那个义项。( 网3 1 2 为索弓i 词 义项和资源的关系示慧图) 。 图3 一1 2t h er e l a t i o n s h i po fk e y 霄o r d ,s e n s e 矗n dr e s o u r c e 索引词、义项和资源的关系示意 之掰戳久霹戳缀辍裣熬簿凌毫精爱法嚣努鑫簟“一谣多义”耀题,藏是嚣为久 对词的理解时同时要考虑其语境,根据语境的不同来确定其真实含义,比如,我 们一眼就可以看出“举果派”与“苹果电脑”中的“苹果”含义的不同,前糟是 一秘水黎两蜃者是一家l t 公司。我织知道语境赣是词汇廖;处的上下文关系,孬 语义空蠲串义项之简墩是有穗互关系豹,也正是义项之离静关系才保证语义酌完 整表述。如果我们能使义项之间的对应关系与检索词进行某种语境的匹配,那就 有可能t t 检索系统识别检索词在不阉语境所对应的真实语义。筒事实上这是能够 霰弱熬,懿霾3 一1 3 掰器义矮e 与转爻幸应戆索弓| 弱蘩是“苹采”,攀麸索弓l 逶“孳 果”上怒无法区分其熟体义项的。假如果在语境中包含“电脑”一词( 对应稽义 项f ) ,我们可以看出c 。d 之中只有o 能与f 建成语义关联,所以可以认为“苹 果”在这令语凌下表琴义顼d 豹壤窭受大。我织溪黻看出,和f 之闯梅成一个 完整的谮义:“名称为苹果的i t 企韭所生产酌电弦”;a b c 构成的语义为: “苹果和派所组成的食物”;h i _ j 志问构成语义:“铅笔与笔记本组成的文具”。 从图中弼以看出这三组语义各支撵越一个区域,这里称这些区域为“义境”,义 境裁怒巍稆互关联瓣裟于令义瑗掰支撵超兹穗瓣猿立戆语义予索滴,这些支撑义 项中大多数义项只与少数的几个义项有着联系,我们称这些少数义项为关键义项 ( 3 一1 3 图中的“食物”,“i t 企业”,“电脑”和“文具”就是关键义项) ,关键义 顼藏是我懿爱班支撑义麓窝区分义缓豹关键。在我褒建立语义索零l 霹翻建掰蠢义 项之间的关系是不现实的也是没有必要的,在实际应用中我们必需要针对每个义 j e 夏銮适盔堂亟堂僮迨塞筮星姿递绝终毖式鳆蕉金 境( 假设每个义境的语义是相互正交的) 中的关键义项建立它与索引词和资源之 间的关系就可以在大多数情况下区分检索词的真实的语义,从而较好的解决“一 词多义”的问题。 图3 1 3ae x 锄p l eo fo n e 砧r dw “hm u l t i p l es e n s e 一词多义的例子 3 7 小结 数字资源的组织方式是数字资源的灵魂,它主要包括数字资源的存储组织、 数字资源的元数据组织和数字资源的索引组织。而一般在数字图书馆建设过程中 主要遇到的问题可以归纳为:存储与元数据,元数据与元数据,元数据与索引之 间的整合问题。本章提出用u n i - m e t a 数字对象的概念来解决元数据相关的三个 方面的整合问题,并对其设计进行了详细的阐述。最后本章还在数字对象的基础 上提出了将本体论的方法用之构建语义编目对象、数字资源对象与检索词之间的 关系,使资源与索引在语意层面进行整合,从而解决了检索过程中经常遇到的“一 词多义”问题,更好的满足人对资源的真实需求。 墨。 4 1 概述 4 数字资源整合检索 我们前文所说的数字资源整合技术都是基于构建一个统一的数字资源系统 的所提出的。而事实上数字图书馆领域的整合问题更多的集中在异构资源系统问 的整合上。近几年来,随着各信息机构对数字图书馆建设激情的高涨,馆内不断 购置和自建各种电子期刊数据库、电子图书数据库、电子期刊杂志库。而这些数 字资源被不同的机构利用不同的架构开发,采用的数据结构和系统平台也各不相 同,检索接口、检索方法等也有很大的区别。从数量上数字图书馆的资源在日新 月异的翻倍增长,但从实际利用角度讲,数字资源的利用率却大幅下降了。其原 因就是这些资源数据库各成系统,接口不一,用户不得不频繁切换与各种检索界 面之问。数字资源的整合检索就是在这样的背景下提出的,它的目标是在整合现 有的资源系统的检索资源,形成统一的一致的检索界面呈现给最终用户。 4 2技术背景及其发展现状 4 2 1整合检索技术的发展 国外对数字资源系统整合研究早在2 0 世纪9 0 年代中后期就开始了,并相继 出现了一系列的研究论文。如早在1 9 9 8 年s p i n f i e l d 等人在“d l i bm a g a z i n e ” 上发表了“r e a l i z i n gt h eh y b r i dl i b r a r y ”一文,提出了复合图书馆中的整合 问题:复合图书馆应该要达到“无缝整合”即通过统一的用户界面来为用户提供 服务,并且应该只有唯一的认证网关。但该文并没有提出具体的解决途径与方法。 2 0 世纪9 0 年代后期,比利时g h e n t 大学的h s o m p e l 等开始立项研究参考链接 问题,在“r e f e r e n c el i n k i n gi nah v b r i dl i b r a r ye n v i r o 咖e n t ”系列报告 中提出了在o p e n u r l 框架下的数字资源参考链接解决方案,并开发出名为s f x 的链接服务器软件。2 0 0 0 年e x l i b r i s 公司取得了对s f x 参考链接软件的独占权, 目前该技术已被业界广为使用,全球有近2 0 0 个机构选择了该解决方案,已经成 为事实标准。差不多也在2 0 世纪9 0 年代后期,出版界也试图推出另一种引文链 接规范。1 9 9 9 年底,大型国际出版商同意在建立索引链接的基础上相互合作。 于2 0 0 0 年1 月,1 2 个世界顶尖的s t m 学术出版商为促进电子期刊领域中跨出版 商的索弓i 涟接的合作丽成立了c r 0 8 8 r e f 。2 0 0 4 年2 月在墨尔本召开两年一次的 第1 2 黟维多聿j 耍露书镶蠡动化协会( 强l 黪会议,会议静主题羧是“努破边器: 整合和w 互操作性”。会上我国上海图书馆的吴建中发表了“发展无边界复裔图 书馆:上海经验”,提出2 0 0 3 年是l 羽书馆整合年,提出了上海阿书馆2 0 0 3 年的 目标是将所有的电子资源及其服务放刘一个界西中( 0 n ei n t e r f a c e ) ,丙将张瓣 嚣羲;是一次往援索( 溉es e 8 r c h ) 【2 翻。 4 。2 2目前具有代表性的图书数据库整会检索系统 目前,已有很多商业机构和图书馆在从事跨席检索技术的研发,如w e b f e a t 公司的w e b f e a tp r i s m 、e xl i b r i s 袋司的m e t a l i b 、e n d e a v o r 公司的e n c o m p a s s 、 n n o 豫t i v ei n t e r f a e e s 公司静鼙i l l e n n i 勰a e c e s sp l n s 瓣鳓、瀵华霹寅惫提 出了数字纯图书馆知识两络服务共建共享项目。以上的几种跨艨检索技术在功能 和技术上有很多共同点,但也各有冀特色和核心技术。 。滟t 8 l 强系绞怒垂x 班b 藏s 公司撵窭豹恕子蕊塞资滋熬含系统,撬供多 种数据库整合检索界面,并可直接链按到电子全文。m e t a l i b 是当前用 户最多的一个跨库检索系统 2 7 】。 。p 艇s 毽是釉b f e a t 公司所推出的较专照的跨库检索系统,该产菇穗彼 e p i x t e c h 和i s i 所使用。e p i x t e c h 公司融把w e b f e a tp r i s m 技术整合到 它的图书馆自动化系统h o r i s o n 中,h o r i s o n 新版本的i p a c 就利用 箨曲f e a t i s 攥实瑶麟e 岛逛子数据瘁鹣统一乎台查逮【2 8 】。 u s p ( u n i o ns e a r c hp 1 a t f o n i i ) 是清华网方推出的异构数据库整合捻索 平台,其特点是当愿户提爨捡索请求后,潺求被交给服务器端的一个称 为“智麓搜索器”鹩程净。“智能援索器”针对不弱黯数据库,穆粥产 请求转化为符合其规定的格式,然后将请求发送到各数据库。在得到数 据库的返回结果后,“智能搜索器”再将不同数据库的结果转化为统一 懿辏式,势发送到游览器臻嚣嚣绘溺产。豁p 基蔚支持茂餐重蠹多 零 用的搜索引擎戚数据库 2 9 。 泓l i s 整合检索平台。激l l s 是中国搿答教育文献绦障系统( 铺i n a a e a d e m i cl i b r a r y 盏i n f o r 掰a t i 。n $ s t e m ) 豹缩写,怒经国务浣熬猴豹 我囡高等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全生产GMP认证模拟练习题及答案
- 2025年健康管理顾问资格认证考试试题及答案解析
- 2025年建筑施工现场监理员专业能力测评试题及答案解析
- 2025年家政服务员职业技能考试试题及答案解析
- 机电行业外贸知识培训班课件
- 2025年宠物音乐疗愈师初级面试模拟题及答案
- 2025年广告文案策划师职业水平评定试题及答案解析
- 中学语文教学通讯课件
- 如何写好讲解课件教学
- 课件上的秘密
- 新媒体礼仪知识培训总结
- 2025 年小升初成都市初一新生分班考试语文试卷(带答案解析)-(部编版)
- 人教版七年级上册数学教学计划
- 护理事业十五五发展规划(2026-2030年)
- 2025云南昆明巫家坝建设发展有限责任公司招聘23人笔试备考试题及答案解析
- 重庆市七校联盟2024-2025学年高一下学期期末考试物理试卷(含解析)
- 2024年河北科技师范学院招聘真题
- 培训班校长述职报告课件
- 传染病信息报告管理规范2025年版培训试题及答案
- 临床患者身份识别管理标准
- 抗菌药物处方医师培训考核试题及答案
评论
0/150
提交评论