(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf_第1页
(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf_第2页
(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf_第3页
(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf_第4页
(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于数字图书馆的异构资源检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近十几年来,信息技术给图书馆带来了前所未有的冲击和影响,数字资源 呈现出形态复杂、种类繁多、分布广泛、平台各异的特点。为了降低读者检索 的难度,从根本上解决信息爆炸和检索困难之间的矛盾,图书馆面临着寻求新 型技术方案、建立新型资源管理系统和满足读者新需求的挑战。 本文从数字图书馆的兴起、特点谈起,对数字图书馆的现状及未来发展趋 势作了概述;接着对资源整合的种类、目的作了介绍,并对构建资源整合系统 的模式和方法进行了探讨。在此基础上,对数字图书馆信息资源的检索技术、 检索系统的实现框架进行了分析,讨论了两种主要应用于数字图书馆的互操作 协议,并对异构资源跨库检索的两种方式进行了对比说明。 当前基于数字图书馆的异构资源检索的方式主要有两种:一、在各个不同 的数据库中进行分布式检索,最后将检索结果进行整合;二、将各个数据库中 的资源构建成一个虚拟的、统一的资源库,并在此资源库中进行检索。这两种 检索方式各有优点和缺点,本文进行了详细的讨论,并构建了一个基于上述检 索方式的模型。 最后,关于进一步工作的方向进行了简要的探讨。 关键词:数字图书馆;数字资源;异构资源整合;异构资源检索;z 3 9 5 0 协议 a b s t r a e t a b s t r a c t i n t e r n e tt e c h n o l o g yh a sb r o u g h th u g ei m p a c t so nl i b r a r yi nd e c a d ey e a r s ,a n d d i g i t a lr e s o u r c et a k e so l lc o m p l e x s t a t e s ,v a r i o u s - c a t e g o r i e s ,b r o a d - d i s t r i b u t i o n s a n dd i v e r s e p l a t f o r m s i no r d e rt oh e i pr e a d e r st os e a r c hf a s t e ra n ds o l v ep r o b l e m s b e t w e e ni n f o r m a t i o n e x p l o s i o na n ds e a r c hd i f f i c u l t y , p e o p l en e e dt o f i n dn e w t e c h n o l o g ys o l u t i o n s ,s e tu pn e ws y s t e m sf o rr e s o n r c ea d m i n i s t r a t i o na n ds a t i s f y r e a d e r s n e wd e m a n d s 1 1 1 e p a p e rf i r s t l y d e s c r i b e st h eh i s t o r ya n dp r o g r e s so fd i g i t a ll i b r a r y , i n c l u d i n gc u r r e n ts t a t ea n df u t u r ed e v e l o p m e n t t h e ni tp u t sf o c u so nh e t e r o g e n e o u s r e s o u r c e si n t e g r a t i o nb a s e do nd i g i t a ll i b r a r y , d i s c u s s i n gt h em o d e la n dm e t h o d st o c o n s t r u c tr e s o n l c c si n t e g r a t i o ns y s t e m n e x ti ta n a l y s e ss e a r c ht e c h n o l o g i e so f d i g i t a ll i b r a r yi n f o r m a t i o nr e s o u r c e s ,a n dt a k e st w om a j o ri n t e r - o p e r a t i o np r o t o c o l s f o re x a m p l e a tl a s t ,i tc o m p a r e st h ec h a r a c t e r i s t i c so ft w oh e t e r o g e n e o u sr e s o u r c e s s e a r c h t h e r ea r et w os e a r c ha p p r o a c h e si nh e t e r o g e n e o u sr e s o u r c e sb a s e do nd i g i t a l l i b r a r y :o n ei sp e r f o r m i n gd i s t r i b u t e ds e a r c h e si nd i f f e r e n td a t a b a s e s ,a n dt h e n i n t e g r a t et h e m 1 1 1 eo t h e ri sc o n s t r u c t i n gav i r t u a l u n i o nd a t a b a s ef r o md i f f e r e n t d a t a b a s e s ,a n dt h e nd os e a r c h e si nt t u sn e w l y c o n s t r u c t e dd a t a b a s e e a c hs e a r c h a p p r o a c hh a si t sa d v a n t a g e sa n dd e f e c t s a l lo f t h e ma r ed i s c u s s e di nd e t a i l ,a n dw e c o n s t r u c ta p r o t o t y p em o d e lb a s e do ns u c ha p p r o a c h e s f u t u r es t u d yr e q u i r e m e n t sa r ea l s od i s c u s s e di nt h ep a p e r k e yw o r d s :d i g i t a ll i b r a r y ;h e t e r o g e n e o u sr e s o u r c e si n t e g r a t i o n ;h e t e r o g e n e o u s r e s o u r c e ss e a r c h ;z 3 9 5 0p r o t o c o l ;d i g i t a lr e s o u r c e 学位论文版权使用授权书 y9 56 3 8 8 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:怕卡啊 沙0 6 年a 月哆日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月 日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:湍椅 渺6 年j 月d r 日 第1 章引言 第1 章引言 近十几年来,信息技术给图书馆带来了前所未有的冲击和影响,爆炸性增 长的数字信息、无处不在的网络环境,促使图书馆的资源和服务都发生着历史 性的变化。从图书馆提供文献信息服务的角度来看,在9 0 年代前期,绝大多数 图书馆主要依赖印刷本出版物,光盘网络得以应用但数量有限。经过最近几年 的发展,图书馆呈现出数字资源大幅增长,馆藏结构发生明显变化的趋势。用 户在满足于可以获取日益丰富的资源同时又面临新的问题:图书馆提供的大量 数字资源往往由不同的数据商提供,运行的软硬件系统环境以及检索界面也各 不相同。面对数字资源呈现出的形态复杂、种类繁多、分布广泛、平台各异的 特点,读者进一步提出了新的需求,希望图书馆提供信息深层内容的“导航”、 查找信息的“统一界面”和一步到位的服务。为了降低用户检索的难度,从根 本上解决信息爆炸和检索困难之间的矛盾,图书馆面临着寻求新型技术方案、 建立新型资源管理系统和满足读者新需求的挑战。 第2 章数字图书馆简介 第2 章数字图书馆简介 1 9 9 5 年i f i a 大会上t s h a l m a n 曾发言从巴比伦到自由空间( f r o m b a b y l o nt ol i b e r s p a c e ) ,他指出:“我们过去所熟知的图书馆在消逝。我们必 须接受这一事实,即图书馆是无墙和无维度的空间,是座没有书库的图书。” h a l m a n 的话道出了信息时代的到来给传统图书馆带来的冲击。当信息化、数字 化铺天盖地向我们袭来,在我们生活中无处不在时,人们的知识库图书馆 也在发生着一些改变。 2 1 数字图书馆的兴起 2 0 世纪8 0 年代,电子技术应用于图书馆,导致了人们对传统图书馆的再认 识。随着电子出版物的产生和逐步增多,从理论和实践上产生了电子图书馆, 这是电子图书、电子报纸和电子期刊发行量激增的结果。数字图书馆和虚拟图 书馆正是在这种环境下产生的。 1 9 9 3 年美国信息高速公路开始建设,1 9 9 4 年美国投资2 2 0 0 万美元在卡内 基梅隆大学等6 所高校开展“数字图书馆首创计划”,美国宣布进入数字图书 馆时代,虚拟图书馆和虚拟图书馆理论也应运而生。尽管人们对首次提出数字 图书馆理论和首次提出虚拟图书馆理论的年代和首倡都有不同的看法,但逐渐 升温的应该是2 0 世纪9 0 年代之后,网络技术和数字信息处理技术也是在这之 后迅速发展起来的。由于传统图书馆和电子图书馆、数字图书馆以及虚拟图书 馆产生的历史年代不同,人们对其利用的程度亦有不同,所以认识也有所不同。 但传统图书馆应用技术的数字化,已经是现在图书馆管理的一个大趋势。 我国数字化图书馆建设工作始于1 9 9 5 年,目前仍处于起步建设阶段。1 9 9 7 年,由中国国家图书馆牵头,与上晦图书馆等5 家图书馆联合开展国家重点项 目“中国实验型数字图书馆”的试点工作,为实现全国范围的“中国数字图书 馆工程”奠定基础。1 9 9 8 年,文化部成立了以徐文伯副部长为组长的中国数字 化工程领导小组,目前国家图书馆馆藏文献2 1 6 0 万册,其中数字化馆藏已达 2 0 0 0 g b 。 2 第2 章数字图书馆简介 2 2 数字图书馆的特点 数字图书馆是以数字形式存贮和处理信息并通过运用计算机技术、通讯技 术、网络技术提供给读者使用的信息服务系统,是图书馆发展的新阶段。在数 字图书馆中,读者可以运用电子技术,通过计算机网络获得处于不同地理位置 和分散在不同贮存处的信息资源。数字图书馆是对传统图书馆的根本性变革, 它具有以下特点: 1 信息存贮数字化 在传统的图书馆中,馆藏的主体是纸质的图书、期刊、报纸;而在数字图 书馆中,馆藏的主体是存贮于各种存贮设备中的数字化信息。 2 通信媒体网络化 数字化图书馆的发展离不开网络,是以网络为基础,依托于网络而存在的, 其对内的业务组织和对外的服务都是以网络为公共载体的。 3 馆藏内容的海量性 传统图书馆靠的是不断增加馆舍面积来增加馆藏容量,而数字图书馆中数 字文献信息的高容量和可压缩性使实际物理收藏空间大幅度缩小。一张普通光 盘可存贮的文字信息相当于2 0 0 0 本图书,而且占用的物理空间不足一只手掌大 小。同时,网络环境下的数字图书馆不再是一个单独的实体性的贮存处,它拥 有的资历除了本馆存贮设备上的数字信息外,还包括在网上可以访问到的任何 存贮设备上的数字信息。 4 获取信息的快捷陛 传统的图书馆服务中,读者获取信息需经过目录检索、索取资料、阅读资 料等环节。而在数字图书馆中,读者通过计算机的简单操作既可获取信息,同 时查准率、查全率均远远高于传统图书馆。 5 资源的共享化 数字图书馆依托网络而存在,因此网上的信息资源都可以共享。这样就解 决了传统图书馆资源共享无法突破的瓶颈。目前,我国严格意义上的数字图书 馆还正处于研究、试验、论证阶段,而作为数字图书馆雏形的电子阅览室则在 国内许多图书馆中都已经建立。由文化部倡议,国家图书馆牵头,以上海图书 馆、深圳图书馆等国内主要公共图书馆为主参与的“中国国家实验型图书馆计 划”目前已取得初步成果;清华大学与i b m 合作正在创建“中国高校学位论文 3 第2 章数字图书馆简介 联机服务系统”,并已完成“中国学术期刊文献检索系统”的建设工作。此外, 国内许多图书馆都开展了数字图书馆的研究、试验、论证工作。可以预见,在 不久的将来,传统的图书馆即将进入一个全新的数字化时代。 2 3 数字图书馆的信息资源 1 数字图书馆的信息资源类型 数字图书馆的馆藏( 通常称数字化馆藏) 与传统图书馆的馆藏在载体形式、 典藏方式及检索方式等方面有很大的差别,但具有一定规模的信息资源作为馆 藏这一点是相同的。数字化馆藏是由各种各样的数字化信息资源组成的,它主 要包括三个部分:一是由资源拥有者将部分纸质载体或其他载体的馆藏转化为 数字化形式;二是由出版商或著者主动制作的原始数字化作品;三是通过链 接w e b 上相关的信息资源,提供非本馆收藏的可共享的外部信息资源。 从不同角度出发,数字图书馆的信息资源可以划分多种类型,如普通电子 出版物与网络出版物等。但我们认为,对检索技术影响最大的是从资源存放位 置来划分的这两大类,即现实资源和虚拟资源。现实资源是指存放于本地的数 字化文献,如光盘、磁带等各种载体形态及相关设备;虚拟资源是指必须通过 计算机系统及其通信设备才能获取的存放于异地的数字化文献。现实资源与虚 拟资源是相对的,这个馆的资源对另一个馆来说,可能就是虚拟资源,反之也 一样,二者互为补充,共同组成了数字图书馆的信息资源。 2 数字图书馆信息资源的组织描述 我们希望把不同形式和各种载体存贮的信息资源转换成数字化信息资源, 必须用某种方法或机制把这些数字化信息资源进行组织并描述出来。根据数字 图书馆的信息资源的特点,我们主要是用对象数据( o b j e c td a t a ) 和元数据( m e t a d a t a ) 这两种形式将其组织描述出来。对象数据是指数字化的文本、图像、音频、 视频等信息资源。元数据是指描述和管理对象数据的数据。 描述和管理对象数据的数据元数据的技术和方法是数字图书馆的研究 热点。元数据是描述某种类型资源的属陛,并对这种资源进行定位和管理,同 时便利于数字化检索的数据。元数据包括描述型元数据( 如书目信息) 、结构型 元数据( 如格式和结构信息) 和管理型元数据( 如权利、许可管理访问的条款) 。 目前,常用的七种元数据是:c d w a ,c a t e g o d e sf o rt h ed e s c r i p t i o no fw o r k so f 4 第2 章数字图书馆简介 a r t ,即艺术作品著录类目,适用于艺术品;v r a ,c o r ec a t e g o r i e sf o rv i s u a l r e s o u r c e s ,即可视化资源核心类目,适用于艺术、建筑、史前古器物、民间文 化等艺术类可视化资料;d c ,d u b l i nc o r e ,即都柏林核心,适用于网络资源; f g d c ,f e d e r a lg e o g r a p h i cd a t ac o m m i t t e e ,即地理空间元数据内容标准,适用 于地理空间信息;g i l s ,g o v e r n m e n ti n f o r m a t i o nl o c a t o rs e r v i c e ,即政府信息定 位服务,适用于政府公用信息资源;e d a ,e n c o d ea r c h i v a ld e s c r i p t i o n ,即编码 档案描述,适用于档案和手稿资源;t e l ,t e x te n c o d i n gi n i t i a t i v e ,即文本编码 倡议,适用于对电子形式全文的编码和描述。 2 4 数字图书馆的技术体系结构3 数字图书馆的技术体系结构是建设数字图书馆系统的基础,是数字图书馆 在网络和计算机技术上的具体实现,是未来信息社会处理、存储和应用数字化 信息的基本构架。它的发展目标是符合下一代互联网的发展趋势,成为一个高 度开放、方便可用的体系结构。 参照国际主流的数字图书馆研究及实现方法,按一种逐次发展的系统模式 来组织。其总体构成如图2 1 所示。 对象数据库 图2 1 数字图书馆逻辑关系图 5 用 户 第2 章数字图书馆简介 其中,对象数据库分布存放,元数据库相对集中,数据加工系统实现数字 化信息及知识的采集、加工、处理、存储和组织,调度系统实现网络环境下对 象数据的识别和统一调度,查询服务系统实现数字化信息和知识的发布和利用。 对于一个用户请求,数字图书馆系统通过查询服务系统检索元数据库得到资源 的标识,然后通过调度系统获取以分布形式存储的对象数据,最后通过查询服 务系统提交给用户。 按照上述体系结构,需要开发以下应用系统: 1 资源加工系统 数字资源加工系统要实现对文本、图像、音频和视频等信息及知识的数字 化采集、加工、处理。实现对上述资源进行一次加工,多次使用,适应应用系 统今后的扩展需要。数字资源加工系统主要用于数字图书馆资源库的建设。 2 异构资源库整合系统 前期,各文献拥有单位已经建设了一批高质量的数据库,把这些数据库整 合到数字图书馆系统中,无疑将极大地丰富数字图书馆的内容,但从技术上来 看,实现这样的整合系统具有相当高的难度,一方面原有数据库的内容是多方 面的,其数据构成形式有很大的差异;另一方面,原有数据库的实现从系统平 台到应用软件等都不尽相同。因此,现在还没有完全成熟的系统方案可用,参 照国外在这方面已经进行的工作,建议采用x m l 封装的技术对现有的数据库统 一进行封装,将其与数字图书馆系统连接,使这些数据库作为数字图书馆的资 源得到有效的利用。 3 数字资源的管理与存储系统 数字图书馆的数字资源由元数据和对象数据构成。原则上,元数据相对集 中存放,对象数据分布存放。大规模资源管理与存储系统要实现所有数字资源 的存储管理,包括根据国内外相关标准和规范定义的元数据和数字对象的存储 格式、存储协议,维护元数据和数字对象的完整性和一致性,以及在分布式网 络环境下提供大规模数字资源快速有效的存取支持等。 4 资源调度系统 调度系统的目标是通过一个标识来确定数字图书馆中所有数字资源的规 则,建立一个管理所有数字图书馆数字资源的系统,在资源环境发生变化时, 在数字图书馆环境中,只要把唯一标识所指向的对应值做相应的修改,就可以 保证服务的正常运行。 6 第2 章数字图书馆简介 实现调度系统首先要建立一个完善的调度码体系,为此要有一个资源统一 命名规则。其次,要建立一个调度机制。除了建立调度码体系和调度机制以外, 调度系统还必须为资源加工和用户服务提供调度服务功能。 5 联合编目和馆际互借系统 书目数据是传统图书馆自动化系统的主要处理内容,在数字图书馆系统中, 作为一种类型的元数据,书目数据仍然有着重要的作用。通过z 3 9 5 0 协议,传 统的书目系统可以直接为数字图书馆系统提供元数据,但数字图书馆应用系统 的元数据不仅限于书目数据。因此,在条件允许的情况下,应该把各单位的书 目系统转换为基于网络环境的元数据共建共享系统。同样,对于馆际互借系统, 也要从以传统介质为主的方式过渡到兼顾传统介质和数字资源两个方面。 6 用户查询和服务系统 数字图书馆用户查询和服务系统要实现数字化信息和知识的发布与利用。 用户通过统一的应用界面进入系统,根据检索元数据库得到资源的标识,再经 过调度系统,由数字资源管理系统获取以分布形式存储的对象数据库中的资源。 构成用户查询和服务系统主要有三部分:应用界面系统;元数据搜索系统; 数字资源存取系统。 此外,资源的使用还须通过调度系统,其逻辑组成如图2 2 所示。 图2 2 用户查询和服务系统的逻辑组成图 7 第2 章数字图书馆简介 7 安全认证系统 为确保系统运行安全,确保各类知识资源为各种层次人员高速取用,数字 图书馆体系结构中需要设有安全认证系统。 8 版权保护与电子商务系统 数字图书馆的资源建设应遵守国家有关法律法规,协调解决有关版权事宜。 为保证数字图书馆能够持续有效地发展,需对部分资源使用进行有偿服务, 在技术体系中,需要对数字图书馆分布式资源跨单位跨库服务模式下的版权保 护与电子商务( 包括安全性) 系统给以支持。 总之,数字图书馆应用系统应是一类可扩展的知识网络系统,它采集、加 工、处理、存储、组织、发布、利用( 含版权保护) 和归档数字化信息及知识。 该系统要涵盖多个分布式的、超大规模的、具有可互操作的异构多媒体资源库 群,通过因特网对国内外用户提供高效跨库、无缝连接的信息服务。 2 5 建设数字图书馆所涉及到的有关技术问题 1 存储与压缩 数字图书馆所涉及的数据类型有文本、图像、语音,图形等,而且所面临 的数据是海量的。这么大的数据量是迄今为止其它任何系统都没有遇到过的, 需要大规模数据库来存储和处理这些数据。在数字图书馆中,文本的数据量所 占比重并不是很大,真正大的是多媒体数据。因此,对多媒体数据必须进行压 缩,然后保存在数据库中,以降低库的成本,使库的规模保持在可管理的范围 内。 2 分类、索引、检索 数字图书馆所面临的数据类型各不相同,如文本信息、地图信息、图像信 息及视频、音频、音乐等信息,对不同的内容,需要不同的分类体系和索引机 制。而能否制定一个比较好的分类方法、建立一个比较好的索引机制,将直接 影响到后续工序能否开发出一个比较好的检索工具。这其中需要包括中文搜索、 图像搜索、语音搜索、智能搜索等大量的人工智能的支持。 3 传输与保护 当数字图书馆的用户提出一个服务请求时,系统能否用最短的时间对用户 的请求进行回答,这是系统能否成功的关键。这其中有许多问题需要解决,如 8 第2 章数字图书馆简介 带宽的有效使用问题,多媒体解压的分层传输问题。 4 交互式用户界面 交互用户界面是数字图书馆的重要组成部分,是系统展现在用户面前的窗 口。其实,这不仅是数字图书馆所面临的挑战,任何系统都有这个问题,即怎 样设计一个用户界面,让用户使用时得心应手,能够友好、直观、方便,并具 有人性化、智能化的特性,充分利用图形、语音,将其融为一体,设计出比较 好的界面。 5 多语言问题 这个问题是国家“8 6 3 ”计划一直在支持研究的项目,包括机器翻译问题、 多语言浏览器问题。 6 开发工具与平台 这是一个具有很大挑战性的课题。其中包括总体结构标准、软构件技术、 信息录入工具、搜索工具、知识挖掘工具等问题。 9 第3 章数字资源整合 3 1 资源整合的目标 第3 章数字资源整合 所谓数字资源整合,是指依据一定的需求,通过中间技术( 数字资源无缝 链接整合软件系统) ,把不同来源和不同通信协议的信息完全融合,使不同类型、 不同格式的数字资源实现无缝链接。通过整合的数字资源系统,具有统一检索 功能,是一种跨平台,跨数据库、跨内容的新型数字资源体系 2 1 d l 。 1 门户整合。所谓门户整合,就是将众多独立应用的门户变成一个统一门 户进去。这种整合方法主要是基于o p a c 资源系统的一种整合方式,它 的实现是通过执行z 3 9 5 0 协议,聚合不同平台上异构o p a c 数据源, 建立书目整合检索系统。用户只要通过一个0 p a c 系统界面即可检索到 相关图书馆的o p a c 。门户整合的最大优点是:通过一个统一的检索界 面即可了解其他馆藏的信息。但由于该整合方式是多个馆藏的简单相 加,用户如需进一步了解信息时,还须逐一点击各馆藏记录,进行二次 选择和查重处理。 2 数据源整合。即对分散的异构数据源进行无缝链接,在逻辑上形成一个 新的数据源。这种整合方式不是简单的“库集合”、“库相加”,而是对 多个相关数据源查重后形成的一种新的虚拟性数字资源体系。它提供给 用户的不单单是统一的查询界面,而且还有高质量的信息内容。 3 系统整合。所谓系统整合主要是基于图书馆应用系统的一种资源整合方 式。其目的是通过对系统内应用系统和数字资源进行分解和重组,使其 在组织结构和表达方式等方面趋于一致,构建一个统一的数字资源管理 平台,以实现系统间数字资源整合和共享的目的。 上述3 种整合方式不能单独进行,因为门户与数据源和系统之间存在着密 不可分的关系,是一个整体,对其中任何一项进行整合时,必须要考虑对其他 两项的整合。总之,以上无论哪一种整合方式,都必须兼容不同的组织结构和 表达方式,让不同系统的信息在同一个平台上通过。 4 协议标准整合。所谓协议标准整合是针对各种不同的数据组织方式和网 1 0 第3 章数字资源整合 络通信协议而言的,即通过一定的中间技术手段或者完全对数据进行重 组的手段,对采用不同访问协议和不同数据标准( 例如j d b c 、h t t p 、 o d b c 、z 3 9 5 0 、o p a c 、o w n u r l 等) 的数据源在同一界面内实现统 一检索或整合检索,从而实现资源整合。 5 检索方式的整合。即整合后的数字资源的统一检索服务平台可提供全方 位的检索方式,不仅支持布尔检索、相关度检索、全文检索,还支持多 种检索运算符以及组合检索、位置检索等,从而方便用户精确定位信息。 平台还应该提供可扩展的词典和知识库,能够为专业用户提供特别的检 索服务。 3 2 构建资源整合管理系统的模式和方法 数字信息资源整合管理系统从直观上讲是在统一的用户查询界面与检索结 果的形式下,共享多个网络资源的索引技术和检索技术,为用户提供“一站式” 的服务。从机理上讲是依据检索需求,对各个相对独立的异构资源系统中的数 据内容、功能结构及其检索方法进行聚类和重组,生成一个优化组合的系统。 图3 1 揭示了整个系统的结构框架吲。 链接到来源数据库查看记录 用户输入 检索词 结果集显示在 用户界面上 结果 合并器 翻译成各数据库的检索 卧网糯 库选卜_ + | 选择r 叫调度 择器ll器台 图3 1 数字信息资源整合管理系统框架图 整合的数 据库集合 羔丽 第3 章数字资源整合 首先,系统的检索界面会呈现给用户,用户通过其中的检索入口输入检索 词,检索词被依次送到翻译器的三个组件:数据库选择器、文件选择器和查询 调度台。由翻译器来分析确定被检索的数据库、文献被命中和返回的方式以及 每个数据库的特定检索语法;特定语法传递用户的检索请求到每个数据库,利 用各个数据库的检索引擎检索,抽取结果并去重、合并后将其显示在联合检索 的界面。用户也可以由结果集链接到各个来源数据库查看需要的记录,如全文、 o p a c 记录等。 目前,实现数字信息资源整合通常采用2 种模式:即实体法和虚拟法1 5 】。 1 采用实体法建立整合系统,需要建立一个存储仓库,将参与整合的各种 信息源装入其中,不同数据库结构的内容源被转换为相同的数据格式, 用单一的检索引擎可以很容易的检索所有资源。该方法的优点是检索响 应速度快,缺点是并不是所有的数据提供商都愿意提供原始数据参与整 合。在这种方式下,数据重复存储,整合系统需要维护一个与信息源中 的数据内容一致的副本,维护的代价较高。 2 采用虚拟法建立整合系统时,系统本身不建立资源库,它以代理的角色 接受用户的请求,通过翻译器把查询请求转换成相应数据库的查询语言 和检索方法,分别对应各个数据库发出检索请求,再将来自各个数据库 的命中结果归在一个界面中呈现给用户。该方法的优点是检索结果与数 据源同步,缺点是增加整合资源的数量将减陧检索响应速度。目前,采 用实体法整合资源的技术已经比较成熟,典型的系统有w e bo f s c i e n c e 、 c s a 等。而采用虚拟法整合资源的技术和开发正在成为研究和应用的热 点。 3 3 国外主要数字资源整合系统嗍 自2 0 世纪9 0 年代后期,国外图书馆和i t 界相继开发出数十种数字信息资 源整合系统,包括e n c o m p a s sw i t hl i n k f i n d e r p l u s 、m e t a l i b w i t hs f x 、 m i l l e n n i u ma c c e s sp l u s ( m a p ) 、w e b f e a t 、c h a m e l e o ni p o r t a l 、i l i n k 、i p o r t 、x d i r e c t o r y a n dx f l o w 、z p o r t a l 、u p o r t a l 等,其中前4 种系统得到较多认同和应用。这4 种 系统各有特色,拥有各自的用户群。 第3 章数字资源整合 3 3 1l 狲c o m p a s sw i t hl i n k f i n d e r p l u s e n d e a v o r 是美国一家多年致力于图书馆自动化集成管理系统开发的公司, 它针对图书馆的不同情况提供3 种解决方案: e n c o m p a s s f o r r e s o u r c e a c c e s s ( 用于资源的存取管理) ; e n c o m p a s sf o rd i g i t a lc o l l e c t i o n ( 用于建立数字收藏) ; l i n k f i n d e r p l u s ( 用于建立c i t a t i o n 链接) 。 e n c o m p a s s 提供5 种功能模块,如图3 2 所示。 图3 2e n c o m p a s s 功能模块 与其它系统比较,e n c o m p a s s 最大的特点在于其对元数据的处理,它可以 支持多种元数据类型。在e n c o m p a s s 系统中,图书馆不仅可以使用已经存在的 元数据标准,也可以创建本地的元数据。e n d e a v o r 公司采用“混合和映射”的 原则解决各系统之间元数据的互操作问题。在e n c o m p a s 中,各种元数据类型 ( 包括现存的、特殊领域的、标准的或非标准的、新定义的以及图书馆书目记 录等) 都被映射为d c ,d c 被用来进行跨馆藏的检索。e n c o m p a s s 存储结构也 是特色,它的最上层是各个收藏数据库,每个收藏数据库包含若干容器,在容 器中包含对象。 3 3 2m e t a l i bw i t hs f x e x l i b r i s 是以色列一家致力于图书馆自动化管理系统开发的跨国软件公司。 m e t a l i b 的实现分为应用层和技术层2 个级别,如图3 3 所示。 1 3 第3 章数字资源整合 应用层:m e t a l i b 目标 资源管理敏感的检索个性化服务 上下文 敏感的链接 知识库 图3 3 基于技术组件和知识库的m e t a l i b 框架图 与其他系统相比,m e t a l i b 和s f x 的主要优势在于: 1 目前已经是可以投入运转的成熟产品。 2 m e t a l i b 和s f x 均为独立系统,可以与用户的现有环境集成,与其它图 3 4 5 6 书馆管理系统结合使用。 面向全球的开发策略,产品采用u n i c o d e 支持,具有多语言处理能力。 基于通用数据库平台的开发环境,方面用户操作管理。 提供基于网络的知识库配置工具( 允许用户自动更新本地知识库) 和随 软件一起提供的m e t a l i b s f x 知识库数据服务( 放置机构资源使用的数 据和规则) 。 s f x ,它是m e t a l i b 中最有特色的模块,包括了链接源、链接目标、链 接的目标及为用户提供的可选服务类型集。 3 3 3m i l l e r m i u aa c c e s sp l u s ( m a p ) i n n o v a t i v e 公司为了配合图形界面新系统m i l l e n n i u m 的使用,增强原有系统 的功能,于2 0 0 0 年推出了m a p ( m i l l e n n i u ma c c e s sp l u s ) ,作为对原有系统的 扩充。 m a p 由三部分组成:m e t a f i n d 、w e b b r i d g e 、w e ba c c e s sm a n a g e m e n t 。这 1 4 第3 章数字资源整合 三部分相互独立、各司其职,但又可以相互配合成为一个功能完善的联合检索 系统。其结构框图如图3 4 所示。 f 用户 j m e t a f m d :联合检索 瓜 w e ba c c e s sm a n a g e m e n t :认证 | 选取自q 资源 f, | l编目资源 f, 网站, 库网络o p h 数字鬻卜数据库 卜 忙讣 z 3 95 0 数据 库,其它图 ii 馆藏ill 书馆目录 ii上 b 7 懒咖k 接一 图3 4 m a p 结构框图 m a p 的特色分别体现在3 个组成部分当中: 1 w e b b r i d g e 具有智能链接的能力,可以从任何属于图书馆的电子资源中 创建相关资源的列表; 2 m e t a f i n d 是具有元检索能力的信息门户,提供对多类型资源库的跨库检 索,它使用x m l 和服务器端j a v a 传送集成检索结果; 3 w e ba c c e s sm a n a g e m e n t 是管理远程有使用权限数据库的解决方案,它 采用网关服务器控制对有权限数据库的使用,允许合法用户从各处访 问。 1 5 第3 章数字资源整合 3 3 4w e b f e a t w e b f e a tp r i s m 是一项信息服务,而不仅仅是一个检索软件。系统的建立和 维护由w e b f e a t 和i s i 负责。w e b f e a tp r i s m 可跨库检索任一数据库,只要是通 过浏览器可以访问的数据库都能实现联合检索。w e b f e a tp r i s m 联合检索的资源 既可以是符合z 3 9 5 0 协议的数据库,也可以是d b m s 文档( 如o r a c l e 、s q l s e r v e r 等) 。 3 4 国内主要数字资源整合系统嘲 最近几年,国内一些图书馆自动化开发公司和一些软件商已经意识到发展 异构资源整合系统的紧迫性和重要性,相继开发这类系统,但目前成熟的系统 不多,具有代表性的是清华同方t p i 的u s p 异构检索平台和t r s 数字图书馆资 源整合门户t r s i i p ( v 2 0 ) 。 3 4 1 清华同方t p i 的异构统一检索平台u s p 清华同方在t p i 系统中提供了异构统一检索平台u n i o ns e a r c hp l a t f o r m ( u s p ) 。u s p 目前支持的网络数据库有3 0 多种,并在不断的增加中,用户可以 根据实际需求选择需要统一检索的数据库。u s p 目前已经在中国人民大学图书 馆、天津大学图书馆、清华大学图书馆等试用或应用。u s p 由3 个部分组成: 用户注册及引擎配置模块、统一检索模块和检索结果显示模块。u s p 的主要特 点有:智能化的页面分析系统;个性化的结果显示;支持二次检索;具有先返 回先显示的快速显示特性;检索结果有多种显示方式;支持完全由用户配置的 数据库分类检索功能。 3 4 2t r si i p ( v 2 0 ) t r s 资源整合门户( t r si i p ( v 2 o ) ) 是北京拓尔思( t r s ) 信息技术有限公 司数字图书馆解决方案的重要组成部分,t r s 还有参考链接系统( t r si n f o l i n k e r ) ,实现到与其内容关联的其它资源数据库中相关信息的链接。t r s 关系 数据库全文检索引擎可以在索引层提供o r a c l e 、s q l s e r v e r 、d b 2 、s y s b a s e 、 1 6 第3 章数字资源整合 i n f o r m i x 等关系数据库的全文检索和统一索引解决方案。 t r sl i p ( v 2 o ) 的主要特点有:用户个性化功能模块:资源使用评估:统 计某段时间内的i p 访问排名前n 位特定资源的使用率和使用率最高的n 个资源; 管理员工具:允许管理员配置每个用户电子收藏夹中可以保存的结果数量、用 户检索历史中可以保存的检索词数量和允许访问的i p 地址范围。 1 7 第4 章数字图书馆互操作协议 第4 章数字图书馆互操作协议 数字图书馆为分布式数字信息资源管理提供了一种有效的手段,它从根本 上改变了i n t e m e t 中信息分散、不便使用的状况。随着数字图书馆建设的进一步 发展,不同系统、不同数据拥有者之间如何实现信息资源共享和互操作已成为 建设数字图书馆面临的最大问题之一,其原因在于各种图书电子资源分布于不 同的系统中,数据的内部格式各异,数据发布系统也不一样,这给资源共享和 互操作带来了一定困难。数字图书馆的互操作性主要体现在系统间的数据交换 和服务协作两个层面上,主要有以下四种类型 7 1 : 1 联邦( f e d e r a t e d ) :各个数字图书馆之间建立紧密联盟,并采用统一的 通信协议或软件系统。 2 元数据收集与提取( m e m d a mh a r v e s t i n g ) :各数字图书馆之间建立一种 松散联盟,并采用达成一致的公共互操作协议从各数字图书馆馆藏中收 集并提取元数据,保存在本地使用。 3 信息搜集( g a t h e r i n g ) :各数字图书馆不需要就所采用的协议达成一致, 只是通过搜集数字图书馆中可公开访问信息的途径获得一定程度的互 操作,而不管其采用何种协议。 4 对等查询( p e e r - t o p e e rq u e r y ) :各数字图书馆必须就所采用的查询请求 响应协议达成一致,这种协议既可以是包括查询语言和结果格式说明 的“胖”形式,也可以是只为查询语言和结果格式提供传送层的“瘦” 形式。 当前基于数字图书馆互操作的协议有很多,本章将重点介绍o a i 和z 3 9 5 0 协议,并对它们的特点进行分析讨论。 4 1 元数据( m e t a d a t a ) 虽然一些著名的搜索引擎,例如y a h o o 和l y c o s ,可以自动对w e b 上的信 息进行索引,并能够及时地维护更新最近的数据库,但是索引只能对某一些特 定领域内的小部分信息服务,对于大量的数据获取问题和大量数据之间复杂的 1 8 第4 章数字图书馆互操作协议 交叉问题,索引提供的服务效率就会急剧下降。因此一种介于索引和正式编日 记录之间的数据描述方式被提出,它在描述上比索引的信息量大,但是又没有 正式编目记录完整,这就是“元数据”( m e t a c l a t a ) 。 4 1 1 元数据的定义 关于元数据,迄今为止还没有完全统一的定义。根据国际图联“元数据资 源”的主页和学术界较统一认定的定义是:元数据是关于数据的数据( d a t aa b o u t d a t a ) 。即指任何用于帮助网络电子资源的识别、描述和定位的数据。书目记录 是元数据,t e i 标题( 文本编码倡议) 是,其它形式的描述也是。 这个定义包含以下几方面内容f s j ( 9 j : 1 元数据不一定是数字形式的。在管理人类文化遗产的过程中,有关专家 一直在编( 如各种书且) 。只不过随着计算机技术的发展产生了为计算 机所能识别的数字式元数据( 如m a r c 等) ; 2 元数据在描述信息对象的同时,还能够说明被描述对象的使用环境、管 理、加工、保存和使用等方面的情况; 3 元数据可以来自不同的资源,这可以由人类( 编制者、信息专家或使用 者) 提供,还可以由计算机自动生成,或者通过一项资源与另一项资源 的关系来推断( 如超链接) ; 4 在信息对象或系统的生命过程中能自然增减元数据。 4 1 2 元数据的作用 元数据具有传统目录的“著录”功能,目的在于使数字资源的管理维护者 和使用者可通过元数据了解并辨别资源,进而管理和利用资源,为由形式管理 转向内容管理奠定必要的基础。它在数字资源组织方面的主要作用利1 0 】: 1 描述:对数字对象的内容和位置进行描述,从而为信息对象的存取与利 用奠定必要的基础; 2 定位:根据元数据包含的数字资源位置方面的信息,可以确定资源位置 之所在,可促进网络环境中非实体信息对象的发现和检索; 3 搜寻:在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋 予语意,并建立相关关系,将使检索结果更加准确,从而更有利于用户 1 9 第4 章数字图书馆互操作协议 识别资源的价值,发现其真正需要的资源; 4 评估:根据元数据提供的有关信息对象的名称、内容、年代、格式、制 作者等基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论