




已阅读5页,还剩81页未读, 继续免费阅读
(计算机应用技术专业论文)数字图书馆系统应用技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 网络技术飞速发展的今天,数字图书馆以其先进、灵活的信息服务方 式受到了社会各届的瞩目。对数字图书馆的研究已经成为信息管理研究领 域的重要课题。本文分析了数字图书馆数字信息资源管理中存在的问题、 关键技术,国内外数字图书馆的发展状况。针对目前数字图书馆的信息资 源组织方式,在全面了解x m l 相关技术规范和数字图书馆关键技术的基础 上,研究x m l 相关技术在数字图书馆应用的可行性,重点研究数字图书馆系 统资源组织技术和核心元数据的构建技术,利用x m l 技术对书目资源等多 种数字图书馆资源进行元数据著录,并研究可用在数字图书馆资源管理的 系统结构。以x m l 为标引语言、r d f 为规范的d c 元数据是数字图书馆重要 应用方案。通过三者的有机整合,数字图书馆信息系统能够更好的发挥出 方便陕捷地向社会提供多资源信息服务的优势。 分析目前图书馆使用的m a r c 格式数据、d c 元数据的x m l 实现。并给 出了基于x m l 的数字图书馆体系结构。 作为对上述理论的验证,设计实现了一个基于b s 结构的数字图书馆 资源管理与发布系统。本文给出了详细体系结构和解决方案,实现了数字 资源的管理、检索和查询功能,讨论了x m l 转换器的实现方法、关键技术 以及如何利用x s l 来控制显示x m l 文档,以满足不同用户的需求。 关键词:数字图书t 官;元数据;x m l ;m a r c 山东大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ec o m p u t e rn e t w o r kt e c h n o l o g y ,d i g i t a l l i b r a r yh a sa t t r a c t e dm o r ea n dm o r ea t t e n t i o nf o ri t sa d v a n c e da n df l e x i b l e i n f o r m a t i o ns e r v i c es t y l e r e s e a r c ho nd i g i t a ll i b r a r yh a sb e e na ni m p o r t a n tt a s k i nt h ei n f o r m a t i o nm a n a g e m e n tf i e l d t h ep r o b l e m se x i s ti nt h em a n a g e m e n to fd i g i t a li n f o r m a t i o nr e s o u r c e ,t h ek e y t e c h n o l o g ya n dt h ed e v e l o p m e n to ft h ed i g i t a ll i b r a r ya th o m ea n da b r o a dh a v e b e e na n a l y z e di nt h ep a p e r b ed i r e c t e da tt h ec u r r e n to r g a n i z a t i o no fd i g i t a l l i b r a r y i n f o r m a t i o n r e s o u r c e ,t h i sp a p e rr e s e a r c ht h ef e a s i b i l i t yo fu s i n gx m lr e l a t e dd e v e l o p m e n t s p e c i f i c a t i o n si nd i g i t a ll i b r a r yb a s e do nf u l ls t u d yo fi ta n dk e yt e c h n o l o g i e so f d i g i t a ll i b r a r y t h i sp a p e ra i m sa tr e s e a r c ho nr e s o u r c eo r g a n i z i n gt e c h n o l o g y a n dc o n s t r u c t i o no fk e m e lm e t a d a t ai nd i g i t a ll i b r a r ys y s t e m ,m a k i n gm e t a d a t a b i b li o g r a p h i cb yx m lf o rm a n yk i n d so fd i g i t a l l i b r a r yr e s o u r c e ,s u c ha s b i b l i o g r a p h i cr e s o u r c e ,w e bp a g e s o u r c ea n dm u l t i m e d i as o u r c e i ta l s o r e s e a r c h e st h es t r u c t u r et h a tc a nb eu s e di nt h em a n a g e m e n to fd i g i t a ll i b r a r y i n f o r m a t i o nr e s o u r c e d u b l i nc o r e ,b a s e do nr d fa n dm a r k e dw i t hx v l li sa w i d e l yu s e dp l a ni nd i g i t a ll i b r a r y b yt h et h r e ee l e m e n t sp u tt o g e t h e r , d i g i t a l l i b r a r yi n f o r m a t i o ns y s t e mw i l ls u p p l ym u c hm o r eu s e f u ls e r v i c et ot h es o c i e t y t h i sp a p e ra n a l y s e sh o wt oe x p r e s st h em a r cd a t aa n dd u b l i nc o r ed a t a ,a n d s u p p l i e st h ea r c h i t e c t u r eo fd i g i t a ll i b r a r yb a s e d o nx m l i no r d e rt od e m o n s t r a t et h ep r i n c i p l eo ft h ea p p r o a c hd r e s s e di nt h i sp a p e r , ad i g i t a ll i b r a r yr e s o u r c ep u b l i s h i n gs y s t e mm o d e lw a sd e v e l o p e db a s e do nb s a r c h i t e c t u r e t h es y s t e mp r o v i d e ss e a r c hs e r v i c e d e t a i l e ds y s t e ma r c h i t e c t u r e a n df r a m e w o r ko fs o l u t i o n sw a sd e s c r i b e d m e t h o d sa n dk e yt e c h n o l o g i e sa b o u t x m lp a r s e r , a n dh o wt ou s ex s lt om a n i p u l a t et h ex m ld o c u m e n tf o r d i f f e r e n tu s e rr e q u i r e m e n t sw e r ea l s od i s c u s s e d k e yw o r d s :d i g i t a ll i b r a r y ;m e t a d a t a ;x m l ;m a r c 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:遂至兰亟e t期:墨! 堕竺! : 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:登叁璺 导师签名:墨l 芏日 彳 期:理:竺:里 山东大学硕士学位论文 1 1 本文的研究背景 第一章导论 图书馆的主要功能之一是对信息资源进行有序化组织,传统图书馆收 藏的大都是文献信息,有序化组织的手段主要是采用有关著录标准进行著 录而形成的卡片式目录,包括主题目录、分类目录、题名目录、作者目录 等。随着计算机技术的诞生和快速发展,传统的著录标准无法适应计算机 管理,于是就出现了满足图书馆自动化系统中文献信息有序化组织的m a r c 著录标准。随着网络通讯技术的发展,图书馆开始向读者提供公共书目 查询o p a c ( o n l i n ep u b l i ca c c e s sc a t a l o g ) 服务,使得读者可以通过o p a c 查询m a r c 书目数据。由于m a r c 格式是经过严格限定和检验的数据流格式, 因此,只有专用的符合m a r c 格式的应用前端才能对m a r c 数据加以利用乜1 , 也只有符合m a r c 规范的o p a c 乖n z 3 9 5 0 协议的搜索引擎才能获得正确的 m a r c 数据,这也是目前大量的图书馆书目资源无法通过通用的搜索引擎向 i n t e r n e t 用户提供链接和服务的主要原因。 同时随着计算机技术的发展,网络信息资源呈指数上升,加上印刷性 文献的数字化处理,我们开始进入数字图书馆时代口1 。在数字图书馆时代, 我们进入互联网怎样有效利用这些信息资源已经成为一个全球行课题。 1 2 本文的研究意义 数字图书馆的建设是国际互联网发展到一定程度的产物。针对数字图 书馆的研究已经成为信息管理研究领域的重大课题。数字图书馆的技术包 括众多方面,数字资源的著录项目和著录格式是数字图书馆元数据的两个 重要方面,也是数字图书馆最重要的技术之一h 1 。本文中将d u b l i nc o r e e l e m e n ts e t 与x m l 结合起来嵋1 ,可以有效地组织数字图书馆的数字资源。 并优化了数字图书馆的资源管理,提高了资源的检索效率。 本文将以m a r c 描述的书目数据转化为x m l 文档阳1 ,使得m a r c 书目数据库 山东大学硕士学位论文 和i n t e r n e t 上的非数据数据库的集成成为可能,从而使得现有的大量的 m a r c 格式书目数据方便地在数字图书馆中加以利用,使得面向w w w 的m a r c 信息提供成为可能,同时优化了数字资源的管理方式、检索方式,提高了 检索结果命中率。在当前的数字图书馆建设中具有重要意义。 1 3 本文的主要工作 ( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) 分析目前数字图书馆信息资源管理的现状、存在的问题和关键技术。 提出基于x m l 的数字图书馆的体系结构,并进行详细阐述与分析。 提出以x m l 为标引语言、r d f 为规范的d c 元数据是数字图书馆的重要 应用方案口1 。 给出了基于x m l 描述m a r c 元数据的方法,详细介绍x m l 技术及特点。 对数字图书馆资源管理与发布系统进行了分析,给出了m a r c 数据到 x m l 文档的转换方法和关键技术。 实现了一个数字图书馆资源管理与发布系统,通过实例实现了m a r c 关系数据库到x m l 文档的转换,使得馆藏m a r c 书目数据得以在数字 图书馆中加以利用,同时,优化了数字资源的管理方式、检索方式, 提高了检索结果命中率。 1 4 本文的组织结构 ( 1 ) 导论:介绍了本文的研究背景、研究意义及本文的主要工作成果和 全文的组织结构。 数字图书馆概论:给出了数字图书馆的概念、特征、国内外发展状 况,以及数字图书馆资源管理中的问题、关键技术。给出了数字图 书馆的信息组织方式、管理方式、以及数字图书馆中的信息资源。 数字资源描述与基于x m l 的数字图书馆体系结构:介绍了元数据概 念,m a r c 、d c 元数据,以及数字图书馆采用d c 作为数字图书馆元数 据方案的原因,以及元数据检索技术。介绍了x m l 技术及其特点、 基于x m l 的数字图书馆体系结构,给出了m a r c 元数据的x m l 实现。 数字图书馆资源管理与发布系统分析:对基于x m l 的数字图书馆资 2 )、 2 3 4,lll 山东大掌硕士学位论文 源管理与发布系统进行了分析,提出了三层b s 体系结构解决方案, 详细叙述了每层的特点,存在的问题及解决方案。本系统的核心处 理模块在中间层,本文对该层做了深入的研究讨论,给出了m a r c 数 据到x m l 文档的转换方法。 ( 5 ) 系统实现:实现了一个数字资源管理与发布系统,在本系统中,将 m a r c 转为x m l 描述的数据,并优化了资源的管理方式和检索方式。提 高了数据资源检索的命中率,并利用异步调用阳1 实现了资源的自动分 类引。 ( 6 ) 结束语:对全文做出结论和展望。 山东大学硕士学位论文 第二章数字图书馆概论 2 1 数字图书馆的提出 数字图书馆的概念产生于2 0 世纪9 0 年代初,最初是用来描述一个数 字化的信息体系结构。伴随着数字化革命和因特网的迅速发展和普及,使 的巨量信息涌入因特网,以网页、网站的形式在互联网上传播的信息资源 呈指数上升。根据美国科学杂志发表的一份研究报告,w e b 上的网页资 源已达1 0 亿页n 引。网上信息资源极为丰富,就使的信息查询、检索日益困 难。而且,因特网上的信息资源很大程度上处于混乱的无政府状态,大大 影响了信息利用的效率n 川。因此,对各种数字信息进行有序的组织、管理 越来越引起人们的重视。在因特网这种全球信息服务网络中,急需一个管 理信息资源的新模式,所有上网的资源必须按照这个模式统一管理。在这 种情况下,数字图书馆应运而生n 引。 2 2 数字图书馆的概念 数字图书馆已经受到社会各界越来越多的关注。虽然从字面上看,数 字图书馆似乎是人们所熟知的图书馆的一种形态,但实际上其内涵却远不 是这么简单。与其它一些专业名词一样,对数字图书馆如何定义至今仍没 有一个统一的意见,这不仅是因为这个概念本身具有很强的包容性,同时 也说明人们对它的研究仍处于探索之中。 一般认为,数字图书馆是由现代信息技术特别是网络技术所支持的数 字信息资源系统,是下一代因特网网上信息资源的管理模式,它将从根本 上改变目前因特网上信息分散、不便使用的现状。可以说,数字图书馆是 没有时空限制的、便于使用的、超大规模的知识中心。因此,它决不等同 于将传统图书馆的馆藏数字化后所达到的结果:同时,就目前而言,数字图 书馆从特定意义上讲更像是一个理想化的概念,而且随着相关技术的不断 完善,人们认识的逐步深入,更多的内容和要求将会补充到其中。美国研 4 山东大学硕士学位论文 究图书馆协会( a r l ) 认为,数字图书馆的定义虽然还没有公认的说法,但众 多的定义中比较有共性的要素包括: ( 1 ) 数字图书馆不是一个简单的图书馆实体。 ( 2 ) 需要用多种技术连接众多资源。 ( 3 ) 数字图书馆和信息服务之间的连接对终端用户是透明的。 ( 4 ) 目标是为广泛地存取和利用信息服务。 ( 5 ) 数字图书馆的馆藏并不局限于文献替代品,而是遍及所有不能以印 刷形式表现或传递的数字化制品。 因此,可以认为,数字图书馆是用来描述一个网络环境下数字化的信 息资源体系结构,属于以现代通信与网络技术为基础的信息服务业的范畴。 作为一种分布式的数字化信息资源信息系统,它把各种不同载体、不同地 理位置的信息资源用数字技术进行采集、组织,以网络方式提供给用户持 续的、有效的信息存取服务n 引。数字图书馆研究与开发的结果将有助于传 统图书馆更好地完成社会赋予它们的智力储备与知识传递的职责。同时, 数字图书馆研究也将促进信息资源进一步丰富、并促进相关信息技术的快 速发展。新技术的应用还可能使数字图书馆为产业界带来巨大的商机,从 而造就一个新的大市场。因而,数字图书馆不仅是2 l 世纪图书馆的发展方 向,也是整个信息产业的主要发展方向之一。数字图书馆在信息高速公路 环境下,将实现人类所创造的所有信息资源的收藏和共享。 根据2 0 0 8 年3 月的数字图书馆技术建设研讨会讨论结果,我们可以将 数字图书馆总结如下:数字图书馆是开放环境下的图书馆, 1 数字图书馆不是局部概念,而是全局概念 用户角度:以用户为中心的信息环境 _ 信息环境:多元、关联和交互的数字信息过程 _ 信息服务:基于馆藏、基于集成、基于用户 2 数字图书馆是开放的数字信息系统 处于分布、异构和动态变化的信息资源与服务环境中 _ 必须能够被用户在复杂网络环境下方便利用 能被第三方系统方便利用,能够方便利用第三方系统 3 数字图书馆是一个动态模块组合 作为用户过程中的一个环节和其他系统中的一个模块 山东大学硕士掌位论文 _ 本身也是由多种细粒度的内容和功能模块构成,这些模块可以 被解析、相互组配成为新的服务 4 数字图书馆是一个移动目标 _ 信息技术、信息环境和用户需要不断发展,数字图书馆功能与 服务不断变化,必然要求数字图书馆系统能灵活容纳现在和未 来的技术、资源和服务,健壮地支持它们的可伸缩性、可扩展 性和可持续性 5 数字图书馆可使用性、可互操作和可持续性 _ 可使用性,在任何网络环境下被用户方便使用的能力; _ 互操作性,在网络环境上与其它系统进行信息交换n 到、功能组 合、服务集成、流程协同的能力 一可持续性,在变化环境变化下长期使用的能力。 6 标准规范是数字图书馆持久生命力的基础 _ 保障数字图书馆的可使用性、互操作性和可持续性n 5 1 - 保证数字图书馆与用户信息环境的开放融合与集成能力 _ 遵循开放标准规范是数字图书馆建设的基本原则。这已经不是 技术选择的自由,而是对用户和历史的责任。 2 3 数字图书馆的特征 数字图书馆的具有以下三方面的特征: 1 信息资源的数字化 数字化资源是数字图书馆的基本特征。这些资源包括文本、图形、图 像、声音、视频等多种类型的数据,它们与非数字化的图书馆中的书籍、 舆图、音像资料等一样,是图书馆工作的物质基础h6 l 。同时,随着数字图 书馆的发展,其资源类型会不断丰富和完善,其中的文本数据不仅包括简 单的纯文本,还包括如公式、表格等具有一定特殊格式的数据。数字化资 源以其特有的格式存储于磁介质或光介质中,具有可存储,可检索、可压 缩和可索引的特性。数字图书馆的信息资源,可以是通过常规的转换方法, 将文献资源变换而来,也可以是直接以数字化的形态出版的内容。数字图 书馆负责创建、采集、组织和整理这些资源,形成在某个内容或主题上相 6 山东大学硕士学位论文 对独立的一定规模的数字化资源,并通过网络提供服务。 数字图书馆的目的是直接向读者提供所需的最终信息,而不只是获得 信息的线索,即二次信息,如索引、目录及摘要等。但二次信息也可能是 某些读者的最终信息需求,因而书目数据,索引文摘等也是数字图书馆资 源的重要组成部分n 利。 2 信息存取的网络化 数字图书馆依附网络而存在,高速的数字通信网络是数字图书馆的存 在基础,信息资源的存取将不再受地理位置的限制。对数字图书馆的用户 而言,他们对信息资源的使用是远程的。数字图书馆的基本前提是网络环 境,没有网络化的存取手段,“图书馆”就不可能完全摆脱传统的图书馆实 体。数字图书馆以内部网的形式建立自已的存储机制,构建其内容资源管 理框架,最后联入因特网,提供网络环境下的信息存取服务。其对内的业 务组织和对外的服务都以网络为载体。在数字图书馆系统中,数字化信息 的存取、查询、检索和表现要求具有服务质量保证( o o s ) 的通信网络。o o s 技术指标包括网络的吞吐量、带宽、允许的延迟、抖动和差错率等参数。 设计综合的协议体系结构和高效、宽带网络并从工程上实现满足上述技术 指标要求的通信网络是建立数字图书馆系统的基础和关键。 3 分布式的信息资源管理 分布式管理是数字图书馆的基本要素。在数字化和网络化的环境下, 数字图书馆将以开放和资源共享为基本特征,全球图书馆的模式是数字图 书馆管理和服务的方向。在这种模式下,一个数字图书馆不仅要管理和使 用自己的馆藏,而且还要利用全国的、全世界的信息资源为读者服务。因 而除国家数字图书馆和少数大型数字图书馆外,大多数图书馆将强调信息 的存取而不再是馆藏本身,它们将成为信息资源的转接中心、镜像中心、 多级体系中的管理中心及信息服务代理。国家图书馆和少数大型图书馆联 合,形成分工合理的、经济的文献信息保障体系,成为可以被其他图书馆 共同利用的馆藏基础。分布式管理是数字图书馆发展的高级阶段n 引。 4 、资源共享化 本地或者远程用户可以对图书馆提供的开放的、有组织的信息资源库 进行访问,获取自己需要的最终信息。同样的个体信息如一篇文章或者一 个视频作品可以提供给不同地点的几十个甚至是几百个以上用户同时利 山东大学硕士学位论文 用,实现了真正意义上的资源共享。 5 、人员素质化 工作的开展需要知识面宽广、才能全面的综合素质高的人才,单一具 备图书馆情报领域专业知识或者计算机专业知识将无法胜任工作的要求, 要求同时掌握这两个专业的知识和实际操作技能。 从形式上看,数字图书馆有如“电子图书馆”、“虚拟图书馆 、“无墙 图书馆”、“全球图书馆”一样,其所指都是不依赖于某一具体图书馆的一 个虚拟空间,它突破了传统的图书馆由藏书资源、服务资源、馆舍建筑等 构成的有形物理边界的种种限制。这个无形的虚拟信息空间,含有内容丰 富的多媒体数字化信息和网络环境下多种技术工具于一身的服务手段,能 够为读者高效、方便地提供数字化信息资源服务。 为了进一步说明数字图书馆的特征,通过列表,将数字图书馆与传统 图书馆以及自动化图书馆加以比较。如表i - i 所示: 表卜1 传统图书馆、自动化图书馆、数字图书馆比较表 传统图书馆自动化图书馆数字图书馆 工作中心馆藏馆藏甩户 馆藏形式印刷型资源印刷型资源及少数字信息资源 量电子出版物 工作方式手工作业自动化加工书目自动化加工文 数据及专题数据献内容 库 检索手段手工检索卡片对书目数据及专对文献内容进 题数据库进行自行智能检索 动化检索 服务对象为到馆用户以到馆用户为面向全球读者 主,在一定范围提供网上服务 内提供文献传递 服务 馆藏加工不加工基本加工加工并使之增 值 山东大学硕士学位论文 2 4 国际数字图书馆的发展状况 从国际范围看,数字图书馆的建设已经经历了十多年的历史,在这个 发展过程中,数字图书馆和其它信息系统一样,不但所使用的基础平台和 相关主流技术一直处于演变之中,而且数字资源库的数量、规模和形式也 在不断发展。 数字图书馆作为国家信息基础设施的重要组成部分,其研究和建设得 到了发达国家,如美国、欧盟、日本的高度重视。以美国为例,它是全球 最早从事创建数字图书馆活动的国家之一n 引。1 9 9 4 年,美国副总统戈尔提 出的“全球信息基础设施”( g i i ) 计划将数字图书馆列为1 1 个研究项目之 一。1 9 9 4 年9 月,美国国家科学基金会( ( n s f ) 发布了“数字图书馆创新 ( d i g i t al i b r a r yi n i t i a t i r e ) ”计划。该计划强调将基础科学与科技创新 更完善地相结合,目标是“使收集、存储与组织数字化信息的技术手段得 到极大的进步,使数字化信息能通过网络查询、检索和处理,并以与用户 友好方式加以实现”。该计划涉及的主题与分布式电子资源库的开发及使用 密切相关,数字化资料的形态包括文本、影像、地图、音讯、影视、插图、 空间电子摄像等多种类型。之后,在美国“保存与存取理事会组织下, 美国国会图书馆等1 5 个研究图书馆与美国国家档案与记录管理局组成了 “美国国家数字图书馆联盟 ,致力于开发反映美国历史与科技文化成就的 数字式资源库及分布式数字图书馆系统乜们。1 9 9 8 年,数字图书馆创新计划 第一阶段工作结束。在所取得研究成果的基础上,已经开始了第二阶段的 研究。 美国国家科学技术委员会( n s t c ) 发表的官方报告蓝皮书对数字图书 馆的战略意义非常重视。1 9 9 5 年的蓝皮书用于国家信息基础设施的技术 将数字图书馆列在九项国家信息基础设施应用的首位;1 9 9 8 年的蓝皮书 用于2 1 世纪的技术将数字图书馆列为计算、信息、通信领域的六个研 究发中重点项目之首;2 0 0 2 年的蓝皮书中认为:“信息技术的核心挑战是 创建跨越人类知识领域的数字图书馆,以及开发使知识能普遍按需应用的 技术和工具”。由美国国家科学基金会( n s f ) 、美国航空与宇航局( n a s a ) 和美国国防部高级研究计划署( d a r p a ) 出资支持的“数字图书馆首创工程” 9 山东大掌硕士掌位论文 第一期项目( 1 9 9 4 - - 1 9 9 8 年) ,在与数字图书馆相关的一系列技术问题上 取的了一定的进展,如纸质文献的数字化、多媒体的数字化、新型的用户 界面、大容量数据存取、数据挖掘方面。该项目第二期( 1 9 9 9 - - 2 0 0 4 年) 又极大地扩展了数字图书馆的应用领域。一期项目是以研究为主,二期项 目则涉及许多专业领域,研究的目的是开展数字图书馆相关课题的基础性、 前沿性科学研究,开发下一代数字图书馆,为用户充分利用全球化、分布 式的信息资源提供先进、可行的方法和技术。 其它各发达国家也都投入了大量的资源,加紧开发、研制数字图书馆。 1 9 9 3 年6 月,英国国家图书馆首先提出了“存取创新”计划,以开创 该馆所具有的独特资源的数字化道路。“存取创新”计划共有2 0 个实施项 目,包括馆藏照片、数字化期刊系统,馆藏缩微片数字化系统,专利文献 快递系统,以及该馆上因特网的网页,公众存取系统等。同时,对馆藏善 本书的数字化也做了重要研究。这些项目成果的大部分已上网服务。 1 9 9 5 年5 月,西方七国( 美、英、法、日、德、加、意) 的国家图书馆 在巴黎组成七国数字图书馆联盟,明确提出:“以现有的数字化项目为基础, 构建一个人类知识的虚拟馆藏,通过网络为公众取用”,当时预定在2 0 0 0 年前后,以广域网为载体,推出“全球数字图书馆”,其内容涵盖各国的历 史、文化藏品精华及旅游资源库等,供全球公众取用。目前,在因特网上, 美国的项目分库己提供了大量数字化资源。此外,法国新落成的国家图书 馆,将馆藏精华数字化及网络存取作为最重要的创新点,现已成为世界上 最大的数字资源地,估计总存储量在3 0 0 0 g b 以上,为实施数字图书馆打下 了雄厚的资源基础。 日本国会图书馆正在建设关西图书馆,2 0 0 2 年一期工程完成,其目标 是建成日本最大的数字图书馆和亚洲地区的文献提供中心。此外,日本的 公司企业、大学、图书馆界都对数字图书馆的研究开发表现出浓厚的兴趣, 相应的研究与开发活动也己在不同层次和范围内展开。日本是世界上数字 图书馆建设比较活跃、原型创建工程进展较快的国家之一。 近年来,各国开展的数字图书馆研究与实践项目还有很多,也取的了 一定的成果。 山东大学硕士学位论文 2 5 我国数字图书馆的发展 我国的数字图书馆的研究和建设晚于发达国家。开始的理论研究工作 主要集中在介绍美国、日本、欧洲等国的研究成果。2 0 世纪9 0 年代初, 在我国图书馆学刊物上开始出现介绍国外数字图书馆的文章。国家图书馆 从1 9 9 5 年左右,开始系统跟踪研究数字图书馆。但在9 0 年代前、中期, 我国在数字图书馆领域还主要停留在理论跟踪研究的层面上,较少有实质 的研究与建设活动。直至9 0 年代末期,国内数字图书馆研究才不断走向深 入,有关数字图书馆资源建设、技术研发、标准制定多方面的研究课题相 继启动心。我国政府非常重视中国数字图书馆的建设,积极组织数字图书 馆的建设,进行了数据库和文献信息资源的数字化建设。 i 、中国国家试验型数字图书馆计划 1 9 9 7 年国家计委批准的“中国试验型数字式图书馆”项目( c p d l p : c h i n ap i l o td i g i t a ll i b r a r y p r o j e c t ) ,该项目的目标是建立多馆协作、 互为补充、联合一致的中国试验型数字式图书馆。负责单位是国家图书馆, 承担单位还有上海图书馆、深圳图书馆、中山图书馆、辽宁省图书馆、南 京图书馆和文化部文化科技开发中心。该项目实施包括两大部分:首先是研 制一套初步成形的数字式图书馆的实现技术,它应具有与国际主流技术接 轨的特点。同时,要适合在中国推广。其次,是逐步建设一个规范化的分 布式数字式资源库,在资源组织和描述上,强调符合项目总体的统一要求。 项目应实现对超大容量数字式对象库的快速查询与检索以及中英文屏幕的 内容显示。目前中国试验型数字式图书馆项目( ( c p d l p ) 已取得较大的进展。 主要是己建设成中国国家书目回溯数据库系统( 1 9 4 9 1 9 8 7 ) ) ) 。该数据库 遵循国内外标准及规范,对规定国家书目收藏范围内的出版物进行著录、 标引,采用中国机读目录格式编制机读目录。拥有1 9 4 9 - 1 9 8 7 年中国出版 的中文图书的机读书目数据4 0 万条左右。该数据库连同1 9 8 8 年以后的中 国国家书目数据库将构成一个完整的中华人民共和国国家书目数据库。 这是目前收录范围最广、检索手段最全、最具有权威性的中国国家书目数 据库。中国国家图书馆是“中国国家试验型数字图书馆计划”的组织者和 管理者昭引。在项目的研究过程中,国家图书馆于1 9 9 8 年7 月提出中国数字 山东大掌硕士学位论文 图书馆工程项目规划。 2 、1 9 9 8 年,8 6 3 3 0 6 “知识网络数字图书馆系统工程”,该项目实 现一类数字图书馆体系结构的设计与开发,初步建立一个试验型数字图书 馆,该系统要构筑在因特网环境下,其体系结构包含多个分布式数字资源 库。系统将集成代理技术,实现横跨多个资源库快速查询检索。数字资源 库建设要符合当前国际数字图书馆研究和实践的相关规范,为在广域网上 建设我国数字图书馆群提供种有效的实施方案乜3 】。 3 、1 9 9 9 年,北京市科委的“中关村科技园区数字图书馆群软课题研 究”,该项目根据国内外数字图书馆的建设情况和中关村科技园区的实际 需要,提出建设中关村数字图书馆群的一个整体架构和实施的可行性方案。 4 、2 0 0 0 年,8 6 3 3 0 0 “以中国高速信息示范网为运行环境的中国数字 图书馆应用系统”,该项目紧密围绕着数字图书馆方面的相关研究、中外 数字图书馆发展与比较研究、数字资源建设与应用服务标准体系的研究、 窄带宽带多媒体节目制作与传输、中文元数据方案、标准通用置标语言 ( s g m l ) 的图书馆应用项目。 5 、2 0 0 2 年,科技基础性工作专项资金“我国数字图书馆标准规范 建设项目”,该项目是数字图书馆建设标准规范的长期框架的一部分,是 数字图书馆标准规范建设的基础阶段,主要针对数字图书馆系统的数字资 源建设与服务,为我国数字图书馆当前建设提供相对完善的标准与规范基 础,直接指导和规范各个数字图书馆项目的资源加工、描述、组织、服务 和长期保存:同时通过分析建立我国数字图书馆标准规范发展战略,提出 和完善数字图书馆标准规范框架体系,探索和初步建立基于联合、开放、 共享的标准规范建设、应用和管理机制。该项目要建设的项目包括:2 0 0 2 年1 2 月,国家图书馆二期工程暨国家数字图书馆工程,计划建设周期 2 0 0 3 2 0 0 7 ,目前该项目将于2 0 0 8 年底竣工。2 0 0 2 年开始组织实施,中国 科学院国家科学数字图书馆项目c s d l 。2 0 0 4 年开始组织实施,中国高等文 献保障二期工程暨中美1 0 0 万图书数字图书馆。同时建设的还有:国防 工业数字图书馆工程、医学数字图书馆工程晗划。 6 、中国数字图书馆工程 中国数字图书馆工程的总体目标是在宽带工p 网上形成超大规模的、高 质量的中文资源库群,支持国家整体创新体系的形成与发展,通过国家骨 山东大学硕士学位论文 _mmm i m m 干通信网络系统向全国乃至全球提供服务,其总体技术水平与国际接轨乜引。 工程建设的目标是实现中国数字图书馆的总体架构,采用高新技术解决数 字图书馆建设中的技术难题,建设中国数字图书馆的资源库,在国家宽带 网络系统和因特网上实现对各种资源库的查询与检索。该工程具有虚拟网 络特点,是一个超大规模的、开放的、分布式的数字信息资源网络体系结 构,能提供复杂信息加工存取功能:海量信息的生成与存储:以中文为基础, 包括外文和民族语言的信息资源:网络系统具有兼容性,良好的互操作性, 开放式的可扩充性及快速反应能力:网络系统、信息资源和信息系统应符合 国际标准和规范。中国数字图书馆工程的主要研究内容: 结合我国国情的、多形式和多语种的信息资源的数字化和再加工研究。 数字化信息资源的存储、检索和标准化研究。 数字化信息资源处理的智能化研究。 网络化传输、信息资源的公共传播和全球交流。 还有如,文化部项目“中文元数据方案”、科技部课题“我国数字图书 馆标准规范建设”。这些研究工作对于我国数字图书馆的进进一步发展提供 了理论支持和技术保障。 近年来,在数字图书馆建设,尤其是在合作建设上,我国也已取得一 定的进展,许多大型项目相继启动,例如,全国文化信息资源共建共享工 程、高等教育数字图书馆、党校系统数字图书馆、教育部的数字图书馆攻 关计划、清华大学虚拟图书馆、上海图书馆数字图书馆建设、辽宁省图书 馆i b m 数字图书馆。此外北京大学图书馆、中国科学院文献情报系统、上 海交通大学图书馆等大型图书馆也在进行数字图书馆建设。上海交大图书 馆正在创建一个音乐图书馆,将一些民族音乐数字化。它同时存储了乐谱 和乐曲,还可以将乐谱自动转换成简谱的形式,并提供点播服务。中国科 学院文献情报系统已建成中药类、自然资源类、经济植物类、化学、微生 物类、动物类、水生生物类、遥感类、冰川冻土类、地理类、大气类、腐 蚀类等资源库。2 0 0 8 年3 月,在北京召开了“中国数字图书馆技术标准 建设研讨会,更将数字图书馆的技术建设提到了一个更高的高度。 目前,我国数字图书馆建设在理论研究、资源建设和系统开发等方面 都取的了定的成绩,尽管还存在着很多问题,但是可以说我国的数字图 书馆建设正在进入一个蓬勃发展的时期。 山东大学硕士学位论文 2 6 数字信息资源管理中的问题 1 、数字信息资源形式多样、种类繁多,不易管理。 目前,在互联网上传递着的数字资源有文本、图像、图形、声频、视 频等各种数据类型;随着数字化时代的到来,各传统图书馆的数字化建设 都开展的如火如荼,许多图书资料都纷纷进行了数字化,由于数字化的格 式没有标准,所产生的数据格式也各不一样;各图书馆自实现计算机自动 化管理以来所形成的大量书目数据( m a r c 数据) 也是数字信息资源的重要 组成部分。面对这些各种各样的数字信息资源如何进行有效的组织和管理 是数字图书馆建设中所要解决的一个重要问题。 2 、数字信息资源的异构性问题 数字资源的数据是以集中管理和共享为特征的,因此数据库系统成为 数据管理的主要形式,它是信息系统的主要支撑系统。但是,由于分布式 数据库系统均是独立发展起来的,不同的出版商、不同的数字资源创建单 位在系统的数据库结构、应用程序、网络和运行平台等方面有所不同,不 同的数据资源平台提供给读者检索的界面和查询的体系也是各不相同,因 此要对此进行集成,实现跨平台检索异构数据源,这是数字图书馆的互操 作性面临的又一个困难。 3 、在互联网上进行数字资源的检索,时间长、检索垃圾多。 现在互联网上所存在的大多是基于h t m l 的文档资料,在检索时需要对 全部页面的所有内容进行扫描,不但检索时间长并且常常出现很多无关紧 要的内容。同时h t m l 不支持信息嵌套体系结构,大大限制了全文检索功能, 不但效率不高,而且非常容易出现误查。比如查询关键字“图书”。如果文 章中有“绘图书写”一词,也会被作为查询结果显示出来。 4 、传统的m a r c 数据难以与i n t e r n e t 相互融合。 m a r c 即机读目录,是目前世界各国图书馆馆藏资源的主要表示格式, 提供了一整套完整、详尽、复杂的流式数据表示规范,它是图书馆专用格 式而不支持通用浏览器。因此,读者必须依靠专用的客户端和图书馆系统 所提供的检索工具进行资源搜索,使得图书馆目前大量的馆藏书目资源无 法通过通用的搜索引擎向i n t e r n e t 用户提供。 1 4 山东大学硕士学位论文 7 数字资源管理的关键技术 数字图书馆是互联网连接到一起的分布式数字资源库,用户只要能上 网,就可以利用这些资源库;为人类提供一个开放、灵活、没有围墙、不 受时空限制、取之不尽、用之不竭的知识宝库。 建设数字图书馆是一个复杂的系统工程,涉及到计算机、网络、信息 处理、人工智能及图书情报等多个学科领域晗副。总的说来,建设数字图书 馆,科学地进行数字资源管理要解决以下关键技术。 1 、大规模内容数据的管理技术 首先是海量数据的组织。分类、索引、存储是海量数据管理的关键问 题,又是检索的基础。统一索引方法和分类标准非常重要,否则需要针对 不同的分类方法制作不同的搜索工具。此外,不同的媒体类型还需要不同 的分类体系和索引机制。海量数据的搜索效率与速度是管理系统面临的最 大挑战。其次是管理系统的体系结构。面向对象、开发群体、是发展趋势。 以汇聚内容、方法和权限管理的数字对象为基础的体系结构,有其合理性 和先进性盼训。 2 、多媒体技术 数字图书馆多媒体数据必须进行压缩,然后保存在数据库中;否则, 库的规模很难保持在可管理的范围内,数据的存储成本亦难以接受。利用 多媒体可以将很多信息直接、可视化地用图形、图像、语音等表现出来, 使人们对信息的感悟倍增。从数字图书馆的海量数据中挖掘到目前为止人 们还不了解的知识和规律,并用多媒体技术描述这些知识,使不同知识表 现之间可以互相转化,再利用信息可视化技术、虚拟现实技术表现各种各 样的知识乜引。 交互界面是数字图书馆与用户交流的窗口,人们可以用鼠标、键盘、 手写、语音等各种方式实现人机交流,这将极大地降低人们进入网络的门 槛,降低用户使用的难度。充分利用图形、语音等融为一体的多媒体技术, 将设计出友好、直观、方便的用户界面,并具有自然、和谐的人性化特点, 使用户用起来得心应手。交互界面设计的技术核心是如何吸引用户的注意 力和为用户的操作提供最方便的支持。 山东大掌硕士掌位论文 3 、x m l 技术 x m l 技术通过d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文档类型定义) 定义 了文档的词法、语法和部分语义,x s l 规定了文档的表现形式,而x l i n k 和 x p o i n t e r 定义了文档之间的关系,从而为基于w e b 的各种应用提供了一个描 述数据和交换数据的有效手段。如果说,h t m l 提供了显示全球数据的通用 方法,那么x m l 进一步提供了处理全球数据的通用方法。x m l 继承了s g m l 的 强大功能,又充分采取了h t m l 的易用原则位9 1 。 资源标注、编目和描述是数字图书馆信息查找的基础,结构化的资源 ( x m l ) 和资源描述框架( r d f ) 互相配合呦1 ,将大大提高信息查找效率。 x m l 的自定义性及可扩展性使它可以描述文本、图像、图形、声频、视频等 各种数据类型的资源;x m l 是一种与平台无关,与开发商无关的语言,能很 容易地实现与其它类型的数据进行转换,从而可以将来自不同源的结构化 数据组合在一起,实现异构数据的统一检索;x m l 基于内容的格式,可以准 确地对信息进行描述,为检索提供强有力的支持,从而能提高检索的质量 和速度;用x m l 来描述m a r c 数据,将m a r c 格式转化为x m l 格式,可以实现m a r c 数据的w e b 发布和有效查询b 。运用x m l 技术可以有效地解决数字图书馆数 字资源管理中存在的许多问题,所以,x m l 技术是数字资源管理的关键技术, x m l 将成为数字图书馆的最重要的基础性语言。 4 、媒体数字化技术 主要解决数据采集、数字化加工、标引恤1 ;网络信息采集与自动摘要; 音频视频采编与处理问题。 5 、分布式异构数据查询与检索技术 数字图书馆作为逻辑集中物理分散的知识中心,是一个集成各种数据 资源和软硬件环境的大规模分布式系统,其运行平台必然是一个综合从网 络、操作系统、数据库到各种各样的运行软件的异构环境,如何在分布式 异构环境中实现高效的统一查询和检索,是数字图书馆的关键技术之一b 3 1 。 2 8 数字图书馆的信息组织方式 知识信息是浩瀚的海洋,由于信息的海量,在组织信息上采用何种方 法是能否实现数字图书馆资源有效共享的关键问题。目前世界上无论那个 山东大学硕士学位论文 国家在数字图书馆的研究中都对这个问题的认识都是相同的。简单的全文 检索,用于海量信息库的查询,其结果往往是大量的查询垃圾和漫长的寻 找过程。对于达到几十
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丝绸产业历史文化挖掘与旅游融合技术考核试卷
- 开展六一儿童节活动的方案
- 监狱消防安全生产课件
- 盆腔炎性疾病课件中医
- 新疆警察考试试题大全及答案
- 药物输送系统安全风险评估
- 城市公共交通条例试卷试题及参考答案
- 高风险药物使用的护理安全规程
- 重症哮喘护士专项护理查房
- 静脉穿刺术安全护理管理
- 《幼儿园课程》课件-第一章:幼儿园课程基础
- 冷链医疗器械管理培训
- 大规模网络中的异常行为识别与容错控制-洞察阐释
- 集中安置建房协议合同书
- 拉萨护理考试试题及答案
- 白酒设备采购合同协议
- 2025储能电站协调控制器
- 培训学校出兑合同协议
- 《农村基层干部廉洁履行职责规定》解读与培训
- 实验室生物安全知识课件
- 2025智联招聘行测题库及答案解析
评论
0/150
提交评论