




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)数字图书馆文本资源的加工与压缩.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数字图书馆以传统图书馆为基础,又不同于传统图书馆。随着网 络技术的发展、v e b 的繁荣,数字图书馆的实践和研究已经成为一个 全球性的热点。 本文主要研究了如何对原本就以电子文档的形式存在的资料进 行加工、组织和压缩,使之成为数字图书馆中的馆藏的问题。研究工 作主要有两个方面: 一本文对目前因特网资源组织和检索存在的问题进行了分析, 认为元数据是数字图书馆资源组织与发现的关键。然后,本文分析了 d u b l i n 核心元数据集的特点,论述了数字图书馆采用d u b l i n 核心元数 据集进行资源组织方式的原因,并指出了d u b l i n 核心元数据集存在的 一些问题,提出了自己对元数据的一些看法。 二本文还对数据压缩技术进行了研究,总结概括了目前文献中 的各种无损压缩算法,给出了基本的实现算法,并对基于字典模型的 l z w 算法进行了实现和进一步的研究,得到一些结论。 最后,本文介绍了将上述理论运用于实践的一个数字图书馆项 目。 关键字:数字图书馆,元数据,d u b l i n 核心元数据榘,数据压缩, l z w 算法 a b s t r a c t d i g i t a ll i b r a r yi s b a s e do nt r a d i t i o n a l l i b r a r y i nas e n s eo ft a r g e t e d a u d i e n c ea n di sd i f f e r e n tf r o mt r a d i t i o n a ll m r a r yi nt h ew a yt h a ti n f o r m a t i o n p r e s e n t e d d e v e l o p m e n to f t h ei n t e m e ta n dw e bb a s e di n f o r m a t i o ns e r v i c e s l e a dt ot h ec o m m o nc o n c e r no fd i g i t a ll i b r a r yp r a c t i c ea n dr e s e a r c hi nt h e w o r l do fi tc o m m u n i t i e s i nt h i st h e s i s ,w em a i n l ym a k er e s e a c h e so nh o wt o p r o c e s s ,o r g a n i z e a n dc o m p r e s se l e c t r i c a ld o c u m e n t sa n dt u r nt h e mi n t ol i b r a r i e si nad i g i t a l l i b r a r y o u rw o r kg o e s i nt w o w a y s : 1 w em a k ea i ia n a l y s i so f p r o b l e m si nt h eo r g a n i z a t i o na n ds e a r c h i n g o fr e s o u r c e so nt h ei n t e r n e t , a n dw ct h i n kt h a tm e t a d a t ai st h ek e yt ot h e o r g a n i z a t i o na n ds e a r c h i n go fd i g i t a ll i b r a r y w ea n a l y z et h ec h a r a c t e ro f d u b l i nc o r em e t a d a t ae l e m e n ts e ta n d p r e s e n t t h el - e a $ o l lt h a td ci sw i d e l y u s e di nt h e o r g a n i z a t i o n o fr e s o u r c e si n d i g i t a ll i b r a r y w ef i n ds o m e p r o b l e m s i nd ca n d p r e s e n t o u r o p i n i o n 0 1 1m e t a d a t a 2 w ea l s om a k er e s e a c ho nt h et e c h n o l o g yo fd a t ac o m p r e s s i o n w e s u m m a r i z es o m ek i n d so fl o s s l e s sd a t ac o m p r e s s i o na l g o r i t h m sa n dp r e s e n t t h ee s s e n t i a li m p l e m e n t a t i o n a l g o r i t h m s w em a k ed e e p e rr e s e a r c ho nl z w a l g o r i t h ma n di m p l e m e n ti t ,t h e nw e g e ts o m e c o n c l u s i o n f i n a l l y , w ei n t r o d u c ead i g i t a ll i b r a r yp r o j e c t k e yw o r d s :d i g i t a ll i b r a r y ;m e t a d a t a ;d u b l i nc o r ee l e m e n t s e t ; d a t ac o m p r e s s i o n ;l z w a l g o r i t h m 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位论 文的规定,即:学校有权保留送交论文的复印件,允许 论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。论 文中所有创新和成果归北京交通大学计算机与信息技 术学院所有。未经许可,任何单位和个人不得拷贝。版 权所有,违者必究。 本人签名: 日期:坌q q 墨年土月一日 独创性声明 v 7 4 1 5 9 7 本人声明,所呈交的学位论文是我个人在导师指导 下进行的研究工作及取得的研究成果。尽本人所知,除 了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北 京交通大学或其他教学机构的学位或证书而使用过的 材料。与我一起工作的同志对本研究所做的任何贡献已 在论文中作了明确的说明并表示了谢意。 本人签名: 日期:星q q 墨年 月一日 1 绪论 1 1 课题的背景及来源 计算机与互联网技术的发展使“地球村”由概念变成现实,全球 信息一体化和全球经济一体化的进程大大加速。事实上,互联网触发 了人类有史以来最广泛、最深刻的变革。一方面互联网已经融入到人 们的正常生活之中,另一方面人们对个性化信息提出了更高的要求。 我国的因特网市场规模正以每年超过2 0 0 的速度增长1 1 1 。但是, 网上中文信息的匮乏、组织的无序大大降低了其实际的应用效率。目 前网上信息资源爆炸式地增长,亟需新型信息管理模式加以组织,才 能避免人类被信息垃圾“淹没”的危险。同时为了满足人们利用互联 网提供的服务进行学习和工作,迫切需要大力建设网上优质信息资 源,使得互联网真正成为人类进步的加速器。 那么,如何合理有效地对海量数字化信息进行组织、检索、访问 和利用? 如何通过网络向用户提供这些信息服务? 在研究和解决这 些问题的过程中,产生了“数字图书馆”的概念。 2 0 世纪9 0 年代初,美国科学家提出了d 洒t a ll i b r a r y 的概念,可 直译为“数字图书馆”。数字图书馆和传统图书馆没有必然的联系, 绝不能简单理解为传统图书馆的数字化。其本质是网站上支持跨库检 索等多种搜索功能的强大的海量数据库。但是,传统图书馆作为主要 的信息提供源,应该将自己丰富的资源通过网络及便于交流的方式向 社会提供,在信息化社会中继续充当重要信息源的角色。传统图书馆 的数字化是数字图书馆重要的信息来源和组成部分,在传统图书馆从 纸质图书提供者角色向数字信息提供者角色的转换过程中,数字化是 其必经之路。 在我国数字图书馆建设中,高等院校作为知识型机构的代表,走 在了前列。有关数据显示,全国1 0 0 0 多所普通高等院校中,目前已 有三分之一强开始涉足该领域,而这一能量的释放,已经显示出每年 北京交通大学硕士学位论文 近1 亿元的市场份额,并且这一市场随着越来越多的高校数字图书馆 建设投入加大,增长率将远远高于一般的i t 领域【2 】。在2 0 0 2 年5 月 1 6 日,中国高等学校数字图书馆联盟成立,高校图书馆数字化建设开 始加速。据统计,迄今为止东北地区高等学校中已有哈尔滨工业大学、 吉林大学、大连海事大学、大连理工大学、大连医科大学、东北财经 大学、东北林业大学、东北农业大学、哈尔滨工程大学、辽宁大学等 高校的图书馆加入中国高等学校数字图书馆联盟,东北高校数字图书 馆初具规模。 同样,对于以计算机和信息类专业为主的石家庄某高校来说,进 行校园信息化建设和数字图书馆建设,尤其具有重要的意义。 本课题正是来源于石家庄某高校委托北京交通大学计算机学院 进行的数字图书馆建设的科研项目。 该项目的近期目标是建立一个具有如下特性的高校数字图书馆: 具有千兆高速网络作为资源传输与工作环境 具有高速和大规模( t b 级) 存储环境 具有自主资源和丰富的外购资源 功能完善、易于维护 易于访问,服务完善 该图书馆将服务于教学和科研,面对的用户主要有教师、学生、 领导层、图书馆管理人员、其它院校和友好单位,为他们提供一个良 好的数字资源环境。 1 2 研究的目的和意义 数字图书馆正在成为全球范围内信息基础设施建设的热点领域, 是2 1 世纪全球文化与科技竞争的焦点之一。西方国家陆续开始了一 些试验性或示范性数字图书馆项目的研究,我国也有几个数字图书馆 研究计划或试验项目开始启动。 数字图书馆是未来图书馆的发展方向已经基本成为共识。但数字 图书馆到底应该是一种什么样的形态,在实际环境中如何建设与实 绪论 现,却没有一个标准和规范。 数字图书馆是一个集计算机技术、网络技术、通信技术和多媒体 技术为一体的高新技术项目。它拥有内容丰富的、经过整序的多媒体 形式的数字化信息,并通过计算机网络为众多处在不同地理位置的用 户提供方便、快捷的信息服务。数字图书馆的开发与建设水平将对一 个国家在知识经济时代发展的前途和命运产生巨大影响。 1 3 国内外研究现状 1 3 。1 国外研究现状 美国 美国从1 9 9 3 年率先j f 始数字图书馆的研究,现有分布于各地的八 个数字图书馆研究中心,六个国家级数字图书馆试验基地。美国有五 组十分引人注目的数字图书馆规埘,有的已经完成,有的正在开始进 行,部分相关情况如下: ( 1 ) 美国“数字图书馆首刨计划”第一阶段 1 9 9 4 年。美国国家科学基金会正式公布了“数字图书馆首创计划” ( d i g i t a l l i b r a r y i n i t i a t i v e ) ,该计划包括六个研究项目:信息媒体、环 境科学电子图书馆、密歇根大学数字图书馆研究、亚历山大工程、斯 坦福集成数字图书馆项目和构造互联空问等。这六个项目已于1 9 9 8 年8 月前完成,从中得到了许多宝贵的经验,特别是些信息抽取软 件以及数字图书馆系统软件,对后继的数字翻书馆项目研制有重要的 参考价值。 ( 2 ) 美国国家数字图书馆的“美国往事”项目 从1 9 9 5 年起,美国国会图书馆全力开发“美国往事”数字图书 馆,该项目目标是实现5 0 0 万件文献的数字化,它们集中反映了美国 建国2 0 0 年来的历史遗产及文化2 0 0 1 年1 月,美国国会图书馆在互 联网上向全球提供免费服务,取得了很好的社会效益。 北京交通大学硕士学位论文 ( 3 ) 美国数字图书馆第二阶段 美国国家科学基金会在d l i 1 中期,就开始筹备d l i 2 通过 d l i - 2 计划从扩展媒体、形态、研究开发点、主题和资助单位各方面, 大力促进数字图书馆的研究和开发。 可以看到,作为网络基础设施建设的重要组成部分,美国在其科 技、教育、文化和法律等领域正在大大扩展相应的数字图书馆内容资 源建设,对科技信息交流,提高全民素质。实施终身教育将产生十分 重大的影响。 欧洲 1 9 9 5 年,法、日、美、英、加、德、意、俄八个国家的图书馆联 合推出了g 8 全球信息社会电子图书馆项目。( 3 8 数字图书馆联盟计划 将使分布在全世界的许多图书馆的作用得到增强,并改善它们在国际 问的可应用性。其数字化资源包括书目记录及其信息内容,如文本、 图像、静态影像、音频及视频信息等,将促进大规模的文献数字化并 支持定义及采用一些国际标准。进而,该项目将探索数字化怎样能改 善藏品的长期保存,并使它们易于存取。 g 8 电子图书馆是一个分布式的多媒体信息系统。所有的信息库由 负责数字化和内容标引的当地实体和国家权威单位管理,g 8 国家和全 球公民只要通过现有的可互操作的一些网络和终端就能利用这些信 息库了。 1 3 2 国内研究现状 中国数字图书馆研究的起步基本与国际同步,但在发展上比发达 国家落后好多年。 一中国试验型数字图书馆项且 由文化部报国家计委立项、国内6 家公共图书馆参与的“中国试 验型数字图书馆”项目的实施是我国数字图书馆建设的一个开始标 志。该项目的目标是建立一个多馆协作、互为补充、联合、一致的中 国试验型数字图书馆,实现由多类型、分布式、规范化资源库组成的 绪论 一个试验型数字图书馆,为我国建成规范化数字图书馆提交一份初步 成形的、实用型的实现技术。 该项目已初步研究和完成一套与国际接轨的实验型数字图书馆 实现技术,包括:建立以x l d l 为基础的对象描述和编辑系统:建立 统一的元数据;组织开放体系结构的数字式对象库,建立通用的库访 问协议;建立多种类型的规范化信息库等。 二中国数字图书馆 1 9 9 8 年7 月国家图书馆提出“中国数字图书馆工程”。工程的总 体目标是在宽带i p 网上形成超大规模的、高质量的中文资源库群,支 持国家整体创新体系的形成与发展,通过国家骨干通信网络系统向全 国乃至于全球提供服务。该工程项目在技术实现途径上采用与国际同 类主流技术有接轨前景的方案,如标准通用置标语言( s g m l ) ,统一 资源名称( u r n ) ,公共对象请求代理体系结构等。 三上海数字图书馆 上海数字图书馆是上海图书馆的数字化网络版,在数字化资源的 拥有方面处于全国领先地位。上海图书馆的数字化工作起步于1 9 9 7 年,目前已经实现自建数字资源的统一管理和发布。系统采用i b m d i g i t a ll i b r a r y2 4 作为主要开发工具应用平台,体系结构上支持面向 对象的分布式资源组织模式,内容管理上采用以d u b l i nc o r e 为基础的 资源描述元数据方案,允许多种元数据并存,整体上开放式的设计为 将来国际国内数字图书馆的互联打下了很好的基础。 四中夹党校数字圈书馆 中央党校数字图书馆是2 0 0 1 年国家开展的一个大型数字图书馆 项目,是全国党校系统数字图书馆项目的开端。 1 4 论文的研究内容 在数字图书馆中,文本资料占有特殊地位,文本信息的处理是数 字图书馆开发的重要方面。数字图书馆的文本资料可以有很多来源, 有些本来就是为在线使用所创建的,有些可能是从印刷品或其他媒体 转换而来。 北京交通大学硕士学位论文 本文主要研究了如何对原本就以电子文档的形式存在的资料进 行加工、组织和压缩,使之成为数字图书馆中的馆藏的问题。主要工 作集中在以下几个方面: 1 ) 信息资源的组织技术研究。采用一种好的信息组织方法是数 字图书馆建设的关键之一,直接影响到数字图书馆中信息资源的存 储、管理和检索方式。本文介绍了元数据在数字图书馆中的应用,结 合我们承担的某高校数字图书馆项目实际应用,分析了d u b l i n 核心元 数据集的特点和存在的问题,并提出了自己对元数据的一些看法。 2 ) 文本资源的压缩。总结概括了目前文献中的各种无损压缩算 法,给出了基本的实现算法。并对基于字典模型的l z w 进行了算法 的实现和进一步的研究,得到一些结论。 3 ) 基于数字图书馆技术的自主资源系统。在我们承担的数字图 书馆项目中,根据用户的需求,开发了自主资源系统。本人主要做了 自主资源加工系统和自主资源浏览器的开发工作。 5 论文的组织安排 本文的主要内容安排如下: 1 绪论。本章介绍了论文的背景,研究的目的和意义,以及数字 图书馆的研究现状和本文的研究内容。确定本文的研究范围和基 本框架。 2 数字图书馆介绍。本章对数字图书馆的摄念作了简单的介绍, 并且分析了数字图书馆的基本特征及相关技术。 3 信息资源的组织技术。本章对信息资源的组织方法作了简要介 绍,着重阐述了使用元数据方式的组织技术伽b l i n 核心元数据 集,分析了d u b l i n 核心元数据集的特点和存在的问题,并提出 了自己对元数据的一些看法。 4 数据压缩技术研究。本章首先介绍了数据压缩的一般概念,分 析了压缩技术在数字图书馆中的重要应用,然后针对数据压缩的 一些基本概念如信息、熵、冗余度、编码模型等进行了介绍,接 着对i i 前文献中的压缩算法进行了研究。并且给出了基本的实现 绪论 算法。本章还对基于字典模型的l z w 进行了算法的实现和进一 步的研究,得到一些结论。 5 数字图书馆技术应用实例。本章介绍了我们利用数字图书馆技 术和压缩技术开发的自主资源系统一数字图书馆项目的一个子 系统。首先简单贪绍了自主资源系统的结构和功能,然后详细介 绍了文本资源加工与压缩系统h c a t a l o g 的设计与实现,最后介 绍了自主资源阅读器h b r o w s c r 的设计和实现。 6 结论与展望。对本次毕业设计工作进行总结,并提出课题下一 步的研究方向和目标。 北京交通_ 夫学硕士学位论文 2 数字图书馆介绍 2 1 数字图书馆的概念 数字图书馆是一个正在成长的新生事物,国内外对其概念的界定 还没有形成一致的意见,相关的描述多达十几种。比较典型的定义有: 数字图书馆的收藏不限于文献资料,“它们可延伸到不能由印刷 格式显示或区分的数字人造物。”( d r a b e n s t o t t ,k a r e nm1 9 9 4 年) “无论是什么形式的数字媒介( 文本、动态视频、音频、图形或 图像) ,数字图书馆都可以为它们提供一个媒体资产解决方案,包括 充分的存储空间、升级、速度、多级权限管理、高级搜索技术以及互 联网入口,以连通新市场,保护资产不受损失或贬值,保障知识产权。” ( i b m1 9 9 9 年) “数字图书馆是社会信息基础结构中信息资源的基本组织形式, 这一形式满足分布式面向对象的信息查询需要。”( 刘炜,刘年娣2 0 0 0 年) 在本文中,数字图书馆将被非正式地定义为有组织的、可通过网 络进行访问的海量数字信息资源库及相关服务。“数字图书馆”的概 念包含这样一些要素【3 1 : 数字图书馆的信息是有组织的。 数字图书馆不是一个单一的图书馆实体。 数字图书馆用技术手段连接各种资源。 数字图书馆和信息服务之间的连接对用户是透明的。 目标是广泛的利用信息服务。 如果不从技术的角度,而从图书馆的角度来看待数字图书馆,数 字图书馆仍然是一个能够感觉到的图书馆,必然具有图书馆的文献收 集、加工、整理、保存和服务的基本功能。然而,不同于传统图书馆 以纸质为主的文献收藏方式,数字图书馆以计算机可处理的数字形式 数字图书馆介绍 存储文献信息,并且其数字化信息收藏范围从广泛性和深层性上远远 超出传统图书馆,所以数字图书馆是以文献资源内容为基础的系统。 依托因特网,利用先进的数字处理技术和网络工作站,数字图书馆为 全球用户更广泛、迅速、便利、多种形式的远程服务。 数字图书馆不是传统图书馆的数字化,但传统图书馆的数字化是 数字图书馆重要的信息来源和组成部分。虽然数字图书馆具体的技术 途径和解决方案不尽相同,但不论何种形式。都是基于网络平台的海 量数据库,并以网站的形式表现出来,从这方面来说,也可以把数字 图书馆看作是网站上支持多种搜索功能的强大的海量数据库。 建立数字图书馆的主要原因是人们相信数字图书馆能够比过去 的传统图书馆模式更好地传送信息。传统图书馆是社会的重要组成部 分,但还欠完美。 数字图书馆和传统图书馆相比较有下列一些潜在的优点: 把图书绾带到用户面前 要利用传统的图书馆,读者必须去那里。读者利用图书馆的效率 将受到距离空间的限制。而数字图书馆却能把信息带到用户的桌面 上,无论读者身在工作单位还是家中,或者任何一处能与数字图书馆 网络连接的地方。有了数字图书馆,读者无须再访问图书馆大楼,只 要有一台个人计算机和网络连接,就等于有了图书馆。 利用计算机搜索和浏览能力 纸质文档易于阅读,但不易从中发现信息。图书馆中充满惹有用 的资料,但高效率地利用这样个大型图书馆却是一项艰难的任务。 在很多方面,计算机系统已经比手工方法能更好地发现信息。 实现信息共享 每个图书馆都包含着一些独特的信息。将数字化信息放在网上能 使任何人都可利用这些信息。很多数字图书馆在某个中心位置维护信 息,然后在世界上其他位置留有几个副本。用不着用昂贵代价复制不 常用的资料,更用不着去资料的存储地就能获得资料。 易于保持景新信息 北京交通大学硕士学位论文 许多重要信息需要持续更新。印刷资料不便于更新,而当正式版 本以数字化格式保存在中心计算机上时,维持最新版本变得容易多 了。 信息随处可得 数字图书馆的大门永不关闭。传统图书馆总有关门的时候,而计 算机系统却可以每天2 4 小时运转,随时为读者提供服务。数字图书 馆中的资料也不会出现被读者借光的现象。当然这并不意味着数字图 书馆是完美无缺的,计算机系统出错,网络缓慢甚至断掉都会影响读 者对数字图书馆的使用,然而,与传统图书馆相比,需要的信息更有 可能随时随地被用户得到。 为了更好地理解数字图书馆的概念,表2 - 1 列出了数字图书馆与 传统图书馆的主要区别; 表2 - 1 数字图书馆与传统图书馆的主要区别【1 】 数字图书馆传统图书馆 工作中心用户馆藏 馆藏形式数字信息资源印刷型 工作方式对文献内容进行自动化加工手工作业 检索手段对文献内容进行自动检索手工检索卡片 服务对象面向全球读者提供网上服务为到馆读者服务 馆藏加工加工,著使馆藏具有增值效应不加工 2 2 数字图书踉的特征 2 2 1 信息资源的数字化 数字化资源是数字图书馆的基本特征。这些资源包括文本、图形、 图像、声音、视频等多种类型的数据,它们与非数字化的图书馆中的 书籍、音像资料一样,是图书馆工作的物质基础。同时,随着数字图 数字图书馆介绍 书馆的发展,其资源类型会不断丰富和完善,其中的文本数据不仅包 括简单的纯文本,还包括如公式、表格等具有一定特殊格式的数据。 数字化资源以其特有的格式存储于磁介质或光介质中,具有可存储、 可检索、可压缩和可索引的特性。 数字图书馆的信息资源。可以是通过常规的转换方法,将文献资 源变换而来,也可以是直接以数字化的形态出版的内容。数字图书馆 负责刨建、采集、组织和整理这些资源,形成一定规模的数字化资源, 并通过网络提供服务。 采用数字技术,将传统图书馆的馆藏逐步实现数字转换和处理, 然后存储在资源库中,并使用数字图书馆有关数据存储和标识技术, 对数字文本、图像、视频和音频等资源分类存储,再把它们有机地集 成在一起,使用这种数字化的存储方式,信息存储量大,体积小,能 充分节省存储空间。 大量的数字化资源是数字图书馆的“物质”基础。数字图书馆中 的数字化资源应该能够直接向读者提供所需的最终信息,而不是获得 信息的线索,即二次信息,如索引、目录及摘要等。但二次信息也可 能是某些读者的最终信息需求,因而书目数据,索引文摘等也是数字 图书馆资源的重要组成部分。 2 2 2 信息存取的网络化 高速的数字通信网络是数字图书馆的存在基础。数字图书馆依附 网络而存在,其对内的业务组织和对外的服务都是以网络为工具或载 体,信息资源的存取将不再受地理位置的限制。对数字图书馆的用户 而言,他们对信息资源的使用是远程的。 数字图书馆的基本前提是网络环境,没有网络化的存取手段,数 字图书馆就不可能完全摆脱传统的图书馆实体。数字图书馆以内部网 的形式建立自己的存储机制,构建其内容资源管理框架,最后连入因 特网,提供网络环境下的信息存取服务。只有利用网络所提供的一切 便利和优势,才能最大限度地发挥数字图书馆的作用。 北京交通大学硕士学位论文 在数字图书馆系统中,数字化信息的存取、查询、检索和表现要 求具有服务质量保证( q o s ) 的通信网络。q o s 技术指标包括网络的 吞吐量、带宽、允许的延迟、抖动和差错率等参数。设计综合的协议 体系结构和高效、宽带网络并从工程上实现满足上述指标要求的通信 网络是建立数字图书馆系统的基础和关键。 2 2 3 信息的有组织化 信息在计算机内得以组织并通过网络加以利用。没有经过组织的 信息,如从卫星发往地球的数据流不能直接作为数字图书馆的馆藏。 同样的数据一旦经过系统化的组织,便成为数字图书馆的馆藏。大多 数人不会把存有某个公司财政记录的数据库看作是数字图书馆,但会 将多家公司收集的一组这样的信息当作数字图书馆的一部分。 数字图书馆包含各式各样的可用数据,供不同的用户使用,规模 可大可小,并可使用各类计算设备和相关软件。但所有的数字图书馆 都有着共同特点:信息在计算机内得以组织并通过网络加以利用,且 带有选择信息、组织信息、存储信息和发布信息的程序。 2 3 数字图书馆的相关技术 数字图书馆是计算机技术的个最新的应用领域,涉及的技术内 容非常广泛。i b m 公司对数字图书馆的主要应用技术有一个很好的分 类,涵盏了数字图书馆相关技术的各个方面。m m 公司将数字图书馆 的相关技术分为五大方面: 内容的剑建和获取 存储和管理 查询和访问 内容发布 权限管理 数字图书馆介绍 2 3 1 内容的创建和获取 内容的创建和获取也就是资源的数字化工作。随着数字化设备的 普及,越来越多的新的信息一产生就是数字化的。目前创建与获取数 字化资源的方式主要有以下几种: 录入:这是最常见的数字化方法。采用计算机进行文字处理越来 越普遍,出版行业也面临数字化改造,因此这种方式是新的文本文件 产生的主要形式。 扫描:这是最常用的、能够快速将大量印刷型资料数字化的技术, 是目前国内数字图书馆建设的主要数字化内容来源。其具体做法是采 用光学扫描仪、数字相机等将现有的纸质文献转换成数字图像,然后 以压缩形式存储。 光学字符识别( o c r ) :利用计算机软件把扫描的图像文献转换 成字符文本的方法。转换成文本文件的最大好处是能够全文检索,否 则只能通过图像文件进行标引达到检索的目的。 视音频捕捉:这是对多媒体信息进行数字化的处理过程。 信息资源数字化的流程如图2 1 所示: 2 3 2 存储和管理 图2 1 信息资源数字化流程 数据的存储和管理是数字图书馆建设中个很容易被人忽视,却 又是十分核心的技术问题。存储方式决定了应用方式,存储方案决定 了整个系统扩展性和灵活性。 鹿翠一 枣壕 船刚一 麟口 换 一 牛| ! l 母白 il吾一 北京交通大学硕士学位论文 存储涉及存储介质问题,目前对于数字图书馆来说可作为计算机 外部存储介质的主要有:磁盘、光盘和磁带,结合不同的存储方式如 磁盘阵列、网络存储、二级存储、磁带库存储和光盘塔光盘库存储等 等。每种存储各有优缺点,作为数字图书馆的海量存储目前以磁盘阵 列占主导地位。 在存储管理方面采用何种结构有时与媒体类型有很大关系,有时 又与如何发布利用密切相关。例如,如果多媒体素材较多则匣考虑是 否采用专门针对流式媒体进行优化的操作系统平台或数据库系统。如 果考虑系统能够提供分布式的检索和发布,则应考虑将元数据库与存 放数字资源对象的对象数据库分开存储,并使它们各自都有一定的扩 展能力。 数字图书馆存放的数据不允许用户随机访问,而必须由数据库服 务器向终端用户提供访问接口,防止未被授权的用户访问数据库服务 器。 2 3 3 查询与访问 由于存储的信息是海量的,必须保证用户能够快速高效地查找到 所需要的信息,目前基于元数据的检索技术和中文的全文检索技术已 趋于成熟,许多基于词表的、有一定智能的概念检索技术已经实用化, 基于图像内容的检索技术作为一种辅助检索手段也基本达到了实用。 异构系统跨库检索也是数字图书馆查询和访问要解决的一个重 要问题。用户常常希望从散布的多个独立馆藏中发现信息。虽然各个 馆藏可能按照一定的方式组织,但描述性元数据可能不同,提供的搜 索能力也可能不同。系统必须能够灵活地跨越多个馆藏进行搜索,哪 怕资料是按照不同的方式组织的。 2 3 4 内容发布 信息的发布涉及到用户界面和易用性的问题。当说到计算机系统 易用性问题时,很自然联想到用户与计算机之问的界面设计。但易用 数字图书馆介绍 性是整个系统的问题。数字图书馆系统的所有部分必须无缝连接以方 便用户、图书馆员、系统管理员等各方面的人士有效地使用。这不仅 包括网页制作等网络应用基本技术,还涉及总统结构设计、库结构安 排、查询机制和算法、美学研究等许多交叉学科内容。 目前因特网基于四种基本的简单技术在庞大的信息空间中进行 信息导航,即超文本标记语言( h t m l ) ,超文本传输协议( h r r p ) , m i m e 数据类型和统一资源定位器( u r l ) 。h t m l 是用于描述文档 的结构和表现的语言,h t r p 是万维网浏览器和服务器之间传递消息 的基本协议,u r l 提供了简单的寻址机制,使得万维网能够链接世界 各地计算机上的信息,m i m e 描述了应用的数据类型模式。这些技术 都是目前数字图书馆的基本技术。 2 3 5 权限管理 权限管理是用于保护图书馆馆藏的知识产权,使其免遭非法使用 或滥用。通常的技术手段有身份验证,数字水印等等。 数字图书馆权限管理的第一步是认证问题,通常需要三类认证。 第一类是用户认证。由于缺乏更好的用户认证方法,数字图书馆常常 不得不为每个用户提供“用户i d ”和口令。第二类是计算机认证,系 统需要知道与哪些计算机相连,一种不好的方法是依赖于因特网的i p 地址进行确认,这很容易被盗用。第三类是图书馆资料的认证,用户 需要确信接收到的是一条信息的可信版本,而不是被修改过的信息。 数字水印是目前采用较多的一种认证技术,这种技术是出版商用 于阻止和跟踪非法复制的防伪性技术。数字水印可以完全对用户透 明,但是却基本上不可能毫无痕迹地从数字资料中删除。 加密技术是用特定编码方式存储和传递私有信息的技术,编码后 的信息看上去就像随机乱码,只有在解码后才能还原。在数字图书馆 中,加密用于在因特网上传送机密信息,有些高度机密的信息甚至在 任何存放的地方都以加密的形式存在。口令是个很典型的例子,不管 是在计算机中存放还是在网络中传递,都应该加密。目前在很多数字 图书馆中,口令是唯一需要加密的信息。 北京交通大学硕士学位论文 2 4 数字图书馆发展趋势 2 4 1 海量数字化存储 馆藏资源数字化已经成为时代潮流,世界各国研究数字图书馆的 机构基本已经达成以下共识:只有尽快将馆藏资源数字化并提供给公 众使用,图书馆才能够在信息时代继续生存下去。 从世界范围来看,凡是称作“数字图书馆计划”的,其存储的数 据总量必然达到了海量规模。比如,截止到2 0 0 0 年,美国国家数字 图书馆的数字化资源总量达到1 0 0 t b ,日本国会图书馆的数字化馆藏 资源已经达到1 1 5 0 万页,法国国家图书馆的数字化资源已超过 3 0 0 0 g b 9 】。 2 4 2 全球全方位合作 1 9 9 7 年至今,美国各类型数字图书馆工程都特别重视合作。因为 数字图书馆工程涉及的东西实在太多了,仅靠某个单位或个人的力量 显然是无法完成的,所以合作显得非常重要。因特网的无国界特性又 使合作的空间范围进一步扩大。工程进展中出现的各种问题也都可以 通过国际国内合作方式予以解决。在数字图书馆建设过程中,应当考 虑在全球范围内实现人才、技术、设旌资源等多方面的协作,使数字 图书馆建设顺利进行。 2 4 。3 加强标准研究 数据的标准化和规范化是实现数字图书馆资源共建共享的前提 和根本保障。目前,世界各国都在加紧制定相关技术标准以取得信息 控制权。美国国家科学基金会( n s f ) 在开始实施数字图书馆研究计 划时就确定了三个关键技术目标,其中之一即是网络协议和标准研 究。 1 6 数字图书馆介绍 目前,围绕着s g m l , x m l , h t m l 等应用环境己产生多种元数据 规范,其中影响较大的就有d u b l i nc o r e 、r d f 、v r ac o r e 、p i c s 、 w e bc o l l e c t i o n s 、c d f 以及m c f 。元数据规范的多样不利于数字图书 馆的发展,必须加强对包括元数据规范在内的标准化研究。 2 4 4 实现全球姿源共享 实现全球资源共享是数字图书馆建设的终极目标。目前,世界各 国正在致力于创建全球数字图书馆( g l o b a ld i g i t a ll i b r a r y ,简称 “g d l ”) 模型。g d l 是未来图书馆的发展趋势。一旦g d l 建设成功, 全球用户将能够以极低的成本、极快的速度存取分布在全球的众多数 字化信息资源库的信息。 北京交通大学硕士学位论文 3 信息资源的组织技术 在建立数字图书馆系统工程的过程中,信息资源库的建设是其他 各项工作的基础。由于数字图书馆中信息的海量,在信息组织上采用 何种方法直接影响到资源库的制作质量和查询效果。简单的全文检 索,用于海量信息库的查询,其结果往往是大量的查询垃圾和漫长的 寻找过程。基于元数据的信息组织技术可以充分利用对于信息的分类 和特征的描述来构造某些信息的特征数据,与全文检索相比,使用的 时间和检索出信息的准确率将有很大的改善。 元数据( m e t a d a t a ) ,是用于提供某种资源的有关信息的结构化数 据,简单地说,是关于其它数据的数据。m e t a d a t a 这个词本身是随着 i n t e r n e t 的发展而产生的。经过近几年的研究和试验,元数据现在已经 发展出多种用来进行网上数字资源著录和标引的格式。由于数字图书 馆收藏的内容不同,既有专著、论文、会议录等普通电子文本,也有 图像、声音、软件、网页,甚至拓片、时装、建筑、家具等各类特藏, 不同的收藏对数据格式的要求不同,因此现在用于网络数字资源的元 数据格式也有多种,尚没有可以为各方接受的发展成熟的统一格式。 本章首先介绍元数据的概念及其在信息组织中的应用,然后介绍 了广泛用于数字国书馆中信息组织的标准一d u b l i n 核心元数据集,并 且分析了d u b l i n 核心元数据集的特点和存在的问题,最后介绍了对元 数据的一些看法。 3 1 关于元数据 3 1 1 元数据概念 元数据( m e t a d a t a ) 的概念是由j a c k e m y e r s 于1 9 6 9 年提出的, 最初的目的是为了有效地描述数据集,能够提供信息资源的基本信 息,如题名、作者、创建翻期等。元数据通常应用于电子资源。 网络信息资源的快速增长为信息资源组织与利用带来了巨大的 信息资源的组织技术 困难。对于目前网络环境下包括基于因特网的数字图书馆的信息组织 问题,元数据是一个有效的解决方案。 关于元数据,常规的定义是:元数据就是关于数据的数据【3 】。但 是此定义过于简单,经过扩展和深化,元数据可定义为: 1 ) 元数据是关于数据的结构化的数据。这个概念突出了元数据 的结构化特征,从而使采用元数据作为信息组织的方式同全文索引有 所区分。 2 ) 元数据是与对象相关的数据,此数据使其潜在的用户不必预 先具备对这些对象的存在或特征的完整认识。它支持各种操作。用户 可能是程序,也可能是人。 3 ) 元数据包含用于描述信息对象的内容和位置的数据元素集, 促进了网络环境中信息对象的发现和检索。 简单地说,元数据就是帮助人们从大量的信息中找到所需信息的 工具。 3 1 2 数字图书馆中元数据的特征 数字图书馆一方面是传统信息处理技术的延伸,另一方面也是现 代信息技术发展的结果。所以数字图书馆的元数据建立在传统技术和 现代技术两个基础之上呈现出以下特征: 1 ) 元数据是一种编码体系 元数据提供了一种框架体系和方法来描述、表征数字化信息的基 本特征,并通过一整套公用的编码规则,将来源各异的数字化资源归 纳到一个标准的体系中。数字图书馆可以利用这种标准的编码框架体 系管理、交流、传播和组织数字化信息。 2 ) 元数据的描述对象是数字化资源 元数据是用来描述数字化信息资源,特别是网络信息资源的编码 体系,这导致了元数据和传统的基于印刷型文献的编目体系有根本区 别。数字化信息具有传统印刷型信息所不具备的基本特征和属性:是 机读信息,必须借助计算机及其网络读写和传播;是分布式的,这些 信息可能并不存储在同一个地方,而是分布在不同的数据服务器上; 1 9 北京交通大学硕十学位论文 具有严格的格式化特征,元数据不仅要描述数字化信息的内容特征, 而且更要描述数字化信息的这些基本属性。 3 ) 元数据为数字化信息资源建立起计算机可理解框架 这是元数据的最为重要的特征和功能。元数据主要是为了帮助计 算机系统获得并理解数字化信息的基本特征,这些基本特征包括系统 特征、内容特征、权利特征等方面。所谓计算祝可理解就是指用元数 据体系,使得计算机系统可以自动辨析、分解、提取和分析归纳数字 化信息资源的基本特征。 3 1 3 元数据在数字图书馆中的应用 元数据在数字图书馆中的应用,主要表现在以下几个方面: 甩千信息资豫的组织 在数字图书馆中,要有效利用数字图书馆的数字收藏,可以应用 元数据对其进行著录与标引得到揭示其内、外部特征的元数据,并科 学地将其组织起来,以便用户快速、准确地找到所需信息。 为用户实现知识导航 将描述资源库对象的元数据,如题名、作者、年代、格式、制作 者等基本属性,在数字图书馆的页面上公布出来,使用户在无需浏览 信息对象本身的情况下,就能对信息对象有基本的了解和认识。以帮 助用户便捷地了解馆藏。数字图书馆应该注意收集信息的使用情况及 有价值的检索策略,此类元数据将大大地提高界面的友好程度,节约 用户时闯,为用户实现知识导航。 用于数字图书馆数据库的设计与维护 在进行数字图书馆的数据库设计时,设计人员须查看每个可能成 为数据来源的系统的物理结构、逻辑模型和业务规则等,这个过程就 是元数据的搜集过程。记录这些与来源系统有关信息的元数据对于设 计与维护数据库所产生的作用,一是可供设计者随时查阅;二是有利 于数据库的管理者掌握数据库的全貌以及数据的变更情况,使数据的 完整性和准确性得到提高。 信息资源的组织技术 3 2d u b l i n 核心元数据集 从元数据提供者的角度看,元数据能改进文件的检索能力以及对 藏品的控制和管理问题。一些由专业人员提供的不仅复杂并被结构化 的特殊体系方案,如m a r c ,虽然能达到一定的查准率,但在数据加 工和标引工作上既费时又费人工,并且需要的是专业的从业人员。 为了创立一个简单的、标准化的元数据元素集,1 9 9 5 年以来,由 联机图书馆中心( o c l - c ) 的s t u a r tw e i b e l 所领导的国际小组一直在 致力于指定一套可用于各种数字图书馆资源的简单元数据元素集的 工作。这个小组开发的元素集就是著名的d u b l i n 核心元数据集( d u b l i n c o r ee l e m e n ts e t ) ,简称为d u b l i n 核心( d c ) ,名称的由来是因为第 一次会议在o c l c 的所在地俄亥俄州的都柏林举行。第一次会议之 后又召开了五次元数据研讨会,每次会议都对d c 进行了一定的补充 或修订,使d c 在结构和功能上逐渐地完善起来。1 9 9 8 年9 月,因特 网工程专题组( i e t f ) 将其作为个正式标准予以发布( r f c 2 4 1 3 ) 。 3 。2 。1d c 的结构 d c 中每个元素都是可扩展的,具有选择性。虽然d c 允许自定 义元素的存在,但基本的元素共有1 5 个,以此为基础,利用新的修 饰词来容纳新的要求。表3 1 列出了d c 的具体元素的定义。 表3 - 1i x ;的具体元素定义 序号元素标签描述 l题名t i t l e 赋予资源的名称 2 作者或创建者c r e a t o r对创建资源知识内容负主要责 任的个人或机构 3 主题和关键字s u b j e c t资源的主题 4插述 d e s c r i p t i o n资源内容的文本描述 5 出版者 p u b l i s h e r 负责使资源成为当前形态的责 任者,例如出版社、大学的系 科等 北京交通大学硕士学位论文 6 其他责任者 c o n t r i b u t o r没有在c r e a t o r 元素中列出的 对资源的知识内容具有重要贡 献的令人或组织,其贡献次于 创建者 7日期d a t e指创建或使资源成为可利用状 态相关的日期,推荐使用 y y y y 一删一d d 表达方式 8 类型t y p e资源的类别 9格式f o r m a t资源的数据格式 l o标识i d e n t i f i e r 用来唯一标识资源的字串或数 字 1 1来源s o u r c e 对一个资源的参照,当前资源 是源自这一参照资源 1 2语种 l a n g u a g e资源知识内容的语种 1 3关联r e l a t i o n 二次资源及其与当前资源关系 的标识,对相关资源的参照 1 4覆盖范围 c o v e r a g e资源知识内容的时空特征 1 5 权限管理 r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家电公司设备报废管理细则
- 天津叉车理论考试试题及答案
- 五级验光员考试试题及答案
- 邢台一模语文试题及答案
- 体育项目应试题及答案
- 模拟暴雨考试题及答案
- 医生看诊面试题及答案
- 商场服装销售工作总结
- 家电公司招标公告管理办法
- 2020-2025年监理工程师之交通工程目标控制能力检测试卷A卷附答案
- 义务教育科学课程标准(2022年版)
- 咨询行业流程管理制度
- JG/T 210-2018建筑内外墙用底漆
- 2025叉车理论考试试题及答案
- 2024-2025年度建筑施工项目管理评审计划
- 2025年中国不锈钢宽幅网市场调查研究报告
- 《支气管镜检查技术》课件
- 解读2025年金融行业的重要事件试题及答案
- 建筑吊篮培训课件
- 企业差旅费管理制度
- 成都盐道街中学实验学校数学新初一分班试卷含答案
评论
0/150
提交评论