




已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)省域高校数字图书馆关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 目前,我国高校图书馆和公共图书馆迅速推进信息化建设,在教育信 息化和科研信息化需求强劲推动之下,尤以高校图书馆的数字化图书馆建 设最为成功。而各高校数字图书馆之间的协同发展,对整个社会都有示范 意义。因此,本文对省域高校数字图书馆关键技术进行了探索和研究。 首先,以元数据概述和数字图书馆及其信息组织概述作铺垫,对元数 据应用于数字图书馆信息组织的必要性、数字图书馆信息资源的组织结构、 数字图书馆元数据标准进行了详细分析,并基于r d f 提出省域高校数字图 书馆元数据方案。该方案以d u b l i nc o r e 为核心元数据集,多种对应于不同 资源类型的元数据方法并存,并且采用了基于x m l 的r d f 描述将不同的 元数据和内容纳入统一的管理体系中,将它们封装在一起。 其次,在介绍联合检索技术研究与应用现状之后,分析了联合检索的 协议标准,提出省域高校联合检索的实现方式,并在此基础上为分布式图 像图书馆返回的合并结果建立模型并提出一个算法,该算法是基于学习和 逼近每个图书馆的标准化系数,将主要的计算量都转移到了学习阶段,因 此算法在检索阶段的时间效率有所提高。 最后,对省域高校数字图书馆数据安全问题进行研究,分析了数字图 书馆数据安全的概念、特征以及影响数字图书馆数据安全的基本因素,给 出了省域高校数字图书馆的安全模型,并从管理和软、硬件技术的角度, 建立了省域高校数字图书馆数据安全的预防机制。 关键字元数据;数字图书馆;信息组织;联合检索;结果合并:数据安全 燕山大学工学硕士学位论文 a b s t r a c t i nt h e s ey e a r s u n d e rt h ed r i v e ro fe d u c a t i o ni n f e l r m a t i o na n ds c i e n t i f i c r e s e a r c hi n f o r m a t i o n ,c o l l e g e sl i b r a r ya n dc o m m o nl i b r a r yo fo u rc o u n t r yh a s b o o s t e dt h ed e v e l o p m e n to fi n f o r m a t i o nr a p i d l y , e s p e c i a l l yc o l l e g e sl i b r a r yo f o u rc o u n t r y s d e v e l o p m e n t i st h em o s ts u c c e s s a n de v e r yu n i v e r s i t y d e v e l o p i n gi n c o o r d i n a t i o na m o n gt h ed i g i t a ll i b r a r y , h a v ed e m o n s t r a t i o n m e a n i n g t ow h o l es o c i e t ys ow eh a ss t u d i e da n de x p l o r e dt ot h ek e y t e c h n o l o g yo fd i g i t a ll i b r a r yo fc o l l e g e si nt h ep r o v i n c e f i r s t l y b a s e do nt h es u m m a r i z a t i o no fm e t a d a t a , d la n dd l i o ,t h i sp a p e r i l l u s t r a t e st h ee s s e n t i a l n e s so fm e t a d a t a sa p p l i c a t i o ni nd l i o ,t h eo r g a n i z a t i o n s t r u c t u r eo fd l si n f o r m a t i o nr e s o u r c e s ,m e t a d a t as t a n d a r dd e s i g na n dm e t a d a t a c r e a t i n gi nd l a f t e rt h i s ,b a s e do nr d f , p r o p o s e sc o l l e g e sd i g i t a ll i b r a r y m e t a d a t as c h e m ei nt h ep r o v i n c e t h es c h e m et a k et h ed u b l i nc o r em e t a d a t a s e t s 踮ac o r e c o r r e s p o n d i n gt oav a r i e t yo fd i f f e r e n tt y p e so fr e s o u r c e s m e t a d a t am e t h o d sc o e x i s la n db a s e do nx m l ,u s er d ft od e s c r i b ed i f f e r e n t m e t a d a t aa n dc o n t e n tm a n a g e m e n ti n t oau n i f i e ds y s t e m ,p a c k a g i n gt h e m t o g e t h e r s e c o n d l y ,a f t e ri n t r o d u c t i o n f e d e r a t e ds e a r c ht e c h n o l o g ys t u d ya n d a p p l i c a t i o np r e s e n ts i t u a t i o n ,t h i sp a p e ra n a l y z e dt h ef e d e r a t e ds e a r c hp r o t o c o l s t a n d a r d ,a n dm a k e sas t u d yo fm e t a d a t ac r e a t e ,r e s o u r c ec h o i c e ,r e t r i e v a lt y p e t r a n s f o r m a t i o n t h i sp a p e rb u i l tam o d e la n dp r o p o s e da l la l g o r i t h mf o rt h e c o m b i n a t i o nr e s u l tt h a tr e t u r n e df o rt h ed i s t r i b u t i o n a li m a g el i b r a r y t h i s a l g o r i t h mw a sb a s e do ns t u d i e sa n da p p r o a c h e se a c hl i b r a r yt h es t a n d a r d i z e d c o e f f i c i e n t ,m a i nc a l c u l a t i o nw i l ls h i f t t ot h e s t u d ys t a g e ,t h e r e f o r et h e a l g o r i t h mn e e d e dt h ev e r yf e wp r o c e s st i m ei nt h er e t r i e v a ls t a g e f i n a l l y , r e s e a r c h i n g o nt h ed i g i t a l q u e s t i o nw i t hs a f ed a t ao fl i b r a r y , i i a b s t r a c t a n a l y z i n gt h ed i g i t a lc o n c e p t ,c h a r a c t e r i s t i ca n di n f l u e n c i n gt h ed i g i t a lb a s i c f a c t o rw i t hs a f ed a t ao fl i b r a r y , o nt h i sf o u n d a t i o n ,i nt e r m so fm a n a g e m e n ta n d t e c h n o l o g y , w ea r ea b l et oh a v es e tu pt h ed i g i t a lp r e v e n t i o n m e c h a n i s mw i t h s a f ed a t ao fl i b r a r y k e y w o r d sm e t a d a t a ;d i g i t a ll i b t a r y ;i n f o r m a t i o no r g a n i z a t i o n ;f e d e r a t e d s e a r c h ;m e r g i n gr e s u l t s ;d a t as a f e i l l 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文省域高校数字图书馆关 键技术研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均己在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字酬,老笔 日期: d 6 年明z ,曰 燕山大学硕士学位论文使用授权书 省域高校数字图书馆关键技术研究系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在 年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“4 ”) 日期:o g 年明7 ;日 日期:06 年叶月喀日 笔 回矬镛引宿 氰 孙 罄 壑 者 师 懈 副 第1 章绪论 1 1 研究背景 第1 章绪论 进入二十一世纪以来,随着互联网的发展,数字图书馆的研究和应用 越来越受到国家、政府的重视,世界各国己把数字图书馆作为信息化社会 的基础设施和知识环境。数字图书馆的关键技术不断得到解决和应用,掀 起了世界范围内的数字图书馆建设热潮。尤其在学校教学中越来越多地采 用计算机作为辅助教学手段i 卜3 1 ,采用现代高新技术支持的数字化信息资 源,通过网络进行访问达到资源共享。它将从根本上消除人们进行信息交 流时所受的时空限制,从而对传统的以课堂教学为核心的教学模式带来一 场“革命”。 我国启动和开展了许多大规模的数字图书馆建设项目,建成了一批有 代表性的数字图书馆1 4 j 。然而,由于资金、技术等各方面的限制,我国数 字图书馆的建设还有待于进一步发展,尤其是省市级区域性数字图书馆的 建设水平距发达国家还有一段距离。如何在分布异构海量的信息环境下, 利用成熟、先进的数字图书馆和计算机技术建设先进的省市级区域性数字 图书馆,是摆在我们面前的一个新课题。 我国省市级区域性数字图书馆的发展建设起步较晚,在对数字图书馆 的认识、建设资金、技术力量等方面都和发达国家存在一定差距。而现有 各成员馆本身自动化、网络化程度较低,又增加了建设的难度。 目前,在数字化资源的建设与服务初具规模之后,省域高校数字化图 书馆建设任务面临两大转变【5 】: 一是进一步整合已有的资源,将来源不同、结构不同、用法不同的各 种数据库纳入联合检索平台,以便于用户更方便地获取信息。 二是系统地开发各馆拥有的特色信息资源,使其以数字化方式得以长 久保存和广泛利用。 燕山大学工学硕士学值论文 而数字图书馆的最大优势在于能够提供便利的信息资源的检索和利用 途径,但是在建设过程中遇到的信息资源管理、联合检索和数据质量问题 给用户带来了很大的不便,也大大地限制了我国省域高校网络辅助教学信 息保障系统发展的进程。 本课题对省域高校数字图书馆关键技术进行研究,为上层应用的开发 提供必要的理论依据和技术支持,加速和方便对省域高校数字图书馆系统 上层应用的开发,从而达到将信息资源利用最大化的目的,同时也给系统 用户带来了很多实际的方便,具有很强的实际意义。 1 2 数字图书馆研究现状 数字图书馆是一个包含很多计算机技术的领域,针对前面介绍的技术 挑战,目前国内外在数字图书馆的各个方面进行了相应的研究,取得了很 多成果。 1 2 1国外数字图书馆研究现状 美国于1 9 9 1 年率先开始研究数字图书馆;1 9 9 2 年美国1 7 所知名大学 和, j q i 立图书馆开始合作研制“俄亥俄图书馆和信息网络计划”,将大学校园 网与州立图书馆相互连接,并向当地的社区学校、图书馆和其他机构开放 逐步发展成为一个庞大的电予信息检索网络。这是数字图书馆先期成功的 例子。1 9 9 3 年9 月,美国国家科学基金会( n s f ) 、美国国防部高级研究中 心计划署( d a r p a ) 和美国国家航天航局( n a s a ) 联合资助一个为期4 年的6 个数字图书馆研究计划的大型协作项目“美国数字图书馆首创计划”, 分别以美国6 所在科技领域和图书馆服务较好的密歇根大学、伊利诺大学、 加州大学伯克莱分校、卡内基梅隆大学、斯坦福大学以及加州大学圣塔巴 巴拉分校作为研究基地。美国国会图书馆的“美利坚记忆图书馆计划”更 为宏伟,1 9 9 4 年1 0 月美国国会图书馆宣布,其计划用6 年时间,到2 0 0 0 年,将国会图书馆最重要的图书资料,包括绘画、图书、音乐、手稿、照 片及运动画面,全部数字化,通过因特网和有线电视网传播给用户。1 9 9 5 2 第1 章绪论 年,美国在华盛顿召开网络信息联盟会议,由1 6 所主要图书馆成立了“国 家数字图书馆联盟”,其主要任务是在因特网上实现分散式的开放图书馆, 以期实现数字化和动态保存美国文化遗产,并与全球用户共享。2 0 0 1 年2 月9 日,美国总统信息技术咨询委员会( p i t a c ) 向新上任的布什总统提交了 3 份报告,其中之一就是数字图书馆:对人类知识的普遍访问。在此报 告中,美国总统信息技术咨询委员会提出,“我们相信数字图书馆能够支持 本委员会1 9 9 9 年2 月的报告信息技术研究:投资未来中提出的所有国 家挑战性变革,报告中指出的1 0 条挑战性变革是所有公民能够融入信息 时代并从中受益的基本先决条件。数字图书馆将在这些变革中扮演核心角 色,每一种变革都会利用或需要数字图书馆配合才能成为现实。”据报道, 美国迄今投入到数字图书馆研究的经费己经超过8 亿美元。 欧洲各国也紧随美国之后发展数字图书馆。英国的数字图书馆计划也 是从大学开始的。1 9 9 2 年德莫诺英德大学的一所分校就开始研制数字图书 馆;1 9 9 3 年不列颠图书馆宣布了一项通过数字化和网络技术使用户最大限 度地利用其收藏文献计划。1 9 9 5 年1 0 月起欧洲图书馆员联盟会员国的国 家图书馆开始合作开发的全球网络数字图书馆信息服务,已经在因特网上 开通使用。1 9 9 7 年英国政府提出“全国学习网”计划,使全国的大学、图 书馆、博物馆与“全国学习网”连接,从而扩大了整个社会获取知识及接 受教育的机会和途径,达到创造一个网络化知识社会的目标。德国最大的 数字图书馆规戈t j ( g l o b a l i n f o ) ( 1 9 9 8 - 2 0 0 3 ) ,启动资金1 2 亿德国马克, 项目参加单位遍布全国,对全球的全文、文献参考资料、事实数据库和软 件方面的电子、多媒体信息提供先进、最佳的存取。 日本国会图书馆的数字图书馆建设计划从1 9 9 4 年开始实施,该计划包 括试验性电子图书馆、儿童数字图书馆和亚洲信息提供系统三个组成部分; 由国家投资4 亿美元,于2 0 0 2 年完成一期工程,其目标是建设成为日本最 大的数字图书馆和亚洲地区的电子文献信息中心。主要研究内容包括:研 制一套信息资源数字化处理系统;广泛收集和使用各种载体的文献:建立 一个与国内外数据库相连的现代化数据库系统。另外,日本政府还出面组 织7 3 个机构、投资1 5 5 亿日元合作开发日文文献数据库,以供网上共享。 燕山大学工学硕士学位论文 新加坡政府于1 9 9 4 年提出了“2 0 0 0 年图书馆发展计划”,准备建设“无边 界的电子图书馆网络”,把全新加坡的公共图书馆和5 0 0 多个学术与专业数 据库连接起来。我国台湾省也于1 9 9 4 年制订了“亚太智能信息服务中心” 计划,计划投资上百亿美元、用6 年时间完成。 而且,数字图书馆的建设主要受到关注的是资源建设与技术两个方面 的内容,数字图书馆的产业化建设进程中,作为电子出版物重要组成部分 的电子数据库及其数据库产业是资源建设的基础。据统计,目前美国的数 据库生产商有10 0 0 多家,数据库40 0 0 多个,约占世界数据库总量的5 0 : 美国有著名的大型国际联机检索系统1 3 个,年产值4 0 多亿美元;欧共体 有10 0 0 多个商业化数据库,联机系统5 0 多个。其中英国有3 0 0 多个数据 库,较大的联机系统有4 个;法国有5 0 0 多个数据库,联机系统4 2 个;德 国有3 0 0 多个数据库,8 个联机检索系统;欧洲数据库的年产值达2 0 亿美 元;日本有从事数据库行业的机构1 0 0 多家,它的信息服务系统完全商业 化和产业化,年产值将近20 0 0 亿日元【“。 1 2 2 国内数字图书馆研究现状 在我国大陆地区,数字图书馆建设也已开始起步。辽宁省图书馆是全 国最早启动数字图书馆工程的公共图书馆,它与i b m 合作,采用i b m 数 字图书馆解决方案,把对古籍文献的数字处理、i n t e r a c t 信息发布、多媒体 阅览室及视频点播( v o d ) 作为首期实现的重点功能。清华大学图书馆推出 了“清华大学数字图书馆”建设计划,总体目标是借助计算机完成馆藏资 源的数字化存储和管理,通过网络技术向分布广泛的用户提供快捷便利的 文献服务,同时正在创建“中国高校学位论文联机服务系统”,用户可在 1 5 所联网学校和互联网上进行透明的、无国界的信息检索。上海交通大学 图书馆计划在2 0 0 0 年建成了一个数字化图书馆的现实模型,将其拥有的 3 0 0g b 数字化馆藏信息( 包括联机目录、电子参考书、辞典、百科全书、 电子全文期刊、多媒体有声读物、影视片、动画片和计算机软件,占其全 部馆藏的2 5 3 0 ) 上网提供服务。中国社会科学院也推出了电子图书馆 计划,其主要是构建社科院图书馆系统数字化馆藏文献数据库和通过网络 4 第1 苹绪论 进行文献信息的传送和接收。上海图书馆已在因特网上构建了一定规模的 上海数字图书馆,一方面大量购置光盘、数据库等各种数字化的文献信息, 也着手进行自己馆藏的中外文期刊全文、古籍文献的数字化和上网,将在 网上虚拟空间中建设一座世界级水平的上海图书馆。国家图书馆从1 9 9 6 年开始致力于馆藏文献的数字化,现已创建了网上的“中国数字图书馆”。 作为全国规模的国家数字图书馆网站,它是一项在全国范围内实施的、超 大规模的跨部门、跨行业、高新技术信息资源系统工程,以国家图书馆丰 富的馆藏资源、强大的数字资源优势作为后盾,借助遍布全国的信息组织 与服务网络,面向全球提供具有专业性、系统性、主动性的多媒体信息资 源内容服务,目前已经拥有47 0 0 万页丰富精彩的数字化图书馆内容储备, 同时保持以每天2 0 万页的数字化速度增长。2 0 0 0 年1 0 月起,该网站向社 会隆重推出了“网上中文图书馆”服务,内容覆盖经济、文学、历史、医 药卫生、工业、农业、军事、法律等各个门类。2 0 0 1 年9 月完成了中国 数字图书馆工程一期规划( 2 0 0 0 2 0 0 5 ) 实施方案,工程已经国务院批准立 项,已实施。2 0 0 1 年5 月,以国家图书馆为主单位的7 家图书馆历时3 年 完成了国家重点科技项目“中国试验型数字式图书馆”,该计划将模仿美国 数字图书馆首创计划,侧重技术方案的实现,兼顾资源数字化,建立一个 在内容和技术上具有一定典型意义的数字图书馆原型,成为我国大规模建 设数字图书馆工程样板,并向全国乃至全球提供网络化信息服务。2 0 0 2 年 4 月,由国家财政部、文化部共同组织并实施了“全国文化信息资源共享 工程”,它由国家中心( 设在国家图书馆) 、3 0 个省级分中心和50 0 0 个县级 基层中心组成网络,并建立全国图书馆、博物馆、美术馆、艺术研究机构 的文化信息资源联合目录,将于五年内完成。2 0 0 2 年7 月,在北京召开的 “数字图书馆新世纪信息技术的机遇与挑战”国际研讨会,进一步促 进了对数字图书馆及相关领域更广泛和深入的研究与探讨,加强了国际间 数字图书馆领域的合作与交流,博采世界各国先进理念与技术,为中国数 字图书馆工程的有效实施做好充分准备 _ 7 1 。 从我国国内的发展历程来看,我国的数据库服务业大约比日本、西欧 晚1 0 年,比美国晚2 0 年左右,并且还没有建成实用化的联机网络数据库。 燕山大学工学硕士学位论文 与国外相比,我国数据库起步较晚,但发展却较快。据国家科委信息司的 统计,我国数据库的数量占世界数据库总量的1 1 0 。 目前国内主要的数据库有中国期刊网、人大报干0 复印资料、万方、维 普、超星、方正、数图、国研网、新华财经网、书生等。在这些数据库的 建设基础上,数字图书馆逐渐发展起来。据不完全统计,目前我国已经开 通了二百家大大小小的数字图书馆,许多大学图书馆也开通了数字图书馆 业务。但是,随着数字图书馆事业不断进展,由于理念和思路的不同,各 家数字图书馆的模式也有很大的不同。 1 3 本文的研究目的 近几年来,在国内外数字图书馆飞速发展的过程中,我国高校图书馆 和公共图书馆迅速推进信息化建设,在教育信息化和科研信息化需求强劲 推动之下,尤以高校图书馆的数字化图书馆建设最为成功【8 】。 多数高校采用引进和自建数据库的方式构建了相当规模的数字化信息 资源,通过校园网、互联网和电子阅览室等多种途径为广大师生提供了越 来越方便的信息服务,使我国高校教育科研队伍获取信息和知识的能力得 到了大幅度的提升。目前各高校都在积极发展自己的网络辅助教学及其信 息资源保障系统建设,并各具特色,但与此同时,其中存在很深刻的问题, 突出表现为: ( 1 ) 重复性建设较严重,造成人力、物力的浪费。 ( 2 ) 各个高校间没有统一的协调建设,不便知识的交流与借鉴。 要解决这个矛盾,在一时难以建立全国性数字图书馆的目前阶段,可 采用区域( 省域) 高校间协同数字图书馆系统的开展。开展省域高校数字图 书馆系统可以全面加强省域高校之间的交流与合作,优化高校的资源配置, 提高省域高校的整体办学效益,提升省域高校的整体竞争力、影响力和知 名度,提高教师和学生的学术科研水平。为了实现省域高校网络辅助教学、 实现省内高校数字图书资源及其相关教育教学资源共享,避免重复建设, 已建立的“河北省高校数字图书馆”和“河北省精品课程网站”都是典型 第1 章绪论 的省域高校网络辅助教学及信息保障体系。省域高校间通过c e m e t 或 i n t e m e t 访问,实现数字图书、多媒体教学录像、教学资料的共享。现在“河 北省高校数字图书馆”及其“河北省精品课成网站”已经完成基础平台及 部分资源的建设,并逐步成为河北省各高校广大师生的教学、科研服务。 但是随着各类型数据资源的日益增多,访问量的剧增,其所存在的问题也 将逐渐地越来越严重【9 j ,如:协同发展的模式问题;各高校数字化的特 色资源匮乏问题;访问速度慢:将使用户逐渐失去对网络教学资源的兴趣 问题;安全技术隐患严重:遭遇黑客,病毒入侵,其他因素的破坏,将使 系统处于瘫痪,不能正常满足用户的需要;分类、检索技术落后:随着各 类型数据资源得增多,如文本信息、图像信息、视频、音频等,如何整合 并智能化分类检索,这已严重制约用户的使用。为使省域高校网络辅助教 学能够持续建设发展,更好的满足省域各高校师生教学、科研的需要,必 须对上述问题进行认真研究,并切实加以解决。 上述问题也是省域高校数字图书馆系统建设所面临的共有的问题,这 也是制约省域高校数字图书馆的关键技术问题。如何解决上述问题是本课 题的研究重点。本课题的研究将为省域高校数字化建设提供必要的理论和 技术支持。 1 4 研究的内容与结构 本文总体上分为5 章,具体的布局和结构安排如下。 第l 章绪论,主要通过介绍数字图书馆的国内外研究现状,引出本课 题的来源、研究内容以及课题研究的实际意义。 第2 章元数据在数字图书馆信息组织中的应用先详细、全面地介绍元 数据的定义、结构、特点、标准化、目的和作用。然后对数字图书馆的信 息组织形式,数字图书馆的元数据标准以及互操作性的实现进行描述,并 在此基础上提出省域高校数字图书馆元数据方案。 第3 章省域高校的联合检索,对联合检索的基本情况以及当前研究所 面临的困难进行叙述,并对联合检索的协议标准进行了介绍,最后,对基 燕山大学工学硕士学位论文 于内容的信息检索技术和联合检索的关键技术进行了详细的描述。 第4 章基于分布式图像检索的结果合并,为分布式图像图书馆返回的 合并结果提出了一个算法,并同其他合并方法比较,证明算法的可行性。 第5 章数据安全研究,对影响数字图书馆数据安全的基本因素、数字 图书馆数据安全管理预防机制、数字图书馆数据安全技术预防机制进行了 详细的论述。 最后是本文的结论,并对下一步的研究工作进行了展望。 第2 章元数据在数字图书馆信息组织中的戍用 第2 章元数据在数字图书馆信息组织中的应用 2 1 元数据概述 元数据m e t a d a t a ,该词最早出现于美国航空与宇宙航行局n a s a 的目 录交换格式d i f 手册中。元数据最早是为书目开发的描述性数据,随着 网络的普及和数字图书馆的迅猛发展,元数据的描述对象已经变为网络环 境下的电子资源,包括数据集、文本信息、图像、音乐和其它电子化的数 据信息。 简单地说,元数据是“关于数据的数据” 1 “。它是面向某种特定应用 的用于描述资源属性的机器可理解的信息。通过规范语法结构和语义结构, 使得机器能够无二义性地表现和获取信息。元数据可以用于w e b 资源的标 识、集成、交换、检索等工作。利用元数据机制,可以更加精确地描述 w e b 资源的语义,从而使得w e b 数据从机器可读转化为机器可理解,而 w e b 的职能也将从纯粹的信息、服务的载体转化为具有知识表示和知识推 理的知识网络u ”。 元数据具有以下特点 1 3 15 1 。 ( 1 ) 描述性这是所有元数据最本质的特征。元数据是描述数据的数 据,它通过按一种约定俗成的规则来描述对象的手段来组织和管理信息资 源。只有先描述才会有组织和管理功能的发挥。 ( 2 ) 动态性元数据不是静止不变的,它是随着所描述对象的变化而变 化的。 ( 3 ) 多样性这是指元数据的类型多样。一个描述对象的元数据会有各 方面的特征。我们从不同的角度对其进行划分会产生不同的结果。 ( 4 ) 复杂性一方面,元数据既可以是集合概念也可以是个体概念,元 数据中还可以包括其他的元数据;另一方面,对不问的描述对象,有些元 数据项是必须有的,而有些却不一定强求,即强制性的元数据与选择性的 燕山大学工学硕士学位论文 元数据共存。 ( 5 ) 多层次性这方面是由元数据所描述对象的多层次决定的,另一方 面,是由元数据使用对象的多层次性决定的。 ( 6 ) 支撑性从某种程度上来说,元数据相对内容而言,处于次要的地 位,但又是必不可少的,起支撑的作用,它有效地维护所描述对象的原始 性和完整性。另一方面,元数据的支撑性还表现在它与所描述对象的共存, 能保证资源的长期使用,在产生它的人、计算机系统乃至标准停用后,仍 可继续使用。 国外图书馆、档案馆、政府部门、电子商务领域、出版领域等各个领 域都出现了很多的元数据格式。近年来,元数据格式呈融合趋势,有些领 域里出现了占统治地位的元数据格式,在某些领域获得了广泛的认同和应 用。这些元数据格式虽然不像d c 一样具有跨学科和跨领域的适用性,但 他们揭示资源更详细、深入,功能更加强大,反映了各领域元数据的需求 和特点,因此可以作为我们制定基本元数据的重要参考。国内外较有影响 的元数据已近4 0 种,如m a r c 、d c 、g i l se a d 等。 我国元数据研究在近年来也有了突破性的进展。在2 0 0 0 年6 月举行的 “知识管理与元数据研讨会”上,通过与会交流获知,在我国大陆已经开 始了元数据的研究项目。目前,主要有国家图书馆的有关法律、旅游、古 籍元数据的研究项目,北京大学图书馆的拓片元数据研究项目以及清华大 学的建筑元数据研究项目,目前均处于研究和产品开发阶段。我国元数据 研究工作者对d c 这一元数据作为我国知识管理的技术标准和方法已经基 本得到共识。我国对元数据的研究正从理论研究阶段步入实质应用性研究 阶段。 2 2 数字图书馆的元数据应用 元数据是关于数据的数据,在数字图书馆中它提供完整的数据描述形 式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的 描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分 1 0 第2 章元数据在数字图书馆信息组织中的应用 的互操作性和可扩展性的基础,是提供数字图书馆中资源描述、资源发现、 资源处理、资源评价与排序以及资源的人机交互和理解的基本要素,并且, 元数据还要承担向数字图书馆中高层协议中间件提供标准数据访问接口的 功能 1 6 , 1 7 。 数字图书馆信息组织就是对数字图书馆信息资源进行选择、描述和整 合,为其提供有序化的结构,并使之形成一个有机的整体,以便于对数字 图书馆信息资源进行存取和利用【l8 1 。 2 2 1元数据应用于数字图书馆信息组织的必要性 具体来讲,元数据在数字图书馆信息组织中的必要性主要表现在以下 几个方面 1 9 - 2 1 】。 ( 1 ) 信息发现与选择离不开元数据网络的发展为信息资源的生成带 来了极大便利,几乎任何人在任何时间内都可以成为信息资源的创建者, 由于资源创建者的自身素质的差异极大,且缺乏严格的网络出版监督机制, 导致了信息资源质量的参差不齐,因特网成了展示这些“商品”的杂货店。 作为数字图书馆的信息组织人员,其首要的任务就是利用信息资源创建者 提供的简单元数据,对这些杂货店的商品进行严格筛选,以提供给最终用 户以高质量的信息资源。 ( 2 ) 信息描述与揭示离不开元数据同传统图书馆一样,对于筛选过 的、已成为数字图书馆馆藏的信息资源,信息组织人员需要根据资源类型 使用传统元数据标准m a r c 或现代元数据如d c 、v r a 、f g d c 等对其进 行描述与揭示,以方便用户对资源的发现与检索。这是数字图书馆信息组 织的核心。而且,对数字图书馆信息资源的描述与揭示是元数据的最主要 的功能。 ( 3 ) 信息整合与集成离不开元数据数字化图书馆信息组织不仅要将 自身的传统馆藏和数字化馆藏整合集成到一个统一的用户界面上,而且还 要使得用户可以通过任意一个数字化图书馆的单一的界面,访问互联网上 的任何其它数字化图书馆和信息资源库,因此元数据体系要发挥这种整合、 集成的功能,而且承担各种元数据系统的转换与解释,并为用户提供满足 燕山大学工学硕士学位论文 用户需求的统一的集成服务。 2 2 2 数字图书馆的元数据标准 在数字图书馆建设过程中,除了资源的数字化以外,首先应该考虑的 就是元数据标准。实现元数据互操作的一种有效方法是建立相关领域的元 数据标准,各数字图书馆只要使用达成一致的元数据标准来建立其馆藏元 数据,就可以实现元数据的互操作拉王”j 。目前围绕着s g m l 、h t m l 和 x m l 等环境,已建立了各种元数据标准,其中较有影响的有d u b l i nc o r e 、 p i c s 、c d w a 、c d f 、m c f 和r d f 等。在分布和开放的网络环境中,对 信息系统各层次内容进行定义和描述( 即元数据定义) 已不是一个本地和静 态的问题,而是一个开放、动态和全局的问题。在目前多元化和互操作环 境下;元数据标准的发展趋势之一就是开放元数据机制。在多数情况下, 元数据标准需要遵循以下原则。 ( 1 ) 标准化原则标准化原则包括元素著录内容的标准化、元数据标准 所采用编码语言的统一性两个方面。为了保证同一元素著录内容的标准化, 必须要求所设计的元数据元素定义不能模棱两可,而且必须与较为通行的、 被广泛支持的元数据标准的语义定义一致。就元数据标准所采用的编码语 言而言,既有h t m l ,又有s g m l 或x m l 。由于各个编码语言的标签设 置、内容、可扩展性的不同,则会影响元数据的通用性。为此在元数据标 准设计时,就应选择一种通用的且有发展前途的编码语言如x m l 。 ( 2 ) 通用性与专用性原则通用性与专用性都是相对而言的。所谓通用 性是指元数据标准可用于数字图书馆多种信息资源的元数据制作。所谓专 用性是指元数据标准只适用于数字图书馆某一特定类型信息资源的元数据 制作。具有通用性的元数据适用于组织多种类型的信息资源。很明显,通 用性有利于元数据互操作及标准化的实现。由于元数据应用的各类资源的 特性不尽相同,著录深度和广度不尽相同,因此,无法只使用一种元数据 标准,需要根据具体的资源实体来确定相应的元数据标准,从而提高元数 据描述资源的准确性。因此,在设计元数据标准时,设计人员需要在通用 性和专用性之间加以协调、平衡。比如,应使所设计的元数据标准尽可能 第2 章元数据在数字图书馆信息组织中的应用 覆盖多种相似或有相近特性的对象,即必须考虑元数据标准在一定范围内 的通用性。 ( 3 ) 可扩展性原则元数据标准允许容纳新的元数据或者要求修改更 新已经注册的元数据标准。由于数字图书馆将要处理的数字资源非常广泛, 而各类应用背景更为复杂,元数据标准只能提供最广泛意义上的描述,一 些特殊应用背景的性质内容并不纳入。但一些具体应用可能会要求更为细 致精确的描述,应允许使用者在不破坏己规定的标准内容( 如元素的语义定 义) 的条件下,扩充一些元素、子元素或属性值。此外,元数据是一个发展 活跃的领域,新的元数据元素会不断涌现,老的元数据元素会不断修改完 善,而且,新的信息源也会层出不穷,这就要求元数据标准允许将新的元 数据元素容纳于其中,或者要求修改更新已经注册的元数据标准。 ( 4 ) 用户需求原则制定元数据标准的目的是向用户更好和更充分地 揭示信息资源,因此用户需求应作为最终的权衡标准。特别是在结构与格 式的设计、元素的增加与取舍、语义规则的制定等方面,要尽可能地从用 户的角度出发,增加系统与用户间的交互渠道( 如开放式的词表系统的使 用、增加提供用户反馈的元素等) ,为用户提供多层次的检索体系。 2 3 省域高校数字图书馆元数据方案 目前的省域高校数字图书馆还是一个综合了多个高校的网上图书馆, 拥有海量的数据。建设一流的数字图书馆,是省域高校数字图书馆努力追 求的目标。在省域高校的数字图书馆项目实施中,为了保证原始素材内容 管理中元数据的完整性与互操作能力,元数据方案的选择是其中的关键。 2 3 1元数据方案的解决路径 具体地说,从目前的技术状况来看,一套完整的数字图书馆元数据方 案或“元数据模型”应该解决4 个方面的问题。 ( 1 ) 元数据体系结构问题确定了数字图书馆所要采用的体系框架之 后,应该首先定义元数据方案的体系结构。一般包括元数据的语义、语法 燕山大学工学硕士学位论文 和结构。语义问题即是要提出一套应用于本项目资源对象描述的核心数据 元素集。目前越来越多的方案采用以d c 元数据集为核心集,定义一定的 扩充机制,适当加以扩充,或采用综合数个元数据方案的混合方式。国际 上主流数字图书馆方案基本上都是采用这种方案。 语法和结构问题就是要提供元数据的置标方案以及可供元数据进行语 义交互的“包”和“容器”。1 9 9 6 年提出的w a r w i c k f r a m e w o r k ,允许在 统一的数据描述格式之下包容各种不同的具体数据表现形式,为元数据的 封装提供了统一的形式,但它还只是一个概念模型,具体实现可使用不同 的工具和不同的方法,因而在元数据的互操作方面并没有彻底解决问题。 直到x m l r d f 在1 9 9 9 年正式成为w 3 c 推荐的网络资源元数据描述标准, 虽然它也不可能百分之百一统天下,但基于对x m l 的普遍看好,r d f 应 该能够成为数字图书馆必须支持的一种主要的元数据表达方式。我们的解 决方案也采用r d f 作为元数据容器。 ( 2 ) 元数据体系的映射问题元数据映射可以分为语义映射和结构映 射两个方面,语义映射主要是针对不同的描述型元数据体系,例如 m a r c d c e a d t e i f i m s 等,提供数据元素对照表,近似地实现数据资源 的“跨库”揭示。结构映射主要解决不同元数据包之间的对应关系,更多 地表现为一种“格式转换”,例如将r d f 转换成x m ls c h e m a ,或数据库 支持的w a r w i c k 包的形式,来提供异构系统间的互操作。 元数据映射可以采取动态和静态的方式,动态方式采用元数据转换中 间件,将相应的查询请求中的有关内容转换成资源站点支持的元数据模型 或可以识别的元数据格式,返回时再转换成本系统支持的元数据形式,以 支持本系统的查询结果处理。静态转换类似于目前的搜索引擎,将资源站 点的数字对象抓取到本地,按照本地的元数据模型建立索引,提供服务。 抓取是为了尽可能多的保持原有系统的信息,应该按照原系统支持的结构 化方式抓取,然后转换成本地的元数据形式存储。 再好的映射方案也只能是近似的,而且由于各种方案的角度,粒度不 同,单纯平面的映射关系会带来很多歧义,有时甚至是不可行的,必须从 更高层面本体论层次上寻找和建立这些不同元数据体系之间的相互联 第2 章元数据在数字图书馆信息组织中的应用 系,从而更好地建立映射关系。 f 3 ) 元数据模型的实现 数字图书馆要解决分布环境中数字资源对象 的组织和检索问题,目前大多采用构件化的层次模型体系。系统对元数据 的需求也可以由独立的元数据服务来实现。元数据服务要满足资源描述、 存储、互操作、检索、分布式知识发现等各相关构件或模块对元数据模型 提出的功能需求。数字图书馆这个概念虽然已经建立起一个美妙的前景, 但是其具体应用还有很长的路要走,单就技术上还有很多不确定性。元数 据方案作为数字图书馆中内容的灵魂,也远没有成熟。这是一个交叉研究 领域,非常值得图书馆专家、各领域专家和计算机界同仁们深入探索。 ( 4 1 元数据的互操作性互操作。( i n t e r o p e r a b i l i t y ) 1 2 h 是指一个系统或 产品在用户无需做出特别努力的情况下,与其他系统或产品协同工作的能 力。在网络分布式环境下,互操作性作为整合最大范围可获取信息服务的 一种手段显得越来越重要。目前通过在已有元数据集的基础上扩充和直接 使用“资源描述框架”标准两种方式来实现。在己有元数据集的基础上扩 充,既保证了专用性,又保证了兼容性,而且省却许多重新定义的过程, 比如在d c 元素上加入几个元素而形成用于教育资源的元素集( d c e d ) 和 在教育专用元素集d c e d 上再进一步扩展的毕业论文元数据集。再如 d l e s e 在整个i e e e l o m i m s 元数据的九大类基础上,加入第十类,专 门用于地球科学的专业元数据。2 0 0 2 年产生的m o d s ,可以说是一套新的 描述元数据格式,但它的产生完全是在m a r c 基础上的。首先m o d s 将 机读目录格式中相关的字段、元素加以集中,如将1 0 0 与7 0 0 字段集中在 “作者”下。其次,m o d s 不再采用数字符号,而采用与其他元数据相同 的含语义的文字标记。第二种是由w 3 c 推出的r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r kr d f ) 1 2 2 】是一套描述源及其属性和资源属性值的模型,其制定的 目的主要是为元数据在w e b 上的应用提供一个基础结构,以方便不同元数 据间的互操作。简单地说,r d f 允许在一条数据中“借”用不同元数据格 式的元素,用这些分别选出的元素形成一个完整的格式。在每条数据前面, r d f 要求用x m l n s ( n a l n es p a c e ,x m l 域名地点) 指出这些元素的出处, 通常是其元素集的元素定义的网上地址。从理论上讲,今后也许不需要产 鍪些奎兰三兰堡圭兰堡堕苎 生新的元数据格式、元素集,因为人们所需要的元数据记录中可以容纳从 现有的众多的元数据格式来的元素。r d f 的基本模型如图2 1 所示。 图2 - 1r d f 的基本模型 f i g 2 - 1b a s a lm o d e lo f r d f 2 3 2 省域高校元数据方案与设计理念 数字图书馆管理的对象是多媒体信息资源,对内容进行管理是数字图 书馆建设最重要的一项工作,也是整个数字图书馆实旄的基石。如何来对 内容进行统一、开放的管理,使内容管理的模式不因资源对象的变化而变 化,也不因系统实施的软硬件平台的不同而不同。除了内容管理的平台无 关、资源无关性以外,它还有格式开放、生命周期长的要求,同时也希望 能够将对内容的元数据描述也统一地纳入内容管理的体系中去。目前,基 于x m l 的内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通银行2025九江市秋招半结构化面试题库及参考答案
- 2025年3D打印技术的汽车零部件制造
- 2025年3D打印技术的材料科学
- 2025年3D打印的个性化器官移植
- 交通银行2025邯郸市秋招笔试创新题型专练及答案
- 2025行业技术发展趋势预测
- 邮储银行2025金融科技岗笔试题及答案河北地区
- 工商银行2025铜仁市数据分析师笔试题及答案
- 建设银行2025商洛市金融科技岗笔试题及答案
- 邮储银行2025三明市笔试行测高频题及答案
- 外宾接待礼仪课件
- DB31T 808-2019 地下空间安全使用检查规范
- 劳动课整理与收纳教案
- 戴晓琳《课余生活我安排》-课件
- 日周月安全检查记录表
- 防高处坠落-物体打击专项施工方案
- 道路交通事故现场图绘制PPT讲解(104页)
- 数据文化与我国时空大数据的发展
- 现代生物技术教学课件
- 国标法兰尺寸对照表
- 广州初中数学知识点总结(共40页)
评论
0/150
提交评论