




已阅读5页,还剩67页未读, 继续免费阅读
(计算机应用技术专业论文)数字图书馆的信息组织与信息服务技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数字图书馆是解决网络信息过载的关键技术,是资源共享和知识发现 的主要媒介之一。随着h 他m 眈的迅猛发展,数字图书馆信息资源呈几何 级数级增长。面对浩瀚如烟的网络信息资源,如何选择一种对数字图书馆 信息资源进行组织与描述的标准,以方便读者查找和利用,成为图书情报 学界急待解决的问题。构建高效、简洁、灵活的信息服务体系是数字图书 馆建设的最终目标。因此,本文对数字图书馆的信息组织和信息服务两大 关键技术进行研究。 首先,以数字图书馆信息组织和元数据概述为铺垫,对数字图书馆信 息资源的组织结构和元数据应用于数字图书馆的必要性进行说明。采用基 于元数据的信息组织策略,提出数字图书馆的元数据方案,方案以d c 元 数据为核心数据集,多种元数据格式并存,并采用基于x m l 的r d f 描述 将不同元数据纳入统一管理体系。 其次,对数字图书馆互操作问题进行研究。分析当前几种互操作解决 方案的优缺点,在此基础上引入网格技术提出一种基于网格和o 砧体系的 互操作方案,将w e b 上广泛分布的、异构的数字图书馆联合起来,实现异 构数字资源库的无缝连接。 再次,对数字图书馆个性化主动信息服务技术进行研究。包括资源描 述模型、用户模型及更新算法和信息过滤技术,在此基础上提出了一种基 于多a g e m 的个性化主动信息服务模型。 最后,对信息过滤算法进行设计。提出一种基于项目聚类的协同过滤 算法,并通过实验证明其优越性。 关键词数字图书馆;元数据;互操作;个性化主动信息服务;信息过滤 燕山大学工学硕士学位论文 a b s t r a c t d i g i t a ll i b r a r yi sac r u c i a lt e c h n o l o g yt os o l v et h eo v e r l o a do f t h ei n t e m e t i n f o r m a t i o na n do n eo ft h em e d i u m so fs h a r i n gr e s o u r c ea n dd i s c o v e r i n g k n o w l e d g e w 岫t h er a p i dd e v e l o p m e n to fi n t e r n e t d i g i t a ll i b r a r yi n f o r m a t i o n r e s o u r c e sa r ei n c r e a s i n gw i t hg e o m e t r i cs e r i e s i nt h ef a c eo ft r e m e n d o u s a n a o u n to fn e t w o r kr e s o u r c e s h o wt oo r g a n i z ea n dd e s c r i b ed i g i t a l l i b r a r y i n f o r m a t i o nr e s o u r c e ss oa st or e a d e r sc a nf i n da n du t i l i z et h e me x p e d i e n t l yi sa p r o b l e mt h a tt h el i b r a r i e sm u s ts o l v eu r g e n t l y t h eu l t i m a t eg o a lo ft h ed i g i t a l l i b r a r yi st oc r e a t eh i g h - e f f e c t i v ec o m p a c ta n df l e x i b l ei n f o r m a t i o ns e r v i n g s y s t e m s ot h ep a p e rs t u d i e sa n de x p l o r e st ot h et w ok e yt e c h n o l o g i e s : i n f o r m a t i o no r g a n i z a t i o na n di n f o r m a t i o ns e r v i c e so f d i g i t a ll i b r a r y f i r s t l y ,b a s e do nd l i oa n dt h es u m m a r i z a t i o no fm e t a d a t a ,t h i sp a p e r i l l u s t r a t e st h eo r g a n i z a t i o ns t r u c t u r eo fd l si n f o r m a t i o nr e s o u r c e s ,t h e e s s e n t i a l n e s so fm e t a d a t a s a p p l i c a t i o n i nd l i o t h e p a p e r u s e st h e i n f o r m a t i o no r g a n i z a t i o ns c h e m eb a s e do nm e t a d a t a , p r o p o s e st h em e t a d a t a s c h e m eo f d i g i t a ll i b r a r y t h es c h e m et a k e st h ed u b l i nc o r em e t a d a t as e t sa sa c o r e ,c o r r e s p o n d i n gt oav a r i e t yo fd i f f e r e n tt y p e so fr e s o u r c e sm e t , a d a m m e t h o d sc o e x i s t ,b a s e do nx m l ,u s er d ft od e s c r i b ed i f f e r e n tm e t a d a t aa n d c o n t e n tm a n a g e m e n ti n t oau n i f i e ds y s t e m s e c o n d l y , w er e s e a r c ho nt h ed i g i t a ll i b r a r yi n t e r o p e r a b i l i t y t h ep a p e r a n a l y z e st h ec u r r e n td i g i t a ll i b r a r yi n t e r o p e r a b i l i t ys o l u t i o n s i n 仃o d u c et h e 鲥d t e c h n o l o g y ,as o l u t i o no fd i g i t a ll i b r a r yi n t e r o p e r a b i l i t yb a s e do n 鲥da n do a i f r a m ei s p u tf o r w o r d t h es c h e m ea s s o c i a t e sw i t ht h ew e bw i d e s p r e a d d i s t r i b u t i o na n di s o m e r i s md i g i t a ll i b r a r i e s ,f i n i s h e st h es e a m l e s sc o n n e c t i o no f t h ei s o m e r i s mr e s o u r c ed a t a b a s e s m o r e o v e r ,w er e s e a r c ht h ep e r s o n a l i z e da c t i v ei n f o r m a t i o ns e r v i c e si n a b s t r a c t d i g i t a ll i b r a r y h c l u d i n gt h er e s o u r c e sd e s c r i b em o d e l ,u s e rp r o f i l ea n du p d a t e a l g o r i t h m ,t h e i n f o r m a t i o nf i l t e r i n g t e c h n o l o g y b a s e do nt h i s ak i n do f p e r s o n a l i z e da c t i v e i n f o r m a t i o ns e r v i c e sm o d e lb a s e do nm u l t i - a g e n ti s p r o p o s e d f i n a l l y , w ed e s i g nt h ei n f o r m a t i o nf i l t e r i n ga l g o r i t h m s ac o l l a b o r a t i v e f i l t e r i n gr e c o m m e n d a t i o na l g o r i t h mb a s e do ni t e mc l u s t e r i n gi sp r o p o s e d a l s o w ep r o v ei t ss u p e r i o r i t yb ye x p e r i m e n t k e y w o r d sd i g i t a ll i b r a r y , m e t a d a t a ;i n t e r o p e r a b i l i t y ;p e r s o n a l i z e da c t i v e i n f o r m a t i o ns e r v i c e s ;i n f o r m a t i o nf i l t e r i n g m 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文数字图书馆的信息组织 与信息服务技术研究,是本人在导师指导下,在燕山大学攻读硕士学位期 间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外 不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献 的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由 本人承担。 储祥讶叶 吼吒铋月哕日 燕山大学硕士学位论文使用授权书 数字图书馆的信息组织与信息服务技术研究系本人在燕山大学攻 读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归 燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。 本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并 向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人 授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布 论文的全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“4 ”) 作者签名 导师签名 日期:。币年肛月坷日 日期:“年l 沙胡日 | 第1 章绪论 1 1 研究背景 第1 章绪论 随着国际互联网( i n t e m e t ) 的出现和发展,社会信息资源的类型以及信 息产生和发布的方式都发生了巨大的变化。互连网具有覆盖范围广、资源 类型丰富、资源数字化存储和超越时空限制的信息传递等优点,所以,越 来越多的人把互联网作为获取信息的重要手段,人们用史无前例的方式, 最大限度的共享互联网上的资源,互联网也因此被喻为世界上最大的图书 馆。但是互联网上的信息往往“多而无序、繁而不精、华而不实”,使得 人们很难快速准确地找到自己真正需要的信息,出现了“信息过载”和“资 源迷向”的问题【l j 。 怎样合理、有效地对各类数字信息进行组织、检索、访问和利用? 怎 样有效利用互联网的优势向用户提供海量数字信息服务? 针对这些问题, 美国科学家在2 0 世纪9 0 年代初提出了数字图书馆d l ( d i g i t a ll i b r a r y ) 这一 概念【2 】。数字图书馆致力于建立超大规模、可扩展、可互操作的分布式海 量数字化信息资源库群,使庞杂、分散的网络资源有序化,使封闭、静止 的馆藏资源开放化。同时依托国际互联网,超越时空限制,向用户提供全 方位、高效、快捷的数字化信息服务,真正实现全球信息资源共享和以用 户为中心的服务模式。 随着w e b 的迅猛发展,网上信息资源急剧增长,面对纷繁的信息世界, 人们对于更有效的信息资源检索的需求愈加强烈,对网络信息组织提出了 更高的要求。于是如何满足用户的个性化和专业化的信息需求,探求面向 语义的信息服务,则成为人们关注的焦点。数字信息资源组织的目标在于 利用最新的w e b 技术,实现面向语义的信息检索,最大限度地满足用户的 检索需求。可扩展标记语言( x m l ) 、资源描述框架( r d f ) 及知识本体 ( o n t o l o g y ) 等新技术不仅是语义w e b 赖以实现的基础,同时也是数字信息资 茎些奎兰三兰堡主堂堡笙苎 源组织与检索的重要技术基础,为数字信息资源组织与服务提供了良好的 技术支持。 1 2 数字图书馆的研究现状 数字图书馆是一个包含很多计算机技术的领域,目前国内外在数字图 书馆的各个方面进行了相应的研究,取得了很多成果。 1 2 1 国外数字图书馆研究现状 美国于1 9 9 1 年率先开始研究数字图书馆,1 9 9 2 年美国1 7 所知名大学和 州立图书馆开始合作研制“俄亥俄图书馆和信息网络计划”,将大学校园 网与卅i 立图书馆相互连接,并向当地的社区学校、图书馆和其他机构开放 逐步发展成为一个庞大的电子信息检索网络。这是数字图书馆早期成功的 例子。1 9 9 3 年9 月,美国国家科学基金会( n s f ) 、美国国防部高级研究中一t 3 计划署( d a r p a ) 和美国国家航天航局( n a s a ) 联合资助一个为期4 年的6 个 数字图书馆研究计划的大型协作项目“美国数字图书馆首创计划”, 分别以美国6 所在科技领域和图书馆服务较好的密歇根大学、伊利诺大学、 加州大学伯克莱分校、卡内基梅隆大学、斯坦福大学以及加州大学圣塔巴 巴拉分校作为研究基地。美国国会图书馆的“美利坚记忆图书馆计划”更 为宏伟,1 9 9 4 年l o 月美国国会图书馆宣布,其计划用6 年时间,至u 2 0 0 0 年, 将国会图书馆最重要的图书资料,包括绘画、图书、音乐、手稿、照片及 运动画面,全部数字化,通过因特网和有线电视网传播给用户。1 9 9 5 年, 美国在华盛顿召开网络信息联盟会议,由1 6 所主要图书馆成立了“国家数 字图书馆联盟”,其主要任务是在因特网上实现分散式的开放图书馆,以 期实现数字化和动态保存美国文化遗产,并与全球用户共享。2 0 0 1 年2 月9 日,美国总统信息技术咨询委员会( p i t a c ) 向 新上任的布什总统提交了3 份 报告,其中之一就是数字图书馆:对人类知识的普遍访问。在此报告 中,美国总统信息技术咨询委员会提出,“我们相信数字图书馆能够支持 本委员会1 9 9 9 年2 月的报告信息技术研究:投资未来中提出的所有国 第1 章绪论 家挑战性变革,报告中指出的1 0 条挑战性变革是所有公民能够融入信息 时代并从中受益的基本先决条件。数字图书馆将在这些变革中扮演核心角 色,每一种变革都会利用或需要数字图书馆配合才能成为现实”。 欧洲各国也紧随美国之后发展数字图书馆。英国的数字图书馆计划也 是从大学开始的。1 9 9 2 年德莫诺英德大学的一所分校就开始研制数字图书 馆。1 9 9 3 年不列颠图书馆宣布了一项通过数字化和网络技术使用户最大限 度地利用其收藏文献计划。1 9 9 5 年1 0 月起欧洲图书馆员联盟会员国的国家 图书馆开始合作开发的全球网络数字图书馆信息服务,已经在因特网上开 通使用。1 9 9 7 年英国政府提出“全国学习网”计划,使全国的大学、图书 馆、博物馆与“全国学习网”连接,从而扩大了整个社会获取知识及接受 教育的机会和途径,达到创造一个网络化知识社会的目标。德国最大的数 字图书馆规划( g l o b a li n f o ) ( 1 9 9 8 2 0 0 3 ) ,启动资金1 2 亿德国马克,项 目参加单位遍布全国,对全球的全文、文献参考资料、事实数据库和软件 方面的电子、多媒体信息提供先进、最佳的存取。 日本的数字图书馆建设计划从1 9 9 4 年开始实施,该计划包括试验性电 子图书馆、儿童数字图书馆和亚洲信息提供系统三个组成部分,由国家投 资4 亿美元,于2 0 0 2 年完成一期工程,其目标是建设成为日本最大的数字图 书馆和亚洲地区的电子文献信息中心。另外,日本政府还出面组织7 3 个机 构、投资1 5 5 亿日元合作开发日文文献数据库。新加坡政府于1 9 9 4 年提出 了“2 0 0 0 年图书馆发展计划”,准备建设“无边界的电子图书馆网络”, 把全新加坡的公共图书馆和5 0 0 多个学术与专业数据库连接起来。我国台湾 省也于1 9 9 4 年制订了“亚太智能信息服务中心”计划,计划投资上百亿美 元、用6 年时间完成。 而且,数字图书馆的建设主要受到关注的是资源建设与技术两个方面 的内容。据统计,目前美国的数据库生产商有10 0 0 多家,数据库40 0 0 多 个,约占世界数据库总量的5 0 ,美国有著名的大型国际联机检索系统1 3 个,年产值4 0 多亿美元。欧共体有10 0 0 多个商业化数据库,联机系统5 0 多个,其中英国有3 0 0 多个数据库,较大的联机系统有4 个,法国有5 0 0 多个 数据库,联机系统4 2 个,德国有3 0 0 多个数据库,8 个联机检索系统,欧洲 燕山大学工学硕士学位论文 数据库的年产值达2 0 亿美元。日本有从事数据库行业的机构1 0 0 多家,它的 信息服务系统完全商业化和产业化,年产值将近20 0 0 亿日元【3 】。 1 2 2 国内数字图书馆研究现状 在我国大陆地区,数字图书馆建设也已开始起步。辽宁省图书馆是全 国最早启动数字图书馆工程的公共图书馆,它与m m 合作,采用m m 数字 图书馆解决方案,把对古籍文献的数字处理、i n t e m e t 信息发布、多媒体阅 览室及视频点播作为首期实现的重点功能。清华大学图书馆推出了“清华 大学数字图书馆”建设计划,总体目标是借助计算机完成馆藏资源的数字 化存储和管理,通过网络技术向分布广泛的用户提供快捷便利的文献服务, 同时正在创建“中国高校学位论文联机服务系统”,用户可在1 5 所联网学 校和互联网上进行透明的、无国界的信息检索。上海交通大学图书馆计划 在2 0 0 0 年建成了一个数字化图书馆的现实模型,将其拥有的3 0 0g b 数字化 馆藏信息上网提供服务。中国社会科学院也推出了电子图书馆计划,其主 要是构建社科院图书馆系统数字化馆藏文献数据库和通过网络进行文献信 息的传送和接收。上海图书馆已在因特网上构建了一定规模的上海数字图 书馆。国家图书馆从1 9 9 6 年开始致力于馆藏文献的数字化,现已创建了网 上的“中国数字图书馆”。作为全国规模的国家数字图书馆网站,以国家 图书馆丰富的馆藏资源、强大的数字资源优势作为后盾,借助遍布全国的 信息组织与服务网络,面向全球提供具有专业性、系统性、主动性的多媒 体信息资源内容服务,目前已经拥有47 0 0 万页丰富精彩的数字化图书馆内 容储备,同时保持以每天2 0 万页的数字化速度增长。2 0 0 0 年1 0 月起,该网 站向社会隆重推出了“网上中文图书馆”服务。2 0 0 1 年9 月完成了中国数 字图书馆工程一期规划( 2 0 0 0 - 2 0 0 5 ) 实施方案,7 - 程已经国务院批准立项, 已实施。2 0 0 1 年5 月,以国家图书馆为主单位的7 家图书馆历时3 年完成了国 家重点科技项目“中国试验型数字式图书馆”,该计划将模仿美国数字图 书馆首创计划,侧重技术方案的实现,兼顾资源数字化,建立一个在内容 和技术上具有一定典型意义的数字图书馆原型,成为我国大规模建设数字 图书馆工程样板。2 0 0 2 年4 月,由国家财政部、文化部共同组织并实施了“全 4 第1 章绪论 国文化信息资源共享工程”,它由国家中心、3 0 个省级分中心和50 0 0 个县 级基层中心组成网络,并建立全国图书馆、博物馆、美术馆、艺术研究机 构的文化信息资源联合目录,将于五年内完成。2 0 0 2 年7 月,在北京召开的 “数字图书馆新世纪信息技术的机遇与挑战”国际研讨会,进一步促 进了对数字图书馆及相关领域更广泛和深入的研究与探讨,为中国数字图 书馆工程的有效实施做好充分准备【7 j 。 从我国国内的发展历程来看,我国的数据库服务业大约比日本、西欧 晚1 0 年,比美国晚2 0 年左右,并且还没有建成实用化的联机网络数据库, 与国外相比,我国数据库起步较晚,但发展却较快。据国家科委信息司的 统计,我国数据库的数量占世界数据库总量的1 1 0 。 目前国内主要的数据库有中国期刊网、人大报刊复印资料、万方、维 普、超星、方正、数图、国研网、新华财经网、书生等。在这些数据库的 建设基础上,数字图书馆逐渐发展起来。据不完全统计,目前我国已经开 通了二百家大大小小的数字图书馆,许多大学图书馆也开通了数字图书馆 业务。但是,随着数字图书馆事业不断进展,由于理念和思路的不同,各 家数字图书馆的模式也有很大的不同。 1 3 课题的提出及研究意义 数字图书馆的建设,给图书馆界带来了一场革命。数字图书馆的建设 需要一个全新的思路,这不仅包括传统图书馆向数字图书馆的跨越探索, 还涉及了下一代因特网上如何构造数字图书馆等具有挑战性的开拓型研究 和实践。我国启动和开展了许多大规模的数字图书馆建设项目,建成了一 批有代表性的数字图书馆。然而,由于资金、技术等各方面的限制,我国 数字图书馆的建设还有待进一步的发展。主要表现在以下两个方面。 ( 1 ) 信息的组织帮助用户发现信息是数字图书馆提供的核心服务之 一,而要取得良好的信息服务效果,必须要有科学合理的信息组织技术和 检索软件的支持。因此,如何对海量信息进行有效地组织和管理,为用户 提供方便、快捷、有效地检索服务是数字图书馆建设的关键所在。 燕山大学工学硕士学位论文 ( 2 ) 信息服务体系的构建目前在世界上一些比较发达的国家,数字图 书馆已经渡过其起步期,正在从面向技术的、有选择性的、以试验为目的 的数字图书馆研究试验项目转向面向用户的、全方位发展的、以实用为目 的的建设工程【2 】。从国内目前已建成的几家网上数字图书馆来看,其中一 个重要的问题就是,大多数数字图书馆的信息服务都是以资源为中心的服 务模式,而没有考虑到用户的专业、爱好、年龄、心理倾向等因素存在着 较大差异这一事实,因此不能真正的满足用户个性化的信息需求。所以, 在数字图书馆中构建自适应用户需求的个性化服务系统,帮助用户快速、 准确的找到所需信息,并主动推荐给用户,变“人找信息”为“信息找人”, 是一件十分有意义的工作。它将是数字图书馆“以资源为中心”的服务模 式向“以用户为中心”的服务模式的本质性的飞跃,是数字图书馆发展的 必然趋势。 本文对数字图书馆的信息组织和信息服务两大关键技术进行研究,加 速和方便数字图书馆系统上层应用的开发,从而达到信息资源的利用最大 化的目的,同时给系统用户带来了实际的方便,具有很强的实际意义。 1 4 文章研究内容与结构 文章首先对数字图书馆的国内外研究现状以及存在的问题进行分析。 从而引出数字图书馆建设的两大关键技术:信息组织与信息服务。并分别 对这两大关键技术进行研究。论文共分为5 章,具体结构如下。 第1 章为绪论。阐述了课题的研究背景和意义,介绍了数字图书馆的国 内外研究现状,引出课题的研究内容。 第2 章为数字图书馆的信息组织。首先概括介绍了数字图书馆信息资源 和元数据的基本概念与相关知识,然后介绍了元数据在数字图书馆信息组 织中的具体应用,并在此基础上提出了一套数字图书馆的元数据方案。 第3 章为基于网格技术的数字图书馆互操作研究。介绍了数字图书馆互 操作所面临的挑战,分析了当前流行的几种互操作方案,指出其优缺点。 引入网格技术提出一种新的数字图书馆互操作解决方案,并对其关键技术 6 第1 章绪论 进行分析。 第4 章为数字图书馆个性化主动信息服务。首先,给出个性化主动信息 服务的定义。其次,对数字图书馆的资源描述模型、用户模型及更新算法 进行设计,对信息过滤技术进行分析。在此基础上提出一种基于多a g e n t 的数字图书馆个性化主动信息服务模型。 第5 章为个性化主动信息服务算法设计。对信息过滤算法进行具体的算 法实现,包括基于内容的过滤算法和协同过滤算法,提出一种基于项目聚 类的协同过滤算法,通过实验证明其优越性。 最后,结论部分对论文进行了总结,并对下一步的研究工作进行分析 与展望。 7 燕山大学工学硕士学位论文 第2 章元数据在数字图书馆信息组织中的应用 2 1 数字图书馆信息组织概述 数字图书馆信息组织就是对数字图书馆信息资源进行选择、描述和整 合,为其提供有序化的结构,并使之形成一个有机的整体,以便于对数字 图书馆信息资源进行存取和利用。数字图书馆信息组织决定了数字图书馆 数据存储和信息服务的质量,直接影响着系统运行的总体性能。 2 1 1数字图书馆信息组织内容及模式 数字图书馆的信息组织内容包括信息发现与选择、信息描述与揭示、 信息整合与集成几个方面。 ( 1 ) 信息发现与选择由于数字图书馆的虚拟资源在图书馆中的比重 有增大的趋势,且这些存于网络中的资源数量庞大、杂乱无章、质量参差 不齐,因此如何发现与选择这些资源成为数字图书馆信息组织的首要内容。 ( 2 ) 信息描述与揭示与传统图书馆通过文献描述与揭示对文献信息 资源进行组织相似,数字图书馆的信息组织也以对馆藏资源的描述与揭示 为核心,针对不同的资源类型采取不同的描述方法。对于传统馆藏,可以 继续使用传统的标引、编目方法( a h c r 2 及m a r c ) 对其进行组织。对于数 字馆藏资源,由于它们存于本地服务器,且比较稳定,因此可以仿照传统 馆藏资源的组织方式对其进行组织。网络信息资源其最大特点是更新速度 快、内容不稳定,使得信息组织人员对其内容进行概括和描述极为困难, 在这种情况下,使用搜索引擎和m a r c 方法对其进行组织都存在不同程度 的缺陷。于是,基于因特网资源发现与检索的元数据担当了此任,而且, 对于不同的资源类型可采用不同的元数据标准【l6 】。 ( 3 ) 信息整合与集成数字图书馆存在着多种不同类型信息资源,针对 不同信息资源采用不同的描述方法,这必然造成同一主题的不同类型信息 8 第2 章元数据在数字图书馆信息组织中的应用 资源被分散在不同的系统,给用户检索信息带来了很大不便。而且,不同 的描述方法使信息之间的交流与共享受到极大限制。因此,必须通过元数 据这一纽带来实现信息的整合与集成。 2 1 2 数字图书馆信息资源的组织结构 在传统图书馆中,文献的组织主要由三部分组成:排架号、目录和文 献资料本身。排架号是一组唯一的代码,用来指示文献的位置。目录将文 献的特征信息提取出来,组成有序的可检索体系,指示用户通过排架号来 获取文献。 与此类似,数字图书馆的信息组织也由三部分组成:指针、元数据和 数据。指针对应于传统图书馆的排架号,用来唯一标识数据。元数据对应 于目录,是一组用来描述数据本身特征的数据集,元数据集中在数字图书 馆中心的超大规模服务器上。数据则对应于文献,是数字图书馆的基本信 息对象,也叫对象数据。对象数据可以分布地存放在各地的资源站点内, 当用户查询时,中心调度系统通过元数据调度各个对象数据库中的数据供 用户使用。因此,在数字图书馆信息组织中元数据具有非常重要的作用。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 数字图书馆的信息组织结构如图2 1 所示。 对象数据库 图2 1数字图书馆信息组织结构 f i g 2 - li n f o r m a t i o no r g a n i z a t i o ns t r u c t u r ei nd i g i t a ll i b r a r y 9 用 户 燕山大学工学硕士学位论文 2 2 元数据概述 元数据m e t a d a t a ,该词最早出现于美国航空与宇宙航行局n a s a 的目 录交换格式d i f 手册中。简单地说,元数据是“关于数据的数据”。它 是面向某种特定应用的用于描述资源属性的机器可理解的信息。通过规范 语法结构和语义结构,使得机器能够无二义性地表现和获取信息。元数据 可以用于w e b 资源的标识、集成、交换、检索等工作。利用元数据机制, 可以更加精确地描述w e b 资源的语义,从而使得w c b 数据从机器可读转化 为机器可理解,而w e b 的职能也将从纯粹的信息、服务的载体转化为具有 知识表示和知识推理能力的知识网络一。 2 2 1 元数据的特点 元数据是数字图书馆信息组织的基础,具有以下特点。 ( 1 ) 描述性这是所有元数据最本质的特征。元数据是描述数据的数 据,它通过按一种约定俗成的规则来描述对象的手段来组织和管理信息资 源。只有先描述才会有组织和管理功能的发挥1 5 】。 ( 2 ) 动态性元数据不是静止不变的,随着描述对象的变化而变化。 ( 3 ) 多样性指元数据的类型多样,一个描述对象的元数据会有各方面 的特征,我们从不同的角度对其进行划分会产生不同的结果。 ( 4 ) 复杂性一方面,元数据既可以是集合概念也可以是个体概念,元 数据中还可以包括其他的元数据。另一方面,对不同的描述对象,有些元 数据项是必须有的,而有些却不一定强求,即强制性的元数据与选择性的 元数据共存【6 j 。 ( 5 ) 多层次性一方面是由元数据所描述对象的多层次决定的,另一方 面是由元数据使用对象的多层次性决定的。 ( 6 ) 支撑性从某种程度上来说,元数据相对内容而言,处于次要的地 位,但又是必不可少的,起支撑作用,它有效地维护所描述对象的原始性 和完整性。另一方面,元数据的支撑性还表现在它与所描述对象的共存, 能保证资源的长期使用,在产生它的人、计算机系统乃至标准停用后,仍 1 0 第2 章元数据在数字图书馆信息组织中的应用 可继续使用【7 1 。 2 2 2 元数据的结构 元数据格式一般通过三层结构来完整定义。 ( 1 ) 内容结构( c o n t e n ts t r u c t u r e ) 对元数据的构成元素及其定义标准进 行描述。例如,一个元数据的构成元素可能根据其目的而包括信息内容描 述性元素、技术性元素、管理性元素、结构性元素。元数据内容结构需要 对所采用的元素进行准确定义和描述。但是这些数据元素很可能是依据一 定的定义标准来选取的,因此元数据内容结构中需要对此进行说明,例如 m a r c 记录所依据的i s b d ,e a d 所参照的i s a d ( g ) ,i c p s r 所依据的i c p s r d a t ap r e p a r a t i o nm a n u a l 等引。 ( 2 ) 句法结构( s y n t a xs t r u c t u r e ) 定义元数据的结构以及如何描述这种 结构,例如元素的分区分段组织、元素选取使用规则、元素描述方法( 例如 d u b l i nc o r e 采用i s oi e c ii1 7 9 标准) 、元素结构描述方法( 例如m a r c 记录 结构、s g m l 结构、x m l 结构) 、结构语句描述语言等。在有些情况下,句 法结构需要指出m e t a d a t a 数据是否与所描述的数据对象捆绑在一起 0 3 0 u n d e dw i t ht h eo b j e e t ) ,或作为单独数据存在,但以一定形式与数据对 象链接,还可能描述与定义标准、d t d 结构和n a m e s p a c e 等的链接方式。 ( 3 ) 语义结构( s e m a n t i cs t r u c t u r e ) 定义m e t a d a t a 元素的具体描述方法, 尤其是定义描述时所采用的标准、最佳实践( b e s tp r a c t i c e s ) 或自定义的描述 要求( i n s t r u c t i o n s ) 。有些m e t a d a t a 本身就定义了语义结构,而另外一些情况 下则由具体采用单位规定语义结构。例如d u b l i nc o r e 建议日期元素采用 i s 0 8 6 0 1 、资源类型采用d u b l i nc o r et y p e s 、数据格式可采用m i m e 、识别 采用u r l 或i s b n 。主要包括元素本身属性定义、元素内容编码规则定义、 元素语义概念关系、元数据版本管理四个层次【9 】。 2 3 元数据应用于数字图书馆信息组织的必要性 元数据在数字图书馆信息组织中的必要性主要表现在以下几个方面。 燕山大学工学硕士学位论文 ( 1 ) 信息发现与选择离不开元数据网络的发展为信息资源的生成带 来了极大便利,几乎任何人在任何时间内都可以成为信息资源的创建者, 由于资源创建者的自身素质的差异极大,缺乏严格的网络出版监督机制, 导致了信息资源质量的参差不齐,因特网成了展示这些“商品”的杂货店。 作为数字图书馆的信息组织人员,其首要的任务就是利用信息资源创建者 提供的简单元数据,对这些杂货店的商品进行严格筛选,以提供给最终用 户以高质量的信息资源i l 。 ( 2 ) 信息描述与揭示离不开元数据同传统图书馆一样,对于筛选过 的、已成为数字图书馆馆藏的信息资源,信息组织人员需要根据资源类型, 使用传统元数据标准m a r c 或现代元数据如d c 、v r a 、f g d c 等对其进行 描述与揭示,以方便用户对资源的发现与检索l l ”。这是数字图书馆信息组 织的核心,是元数据的最主要的功能。 ( 3 ) 信息整合与集成离不开元数据数字图书馆信息组织不仅将自身 的传统馆藏和数字化馆藏整合集成到一个统一的用户界面上,而且还使用 户可以通过任意一个数字化图书馆的单一界面,访问互联网上的任何其它 数字图书馆的信息资源。元数据体系发挥这种将异构资源进行整合、集成 的功能,承担各种元数据系统的转换与解释,为用户提供统一的集成【t 2 a 3 1 。 2 4 基于元数据的信息组织的实现 元数据在数字图书馆中提供完整的数据描述形式,为分布的、由多种 数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具。 是广泛分布的数字图书馆资源站点具有充分的互操作和可扩展性的基础, 是提供数字图书馆中资源描述、资源发现、资源处理、资源评价与排序以 及人机交互和理解的基本要素,并且元数据还承担向数字图书馆中高层协 议中间件提供标准数据访问接口的功能【】”。 2 4 1 元数据标准 在数字图书馆建设过程中,除了资源的数字化以外,首先应该考虑的 第2 章元数据在数字图书馆信息组织中的应用 就是元数据标准。实现元数据互操作的一种有效方法是建立相关领域的元 数据标准,各数字图书馆只要使用达成一致的元数据标准来建立其馆藏元 数据,就可以实现元数据的互操作。目前围绕着s g m l 、h t m l 和x m l 等 环境,已建立了各种元数据标准,其中较有影响的有d u b l i nc o r e ,p i c s , c d w a ,c d f ,m c f 和r d f 等 1 5 , 16 】。在分布和开放的网络环境中,对信息 系统各层次内容进行定义和描述已不是一个本地和静态的问题,而是一个 开放、动态和全局的问题。在多数情况下,元数据标准需要遵循以下原则。 ( 1 ) 标准化原则标准化原则包括元素著录内容的标准化、元数据标准 所采用编码语言的统一性两个方面【1 7 1 。为了保证同一元素著录内容的标准 化,必须要求所设计的元数据元素定义不能模棱两可,而且必须与较为通 行的、被广泛支持的元数据标准的语义定义一致。就元数据标准所采用的 编码语言而言,既有h t m l ,又有s g m l 或x m l 。由于各个编码语言的标 签设置、内容、可扩展性的不同,则会影响元数据的通用性。为此在元数 据标准设计时,就应选择一种通用的且有发展前途的编码语言如) ( 1 订l 。 陀) 通用性与专用性原则所谓通用性是指元数据标准可用于数字图 书馆多种信息资源的元数据制伊1 8 j 。所谓专用性是指元数据标准只适用于 数字图书馆某一特定类型信息资源的元数据制作【1 9 1 。具有通用性的元数据 适用于组织多种类型的信息资源,通用性有利于元数据互操作及标准化的 实现。由于元数据应用的各类资源的特性不尽相同,著录深度和广度不尽 相同,因此无法只使用一种元数据标准,需要根据具体的资源实体来确定 相应的元数据标准,从而提高元数据描述资源的准确性。因此,在设计元 数据标准时,需要在通用性和专用性之间加以协调、平衡。应使所设计的 元数据标准尽可能覆盖多种相似或有相近特性的对象,即必须考虑元数据 标准在一定范围内的通用性 2 0 l 。 ( 3 ) 可扩展性原则元数据标准允许容纳新的元数据或者要求修改更 新已经注册的元数据标准。由于数字图书馆将要处理的数字资源非常广泛, 而各类应用背景更为复杂,元数据标准只能提供最广泛意义上的描述,一 些特殊应用背景的性质内容并不纳入。但一些具体应用可能会要求更为细 致精确的描述,应允许使用者在不破坏已规定的标准内容的条件下,扩充 燕山大学工学硕士学位论文 一些元素、子元素或属性值。此外,元数据是一个发展活跃的领域,新的 元数据元素会不断涌现,老的元数据元素会不断修改完善,这就要求元数 据标准允许将新的元数据容纳于其中,或修改更新已经注册的元数据标准。 ( 4 ) 用户需求原则制定元数据标准的目的是向用户更好和更充分地 揭示信息资源,因此用户需求应作为最终的权衡标准。特别是在结构与格 式设计、元素的增加与取舍、语义规则的制定方面,要尽可能地从用户的 角度出发,增加系统与用户间的交互渠道,为用户提供多层次的检索体系。 2 4 2 元数据的互操作性 不同的领域( 甚至同一领域) 往往存在多个元数据格式,当在不同元数 据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元 数据的互操作问题( i n t e r o p e r a b i l i t y ) 。元数据互操作的目标是在开放的网络 信息环境中为大规模的分布信息提供有效的组织结构并实现跨资源库的统 一检索。因此,解决元数据的互操作问题对于实现数字图书馆资源的分布 形式、动态管理都具有十分重要的意义。目前主要通过在已有元数据集的 基础上扩充和直接使用“资源描述框架”标准两种方式来实现。 在已有元数据集的基础上扩充,既保证了专用性,又保证了兼容性, 而且省却许多重新定义的过程,比如在d c 元素上加入几个元素而形成用于 教育资源的元素集( d c e d ) 和在教育专用元素集d c e d 上再进一步扩展的 毕业论文元数据集。再如d l e s e 在整个i e e e l o m i m s 元数据的九大类基 础上,加入第十类,专门用于地球科学的专业元数据。2 0 0 2 年产生的m o d s , 可以说是一套新的描述元数据格式,但它的产生完全是在m a r c 基础上的。 首先m o d s 将机读目录格式中相关的字段、元素加以集中,如将1 0 0 与7 0 0 字段集中在“作者”下。其次,m o d s 不再采用数字符号,而采用与其他 元数据相同的含语义的文字标记。 第二种是由w 3 c 推出的r d f ( r e s o u r c e d e s c r i p t i o n f r a m e w o r k ) ,r d f 是 一套描述资源、属性和资源属性值的模型,其制定的目的主要是为元数据 在w 曲上的应用提供一个基础结构,以方便不同元数据间的互操作。简单 地说,r d f 允许在一条数据中“借用”不同元数据格式的元素,用这些分 1 4 第2 章元数据在数字图书馆信息组织中的应用 别选出的元素形成一个完整的格式。在每条数据前面,r d f 要求用x m l n s 指出这些元素的出处,通常是其元素集的元素定义的网上地址。从理论上 讲,今后也许不需要产生新的元数据格式、元素集,因为人们所需要的元 数据记录中可以容纳现有的众多元数据格式的元素。 2 4 3 元数据的编码语言_ x m l 可扩展标识语言x m l 是w 3 c 开发的用于网络环境下网页设计和数据 交换、管理的新技术,并已成为推荐标准。x m l 是一个精简的s g m l ,它 将s g m l 的丰富功能和h t m l 的易用性结合到w e b 应用中。x m l 是用结构 化的办法处理过去认为难以处理的非结构化的信息。x m l 是创建文档结构 的工具,而不单是将结构用于界面显示,它所创建的文档结构可以使管理 系统精确地识别信息所在位置,它能提供数据库格式,通过交换格式以及 其他应用走进所有数据处理程序。x m l 保留了s g m l 的可扩展功能,比 h t m l 强大的多,它不再是固定的标记,而允许定义数量不限的标记来描 述文档中的资料,允许嵌套的信息结构。h t m l 指示w e b 显示数据的通用 方法,而x m l 提供了一个直接处理w e b 数据的通用的方法,特点如下。 ( 1 ) 具有良好的自描述性x m l 是一系列定义文档元数据的规则集合, 能够描述信息本身的含义,使得数据信息可以精确检索和过滤。 ( 2 ) 查准率更高x m l 以一种标准化的方式来建立数据表示结构,而将 具体标记的定义留给了用户,使得标识能对新事物或生僻事物迅速做出反 应,比较灵活,也使标识能更加准确地对内容进行揭示,有助于全文检索 中正确识别文字内涵。 ( 3 ) 可扩展性好x m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仙居拓展活动方案
- 浙江省宁波市镇海区2023-2024学年四年级下学期数学期末试卷(含答案)
- 令牌抽奖活动方案
- 以自我为中心活动方案
- 仪态展示活动方案
- 任务激励活动方案
- 2024年贵州省高考历史真题试卷(含答案)
- 企业EAP活动方案
- 企业五四植树活动方案
- 企业党员示范岗活动方案
- 人教版六年级语文下册期末摸底考试及答案
- 中国大学mooc《分子生物学实验(北京师范大学) 》章节测试答案
- 化验室6S管理培训
- 教师口语艺术智慧树知到期末考试答案2024年
- 药品偏差处理程序
- 消防系统联动检测及检修方案
- 2024年国家能源集团宁夏煤业公司招聘笔试参考题库含答案解析
- 公立医院绩效考核微创手术目录(第2版)
- 华鲁恒升六定全员考试安全环保试题库1
- 老年人中常见的消化系统疾病及预防措施
- 钢琴音乐会的邀请函
评论
0/150
提交评论