(计算机应用技术专业论文)联合数字图书馆信息服务的关键技术研究.pdf_第1页
(计算机应用技术专业论文)联合数字图书馆信息服务的关键技术研究.pdf_第2页
(计算机应用技术专业论文)联合数字图书馆信息服务的关键技术研究.pdf_第3页
(计算机应用技术专业论文)联合数字图书馆信息服务的关键技术研究.pdf_第4页
(计算机应用技术专业论文)联合数字图书馆信息服务的关键技术研究.pdf_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

鳖鱼墼兰璺兰堕堕璺坐堡塑茎型型塑翌堡翌塑矍一 摘要 本文研究联合数字图书馆的信息服务技术,力求合理地对各类海量数字信息进行组 织、存储、检索和访问,并且有效地利用互联网的优势向用户提供海量数字信息服务。 本文首先研究了联合数字图书馆信息服务的基础构架,它提供联合数字图书馆信息 服务所必须的基本功能,即一组核心服务;并详细阐述了联合数字图书馆的数字对象体 系结构。数字对象体系结构提供对分布式数字对象的持久保存、安全访问、管理以及索 引服务,从而使联合数字图书馆中的海量分布式数字资源成为用户的知识源泉。 数字对象体系结构中的信息检索技术具有挑战性,其发展趋势为:采用人工智能技 术对分布式的联合数字资源进行语义检索。本文重点研究了这方面的若干关键技术,其 中包括:联合信息检索中的搜索引擎选择;基于贝叶斯网络模型的智能信息检索技术; 个性化信息服务。 , f本文的主要研究成果如下: ( 1 ) 采用关联规则发现的方法挖掘术语之间的语义概念关系,提出了四种高效地计算术 语间条件概率的方法,将这些语义概念关系存储于信息检索系统的贝叶斯网络模型 中,从而支持基于语义概念的信息检索。 ( 2 ) 引入相关术语集来描述资源的内容,并对术语间相互独立的假设进行改进,从而提 高联合信息检索中搜索引擎选择的精确度和减少搜索引擎选择时的计算量。该描述 方法为:用关联规则发现的方法得到相关术语集,存储相关术语集中的术语及其出 现频度,通过得到术语间的相关关系来提高搜索引擎选择的精确度。 ( 3 ) 采用基于知识和基于机器学习相结合的方法进行用户兴趣建模,其中包括采用多个 特征向量表示用户的兴趣模型,以及提出了将用户的相关反馈信息和页面访问挖掘 的方法相结合更新用户兴趣模型,从而快速、准确地发现用户的兴趣,并且将搜索 结果结合用户兴趣模型进行分类和排列。 ( 4 ) 提出了基于贝叶斯网络模型的用户兴趣联合推送方法,它利用贝叶斯网络模型表示 术语间的条件概率和概念语义关系,预测不同用户兴趣的相似度以及用户兴趣模型 和文档间的概念语义相似度,因此可以根据具有相似兴趣用户的访问信息主动推送 信息,从而使用户方便地从联合数字图书馆中获得所需的高质量内容。 继续深入研究联合数字图书馆中的基于语义概念的信息检索和导航 谢补性化服务仍将是迪很有前景的引人入胜的课题。力一y 一 以及更精确地 关键词 毯佥塑主圈盘馆,数圭过錾佳丕结构,殂吐勘圈络摸型,关联规则发现, 虽宝基趣模型一 壁鱼墼兰鬯! ! 堕笪星堡鱼堕茎丝彗塑墅羔型婴翌兰一 r e s e a r c ho nk e yt e c h n i q u e s o fi n f o r m a t i o ns e r v i c e si nf e d e r a t e dd i g i t a l l i b r a r v o u j i e ( a p p l i e dc o m p u t e rt e c h n o l o g y ) d i r e c t e db yl i ns h o u x u n t h ei n f o m a t i o ns e n ,i c e s i nf e d e r a t e d d 培i t a ll i b m r y a d 出e s s e di nm i s p a p e r a r e a s s o c i a t e dw i 也t h es t o r a g e ,r e t r i e v a l ,d i s c o v e r y ,a n du s a g eo fe n o r m o u sd i s t r i b u t c dd 电i t a l o b j e c t so n t h ei n t e m e tr e a s o n a b l ya 1 1 de 仃e c t i v e l y i nt h i st h e s i s ,m ei n f h s n l l c t u r eo fi n f o 舯a t i o ns e r v i c e si nf e d e r a t e dd i g i t a ll i b m r yi s p r e s e n 协d i ti sc o m p o s e do fm e s e to fs e n ,i c e st h a ta r en e c e s s a r yt op m v i d eb a s i cd i g i t a i l i b r a r vf u n c t i o n a l i 饥w h i c ha r ec a l l e d c o r es e r v i c e s a sa ni n 疗a s t l l l c t u r eo fi n f o n i l a t i o n s e r v i c e si nf e d e r a t e dd i g i 协l l i b r a r y ,也ed i g i t a lo b j e c ta r c h i t e c t u r ei sd e s c 曲e d ,w h i c hp r o v i d e s m em e c h a l l i s mf o rp e r m a n e n ts t o m g e ,s e c u r ea c c e s s ,m a l l a g e m e n ta n di n d e xt od i g i t a lo b j e c t s , t h e r e f o r et h ed i s 仃i b u t e de n o r m o u sd i g i t a lr e s o l l r c e si nf e d e r a t e dd i g i t a ll i b r a r yc a nb e t r a l l s f o 珊e di m o k n o w l e d g e f o ru s e r s t 1 1 ei n f b n n a t i o nr e 仃i e v a lj nd j 垂t a lo b j e c a r c h i t e c t i l r cj sac h a l l e n 昏n gt o p i c ,w h o s en e n d i ss e m 枷ci n d e xt of c d e r a t e da i i dd i s 硒b u t e dr e s o u r c e sb a s e do na it e c h n o l o 科s o m ek e y t e c l h l i q u e s f o rt h e 仃e n da r cp r c s e n t e di nt h i s p 印e r ,i n c l u d i n gs e a r c he n g i n es e l e c t i o n i n f e d e r a t e di n f o 彻a t i o nr e t r i e v a l ,i n t e i l i g e n ti n f o n n a t i o nr e t r i e v a ib a s e do nb a y e s i a nn e t w o r k m o d e l ,a n dp e r s o n a l i z e di n f o m a t i o n s e r v i c e s t h em a j nc o n t r j b u t i o n sa r ed e s c “b e da sf o l l o w s : ( 1 ) t b es e m a l l t i cm e a 力j n g s 砌0 n g t h et e 舢sa r em j n e db y 瑚e a n so fa s s o c j a t j o nr u 】e s d i s c o v e r ya n df o u re f f e c t i v em e t h o d so fc o m p u t i n gt h ec o n d i t i o n a lp r o b a b i l i t i e sa m o n g t e 咖sa r cp m p o s e d t h es e m a n t i cm e a n i n g sa r es t o r e di nt h eb a y e s i a nn e t w o r k m o d e l ,s o 协ei n f o n n a t i o nr e t r i e v a ls v s t e mb a s e do nb a v e s i a nn e t w o r km o d e lc a na c c u r a t e l vs e a r c h i n f o r m a t i o na c c o r d i n gt ot h es e m a i l t i cm e a n i n go f u s e r s q u e r y ( 2 ) a s t a t i s t i c a lm e t h o db a s e do nr e l e v a n c et e m l st od e s c r i b er e s o u r c ei sd u tf o n v a r d ,w h i c h i m p r o v e st h em e t h o db a s e do nt h eh y p o t h e s i so fi n d e p e n d e n c ea m o n gt e m s t h e r e f o r e , t h ea c c u r a c yo fs e a r c he n g i n es e l e c t i o ni nf e d e r a t e di n f o m a t i o nr e t r i e v a li si m p r o v e da n d m e c o n 叩l e x i 哆o fc o m p u t a t i o nt os e l e c tt h es e a r c he n g i n e si sd e c r c a s e d t h em e t h o di s i m p l e m e n t e da sf 0 1 l o w s :a r e rt h er e l e v a n c et e 咖sa r em i n e db ym e a n so fa s s o c i a t i o n n 1 1 e sd i s c o v e 搿,t h e s et e 肌sa n dt 1 1 e i r 厅e q u e n c i e sa r es t o r e d ,s ot h ea c c u r a c yo fs e a r c h e n g i n es e l e c t i o nc a n b ei n l p r o v e db e c a u s eo ft h er e l e v a n c er e l a t i o n s h i p 枷o n gt h et e 瑚s i i i 壁垒塑兰望塑堕堕:垦望堑塑差壁垫查塑塑! 垒! ! ! 竺璺 一一一 r 3 1t h eu s e ri n t e r e s tm o d e li s c o n s t r u c t e db ym e a n so fk n o w l e d g ea n dm a c h i n e1 e a m i n g , w h i c hi sc o m d o s e do fs e v e r a lc h a r a c t e r i s t i cv e c t o r sa n d i su p d a t e d a c c o r d i n g t 0u s e r sl o g 疗l ea n du s e r sf e e d b a c k st ot h ed 培i t a lo b j e c t s t h e r e f o r et h eu s e r s i n t e r e s t sc a nb e c a p t u r e dq u i c k l y a n d a c c u m t e i y a t1 a s t ,t h e s e a f c hr e s u n sa r cs o r e da n dr a n k e d a c c o r d i n gt ou s e r si n t e r e s tm o d e l ( 4 ) t h ea s s o c i a t i o np u s ho fi n t e r e s t i n gi n f b r m a t i o nb a s e do nb a y e s i a nn e “r o r km o d e li s d e s c r i b e d ,i nw h i c h t h ec o n d i t i o m lp r o b a b i l i t i e sa n ds e m a n t i cm e a n i n g sa m o n gt e i m sa r e r e d r e s e n t e di nb a v e s i a nn e t w o r km o d e l t h e r e f o r et h es e m a n t i cs i m i i a r i t i e sb e t w e e n d i f 诧r e n tu s e r s i m e r e s tm o d e l sc a nb ec o m p u t e d ,a sw e l la sb e 艄r e e nu s e r si n t e r e s tm o d e l a n dd o c u m e n t t h ea s s o c i a t i o np u s ho fi n t e r e s t i n gi n f b n t l a t i o nb a s e do n b a y e s i a n n e t w o r km o d e lc a np u s hi n f o m l a t i o na c c o r d i n gt 0t h ed o c u m e n t st h a to m e ru s e r sw i t h s i m i l a ri n t e r e s t sh a v ea c c e s s e d ,s ou s e rc a ng e th i g hq u a l i t yi n f o r n l a t i o nf 的mf e d e r a t e d d i g i t a l l i b 蜘 t h ei n f o n l l a t i o n r e t r i e v a l ,n a v i g a t i o n a n da c c l l r a t e p e r s o n a l i z e ds e i c e sb a s e do n s e m a n t i c m e a i l i n g so f t e 咖si nf c d e r a t e d d i g i 诅1l i b r a r ya r ep r o m i s i n ga i l di n t e r e s t i n gs u b j e c t s k e y w o r d s :f e d e r a t e dd i g i t a l1 i b r a r y ,d i 百t a l o b j e c t 盯c h i t e c t u r e ,b a y e s i a nn e 撕o r km o d e l , a s s o c i a t i o nm l e s d i s c o v e r y ,u s e r ,si n t e r e s tm o d e l 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并 表示了谢意。 作者签名:耿藩 关于论文使用授权的说明 日期:力也缉朋7 日 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 名:殁滢聊繇研序缈嗍嘲锢 置 苎二兰型、_ 一 第一章绪论 在过去的十年中,计算机、网络以及通信得到了迅速发展,从而使得产生、处理、 传播数字信息的能力大大增加。过去的几十年中产生了大量的数字信息资源,而且数字 信息在存储传输和处理时比其他形式存储的信息更加方便,所以技术上需要一种系统技 术来管理海量数字信息资源。 本文所研究的联合数字图书馆的信息服务就是为了合理和有效的对各类海量数字 信息进行组织、存储、检索和访问,并且有效利用互联网的优势向用户提供海量数字信 息服务。 本章首先阐述研究背景、数字图书馆的真实含义、联合数字图书馆的功能及其体系 结构;然后讨论联合数字图书馆建设面临的技术挑战,数字图书馆的国内外研究现状, 以及联合数字图书馆信息服务的发展趋势;最后是本文的主要工作及论文内容安排。 1 1 研究背景 随着计算机、网络和通信的迅猛发展,因特网已逐渐深入到人们生活的方方面面, 从而使人们可以迅速获取分布在世界各地的信息。加之在过去的几十年中产生了大量的 数字信息资源,所以技术上需要一种系统技术来管理海量数字信息资源,并有效利用因 特网的优势向用户提供海量数字信息服务。 针对上述问题,美国科学家在9 0 年代初提出了数字图书馆( d i g i t a ll i b r a r y ) 的概念。 数字图书馆为人们提供教育科研、文化娱乐等各方面的信息和知识,使网络能切实成为 人们学习、生活和工作的得力工具。 数字图书馆在中国从1 9 9 8 年开始升温,在国家科技部的支持和协调下,国家设立 了数字图书馆重点项目“中国数字图书馆工程”。该项目最终目标是建设中国数字 图书馆系统,这将是一个由国内许多单位联手参与的大文化工程,目标是建立起一个跨 地区、跨行业的巨大文化信息资源网络,使之成为我国的“国家信息基础设施”和“国 家知识基础设臆”。 为了对中国数字图书馆工程的关键技术、体系结构以及应用系统的功能进行探讨和 研究,国家8 6 3 计划智能计算机系统主题专家组设立了国家8 6 3 计划课题c t 中国数字图 书馆示范系统”。“中国数字图书馆示范系统”是中国数字图书馆工程的技术准备和实践 基础。 本论文的工作是国家8 6 3 计划课题“中国数字图书馆示范系统”( 课题编号 联合数字图书馆信息服务的关键技术研究 8 6 3 3 0 6 一z d l l 0 3 ) 和计算所创新课题“高性能媒体服务器”的一部分。本文研究联合数 字图书馆的信息服务,即各类海量数字信息的组织、存储、检索、访问,并且有效利用 互联网的优势向用户提供海量数字信息服务。本文对数字图书馆的基础构架、信息检索 和个性化信息服务做了有益的探讨,具有前瞻性的理论和实践意义,从而在课题“中国 数字图书馆示范系统”结束后进行了继续研究。 中国数字图书馆示范系统以国家高性能环境为平台,研究数字图书馆的相关关键技 术,并以各级图书馆、博物馆、新闻出版社及其用户为应用服务对象,最终开发研制出 一套数字图书馆示范应用系统。该应用系统基于w e b 界面,它支持基于多媒体数据的 分布式开放数字图书馆技术框架。 中国数字图书馆示范系统由多媒体数据库、采编系统、互联网服务管理系统和安全 系统等构成,下图结合中国数字图书馆示范系统中的资源和功能比较详细而且直观地列 出了其功能流程。 高文1 9 9 9 】 图1 1 中国数字图书馆示范系统的功能流程图 系统提供十大支撑技术:数据采集与导入、自动分类、数据管理、全文检索、元数 苎二里堑堡 一 据检索、信息发布、版权保护、信息定制与推送、对象资源调度、网络与系统管理支撑 技术。 从软件体系结构的角度,系统的功能结构分为四个层面:数据资源层面、数据关联 整理与维护层面、应用核心计算层面和门户功能界面。 数据资源层面提供信息源的数字化存储与检索,其支撑技术是图像、文本、音频和 视频数字化技术、压缩与存储技术。其功能是将传统的多媒体资料转化为数字信息,为 上一层的应用提供信息源。 数据关联整理与维护层面的支撑技术是数字图书馆的数字对象体系结构。它的功能 是将分散在全国各地的数字化信息集中起来构成一个虚拟的、标准化的、而且具有优化 结构的相关有机体。 应用核心计算层面的支撑技术是以人工智能为基础的知识挖掘和管理技术,其功能 是充分发挥数字资源的优势,将其转化为用户的知识源泉。 门户功能界面的支撑技术是个性化服务和在线服务技术,其功能是创造传统图书馆 所不具备的多种服务项目,如网上教育、网上娱乐、网上新闻、网上办公、网上购物、 网上咨询和网上科研等。 中国数字图书馆示范系统提供一个友好、直观、方便、个性化和智能化的人机交互 界面,它提供给用户和图书馆管理员与数字图书馆各个层面交互的机会。它在此基础上 满足全国各地用户对数字图书馆中的信息进行快捷、高效和准确的检索,同时舒适地享 受上述信息服务内容。 本文研究联合数字图书馆的信息服务,即各类海量数字信息的组织、存储、检索、 访问,并且有效利用互联网的优势向用户提供海量数字信息服务。本文研究工作包括中 国数字图书馆示范系统的功能流程图中的:( 1 ) 资源关联和维护平台,即数字对象体系 结构。( 2 ) 用户管理中的用户兴趣建模。( 3 ) 信息检索和推送,包括个性化信息服务。 本文的研究内容是中国数字图书馆工程中的基础构架,并且作为联合数字图书馆的 一个必不可少的组成部分得到了继续研究。 下面首先介绍联合数字图书馆的概念和功能。 1 2 联合数字图书馆 现在不少人认为数字图书馆就是将现有图书馆中的图书资料数字化后上网,这是一 种误解,是把一个复杂的分布式异构海量多媒体信息管理系统看成一个简单的图书馆信 息管理系统。数字图书馆绝不仅仅是数字化的图书馆,它应该是文化产品的网络商务平 台,是国家数字资源组织、开发和利用的基础,是网络文化中心和网络文化的聚集地。 本文所提的联合数字图书馆在于强调数字图书馆的资源存放的分布式、多个团体和组织 壁鱼墼兰鬯兰! 壅星壁墨堕茎堡丝查竺墨一 独立地管理自己的资源,以及用户可以对所有这些资源进行统一查询。 1 2 1 数字图书馆的真实含义 数字图书馆是传统图书馆在信息时代的发展,它不但包含了传统图书馆的功能,向 社会公众提供相应的服务,还融合了其他信息资源( 如博物馆、档案馆等) 的一些功能, 提供综合的公共信息访问服务。 数字图书馆就是对有高度价值的图像、文本、语音、音响、影像、影视、软件和科 学数据等多媒体信息进行收集,进行规范性的加工,进行高质量的保存和管理,实施知 识增值,并提供在广域网上高速横向跨库连接的电子存取服务。数字图书馆将包括多媒 体在内的各种信息的数字化、存储管理、查询和发布集成在一起,使这些信息得以在网 络上传播,从而最大限度地利用这些信息。 高文1 9 9 9 由此可见,数字图书馆不仅仅是数字化的图书馆,它应该是文化产品的网络商务平 台,是国家数字资源组织、开发和利用的基础,是网络文化中心和网络文化的聚集地。 首先,数字图书馆是国家数字文化平台。其中包含的内容很多,它既可能是网上图 书馆,又可以是网上书店、音像店、文物店等,还可能是网上文化中心,等等。所有这 些,共同组成了个国家数字文化平台。 第二,数字图书馆还应该是一个国家数字教育平台。这并不是说数字图书馆可以取 代大学教育。通常人们在图书馆里是进行再教育,再学习,包括文化的学习、休闲的学 习以及各种各样的学习。因此,数字图书馆也应该提供这样的功能,成为网上业余教育 中心、在职教育中心、甚至趣味教育中心,很多家庭教育都可以在这里进行。 第三,数字图书馆也是一个国家数字资源中心。我们现在积累的数据越来越多,如 遥感数据、卫星数据、网上资料,从全局统一规划考虑,国家一定要有一个数字资料集 中管理的地方,把卫星图像资料、网上资料及其他数字资源的资料,甚至一些产品资料 保存起来,成为数字资料存储中心和数字资料处理中心。 1 2 2 联合数字图书馆的功能及其体系结构 联合数字图书馆( f e d e r a t e dd i g i t a ll i b r a r y ) 是一个由多家成员数字图书馆构 。 成的分布式异构海量数据管理系统,其成员数字图书馆包括地方图书馆、出版社和广播 电台等。这些成员数字图书馆在资源类型和访问界面上都可能有所不同,当用户需要查 找某信息资源时,虽然可以逐家访问各家成员数字图书馆,但在更多的情况下,用户 希望提出一次要求,其他的事交给联合数字图书馆完成,因此联合数字图书馆能将成员 数字图书馆中的资源联合起来,取长补短,为用户提供对所有成员数字图书馆中丰富资 源的统一查询。 4 簦兰望堕一 为了便于实现对分布式资源的统一查询,联合数字图书馆具有开放体系结构,开放 体系结构( o p e na r c h i t e c t u r e ) 的含义是数字图书馆的整个功能被划分为一组定义明 确的服务。这是因为数字图书馆的体系结构应该是基于模块化的,这是软件工程中一个 熟悉的原则。也就是说,联合数字图书馆所提供的服务应该作为独立的模块,或者构件, 分布在整个r n t e r n e t 上,并通过开放的协议互相通信。这种模块化带来的优势在于: 定制性:特定的数字图书馆可以根据其用户群的需要进行配置。 易升级性:每一种服务可以相对独立地发展。 可扩展性:可以发展新的服务类型,集成至整个服务的基础设施中,并利用已 有的服务类型。 具有开放体系结构的联合数字图书馆可以创建任何数量的成员数字图书馆,其中汇 聚了一系列的服务器,包括对象服务器、名录服务器、仓储服务器、索引服务器、汇集 服务器等。这些服务器实现了联合数字图书馆的核心服务功能,而它们的协议是这种汇 聚的粘合剂。具体地说,成员数字图书馆的功能汇集了来自其服务器的各种服务。但是 这并非表明成员数字图书馆的服务器是集中管理和共存的。服务器的加入是动态的,即 无需通知或者得到响应。 此外,具有开放体系结构的联合数字图书馆具有无限的扩展性,可以定义和实现新 的服务,加入该体系结构。当这些新服务定义后,它们可以并入已有的或者新的成员数 字图书馆中。 1 3 联合数宇图书馆建设面临的技术挑战 上节中笔者介绍了数字图书馆的概念以及联合数字图书馆的功能和体系结构,本节 将进一步详细地介绍联合数字图书馆建设所面临的技术挑战。 联合数字图书馆作为一个海量、异构的宽带多媒体网络数据管理系统,还有很多需 要进一步研究的技术问题。这些问题的解决将直接关系到数字图书馆建设的速度。本文 从七个方面讨论这些问题。 1 3 1 存储与压缩 海量的多媒体资源是数字图书馆的“物质”基础,数字图书馆提供对这些多媒体资 源的永久保存,使用户在任何一个地方都可以通过因特网浏览或检索到这些资源。 数字图书馆的信息包括文本、图像( 各类静止图像,如文档图像、静止视频、地理 及医用资源图像) 、音频和全运动视频等多媒体数据,因此,数字图书馆中的海量数据 管理系统是一个分布式、异构的多媒体数据库系统,它为存储、发现、检索和保存多媒 体对象提供了可靠、有效的服务。 5 壁垒墼兰望翌塑堕星里箜塑茎壁垫查竺塑 海量数据管理在存储和压缩方面要注意的问题有: 多媒体对象包含多媒体数据本身和多媒体元信息两部分,对多媒体数据的有效 存储和管理也应该将这两部分同时考虑。 多媒体对象的存储位置的改变不影响用户访问和检索该对象。 便于实现基于内容的检索和全文检索是在应用中必须考虑的问题。 不一定仅应用一种或同型的数据库系统,可以是多种异构的数据库系统。 采用异构多媒体数据库必须建立在互操作的基础上。 多媒体数据的存储需要巨大的空间,因此必须对多媒体数据进行压缩,然后保 存在数据库中,以降低库的成本,使库的规模保持在可管理的范围内。基于模 型的编码就是压缩方法之一。 数字图书馆中的仓储服务系统针对以上在海量数据存储方面需要注意的问题,将多 媒体数据及其元信息以数字对象的形式进行存储,该系统的功能就是存储、访问和管理 数字对象。关于仓储服务系统的具体阐述请见第2 _ 3 2 节。 另外,因为计算机的传统二级存储器( 主存储器和磁盘) 结构难以容纳庞大的数字 图书馆数据,数字图书馆中的海量数据有可能需要使用三级存储器( 主存储器、磁盘存 储器、光盘库或磁带库等第三级存储器) 来存储。 1 3 2 分类、索引以及检索 在图书馆中,分类与索引是检索的基础,分类方法也有各种学派和门类,并逐渐统 一到i s o 分类方法上。目前在计算机中,还没有统一的分类方法,这就向我们提出了一 个如何统一分类标准的问题。如果没有一个统一的索引方法和分类标准,开发计算机的 搜索工具就非常困难,需要针对不同的分类方法制作不同的搜索工具。 另外,我们所面临的数据类型也不同,如文本信息、地图信息、图像信息及视频、 音频、音乐等信息,对不同的内容,需要不同的分类体系和索引机制。而制定一个比较 好的分类方法、建立一个比较好的索引机制,将直接影响到后续能否开发出一个比较好 的检索工具。 对于检索,目前的主要挑战是“联合”和“智能”。联合信息检索能满足用户对由 多个团体管理的海量分布式信息进行检索的需要,其中的主要挑战为搜索引擎的选择以 及合并、排列搜索结果。对于这两个方面,目前并不存在个完美的解决方案,因此, 本文提出了基于相关术语集的联合信息检索,对原有的方法进行了改进,具体请见第三 啻。 智能信息检索能进行基于概念语义的检索,即理解用户的检索意图。其中采用自然 墨二蔓型、_ 一 语言接口方式的信息检索和提供语义概念检索服务的信息检索目前不存在最佳解决方 案,因而成为了最大的挑战。 因此,怎样做一个比较好的检索工具,使得提供给用户的信息恰恰是用户最需要的 ( 不需要的一条也没有) ,并加快搜索速度,也就是说,海量数据的搜索效率( 最优解) 与 速度是系统面临的最大挑战,其中包括中文搜索、图像搜索、语音搜索、智能搜索。 1 3 3 传输与保护 如今访问国内的站点和国外的站点速度有时较慢。国内站点慢的原因是处理速度太 慢,而国外站点慢的原因是因为带宽太窄了。因此,当用户提出一个服务请求时,为了 实现用最短的时间对用户的请求进行回答,有许多关于传输的问题需要解决,如带宽的 有效使用问题。 版权和知识产权的保护也是一个重要的问题,多媒体数据的保护包括版权保护和系 统安全性的保护。 数字图书馆中的所有信息都以数字化的形式进行贮存和展示,从而人们能够以极低 的成本来高速复制信息,且没有任何质量上的缺损。同样,这也使得第三者能够十分容 易地修改和使用这些受到版权保护的作品,无论他是否得到过版权所有者的许可。于是, 版权所有者们对于在数字图书馆中控制对其作品的商业化利用的能力极其关注,从而这 方面的研究也受到了极大的挑战。 版权保护是数字图书馆作为商业系统运行的前提。没有版权保护的手段,作者就不 可能允许数字图书馆经营者把自己的作品放到网上,投资者也不会把钱投到系统的建设 匕。 1 3 4 多语言问题 多语言问题是国家“8 6 3 ”计划一直在支持研究的项目,其中包括机器翻译问题、 多语言浏览器问题。现在已经有一些机器翻译和多语言浏览器方面的产品,但还不够完 善,这方面的研究需要继续进行。 1 3 5 工具与平台 由于数字图书馆的分布性、异构性、复杂性以及社会性,工具与平台成为一个最大 的挑战,其中包括总体结构标准、软构件技术、信息录入工具、搜索工具、知识挖掘工 具等问题。 壁鱼墼兰璺兰堕堕星墅墨塑耋塑墼堡笪壅一 关于数字图书馆信息服务平台方面的详细描述请见第二章。 1 3 6 标准 建设中国数字图书馆所面临的一个严峻事实是没有相应的电子图书标准、元数据标 准,以及多媒体信息标准。因此,在建设中国数字图书馆工程时,相关技术标准的研究 是非常重要的。 技术标准的草拟应该由信息产业界、图书情报界以及与标准相关的国内软件开发商 共同参与在标准讨论的同时开发一批建立在这些标准基础上的软件系统。迄今为止, 数字图书馆技术还没有这样一个公认的标准协议,因此技术标准的选择和参与制订对于 数字图书馆的建设至关重要。【高文1 9 9 9 】 1 3 7 开放性 首先,数字图书馆作为一个庞大的信息基础设施,必须考虑其长期行为,当出现新 的技术、体系结构、平台或者协议时,不可能把现有的应用全部抛弃,而只能将现有系 统不断进化。 其次,当由于其他社会因素而需要对数字图书馆进行结构重组时,只能通过对现有 系统的重组来进行,而不可能对整个系统进行重新设计和实现。 最后,作为信息上层应用的基础设施,组成数字图书馆的不同构件之间需要以多种 方式进行灵活、可靠的通信,以保证上层应用的正常运行。 因此数字图书馆必须具有开放体系结构,而且需要相应的分布式协同计算技术的支 持,系统的开放性是数字图书馆成功的必要条件。 系统的开放性应遵循以下原则:第一,统一性:不论哪种类型的图书馆都必须服从 整体协议;第二,分布式:不可能有一个中心,这是现今网络系统的基本点:第三,开 放式:内容必须具有开放性;第四,可扩展性;第五,要简单易行;第六,能比较充分 地利用现有信息的服务设施。 面对联合数字图书馆中的这些技术挑战,国内外学者对其进行了大量研究,数字图 书馆的研究现状如下: 1 4 国内外研究现状 数字图书馆是一个跨地区、跨行业的巨大文化信息资源网络;是“国家信息基础设 施”和“国家知识基础设施”:是一个研究、开发、应用和实践的重要领域。自从1 9 9 3 年美国克林顿政府提出“国家信息基础机构”行动计划,以信息产业带动美国经济高速 墅兰羔堕一 发展以来数字图书馆的研究受到了国内外政府和学者的广泛关注。其研究现状如下 1 4 1 国外研究现状 自1 9 9 3 年美国克林顿政府提出“国家信息基础机构”行动计划,以信息产业带动 美国经济高速发展以来,西方各主要发达国家及许多发展中国家纷纷制定自己的信息社 会发展计划,以求在2 l 世纪的知识经济的竞争中立于不败之地。在各国的信息化建设 中,均十分重视文化信息网的建设。其中以美国、加拿大、法国、英国、新加坡等国的 最为显著。 从1 9 9 4 年9 月开始,美国国家自然科学基金( n s f ) 、美国国防部高级研究计划署 ( 舭r p a ) 和美国国家宇航局( n a s a ) 共同支持数字图书馆预研工程d l i ( d i g i t a l l i b r a r i e si n i t i a t i v e ) ,该工程资助了六个子项目,分别由美国的六所著名大学来承 担,它们分别是斯坦福大学、卡内基一梅隆大学、加州伯克利分校、依利诺伊大学、密 西根大学、加州大学s a n t ab a r b a r a 分校。其具体研究情况如下: 密西根大学已经建立了数字图书馆,使用了智能代理技术,提供了一个操作模型和 一些访问信息的工具。 卡内基一梅隆大学建立了一个视频数字图书馆f o n n e d i a ,使用了自然语言处理、图 像理解、语言识别领域的研究成果来自动地为其中的信息材料建立基于内容和知识的检 索。 斯坦福大学研究异构信息源之间的互操作性,制定了i n f o b u s 协议,从而为多种服 务和信息源提供一致性的访问接口,并在此基础上开发s d l i p 互操作协议。 加州大学s a n t ab a r b a r a 分校研究建造地质空间多媒体信息的分布式数字图书馆所 需面对的一些关键问题。 加州大学伯克利分校的研究内容包括:对图像库中的图像进行基于内容的分类和检 索;对w e b 进行自动的分类和检索:文档识别、数据索引和访问协议:分布式搜索、 新的文档模型等。 康奈尔大学研究能够存储和检索各种数据的系统。另外,他们还研究安全数据库中 的扩展性、复杂查询的查询优化、在复杂数据类型上的数据挖掘以及在数据库系统中支 持半结构化数据等问题。 a & m 大学数字图书馆研究中心在w c b 访问的在线开发和应用方面起着领导作用, 同时提供一些实用、有效的新技术。它提供些专门技术使各种各样的媒体变为有用的 数字信息,如图书和期刊上的生物标本、博物馆的钱币等。 d l i 一期工程历时4 年,于1 9 9 8 年8 月底结束,取得了一定的成果,引起了世界范 围内各国政府和有关学者的关注。在d l i 的影响和带动下,美国的许多著名大学都建立 9 壁垒望兰望兰堕笪星望墨塑苎壁垫查堑壅一 了专门进行数字图书馆领域研究的实验室或研究中心,也为研究生开设了介绍该领域技 术发展的专业课,如德州大学和普林斯顿大学等。d l i 二期工程从1 9 9 9 年开始,包括三 十多个项目,涵盖了数字图书馆的体系结构、多媒体信息处理技术、网上出版和编辑、 数字地球、智能信息检索、图书馆分类体系等技术领域,这些项目系统而深入地对数字 图书馆的各个方面进行了研究。 d l i 法国若斯潘政府提出的题为为法国进入信息化社会做好准备的实现社会信息化 政府行动纲领中,将文化信息网的建设列为6 个优先发展的主题之一,其要点涉及文化 领域的各含方面。2 0 0 0 年投入使用拥有3 0 0 0 多项资料节目的节目服务库,同时增加4 0 0 个同文化内容相关的新网址,供用户查阅和调用。同时法国还启动了另一重大工程 法国文化遗产数字化后联接到互联网上,其上网内容包括著名的博物馆和多种文化设 施,还有5 万册不存在著作版权问题的著作等。 f r a n c e 在1 9 9 6 年5 月公布的建设信息社会:使加拿大进入2 l 世纪的行动计划中,加 拿大政府十分重视在信息内容上强调加拿大文化和特色。该国设立了“文化产业发展基 础”项目,协助厂商将文化产品数字化。为方便加拿大的文化产品和文化尽快上网,1 9 9 7 年遗产部和工业部联合成立了“数字化工作小组”,统筹全国的数字化工作。同时加拿 大还计划修改版权法,解决多媒体、因特网发展带来的知识产权问题。 c a n a d a 英国政府于1 9 9 7 年提出了雄心勃勃的英国“全国学习网”计划,并于1 9 9 9 年正式 推出有关示范项目。“全国学习网”主要由一系列拥有丰富教育内容的专门网址互联而 成,并使全国的大专院校、图书馆、博物馆与“全国学习网”连通,从而使这些机构的 资源能够更好更充分地被中小学利用,同时也使“全国学习网”成为继续教育和职业培 训的一个主要渠道,进而扩大整个社会获取知识和接受教育的机会和途径,达到创造一 个网络化“知识社会”的目标。 e u r o p e a nc o 唧u n i t y 各发展中国家也在加速文化信息网的建设。新加坡1 9 9 7 年开始综合网商品化建设, 计划用一年的时间将学校图书馆和社区中心与所有家庭和公司连接。突尼斯政府决定从 9 8 年3 月开始,将所有公共图书馆有计划地同因特网联网,这一联网行动还将扩大到高 等教育机构、科研单位以及全部中、小学校。 1 4 2 国内研究现状 国内数字图书馆的工作基础可追溯到多年以前开展的图书馆自动化。中国国家图书 馆的自动化工作起步于7 0 年代中期。1 9 8 9 年大型计算机综合管理系统启动。1 9 9 9 年2 月,采用先进的干兆位以太网络技术,开通了拥有1 6 7 3 个信息节点的馆域网,将各个 应用予系统连接起来。在互联网建设方面,开通了国际互联网中国国家图书馆站点,该 站点与国务院办公厅、清华大学、北京大学等实现了l o o m 速率的专线联接;与中国计 算机公用网、中国教育科研网、中国科技网及北京有线电视网、国家广播电影电视总局 全国有线电视网等实现了高速互联。 0 蔓二兰笪堡 _ 一一一 我国的国家图书馆和新闻出版社在数字化方面已有数字图书馆原型系统,而且8 6 3 重点支持的若干与数字图书馆相关项目已经完成或正在研究之中。中国数字图书馆发展 战略组已在法律、技术标准等方面取得许多成果,特别是9 9 数字图书馆论坛,通过在 业务、技术、法律、运营等方面的探讨,为数字图书馆工程的开展提供了良好基础。 我国各图书馆在数字图书馆方面的研究现状如下: 国家图书馆已建成一个文献数字化加工中心,目前已经完成了联机公共目录馆藏查 询系统,用户能在因特网上对馆内书目、期刊名和音像资料等进行联机查询。在科研项 目方面,国家图书馆合作完成了“基于特征的多媒体信息检索系统”、“s g m l 的图书馆应 用”、“以中国高速信息示范网为运行环境的中国数字图书馆应用系统”、“知识网络一数 字图书馆系统工程”和“中关村科技园区数字图书馆群软课题研究”等若干科研项目的 开发与研究,并承担若“网上连续出版物研究”、“数字图书馆体系结构的研究”、“数字 信息资源组织工具的研发与应用”等项目的研究。 国家图书馆 辽宁省图书馆于1 9 9 7 年在全国省级公共图书馆中首家实施了数字化图书馆工程。辽 宁省图书馆采用美国i b m 公司最新推出的数字化图书馆技术平台,组织丰富的馆藏文献 资源,经过两年的建设,形成了辽图数字图书馆独有风格。其特色描述如下:( 1 ) 资源 类型多样,包括文本、图像、多媒体等。( 2 ) 检索方式多种,功能智能快捷,主要有 酱通检索、全文检索、图像查询、高级检索等。( 3 ) 利用水印技术,保护知识产权。 辽 宁省图书馆 1 9 9 4 年我国台湾地区制定了建设“亚太智能信息服务中心”的计划,该计划耗资上 百亿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论