已阅读5页,还剩57页未读, 继续免费阅读
硕士论文-对等网环境下数字图书馆资源共享框架研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西安电子科技大学 硕士学位论文 对等网环境下数字图书馆资源共享框架研究 姓名 马亭 申请学位级别 硕士 专业 图书馆学 指导教师 赵捧未 20100101 摘要 摘要 数字图书馆是传统图书馆与现代电子信息技术结合的产物 具有资源数字化 传输网络化等特点 而数字图书馆最明显的功能特点就是资源共享 然而 馆藏 数字化资源所具有的动态性 异构性 分布性等特点 为其功能实现造成了很多困 难 并且随着信息量的急剧增加 传统的C S 模式存在的问题也逐渐暴露出来 主 要有 服务器单点失效 负载均衡和可扩展性问题 时滞问题 馆际之间的信息 孤岛现象严重等等 在这样背景下笔者提出将对等网技术引入进来 它打破传统 C S 模式 每节点在网络中地位都是对等的 既充当服务器 同时也共享服务 由 于各节点在功能上是平等的 具有相同的责任和能力协同完成任务 实现对等节 点之间信息资源 处理器资源 存储资源的全面共享而无需依赖于集中式服务器 的支持 从而消除信息孤岛和资源孤岛 本文首先阐述了数字图书馆的概念 特点及典型的体系结构 同时介绍了对 等网络技术的相关概念 总结归纳了对等网应用于数字图书馆研究现状 在此基 础上 本文提出了一种对等网环境下的数字图书馆资源共享框架 并对框架的结 构 模块做了详尽的阐述 另外 论文对此框架下的关键问题进行了深入的分析 和研究 详细研究了混合多层的P 2 P 网络下的异构模式元数据整合方案 分为三 类情况 相同元数据格式资源之间的整合 同一社区内不同元数据格式之间的整 合 不同社区内不同元数据格式的资源整合 本文提出的对等网环境下数字图书馆资源共享框架及其元数据解决方案 只 是在理论上提供了可能 其实现有待进一步的研究 关键词 对等网数字图书馆资源共享 A b s t r a c t A b s 仃a c t D i g i t a lL i b r a r y i sac o m b i n a t i o no ft r a d i t i o n a lL i b r a r i e sa n dm o d e me l e c t r o n i ca n d i n f o r m a t i o nt e c h n o l o g y w i t hc h a r a c t e r i s t i c so fd i g i l t a lr e s o u r c e sa n dt r a n s m i s s i o n n e t w o r k w h i l et h em o s to b v i o u sf e a t u r e so fi ti st h es h a r i n go fr e s o u r c e s H o w e v e r m a n yd i f f i c u l t i e st oi t sf u n c t i o nr e a l i z a t i o na r ec a u s e db yt h ec h a r a c t e r i s t i c so ft h e c o l l e c t i o n o fd i g i t a lr e s o u r c e sw i t ht h ed y n a m i c h e t e r o g e n e o u s d i s t r i b u t e d A n dw i t h t h ed r a m a t i ci n c r e a s ei nt h ea m o u n to fi n f o r m a t i o n t h ep r o b l e m so ft r a d i t i o n a lC S m o d ea r eg r a d u a l l ye x p o s e d m a i n l yi n c l u d i n gs e r v e rf a i l u r e l o a db a l a n c i n ga n d s c a l a b i l i t yp r o b l e m s l a gi s s u e s I n f o r m a t i o nI s o l a t e dI s l a n db e t w e e nl i b r a r i e sa n do t h e r i s s u e I nt h i sc o n t e x t n e wn e t w o r km o d e li sd e s p e r a t en e e d e db yD i g i t a lL i b r a r yr e s o u r c e s h a r i n g I tb r e a k st h et r a d i t i o n a lC Sm o d ea n de a c hn o d ei se q u a li ns t a t u s w h i c ha c t s a sb o t hc l i e n ta n ds e r v e r S i n c ea l lt h en o d e si nt h en e t w o r ka r ee q u a l t h e yh a v et h e s a m er e s p o n s i b i l i t i e sa n dc a p a b i l i t i e st oc o m p l e t ec o l l a b o r a t i v et a s k s S Ot h e yC a n a c h i e v et h ef u l ls h a r i n go fi n f o r m a t i o nr e s o u r c e s p r o c e s s o rr e s o u r c e sa n ds t o r a g e r e s o u r c e sb e t w e e nn o d e sw i t h o u th a v i n gt or e l yo ns u p p o r to fac e n t r a l i z e ds e r v e r i n t h i sw a yt oe l i m i n a t et h ei s o l a t e dI n f o r m a t i o ni s l a n d sa n dr e s o u r c ei s l a n d T h i st h e s i sf i r s td e s c r i b e st h ec o n c e p to fd i g i t a ll i b r a r i e s c h a r a c t e r i s t i c sa n dt y p i c a l a r c h i t e c t u r e sa n dt h e ni n t r o d u c e sc o n c e p t so fP 2 P f i n a l l ys u m m a r i z e dr e s e a r c ho fP 2 P u s e di nt h eD i g i t a lL i b r a r y O nt h a tb a s i s t h et h e s i sp u t su pf o r w a r dw i t haf r a m e w o r k o fR e s o u r c eS h a r i n gf o rD i g i t a lL i b r a r yB a s e do nP e e r t o P e e ra n dt h e nm a k e sa d e t a i l e da n a l y s i so ft h ef r a m e w o r ks t r u c t u r ea n df u n c t i o n a lm o d u l e sa sw e l l A f t e rt h a t a ni n d e p t ha n a l y s i sa n ds t u d yo ft h ek e yi s s u e so ft h i sf r a m e w o r ki sa l s od e m o n s t r a t e d i nt h i st h e s i s T h ea u t h o rm a k e sar e s e a r c ho ft h em e t a d a t ai n t e g r a t i o ns o l u t i o n su n d e r m i x e dm u l t i t i e rh e t e r o g e n e o u sm o d e lo fP 2 Pn e t w o r k s T h ei n t e g r a t i o ni sd i v i d e di n t o t h r e e c a t e g o r i e s i n t e g r a t i o n o fs a m em e t a d a t af o r m a t i n t e g r a t i o no fd i f f e r e n t m e t a d a t af o r m a ti nt h es a m ec o m m u n i t y i n t e g r a t i o no fd i f f e r e n tm e t a d a t af o r m a t i n t e g r a t i o ni nt h ed i f f e r e n tc o m m u n i t i e s I nt h i st h e s i s af r a m e w o r ko fR e s o u r c eS h a r i n gf o rD i g i t a lL i b r a r yB a s e do n P e e r t o P e e ra n di t sm e t a d a t as o l u t i o na r ep r o p o s e d w h i c ha r eo n l yt h e o r e t i c a l l y f e a s i b l ea n dn e e df u r t h e rs t u d yf o rp u t t i n gi n t op r a c t i c e K e yw o r d s P 2 Pd i g i t a ll i b r a r y r e s o u r c es h a r i n g 西安电子科技大学 学位论文独创性 或创新性 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果 尽我所知 除了文中特别加以标注和致谢中所罗列的内容以外 论文中不 包含其他人已经发表或撰写过的研究成果 也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意 申请学位论文与资料若有不实之处 本人承担一切相关责任 本人签名 刍壹 日期 丝 三 篁 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定 即 研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学 学校有权保 留送交论文的复印件 允许查阅和借阅论文 学校可以公布论文的全部或部分内 容 可以允许采用影印 缩印或其它复制手段保存论文 同时本人保证 毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学 保密的论文在解密后遵守此规定 本学位论文属于保密 在 年解密后适用本授权书 本人签名 望盔 本人签名 望 导师签名 日期 型 垒墨 第一章绪论 第一章绪论 1 1 选题背景 2 0 世纪9 0 年代初 美国科学家率先提出了数字图书馆 D i g i t a lL i b r a r y 的概念 到2 0 世纪末 在全球信息高速公路 I n f o r m a t i o nS u p e rH i g h w a y 建设的热潮中 数 字图书馆成为许多发达国家基础设施建设的焦点之一 l 今天 随着数字技术 网 络技术 信息技术的快速发展和广泛应用 数字图书馆以其高技术含量的特性及 其网络化 全球化的互联竞争特点已经成为现代化图书馆的发展趋势 数字图书 馆的建设已作为评价一个国家信息基础水平的重要标志 世界各国都在努力发展 数字图书馆 积极制定本国和多国联合的数字图书馆研发项目 创造和实现在网 络环境下 利用数字化的信息及其技术进入图书馆系统提供有效的服务 实现信 息的获取 信息的应用 信息的处理超越地域和时空的限制 形成馆际间资源共 享 实现图书馆信息资源利用的最大化 是新时期数字图书馆发展中追寻的新目 标 数字图书馆 D i g i t a lL i b r a r y 是什么 数字图书馆是新生事物 目前 在图书馆 界甚至整个学术界还没有一个被广为接受的定义 笔者认为数字图书馆是一个数 字化的信息系统 它将分散于各种载体 不同地理位置的信息资源以数字化方式存 储 以网络化方式相互连接 提供及时利用 实现资源共享1 2 J 目前I n t e m e t 上存在许 多具体的数字图书馆的应用实例 虽然它们的数字化资源可以是分布式存放的 但仍需集中式的管理 更新和维护 属于集中化的系统 主要以C S C l i e n t S e r v e r 的模式与用户交互 对等网 P 2 P P e e r T o P e e r 是什么 对等网是一个用于资源共享的p e e r 群 体 其中每个p e e r 向群体提供资源 同时作为回报从中获取所需资源 也就是说 网络中没有专用的服务器 每一台计算机的地位都平等的网络 早在2 0 0 0 年 P 2 P 就成了一些技术性网站上讨论的热门话题 新术语s e r v e n t s 源自s e r v e r c l i e n t 随 着P 2 P 的出现而诞生 s e r v e n t s 很好地描述了P 2 P 网络中每个结点的对等关系 对 等结点既是资源的获取者 也是资源的提供者口J P 2 P 使得互联网上的信息所处的 位置不再是问题 是信息共享 协作的理想技术 很大程度上来说 数字图书馆属于资源共享系统 它完全可以建立在健壮的 易扩充的P 2 P 对等网络上 以克服现有C S 模式的数字图书馆的固有缺陷 服务 器单点失效 负载均衡和扩展性弱等等 本文在深入分析P 2 P 技术的基础上 针对当前数字图书馆体系框架存在的不足 提出一种基于P 2 P 技术的数字图书馆资源共享框架模型 该框架以混合式的P 2 P 2 对等网环境下数字图书馆资源共享框架研究 结构为基本网络架构 打破以服务器为中心的传统模式 克服服务器单点失效 负 载均衡和异构仓储互操作等问题 1 2 1 国外研究现状 1 2 国内外研究现状 P 2 P 技术具有广泛的发展前景 目前国外将P 2 P 与数字图书馆相结合的研究 主要集中在基于P 2 P 的数字图书馆数字资源长期保存研究 基于P 2 P 架构的数字 图书馆原型研究 基于P 2 P 的数字图书馆的异构模式互操作和元数据整合研究 基于P 2 P 的数字图书馆中的信息检索研究等四个方面 l 基于P 2 P 的数字图书馆数字资源长期保存研究 L O C K S S L o t so fC o p i e sK e e pS t u f fS a f e 它是由美国S t a n f o r d 大学图书馆发 起并组织实施的 4 1 目的是通过建立出版商与图书馆之间的协作关系 允许图书馆 在本地收藏 管理电子期刊 图书馆订阅期刊的电子版 并提供用户服务的信息系 统 L O C K S S 主要致力于解决电子期刊的永久保存与利用问题 它通过建立出版 商与图书馆 图书馆与图书馆之间的协作平台 提出了从电子资源出版 发布到 永久性保存与利用等一整套解决方案 堋J 州p用 川 图1 1L O C K S S 系统C a s h e s 网状分布示意图 L O C K S S 采用P 2 P 分布式保存策略是一种层次模型 L O C K S S 系统包含一个 重要的名词 C a c h e s 一个C a c h e s 就是本地图书馆内的一台存储电子出版物的计 算机 一个图书馆可以拥有多个C a c h e s 一个完整的L O C K S S 系统包括三部分内 容 顶层的出版商数据库 中间的图书馆C a c h e s 点 底层的用户群 C a c h e s 与出 版商网站之间实现初始电子资源的采集 即图书馆根据授权从出版商网站采集电 子资源 中间层C a c h e s 既包括同一图书馆内部的多个C a c h e s 也包括不同图书馆 间的C a c h e s 各个C a c h e s 之间彼此互连 呈网状结构分布 这种结构实现了C a c h e s 间互相备份支持的目标 底层是用户 每个C a c h e s 都提供本地服务 也可以将多 第一章绪论 个C a c h e s 集成后为特定的用户群提供服务 如图1 1 所示 5 在技术实现上 L O C K S S 采取灵活的 可扩展的3 层结构 基础平台 后台 程序和P l u g i n 基础平台是一个分布式操作系统环境 用户安装非常简单 后台 是L O C K S S 系统运行管理 调度层 在操作系统的支持下 实现采集任务调度 资源的本地存储 信息损坏检测与修补 用户服务代理以及管理员界面等全部功 能 P l u g i n 是L O C K S S 系统采集期刊资源的基本配件 针对不同的出版商及电子 期刊 L O C K S S 开发不同的P l u g i n 以实现对特定网站电子资源的搜索与采集 L O C K S S 基本技术策略 L O C K S S 采取点 C a c h e s 至l J 点 C a c h e s 的通信方式 C a c h e s 预先爬行w e b 获取相关新出版的信息 和普通C a c h e s 不同的是其内容不会 被冲消 F l u s h e d C a c h e s 协同工作 采用P 2 P 的轮询和评价机制 定期检查存储 内容的完整性 一旦发现问题 可以通过其他L O C K S S 系统修复内容 L O C K S SC a c h e s 之间通过合作自动检验并修复损坏的内容 C a c h e s 资源被永 久性审核 无需人的干预 使得这个系统既精力充沛又安全 其内容可以是H T T P 传递的任何格式的信息 C a c h e s 之间起到内容互相备份的作用 C a c h e s 越多 整 个系统的安全系数就越高 L O C K S S 项目在解决图书馆与出版商合作 并且保护各自利益方面是一个很 好的尝试 不过与出版商的合作并不完善 根据L O C K S S 官方网站提供的信息 多数国际学术性出版商没有加入该联盟 现在各图书馆基本上还没有利用此系统 向用户提供服务 将来提供服务时会遇到什么问题 现在很难预测 2 基于P 2 P 的数字图书馆原型研究 英国兰开斯特大学的P 2 P 4 D L 项目建立了一个基于P 2 P 架构的数字图书馆系 统 该系统采用了半集中式网络结构 即有一个索引节点 通过提供一组一般的面 向应用的服务 使得用户可以更加有效地利用网络资源 并免去用户理解底层P 2 P 技术的负担 6 J 德国卡尔斯鲁厄大学和荷兰阿姆斯特丹大学联合开发的B i b s t e r 系 统是一个帮助计算机科学领域内的研究者管理 检索 共享书目元数据的P 2 P 系 统 该系统使得用户能够将自己的书目元数据导入本地节点库 用户也可以向其 他节点发出查询来检索书目元数据 7 1 德国杜伊斯堡一埃森大学的H e n r i k N o t t e l m a n n 等人采用S O A 和层次化的混合P 2 P 架构建立了一个名为P e p p e r 的数字 图书馆原型系统 该系统中的节点分为超级节点 s u p e r p e e r 或h u b 和叶子节点 1 e a f 或数字图书馆节点 两类 8 1 在超级节点中存储着其他超级节点和叶子节点服务的 注册信息 在叶子节点中存储着系统中的大部分服务 这些服务可以通过名称来 检索和调用 希腊克利特技术大学的C h r i s t o sT r y f o n o p o u l o s 等人提出了一个基于 层次化的混合P 2 P 架构的数字图书馆L i b r a r i n g 他们使用了D H T 来获得系统的伸 缩性和容错能力1 9 美国麻省理工的J e r e m yS t r i b l i n g 等人针对搜索引擎C i t e S e e r 的不足 设计并开发了一种基于D H T 的分布式合作数字图书馆系统O v e r C i t e 用 4 对等网环境下数字图书馆资源共享框架研究 以代替C i t e S e e r 1 0 J O v e r C i t e 可以利用多个节点上的资源为计算机科学领域内的研 究者提供文档检索服务 实验结果表明 与原来的集中式系统C i t e S e e r 相比 O v e r C i t e 可以显著地提高系统的查询性能和存储能力 F r e e L i b F r e e L i b P e e rT oP e e rD i g i t a lL i b r a r y 项目由美国国家科学基金会 N a t i o n a lS c i e n c eF o u n d a t i o n 资助 O l dD o m i n i o n 大学数字图书馆研究组 O D U D i g i t a lL i b r a r yR e s e a r c hG r o u p 研究的 该项目是比较有代表性的 目前正在研究 之中 1 1 i F r e e L i b 项目是一种基于P 2 P 网络的新型数字图书馆试验系统 它以现有O A I P 2 P 以及社会性网络的研究成果为基础 将数字资源的发布 搜索 管理和维护分 散到基于P 2 P 的数字图书馆网络中去 既降低数字图书馆的整体管理和维护成本 又能够保持对多样的数字社区动态演变的支持 1 2 F r e e L i b 的结构体系以基于O A I 模型的P 2 P 结构为主 在此结构中 一个节点 既是O A I 服务提供者 又是O A I 数据的提供者 在O A I 框架体系中 服务提供者 的职责是采集元数据并通过索引和检索的方式提供给最终用户 另一方面 O A I 数据提供者是一个典型的文档保存者 O A I 协议提供一个节点附加的方法 使其 支持P 2 P 的基础结构 在F r e e L i b 中 服务提供者和数据提供者融合在一起 充分 利用了P 2 P 结构的特点 其结构如图1 2 所示 长连接 短连接 图1 2F r e e L i b 结构体系 J F r e e L i b 在整合O A I 与A r c h o n 的基础上 研究P 2 P 技术在数字图书馆中的应 用 最终提供一种传统数字图书馆的可替代服务 降低数字图书馆服务与维护的 成本 这个项目是对下一代数字图书馆发展的一种探索 3 基于P 2 P 的数字图书馆异构模式互操作和元数据整合研究 在异构模式互操作和元数据整合研究方面 H a oD i n g 介绍了一个基于混合P 2 P 第一章绪论 结构的元数据整合框架 l3 1 他将基于P 2 P 的数字图书馆环境中的元数据整合应用 情形划分为三种 第一种情形是具有同种元数据格式的数字图书馆资源之间的整 合 与应用无关的互操作框架O A I P M H 是实现这种整合的最常用方式 但是 O A I P M H 主要是为了解决C S 模式下的元数据收割而设计的 不能直接引入到P 2 P 环境中 因此 要对O A 卜 P M H 进行扩展 使之能够应用于P 2 P 环境 第二种情 形是数字图书馆资源之间具有不同的元数据格式 但它们位于同一个虚拟社区 即 它们属于同一个超级节点管理的组 为了相互理解和收割元数据信息 可以引入 领域O n t o l o g y 来支持异种元数据间的映射 第三种情形也是最复杂的一种 节点 之间具有不同的元数据格式并且属于不同的虚拟社区 此时 就应该考虑采用一 种有效的机制来实现相关节点的聚类 而不必考虑这些节点是否属于同一个虚拟 社区 4 基于P 2 P 的数字图书馆信息检索研究 德国马克斯 普朗克信息学研究所的M a t t h i a sB e n d e r 等人提出一种将现有检 索技术与P 2 P 的路由技术结合起来的数字图书馆检索框架 l4 1 在该框架中 每个 节点既可以是图书馆服务提供者 也可以是发出查询请求的用户 每个节点都有 自己的本地搜索引擎和相应的本地索引 所有节点将元数据信息发送到P 2 P 网络 来共享本地索引 从而形成了一个大的全局但在物理上是完全分散的基于D H T 的 目录 在进行节点间的协作检索时 系统使用全局目录来标识最可能拥有相关检 索结果的节点 用户所提交的查询首先在本地用户节点执行 然后查询再被发送 到由全局目录所选定的节点集 最后将多个节点所返回的结果进行合并 德国汉 诺威大学的W o l f l i l oB a l k e 等人也研究了混合P 2 P 架构下信息检索问题 美国诺 伊大学香槟分校和美国雅虎公司的研究者提出了一种用于P 2 P 信息检索的可扩展 语义索引框架 l5 1 这个框架中 用分布语义聚类方法将语义上相近的文档聚为同 一组并存储在网格系统的相邻节点内 这样查询时只需要检索少量节点就可以满 足查询要求 提高了查询精确度和效率 1 2 2 国内研究现状 P 2 P 与数字图书馆的结合 国内已有了一些相关的研究成果 如受国家自然科 学等基金资助 由王丽华撰写的 基于对等网技术的数字图书馆的关键技术 介绍了如何构建基于对等网技术的数字图书馆的设想及关键问题 l q 宁波大学图 书馆的符敏慧探讨了P 2 P 在图书馆中的应用 l7 1 还有其他一些学者也有注意这个 问题 总体而言 主要集中在以下两个方面 1 基于P 2 P 的数字图书馆信息资源共享研究 宁波大学图书馆的刘柏嵩提出 基于P 2 P 技术 可以构建图书馆门户 这个 6 对等网环境下数字图书馆资源共享框架研究 门户不但能成为图书馆内部的业务处理平台 还可以为馆际合作伙伴及用户服务 同时又是图书馆管理者了解图书馆运行状态 调控日常工作的管理工具 图书馆 各个部分的运行情况均可以通过它传递给那些允许接触到相关信息的使用者 甚 至可以让有关非图书馆内部的财务或设备部门查看 1 8 l 管理者可以通过门户掌握 图书馆的动态 而馆员与外部的合作伙伴或用户均可通过这一平台找到相关的人 工作人员 建立起这样那样的信息交流通道 实现不同程度的信息共享 这将综 合C S 技术和P 2 P 技术 实现信息定向推送 实时沟通和数据互动 P 2 P 技术在数字图书馆工作协同方面 姜传菊提出利用对等体组 即由一些有 共同兴趣的共享资源和服务的对等体所构成的一个支持对等体协议的虚拟的实 体 即构成互联网中的一个虚拟子网 V P N 虚拟专用网 使信息按新方式又一 次集中 用户可根据自己的兴趣主动选择加入一个或多个同时存在于互联网中的 V P N 开放性的 个性化及专业化的V P N 使兴趣相同的人相互合作 在信息获得 与交流方面得到更多的便利 I9 1 P 2 P 可帮助图书馆合作伙伴之间建立一种安全的 网上工作联系方式 建立有能力实现信息资源数字化条件的科技文化信息单位的 V P N 使各单位交流协作 实现资源共享 协同工作 避免重复建设 同时 P 2 P 技术在整合各馆及各类型资源 建立面向各学科的专业数字图书馆方面也将发挥 更大的作用 书生公司总裁姜海峰指出 P 2 P 技术的应用使第三代数字图书馆实现真正意义 上的信息互动1 2 0 1 学生 老师或者图书馆馆员都可以上传文件 充实数字图书馆 的馆藏资源 其共享平台如图1 3 所示 图1 3 书生之家数字共享平台示意图 在这个平台中 读者可以将自有资源发布到系统平台中共享 也可以直接共 享自有资源 一次检索 可以获取个人机器上的 发布到系统平台中的以及外购 的各种资源 2 0 0 3 年8 月国家图书馆的牛振东等研究的数据检索与应用标准规范 研究的K e p l e r 项目 也是基于P 2 P 结构的 在深度文件交换 信息搜索 快速追 踪 无限移动网应用等方面 均有人提出可以很好的利用P 2 P 技术 但还缺乏进 一步的深入研究 2 基于P 2 P 的数字图书馆平台研究 宝山钢铁公司研究所的万作为早在1 9 9 5 年针对宝钢科技图书馆的现状 就提 第一章绪论 7 出了利用对等网络构建数字图书馆平台 如图1 4 所示 图1 4 网络布局不意图 他采用总线型的网络拓扑方式 将图书馆系统分成采购 查询 期刊管理 图书流通 外文及资料编目 中文编目六大模块 并分别安装于中文编目 阅览 室 西文及资料编目 书库这4 个工作站 相互间进行通讯 数据资源共享 使 图书馆的日常业务管理形成一个有机整体 实现管理的一体化 2 1 1 聊城大学的李俊青等从信息构建思想出发 提出了一种基于P 2 PW e bC a c h e 技术的数字图书馆平台 2 2 1 通过采用P 2 Pw e bC a c h e 技术 他们设计了一种新的数 字图书馆信息构建平台模型一P w C D L 可以为用户提供充分的资源 这个平台主 要有四个层次 数字图书馆D L 社区超级节点S P 邻居逻辑环以及社区节点P e e r 其拓扑结构如图1 5 所示 图1 5 拓扑结构图 此平台遵循了信息构建的思想 可以有效实现面向用户的服务 这样一种灵 活的技术 尤其适合由于受资金 技术 人才等条件限制而不可能组建大型专业 网络的中小图书馆 因此还有好多学者在积极探索着通过对等技术为其提供网络 组建方案 对等网环境下数字图 伟馆资源共享框架研究 概括而言 国内外关于P 2 P 技术与数字图书馆相结合已经进行了一些研究 但总的来讲 研究成果并不多 在内容上 虽然分析了相关的问题 但还不系统 不全面 提出了一些应用 但尚不成体系 特别是在我国 在这方面的研究还非 常缺乏 这与我国数字资源建设和应用正处于发展阶段 数字图书馆还处于相对 资源少 用户少的局面有关 1 3 研究意义 现存的基于C S 模式的数字图书馆框架体系存在固有的缺陷 1 服务器单点失效 负载均衡和扩展性弱等等 2 时滞问题 3 异构信息仓储的互操作问题 4 馆际之间的信息孤岛现象严重 图书馆之间的各自为政 缺乏协作 是信 息孤岛形成的重要原因 消除信息孤岛的唯一出路 是协作 共建 资源共享 针对以上这些缺陷 笔者在分析了P 2 P 技术的基础上 提出了基于P 2 P 技术 的数字图书馆资源共享框架模型 该框架以混合式的P 2 P 结构为基本网络架构 打 破以服务器为中心的传统模式 克服服务器单点失效 负载均衡 可扩展性和时滞 问题 1 4 本文主要工作及论文结构 本文共分为五章 第一章介绍了课题的研究背景 阐述了文章的研究目的和意义 并回顾了P 2 P 与数字图书馆结合的研究现状 第二章介绍了数字图书馆概念及现存的比较经典的体系结构 对等网相关知 识 包括对等网的概念 特点 分类等等 第三章提出了一种对等网环境下的数字图书馆资源共享框架 并对该框架的 各个功能模块进行了详细的功能模块分析 第四章对前一章提出的框架模型的关键问题进行分析 提出了异构模式的元 数据整合方案 第五章总结了本文研究的成果并对未来的工作进行了展望 全文的组织结构如图1 6 所示 第一章绪论 9 第四章 对等网环境下数字图书馆资源共 享框架的关键问题 异构模式的元数据整合方案 土 第 H 章 总结与展蝮 图1 6 全文体系结构图 第二章数字图j f 5 馆资源共享及对等网 1 I 第二章数字图书馆资源共享及对等网概述 2 1 数字图书馆概述 2 1 1 数字图书馆的基本概念及特点 1 数字图书馆的概念 数字图书馆 D i g i t a lL i b r a r y 简称D L 的出现是随着2 0 世纪9 0 年代数字化技 术和网络化技术的高速发展由 电子图书馆 的概念不断演变而来的 随着数字 技术的不断发展 研究者在概念上逐步倾向使用 数字图书馆 一词 但就目前 而言 数字图书馆还没有一个统一的概念界定 数字图书馆 的概念由密执安大学的研究人员于1 9 9 0 年首次提出 其定义 为 D L 是若干联合机构 F e d e r a t e dS t r u c t u r e 的总称 它使人们能够智能地 i n t e l l e c t u a l l y 和实实在在地 p h y s i c a l l y 存取全球网络上以多媒体数字化格式存在 的 为数巨大的且仍在不断增多的信息 随后又出现了许多关于数字图书馆的定 义 目前学术界的一个基本共识是 数字图书馆是采用现代高新技术支持的数字 信息资源系统 是下一代互联网上信息资源的管理模式 它将从根本上改变目前 互联网上信息分散 不便使用的现状 换而言之 下一代I n t e m e t 就是数字图书馆 它是一种互联网的组织模式而非图书馆的专用名词 而数字图书馆作为一项工程 就是要建立超大规模的 可以跨库检索的海量数据库及其信息服务机制 使之成 为知识经济的主要基础和必要条件 2 3 1 数字图书馆不仅仅局限于网络数字信息资 源的开发利用 更是一个促进信息获取 传递 交流的知识网络 2 4 1 2 数字图书馆的特点 从根本上说 数字图书馆是为了解决网络环境下数字化信息资源的组织 查 询与服务问题 其所处理的对象是数字信息 希望能提供类似于传统图书馆的良 好的信息服务 如有序化的组织 结构化的存储 高效的检索以及友好的查询等 与传统图书馆相比 数字图书馆具有以下特点 2 5 2 6 1 数字图书馆不是一个单独的实体 数字图书馆是许多资源 服务的信息单 元的统一结构 这些数字化的信息资源可能具有不同的形式 比如文字 图片 声音等 数字图书馆服务信息也非常丰富 包括服务内容的描述 服务的配置信 息 权限控制等 这些信息资源和服务可能存放在不同的地域 通过特定的协议 和存取方法可以方便地进行访问 2 数字图书馆具有开放的信息结构 数字图书馆建立在异构的平台之上 是 1 2 对等网环境下数字图 f 5 馆资源共享框架研究 一个分布式的信息集合 包括很多不同的信息服务功能单元 用户可以通过开放 协议来访问它们 新的功能单元通过注册可以方便地加入己有的系统 3 数字图书馆动态性很强 作为数字化信息的收藏中心 数字图书馆应该及 时更新以适应当前信息的爆炸性增长 它所提供的服务也应该能及时反映收藏信 息的变化 因此数字图书馆的组织应该具有良好的可扩展性 2 1 2 数字图书馆的体系结构 1 集成式的I n t e r S p a c e I m e r S p a c e 是由美国国家科学基金会N S F 支助的D L I 项目 实现了一个 I m e r S p a c e 的原型系统 该系统提供一个支撑数字图书馆的基础结构 能够支持对 多个I n t e m e t 信息源的查询和检索 该项目开发一个对多媒体信息进行语义索引的 原型环境 2 7 J 语义索引依靠对概念和类目的统计聚簇来实现 基于语义索引的交 互式导航使对大量的 不同的信息收藏的检索能在一个更深的层次进行 在概念 抽取 概念空间计算 类目图 概念赋予等自动化技术的支持下 I m e r S p a c e 原型 实现跨主题域 媒体类型和收藏量的可伸缩的 交互的语义互操作 l m e r S p a c e 分析环境 应用层 应用层 系统开发环境 内核层 I U 服务 域管理器 知识分类知识检索知识索引 一类目录生成 一概念空间检京 概念空问生成 外部 服务层 一词语转换一概念赋予 服务 一全文查找 概念抽取层 数j j 苦存 储层 数据存储层 图2 1I n t e r S p a c e 的体系结构 I m e r S p a c e 将异构的分布式信息资源集成在一个统一的模型里 作为一个实体 I m e r S p a c e 是一个互联的信息空间的集合 每一个成员的信息空间包含了某社区或 某主题域的知识 一个信息空间是一个互连的对象的集合 网络上的每一份电子 文献 文本的或多媒体的 在信息空间中都表示为一个对象 该模型的基本抽象 是一个特殊的对象 即信息单元 I U 它是I m e r S p a c e 系统中组织的基础单位 在 I U 的基础上 系统提供对复杂互操作应用的丰富的支持 标准的服务包括 对象 第二章数字图 弓馆资源共享及对等网 1 3 间互联 远程执行 对象缓存以及对复杂对象的支持 I n t e r S p a c e 试图在一个灵活 的 一致的 可伸缩的系统中表示所有的数据或对象类型 I n t e r s p a c e 实现为一个层次结构 图2 1 应用层负责和用户交互 应用编程环 境包含实现各种应用所需要的通用服务 系统编程环境是I n t e r s p a c e 的内核层 包 含信息空间和I U 的各种基本功能 内核层之下是服务层 该层包含内核层所需要 的关键功能模块 包括域管理器 语义索引与检索 全文搜索 词语转换等 底 层是一个分布式的数据存储层 负责常驻数据的管理 2 总线式的I n f o B u s 在I n t e m e t 环境中 广泛分布着各种各样的信息服务和信息资源 能不能把这 些不同的信息服务和仓储组合起来构成一个D L 昵 这就是斯坦福大学大学的 I n f o B u s 项目的目标 2 引 其中的关键是设计一个互操作协议 一方面 分布的 互 异的仓储和服务只要遵循共同的协议就能相互交互 合作起来向用户提供一致的 接口 屏蔽各仓储和服务间的差别 实现联合检索与服务 另一方面 各仓储仍 由本地自治地维护 各种服务亦无须改变 各显特色 I n f o B u s I n f o r m a t i o nB u s 是一个软 总线 结构 异构的仓储 服务和用户界面如同插件一样插入到I n f o B u s 中 集成在一起 如图2 2 2 9 1 I n f o B u s 的关键技术有以下几点 I P M 协议机 I C 客户接口 L S 图书馆服务 I S 信息资源 I P S 信息处理服务 I P S 图2 2I n f o B u s 模型 分布式对象技术 I n f o B u s 实现为一个基于C O R B A 的分布式对象系统 系统 中的所有构件 都实现为C O R B A 的分布式对象 具备四大优点 模块化的构造 语言独立性 可采用不同的程序设计语言 平台独立性 可运行于不同的操作系 统和处理器之上 又能相互交互 对象的可协调性 数字图书馆互操作协议 类似于互联网的T C P I P 协议 它是一个提供网络化 环境中管理对象和馆藏基础服务的协议层 它允许I n f o B u s 用户与信息存储体进行 通信 并允许他们从I n f o B u s 代理器上查询信息 它的基本目标是提供一个灵活的 1 4 对等网环境下数字图j 伸馆资源共享框架研究 传输机制 通过这种传输机制 服务器端的馆藏对象可以方便传输到用户端 而 不用每次需要对象时都要通过网络对每一个对象进行一个查询 系统中所有遵循 D L I O P 的构件都可以交互 无论其位置 功能与平台如何 D L I O P 主要用于客户 对象和仓储对象交互 以组织跨仓储的访问和查询 封装和代理 异构的仓储被封装在L S P L i b r a r yS e r v i c eP r o x y q b 向外提供统 一的接口 屏蔽其异构性 L S L i b r a r yS e r v i c e 提供系统所需的各种功能 如查询 翻译 元数据工具 权限管理等 封装层代理客户程序的请求 翻译成特定仓储 的查询请求 并将返回的结果转换成客户可以接受的形式 文档对象化 文档被模型化为对象 可以带有自己的行为 它们的实例变量 包含了文献的各种信息 如标题 作者等 建立元数据仓储供L S P 解决元数据层 的差异 I n f o B u s 为D L 提供了一个灵活的 可扩展的框架 一方面 已有的信息仓储 和信息服务无需改变便可插入到系统中 另一方面 I n f o B u s 为吸收未来的仓储和 服务留下了空间 I n f o B u s 的信息总线结构具有语言的独立性和平台的独立性 它 把任务分散到分布的对象上 提高了系统的可靠性 但是 I n f o B u s 的实现过于复 杂 在大范围内其效率难以保障 特别是当成员的数量庞大时 3 分布式的N C S T I 也 N C S T R L N e t w o r k e dC o m p u t e rS c i e n c et e c h n i c a lR e s e a r c hL i b r a r y 是一个获得 广泛应用的D L 项目 目前 N C S T R L 提供对1 2 0 个机构的2 4 0 0 0 种计算机科学研 究报告的访问 这项服务涉及4 0 个通过D i e n s t 协议通讯的服务器和运行F T P 和 H T T P 的代理服务器 3 N C S T R L 所收藏的资源被合理和有效地分成若干组成部 分 每个部分在各自的子收藏仓库中控制文献资源的增加和管理 随后 这些仓 库中的每个文献资源的元数据 如标题 作者 文摘等 由一个或多个索引服务器进 行索引 这些元数据允许通过D i e n s t 协议对各自的仓库进行访问 D i e n s t 协议允 许将这些元数据索引和仓库集成为一个统一的收藏服务 这样就形成一个可集成 的分布式数字图书馆资源 N C S T R L 主要由三个部分组成 支撑结构 服务和接口 互操作组件 3 1 1 支撑结构 这是一种分布式数字对象服务的基础结构 主要包括三个部分 数字对象 命名系统和通用存储访问协议 R A P 数字对象概念是指该结构将所有 数字信息资源当作一个对象 O b j e c t 作为数字图书馆的基本元素 命名系统是通过 句柄系统 H a n d l eS y s t e m b 每个对象分配一个统一的唯一的标识符 句柄 其作用 是命名和管理 R A P 是用于支持系统中的所有对象存储仓库及它们之间的互联 如 存储和检索数字对象等 该支撑结构只负责将数字对象处理成结构化数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南京交通职业技术学院单招职业倾向性考试必刷测试卷新版
- 2026年陕西省西安市单招职业适应性测试题库新版
- 2026年新疆博尔塔拉蒙古自治州单招职业倾向性测试题库及答案1套
- 2026年苏州工业职业技术学院单招职业适应性考试题库及答案1套
- 2026年辽宁机电职业技术学院单招综合素质考试必刷测试卷及答案1套
- 2026年福建师范大学协和学院单招职业倾向性考试必刷测试卷及答案1套
- 2026年重庆城市管理职业学院单招职业倾向性测试必刷测试卷附答案
- 2025济南市家具购买合同官方范本
- 2026年山东圣翰财贸职业学院单招职业倾向性测试题库新版
- 2026年武汉民政职业学院单招职业适应性考试必刷测试卷及答案1套
- 相机租赁合同模板
- 全国公开课一等奖统编版七年级语文上册新教材(统编2024版)《往事依依》课件
- 品牌策划及创意策划流程
- 四年级下册劳动《小小快递站》课件
- 2023九年级数学上册 第四章 图形的相似4 探索三角形相似的条件第4课时 黄金分割教学实录 (新版)北师大版
- 餐饮五常管理法
- 2021浙江省公务员考试行测真题含答案
- 创新方法大赛理论知识考核试题题库及答案
- 中医药服务质量评价体系
- (完整版)一年级10以内加减法口算题(100道题-可直接打印)
- 信息科技大单元教学设计之八年级第六单元物联网安全
评论
0/150
提交评论