版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、作者简介:雷雨(1966-,女,馆员,研究方向:图书馆学、情报学。收稿日期:2012-05-29云计算即服务的数字图书馆及互操作探讨雷雨(安庆师范学院图书馆,安徽安庆246003摘要:概括云计算即服务的概念及其关键技术,阐述数字图书馆互操作性的特点和要求。针对目前流行的几种数字图书馆互操作解决方案进行分析和对比,指出各自的优势和不足。在此基础上引入云计算技术,讨论一种互操作框架数字图书馆云计算即服务DLib-Cloud ,给出其工作流程,并探讨利用云计算技术解决数字图书馆之间的互操作性问题。关键词:云计算即服务;数字图书馆;互操作;元数据中图分类号:G250文献标识码:A文章编码:1672-6
2、251(201207-0043-07Investigation of Digital Library Interoperability for Cloud Computing as a ServiceLEI Yu(Library of Teachers College,Anhui Anqing 246003Abstract:The concept and the key technologies of cloud computing as a service were summarized and the characteristics and requirements of the digi
3、tal library interoperability were described.Several popular interoperable solution methods in light of digital libraries were analyzed and compared,and the respective advantages and disadvantages of them were pointed out.The cloud computing technology was Introduced on this basis,and a new interoper
4、ability framework -digital library cloud computing as a service DLib-Cloud was proposed and their work processes were given and the use of cloud computing technology to solve a digital library interoperability problems was also explored.Key words:cloud computing as a service;digital library;interope
5、rability;metadata农业网络信息AGRICULTURE NETWORK INFORMATION·信息资源建设与管理·2012年第7期图情事业从传统图书馆和自动化图书馆发展到目前的数字图书馆建设阶段,数字图书馆能够有效地发现、管理和发布数字信息,为读者提供简捷、方便的数字信息检索平台。由于不同数字图书馆的建设目的、方式和运行手段不同,其建立采用的技术、平台、协议和体系结构也各不相同。如何将这些体系结构和实现技术不同的数字图书馆联合起来,在不同数字图书馆之间进行信息交换、文档共享,以形成一个整体虚拟数字图书馆,为全球用户提供统一、便捷的服务,是目前数字图书馆互操作
6、领域亟待解决的问题。现有的互操作方式,如分布式搜索技术、元数据收集技术、基于中间件以及基于网格技术等等,都不能很好地解决Web 上大规模的数字图书馆互操作问题。为了实现真正的数字图书馆之间的互操作,需要从根本上解决互操作体系架构的设计和实现。本研究提出了云计算即服务技术,在分析云计算即服务相关技术的基础上,提出一种基于云计算即服务的数字图书馆互操作框架,将云层作为数字图书馆的底层架构,利用云中资源的共享特性支持高性能的联合搜索服务,从而较好好解决数字图书馆的互操作问题。1数字图书馆互操作方案比较目前,数字图书馆的互操作模型主要有三种,分别是联邦、采集和收集。它们都是将数字图书馆的异构性用某种方
7、式予以屏蔽或转换,使其在宏观上看起来是一个同构系统或者标准的系统,从而支持互操作。在这三种数字图书馆互操作模型的基础上,研究人员提出了不同的互操作方案,其中具有代表性的是分布式搜索、元数据收集、中间件技术、网格技术等。1.1分布式(Distributed Search搜索分布式搜索为不同的数字图书馆馆藏发现有用信息提供了途径。其的基本思想为:将用户提交的查询请求实时转换成每一个数字图书馆可接受的形式,分别送往多个数字图书馆站点执行,收集每个数字图书馆返回的结果,综合整理后交给用户。这种方法要求在数据源端对各自的搜索服务进行维护,由分布式搜索服务提供使用远程DLs搜索服务的统一界面。由于分布式搜
8、索方法依赖于实时地执行查询、处理查询结果,因此有一个规模问题。对于数字图书馆节点比较少(一般来说是不超过20个的情况下,该技术比较适用,但在Internet环境下,数字图书馆节点的数量都比较大,此时用分布式搜索技术解决互操作问题将变得相当困难1。1.2元数据搜集(Harvesting方式Harvesting方式对于数字图书馆联盟成员不要求遵守许多复杂的协议,只需少量的工作就可以实现与其他成员的互操作,因此是加入联盟的一种低门槛的方法。其基本思想是从每个数字图书馆中采集并提取元数据,经过处理、合并后集中保存在一个元数据仓储中,用户对保存在元数据仓储中的元数据进行查询2。因为Harvesting方
9、式采用集中处理,所以能够保证有较好的查询响应时间。另外,由于不要求严格遵守一组完整的技术协定,只要求做少许支持基本共享服务如数据访问的工作,对联盟成员的要求很少,因此许多组织可能会加人这种松散的DLs联邦。不足之处各数字图书馆馆藏元数据的变化不能够及时地得到反映。1.3中间件(Middeware技术20世纪90年代,基于网络计算平台的分布计算技术迅猛发展。其中以面向对象技术为主要特征的分布式构件技术,即中间件技术,为解决数字图书馆的互操作问题提供了有价值的参考。数字图书馆的应用环境包含异构的硬件平台、OS、通信协议和数据库管理系统。在这种异构的环境中,需要通过中间件所提供的具有标准编程接口和协
10、议的服务,建立独立的软件层,隐藏数字图书馆的底层信息源和服务的异构性,从而实现数字图书馆的互操作。目前,实现数字图书馆互操作常用的中间件技术有CORBA技术、中介层结构。然而这些系统有共同的缺陷,即它们无法扩展到互联网上,它们要求服务客户端与系统提供的服务本身之间必须紧密结合,即要求一个同类基本结构。另外,这样的系统往往十分脆弱,如果一端的执行机制发生变化,另一端就会崩溃。采用中间件技术实现的数字图书馆互操作系统的局限性主要表现为:当数字图书馆内部服务发生变化时,必须重新修改或重写中间件,否则将导致客户端服务调用的失败。由于中间件缺乏严格一致的概念模型和形式语义,因而软件重用性比较差。没有对通
11、信安全进行控制,无法保证广域网环境下信息交互的安全性。中间件主要用于实现组织内部的资源共享,采用不同中间件技术实现互操作的数字图书馆组织之间的互连互通仍然存在问题。1.4网格(Grid技术网格是一种分布式计算模式,其的目的是共享。但是这种共享已经不再是简单的资源互连和单一使用,而是将分散在网络中的空闲服务器、存储系统和网络连接在一起,形成一个整合系统,为数字图书馆用户提供功能强大的计算及存储能力来处理特定的任务。对于使用网格的用户或程序而言,网格是一个拥有超强能力的虚拟计算机。网格计算的本质在于以高效的方式来管理各种加入到该分布式系统的异构松耦合资源,并通过任务调度来协助这些资源合作完成一项特
12、定的任务3-5。综上,网格计算着重于管理通过网络连接起来的异构资源,并保证这些资源能够充分为计算任务服务。通常各数字图书馆都是基于某个网格的框架来构建自己的网格系统,并对其进行管理,在其上执行计算任务。因此,网格之间的互操作性仍然难以保证。2云计算即服务的数字图书馆云计算技术是分布式处理、并行计算和网格计算的发展,是新一代的互联网计算模型。其安全可靠的海量数据存储和强大的计算能力带来了全新的Web服务模式。将云计算技术融于数字图书馆之中,必将对信息技术环境下构建自由、个性、多元的数字图书馆产生积极影响。2.1相关知识综合文献6-9所谓云计算即服务,即指为用户提供怎样的服务、通过这些服务用户可以
13、获得什么样的资源,以及用户应如何去使用这样的服务。以服务类型为标准,云计算可分为基础设施云、平台云和应用云。(1基础设施云为用户提供底层的,接近于直接操作硬件资源的服务接口。通过调用这些接口,用户可以直接获取计算和存储能力,几乎不受逻辑上的限制。但是用户需要进行大量的工作来设计和实现自己的应用,因为基础设施云仅为用户提供计算和存储等基础功能。(2平台云为用户提供一个托管平台,用户可以将他们所开发和运营的应用托管到云平台中。但是,这个应用的开发和部署必须遵守该平台特定的规则和限制,如语言、编程框架和数据存储模型等。(3应用云为用户提供可以为其直接使用的应用,这些应用一般是基于浏览器的,针对某一特
14、定的功能。应用云容易被用户使用,因为它们都是开发完成的软件。但是其灵活性是最低的,因为一种应用云只针对某一特定的功能。2.2云计算即服务的数字图书馆的优势云计算即服务的数字图书馆各云层的优势在于:(1基础设施即服务交付给用户的是基本的基础设施资源。用户无需购买、维护硬件设备和相关的系统软件,就可以直接在基础设施即服务层构建自己的平台和应用。(2平台即服务交付给用户的是丰富的“云中间件”资源,包括应用容器、数据库和消息处理等。平台服务面向的不是普通终端用户,而是软件开发人员,他们可以利用这些开放的资源来开发定制化的应用。在平台即服务上的开发和应用比传统开发模式有较大优势:提供的高级编程接口简单易
15、用,软件开发人员可以在较短时间内完成开发功能工作,缩短软件上线时间。应用和开发都是处于相同的平台,兼容性问题较少。开发者无需考虑易用的伸缩性、服务容量等问题,平台服务都已经提供。平台层提供的运营管理功能能够为开发人员对应用程序进行监控和计费。(3软件即服务交付给用户的是定制化的软件,即软件提供方根据用户需求,将软件或应用通过租用的形式提供给用户使用。软件即服务只要有以下优势:用户不需要在本地安装软件副本,也不需要维护相应的硬件资源,该软件部署运行在提供方自有的或者第三方的环境中。软件以服务的方式通过网络交付给用户,用户只需要打开浏览器或者客户端工具就可以使用服务。虽然软件即服务面向多用户,但是
16、每个用户都感觉是独自占用该服务。一方面,由于与软件相关的所有资料都存放在云中,开发者可以方便进行软件的部署和升级,软件的生命周期不再明显。开发者甚至可以每天对软件进行多次升级,而这些操作对于用户来说是透明的,用户感觉到的只是质量越来越完善的软件服务。另一方面,软件即服务更加有利于知识产权的保护,软件副本本身不提供给各户,从而减少了反编译等侵权行为发生的可能。2.3云计算即服务与网格的区别云计算是一种生产者消费者模型,云计算系统采用以太网等快速网络将若干集群连接在一起,用户通过因特网获取云计算系统提供的各种数据处理服务10。网格系统是一种资源共享模型,资源提供者亦可以成为资源消费者,网格侧重研究
17、的是如何将分散的资源组合成动态虚拟组织。云计算和网格计算的区别在于资源调度模式,具体如下:(1云计算采用集群来存储和管理数据资源,运行的任务以数据为中心,即调度计算任务到数据存储节点运行。而网格计算则以计算为中心。计算资源和存储资源分布在因特网各个角落,不强调任务所需的计算和存储资源同处一地。(2由于网络带宽的限制,网格计算中的数据传输时间占总运行时间的很大一部分。网格将数据和计算资源虚拟化,而云计算则进一步将硬件资源虚拟化,活用虚拟机技术,对失败任务重新执行,而不必重启任务。(3网格内各节点采用统一的操作系统(大部分为UNIX,而云计算放宽了条件,在各种操作系统的虚拟机上提供各种服务。网格按
18、照固定的资费标准收费或者若干组织之间共享空闲资源,而云则采用用时付费以及服务等级协议的模式收费。与网格的复杂管理方式不同,云计算提供一种简单易用的管理环境。2.4云计算即服务数字图书馆核心技术2.4.1快速协同部署快速协同部署是云数据中心的一项重要功能需求。首先,在云环境中资源和应用不但规模变化范围大而且动态性高,用户随时提交对资源和应用的请求,云环境管理程序负责非配资源、部署服务。其次,不同云环境中服务部署模式不一样。最后,部署过程所支持的软件系统形式多样,系统结构各不相同,部署工具应该能适应被部署对象的变化。协同部署的核心思想是将虚拟机镜像在多个目标物理机之间的网络中传输,而不是部署在服务
19、器和目标物理机之间传输,从而提高部署速度。给与虚拟化技术和协同部署技术,可以构建一个DLib协同部署系统,保证大规模DLib 数据中心服务的部署速度、效率和质量,如图1所示。图1DLib 协同部署的实现过程(1部署服务器负责将协同部署器及其用户空间文件系统的安装文件发送到被部署节点,并发起部署任务。(2部署控制器负责协调各个节点之间的部署进度,交换文件片信息。(3被部署节点在部署任务开始后,根据启动顺序向用户空间文件系统发出虚拟镜像文件块请求,用户空间文件系统调用协同部署器获取文件块。2.4.2资源调度资源调度是指在指定的环境下,根据一定的使用规则,在不同的资源使用者之间进行资源调整的过程。资
20、源使用者对应着不同的计算任务,每个计算任务在操作系统中对应于一个或这个多个进程。图2为将计算任务迁移到其他机器的实现过程。图2资源调度的实现过程以上例子表示,物理资源A 的使用率远高于物理资源B ,通过将计算任务1从资源A 中迁移到资源B ,是资源的使用率更加均衡合理,从而达到负载均衡的目的。2.4.3海量数据处理作为以互联网为计算平台的与计算,更加广泛地涉及到海量数据的处理。对于Dlib 的搜索引擎,由于数据量非常大,几台计算机不可能满足海量数据处理的性能和可靠性等方面的要求。MapReduce 模式的思想是将要执行的问题拆分成Map 和Reduce 方式。先通过Map 将数据切割成不相关的
21、块,分配、调度给大量计算机处理达到分布式计算的效果,再通过Reduce 将结果汇总整合、输出1112。MapReduce 具体实现过程如图3所示。图3MapReduce 的实现过程(1利用MapReduce 将数据切割成M 份,每份大小16-64M ,在计算机集群上启动程序。(2Master 节点负责为所有Worker 节点分配子任务,其中包括M 个Map 和R 个Reduce 子任务。Mas -ter 负责找到空闲的节点并分配任务。(3获得Map 子任务的Worker 节点读入对应的输入数据,从输入数据中解析Key/value 对,调用用户编写的Map 函数。Map 函数的中间结果缓存在内存
22、中并周期性地写入本地磁盘。写入的数据根据用户指定的划分函数被分为R 个数据区。中间结果的位置被发送给Master 节点,Master 节点将这些数据信息交付负责Reduce 任务的Worker 节点进行Reduce 处理。(4执行Reduce 子任务的Worker 节点从Master 节点获取子任务后,使用远程调用的方式从执行Map 子任务的Worker 节点的本地磁盘读取数据到缓存。执行Reduce 子任务的Worker 节点首先遍历所有的中间结果,然后按照关键字排序。(5执行Reduce 子任务的Worker 节点遍历获得B A CDlib ÁÂÃÄ
23、ÅÆÃÄÇÈÉ3 2 1 3 2 1 3 2 132 32 32CPUÁÂÃÄÁÅÆÇÂÃÄ 4 4 4ÁÂÃÄÅÅÆÇÆÃÄÁÂÃÄÁÅÆÇÇÃÄ4 14 1 4 1ÁÂ
24、5;ÄÅÅÆÇÇÈÄCPUCPUUserProgramMasterÁÂÃÄÅÆÇWorkerWorkerWorker Worker WorkerSplit4Split3Split2Split2Split0Outputfile 1Output file 0ÁÈÃÉÅ É Æ Á ÃÆ Å Æ Á Ã Æ
25、;ÁÂÃÄÅÆÇÁÂÃÄÅÆÇÁ Ã ! "# $Á Ã ! "# $Á%ÃÆ &Input flieMap phase Intermediate files on local disksRaduce phase Output flieMap 子任务产生的中间数据,将不同的析Key 和value 进行结合并传递给用户的Reduce 函数。Reduce 函数的结
26、果被写入到一个最重输出文件。当所有Map 子任务和Reduce 子任务完成的时候,Master 节点将R 份Reduce 结果返回给用户程序。用户程序将这些执行Reduce 子任务的Worker 节点生成的结果数据合并得到最重结果。2.4.4大规模消息通信云计算的一个核心理念就是资源和软件功能都是以服务的形式发布的,不同服务经常需要通过消息通信进行协作。可靠、安全、高性能的通信基础设施是云计算成功的关键。DLib 采用异步通信来实现其功能。如图4所示。图4异步通信的实现过程(1在异步通信中,客户端和服务端并不是直接通信。客户端把请求以消息的形式存放在消息队列中,然后继续处理其他业务逻辑。(2服
27、务实例从请求消息队列中取得请求消息,将处理结果放入响应消息队列后,立即处理想一个请求。(3通信消息管理软件通过判断消息请求是否成功发给目标服务实例来判断该实例是否可用。(4若目标服务实例不可用,则将消息发给其他服务实例。异步通信机制可使得云计算每个层次中内部组件之间及各个层次之间解耦合,并保证云计算服务的高可用性。2.4.5广泛分布式存储分布式存储的目标是利用多台服务器的存储资源来来满足单台所不能满足的存储需求。分布式存储要求存储资源能被抽象表示和统一管理,并且能够保证数据读写操作的安全可靠。在云计算环境中,数据存储和操作是以服务形式提供,数据库的类型多种多样,不仅包括普通文件、虚拟镜像文件等
28、二进制文件,还包括类似XML 的格式化数据,以及数据库的关系型数据等。云计算的分布式存储服务考虑到各种不同数据类型的大规模存储机制及数据操作的性能。以GFS 为例,GFS 是一个管理大型分布式数据密集型计算的可扩展的分布式文件系统。它使用廉价的商用硬件搭建系统并向大量用户提供容错的高性能的服务。GFS 系统由一个Master 和大量块服务器构成。Master 存放文件系统的所有元数据,包括名字空间、存取控制、文件分块信息、文件块的位置信息等。GFS 中的文件切分为64MB 的块进行存储。在GFS 文件系统中,采用冗余存储的方式来保证数据的可靠性。每份数据在系统中保存3个以上的备份。为了保证数据
29、的一致性,对于数据的所有修改需要在所有的备份上进行,并用版本号的方式来确保所有备份处于一致的状态。客户端不通过Master 读取数据,避免了大量读操作使Master 成为系统瓶颈。客户端从Master 获取目标数据块的位置信息后,直接和块服务器交互进行读操作。GFS 的写操作将写操作控制信号和数据流分开,即客户端在获取Master 的写授权后,将数据传输给所有的数据副本,在所有的数据副本都收到修改的数据后,客户端才发出写请求控制信号。在所有的数据副本更新完数据后,由主副本向客户端发出写操作完成控制信号。3基于云计算即服务的互操作体系结构互操作性是数字图书馆的关键性问题,为了更好解决数字图书馆在
30、互操作中出现的各类问题,需要建立适合于构建大型分布式的公共数字图书馆服务网络,能将分布在互联网中各个图书馆的资源和服务整合成为一个整体,形成一个可控的自适应的新型服务体系。通过对各种服务进行动态管理和分配来满足不同层次和规模的数字图书馆需求。支持馆际透明的协作和服务获取、支持各馆用户的聚合和参与、支持多馆协作的社会化网络的构建、支持多馆资源的共建和共享,具有自适应扩展的能力。云计算即服务计算即服务概念及技术的提出,为多馆机构之间大规模的资源共享和合作,提供了资源共享的基本方法。本研究将云计算即服务与元数据采集harvesting 方法相结合,提出一种增强数字图书馆ÁÂ
31、95;ÄÅÆÇÈÉ ÃÄÅÆÇÈÉÁÂ ÉÁÂ的性 能 和 可 靠 性 等方 面 的 要 求 。 MapReduce 模 式 的 思 想 是 将 要 执 行的 问 题 拆 分 成 Map 和 Reduce 方 式 。 先 通 过 Map 将 数 据 切 割 成 不 相 关 的 块 , 分 配 、 调 度给 大 量 计算机 处 理 达 到分布 式 计 A C 算 的 效 果 , 再 通过 Reduce 将 结 果 汇
32、总 整 合 、 输 出 1112。 User Program MapReduce 具 体 实 现 过程 如 图 3 所示 。 图 1 DLib 协同部署的实现过程 (1 ) 部 署 服务 器 负责 将 协 同 部 署 器 及 其 用 户 空 间 Master Worker Split0 Split2 Split2 Split3 Split4 Worker Worker (3 ) 被部 署 节 点 在部 署 任 务 开 始 后 , 根 据启 动 顺 Worker Output file 0 Output file 1 Worker 资源 调 度 Input flie Map phase Inte
33、rmediate files on local disks Raduce phase Output flie 资源 调 度 是 指 在 指 定 的 环 境 下 , 根 据 一 定 的 使 用 图 3 MapReduce 的实现过程 ( 1 ) 利 用 MapReduce 将 数 据 切 割 成 M 份 , 每 份 (2 ) Master 节 点 负责 为所 有 Worker 节 点 分 配 子 任 大 小 16-64M , 在 计算机 集 群 上启 动 程 序 。 务 , 其 中 包括 M 个 Map 和 R 个 Reduce 子 任 务 。 Mas( 3 ) 获 得 Map 子 任 务 的
34、Worker 节 点 读 入 对 应 的 ter 负责 找 到 空 闲 的 节 点 并 分 配 任 务 。 1 2 3 1 2 3 1 2 3 输 入 数 据 , 从 输 入 数 据 中 解 析 Key/value 对 , 调 用 用 户 编 写 的 Map 函 数 。 Map 函 数的中 间结 果 缓 存 在内 存 中 并周 期性 地 写 入 本 地 磁 盘 。 写 入 的数据 根 据 用 户指 2 3 2 3 2 3 CPU 定 的 划 分 函 数被 分 为 R 个数据 区 。 中 间结 果 的位 置 被 发 送 给 Master 节 点 , Master 节 点 将 这 些数据信息 交
35、付 负责 Reduce 任 务 的 Worker 节 点 进 行 Reduce 处 理 。 1 4 1 4 4 4 4 1 4 ( 4 ) 执 行 Reduce 子 任 务 的 Worker 节 点 从 Master 节 点 获取 子 任 务 后 , 使 用 远 程 调 用 的 方 式 从 执 行 Map 子 任 务 的 Worker 节 点 的 本 地 磁 盘 读 取 数 据 到 缓 存 。 间结 果 , 然 后 按照 关 键 字 排 序 。 CPU CPU 图 2 资源调度的实现过程 执 行 Reduce 子 任 务 的 Worker 节 点 首 先 遍 历 所 有 的中 (5 ) 执 行
36、 Reduce 子 任 务 的 Worker 节 点 遍 历 获 得 以上 例 子 表 示 , 物 理资源 A 的 使 用 率 远 高 于 物 理 46 Map 子 任 务产生 的中 间 数据 , 将 不同 的 析 Key 和 value 进 行 结 合 并 传 递 给 用 户 的 Reduce 函 数 。 Reduce 函 数 的 结 果 被 写 入 到一 个 最 重 输 出 文 件 。 当 所 有 Map 子 任 务 和 Reduce 子 任 务 完 成 的 时 候 , Master 节 点 将 R 份 Reduce 结 果 返 回 给 用 户 程 序 。 用 户 程 序 将 这 些 执
37、行 Reduce 子 任 务 的 Worker 节 点 生 成 的 结 果 数 据 合 并 得 到最重结果。 2.4.4 大规模 消 息 通 信 云 计算 的 一 个 核心理 念就 是 资源 和 软 件 功 能都 是 以 服务 的 形式 发 布 的 , 不同 服务 经 常 需 要通过 消 息 通 信进行协作。 可靠、 安全、 高性能的通信基础设施是 云 计 算 成 功 的 关 键 。 DLib 采 用 异 步 通 信 来 实 现 其 功 能 。 如 图 4 所示 。 (1 ) 在 异 步 通 信中 , 客 户 端 和 服务 端 并 不 是 直接 中 , 然 后 继续 处 理 其 他 业 务 逻
38、 辑 。 通信。 客户端把请求以消息的形式存放在消息队列 ( 2) 服 务 实 例 从 请 求 消 息 队 列 中 取 得 请 求 消 息 , 将 处 理 结 果 放入 响 应 消 息 队 列 后 , 立 即 处 理 想 一 个 请 求。 (3 ) 通 信 消 息管 理 软 件 通过 判 断 消 息 请 求 是 否 成 功 发 给 目 标 服务 实 例 来 判 断 该 实 例 是 否 可 用 。 服务 实 例 。 异 步 通 信 机 制可 使得 云 计算 每 个 层次 中内部 组 件 之间 及 各 个 层次之间 解 耦 合 , 并 保 证 云 计算服务 的 高 可用性。 É
39、1; É Ã Ä Å Æ Ç È Á Â Á Â Á Â 农业网络信息 2012 年第 7 期 信息资源建设与管理 在 云 计算 环 境 中 , 数据 存 储 和 操 作 是以 服务 形式 提供, 数据库的类型多种多样, 不仅包括普通文件、 虚 拟 镜 像 文 件 等 二 进 制 文 件 , 还 包 括 类 似 XML 的 格 式 化 数据 , 以及数据库的 关 系 型 数据 等 。 云 计算 的 分 布 式 存 储 服务 考 虑 到各种不同 数据 类 型 的 大
40、规 模存 储 以 GFS 为 例 , GFS 是 一 个管 理大 型分布 式 数据 密 机 制 及数据 操 作 的性 能 。 集 型 计算 的 可 扩 展 的 分布 式 文 件 系 统 。 它 使 用 廉 价 的 商用 硬 件 搭 建 系 统 并 向 大 量 用 户 提供 容 错 的 高 性 能 的 服 务 。 GFS 系 统 由 一 个 Master 和 大 量 块 服 务 器 构 成 。 存取控制、 文件分块信息、 文件块的位置信息等。 件系统中, 采用冗余存储的方式来保证数据的可靠 性 。 每 份 数据在系 统 中 保 存 3 个以上的 备 份 。 为 了 保 证 数据的 一 致 性 ,
41、 对 于 数据的所 有 修改 需 要 在所 有 的 备 份 上 进 行 , 并 用 版 本号的 方 式来确 保 所 有 备 份 处 于 一 致 的 状 态 。 客 户 端 不 通过 Master 读 取 数据 , 避免 了 大 量 读操 作使 Master 成 为系 统 瓶颈 。 客 户 端 从 Master 进 行 读操 作 。 Master 存 放 文 件 系 统 的 所 有 元 数 据 , 包 括 名 字 空 间 、 GFS 中的文 件 切 分 为 64MB 的 块 进 行 存 储 。 在 GFS 文 获取 目 标 数据 块 的位 置 信息 后 , 直接 和 块 服务 器 交 互 GFS
42、 的 写 操 作 将 写 操 作 控 制 信 号 和 数 据 流 分 开 , 即 客 户 端 在 获取 Master 的 写 授权 后 , 将 数据 传 输 给 所 有 的数据 副 本 , 在所 有 的数据 副 本 都 收 到 修改 的数据 后 , 客 户 端 才 发 出写 请 求 控制 信号 。 在所 有 的数据 副 本 更 新 完 数据 后 , 由主 副 本 向 客 户 端 发 出写 操 作 完 成 控制 信号 。 图 4 异步通信的实现过程 3 基于云计算即服务的互操作体系结构 互 操 作 性是数 字 图 书馆 的 关 键 性 问 题 , 为 了 更好 解决 数 字 图 书馆 在 互 操
43、 作 中 出 现的 各 类 问 题 , 需 要 建 立适合于构建大型分布式的公共数字图书馆服务网 络 , 能 将 分布 在 互 联网中 各 个 图 书馆 的 资源 和 服务 整 合 成 为 一 个 整 体 , 形 成 一 个 可控 的 自 适 应 的 新 型 服务 体系 。 通过对 各种 服务 进 行 动态 管 理 和 分 配 来 满足 不 同层次 和 规 模 的数 字 图 书馆 需 求 。 支 持 馆 际 透 明 的 协 作 和 服务 获取 、 支 持 各 馆 用 户 的 聚 合和 参 与 、 支 持 多 馆 协 作 的 社 会 化 网络的 构 建 、 支 持 多 馆 资源 的 共 建 和
44、共享 , 具 有 自 适 应 扩 展 的 能 力 。 云 计算 即 服务计算 即 服务 概念 及技 术 的 提 出 , 为 多 馆 机 构之间 大 规 模 的 资源 共享 和合 作 , 提供了资源 共享 的 基 本 方 法 。 本研究 将 云 计算 即 服务与 元 数据 采 集 harvesting 方 法 相 结 合 , 提 出 一 种 增 强 数 字 图 书 馆 (4 ) 若 目 标 服务 实 例 不 可 用 , 则 将 消 息发 给 其 他 2.4.5 广泛分布式存储 分布 式 存 储 的 目 标 是 利 用 多 台 服务 器 的 存 储 资源 来来 满足 单 台 所 不能 满足 的 存
45、 储 需 求 。 分布 式 存 储 要 求 存 储 资源 能 被 抽 象表 示和 统一 管 理 , 并 且 能够 保 证 数据 读 写 操 作 的 安 全 可 靠 。 47 互 操 作 的 新 结构 体系 数 字 图 书馆 云 计算 即 服务 体 系 DLs-Cloud , 利 用 云 计 算 即 服 务 技 术 更 好 地 解 决 资 源 发现 、 整 合 、 存 储 检索 、 安 全 等 问 题 , 克 服传 统互 操 作 方 案 的 局 限 性 , 支 持 大 规 模 信息 资源 共享 。 3.1 分 别 是 DLib-Cloud 基 础 设 施 云 、 DLib-Cloud 平 台 云
46、 和 DLib-Cloud 应用 云 。 其 中 , 基 础 设 施 云 层 中 存 放 各种数据资源, 分布在不同地域的多个数字图书馆 中 , 直接 作 为 互 操 作 数 字 图 书馆 的数据 提供 者 , 提供 OAI-PMH 协 议 规 定 格 式 的 元 数 据 , 形 成 遵 循 OAIPMH 协 议 的 元 数 据 仓 储 (Metadata Repository 。 平 台 云 层 屏 蔽 了 底 层 数 字 图 书馆 的 分布 性 、 异构 性 , 通 过 进 行 元 数据的发现 、 收 集 和全 局 索引工作 , 为 应用 云 层 提供 统一 的 服务 接 口 。 应用 云
47、 层 为 用 户 提供 统 一 的 服务 接 口 , 包括 提供 数 字 图 书馆 的文 献 检索 、 馆 际 互 借 、 参 考 咨询等服务 。 如 图 5 所示 。 云 层 来 收 集 元 数据 , 各 节 点 的 组 成 和 功 能描 述 如 下 : 个 配置 文 件 , 该 文 件 包 含 所 有 可 以被 收 集 的数据 提供 并对 最近 的 收 集 工作进 行 跟踪 , 一 旦 历 史 数据 收 集完 毕 , 在 预 定 新 的 收 集 之前 , 确定 合 适 的 参 数 。 者 列 表 , 将 收 集 元 数据的任 务 分 配 给 harvesting 节 点 , 过 一 个 W
48、eb 方 法 与计 划 节 点 联系 接 受 收 集 任 务 , 一 旦 Á Â Ã Ä Å É Ç Æ Ç Å È & Ä Á Â Ã É Á Â Ã Ä Å $ % Ç È Æ # ! " È É Å Â Ã 农业网络信息 2012 年第 7 期 信息资源建设与管理 分 送 到不同 的 搜 索 集 群 节 点 。 3.2 DLib-Cloud 工作原理 DLib-Cloud 云 计 算 即 服 务 通 过 开 放 的 云 层 平 台 , 屏 蔽 了 数 字 图 书馆 的 分布 性和 异构 性 , 完 成地理 分布 的数字图书馆间的元数据的发现、 收集和全局索引, 为 用 户 提供 一 致 的信息 服务 。 基 于 云 计算 即 服务 的 DLib-Cloud 具 体 工作 步 骤 如 DLib-Cloud 互操作的体系结构 DLib-Cloud 云 计算服务 互 操 作 体系由 三 部 分 组 成 , 下 : 元 数据 统一 收 集 节 点 启 动 元 数据 收
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年灯湖第三小学面向社会招聘语文、数学临聘教师备考题库及答案详解1套
- 2025年兰州新区石化集团社会招聘15人备考题库参考答案详解
- 数字安徽有限责任公司2026年校园招聘备考题库及1套参考答案详解
- 2025年恒丰银行武汉分行大堂助理岗(劳务派遣制)招聘备考题库有答案详解
- 2025年岑溪市公开招聘专任教师备考题库及一套完整答案详解
- 2025年陇西县马河镇卫生院招聘乡村医生备考题库及一套答案详解
- 2025年黔南州统一面向社会公开招聘乡村医生59人备考题库及答案详解一套
- 2025年苏州深时数字地球研究中心新研项目组招聘科研助理与财务助理备考题库及答案详解1套
- 2025年黄石本地国企招聘工作人员备考题库及一套答案详解
- 理发店门口圆筒原理课件
- 西南名校联盟2026届高三12月“3+3+3”高考备考诊断性联考(一)英语试卷(含答案详解)
- 黄埔区2025年第二次招聘社区专职工作人员备考题库有答案详解
- 2025贵州锦麟化工有限责任公司第三次招聘7人备考笔试题库及答案解析
- 2025广东广州琶洲街道招聘雇员(协管员)5人笔试考试参考试题及答案解析
- 2025国家统计局齐齐哈尔调查队招聘公益性岗位5人笔试考试备考试题及答案解析
- 2025年中医健康管理服务合同模板
- 《红军重走长征路》课件
- 机械加工工艺过程卡片
- 2企业安全生产标准化建设咨询服务方案
- 腰椎骨折课件教学课件
- 大学与青年发展智慧树知到期末考试答案章节答案2024年华侨大学
评论
0/150
提交评论