基于云计算的数字图书馆架构.docx_第1页
基于云计算的数字图书馆架构.docx_第2页
基于云计算的数字图书馆架构.docx_第3页
基于云计算的数字图书馆架构.docx_第4页
基于云计算的数字图书馆架构.docx_第5页
已阅读5页,还剩1页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于云计算的数字图书馆架构摘要:基于云计算的数字图书馆可以解决数字图书馆面临的资源重复建设等问题。提出云图书馆平台实现数字图书馆之间的资源共享问题,首先搭建云图书馆平台架构,然后介绍云计算相关技术Hadoop并将其应用到本地图书馆建设中构成本地图书馆云平台,利用Web技术实现对本地图书馆的调度,接着在云平台框架上实现了图书馆中最常见资源检索服务,最后论述该平台在后续发展中需要注意的问题。关键词: 云图书馆平台;架构;资源共享;Hadoop;资源检索服务Abstract: The digital library based on cloud computing can solve the problems such as resource repeated construction of digital library. This paper proposed a cloud library platform and realized the sharing of resources between digital libraries. Firstly, build a architecture of the cloud library, Secondly, introduce the cloud computing technology learned Hadoop and apply it to the local librarys building to form a local library cloud platform, using Web technology to realize the scheduling of the local library. Then achieved the resource search service, that is the most common service of a library, on the cloud platform. Finally discussed the issues the platform needs to pay attention in the follow-up development.Keywords: cloud library platform ; architecture ; resource sharing ; Hadoop ; resource search service0 引言云计算的诞生是在2007年第3季度,其关注度至今一直居高不下,从云计算提出以来虚拟化技术就被提到了很高的地位,虚拟化技术被称为云计算的核心技术。云计算将计算资源集中起来,无需人为参与而是通过专门的软件自动管理,用户可以动态申请资源来提高效率、降低成本和技术创新,基于此特点,越来越多的企业和组织机构想通过云计算来提高自身的服务体验和管理水平。随着电子资源的日益丰富,各高校图书馆存储设备的容量也越来越大,由于技术、管理体制和知识产权的原因,各图书馆电子资源的存储都是追求小而全,信息重复量达到90%。存储设备重复建设,浪费巨大。根据知识产权的要求,电子资源应有偿使用。如何在保证有偿使用的前提下,避免我市各高校图书馆电子资源的重复建设,实现电子资源的共建共享,已成为高校极为关注的问题。1要真正实现共建共享,其基础是实现存储设备共享。通过共享存储设备,用户可以通过购买版权方式共享资源。这样不仅可以减少电子资源的重复建设,而且可以节省存储空间近90%,减少图书馆间大量存储设备的重复投入,提高存储设备的利用率。利用云计算的虚拟化存储技术,可以将各高校图书馆的存储设备虚拟化为一个统一的云存储空间,从而实现电子资源的存储共享服务。1 云计算 “云”是一种新的利用计算机和互联网的方式,它把所有的计算应用和信息资源都用互联网连接起来,提供随时的访问、分享,对某一相关功能或资源的管理和使用可以部署在全球任何地方的服务器和数据中心。云计算的突出特点和能力有:随时取用、超级计算、平台无关、易部署、易扩展和按需支付等2。云计算按照服务类型大致可以分成三类:将基础设施作为服务IaaS、将平台作为服务PaaS、将软件作为服务SaaS。IaaS将分布在大量的计算机和存储设备上的计算和存储资源集中起来成为一个虚拟的资源池以服务方式提供服务;PaaS把开发环境、应用程序运行环境、数据库环境等作为一种服务来提供给开发商, 由后者开发程序并通过互联网提供给用户;SaaS通过浏览器把程序以服务方式交付给用户,向用户收取服务费。Hadoop【3】是Apache开源组织的一个分布式计算框架。可以在大量廉价的硬件设备上运行应用程序为应用程序提供了一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。其最核心的技术是HDFS和MapReduce。2.1 Hadoop分布式文件系统HDFSHadoop分布式文件系统HDFS【4】可以部署在廉价硬件之上,能够高容错、可靠地存储海量数据。HDFS是Google文件系统(GFS)的开源实现,一个主从结构的体系,HDFS集群有一个NameNode和多个DataNode组成。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端联系NameNode以获取文件的元数据,而真正的文件I/O操作是直接和DataNode进行交互的。NameNode就是主控制服务器,负责维护文件系统的命名空间(Namespace)并协调客户端对文件的访问,记录命名空间内的任何改动或命名空间本身的属性改动。DataNode负责他们所在的物理节点上的存储管理,HDFS开放文件系统的命名空间以便让用户以文件的形式存储数据。图2-1是HDFS的结构示意图。例如客户端要访问一个文件,首先,客户端从NameNode获得组成文件的数据块的位置列表,也就是知道数据块被存储在哪些DataNode上;然后客户端直接从DataNode上读取文件数据。NameNode不参与文件的传输。图2-1 HDFS的结构示意图2.2 分布式数据处理MapReduceMapReduce5是一种分布式计算模型,也是Hadoop的核心,其框架和分布式文件系统HDFS是运行在一组相同的节点上的,即计算节点和存储节点通常在一起。适合MapReduce处理的数据集是可以被分解成许多小的数据集,而且每个小的数据集都可以完全并行的进行处理。MapReduce把运行在大规模集群上的并行计算过程抽象为两个函数:Map和Reduce,分别对应映射阶段和化简阶段6。在映射阶段,MapReduce将用户输入的数据分割为M个片段,对应M个Map任务。对于输入的键值对集合,Map操作后首先输出一个中间态键值对,接着Map按照中间态的K2対数据集进行排序,生成一个新的元组,并按K2的范围将这些元组分割为R个片段,对应Reduce任务的数目。在化简阶段,针对输入片段,Reduce操作生成用户需要的键值对进行输出。图2-2是MapReduce的结构示意图MapReduce框架是由JobTracker和TaskTracker这两类服务调度的6。JobTracker是主控服务,只有一个,负责调度和管理TaskTracker,把Map任务和Reduce任务分配给空闲的TaskTracker,TaskTracker是从服务器,有多个,负责执行任务。图2-2 MapReduce的结构示意图三、基于云计算的数字图书馆基于云计算的数字图书馆,旨在利用云计算相关技术,实现一个“云图书馆”平台,在虚拟存储池上构建高校图书馆之间电子资源的共享存储架构,达到高校图书馆之间存储设备的共享的目的。这不仅可以消除地域分布、系统异构等问题造成的共享困难,有助于实现资源的统一组织和调度,还可以大大减少存储设备的重复投入,提高设备和资源的利用率。“云图书馆”平台由一个联合服务平台和多个本地图书馆云平台构成。联合服务平台将不同的本地图书馆云平台集成起来,针对各个本地图书馆云平台提供的不同的OpenAPI,联合服务平台采用一个统一的API托管服务中心,以统一服务接口方式提供给各个图书馆并且以统一的界面和操作方式为读者提供服务。本地图书馆云平台是指各个图书馆根据本馆已有的大量廉价的硬件设施,将现有设备通过云计算的集群技术连接起来,构成一个运算能力、存储能力巨大的图书馆应用服务器。本地图书馆云平台采用Hadoop框架,该集群环境包括一个主节点NameNode和多个子节点DataNode,NameNode采用元数据和副本的方式实现容错,DataNode则以副本的方式实现容错,并且采用节点动态加入技术来减少扩展系统的工作量。各个图书馆将放入云环境中的资源载入到分布式文件系统中,当用户发起请求时,将会生成用于搜索的MapReduce函数,并行的在DataNode中进行任务搜索,最后输出最终结果。云图书馆平台示意图如下:图3-1 云图书馆平台示意图四、本地图书馆云平台架构构建本地图书馆云平台,即利用各高校冗余的硬件设备,运用Hadoop技术将硬件集群以云的方式集中起来提供服务。可将本地图书馆云平台自下向上分为存储层、基础管理层、应用接口层和访问层。如图4-1所示:图4-1 本地图书馆云平台架构4.1存储层存储层由大量的服务器组成,是架构中最基础的部分,对应云计算中的基础设施即服务。其利用嵌入式云终端技术、虚拟化技术等构建一个虚拟的数据中心,表现一个平台的虚拟环境,通常由物理主机、虚拟机、服务器组成。通过向这个虚拟数据中心中增加新的服务器和节点、删除不必要的服务器和节点,可以达到提高服务性能的目的。4.2 基础管理层基础管理层是架构中最核心的部分,也是架构中最难以实现的部分,对应云计算中的平台即服务。该层主要采用集群、分布式文件系统、中间件技术和网格计算等技术,将存储层中的各个设备进行协调,使其可以对外提供同一种服务。其核心是数据调度管理、数据分发、重复数据的删除、数据压缩、数据加密备份、数据安全等。4.3应用接口层应用接口层是架构中最灵活多变的部分,对应云计算中的软件即服务。应用接口层是云存储最灵活多变的部分。不同学校的图书馆可以根据本馆实际情况,开发不同的应用服务接口,提供不同的应用服务。通常提供统一检索、资源调度、馆际互借、文献传递、参考咨询、特色库加工和文献的采购、编目、流通与发布等【7】。4.4访问层访问层是个终端进入数字图书馆云平台的入口,是架构的最高层。任何一个授权用户都可以通过标准的公用应用接口来登录,享受云图书馆服务。云图书馆界面采用Web形式,向用户提供统一的服务界面,并根据用户的不同提供相应的API实现注册、验证等功能。五 云图书馆平台的应用以资源检索为例以重庆地区三所高校中重庆大学、西南大学、重庆邮电大学数字图书馆联盟为例,令联合服务平台为CQplant,重庆大学本地图书馆云平台为Cplant,西南大学本地图书馆云平台是Wplant,重庆邮电大学图书馆云平台为CPplant。用户首先通过Web服务接口在联合服务平台CQplant中提交检索请求,联合服务平台CQplant接收到请求后,通过Web中间件对这三个分布在不同节点上的异构平台进行统一管理和调度,查询将分散到各个本地云平台中,在本地云平台中执行并得到结果,随后将各个查询结果进行汇总得到最终的结果返回给客户。各个本地云平台执行查询请求是在Hadoop框架中进行的,基于MapReduce分布式计算思想,首先NameNode调用JobTracker服务分发Map函数到所有空闲的DataNode上,空闲的DataNode再调用TaskTracker对自己维护的数据运行Map,产生一个中间态的键值对集合并排序生成元组,接着NameNode再次调用JobTracker服务分发Reduce函数到所有空闲的DataNode上,对元组进行结果汇总生成,得到各本地云平台的查询结果。资源检索示意图如下:图5-1 资源检索示意图五、 结语云技术作为一种技术与应用结合的理念,为图书馆数据存储带来了新的契机。CALIS中国高等教育文献保障系统的建设就采用了基于云计算技术来构建新一代中国高等教育数字图书馆,旨在为全国近2000个高校成员馆提供标准化、低成本化、自适应、可扩展的高校数字图书馆云服务平台,为高校师生提供全方位的文献服务、咨询服务、电子商务和个性化服务8。各图书馆可以利用现有设备启动安全无间断的信息服务。本文对高校图书馆联盟做了初步探讨,提出云图书馆平台,利用Hadoop架构搭建了本地云图书馆平台,并对云图书馆平台下资源检索功能进行设计实现,初步实现了图书电子资源的共享访问问题。但是云计算环境下数字图书馆仍面临诸多问题,由于云计算环境下图书馆特色信息资源共享是新生事物,如何做到资源共享,各图书馆的职责、权利、义务及合同履行时间、付费形式和金额等将如何制定等,都是需要考虑的问题。1周和平.关于建设中国数字图书馆工程的问题J.中国图书馆学报,2000.2肖鹏.云计算对图书馆事业的双重影响J.图书馆学研究,2009(8):42-44.3/4/core/docs/r0.18.2/api/ind

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论