开题报告云端文件存储共享服务平台设计与实现.docx_第1页
开题报告云端文件存储共享服务平台设计与实现.docx_第2页
开题报告云端文件存储共享服务平台设计与实现.docx_第3页
开题报告云端文件存储共享服务平台设计与实现.docx_第4页
开题报告云端文件存储共享服务平台设计与实现.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生学位论文开题报告报告题目云端文件存储共享服务平台设计与实现 学生姓名朱隆学号 201128015029044 指导教师叶丹职称副研究员 学位类别工学硕士学科专业计算机软件与理论研究方向网络分布式计算与软件工程培养单位中国科学院软件研究所填表日期 2013-06-20中国科学院研究生院制填 表 说 明1.本表内容须真实、完整、准确。2.“学位类别”名称填写:哲学博士、教育学博士、理学博士、工学博士、农学 博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学 硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管理学硕士 等。3.“学科专业”名称填写: “二级学科”全称。8报告提纲一、选题的背景及意义当今的数字世界正在以前所未有的速度和规模创建动态的非结构化内容,特别是来 自于电信行业,石油石化行业,数字媒体行业,医疗行业,以及 Web2.0、金融行业的 企业级用户正面临前所未有的挑战。非结构化的指数级别的增长使系统管理更为复杂, 系统运营成本不断上升。Zetta 公司对 400 个大公司的 IT 部门做了一次调查Citation。 数据显示,68%的企业需要存储 5TB 以上的非结构化数据,29%企业需要存储非结构化 数据超过了 50TB,这些非结构化数据主要包括:电子邮件,文档,多媒体文件,协同 文件以及备份文件。然而现有的这些企业的系统,主要靠 expand NAS,Tape 等传统的 存储方式作为非结构化数据的存储介质,这些存储方式在可扩展性,灵活性方面有很大 的不足,并且没有办法保证数据的完整性和安全性,难以满足企业快速变化的业务需求 和越来越重要的安全需求,因此越来越多公司 IT 部门选择云存储作为未来的非结构化 数据存储的解决方案。云存储(cloud storage)是云计算发展出来的概念,和云计算一样,具有敏捷,可扩展 性,弹性和多租户的特性。云存储专注于向用户提供以互联网为基础的在线存储服务, 普通用户不用考虑,存储容量、存储设备类型,数据的存储的物理位置以及数据的完整 性、可靠性和安全性等技术细节,只需要按需申请自己所需要的存储空间。云存储技术发展越来越成熟,越来越多企业愿意把数据放在云端(私有云存储或公 有云存储),但无论是私有云存储还是公有云存储只是提供了云存储的服务(),对于企 业用户,如何保证企业的文件能够在安全、灵活、方便地在云端存储与共享,是制约企 业选择云存储的主要障碍。云端文件共享存储平台是搭建在云存储之上的一个文件共享 平台,它在云存储之上,提供文件共享与同步、多租户管理以及安全传输与加密的功能, 企业享受到云存储带来的可靠性、可扩展性的同时,又消除了企业对云存储安全的担忧, 同时又根据企业的需求,提供了文件同步、共享以及多租户管理等功能,使企业信息在 云端快速、安全、合理地流动起来。二、国内外本学科领域的发展现状与趋势1、基于云存储同步共享向服务相关工作 云存储技术发展越来越快,基于云存储的构建同步和共享软件及服务也越来越多,有面向个人的,也有面向企业的,典型的有 DropBox,Google Drive,iCloud, SkyDrive等,在产品的功能技术特点上各有不容,图一是对当前主要同步共享服务的对比。GoogledrivedropboxicloudskydirvesyncplicityWualamozyspideroakbox版本 跟踪30 天30 天25 天30 天10 天30 天永久11 天多文 件夹 同步文件 加密任意 云端 存储公共 文件 共享文件 管理多客 户端从上图可以看出,一个基于云存储同步共享服务最基本的功能有:文件管理,版本 控制,同步,共享,产品面向的群体不同,不同的产品有不同的特色。 2、同步的相关工作为了保证客户端副本保持一致,对于共享与同步系统来说,最重要的是同步功能 同步主要解决您如何快速有效地与远程存储(可以使远程云存储,也可以是私有云存储层,ftp 等)文件同步,即在保持多个地方的副本一致。由于同步的问题会在现实中的不同场景中出现,在不同的应用中都会有相应的解决方案。尽管各种场景下需要快 速同步的目标是一致的,但是由于应用的需求不同,这些应用的对于同步的解决方式从 根本上是不同的,目前比较典型应用副本同步的场景有:专门同步的软件(如 rsync, Union)、版本控制等系统(如 cvs,svn,git 等)、分布式文件系统(如 nfs,hdfs)。根据软件的应用要求不一样,同步的算法可以根据同步的时间分为两类,一类是即 时同步,一类是定期同步。由于在多数情况下,按小时同步甚至按天同步是足够的,大 部分的算法使用的是后者。另外,还可以根据同步是单轮同步还是多轮同步来对已有软 件进行区分。多轮同步算法使用递归分治的策略基于哈希策略来检测本地文件与远程文 件的不同。而单轮同步大部分情况下用一种非递归固定大小或非固定大小块来进行同 步。rsync 是 linux 下被广泛使用的同步软件,它是基于固定大小块,单步同步协议的同 步算法。它的原理是在本地和远端都要装 rsync 软件,在本地和远端比对文件的改变, 然后只传输改变的块,并对传输的块进行压缩。由于要求本地和远端都要安装 rsync, 所以这种同步策略对于远端是云存储不适用。像 rsync 这种传统同步的软件,主要关注解决的是按需文件同步策略,适用于定时, 定期同步,而对于实时性要求严格的本地与远程云存储同步的应用不适用的。在这种应用场景下,像 iFolder,Dropbox,Jungle Disk 有比较好的解决方案,相比 于按需同步,这些软件采用类似观察者模式的思想来设计算法,即,在本地操作系统之 上使用监听器,当文件在本地改变时,就自动触发与远端存储进行同步。Dropbox 由于其简单快捷性,已经被广泛接受,在同步方面,Dropbox 把文件分成 块,在传输时仅仅传输不同的“二进制”文件块来节约带宽。在服务器端,Dropbox 采 用服务器端去重压缩,在 Amazon S3 云存储之上存储加密的文件块。三、课题主要研究内容、预期目标1. 云端文件存储与共享服务平台架构云端企业文档协同存储服务,是一个构建在云存储之上的一个文档存储 服务,功能分层框架图如图 2 所示。图 2 功能分层框架图整个云端文件存储有共享服务主要由三层组成,底层是云存储(公有和私有),中间 层云端文件存储与共享服务层,最上层客户端。主要研究内容有:1.1 基于 hdfs 私有云存储服务 云端企业文档协同存储服务平台,是一个企业内部的应用,大量的文档需要上传、共享、备份,需要云端提供能够根据容量实现动态可扩展。同时云端也需要提 高安全性、可靠性、服务质量的保证。如何搭建一个动态可扩展、高可用的、低成 本的企业云存储服务是论文研究的一个重点。1.2 云端企业文档协同存储服务平台关键技术 云端企业文档协同存储服务是搭建在云端的服务中间件,依赖于后台云存储可靠的云存储服务。云端文档协同存储服务,是整个系统的核心,需要解决如下问题。1)基于云存储服务的访问控制 云存储的访问控制是指,根据用户身份确定该用户可以对那些云存储资源进行和何种操作,访问控制主要功能有 1、防止非法主题进入受保护的网络资源 2、防 止合法用户对受保护的网络资源进行非授权的访问。如何设计一套简单、灵活、安 全的访问控制模型,是保证整个云存储能够可安全可靠运行的关键。2)云端用户多租户管理模型 多租户是云存储的一个关键特征,从应用层到存储层都需要多租户管理,在应用层保证多个用户的命名空间存储空间是相互独立的,在存储层保证特定用户或用 户类隔离物理存储,根据企业的需求设计一套灵活的多租户模型,保证用户之间相 互隔离,是论文的关键技术。3)数据共享策略企业不同部门与成员之间需要在云端频繁地进行文档传输与数据分发,为了保 证企业内数据能够流动起来,需要有一套安全、灵活的共享机制,使用户不仅仅 能够自己来编辑,查看文件,还可以共享给他人,让他人对同一文件或者文件夹进行查看或编辑。4)存储抽象作为一个服务中间件系统,可以对远程存储进行抽象,不论远程存储是公有 云存储还是私有云存储,不论是 ftp 还是本地文件系统,系统都能够灵活的进行 扩展,如何设 计一套可扩展性强的存储抽象层,是保证系统可扩展性的关键。5)上层服务层的抽象当前移动端设备越来越普及,为了能够保证用户能够随时随地以最简单的方 式存取数据,系统应该提供多终端的支持,作为中间服务层,应该对上层抽象出 一套统一、简单的 web 服务,满足上层各类客户端对数据访问的需求。2、上下文感知的云端文件同步策略同步算法是平台需要研究的核心技术。算法的作用是检测本地文件与远程文 件的不同,根据不同文件的改变自动对本地和远程进行更新。主要研究问题有:(1) 更新检测(update detection)更新检测是检测从上一同步点开始,那些独立的副本有了改变。在基 于状态的同步软件,例如 rsync,是通过比对所有副本的文件来检测的。在 基于日志,更新检测是通过跟踪副本的更新日志,来更新远程副本,更新 检测完成后还要根据检测结果,来根据更新策略来判断根据哪个副本来更 新全局文件,如果有冲突还要进行冲突解决。(2) 和解(reconciliation)根据更新检测的结果,用和解算法来使所有副本达到全局状态。四、拟采用的研究方法、技术路线、实验方案及其可行性分析在研究开发过程引入“敏捷”的思想,敏捷开发是一种以人为核心、迭代、循 序渐进的开发方法。按照“敏捷”开发的思路,研究开发过程如下。(1) 第一阶段快速开发出一个原型系统,这个原型系统包含系统基本功能。 基本功能有:a、 用 hdfs 搭建一个简单私有云存储,暴露和公有云存储一致的 restful webservice接口,以供上层服务层调用。b、 对于中间层,应该实现多租户管理、文件上传、下载、共享基本功能。c、 对于客户端,应该提供一个简单基于浏览器的 web 界面,方便用户能够上传下 载共享文件。这一阶段,进一步理解研究问题,理清问题难点,为后续研究开发工作做好保证。(2) 根据第一阶段反馈,找出原型系统的瓶颈和不足,优化原有模型,进一步地去发展 和完善系统。综上,敏捷在研究开发过程中起核心作用,在实践中不断沟通,找到问题,并解决问题,在实践中进一步加深对云存储的理解。五、已有科研基础与所需的科研条件目前小组已经在大数据分析和存储,特别是 hadoop 以及相关的生态系统,在国内 外发表论文数篇,有很好的研究基础。另外小组内有充足的研究实验条件:DI 组提供的服务器集群环境、实验室高性能 刀片机,虚拟机,都是重要的研究开发条件。六、研究工作计划与进度安排2013.04-2013.05调研相关文献;2013.06-2013.09开发系统的原型系统;2013.10-2013.12在原型系统上,进一步优化,完善系统;2013.01-2013.04撰写相关论文。七、参考文献1 Cloudstoragestrategy./2011/03/the-cloud-storage-maturity- model-a-value-driven-process-1.html2 周可,王桦,李春花.存储技术及其应用.中兴通信技术. 2011,pp24-27.3 Wenying Zeng,Yuelong Zhao ,Kairi Ou ,Wei Song. ICIS 09 Proceedings of the 2nd International Conference on Interaction Sciences: Information Technology, Culture and Human.2009,pp.1044-10484 Xiaoming Gao, Pranav Shah, Adarsh Yoga, Abhijeet Kodgire , Xiaogang Ni, Cloud storage survey.2013.5 武永卫,黄小猛.云存储.中国计算机学会通信.2009.6 Amazon S3, /s3/.7 K. Shvachko, H. Kuang, S. Radia, R. Chansler, The Hadoop Distributed File System,Proceedings ofIEEE MSST 2011, Incline Village, NV, USA, May 20118 B. Sotomayor, R. S. Montero, I.M. Llorente, I. Foster, Virtual Infrastructure Management in Private and Hybrid Cl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论