




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算环境下的大数据可靠存储关键技术概述论文 呈指数级增长的大数据需要被可靠存储,而云计算环境下的大规模分布式存储节点和数据,极大地提升了数据丢失或失效的几率,该文从云端数据中心拓扑结构的设计、数据容灾技术的相关策略及系统节能减耗等三个方面进行了系统的阐述,为大数据的可靠存储技术研究提供了一定的参考依据。 当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。 云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型1:以server(服务器)为为中央节点的星型结构;以switch(交换机)为中央节点的星型结构;混合结构。三种拓扑结构的特点如下: 以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。 以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。 混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。 容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行2。一般来说,容灾技术按策略的不同主要分两种:复制冗余策略;纠删编码冗余策略。 3.1复制冗余策略 复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据3。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。 3.1.1副本数量设置 副本系数设置主要采取两种方式:静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销; 3.1.2数据放置方法 巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置4。 顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。 随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。 3.2纠删编码冗余策略 3.2.2LDPC编码 LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。 3.2.3阵列编码 阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。 3.2.4RS编码 RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。 数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。 当前,分布式存储系统的节能减耗技术主要集中在两个方面:硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。 1 Popa L, Ratnasamy S, Iannaone G,et al. A Cost Comparison of Data Center Network ArchitecturesZ. xx. 2 吴朱华.云计算核心技术剖析M.北京:人民邮电出版社,xx. 3 郭仁东.网络数据容灾备份技术及其应用浅析J.电脑知识与技术,xx(31). 4 王意洁,孙伟东,周松等.云计算环境
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年珠宝行业虚假鉴定查处考核试卷
- 2025年快递自动分拣设备参数调试操作考核试卷
- 2025年网络视听节目海外传播合规传媒行业文化产业发展考核试卷
- 2025年绿色建筑能源系统全生命周期评价考核试卷
- 三峡核协议书
- 无偿股权转让协议书
- 西山区毕业活动策划方案
- 三年不能离职协议书
- 粮食加工厂原材料采购合同
- 2025-2030企业直播SaaS功能需求分层与客户画像报告
- 跨境交易信用风险传导路径-洞察阐释
- 影响力与ABC法则
- 合规培训课件
- 后人类主义剧场实践-洞察及研究
- 学习解读《水利水电建设工程验收规程》SLT223-2025课件
- 大数据时代下的幼儿园安全管理信息化策略研究
- 食品验收合同协议
- 广西江河资产管理有限公司招聘考试真题2024
- 医院护理培训课件:《医务人员行为规范》
- 《饲料生产工艺》课件
- 高一 统编版必修 上册 语文 第三单元《登高》课件
评论
0/150
提交评论