大数据存储的概念_第1页
大数据存储的概念_第2页
大数据存储的概念_第3页
大数据存储的概念_第4页
大数据存储的概念_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据存储的概念背景介绍大数据已成为当前社会各界关注的焦点。从一般意义上讲,大数据是指无法在可容忍的时间内,用现有信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。近年来,大数据的飙升主要来自人们的日常生活,特别是互联网公司的服务。据著名的国际数据公司(IDC)的统计,2011年全球被创建和复制的数据总量为1.8ZB(1ZB=1O21B)具中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB,lPB=1015B)o然而,与大数据计算相关的基础研究,诸如大数据的感知与表示、组织与存储、计算架构与体系、模式发现与效应分析等,目前还没有成体系的理论成果。对于大数据计算体系的研究,—方面,需要关注大数据如何存储,提供一种高效的数据存储平台;另一方面,为了应对快速并高效可靠地处理大数据的挑战,需要建立大数据的计算模式以及相关的优化机制。2•相关工作为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库夕KAltibase,Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于SharedNothing架构的面向结构化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP收购),Asterdata(TD收购),以及南大通用在国内开发的GBase8aMPPCluster等。目前可以看到的类似开源和商用产品达到几十个,而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史両且发展好的基本都被收购了。收购这些新型数据库厂商的公司,比如EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP除了收购Sybase外,自己开发了一款叫HANA的新产品,这是一款基于内存、面向数据分析的内存数据库产品。这类新的分析型数据库产品的共性主要是:架构基于大规模分布式计算(MPP);硬件基于X86PC服务器;存储基于服务器自带的本地硬盘;操作系统主要是Linux;拥有极高的横向扩展能力(scaleout)和内在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理成本,为”大数据”处理提供技术和性价比支撑。总的来看,数据处理技术进入了一个新的创新和发展高潮,机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动看技术的创新,并为此创造了很多机会。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不那么保守了,因为大家开始清晰地看到传统技术的瓶颈,选择新的技术才有可能解决他们面临的新问题。3.核心技术L大数据重复数据删除技术在大数据时代,数据的体量和增长速度大大超过了以往,其中重复数据也在不断增大。国际数据公司通过研究发现在数字世界中有近75%的数据是重复的,企业战略集团(EnterpriseStrategyGroup,ESG)指出在备份和归档存储系统中数据的冗余度超过90%。因此,高效的重复数据删除技术(ClusterDeduplica-tion)成为缩减数据占用空间并降低成本的关键。然而,由于这项技术是计算密集型和读写(I/O)密集型的技术,特别是重复删除运算相当消耗运算资源,要进行大量的读写处理,因此现有系统在存取性能方面还存在很多问题需要解决。在大数据存储环境中,将集群重复数据删除技术有效地融入分布式集群存储架构中,可使存储系统在数据存储过程中对重复冗余数据进行在线去重,并在存储性能、存储效率以及去重率等方面得到优化。具有重复数据删除功能的分布式存储架构通过设计并实现具有重复数据删除功能的分布式文件系统,可使其具备高去重率、高可扩展性、高吞吐率等特征。分布式重复数据删除系统的架构包括客户端、元数据服务器和数据服务器三部分(见图1)。客户端主要提供集群重复数据删除系统对外的交互接口,并在所提供的文件操作接口中实现基于重复数据删除的存储逻辑和对数据的预处理,如数据块的划分与"指纹"的提取。元数据服务器实现了对元数据存储、集群的管理与维护,包括管理在数据存储过程中整个会话,保存与管理分布式文件系统中的元数据,管理和维护系统存储状况,指导数据路由并满足系统存储的负载均衡。数据服务器主要负责数据去重引挛以及数据的存储和管理。数据服务器通过网络与客户端进行通信,响应客户端的读写请求,通过网络与元数据服务器异步更新数据服务器的数据接收状况以及节点存储状况。当接收到客户端的写请求时,数据服务器接收数据并在节点内进行冗余数据的去重。网络通信模块可提供一种能够在客户端与分布式文件系统各节点间进行通信的有效机制,通过远程过程调用交换元数据和少量控制信息,通过流套接口(streamsocket)网络传输大量的数据与指纹信息。3•数据路由策略基于单节点内的局部去重,即在一个节点内对数据进行去重,确保存储环境中系统的整体性能和存储带宽。需要强调的是,数据的存储位置是关键,原因在于数据路由位置直接影响数据的去重率;根据数据的相似性以及数据局部性的相关理论,基于超块的高效局部相似路由算法可确保全局数据去重的可靠性。在数据路由粒度方面,超块(Supe「Block)是对上传数据通过分块算法,如可变分块(Content-DefinedChunk-ing,CDC)、固定分块(Fixed-SizedPartition,FSP),进行分块后(见图2),由连续的几个小分块拼接成大的局部块。文件由连续的超块组成,并将超块作为数据路由的单位,发送到选定的节点中进行节点内的冗余数据去重。在数据去重方面,数据相似是指节点中已有超块与新来的超块之间的相似度,Jaccard距离可用于衡量两个超块的相似度。通过有状态的局部相似路由算法,实现数据的路由。4•大数据编码优化技术基于纠删码的数据冗余技术是不同于多副本技术的另外一种容灾策略,其基本思想是:通过纠删码算法对k个原始数据块进行数据编码,得到m个纠删码块,并将这k+m个数据块存到不同的数据存储节点中,以此建立容灾机制。当k+m个元素中任意的不多于m个元素出错(包括数据和冗余出错)时,均可通过对应的重构算法恢复出原来的k块数据。这种方法具有冗余度低、磁盘利用率高等特点。相较于多副本策略,在大数据存储平台中利用纠删码建立容灾机制,对存储空间和网络带宽的需求有所降低,但是由于引进了纠删码计算,因此对纠删码编码的计算速度提出了要求。最有效的办法就是减少纠删码计算过程的异或次数。目前的调度算法都是启发式的,如CSHR、UBER-CSHR.X-Sets等。用这些算法对一个柯西矩阵求取调度时,各自得到的调度都无法保证是所有调度方法中最优的,并且柯西矩阵配置参数(k,m,w)通过组合会得到个柯西矩阵,究竟哪—个矩阵会产生较好的调度z目前为止尚无规律可循。针对该问题,为了提高数据编码效率,我们提出了关于纠删码求取调度组合的选择框架思想。该框架基于现有技术提供了一种高效的数据编码方案X化调度方案。此方案能为柯西矩阵配置参数(k,m,w)选择出具有高编码效率的柯西矩阵和相应的调度,以用于大数据存储的数据编码。该选择框架(见图3)包括如下三部分。首先准备柯西矩阵。根据多种生成柯西矩阵的算法生成柯西矩阵集合{MO,Ml,••…,Mt-l}o考虑到更新性能(柯西矩阵中T的个数越少越好),尽量选择"1"个数较少的柯西矩阵。对第1步准备好的柯西矩阵求取调度组合。对每个柯西矩阵运行多种求取调度组合的启发式算法之后,得出各自最好的柯西矩阵和调度组合(M,S),具体结果为{(MO,SO),(M1,S1)/-,(Mt-1,St-l)}o

从第2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论