版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代下存储技术的应用与发展摘要:近年来,随着云计算、区块链、移动互联、人工智能等现代信息技术的高速发展,对大数据的采集、存储、管理和处理成为可能,越来越多的人和企业意识到数据作为一种资产的重要性。国家“十三五”规划纲要也明确指出,要把大数据作为基础性战略资源,加快推动数据资源共享和开发应用,助力产业转型升级和社会治理创新。可以看出,如何更好地存储、管理和使用数据,正在受到更多人的关注。本文针对大数据的典型特征,阐述大数据场景下存储技术面临的一系列挑战,同时介绍基于区块链的大数据云存储系统,并结合企业应用实际案例说明大数据存储技术的现实意义和应用前景。关键词:大数据存储技术区块链一、大数据给数据存储技术带来的机遇与挑战何为大数据?维基百科将其描述为“无法在一定时间内由传统数据库管理工具、数据处理及应用软件对其内容进行抓取、管理和处理的数据集合”。IDC从特征角度给出定义,“一般涉及两种以上的数据形式,数据量达到100T以上,且是高速、实时数据流”。随着人们对信息技术的不断实践和深入探究,大数据的概念也在不断地演变之中。大数据具有海量性(Volume)、多样性(Variety)、高速性(Velocity),即业界最早定义的基本特征“3V”,后来由IBM补充提出了真实性(Veracity)和价值性(Value)两个特性。无论如何,大数据的特征描述伴随着数据量的持续增长和应用场景的不断拓展,是一个动态变化的过程。以下根据大数据的“3V”基本特征,阐述了大数据时代下数据存储面临的技术挑战与发展机遇。(一)容量(Volume)的挑战首先,随着数据容量的不断膨胀,出口带宽、IOPS等多种因素对传统存储架构提出了新的挑战。小规模集群系统不易扩展,难以支持超大数据量存储。对于结构化数据,主要通过关系型数据库二维表的形式对关键信息进行提炼和存储。在大数据时代,传统的结构化半结构化数据逐渐演变为非结构化数据,数量巨大且格式不一,描述数据的逻辑关系极其复杂。为解决非关系型的、分布式的海量数据存储,NoSQL数据存储系统应运而生。同时,在本地文件系统中,一个命名空间往往只能与一台计算机或文件系统相关联。由于命名空间的范围有限,本地文件系统难以管理PB级别的数据。因此,针对海量数据,命名空间需要做到全局统一。全局命名空间需要将所有节点的命名空间整合为统一命名空间,将系统中所有节点的存储容量组成一个巨大的虚拟存储池,从而消除多个命名空间产生的数据孤岛。此外,分布式存储系统中经常会产生各种类型的异常和故障。从历史报告中可知,单机故障和磁盘故障的可能性最高,这两者又与分布式存储系统的数据可靠性密切相关。对于单机故障和磁盘故障,通常采用节点检测、冗余策略等方式来应对数据丢失的风险。节点故障检测分为中心化和去中心化检测,冗余策略主要包括服务冗余(主备、双活)和数据冗余(多副本、EC)。(二)多样性(Variety)的挑战多样性是大数据的关键属性之一,数据来源和格式的多样性在一定程度上决定了管理方式的多样性。当前软件种类繁多、数据组织格式和存取访问方式各有不同,大数据应用通常需要组合各种数据源以及不同类型的数据。在数据共享、数据读取和格式转换等需求场景下,不同的分析组件对数据分析效率将产生一定影响,长此以往必然将导致信息孤岛的产生。因此,支持多种主流接口和访问协议将成为大数据存储的必然趋势。存储系统需要提供丰富的接口来便捷地存取数据,包括传统的网络文件协议(如NFS、CIFS),主流的互联网对象存储接口(如S3)以及HDFS接口。(三)性能(Velocity)的挑战对性能(Velocity)的评估关键在于企业和用户的最终需求,包括在预定时间内批处理和装载以及实时流数据处理速度。前者主要通过传统数据仓库和Hadoop处理,后者包括CEP、规则引擎、文本分析等架构的技术处理。在大数据早期,人们只关注于数据量大这一特性,一般的设计思路是摈弃纵向扩展的大型机等专用设备,如采用Scale-out架构使用通用硬件。但随着大数据的应用场景不断拓展,不同的业务应用对数据分析的时延要求不尽相同,仅仅依靠分布式架构并不能解决所有问题。实际上,大数据系统部署采用的主流方式是存储与计算合一,缩短数据I/O路径,I/O带宽也不用受制于网卡,从而降低数据I/O时延。与此同时,服务器的CPU缓存局部化效果也变得更好,热点数据不用再频繁地接入或输出。(四)机遇与措施为应对大数据时代的挑战,存储行业正发生着一场深刻变革。新的存储产品形态和技术架构开始普及,新的存储系统以及建立在其上的各种存储架构理念也不断出现。全闪存阵列、混合存储和ServerSAN等存储系统成为趋势,融合存储、超融合存储、软件定义存储(SDS)等架构理念方兴未艾。同时,在软硬件发展的推动下,云计算技术和产业日趋成熟。企业数据中心正向混合云方向发展,大数据分析任务将根据数据分布位置跨越混合云调度执行。在计算层面,这需要大数据分析任务调度能与云计算任务配合,合理调度私有云和公有云的计算资源。在存储层面,这将要求企业存储环境能与公有云存储连通,有利于数据流动。这场变革对中国来说无疑是良好的机遇。一方面,对新技术的理解和应用,可以给我国企业的信息化建设带来有效帮助;另一方面,在国外传统存储厂商垄断市场多年后,新技术的出现有利于形成全新的市场竞争格局。在同一起跑线下,中国存储企业要有能力和信心建立新的标准,积极参与国际市场竞争,推出具有代表性的产品。二、基于区块链的大数据云存储由于比特币的兴起,区块链技术被广泛应用于包括云存储和大数据在内的多个领域。区块链是一种分布式数据库,是通过多种密码学技术相关联产生的一串数据块,每个数据块包含一次网络交易信息,用于验证该信息的有效性同时生成下一个区块。区块链本质是为了解决信任问题,在无第三方中介机构的参与下降低信任成本,从而实现高可信度的数据共享和点对点的信息传输。因其具有去中心化、不可撤销、不可篡改和安全加密等特性,可以为应用系统提供良好的安全保障。与集中式存储技术不同,基于区块链的分布式存储技术通过P2P网络将数据存储在网络的各个节点上,并将这些分散的资源整合到一个虚拟的统一存储空间中。区块链技术可以用来解决大数据共享中的激励与价值认可、安全与责任认定等问题,一些存储系统已经开始使用区块链技术来保障大数据的存储安全。(一)StorjStorj是针对云存储领域开发的开源区块链项目,是一个基于以太坊的去中心化分布式云存储平台,通过将文件加密,然后将其分解成更小的数据块,分散地存储在网络中。它的价值主张是比传统云存储快10倍,价格却便宜一半,同时使所有用户更加分散,容易访问且更加安全。Storj设有中心化的奖励机制,即鼓励用户通过DriveShare平台分享自己的硬盘空间和剩余流量,再根据每个用户的存储量来发放区块奖励。在Storj中,用户的数据会被自动分片存放在不同节点处,通过冗余和端到端加密存储。若用户要从区块链上下载数据,可以通过“并行下载”多个分片来提高数据读取速度。同时,Storj使用块交易功能,如交易分类账、私钥加密和加密散列函数等方式来保障区块链上数据的安全性。(二)SiaSia是由区块链技术支持的去中心化数据存储平台,旨在创建一个分散的数据中心网络。Sia软件根据MIT许可证获得许可,其代码是开源的,独立开发人员可以自主构建应用程序,为软件做出贡献。用户可以使用SiaCoin来租用存储空间,也可以通过给别人提供存储服务获得代币。与Storj的存储过程类似,Sia在分散的网络上对文件进行加密和分发,从而消除任何单点故障,确保了较快的上传速度。同时,只有用户可以控制其私有加密密钥并拥有其数据的所有权,外部公司或第三方将无法访问或控制用户的数据。由于支持区块上的智能合约并且拥有智能的冗余管理,Sia的平均存储价格远低于市场上大部分云存储服务商。在Sia上存储1TB文件的费用约为每月1-2美元,而在AmazonS3上为23美元。此外,Sia使用Reed-Solomon算法来确保数据的安全性。系统将每个文件分配给30台托管主机,只需任意10台就能恢复数据。如果每台主机都具有90%的可靠性,文件可靠性将高达99.99%。由于这30台主机遍布全球,并且位于不同的服务器上,因此丢失数据的可能性微乎其微,任何随机事件都不会触发数据丢失。(三)IPFS为解决HTTP(超文本传输协议)效率低下、服务器成本昂贵、中心化网络存在瓶颈等缺点,IPFS(星际文件系统)从2014年开始由ProtocolLabs在开源社区的帮助下发展,它是一个开放源代码项目,最初由JuanBenet着手设计。IPFS旨在创建一种持久且支持分布式存储和文件共享的网络传输协议。它是一种内容可寻址的对等超媒体分发协议,不需要验证发送者的身份,只需要验证内容的哈希值,从而让网络更快、更开放、更安全。IPFS网络中的节点将构成一个面向全球的、点对点的分布式版本文件系统,并试图将具有相同文件系统的计算机连接在一起。可以说,IPFS从本质上改变了网络数据的分发机制。与HTTP基于域名寻址不同,IPFS采用内容寻址的方式查找文件。当文件被存入IPFS网络时,会基于文件内容生成唯一的加密哈希值。IPFS将文件的哈希值表存放在区块链中,若用户需要访问目标文件,可以通过查询区块链获取文件地址。此外,IPFS还提供文件的历史版本控制器,通过多节点使用保存不同版本的文件。在整个系统中,矿工负责提供存储和数据检索服务,通过为网络提供开放的硬盘空间获得FileCoin,需要服务的用户可以用代币支付存储加密文件的费用。三、存储技术的企业应用案例分析——以华为OceanStorDJ为例随着计算机技术和移动互联网的飞速发展,数据正以前所未有的速度迅猛增长,如何更好地存储、管理和使用数据已成为企业的一大难题。一方面,海量数据增加了存储成本,丰富的管理工具也增加了管理成本和复杂性;另一方面,异构孤岛导致数据不能相互流动,缺乏开放接口难以与现有系统集成。为了应对这些难题,存储系统逐渐向软件定义的体系结构演进,SDS(软件定义存储)应运而生。SDS可分为数据面和控制面两种类型,其中数据面构建数据路径的虚拟化,控制面将控制路径抽象为服务层。OceanStorDJ作为华为SDS方案解决了控制面的统一,实现了异构存储资源池化管理、统一分配和集中运维。(一)产品定位OceanStorDJ功能架构图OceanStorDJ是一个面向云数据中心、构建于存储设备外的存储服务管理平台。其核心价值主要体现在以下三个方面:存储资源虚拟化、业务部署自动化、数据应用服务化。首先,OceanStorDJ基于OpenStack实现标准化的接入,统一管理华为、第三方和标准商用硬件,打破了设备之间的壁垒,形成抽象的虚拟资源池,提高了存储资源的利用效率。其次,模板化的服务调度与编排降低了OPEX,简化了用户使用存储的方式,方便用户管理自定义服务。此外,针对云平台数据,OceanStorDJ按需提供存储、保护、容灾、运维分析等功能,用户可以通过服务目录的方式申请备份服务,并设置自动保护。在云环境中,存储和数据保护功能将以XaaS的形式提供。(二)功能组件OceanStorDJ的功能组件主要包括服务目录、模板管理、自动化、资源池化管理以及备份容灾服务。服务目录一般位于云数据中心的管理平台,是DJ对底层管理设备的抽象。其目的是简化用户对存储系统的操作,屏蔽底层存储设备的多样性和功能的可复制性,使用户专注于业务需求和服务质量,可以在单一界面上按需请求存储资源。存储服务模板主要用来简化租户用户存储服务,包括存储资源分配、数据保护等模板,同时支持二次开发,按需加载新的存储服务模板。在华为SFV框架中,可通过公有云应用商店下载模板的企业数据中心,如FusionStorage、Hadoop、MangoDB等,基于该存储服务模板按需部署存储应用。存储自动化可以根据用户指定应用需求指标,在可用域中自动寻找满足需求的物理存储池,同时在满足条件的物理存储池上创建LUN并将其映射到主机侧。对于FC-SAN存储,存储自动化主要包括存储自动发现,物理资源池自动导入,AZ域划分,SAN网络自动化,多路径选择,自动映射等关键技术。资源池化,主要指OceanstorDJ在控制面上将各种类型的存储(如FC-SAN、ServerSAN、NAS、对象存储)从逻辑上组成一个巨大的虚拟存储资源池,本质是具有相同或相似存储容量的多个物理存储池,构成了具有SLA功能的逻辑存储资源池。当用户请求存储资源时,他们无需关心后端由哪台设备为其应用提供存储服务。备份容灾服务是对云主机及应用的备份容灾服务的抽象,以服务资源的形式提供给租户使用。与资源池分级相同,备份容灾服务基于保护等级分为金、银、铜三个等级,系统管理员也可根据自身企业业务需求,重新划分更多等级。备份容灾服务应用场景主要分为两种,一种是在资源配置的同时即实现备份容灾,另一种是为已配置好的资源额外配置保护方案。(三)应用场景OceanStorDJ面向大型企业用户,主要提供存储即服务、备份即服务、容灾即服务和应用即服务四大领域。其目的是简化IT资源分配的复杂度,提高资源利用率和业务上线速度,降低运维管理人员的行业门槛,大大减少企业CAPEX和OPEX投入。对于传统的数据中心,OceanStorDJ作为存储统一管理平台,接管数据中心内的所有存储设备,根据存储能力建立具有不同SLA功能的虚拟资源池,DJ的管理界面提供统一的资源请求接口。对于私有云数据,DJ在IaaS层提供存储资源池层的功能,接管了FC-SAN,NAS,对象存储和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位硬软件采购制度
- 上海交通职业技术学院《经济应用文写作》2025-2026学年期末试卷
- 沈阳建筑大学《社会政策学》2025-2026学年期末试卷
- 邢台新能源职业学院《工程招投标与合同管理》2025-2026学年期末试卷
- 沈阳药科大学《项目管理概论》2025-2026学年期末试卷
- 沈阳工业大学《马克思主义经典著作导读》2025-2026学年期末试卷
- 沈阳师范大学《道路勘测设计》2025-2026学年期末试卷
- 沈阳师范大学《新编普通话教程》2025-2026学年期末试卷
- 上海出版印刷高等专科学校《项目管理与工程经济决策》2025-2026学年期末试卷
- 沈阳药科大学《卫生法学基础教程》2025-2026学年期末试卷
- 大脑卒中急救处理方案
- 广东省化工(危险化学品)企业安全隐患排查指导手册(精细化工企业专篇)
- 7《我不是最弱小的》课件(内嵌音视频)-2025-2026学年二年级下册语文统编版
- 2026吉林大学第二医院合同制护士招聘50人考试参考试题及答案解析
- 催收公司内部应急制度
- 2026年宁夏葡萄酒与防沙治沙职业技术学院自主公开招聘工作人员考试参考试题及答案解析
- 2026年课件湘少版四年级英语下册全套测试卷-合集
- 重庆市科学素养大赛题库
- 压疮的敷料选择
- 湖南白银股份有限公司2026年公开招聘笔试备考题库及答案解析
- 春节后医院后勤工作年度计划课件
评论
0/150
提交评论