




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
修订记录,本页不打印,HC1209202第二章大数据存储技术,目标,学完本课程后,您将能够:描述大数据存储架构理解大数据存储技术了解大数据分析技术了解数据安全技术理解集群NAS技术理解文件系统分级存储理解文件系统快照、镜像、复制,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,大数据存储架构,应用层,HPC客户端,客户端,在线系统,近线系统,FC/10GE/Infiniband,FC/10GE/Infiniband,Scale-outNAS,Scale-outDB,Scale-outBackup,磁盘上下电扫描,文件数据保护策略,单盘下电节能,数据定期巡检,文件生命周期策略,DistributedFS,Scale-out架构,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,传统存储与对象存储,大数据存储技术分布式对象资源池,大数据存储技术-Erasurecode,数据写入时被切割成M个数据块经过纠错编码生成N个冗余校验块,共M+N份数据系统将多个数据块并行的存储于不同的节点中当存储节点损坏时,数据读写正常,剩余数据块及冗余块后台参与并将数据恢复,m3,m2,n2,n1,m4,m1,n2,m4,对象存储数据写流程,对象存储数据读取流程,数据块损坏时的数据读取和恢复,元数据冗余,EC快速数据恢复,系统中每个硬盘都属于多个NLUN硬盘故障时,会选出4个目标盘出来进行恢复每个目标盘的恢复是独立的,目标盘之间的恢复可以并发,节点1,节点2,节点3,节点4,节点5,节点6,硬盘1,硬盘2,硬盘3,硬盘n,硬盘1,硬盘2,硬盘3,硬盘n,硬盘1,硬盘2,硬盘3,硬盘n,硬盘1,硬盘2,硬盘3,硬盘n,硬盘1,硬盘2,硬盘3,硬盘n,硬盘1,硬盘2,硬盘3,硬盘n,单一文件系统&统一文件系统命名空间,应用服务器,热数据,冷数据,普通数据,分级存储技术,分级存储满足用户既需要高性能访问也需要大容量存储的双重需求。允许用户自行规划自己的业务,对自己的业务进行分级,把某些重要的业务放在性能较高的节点上。,热数据,冷数据,普通数据,分级存储技术,分级存储满足用户既需要高性能访问也需要大容量存储的双重需求。允许用户自行规划自己的业务,对自己的业务进行分级,把某些重要的业务放在性能较高的节点上。,智能负载均衡,在所有节点间自动进行负载均衡自动平衡容量和性能IP的故障切换(failover)和故障恢复(failback)无需人工干预,无需更改配置对应用透明,node,node,node,node,OceanStor9000,WiseLink,WiseLink,WiseLink,WiseLink,WushanFS,01,2,3,4,智能负载均衡,负载均衡实现过程:访问系统一级/二级域名,如:OceanStor9000对域名进行解析,根据负载策略,返回IP地址业务请求,node,node,node,node,node,node,Zone1:基于CPU使用情况二级域名:,Zone2:基于网络连接数二级域名:,WushanFS,NFSClient,智能负载均衡,负载均衡实现过程:访问系统一级/二级域名,如:OceanStor9000对域名进行解析,根据负载策略,返回IP地址业务请求,node,node,node,node,node,node,Zone1:基于CPU使用情况二级域名:,Zone2:基于网络连接数二级域名:,WushanFS,NFSClient,高效全局缓存(一),storage,CPU,Memory,storage,CPU,Memory,storage,CPU,Memory,A,B,C,应用服务器,nodeA,nodeB,nodeC,WushanFS,高效全局缓存(二),利用分布式锁,实现全局缓存同一数据块在缓存只缓存一份任意节点缓存中的数据都能被其他节点访问时命中,NodeA,NodeB,NodeC,storage,CPU,Memory,storage,CPU,Memory,storage,CPU,Memory,应用服务器,WushanFS,服务器向NodeC申请锁,LOCK,返回锁在NodeA已经申请,从NodeA缓存中读取数据,按需扩展,节点线性扩展,60秒之内完成单节点扩容,无需人为干预,无需任何改动,应用服务器,InfiniBand技术,InfiniBandInfiniBand技术不是用于一般网络连接的,它的主要设计目的针对服务器端的连接问题。InfiniBand技术被应用于服务器与服务器(比如复制、分布式工作等)、服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN、WANs和theInternet)的通信。InfiniBand的用途针对服务器端的连接,提供高速、低时延、RDMA方式的访问InfiniBand的特点高带宽低时延系统扩展性好,InfiniBand体系架构,InfiniBand标准定义了一套用于系统通信的多种设备,包括信道适配器、交换机和路由器。,InfiniBand的帧结构,InfiniBand的帧结构,InfiniBand的特点,高速度Infiniband第一代DDR技术,所支持的吞吐量为5、20或60Gbps,延迟低于1.3us。第二代QDR技术,带宽最高可达120Gbps,延迟低于100ns远程直接内存存取功能该功能对于集群来说很适合,因为它可以通过一个虚拟的寻址方案,让服务器知道和使用其他服务器的部分内存,无需涉及操作系统的内核。传输卸载远程直接内存存取能够帮助传输卸载,后者把数据包路由从OS转到芯片级,节省了处理器的处理负担,InfiniBand的协议栈,10GE以太网,定义10GE以太网(10GigabitEthernet,缩写为10GE,10GbE,10GigE或10GE),即万兆以太网。一种以太网的传输标准,2002年通过,成为IEEEStd802.3ae-2002。它规范了以10Gbit/s的速度来传输的以太网,它的速度是GE的十倍。特点:10Gigabit以太网,以全双工方式连接到网络交换器,它不支持半双工模式与CSMA/CD。10GE提供了高带宽低时延的访问,适合比较媒资类、高算类、OLAP等。,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,数据库技术的演变,随着数据量的飞速增长,特别是非结构化数据,传统关系型数据库的可扩展性出现瓶颈,因此出现各种场景优化的数据存放方式,NoSQL与NewSQL,数据库CAP原理,NoSQL结构,NoSQL与关系型的数据库对比,优势方面:易扩展:灵活的数据模型高可用:快速读写,大数据量,高性能低廉的成本不足:不提供对SQL的支持支持的特性不够丰富NoSQL未形成一定标准,NoSQL与关系型的数据库对比,优势方面:易扩展:灵活的数据模型高可用:快速读写,大数据量,高性能低廉的成本不足:不提供对SQL的支持支持的特性不够丰富NoSQL未形成一定标准,NoSQL分类,NoSQL应用举例,Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。,NewSQL,NewSQL是对各种新的可扩展/高性能数据库的简称。NewSQL数据库具有NoSQL对海量数据的存储管理能力。NewSQL数据库保持了传统数据库支持ACID和SQL等特性。,MPPDB-结构化数据分析,MPPDB关键技术:,扩展方式:增加服务器节点理论上扩展无限制,上千节点互连随着节点数量增加,性能线性提升,MPPDBShare-nothing架构例如:HUAWEIOceanStor9000,EMCGreenplum,DB2DPF,ScaleOut模式,网络,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,存储系统的数据安全性,完整性,保密性,可用性,数据加密,WORM,RAID,用户管理系统加固日志审计补丁管理网络管理(ACL),数据销毁,远程复制,备份恢复,防病毒,对象存储加密,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,什么是NAS?,NAS特征:拥有可访问的磁盘阵列拥有文件系统对外提供访问文件系统的接口,LUN0,LUN1,LUN2,LUN3,LUN6,LUN7,LUN8,LUN9,LUN4,LUN10,LUN5,LUN11,卷管理模块,卷管理模块,文件系统,NetworkAttachedStorage,网络文件系统协议,以太网接口,以太网接口,NAS结构,网络模块,CIFS或NFS协议,CIFS或NFS协议,CIFS或NFS协议,NAS设备,CIFS是什么,定义CIFS(CommonInternetFileSystem),通用Internet文件系统,一个新提出的协议,它使程序可以访问远程Internet计算机上的文件并要求此计算机的服务。CIFS是公共的或开放的SMB协议版本,包含主要模块有:NBTSMBBrowsing,NBT、SMB、Browsing,NBT(NetBIOSoverTCP/IP)TCP/IP上的NetBIOSSMB(TheServerMessagesBlockProtocol)服务器消息块协议Browsing(TheBrowseService)浏览服务,NBT,Hull,Ringo,Clements,TCP/IP网络,Mick,Laidlaw,WhereisRingo?,NBT(NetBIOSoverTCP/IP)TCP/IP上的NetBIOS,ThisisRingo,SMB,SMB是用于文件与打印机共享的协议同时也叫CIFS(CommonInternetFileSystem)基于客户端/服务器模式并不等同于Samba:一种SMB协议在unix系统上的开源实现SMB通常运行在NetBIOS(naming+sessions+datagram)协议之上NetBIOS+SMB适用于LAN环境,Browsing,Browsing(TheBrowseService)浏览器服务的主要功能是:提供客户机域中共享资源的计算机的列表,以及广域网(WAN)上其他域名和工作组名称的列表。此列表提供给用“网上邻居”或NETVIEW命令查看网络资源的客户端。,CIFS消息流,UserMode,KernelMode,NFS(NetworkFileSystem),定义NFS(网络文件系统)是Unix/linux系统间实现磁盘文件共享的一种方法,支持应用程序在客户端通过网络存取位于服务器磁盘中数据的一种文件系统协议。工作原理使用客户端/服务器架构,由一个客户端程序和服务器程序组成。主要模块RPC、鉴权、传输,NFS消息流,RPC是什么?,传输方式,使用UDP协议UDP传输在NFS局域网的应用中传输速度快UDP协议传输的开销小使用TCP协议可靠性高,有效的阻塞控制客户端和服务器端都保留TCP连接的状态服务器崩溃时,客户端只需要打开一个新的TCP连接客户端崩溃时,服务器端在新的TCP连接到来时,关闭原来的TCP连接,应用环境对比、网络特性对比,特性,NFS,CIFS,传输协议,连接状态,故障恢复,传输包大小,TCP/UDP,无状态,自动恢复,8K/32K,TCP,有状态,64K,文件格式,UNIX类型,WIN类型,无,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,集群技术,定义:集群是由一组相互独立的服务器组成,对外表现为单一服务器,提供高可靠性服务。特点:统一命名高可靠性性能扩展共享数据空间,集群系统,业务网络,增加组件,集群NAS存储系统概念与特点,集群NAS(NetworkAttachedStorage)系统概念:集群NAS存储系统是指将集群技术应用到NAS存储系统中,是为应对非结构化数据应用暴涨,提升NAS文件共享服务的性能和高可靠性。集群NAS存储系统与传统NAS存储系统的对比:,集群NAS数据通道互联,VCS通信架构,代理监控各个系统的资源,并将状态提供给每台机器的HADHAD将状态发送给GAB(GroupMembershipServices/AtomicBroadcast)Gab通过广播,将配置信息发送到集群的所有成员LLT(Low-LatencyTransport)通过低时延传送协议,将信息发送的集群的所有节点在各个节点的HAD采取正确的行动,比如必要时,进行倒换(Failover),LLT协议,LLT:LowLatencyTransport属于MAC层协议,与IP无关两个作用:供GAB使用(单播报文)心跳(0.5秒一个广播报文)N8000中有三条私有链路,GAB,原子广播,实际上是点到点的单播使用LLT协议发送数据管理集群成员:gabconfig-a,fencing,Fencing功能监控GAB,并检测集群成员的变化保证集群成员的单一视图,防止集群脑裂防止从多个节点,在没有单一集群控制下,用卷管理器访问共享存储,HAD,VCS的引擎,就是HAD(Highavailabilitydaemon),其功能为:在集群的每个主机系统上都有该进程运行对所有的集群资源,维护配置和状态信息管理所有的代理用hashadow监控进程HAD,在HAD进程故障时,能够把它重新启动起来,全局存储空间管理技术,集群元数据管理,集群元数据管理,集群全局锁机制,Agent,Agent是控制资源的程序每种类型的资源对应一个代理,一个代理控制对应类型的所有资源用户也可以自定义代理,服务组-NFS为例,服务组是资源的一个集合,是控制资源的管理单元一个节点(node)可以有多个服务组每个服务组都被独立的监控和管理服务组中的资源在系统中必须是可用的服务组和资源存在相互依赖关系,NFSServiceGroup,NFS,IP,Disk,Mount,Share,NIC,服务组的类型,FailoverServiceGroups在某一时间,该servicegroup只能运行在一个系统上(system),在对数据一致性要求高(比如数据库,网络文件系统(NFS)的情况下,使用该组。ParallelServiceGroups在某一时间,可以部署在多个系统上配置比FailoverServiceGroups复杂很多HybridServiceGroups是上面两种servicegroups的组合在N8000中只使用了Failover和Parallel两种,资源(Resource)定义,资源是VCS对象,它对应到应用服务的硬件或者软件组件资源是放在服务组里面的定义和管理的。,资源依赖关系,资源可以依赖其他资源父资源依赖子资源服务组可以依赖其他服务组资源和服务组之间的依赖关系由规则管理不允许出现循环依赖,目录,大数据存储架构大数据存储技术大数据分析技术数据安全技术NAS基础技术集群NAS技术集群NAS卷管理技术,VxVM基本概念,物理对象:能被OS看到的物理存储设备虚拟对象:VxVM进行存储设备管理的逻辑对象。VxVM通过虚拟对象和物理设备的映射来访问存储设备虚拟对象有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025装饰装修工程承包合同的范本
- 2025粮食批发市场粮油交易合同范本
- 社团留任申请书开头
- 专利侵权申请书
- 采矿权延续申请书
- 地税免税申请书
- 成立足球申请书
- 法人变更申请书范文
- 落户企业申请书
- 2025年正规赠与合同范本
- 2025年全国通信专业技术人员职业水平考试(通信专业实务终端与业务)(高、中级)练习题及答案
- 土地出让课件
- 法律职业资格考试客观题(试卷一)试题与参考答案(2025年)
- 江西中寰投资集团下属公司招聘笔试题库2025
- 弱电施工安全培训课件
- 特种作业考试试题(含答案)
- 2025年储能应用行业研究报告及未来行业发展趋势预测
- 2025-2030中国游戏音频技术发展与沉浸式体验设计趋势报告
- 2025年苏绣行业研究报告及未来行业发展趋势预测
- 施工现场节假日安全管理措施
- 2025年骨科颈椎间盘突出症保守治疗要点考试卷答案及解析
评论
0/150
提交评论