OceanStor Dorado全闪存储系统技术白皮书-D_第1页
OceanStor Dorado全闪存储系统技术白皮书-D_第2页
OceanStor Dorado全闪存储系统技术白皮书-D_第3页
OceanStor Dorado全闪存储系统技术白皮书-D_第4页
OceanStor Dorado全闪存储系统技术白皮书-D_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华为 OceanStor Dorado全闪存存储系统技术白皮书华为 OceanStor Dorado V3 全闪存存储系统品技术白皮书(中国区企业版本)目录目录 HYPERLINK l _bookmark0 摘要1 HYPERLINK l _bookmark1 简介2 HYPERLINK l _bookmark2 产品系列2 HYPERLINK l _bookmark3 客户价值3 HYPERLINK l _bookmark4 系统架构5 HYPERLINK l _bookmark5 相关概念5 HYPERLINK l _bookmark6 控制框5 HYPERLINK l _bookmark

2、7 控制器6 HYPERLINK l _bookmark8 硬盘框7 HYPERLINK l _bookmark9 硬盘域7 HYPERLINK l _bookmark10 存储池9 HYPERLINK l _bookmark11 RAID 技术10 HYPERLINK l _bookmark12 硬件架构14 HYPERLINK l _bookmark13 设备形态15 HYPERLINK l _bookmark14 自研 HSSD16 HYPERLINK l _bookmark15 盘内磨损均衡17 HYPERLINK l _bookmark16 坏块管理17 HYPERLINK l _b

3、ookmark17 数据冗余保护17 HYPERLINK l _bookmark18 后台巡检18 HYPERLINK l _bookmark19 支持 SAS 和 NVMe 协议18 HYPERLINK l _bookmark20 自研芯片19 HYPERLINK l _bookmark21 硬件扩展能力20 HYPERLINK l _bookmark22 硬件架构特征24 HYPERLINK l _bookmark23 软件架构24 HYPERLINK l _bookmark24 FlashLink26 HYPERLINK l _bookmark25 冷热数据分流27 HYPERLINK

4、l _bookmark26 端到端 IO 优先级27 HYPERLINK l _bookmark27 ROW 满分条写28 HYPERLINK l _bookmark28 全局垃圾回收29 HYPERLINK l _bookmark29 全局磨损均衡/反磨损均衡29 HYPERLINK l _bookmark30 读缓存31 HYPERLINK l _bookmark31 IO 流程31 HYPERLINK l _bookmark32 写流程31 HYPERLINK l _bookmark33 读流程33 HYPERLINK l _bookmark34 丰富软件特性34 HYPERLINK l

5、 _bookmark35 软件架构特征35 HYPERLINK l _bookmark36 精简高效 Smart 系列特性36 HYPERLINK l _bookmark37 在线重删(SmartDedupe)36 HYPERLINK l _bookmark38 在线压缩(SmartCompression)37 HYPERLINK l _bookmark39 智能精简配置(SmartThin)39 HYPERLINK l _bookmark40 智能服务质量控制(SmartQoS)39 HYPERLINK l _bookmark41 异构虚拟化(SmartVirtualization)41 H

6、YPERLINK l _bookmark42 智能数据迁移(SmartMigration)42 HYPERLINK l _bookmark43 多租户(SmartMulti-Tenant for File)44 HYPERLINK l _bookmark44 智能配额(SmartQuota for File)46 HYPERLINK l _bookmark45 数据保护 Hyper 特性48 HYPERLINK l _bookmark46 快照(HyperSnap)48 HYPERLINK l _bookmark47 LUN 快照(HyperSnap For Block)48 HYPERLIN

7、K l _bookmark48 FS 快照(HyperSnap For File)51 HYPERLINK l _bookmark49 HyperCDP52 HYPERLINK l _bookmark50 HyperCopy54 HYPERLINK l _bookmark51 克隆(HyperClone)57 HYPERLINK l _bookmark52 LUN 克隆(HyperClone For Block)57 HYPERLINK l _bookmark53 FS 克隆(HyperClone For File)59 HYPERLINK l _bookmark54 远程复制(HyperRe

8、plication)61 HYPERLINK l _bookmark55 LUN 同步远程复制 (HyperReplication/S For Block)61 HYPERLINK l _bookmark56 LUN 异步远程复制 (HyperReplication/A For Block)64 HYPERLINK l _bookmark57 FS 异步远程复制(HyperReplication/A For File)66 HYPERLINK l _bookmark58 阵列双活(HyperMetro)68 HYPERLINK l _bookmark59 LUN 双活(HyperMetro F

9、or Block)68 HYPERLINK l _bookmark60 FS 双活(HyperMetro For File)69 HYPERLINK l _bookmark61 两地三中心(3DC)72 HYPERLINK l _bookmark62 一体化备份(HyperVault for File)72 HYPERLINK l _bookmark63 WORM(HyperLock for File)73 HYPERLINK l _bookmark66 云灾备 Cloud 特性76 HYPERLINK l _bookmark67 云复制(CloudReplication)76 HYPERLI

10、NK l _bookmark68 云备份(CloudBackup)77 HYPERLINK l _bookmark69 系统安全和数据加密80 HYPERLINK l _bookmark70 系统数据加密(Data Encryption)80 HYPERLINK l _bookmark71 基于角色的访问控制管理81 HYPERLINK l _bookmark72 系统管理及兼容性82 HYPERLINK l _bookmark73 系统管理82 HYPERLINK l _bookmark74 Device Manager82 HYPERLINK l _bookmark75 CLI82 HYP

11、ERLINK l _bookmark76 Call Home 服务82 HYPERLINK l _bookmark77 Restful API83 HYPERLINK l _bookmark78 SNMP83 HYPERLINK l _bookmark79 SMI-S83 HYPERLINK l _bookmark80 配套工具83 HYPERLINK l _bookmark81 生态集成及兼容性83 HYPERLINK l _bookmark82 VVol(Virtual Volumes)83 HYPERLINK l _bookmark83 OpenStack 集成84 HYPERLINK

12、l _bookmark84 虚拟机环境插件84 HYPERLINK l _bookmark85 主机兼容性84 HYPERLINK l _bookmark86 最佳实践85 HYPERLINK l _bookmark87 更多参考信息86 HYPERLINK l _bookmark88 如何反馈意见87 HYPERLINK l _bookmark89 缩略语88华为 OceanStor Dorado V3 全闪存存储系统品技术白皮书(中国区企业版本)1 摘要 1 摘 要华为公司 OceanStor Dorado V3 是面向企业关键业务打造的全闪存存储系统,采用专为闪存设计的 FlashLin

13、k 技术,实现 0.5ms 稳定低时延;免网关双活技术,为客户提供端到端双活数据中心解决方案,并可平滑升级到两地三中心容灾方案,实现方案级99.9999%的可靠性;在线重删和压缩技术,提供更多的客户可用容量,减少 TCO。OceanStor Dorado V3 能够满足数据库、虚拟桌面 (VDI)、虚拟服务器架构 (VSI)等企业级应用的关键需求,助力金融、制造、运营商等行业向全闪存时代平滑演进。本文从产品定位、硬件架构、软件架构、特性方面详细介绍了 OceanStor Dorado V3 全闪存存储系统的关健技术,以及为客户带来的独特价值。华为 OceanStor Dorado V3 全闪存

14、存储系统品技术白皮书(中国区企业版本)2 简介 2 简 介 HYPERLINK l _bookmark2 产品系列 HYPERLINK l _bookmark3 客户价值产品系列OceanStor Dorado V3 包括 Dorado5000 V3 (包括 NVMe 和 SAS 版本)、Dorado6000 V3几款产品。图2-1 OceanStor Dorado5000 V3图2-2 OceanStor Dorado6000 V3图2-3 OceanStor Dorado NAS详细产品规格信息请参见: HYPERLINK /cn/products/cloud-computing-dc/s

15、torage/unified-storage/dorado-v3 /cn/products/cloud-computing- HYPERLINK /cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3 dc/storage/unified-storage/dorado-v3客户价值OceanStor Dorado V3 在软件架构上针对 Flash 介质做了深度优化,同时又集成了华为存储十几年的技术积累和 OceanStor OS 存储操作系统的丰富特性,如:快照、克隆、同步/异步复制,双活,3DC、QoS、迁移,Th

16、in,HyperCopy,HyperCDP,CloudReplication,CloudBackup 等,给客户提供极致性能体验的同时,又提供无与伦比的数据保护能力。OceanStor Dorado NAS 在 OceanStor Dorado V3 快、稳、省的基础上提供丰富的文件系统特性,如:文件快照、文件克隆、文件复制、文件双活、WORM、文件系统配额、多租户、文件系统智能缓存分区等,给客户提供极致性能体验;OceanStor Dorado V3 通过技术创新,在以下方面为客户创造价值。极致性能在银行、海关、证券等极致性能要求场景,Dorado V3 能够提供小于 0.5ms 的稳定时延

17、和高吞吐量,极大提高客户的业务处理效率以及减少批处理业务需要的时间窗。灵活扩展Dorado V3 支持 Scale-out 和 Scale-up 灵活扩展,以满足客户对极致性能和大容量的诉求。针对极致性能场景,可以采用 Scale-out 方式增加控制器,IOPS 和带宽能够随控制器增加线性增加,低时延保持不变。针对大容量需求,可以通过扩展磁盘框的方式进行 Scale-up。稳定可靠通过部件、系统、解决方案三级可靠性设计和实现,保证系统的可靠性。作为核心部件的华为自研 SSD(HSSD)盘片内部实现了闪存颗粒内部(LDPC 纠错算法)、闪存颗粒间(闪存颗粒间 RAID)的两级可靠性方案,实现芯

18、片级的失效数据保护;智能矩阵式多控架构、创新的 RAID2.0+及 RAID-TP 技术和针对闪存设计的FlashLink等技术,使得系统无单点故障、能够容忍 3 盘同时失效和提升闪存寿命;无网关双活,实现站点发生事故或者灾难情况下业务 RTO=0 和 RPO=0,业务连续性不受影响。融合高效采用在线全局重删和压缩技术,同等可用容量,全闪存节省 75% CAPEX;支持与华为 OceanStor V3 融合存储通过远程复制组成容灾网络,实现全闪存阵列与传统存储的融合;通过异构虚拟化和远程复制,实现与华为传统存储以及第三方阵列的融合。快速低成本的云容灾采用 CloudReplication,Cl

19、oudBackup 特性,无需外部网关,实现生产中心数据上云,免维护,快速低成本的构建云上灾备中心。华为 OceanStor Dorado V3 全闪存存储系统品技术白皮书(中国区企业版本)3 系统架构 3 系统架构 HYPERLINK l _bookmark5 相关概念 HYPERLINK l _bookmark12 硬件架构 HYPERLINK l _bookmark23 软件架构相关概念控制框OceanStor Dorado V3 的控制框(Controller Enclosure,简称 CTE)是指包含存储控制器在内的硬件框,负责所有存储业务逻辑的处理,提供主机访问、设备管理、数据服务

20、等核心功能。包括:系统插框、控制器、接口模块、电源、BBU、管理模块等。Dorado V3 系列支持 2U、3U、6U 三种控制框形态,分别支持盘控一体和盘控分离设计。图3-1 OceanStor Dorado 2U 控制框1系统插框2硬盘模块3电源-BBU 模块4控制器(含接口板)图3-2 OceanStor Dorado V3 3U 控制框1系统插框2BBU 模块3控制器4电源模块5管理模块6接口模块控制器OceanStor Dorado V3 控制器是包含 CPU、内存、主板等硬件的计算模块,主要负责处理存储业务、接收用户的配置管理命令、保存配置信息、接入硬盘和保存关键信息到保险箱硬盘。

21、保险箱盘分为内置和外置两种保险箱盘,用于保存存储系统的数据和系统掉电后 Cache 中的数据。每个控制器内置一个或多个硬盘,称为内置保险箱盘。外置保险箱盘位于控制器外,对于 Dorado5000 V3 系列,控制框自带硬盘模块中的前 4 块硬盘作为保险箱盘;对于 Dorado6000 V3 系列,存储系统中第一个硬盘框的前 4 块硬盘规划为保险箱盘。(具体各型号保险箱盘规格及分区参考: HYPERLINK /hedex/hdx.do?docid=EDOC1000141860&lang=zh OceanStor Dorado5000 HYPERLINK /hedex/hdx.do?docid=E

22、DOC1000141860&lang=zh V3, Dorado6000 V3 产品文档)一个控制框支持 2 个控制器,两两配对成一个高可用控制器对。在单控制器故障的时候,可以由其配对的另一个控制器接管存储处理业务,保证系统的高可用性。控制器前端通过 IO 模块提供主机业务接入的访问接口,支持 8Gb/16Gb/32Gb FC、100Gb/40Gb/25Gb/10Gb ETH 主机接口。硬盘框硬盘域OceanStor Dorado V3 硬盘框支持 25 盘位的 2.5 英寸 SSD,包括:系统插框、级联模 块、电源模块和硬盘模块,SAS 硬盘框提供 4 个 SAS3.0 级联接口,NVMe

23、硬盘框提供2 个 PCIe 3.0 * 8 级联接口,硬盘框是系统容量 Scale-up 的基本单位。图3-3 硬盘框硬件架构1系统插框2硬盘模块3电源模块4级联模块硬盘域是由多块硬盘组合而成,RAID 组在硬盘域的范围内选择成员盘。OceanStor Dorado V3 支持创建一个或者多个硬盘域,支持跨控制框创建硬盘域(硬盘域最大只能跨 2 个控制框创建)。双控控制框最大支持创建 4 个硬盘域,四控控制框最大支持创建8 个硬盘域。每个硬盘域允许配置 2 种不同容量点的 SSD。图3-4 硬盘域跨控制框上图示例为一个 Dorado V3 双控制框系统,可以对系统的所有硬盘创建一个硬盘域, 也

24、可以对每个控制框分别创建一个硬盘域。硬盘域有热备策略和加密类型两个属性。热备策略提供高、低、无三种策略,热备策略可以在线修改。高:高热备空间比例,硬盘域会预留更多的热备空间用于硬盘故障时存储系统重构数据。热备空间的容量随着硬盘数量的增加呈非线性增长。低(默认值):低热备空间比例,硬盘域会预留较少(至少保障重构一块硬盘的空间)的热备空间用于硬盘故障时存储系统重构数据。热备空间的容量呈非线性增加。无:系统不提供热备空间。表3-1 硬盘域热备空间容量随硬盘数量的变化情况(表中列出了 200 盘以内的情况)硬盘数高热备策略热备空间(块)低热备策略热备空间(块)812111325226503251754

25、7612553126175617620074硬盘域支持普通硬盘域和加密硬盘域两个选项,此属性在创建硬盘域时配置,一旦配置无法更改。普通硬盘域:非加密的普通硬盘可以创建普通硬盘域,加密硬盘也可以创建普通硬盘域作为非加密硬盘,但无法启用加密功能;加密硬盘域:只能使用加密硬盘创建,并需要配置密管服务。图3-5 硬盘域创建示例存储池存储池创建于硬盘域中,是存放存储空间资源的容器,所有应用服务器使用的存储空间都来自于存储池。一个硬盘域中包含一个存储池。创建存储池的时候,需要指定 RAID 级别。存储池的容量会默认包括选定的硬盘域的所有可用容量。存储池默认 RAID 策略配置为 RAID 6, RAID

26、6 可以满足绝大部分场景的可靠性要求,同时可以提供较好的性能和容量利用率。在单盘容量较大的场景下(如 8T 盘),单盘重构时间很长会降低可靠性,此时使用 RAID-TP 可以弥补可靠性的降低。图3-6 创建存储池RAID 技术OceanStor Dorado V3 RAID 技术采用华为专利 EC(Erase-Code)算法,能够同时支持RAID 5,RAID 6,RAID-TP,RAID10*。RAID-TP 能够容忍三盘失效,提供更高的可靠性。如有*号标注处规格要求,请联系华为销售人员。OceanStor Dorado V3 数据冗余机制 RAID 采用 RAID2.0+块级虚拟化技术:多

27、个 SSD 组成一个硬盘域;每个 SSD 盘被切分成固定大小的 Chunk(简称 CK,大小为 4MB)进行逻辑空间管理;来自不同 SSD 盘的 CK 按照客户配置 RAID 冗余级别组成 Chunk 组(CKG)。CKG 冗余算法支持 3 种冗余度配置:RAID 5,采用 EC-1 算法,每个校验条带生成 1 个校验数据;RAID 6,采用 EC-2 算法,每个校验条带生成 2 个校验数据;RAID-TP,采用 EC-3 算法,每个校验条带生成 3 个校验数据;CKG 再被划分为更细粒度的 Grain,通常为 8K,为满分条写盘的最小粒度,OceanStor Dorado V3 写盘采用满分

28、条写,避免传统 RAID 的大小写导致系统额外开销。RAID 映射流程如下所示:图3-7 OceanStor Dorado V3 RAID 冗余映射图OceanStor Dorado V3 通过 EC 算法,RAID 组能够支持更多的成员盘数,能够获取更高的空间利用率。表3-2 EC 算法支持的 RAID 利用率RAID 级别EC 算法推荐的成员盘数RAID 利用率传统算法推荐成员盘数RAID 利用率RAID 522+195.6%7+187.5%RAID 621+291.3%14+287.5%RAID-TP20+386.9%不支持NA当发生硬盘故障或者长时间拔出时,该硬盘上的 Chunk 将通

29、过所在的 CKG 进行 RAID重构。具体描述如下:硬盘故障,导致该硬盘上的 Chunk 不可用;故障 Chunk 所在的 CKG 处于 RAID 降级状态;系统从存储池中分配空余的 CK 用于数据修复;系统根据存储池的 RAID 级别,利用校验列和未损坏的数据列,计算出损坏的数据块写到空闲的 CK 中;由于故障硬盘导致多个 Chunk 不可用,多个 chuck 又分布在多个 CKG 中,多个 CKG 将同时启动重构,而新分配的 Chunk 也是分布在多个硬盘中,所以重构过程是故障硬盘所在的硬盘域内所有硬盘都可能参与重构,充分利用了系统所有硬盘的 IO 能力,可以极大的提升数据重构速度,缩短数

30、据恢复时间。Dorado V3 RAID 重构采用动态 RAID 重构,并支持两种重构方式:普通重构和缩列重构,系统自动选择重构方式,保证各种场景下 RAID 冗余度不降低,维持高可靠。普通重构通过将恢复数据写入新分配 CK 的重构称为普通重构,重构前后 RAID 成员列数保持不变。RAID 成员列数为 M+N(M 为数据列数,N 为校验列数),如果硬盘域中状态正常的成员盘数大于等于 M+N,则执行普通重构。重构过程中,对故障的 CKG,系统选择空闲的 CK 替换故障的 CK,然后进行数据重构。如下图所示,D0、D1、D2、P、Q 组成 CKG,当 disk2 发生故障,那么从 disk5 中

31、选择一个 CK(D2_new)替换 disk2 中的 D2,把 D0、D1、D2_new、P、Q 一起组成 CKG,把 D2 中的数据重构到 D2_new 中;普通重构完成后,所有的数据保持 RAID 成员盘数不变,冗余级别不变。图3-8 普通重构示意图缩列重构当硬盘域可用成员盘数小于 RAID 成员盘数时,系统将采用缩列重构。缩列重构和普通重构不同的地方是,由于硬盘域总的可用硬盘小于 RAID 成员盘数,缩列重构时保持 N(校验列)不变,减少 M(数据列)的方式进行重构,重构前后RAID 校验列数不变,数据列数变少。发生缩列重构时候,故障 CK 的数据,会重新写入到新的 CKG 上,RAID

32、 列数将减少(如果系统只有 M+N-1 块盘,那么新的 CKG 就是 M-1+N)。未故障的数据列(M-1),加上新选择的 P、Q 列,组成新的 CKG,数据列保持不变,重新计算P、Q。如下图所示,以 6 块可用盘(4+2)为例,disk2 发生故障,那么 CKG0 中的数据 D2 会当做新数据写到新的 CKG1 上(图中 D2),RAID 列数则为 3+2;原 CKG0 上的数据 D0、D1、D3 则重新计算 P、Q组成 3+2 的新 CKG0。缩列重构完成后,RAID 组成员盘数减少,但是 RAID 冗余级别不变。图3-9 缩列重构示意图RAID 列数是根据硬盘域的硬盘数由系统自动调整。O

33、ceanStor Dorado V3 在选择 RAID 列数时是综合考虑了容量的利用率,RAID 可靠性和重构速率等因素。硬盘域中硬盘数与 RAID 列数的对应关系如下表:表3-3 RAID 列数与硬盘域硬盘数对应表硬盘域硬盘数RAID 列数高热备策略热备空间X(812)X-11X(1325)X-22X(2627)X-33X(X27)25大于等于 3RAID 列数 M+N 遵循如下原则:当硬盘域内故障的硬盘数小于等于高热备策略热备空间内的盘数,系统均不应引起缩列重构。尽量保证较高的容量利用率。M+N 不大于 25。当盘数小于 13 盘时,热备空间为 1 个盘的容量,RAID 列数 M+N 为

34、X-1,优先保证了系统容量利用率。当盘数大于等于 13 盘小于 25 盘时,高热备空间 2 个盘的容量,RAID 列数 M+N 为 X- 2,优先保证系统在损坏多块硬盘时尽量避免产生缩列重构。当盘数在 2627 盘之间时,此时参照表 3-1,高热备策略的情况下,系统是有 3 块盘的空间作为热备空间。由于热备空间是系统设计的允许的坏盘数,在这个范围内的坏盘(这里指的不是同时损坏的情况)均应视为正常故障场景。此时 RAID 列数选择为 X- 3,是为了保证客户当系统先后故障达 3 块盘时,系统不启动缩列重构。当盘数大于 27 盘后,系统采用最大 M+N 为 25,既保证了较好的容量利用率又避免M+

35、N 数值太大时 RAID 重构而引起的读放大过程。比如采用 30+2 的 RAID 算法,那么损坏一块盘时,故障 CKG 中每重构一个 CK 都需要读取另外 30 个盘的 CK,产生了较大的读放大,因此系统设计最大 M+N 为 25。系统扩容时,RAID 策略中的 M+N 将随着盘数的增加而增加。所有新写入的数据(包括垃圾回收产生的写入数据),都将采用新的 M+N 的方式来写入。原有数据保持原来的 RAID 列数不变。比如,系统硬盘域内原有 15 块硬盘,采用的 RAID 策略为RAID6,对照表 3-3 那么 M+N 为 11+2,如果客户扩容至 25 块盘,那么新数据写入为21+2,而原来

36、的数据保持 11+2 不变。当系统启动垃圾回收时,会把 11+2 中的有效 CK写入到 21+2 中,原先 11+2 的 CKG 将会被存储池回收。OceanStor Dorado V3 数据冗余和恢复机制优势如下:快速重构:硬盘域所有盘参与重构。根据实测数据 OceanStor Dorado V3 1TB 数据不带业务重构只需要 30min 可以完成,而传统 RAID 重构 1TB 数据的时间超过 2 小时。RAID 保护机制灵活,可靠性高:OceanStor Dorado V3 支持 3 种不同级别的 RAID 冗余机制,用户可以根据不同业务场景灵活选择,对于可靠性要求高场景, RAID-

37、TP 可以提供同时故障 3 盘可靠性保障。支持智能选择 RAID 成员盘策略:在系统发生单盘持续故障场景,通过智能缩减RAID 成员盘机制以及缩列重构,保证新写入的数据还是可以保持原来的冗余度级别,不会因此导致数据降级写,降低数据数据保护可靠性。避免传统 RAID 的 Write Hole 导致数据不一致:OceanStor Dorado V3 采用满分条追加写的方式,避免传统 RAID 由于 Write Hole 问题而引入的数据不一致问题。硬件架构OceanStor Dorado V3 系列存储系统采用智能矩阵式多控架构,以控制框为单位横向扩扩展,达到性能和容量的线性增长。单个控制框采用双

38、控冗余架构,双控间采用板载PCIE3.0 实现双控缓存镜像通道,多控制框之间通过 PCIe3.0 交换机实现 Scale-out。后端硬盘框扩展采用 SAS3.0 实现硬盘框的 Scale-up。控制框内硬盘通过双端口连接到两个控制器,支持 SAS 接口的 SSD 和 NVMe 接口的 SSD 两种类型硬盘。通过 BBU(Backup Battery Unit),在系统掉电时把 cache 中的缓存数据持久化到保险箱盘上实现缓存数据的保护和系统掉电后的数据一致性。主机接口采用华为自主研发的 SmartIO 卡支持 8Gb/16Gb/32Gb FC、25Gb/10Gb ETH 接口的融合,同时支

39、持 40Gb/100Gb ETH 接口。图3-10 存储智能矩阵式多控架构设备形态OceanStor Dorado V3 系列包含 OceanStor Dorado5000 V3、OceanStor Dorado6000 V3 两种产品形态。表3-4 OceanStor Dorado V3 产品形态产品型号控制框形态控制器数/控制框硬盘类型Dorado5000 V3盘控一体(2U)2NVMe/SASDorado6000 V3控制框和硬盘框独立架构(3U)2NVMe/SASDorado NAS盘控一体(2U)2NAOceanStor Dorado5000 V3 采用盘控一体,实现高密度的性能和容

40、量。控制框为 2U 背板互联的双控架构,硬盘有 NVMe 接口和 SAS 接口两种类型。NVMe 版本后端通过 PCIe 交换芯片扩展,连接到 25 个 2.5 英寸双端口 NVMe SSD; SAS 版本后端通过 SAS 交换芯片扩展,连接到 25 个 2.5 英寸双端口 SAS SSD。图3-11 OceanStor Dorado5000 V3 NVMe 设备架构图图3-12 OceanStor Dorado5000 V3 SAS 设备架构图OceanStor Dorado6000 V3 采用控制框和硬盘框分离的架构,可实现灵活的 Scale-out 和Scale-up 的扩展。所不同的是

41、 Dorado 6000V3 控制框为 3U 背板互联的双控架构。控制框内的控制器通过背板上的 PCIE3.0 通道互联,跨控制框通过 PCIE3.0 交换机实现Scale-out。通过 SAS3.0 支持硬盘框的扩展以实现容量的 Scale-up。自研 HSSDOceanStor Dorado V3 采用自主研发的 SSD(HSSD),通过存储软件和 HSSD 盘的深度配合,可以发挥 Dorado V3 全闪存系统的极致性能。SSD 主要由控制单元和存储单元(当前主要是 FLASH 闪存颗粒)组成,控制单元包括 SSD 控制器、主机接口、DRAM 等,存储单元主要是 NAND FLASH 颗

42、粒。NAND FLASH 内部存储读写的基本单元为 Block 和 Page。Block:能够执行擦除操作的最小单元,通常由多个 Page 组成;Page:能够执行编程和读操作的最小单元,通常大小为 4KB/8KB/16KB 等。对 NAND FLASH 读写数据的操作主要涉及擦除(Erase)、编程(Program)和读(Read),其中编程和读的基本操作单位是 Page,擦除的基本操作单位是 Block。在写入一个 Page 之前,必须要擦除这个 Page 所在的整个 Block。因此在写入某个 Page 时,需要把Block 中其他有效的数据拷贝到新的存储空间,从而把原先的整个 Bloc

43、k 擦除,这一过程称为垃圾回收(Garbage Collection,简称 GC)。每一次对 Block 的编程写入和擦除称为一次 P/E(Program/Erase)。不同于机械硬盘 HDD,SSD 盘中对每个 Block 的擦写次数是有限制的。如果某些 Block 的擦写次数太多,将会导致该 Block 不可用。针对SSD 的这些特点,华为自研的 HSSD 盘采用了多项关键技术来保证 SSD 的可靠性和性能。盘内磨损均衡磨损均衡是指 SSD 控制器通过对 NAND Flash 中 Block 的 P/E 次数进行监控,通过一定的软件算法使所有 Block 的 P/E 次数比较平均,防止单个

44、 Block 因过度擦写而导致失效,延长 NAND FLASH 整体的使用寿命。华为 HSSD 采用的磨损均衡分为动态磨损均衡和静态磨损均衡。动态磨损均衡是指在主机数据写入的时候,优先挑选磨损较小的 Block 使用,这样保证 P/E 消耗平均分 布;静态磨损均衡是指盘片定期在整个盘片的范围内寻找 P/E 消耗较少的 Block 并回收其上的有效数据,从而使得保存冷数据的 Block 也参与到磨损均衡的循环中。HSSD 通过这 2 种方案的结合来保证全盘磨损均衡。坏块管理NAND FLASH 芯片在制造和使用过程中会逐渐出现一些不符合要求的存储单元,此类Block 将被标志为坏块。HSSD 根

45、据大量的实验数据和应用场景确定了坏块的判断标准,该标准会根据 NAND FLASH 的擦写次数,错误类型,发生的频率等因素来判断Block 是否为坏块。如果出现坏块,则通过 NAND FLASH 间 XOR 冗余校验数据来计算出坏块上的数据,并将数据恢复到新的可用 Block 上。在一个 SSD 生命周期内,盘片大概会出现 1.5%左右的坏块,HSSD 在盘片内部预留了空间用作坏块替换,确保在生命周期内可能出现的坏块可以及时被替换,保障 SSD 上的数据安全可靠。数据冗余保护由于 SSD 在使用过程中可能会出现数据位翻转和跳变,HSSD 采用冗余校验对用户数据进行多维度的保护。数据在 SSD

46、的 DRAM 中使用了 ECC 和 CRC 校验来防止数据跳变和篡改;数据在 NAND FLASH 中使用了 LDPC 和 CRC 校验来保护 Page 上的数据;而在不同的 NAND FLASH 之间则采用了 XOR 冗余进行保护以防止颗粒失效导致的数据丢失。图3-13 多维度数据冗余保护LDPC 即低密度奇偶校验码(Low Density Parity Check Code),是通过校验矩阵定义的一类线性码,主要用于数据校验和纠错,广泛应用于无线通信、卫星数字传输等领域。在数据写入 NAND FLASH 的 Page 时,计算出数据的 LDPC 校验信息一起写入到 Page 中;在从 Pa

47、ge 中读取数据的时候通过 LDPC 进行校验和纠错。HSSD 盘片还通过闪存颗粒间内置 XOR 异或引擎对用户数据进行冗余保护,当 Flash 颗粒出现物理故障(页失效、块失效、DIE 失效甚至颗粒失效)时,采用校验数据块对故障块上的用户数据进行恢复,确保用户数据不丢失。后台巡检NAND FLASH 上的数据会由于存放时间过长,读干扰、写干扰、随机失效等原因导致数据发生错误。HSSD 会周期性的读取 NAND FLASH 上的数据,识别数据跳变情况, 对于出现高比特位跳变的数据及时读取并写入到新的 Page。通过这一后台巡检过程可以提前识别出现的风险并进行处理,能有效防止这些错误导致的数据丢

48、失,提高数据的安全性和可靠性。支持 SAS 和 NVMe 协议华为自主研发的 HSSD 支持 SAS 和 NVMe(Non-Volatile Memory Express)接口。NVMe 协议相对传统的 SAS 协议更为简洁高效:从软件栈来看,去掉了 SCSI 层,协议交互次数减少;从硬件传输路径来看,无需 SAS 控制器、SAS Expander,直接与CPU 通过 PCIe 总线连接,实现更低的时延。同时 NVMe 可以支持更大的并发和队列深度(64K 个队列,每队列深度可达 64K),充分发掘 SSD 的性能。华为自研的 NVMe 接口的 SSD 通过多年在闪存技术方面的积累,能够支持双

49、端口,热插拔能力, 有效的提升了系统的性能、可靠性和可维护性。图3-14 NVMe 盘片与 SAS 盘片传输路径对比NVMe SSD 写请求数据间通信次数相比 SAS SSD 从 4 次减少到 2 次。如下图所示: SAS:在 SCSI(SAS 后端)协议会通过 4 次协议交互的步骤才能完成一次写操作; NVMe:在 NVMe 协议只需要 2 次协议交互就能完成一次写操作。图3-15 NVMe 协议与 SAS 协议交互流程对比自研芯片华为通过在芯片领域不断的积累和持续投入,自主开发了 SSD 盘片控制器芯片、前端接口芯片(SmartIO 芯片)、板级管理 BMC 芯片等存储系统的一些关键芯片,

50、并应用在 OceanStor Dorado V3 上。SSD 控制器芯片:HSSD 使用华为自研的新一代控制器,该控制器是一款面向企业级应用,提供目前业界标准 SAS 3.0X2 和 PCIe 3.0X4 接口,该控制器具备高性能、低功耗特点。针对介质磨损寿命下降的问题,通过增强 ECC、内置 RAID 等技术延长 SSD 寿命,满足企业级可靠性应用要求;该控制器使用 28nm 工艺并支持最新的 DDR4、SAS 12Gb/s、PCIe 8Gb/s 接口速率以及硬件加速 FTL 等技术,为企业级应用提供稳定、低时延的性能。SmartIO 芯片:Hi182x(IOC)芯片是华为公司在存储接口芯片

51、领域的第一颗独立开发的芯片,自研并集成 100Gb/40Gb/25Gb/10Gb ETH、32Gb/16Gb/8Gb FC 多种协议接口,性能卓越、接口密度高,协议种类多、端口灵活可变,为存储量身打造,构建独特的不可替代的价值。BMC 芯片:Hi1710 是一款针对 X86 CPU 平台的板级管理 BMC 芯片,包括 A9 CPU,协处理8051、传感器电路、控制电路、接口电路等组件。支持 IPMI(Intelligent Platform Management Interface)即智能平台管理接口标准,实现了对存储系统硬件部件的监测和控制,包括:系统上下电控制,控制板监控,接口卡监控,电源

52、/BBU 管理,风扇监控等主要功能。硬件扩展能力OceanStor Dorado V3 架构设计同时支持 Scale-up 和 Scale-out 两种能力,给用户提供灵活的扩展方式。图3-16 Dorado V3 支持 Scale-out 和 Scale-upScale-upOceanStor Dorado V3 Scale-up 能力,控制框和硬盘框之间通过冗余 SAS3.0 链路直连。Dorado6000 V3 硬盘框级联采用双上行组网,Dorado5000 V3 SAS 级联的硬盘框采用单上行组网方式。双上行是指硬盘框的两个级联口都作为上行口与控制器连接,每个硬盘框与控制框通过 4 条

53、 SAS 线缆进行连接。图3-17 OceanStor Dorado V3 双上行组网SSD 盘片相比传统磁盘,单盘性能大幅提升。相比传统的磁盘存储系统,全 SSD 存储系统的性能瓶颈点从盘转移到了 SAS 级联链路及控制器 CPU 处理能力等方面。通过采用双上行组网,消除链路瓶颈,提升系统后端带宽,降低时延。单上行组网,是指硬盘框的一个级联口作为上行口与控制器连接,每个硬盘框与控制框通过 2 条 SAS 线缆进行连接。NVMe 硬盘框采用 8*8Gb PCIe3.0 级联端口,传输能力相比 SAS 大幅提升,采用 PCIe单上行组网可以系统要求。图3-18 OceanStor Dorado

54、V3 NVMe 硬盘框单上行组网Dorado5000 V3 SAS 是盘控一体架构,控制框中的 25 盘采用双上行方式,外接的硬盘框采用单上行级联组网实现容量的扩展。图3-19 OceanStor Dorado V3 单上行组网Dorado5000 V3 SAS 是盘控一体架构,控制框中的 25 盘采用双上行方式,外接的硬盘框采用单上行级联组网实现容量的扩展。在首次部署的时候,推荐使用相同容量的硬盘。在后续扩容时,新扩的硬盘可以是相同容量的盘,也可以扩展为更大容量的盘。SSD 盘容量会越来越大,通过支持扩展更大容量的盘,客户后期扩容时可以选择当时最主流的盘片,降低 TCO。Scale-outO

55、ceanStor Dorado V3 支持 Scale-out 能力,一个控制框内部的 2 个或者 4 个控制器,采用控制框背板上的镜像通道互联;控制框之间采用 PCIe3.0 交换机进行互联。每个控制器通过双端口的 PCIe 接口卡,分别接到两台 PCIe 交换机上,形成冗余链路。任何一个交换机、控制器、接口卡、链路故障,系统都有冗余能力, 保证系统的高可用性。详细的组网如下图所示:图3-20 OceanStor Dorado V3 Scale-out 数据网络互联组网示意图Scale-out 互联的管理网络采用菊花链的方式连接。菊花链把控制器和 PCIe 交换机一起纳入管理,节省管理网络的

56、交换机端口,为客户节省网络资源。图3-21 Scale-out 管理网络互联组网示意图硬件架构特征极致性能:端到端高速架构,PCIe 3.0 总线;SAS 3.0 硬盘接口/PCIe 3.0 * 4 硬盘接口;32Gb/16Gb/8Gb FC、100Gb/40Gb/25Gb/10Gb ETH 主机接口;高性能自研硬盘 NVMe SSD 的应用,实现更高的性能,更低的时延;稳定可靠:采用成熟硬件,全冗余硬件架构经过现网上万套系统验证,稳定可 靠。稳定可靠的 PCIe 暴力热拔插技术,确保系统支持 NVMe SSD 在线维护和更换;极致高效:同时支持 Scale-out 和 Scale-up,控制

57、器和硬盘均可在线扩展。模块化设计,IO 模块采用可热插拔设计,前端、后端接口支持灵活按需配置。软件架构OceanStor DoradoV3 采用华为自研的面向 SSD 设计的 OceanStor OS 存储软件,通过特有的 FlashLink技术和丰富的特性为用户提供高性能、高可靠、高效率的存储产品。图3-22 OceanStor Dorado V3 软件架构框图存储控制器软件架构整体分为管控面(Cluster & Management)和业务面。管控面提供系统运行的基本环境,多控 Scale-out 的管理控制逻辑,以及告警、性能监控和用户操作管理。业务面负责存储业务 IO 调度,实现数据

58、Scale-out 能力以及 FlashLink技术中控制器软件相关的功能,诸如重删压缩、ROW 满分条写、冷热数据分流、垃圾回收、全局磨损均衡与反磨损均衡等功能。图3-23 Dorado V3 + Dorado NAS 系统逻辑框架图Dorado NAS 模块基于 Dorado V3 提供的 LUN 空间对外提供丰富的 NAS 业务。提供端到端的高可靠,高性能的文件系统服务;图3-24 Dorado NAS 数据重删压缩示意图Dorado NAS 模块的文件系统数据缩减能力构建于 Dorado V3 的强大的数据缩减能力之上,在 NAS 服务中提供低时延,高重删压缩比的在线数据缩减服务;Fl

59、ashLinkFlashLink技术的核心是通过一系列针对闪存介质的优化技术,实现了存储控制器和SSD 之间的的协同和联动,在保证可靠性的同时,最大限度的发挥闪存的性能。FlashLink针对闪存介质特点设计的关键技术主要有:冷热数据分流技术、端到端 IO优先级、ROW 满分条写,全局垃圾回收以及全局磨损均衡/反均衡等有效的解决了闪存系统中写放大、垃圾回收给系统带来的性能抖动等问题,保障了 OceanStor DoradoV3 稳定的低时延和高 IOPS。冷热数据分流在 SSD 的垃圾回收过程中,对于每次擦除的 Block,SSD 硬盘期望该 Block 中所有数据都是无效数据,这样就可以直接

60、擦除整个 Block,而不用搬移有效数据,可以减少系统的写放大。而存储系统中不同数据具备不同的冷热程度。比如:系统的元数据更新频繁,属于热数据,产生垃圾的概率更高;而用户数据一般修改的频率要低,属于冷数据,产生垃圾的概率要低。FlashLink技术通过硬盘驱动和控制器软件配合,在控制器软件中将修改频率不同的数据(元数据、用户数据)带上不同的标示发给 SSD,使得冷热数据存放在不同的 Block 中,从而增加 Block 中数据同时无效的概率,达到减少 GC 过程中搬移有效数据的数据量,提升 SSD 的性能及可靠性。图3-25 冷热数据分流技术示意图下图中红色代表元数据,灰色代表用户数据。使用冷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论