Lustre文件系统ppt课件_第1页
Lustre文件系统ppt课件_第2页
Lustre文件系统ppt课件_第3页
Lustre文件系统ppt课件_第4页
Lustre文件系统ppt课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于对象存储的并行文件系统Lustre 主要内容 背景Lustre体系结构及技术分析 背景 网络存储技术 直接附加存储 DAS 网络附加存储 NAS 存储区域网 SAN 基于对象的存储 OBD 2020年4月19日12时20分 4 国防科技大学 基于对象存储文件系统Lustre结构 背景 基于对象存储体系结构的特点 网络带宽 IO吞吐量 文件系统容量以及处理能力是随着存储节点的增加而同步线性增长 因而具有很好的性能和扩展性 存储节点可扩展 存储对象数可扩展性 存储对象空间也具有可扩展性 可以实现大规模的海量数据访问的高度并行一般采用了文件数据与元数据分离存储的机制 通过条带化技术将传统文件的数据分解存储到存储对象中 文件元数据则保存在元数据对象中 并具有一个全局唯一的对象标识以及一些文件属性信息 背景 采用对象存储概念设计的分布式集群文件系统 StorageTankOBFSPanasasLuster类似的还有BrainStorOBSS比较成功的 商业化的 StorageTank Lustre Panasas 作为开源的面向下一代存储的基于对象的分布式文件系统的开创者 目前已经在集群存储尤其是大规模高性能并行计算领域取得了巨大的成功 由ClusterFileSystems公司开发的一个开源的 高性能的文件系统源于卡耐基梅隆大学的Coda项目研究工作Lustre消除了传统网络文件系统 AFS NFS 在可扩展性 可用性和性能上的问题 背景 Lustre文件系统 背景 Lustre文件系统 针对大文件读写进行优化 提供高性能的I O 元数据独立存储 服务和网络失效的快速恢复 基于意图的分布式锁管理基于对象存储 使存储更具智能化 可以实现基于对象一级的数据保护技术 系统可快速配置 体系结构 Lustre文件系统I O结构 体系结构 Lustre文件系统I O结构 文件系统组成 客户端 CFS ClientFileSystem 对象存储服务器 OST ObjectStorageTarget 元数据服务器 MDS MetaDataServer 一个高度模块化的系统三个子系统可以分别运行在不同的计算机节点上 也可以多个子系统运行在同一个节点上 体系结构 总体模块结构图 体系结构 Lustre子系统交互图 体系结构 Lustre子系统交互图 Client同OST进行文件数据的交互 包括文件数据的读写 对象属性的改变等 同MDS进行元数据的交互 包括目录管理 命名空间管理等 OST负责对象数据的存储 将I O数据保存到由它管理的后端基于对象存储设备 OBD ObjectBasedDevice 中 MDS负责向客户端提供整个文件系统的元数据 管理整个文件系统的全局命名空间 维护整个文件系统的目录结构 用户权限 并负责维护文件系统的元数据一致性 LustreClient Meta dataServer MDS OST1 OST2 OST3 OSC3 Filemeta data InodeA obj1 obj2 Fileopenrequest Write obj1 Write obj2 OSC1 Fileopen write MDC LinuxVFSLustreclientFSLOV Oddblocks evenblocks AchieveparallelBandwidthtoallOST s Lustre文件系统数据分布布局 由于Lustre采用了数据和元数据分离的基于对象存储的体系结构 下面将从这两个方面分别讨论Lustre数据的分布布局 文件数据文件元数据 文件数据布局策略 本地文件系统 数据 块号 数据 数据 块号 长度 块分配分配器尝试分配顺序块如Ext2一级索引二级索引三级索引 范围 extent 分配基于连续快分配 描述 逻辑偏移 长度 物理偏移三元组B 树如 VxFS JFS reiserfs xFS 多数据块 文件数据布局策略 Lustre文件系统 基于对象分配 文件数据布局策略 Lustre 每个常规文件 目录 符号连接和特殊文件都有一个唯一的inode 作为文件元数据对象文件数据按照一定的条带模式分布存储在几个OST的存储对象中文件的分带大小 存储对象数目 分带模式对应的OST索引等定位信息都作为数据分布布局属性对象保存在元数据对象的inode的扩展属性中 NetworkStripping 借鉴RAID 将文件数据以某种RAID模式分布存储在多个OST的存储对象中能够同时容忍磁盘和节点失效 NetworkStripping datalayout JOINFile 原理与MD RAID的线性模式有点类似 每个连接文件的元数据扩展属性中包含有多个数据分布布局属性对象 LayoutObject LAO 所有的数据分布布局属性对象一般都采用相同的条带模式 并附带有它所管理的文件范围域信息 每个数据分布布局属性对象负责定位文件一部分连续的数据区域 JOINFile cont LAO1 EA LAO2 LAO3 OST1 OST2 OST3 object LAOi LayoutObject JOINFile cont 文件可以根据大小变化动态的增加或减少数据分布属性对象突破了文件大小的限制 理论上它可以占有整个系统所有OST对象存储设备的空间 连接文件优点就是数据迁移的代价相对较低 迁移策略灵活大的存储对象可分裂成多个小的存储对象文件数据范围连续的较小存储对象可进行合并灵活的文件数据分布策略 对于小文件采用RAID1镜像模式存储 对于大文件采用RAID0 5模式存储 或者文件开始部分用RAID1方式 随着文件增大 后续部分采用RAID0 5模式存储 Lustre元数据服务器集群 ClusterMetadata CMD 元数据服务器功能及特点 存储和管理文件元数据 控制对文件元数据的访问以及创建 删除 修改等操作当客户端从元数据服务器获得文件元数据及其属性信息后 就可以直接和对象数据存储节点交互访问文件数据 控制流与数据流分离的传输方法 可以有效的分布IO负载 减轻对存储服务器CPU和内存等计算资源的消耗 大大提高了系统的I O性能 Lustre元数据服务器集群 ClusterMetadata CMD 单一元数据服务器局限 整个系统的集中控制点 如果发生故障 将会导致整个系统不可用 随着客户端和对象存储节点的增加 单个元数据服务器很可能成为整个系统的性能瓶颈 导致系统响应时间变长 降低系统的吞吐率 CMD 元数据分配方法 多元数据服务器构建方法主要有两类 目录子树分区法 纯哈希法 CMD 元数据分配方法 目录分区法 将命名空间划分为不同的目录子树每一个目录子树对应的元数据由同一个元数据服务器进行管理一个元数据服务器也可以管理多个目录子树每个目录子树就是一个可安装的小文件系统 CMD 元数据分配方法 目录分区法优点 静态的 由系统管理员决定怎样分割命名空间不需要与其他节点通讯就能处理元数据请求 具有很强的独立性保留了文件系统的层次结构 可以利用客户端的预取技术和缓存机制 提高元数据服务的处理效率 CMD 元数据分配方法 目录分区法缺点 增加元数据服务器并不能有效的重新均衡元数据服务器间的工作负载不能有效的处理 热点 目录问题目录分区法中根目录所在的元数据服务器失效 会导致整个文件系统不可用 CMD 元数据分配方法 哈希法 基本思想 当客户端创建一个文件时 以文件的标志符 或者路径名 为键值 Key 通过哈希函数选择负责创建文件的元数据服务器采用这种方法分配元数据的分布式文件系统有Intermezzo Vesta zFS等 CMD 元数据分配方法 哈希法优点 通过哈希函数可以快速的定位到管理该文件的MDS文件系统的负载可以更均匀的分布到各个MDS上能够有效的避免热点目录的出现 CMD 元数据分配方法 哈希法缺点 消除了命名空间层次结构的local特性为了满足POSIX语义 MDS必须遍历该文件的前缀目录检查当前用户是否具有访问权限 而文件和其前缀可能位于不同的元数据服务器上 这将导致很高的查询开销 MDS间的前缀缓存开销很大 不同元MDS的前缀缓存的重叠度也非常高 降低了元数据服务其内存的利用效率 CMD lustre元数据分配方法 Lustre结合了目前目录子树分区法和哈希法的优点 提出了一种管理元数据的混合方法创建新目录时总是通过哈希法选择一个与父目录可能不同的元数据服务器当一个目录变得很大或者非常繁忙时 Lustre通过目录分割策略将该目录拆分成由若干个不同的元数据服务器管理的子目录 CMD 目录分割 CMD的恢复 通过硬件 软件等措施实现了高可用的元数据服务对象存储上的元数据可用通过本地格式化的日志文件系统进行恢复自恢复机制重放处理任何来自客户端未完成请求相关的恢复以及锁服务的恢复类似数据库的基于日志的回滚技术 实现了涉及到多个元数据服务器服务的不一致性恢复 文件系统一致性语义 当多个用户对同一个文件进行读写操作时 各个用户看到的文件是一样的 按照UNIX的POSIX共享语义标准 在本地文件系统中 如果一个进程修改了某个文件的属性或内容 应该很快能够被其他进程察觉到 文件系统一致性语义 分布式锁管理器 LDLM 在分布式文件系统中要想按照严格的POSIX语义 就意味着要进行即时更新来维持共享资源的一致性视图 增加了大量的传输和一致性管理的开销 不仅实现困难而且会大大降低系统性能 分布式锁管理器技术为实现对共享存储资源的协同访问避免单个节点的访问以及冲突给出了一套行之有效的解决方法锁服务器也被分布到多个存储节点上 不会成为性能瓶颈 LDLM 锁的类型 基本模型在Lustre文件系统中被称为普通锁 plainlock 普通锁模型进行了扩展引入了两种新类型锁 意图锁 intentlock 范围锁 extentlock LDLM 锁模式 cont LDLM 锁模式 cont 锁模式的兼容性 LDLM 锁模式 cont 授权锁队列转换锁队列等待锁队列 LDLM queues cont Lock1CR GrantedQueue Resource ConvertingQueue WaitingQueue GrantedQueue Resource ConvertingQueue WaitingQueue GrantedQueue Resource ConvertingQueue WaitingQueue Lock2CR Lock1CR Lock2CW Lock3PW Lock1CR Lock3CW Lock2CR EX LDLM intentlock LDLM cont 意图锁主要用于文件元数据的访问 它通过执行锁的意图减少元数据访问所需的消息传递的次数从而减少每次操作的延迟 范围锁主要用来保护细粒度的文件数据并发访问 实现了文件数据的writebackcache 为所有用户提供一致性的文件系统视图 其实现过程与GPFS文件系统采用的范围锁类似 正在研究一种元数据写回锁 WritebackLock 来实现了元数据的目录级客户端写回缓冲策略 Consistency Extentlock Lustre结合锁机制采用回写缓冲 writebackcache 算法来实现分布式文件缓存机制 以解决缓存一致性问题 过程为 当客户端要某个文件某部分进行读写时 先从锁服务器获得相应的锁 然后就可以对缓存数据执行读写操作 执行完I O的操作后一般并不立即释放锁 Consistency Extentlock 根据数据访问的局部性原理 最近被访问的数据在不久的将来可能会被再次访问 所以一般采用一种lazy的思想 定义一个回调函数接口 当OST服务器产生更新或其他的用户要获得的锁与该锁有冲突时 通过回调函数通知客户端 客户端将缓存数据刷新到相应的OST服务器 并将本地缓存作废 Consistency Lustre通过extentlock实现了分布式文件系统的一致性视图 为集群中的每个节点提供对共享资源的协同访问和一致性视图其他方式有 lease 其概念来自美国Stanford大学的V操作系统 解决缓存一致性问题 租约有效期包含两个阶段 正在使用阶段T1和租约更新阶段T2 假设在t时刻获得租约 为了保证租约的持续有效性 在t T1时刻 租约的持有者必须立即更新租约 被StorageTank以及NFS所采用 HA failover Lustre系统中每个节点 MDS OST 一般可以配置后备 failover 服务器两个服务器采用共享磁盘存储的方式来存放数据当服务器或网络连接发生失效时 就会导致客户端数据访问超时 激发客户端查询LDAP服务器获取后备服务器信息得到后备服务器的信息 并立即将后续的请求重定向到后备服务器 HA failover HA failover Lustre自动避免故障OST HA Networkstripping 从理论上分析 LAID模式的可用性比传统的RAID以及failover方法都要高 同时提供磁盘以及节点失效容错 在Lustre文件系统中增加一个存储服务器 OST 以及基于对象存储设备 OBD 增加整个系统的存储容量 增加了整个系统的磁盘带宽 网络带宽 锁服务器 CPU和内存资源 智能存储管理 存储对象分配算法 提出 随着文件的创建 删除和修改 各个存储节点的存储对象数目以及剩余可用容量以不可预知的方式动态变化 简单的通过条带化技术将文件数据分布存储到多个存储设备上 会出现下面这种情况 某个OST由于分配有过多的存储对象而使得存储空间用尽由于包含的存储对象的数目比其他的OST要多 会造成潜在的负载过重 智能存储管理 存储对象分配算法 cont 为了优化性能 MDS进行了precreateobjects Round robin算法 采用轮循的策略来顺序的在OSTs上选择 创建存储对象剩余空间权重算法 各个OST按可用空间从大到小排列 当可用空间的差别在5 以内时 我们采用round robin算法依次分配存储对象 反之 则按照剩余空间权重算法选择可用空间大的OST来分配存储对象 智能存储管理 写时创建策略 写时创建 CROW 采用lazy的思想延迟存储对象的分配 直到需要对该存储对象进行写入操作时 才分配存储对象并更新文件元数据的数据分布属性对象 优点 对创建时指定文件大小的大文件有利节约空间 对于一些小文件或者存在洞的文件同样也很有利 这些文件一般并不是所有的存储对象都含有数据 通过该策略可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论