(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf_第1页
(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf_第2页
(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf_第3页
(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf_第4页
(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机系统结构专业论文)nas集群文件系统元数据管理的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

iv 摘摘 要要 随着 internet 的发展,信息的数据总量呈爆炸式增长,企业数据量每三年就增 加四倍,在日益增长的海量数据中快速访问所需的数据,并对数据进行处理,需要 不断提高存储产品的访问速度。针对网络存储的发展现状,论述一种通过文件系统 即 nas 集群文件系统 ncfs (nas cluster file system) 来实现存储虚拟化管理方式, 从而建立一个高性能、可扩展、易管理,能够灵活地适应不可预见的存储需要的网 络存储环境。 ncfs 是一种吸收 nas 和 san 系统技术优点、又能克服两者缺点的基于 san 架构的集群文件系统, 也就是采用 san 的专用存储网络的体系结构, 而每个存储节 点采用 nas 设备,利用 nas 集群技术。在 ncfs 中,在元数据管理上采用分布式 元数据管理,从而避免通常集群文件系统中集中式元数据管理器导致的单一失效点 和性能瓶颈问题,并采用元数据分层式管理,从而能够有效减少存储服务器间的元 数据信息量,提高系统性能并提高系统的可扩展性。针对安全管理,采用了多级安 全管理措施,确保系统数据在任何情况下都完整、一致、安全。在并行访问策略上, 借鉴于 raid 思想,通过将数据分块存储在不同的存储节点上从而提高系统的并行 性。 通过 ncfs 元数据管理的设计,使整个系统运行在一个松耦合、异构的环境下 实现全局命名空间,提高了系统的并行性和可扩展性。测试表明,在相同的网络环 境下对同等大小的数据进行访问,各平台下的 ncfs 系统性能均优于基于 ext3 的 samba 性能和基于 ntfs 的 windows 网络邻居性能, 尤其是当 request size 大小很小时 (低于 64k 时) ,性能提升达 200%。 关键字:关键字:直连存储,附网存储,集群文件系统,全局命名空间,元数据管理 v abstract as the development of internet, the mount of corporations data becomes quadruple every three or four years. during the course of increasing the mount of data sharply, to visit and process the data quickly must improve the performance of the storage product. thinking of the present status of network storage, a method to implement storage virtual management through nas cluster file system in the files system level is proposed. through the method, people can set up a network storage system to satisfy the requirement of strong expansibility, easy management and high performance. absorbing the advantage and avoiding the defect of nas and san, ncfs is a kind of cluster file system based on the san architecture. in this system, every storage node runs with nas equipment, the whole system runs as one nas cluster. to avoid single faulty point and performance bottle-neck in the traditional cluster file system, the method of distributed meta data management is proposed. to reduce the mount of meta data between nodes greatly and improve the performance greatly, a meta data management with multilevel level is created originally. to ensure the system security, the whole system adopts several security mechanisms. in order to improve performance greatly, the system absorbs the thought of raid through dividing the file into blocks and stored different blocks of data on different storage node. in the loosen and heterogeneous environments, the whole system can work with strong expansibility and high performance through the design of meta data management. tests prove that in the case of visiting the same amount of data under the same network environment, the speed of the ncfs is faster than that of adopting samba technology and windows neighbour technology , especially when the request block size is small (less than 64 k), the speed can improve by 200%. key words: das, nas, cluster file system, global name space, meta data management iii 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出 贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明 的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 保密, 在 年解密后适用本授权书。 不保密。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 1 1 概述概述 本章从网络存储的发展现状谈起,介绍了直接连接存储,附网存储,存储区域 网和 ip 存储的概念、 拓扑和特点, 并针对 nas 和 san 的优缺点, 提出 nas cluster 概念,接着描述了 nas cluster 的研究目的和意义。 1.1 网络存储发展现状网络存储发展现状 随着internet的发展,信息的数据总量呈爆炸式增长,企业数据的总量每三年就增 加四倍,在日益增长的海量数据中快速访问所需的数据,并对数据进行处理,需要不 断提高存储产品的访问速度。同时internet的应用使企业对数据的依赖程度不断提高, 要求数据必须每天24小时,每周7天处于正常工作状态。因此,不断增长的数据需求 高扩展性、实现对变化信息的快速响应高性能、保持业务的永不停顿高 可用性和保证数据的绝对安全高安全性是当今时代对存储技术的四项基本要求。 又由于企业信息系统环境的日趋复杂, 能够提供多种信息处理系统的连接、 信息保护、 信息管理、信息分享、具有弹性的存储架构已成为大趋势。 存储技术及其应用系统日益成为令人瞩目的技术热点。如今的网络时代是资源共 享的时代, 各类信息资源的积累加剧了其膨胀性, 人们对数据审视观念也发生了改变, 不单单只是安全存储的数据,更把它们当成竞争优势的战略性资产;而且网络已经成 为主要的信息处理模式,网络存储技术越来越受到网络服务提供商和服务器生产商的 重视,成为被称为继互联网后的又一产业热点。现在千兆或者千兆以上的网络传输技 术已经逐步地得到应用和普及,网络带宽不再是大家最担心的问题,如何对网络中的 存储设备进行管理,选取何种存储方案,选取何种存储设备才是人们关注的焦点。一 些新的存储体系和方案不断出现,存储技术也日益分化为:直接连接存储(das, direct-attached storage)1,附网存储(nas,network-attached storage)2,3,4,存储 区域网(san,storage area network)1,5,6和ip存储(ip storage)7。 2 1.1.1 直接连接存储(直接连接存储(das,direct-attached storage) das 是 direct-attached storage 的缩写,即“直接连接存储”,是指将外置存储设 备通过连接电缆,直接连接到一台计算机上。采用直接外挂存储方案的服务器结构 如同 pc 机架构,外部数据存储设备采用 scsi 技术,或者 fc fibrechannel 技术, 直接挂接在内部总线上的方式,数据存储是整个服务器结构的一部分,在这种情况 下往往是数据和操作系统都未分离。das 这种直连方式,能够解决单台服务器的存 储空间扩展、高性能传输需求,并且单台外置存储系统的容量,已经从不到 1tb, 发展到了 2tb,随着大容量硬盘的推出,单台外置存储系统容量还会上升。在 nas 和 san 出现之前,das 一直在存储市场中占据着绝对的份额。但随着用户数据的 不断增长,尤其是数百 gb 以上时,其在备份、恢复、扩展、灾备等方面的问题变 得日益困扰系统管理员。直连式存储依赖服务器主机操作系统进行数据的 io 读写 和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括 cpu、系统 io 等) ,数据流需要回流主机再到服务器连接着的磁带机(库) ,数据备份通常占用服 务器主机资源 2030,所以导致直连式存储的数据量越大,备份和恢复的时间就 越长,对服务器硬件的依赖性和影响就越大,这也成为 das 发展最致命的瓶颈。据 有关数据显示,至 2003 年,das 产品的市场份额已经被 nas 和 san 产品超过。 das 已不能满足用户的需要,越来越多的用户已经从原来的“服务器中心”模 式转换为以“数据为中心”的 nas 和 san 上。 1.1.2 附网存储(附网存储(nas,network-attached storage) nas 的全称是 network-attached storage,中文翻译为直接连网存储,是一种以 数据为中心的数据存储模式。在 nas 存储结构中,存储系统不再通过 i/o 总线附属 于某个特定的服务器或客户机,它完全独立于网络中的主服务器,可以看作是一个 专用的文件服务器。也就是说,客户机与存储设备之间的数据访问已不再需要文件 服务器的干预,允许客户机与存储设备之间进行直接的数据访问。在 lan 环境下, nas 已经完全可以实现异构平台之间的数据级共享,比如 nt、unix 等平台之间 3 的共享,其系统架构如图 1.1: 服务器 服务器 工作站工作站工作站 nas device cifs/nfs cifs/nfs . 图 1.1 nas 系统架构图 一个 nas 包括处理器、文件服务管理模块和多个的硬盘驱动器用于数据的存 储。 nas 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在 nas 上存取任意格式的文件,包括 smb 格式、nfs 格式和 cifs 格式8等等。nas 系统可以根据服务器或者客户端计算机发出的指令完成对内在文件的管理。 此外,与传统的将 raid 硬盘阵列安装到通用服务器上的方法相比,nas 系统 还具有以下优点: 首先, nas 系统简化了通用服务器不适用的计算功能, 仅仅为数据存储而设计, 降低了成本。并且,nas 系统中还专门优化了系统硬软件体系结构,其多线程、多 任务的网络操作内核特别适合于处理来自网络的 i/o 请求,不仅响应速度快,而且 数据传输速率也更高。 其次,由于是专用的硬件软件构造的专用服务器,不会占用网络主服务器的系 统资源,不需要在服务器上安装任何软件,不用关闭网络上的主服务器,就可以为 网络增加存储设备。安装、使用更为方便。并且,nas 系统可以直接通过 hub 或交 换机连到网络上,是一种即插即用的网络设备。 再次,由于独立于主服务器之外,因此对主服务器没有任何需求。如此可以可 大大降低主服务器的投资成本。 最后,nas 具有更好的扩展性,灵活性。存储设备不会受无地理位置的拘束, 4 在不同地点都可以通过物理连接和网络连接连起来9。 1.1.3 存储区域网(存储区域网(san,storage area network) sanstorage area network,中文翻译为区域存储网络,是一种网络化的基 础设施。我们可以通过 san 基础架构,更清晰了解它。其系统架构如图 1.2: server server clientclentclent raid subsystem server raid subsystem . 图 1.2 san 系统架构图 san 的最大特性是将网络和设备的通讯协议与传输物理介质隔离开。 这样多 种协议可在同一物理连接上同时传送,高性能存储体和宽带网络使用单 i/o 接口使 得系统成本和复杂程度大大降低。如通过将多台大型交换机连接在一起,能够构建 可提供数百个端口的 san,适应增长型企业不断剧增的信息存储容量的需要。 并且光纤通道支持多种拓扑结构,主要有:点到点(link) 、仲裁环(fc-al) 、 交换式网络结构(fc-xs) 。 san 凭借着 fc 技术的特性决定了它的诸多优势: 首先,在一些关键应用中,传输块级数据要求必须使用 san尤其是多个服 务器共同向大型存储设备进行读取。 由于在数据传输时被分成小段, 使 san 对服务 器处理的依赖较少,可以有效地传送爆发性的块数据,san 的性能及可靠性就得到 5 了充分的发挥。 其次,利用光纤通道速度快的优势通过局域网,san 可以实现远程灾难恢复。 一般地, 使用e3信道, san可以在不降低性能的同时将部件间的距离增加至150km。 再次,san 采用可伸缩的网络拓扑结构。通过具有较高传输的光纤通道连接方 式, 提供 san 内部任意节点之间的多路可选择的数据交换, 这样将数据存储管理集 中在相对独立的存储区域网内。 最后,很重要的一点,san 的管理是集中而且高效的。用户可以在线添加/删 除设备、动态调整存储网络以及将异构设备统一成存储池等。 这里重点强调 fc san 一个弱点,这个缺陷主要是它的物理机理决定的,它无 法使存储设备随它在网络上运行,从而无法满足应用前端对存储数据“无时不有、 无处不在”的要求。fc san 的物理布线有限,不超过 50km。这样容易形成存储 “孤岛”现象10。 1.1.4 ip 存储(存储(ip storage) 通过互连光纤通道交换机构造的高速网,连接所有的服务器和所有的存储设 备,让多个主机访问存储设备跟各主机间互相访问一样方便。 数据的急剧倍增,给很多企业带来了压力,并开始将存储系统从直接连接存储 (das)向区域存储网络(san)迁移,san 无疑是理想的选择,从上文介绍的优 势,我们知道它可以提升灵活性、改善资产利用率和加大关键业务数据保护能力来 获得更多的利益。但 fc san 基于 fc 技术,其成本以及管理难度都让众多中小企 业望尘莫及。 另一方面,由于 san 本身技术的局限,最主要的问题是它与应用网络的异构 性,出现了“孤岛”现象。很多专家就认为,应该寻求一种新的方式,以与应用网 络相同的体系架构、 技术标准去构造存储网。 而从技术构造还是经济成分角度分析, san 就成了理想的对象。 ip san 通过结合 isici 和千兆以太网的优势,不仅提供了 fc san 的强大的稳 6 定性和功能,还省掉了 fc 不菲的成本,简化了设计、管理与维护,降低了各种费 用和总体拥有成本,从而成为数据量高速增长企业的新选择。 在以太网的基础上,可以构建一个 ip 存储局域网,为存储应用提供高带宽、低 延迟的服务。但是如果通过广域网(wan)访问存储系统,由于 tcp/ip 本身的特性, 性能和延迟将不可预知,将导致有些应用不能正常运行。因此,ip 存储的传输层可 能需要对 tcp 作些修改。图 1.3 表示了 ip 存储的协议层次。 图 1.3 ip 存储的协议层次 目前主流的三种 ip 存储方案包括:互联网小型计算机系统接口(internet small computer systems interface,简称 iscsi)11、互联网光纤通道协议(internet fibre channel protocol,简称 ifcp)12和基于 ip 的光纤通道(fcip)13方案。 虽然三种 ip 存储方案都有成本低、灵活性强、可管理性好、距离适中、以及对 以太网技术熟悉。而基于 ip 存储技术的 san,兼具了 fc san 的高性能和 nas 的 文件共享优势, 为新的数据应用方式提供了更加先进的结构平台。 在多种 san 孤岛 互连技术解决方案中,ip san 也显现出明显的优势。 1.2 课题研究目的和意义课题研究目的和意义 结合传统 nas 和 san 系统的优点, 针对上述 nas 和 san 系统的缺陷和不足, 设计了一种既有 nas 和 san 系统技术优点、 又能克服两者缺点的基于 san 架构的 集群 nas 系统,也就是采用 san 的专用存储网络的体系结构,而每个存储节点采 用 nas 设备,利用 nas 集群技术,用多台 nas 组成一个大容量、高可用性、高性 存储协议 如scsi,fcp 传输协议 (tcp或其他) 网络层:ip 链路层和物理层 (以太网) 7 能、高扩展性的存储系统。整个系统的架构如图 1.4: 客户端1客户端 n 附 网 高 速 通 道 服 务 器 通 道 应 用 服 务 器 应 用 服 务 器 nas lan 附 网 高 速 通 道 nas 专用存 储网络 raid卡raid卡 图1.4 集群nas体系结构图 nas cluster 是一种新兴的网络存储架构。它一方面能为网络上(包括 internet 和 intranet)的应用系统提供丰富、快速、简便的存储资源;另一方面又能对网上的 存储资源实施集中、统一的管理,成为高端应用理想的存储管理和应用模式。该存 储架构适用于对存储容量和性能都有很高要求的大型应用,如海量数据库,大型 web服务(www、 proxy.), 企业级文件服务, vod服务等。 所以研究基于nas cluster 的关键技术,实现具有高可扩展性、高性能、高可用性和高安全性的 nas cluster 在存储技术领域具有重大的科学意义,同时考虑到迅速增长的、高达上百亿美元的 存储市场,本课题的研究还具有重要的经济价值,其研究成果可以直接应用于存储 产品,实现良好的经济效益。 1.3 小结小结 本章从网络存储的发展现状谈起,介绍了直接连接存储,附网存储,存储区域 网和 ip 存储的概念、 拓扑和特点, 并针对 nas 和 san 的优缺点, 提出 nas cluster 概念,从而引出 nas cluster 的研究目的和意义。 8 2 nas 集群文件系统元数据管理的研究集群文件系统元数据管理的研究 本章,首先粗略介绍在存储体系结构中,国内外并行文件系统的研究状况,然 后,着重针对并行文件系统中元数据管理所涉及的技术进行详细的讨论,包括元数 据放置策略,元数据管理方式,元数据存储技术,元数据缓存技术。 2.1 存储体系结构中并行文件系统研究存储体系结构中并行文件系统研究 在存储体系结构中, 文件系统发挥着重大作用, 在 nas 系统中, nas 通过 nfs 或 cifs 协议提供文件服务,通常情况下,nas 对数据以及元数据进行重新管理, 修改特定的文件系统以满足企业需求。 而在 san 系统中, 应用服务器为外界提供文 件服务或数据库服务,而底层的存储设备是基于块服务,因此,应用服务器必须将 外界的请求(或是文件服务,或是数据库请求)转化为块请求,最后发往底层设备, 而这些转化工作完全依赖于文件系统,同时,因为应用需要高可用性,高性能,高 扩展性和高安全性要求,而应用服务器往往以集群的形式出现,这就更进一步要求 文件系统具有一定的集群特性。构建于存储体系结构上的文件系统是充分发挥存储 体系架构特点的关键,它既提供高带宽、低延迟的数据文件访问能力,又确保高效、 简洁、安全的管理和使用存储体系的手段。 2.2.1 国内外并行文件系统研究现状国内外并行文件系统研究现状 集群文件系统和并行文件系统、分布式文件系统这些概念有着很大的联系。实 际上,集群文件系统是并行文件系统在集群系统结构上的一个特例,同时作为一种 处于分布式环境下的文件系统,集群文件系统也具有分布式文件系统的一些特征。 目前国内外对这些文件系统的研究是一个热点。按研究的范畴分类大致集中在三个 方面:商业并行文件系统、分布式文件系统和研究型并行文件系统。 商业并行文件系统有 sgi origin2000 的 xfs14, hp exemplar 的 hfs(high performance file system) 15, ibm sp 的 gpfs(general parallel file system) 16以及 9 intel paragon 的 pfs (parallel file system)。 商业并行文件系统提供高性能, 但往往依 赖于特定的平台。分布式文件系统有 nfs (network file system) 17,coda18, highroad 19等。分布式文件系统允许多个客户对文件的分布存取,但通常不提供并 行应用所要求的高带宽并发写。研究型并行文件系统有 ppfs (portable parallel filesystem)20,galley21,pvfs22等,它们往往侧重于某一方面,譬如 ppfs 侧重 于自适应缓冲和预取的研究,galley 侧重于优化磁盘存取和文件的组织。本文研究 的对象主要是并行文件系统特别是集群文件系统,下面介绍几个国内外典型的并行 文件系统: pvfs 是由美国 clemson 大学研发的一个开放源代码的 linux 集群上的并行文 件系统,目前已经有两个版本:pvfs1 和 pvfs2。 pvfs 被设计成客户/服务器结 构,系统中的服务器分为元数据服务器和存储服务器,前者负责管理元数据,后者 负责管理用户的文件数据。pvfs 采用了元数据和用户数据相分离的结构,元数据 利用本地文件系统存储,由一台集中的元数据服务器进行管理,用户数据则采用分 片的形式存储在多个存储服务器上。这样可以实现对数据的并行存取,为用户提供 较高的访问带宽。pvfs 提供了一个很好的研究平台,其主要缺点是系统中存在单 一失效点,没有任何形式的缓存,也没有数据负载平衡机制,因为 pvfs 仅仅作为 一个研究型的并行文件系统,针对冗余和单一失效问题,并没有做出解决方案。 ibm rs/6000 环境下运行的并行文件系统 gpfs 被设计成“外观和感觉”都像 一个unix文件系统, 这意味着用户可以继续使用普通的unix命令来操作文件。 gpfs 的文件并行存放在多个存储结点上,单个文件是作为“块”分散存放在不同存储结 点的磁盘上。gpfs 允许用户共享访问跨多个 sp (scalable parallel)结点的文件操作, 通过在一个 sp 系统不同结点上运行多个进程,支持对同一文件的不重迭区域的同 时读/写。 国家高性能计算机工程技术研究中心自主设计的蓝鲸并行文件系统(bwfs)23 是用于海量网络存储系统的集群文件系统。它采用专用服务器模式,将文件访问的数 据流与控制流有效分离,为系统客户提供高吞吐率和高扩展能力的数据访问。专门的 10 元数据服务器集群负责文件系统元数据管理,专门的网络存储设备负责提供文件数据 存储服务。应用服务器通过“bwfs元数据访问协议” ,直接向网络存储设备进行文件 数据的读写。 绑定服务器主要完成文件系统元数据在元数据集群中的分布决策;网 络存储设备为bwfs提供存储服务,系统支持多个网络存储设备,通过虚拟化技术, 将多个网络存储设备物理地址虚拟成统一的逻辑块设备地址空间;管理服务器负责存 储设备和服务器状态的管理;高速互联网络将系统的应用服务器、系统服务器、网络 存储设备以及管理服务器连在一起,构成完整的应用系统。 2.2.2 并行文件系统研究内容并行文件系统研究内容 并行文件系统研究的内容主要集中在如下儿个方面: 1. 单一系统映像24, 25 在文件系统被加载后,用户可以从任何一个结点上进入文件系统的根目录,看 到的是一个完全一样的目录结构。为了实现该功能就必须实现文件系统的透明性。 如果集群文件系统提供严格的单一系统映像的能力,那么它应当是一个实现了透明 性的全局文件系统。在用户看来,它应当和单机文件系统没什么区别,其文件的组 织是单一的树型结构,文件是全局存取的,不需要用户去直接关心数据的物理存储 和文件访问的细节。 2. 并行策略 由于互连网络和 i/o 总线的带宽通常都比磁盘驱动器至少高一个数量级以上, 并行文件系统常常采取文件分片技术将数据分布到多个存储结点上,从而应用程序 可以并行的从几个磁盘上存取数据,达到提高整体 i/o 带宽的功能,以及如何进行 负载平衡问题。研究文件的并行策略以获得好的访问性能,成为一个重要的研究课 题。 3. 元数据管理 由于并行文件系统的文件数据是分散存放在多个结点上的,访问数据之前需要 利用元数据进行定位,元数据的管理就成为一个关键。这正是本文要研究的主题, 11 后面再详细讨论。 4. 合作式缓存管理26 通过缓存机制, 系统将己经访问过的文件块保存在内存中以备再次请求时使用, 这种方法在文件块被多次使用时可以提高系统性能。随着网络速度的提高,从网络 结点的内存中访问数据的速度比从本地硬盘读取速度要快;同时集群中各个结点的 内存可以聚集在一起在形成一个比单一结点大得多的内存,这些前提使得合作式缓 存成为现实。合作式缓存是充分利用客户机上的缓存,使得对数据的访问新增了一 个层次,可以减少数据块的实际磁盘读写次数,从而提高了文件系统的效率。缓存 技术同时也带来了数据一致性问题,为了解决这个问题,需要设计一致性协议。 5. 容错与高可用 一般来说集群中的结点都有失效的概率,文件系统中的数据在系统运行过程中 随时都有损坏或丢失的可能。硬件或软件的故障也会使得系统提供的服务失效。在 这种情况下,持续保证数据的可用性,发生故障时进行灾难抢救和恢复就成为数据 容错和系统高可用性主要研究的问题。 2.2 元数据管理元数据管理 在文件系统中,元数据是用来描述一个文件系统特征的数据。对于磁盘文件系 统来说,一个“文件”是指按一定的组织形式存储在介质上的信息,它实际上包含 两方面的信息:存储的数据本身以及有关该文件的组织和管理信息。 这些关于文件组 织和管理的信息就是该文件的元数据。在 unix 系统中,文件的元数据主要是文件 目录项和索引节点结构。目录项和文件系统的名字空间相关,每个目录项对应一个 文件名。索引节点结构中则存储着文件的很多重要信息,诸如访问权限、文件主、 文件大小、文件的创建时间、最后存取时间、最后修改时间等属性信息,以及文件 数据的物理分布信息(如直接块指针、间接块指针)。此外,还有一些重要的系统数 据(如超级块信息),记录了整个文件系统的使用情况(如空闲块的大小、己使用的空 间大小等),也是一种很重要的元数据。 12 对于处于分布式环境中的并行文件系统,文件的元数据也包括以上这些内容。 所不同的是文件的物理分布不仅包括文件在磁盘上的位置,而且还包括磁盘在系统 中的结点位置。因此,元数据信息要更多一些。为了提高文件读写的 i/o 性能,并 行文件系统的文件数据通常不是存储在一个单一设备中,而是将这些数据均匀地分 布在多个结点上,即使是一个独立的文件也可能分片存放。正确描述数据位置或文 件分片信息的参数,就成为并行文件系统中最重要的元数据。 既然并行文件系统的文件被分布在多个结点机上,单个的数据对于用户来说则 是没有意义的。为了让应用程序透明地使用并行文件系统,必须对这些已经分割开 来的数据进行管理。并行文件系统设计中的一个关键要素就是元数据的管理。传统 文件系统中元数据存放在个体服务器上,从而限制了跨服务器或跨文件系统对数据 进行共享和访问的能力。在并行文件系统中通过使用一个元数据服务器在存储网络 上管理元数据,可以帮助将更多的智能功能从个体服务器转移到存储网络之中,从 而使网络中的任何应用服务器都可以访问这些功能。并行文件系统客户机软件运行 在应用服务器上,通过与元数据服务器的交互来获得元数据。一旦客户机软件获得 了元数据,它就可以通过网络直接访问文件数据。通过使用这种方式,并行文件系 统可以提供高性能的数据访问,能够实现跨异构应用服务器的数据共享。并行文件 系统需要允许系统中任何服务器上的应用访问网络中的任何文件,而且不需要对应 用进行任何修改。可以说,管理并行文件系统的元数据是管理数据的关键。 归结起来,并行文件系统元数据管理的重要性主要表现在两个方面: 首先,元数据是最重要的系统数据。客户读写并行文件系统中的文件,首先要 对数据进行定位, 只有先获得文件的元数据后, 才能将客户的请求转发到正确的 i/o 服务器进行数据访问。如果不能进行正确的定位,基于文件数据的并行应用程序就 无法执行。因此,必须保证系统中元数据的正确性和可靠性。 其次,元数据的访问性能影响着并行文件系统的性能。在并行文件系统中,元 数据的访问很频繁,而元数据文件通常又很小,这样对大量小文件的访问,会对系 统性能造成冲击。为了提高元数据的性能,许多人已经做了一定的研究。 13 对并行文件系统元数据管理的研究,主要集中在如下几个方面: 2.2.1 元数据放置策略元数据放置策略 元数据和用户数据可以分开单独存放,也可以存放在一起。当元数据和用户数 据分开存放的时候,设计逻辑比较清晰,元数据访问流和数据访问流分开,控制比 较简单。当元数据和用户数据存放在一起的时候,可以获得更好的访问并行度,但 也增加了系统的复杂性。对元数据放置策略的研究,主要是为了提高元数据的访问 性能和容错。 2.2.2 元数据管理方式元数据管理方式 并行文件系统的元数据管理可以采取集中式的管理, 也可以采取分布式的管理。 对于结点数比较少的集群, 采取集中式的管理就可以了, 用一个服务器管理元数据, 控制比较简单, 管理和维护也方便。 其缺点是元数据服务器是系统中的单一失效点, 这时候要考虑提高系统的可靠性。 当集群的规模比较大, 结点达到成百上千的时候, 元数据数量也比较可观, 单个服务器无法满足要求, 需要采取分布式的元数据管理, 用多个结点机来管理元数据。分布式元数据管理可以获得良好的访问并行性,而且 容易实现负载平衡。但是它的控制和实现复杂,需要维护元数据的一致性,开销比 较大,设计好的一致性协议减少这种开销,提高元数据的性能是主要研究的内容。 2.2.3 元数据存储技术元数据存储技术 并行文件系统对元数据的存储,通常采取数据库技术或者是借助本地文件系统 来实现。用文件系统存储元数据是比较常见的方式。有些并行文件系统采用日志文 件系统来存储元数据,以提高元数据访问的性能和容错。在分布式环境下,用数据 库存储元数据比较常见。dpfs(distributed parallel file system)27是美国西北大学并 行分布式计算中心研制的一个分布式并行文件系统,它最显著的特征就是用数据库 存储文件系统的元数据,使元数据管理变得容易和可靠。sql 相对于直接管理低级 的文件来说是一个高级的、可靠的接口,可以省出编程的麻烦;数据库系统提供的事 14 务机制使得维护元数据的一致性变得容易。 2.2.4 元数据缓存技术元数据缓存技术 对于经常访问的数据,采用缓存技术可以提高文件系统的性能。元数据的访问 频度非常高,而且可能是多次访问同一数据,缓存可以大大减少访问磁盘的次数。 元数据缓存技术既可以在服务器实现, 也可以在客户端实现.研究适合元数据应用的 缓存算法,提高缓存的命中率,是元数据缓存技术研究的一个重点。 2.3 小结小结 本章首先对国内外并行文件系统进行一个初步介绍,并对并行文件系统有那些 种类进行说明,接着描述了并行文件系统的研究内容,涉及单一系统映像、数据放 置元数据管理、合作式缓存管理、容错与高可用,最后重点介绍元数据管理问题, 研究重点放到元数据的放置策略、元数据管理方式、元数据存储技术、元数据缓存 技术。 15 3 nas 集群文件系统元数据管理的设计集群文件系统元数据管理的设计 在文件系统,元数据的管理是整个文件系统的核心内容,关系到整个文件系统 功能、性能、以及扩展性等各方面的表现,而在集群文件系统中,元数据管理更是 发挥了至关重要的作用,不仅仅要求立足于单个节点上的文件系统,需要从整个集 群的角度考虑元数据的管理,充分挖掘单节点的性能、节点分工协调、保持一定冗 余以提高健壮性、提供方便扩展接口等等。本章首先针对 nas 和 san 的优缺点, 提出 nas clustger 的概念,并进一步描述基于 nas cluster 系统架构图,并初步介 绍了 ncfs 的优点,然后介绍 nas 集群文件系统的软件架构图,然后着重描述了 nas 文件系统的元数据管理的设计,涉及元数据的分布式管理和分层式管理。 3.1 ncfs 系统架构设计系统架构设计 目前存储设备供应商能提供的 san 技术还是存在大量的局限性28, 29: (1)存储设备能实现跨平台的存储是很多厂商宣传 san 时重点强调的,但在 现阶段多平台的系统如 s/390、各种厂家的 unix 和 nt 的服务器都要联到 san 中 的一个存储设备上,并进行平台之间的数据共享、跨平台操作,实现起来还是有许 多障碍的。 (2)企业宣传 san 带来的另一大好处是管理简单方便,但存储的管理工具还 不够完备, 还不能用统一的管理控制平台管理所有 san 中的设备及应用。 与此同时, 构建和维护 san 需要有丰富经验的、并接受过专门训练的专业人员,这大大增加 了构建和维护费用。 (3)san 应能自动识别、配置新的存储设备,并根据使用情况平衡 san 内不 同存储设备间的负载,进行存储设备间的数据复制、备份。但这只是理论上能作到 的。 (4)san 很难做到跨厂商,大多数厂商的 san 系统中只能连一种厂家的 san 16 存储设备。 (5)san 追求的是性能和速度,但 san 也是昂贵的代名词,对于大部分的企 业用户,nas 的应用要比 san 要多得多。 (6)san是基于块接口的,由此带来一些安全问题,即san的安全性非常有限。 在块粒度基础上建立安全机制,必须记录每块的安全属性信息(如是否属于同一个文 件,谁有权限访问该块等) ,开销非常大。因此,目前的做法是通过分区(zoning) 和逻辑单元掩码(lun masking)提供粗粒度的安全支持(对某个特定的逻辑单元, 一台客户机只有可访问与不可访问两种可能) 。这样,san中访问存储设备的客户机 必须是可信任的。 而与此同时,nas存在同样的问题: (1)nas最大的缺陷性能上的缺陷,在nas系统中,对nas的请求和对应用 服务器的请求将很有可能同时竞争有限的带宽,即使在将来万兆以太网的出现,这种 冲突依然存在;其次,nas是基于文件访问的,而san是基于块设备,因此,nas是 很难做到象块设备这样的高速访问。 (2)nas在备份过程中,无法做到lan-free,因此,在备份过程中,nas将大 量占有网络带宽,将十分限制应用服务器的工作,因此,让整个系统的部分功能不能 完全实现,因此不能保证系统做到247工作。 (3)nas很难避免“信息孤岛”的出现,如果在一个企业中存在多个nas,很有 可能在一个nas上的数据同时出现在另一个nas上,并与此同时,个个nas之间无法 做到相互沟通,相互共享资源。 (4) nas容易出现单点失效的局面, nas无法做到象san那样在接口, 在链路上, 在管理上那样的冗余,无法保证无法做到象san那样有效避免单点失效。 结合传统 nas 和 san 系统的优点, 针对上述 nas 和 san 系统的缺陷和不足, 设计了一种既有 nas 和 san 系统技术优点、 又能克服两者缺点的基于 san 架构的 nas cluster 系统,也就是采用 san 的专用存储网络的体系结构,而每个存储节点 采用 nas 设备,利用 nas 集群技术31,用多台 nas 组成一个大容量、高可用性、 17 高性能、高扩展性的存储系统。单个 nas 可以采用市场上的商用 pcraid 卡 多个硬盘的结构, 采用 raid5 算法, 这样单个 nas 的容量就能够达到以 t 为单位, 多个 nas 就能够组成一个海量的存储系统。整个系统的架构如图 3.1: 客户端1客户端 n 附 网 高 速 通 道 服 务 器 通 道 应 用 服 务 器 应 用 服 务 器 nas lan 附 网 高 速 通 道 nas 专用存 储网络 raid卡raid卡 图 3.1 nas cluster 体系结构图 利用nas都是基于文件访问特性: 所有nas通过nfs协议、cifs协议对外统一的文件服务,因此可以有效解决san 的管理问题和跨平台问题; nas系统可以即插即用, nas设备的安装、 调试、 使用和管理非常简单, 随着nas 访问量增大,可以有效进行添加设备或进行升级,系统的扩展性好; 在文件的基础上实现安全管理也远远简单于基于块设备访问,目前已经有不少基 于在文件基础上实现安全管理的研究; 单个nas可以采用市场上的商用pcraid卡多个硬盘的结构,采用raid5算 法,这样单个nas的容量就能够达到以t为单位,多个nas就能够组成一个海量的存 储系统。 把 nas 组成 cluster,利用 cluster 属性: 18 (1)可以利用 nas 价格上的优势,减少系统整体的成本; (2)把 nas 集中于一处,让 nas 与 nas 之间可以有效沟通,可以从一定程 度上有效解决 nas 的“信息孤岛问题” ; (3)对于热点文件,进行分块存储在不同的 nas 中,利用类似 raid 的算法, 同时从不同的 nas 中读取,充分利用并行性,从而提高系统整体性能,从而达到预 定的要求。 利用 san 的存储结构特性: (1)在链路上尽量减少单点失效,从而提高系统的可靠性,可以让系统应用 在要求更高的环境中; (2)可以解决 nas 的 lanfree 问题,解决 nas 与应用服务器竞争网络带 宽的问题,同时避免在备份工作中,系统性能出现瓶颈。 3.2 nas 集群文件系统特点集群文件系统特点 基于 nas cluster 的 nas 集群文件系统的特征: (1)共享存储shared-disk 系统每个服务结点都可以访问系统中所有的数据,数据在整个系统内共享。 (2)单一系统映像(single-image ) 系统中每个服务结点看到的系统文件目录结构完全相同,他们以相同的方式访 问数据文件,数据没有本地和远程之分,并且用户可以访问任何数据而无须知道数 据位于何处31。 (3)集群(high performance) 服务结点和存储节点都采用集群的方式工作,有效的提高了计算能力和存储能 力的使用效率。 (4)可扩展性好 基于 san 的单映像 cluster 文件系统具有灵活的可扩展能力,通过增加安装该 文件系统的服务结点可以增强文件系统的服务能力,通过增加文件系统中管理的存 19 储设备可以增加文件系统的数据总量。 (5)高可用性 文件系统的单映像保证了在一个服务结点崩溃时,该服务器负载可迁移至其他 服务结点,文件系统数据保持一致、可用,不会受到崩溃结点的影响,可以实现故 障的用户透明。 (6)安全性好 通过对用户身份进行认证管理,可以确保系统在任何情况下都完整、一致、安 全。 (7)高性能 基于 nas cluster 的 nas 集群文件系统是充分发挥 nas cluster 架构特点的关 键,它既提供高带宽、低延迟的数据文件访问能力,又要确保高效、简洁、安全的 管理和使用 nas cluster 的手段。 3.3 ncfs 的软件架构的软件架构 在整个系统中, 所有命令的执行分别由应用服务器和存储服务器来完成, 而元数 据管理主要集中于 cns 层,sns 层和心跳协议模块。ncfs 系统软件架构如图 3.2: 应用服务器 存储节点 高速ip网络 tcp /ip nic local fs 本地磁盘 scsc sns 热点文件 控制模块 操作系统 应用层软件 tcp/ip层 cns nicnic sn 心跳协 议模块 数据迁 移模块 高可用 性管理 cc ifs cn 日志模块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论