(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf_第1页
(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf_第2页
(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf_第3页
(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf_第4页
(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf_第5页
已阅读5页,还剩146页未读 继续免费阅读

(计算机应用技术专业论文)面向internet的大规模分布式存储技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子科技大学博士学位论文 摘要 随着计算机技术的不断进步和i n t e m e t 的飞速发展,在各种应用需求的推 动下,分布式存储技术取得了长足的进步。同时,日益增加的用户数量,越 来越大的数据存储量要求,越来越广阔的数据分布范围,越来越高的数据可 靠性要求,越来越丰富的数据来源,也给分布式存储技术带来了新的挑战。 如何在高动态的网络环境中构建大规模、高性能、高可靠、可扩展的面向 i n t e m e t 的分布式海量存储系统,是分布式存储技术亟待解决的问题。 本文在对分布式存储领域的最新研究成果进行了系统、全面的学习和总 结的基础上,针对面向i n t e m e t 的大规模分布式存储技术,进行了深入细致地 研究,取得了若干创新和成果。 本文的主要创新点包括: 1 设计了个基于p 2 p 的i n t e m e t 海量存储系统7 c s t o r e 。兀一s t o r e 采用 高可扩展的p 2 p 体系结构,将大量分散的节点组织成一个逻辑网络,构建面 向i n t e r n e t 的大规模分布式存储系统。冗s t o r e 采用高效的p 2 p 路由机制、优 化的数据容错策略、动态自适应的副本管理以及并行传输机制为用户提供高 效、可靠的分布式海量存储服务。 2 提出了种新的分布式结构化p 2 p 路由算法7 【一r o u t e 。7 c r o u t e 对 p a s t r y 的路由表维护算法做出了改进,提出了一种新的路由表维护算法 “l d - p n s ”,通过动态优化节点上保存的路由表表项内容,达到减小路由延 迟、提高文件访问性能的目的。兀一r o u t e 通过为文件副本引入“代理节点”, 使得文件副本的存放位置不再受文件标识符的限制,可以在系统中自由迁移, 与f s r m 机制结合,可以大大减少系统网络开销,提高文件访问性能。 3 提出了种新的分布式协作冗余复制机制一d c r 2 。d c r 2 结合了完全 复制和x o r 校验的方法,将分布在不同机器上的多个文件通过相互之间的校 验文件联系起来,通过多个文件相互协作,提高了单个文件及一组文件的整 体容错性能。 4 提出了一种基于访问频率的分布式自适应动态副本管理机制一 电子科技大学博士学位论文 f s r m 。f s r m 根据文件读写访问频率,自动调整文件副本数量以及副本存放 位置,平衡读写操作对副本的不同要求,并对每个副本实现不同精度的差异 化管理。f s r m 机制可以在不增加系统负载的条件下更灵敏地实现对副本的 动态管理,充分发挥文件副本的性能优势。 5 提出了一种高效的速度自适应的并行下载机制a d p d 。采用a d p d 机 制,系统节点可以精确地根据多个文件副本节点的速度情况,动态划分文件 块,将多个节点的i o 能力以及多条路径的网络带宽聚集起来,以达到充分 利用带宽、加速下载的目的。a d p d 通过动态调整分块大小,让各节点根据自 己的能力承担相应比例的下载任务,合理分担了负载,也最大限度的利用了 副本节点能力。 关键词:分布式存储,p 2 p 网络,p 2 p 路由,协作容错,副本管理,并行下载 皇王型垫查堂堡主兰堡丝苎 a b s t r a c t t h er a p i dd e v e l o p m e n t so fi n t e m e tt e c h n o l o g ya n dc o m p u t e rs c i e n c eb r i n g g r e a tc h a l l e n g e st od i s t r i b u t e ds t o r a g et e c h n o l o g y t h ed i s t r i b u t e ds t o r a g es y s t e m i nt h ef u t u r em u s th a v et h ea b i l i t yt oa c c o m m o d a t eg r e a tn u m b e ro fu s e r s ,d e a l w i t hm a s s i v ed a t ad i s t r i b u t e di n i n t e r n e te n v i r o n m e n t ,a n dp r o v i d eh i g hd a t a a v a i l a b i l i t ya n dh i 曲p e r f o r m a n c e o f s t o r a g es e r v i c e h o w t ob u i l ds u c hd i s t r i b u t e d s t o r a g es y s t e m w i t hg o o ds c a l a b i l i t y , e f f i c i e n c y , a n dr e l i a b i l i t yi sav a l u a b l ew o r k f o r u s t od o t h i sd i s s e r t a t i o n p r i m a r i l y f o c u s e so nt h et e c h n o l o g yo fd i s t r i b u t e dd a t a s t o r a g e o f p r o v i d i n gl a r g e - s c a l e ,h i g h a v a i l a b i l i t y a n d h i g h p e r f o r m a n c e d i s t r i b u t e dm a s s i v es t o r a g es e r v i c e b a s e do ns y s t e m a t i c a l l ys u m m a r i z i n gt h e r e l e v a n tw o r k so nd i s t r i b u t e dd a t as t o r a g et e c h n o l o g y , t h i sd i s s e r t a t i o ng a i n s s e v e r a la c h i e v e m e n t so nt e c h n o l o g yo fi n t e m e to r i e n t e dl a r g e - s c a l ed i s t r i b u t e d s t o r a g es y s t e m t h e i n n o v a t i o n so ft h i sd i s s e r t a t i o na r ea sb e l o w : 1 t h i sd i s s e r t a t i o nd e s i g n sap 2 pb a s e di n t e m e to r i n t e dd i s t r i b u t e ds t o r a g e s y s t e m :7 c s t o r e b a s e do nah i g h l ys c a l a b l ep 2 pa r c h i t e c t u r e ,兀- s t o r eo r g a n i z e s l a r g en u m b e r so f n o d e sd i s t r i b u t e di ni n t e r a c ti n t oau n i t e do v e r l a yn e t w o r ka n d c o n s t r u c t sa ni n t e r n e to r i e n t e dd i s t r i b u t e dm a s s i v es t o r a g es y s t e m f e a t u r i n gw i t h e f f e c t i v er o u t i n gm e c h a n i s m ,h i g h a v i l a i l i t yd a t ar e d u n d a n c y , a d a p t i v er e p l i c a t i o n m a n a g e m e n t ,a n dp a r a l l e lf i l et r a n s f e r i n gm e c h a n i s m ,n - s t o r ep r o v i d e su s e r sw i t h e f f i c i e n t ,r e l i a b l e ,m a s s i v es t o r a g es e r v i c e 2t h i sd i s s e r t a t i o np r e s e n t san o v e le f f e c t i v ep 2 pr o u t ea l g o r i t h m :冗一r o u t e 7 c r o u t em o d i f i e sp a s t r y sr o u t i n ga l g o r i t h m ,a n dp r e s e n t san e w a l g o r i t h mc a l l e d “l d p n s a sw e l la san e wm e c h a n i s mc a l l e d “r e p l i c as u r r o g a t e ”b y u s i n g l d p n s ,e n t r i e so fan o d e sr o u t i n gt a b l ec a nb ea d j u s t e dd y n a m i c a l l yt or e d u c e r o u t i n gd e l a y a n d i m p r o v ep e r f o r m a n c e o ff i l e s a c c e s s b yu s i n g o fr e p l i c a s u r r o g a t e 一r o u t ee n a b l e sr e p l i c a st om i g r a t ef r e e l yi ns y s t e mt oa n y w h e r et h a t n e e d st h e m ,w h i c h i m p r o v e s t h ep e r f o r m a n c eo ff i l ea c c e s s i n g 电子科技大学博士学位论文 3t h i sd i s s e r t a t i o np r e s e n t san o v e ld i s t i l b u t e dc o o p e r a t i v ef a u l t t o l e r a n c e s t o r a g em e c h a n i s mc a l l e d “d c r 2 ”w h i c hi s b a s e do nf i l e r e p l i c a t i o na n dx o r v e r i f i c a t i o n b yu s i n gx o rv e r i f i c a t i o n f i l e s d c r 2m a k e sag r o u po ff i l e s d i s t r i b u t e da m o n gd i f f e r e n ts y s t e mn o d e sc o o p e r a t i v e ,s ot h a tn o to n l ya s i n g l ef i l e i nt h eg r o u pc a nu s ei t sx o rv e r i f i c a t i o nf i l e st oi m p r o v ei t so w n a v a i l a b i l i t y , b u t a l s ot h ea v a i l a b i l i t yo f t h ew h o l e g r o u pc a nb ei m p r o v e dg r e a t l y 4 t h i sd i s s e r t a t i o n p r e s e n t s an o v e ld e c e n 订a l i z e d d y n a m i cr e p l i c a t i o n m a n a g e m e n tm e c h a n i s mc a l l e d “f s r m ”i nf s r m ,f o rt h ep r o p o s eo fp r o v i d i n g b e t t e rs y s t e mp e r f o r m a n c ea n dr e d u c i n gn e t w o r kt r a f f i c ,s y s t e mn o d e ss c a nt h e i r l o c a lr e p l i c a st om o n i t o rr e p l i c a s a c c e s sp a t t e m ,a n dm a k ed e c i s i o ni n d e p e n d e n t l y t o a d d ,d e l e t eo rm i g r a t et h e i rr e p l i c a s i na d d i t i o n ,t h es c a n n i n gi n t e r v a lo fa r e p l i c ai sv a r i a b l ea c c o r d i n gt ot h ea c c e s s i n gf r e q u e n c i e so ft h o s er e p l i c a s ,w h i c h m a k e sf s r mm o r es e n s i t i v et ot h ec h a n g eo f s y s t e mb e h a v i o r s b yu s i n gf s r m , s y s t e mg a i n sb e t t e rp e r f o r m a n c ew i t hl o w o v e r h e a d 5 t h i sd i s s e r t a t i o np r e s e n t sa ni m p r o v e dp a r a l l e l d o w n l o a d i n gm e c h a n i s m f o rp e e r - t o - p e e re n v i r o n m e n tn a m e d “a d p d ”i no r d e rt or e d u c et h en u m b e ro f b l o c kr e q u e s t sa n dn o tt o i n t e r r u p tal i n k sd o w n l o a d i n gp r o c e s s ,a d p da s s i g n s e a c h r e p l i c ae q u a lp o r t i o no ff i l e a s l a r g e a s p o s s i b l e a t t h e b e g i n n i n g o f d o w n l o a d i n g t h e na d p dd y n a m i c a l l ya a j u s t st h ep r o p o r t i o no faf i l er e t r i e v e d f r o me a c h r e p l i c a t om a t c ht h eb a n d w i d t ho fe a c h d a t al i n k d u r i n g t h e d o w n l o a d i n gp r o c e s s ,w h i c ha c c e l e r a t e st h ed o w n l o a d i n gs p e e da n dr e d u c e s s y s t e m so v e r h e a d k e y w o r d s :d i s t r i b u t e d s t o r a g e ,p 2 pn e t w o r k ,p 2 p r o u t i n g ,c o o p e r a t i v e f a u l t - t o l o r e n c e ,r e p l i c am a n a g e m e n t ,p a r a l l e ld o w n l o a d i n g - i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得电子科技大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确地说明并表示致谢。 签名: 2 扭 日期:加i f 年,r 月川日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:业导师签 日期:沙产年,月纠日 电子科技大学博士学位论文 1 1研究背景 第一章绪论 1 1 1i n t e r n e t 发展现状 i n t e m e t 起源于美国的a r p a n e t 计划,其目的是建立分布式的、存活力强 的全国性信息网络。以a r p a n e t 作为主干网的i n t e m e t 产生于1 9 8 3 年。而随着 时间的推移,计算机技术的逐步提高、局域网的增加,美国国防部决定将网络 区分开,而将非国防用途方面的网络系统在8 0 年代中期与国家科学基金会 ( n s f ) 所建立的许多个超级计算机中心连接,成为现在互联网络( i n t e m e t ) 的主干n s f n e t 。1 9 9 1 年6 月,在连通i n t e m e t 的计算机中,商业用户首次超过 了学术界用户,这是i n t e r n e t 发展史上的一个里程碑,从此i n t e m e t 成长一发不 可收拾。到目前为止,全球加入i n t e r n e t 的节点数已经突破了1 0 0 ,0 0 0 0 0 0 个。 在中国,1 9 9 4 年4 月2 0 日,n c f c 工程通过美国s p r i n t 公司连入i n t e m e t 的6 4 k 国际专线开通,实现了与i n t e r n e t 的全功能连接。从此戒国被国际上正 式承认为有i n t e r n e t 的国家,i n t e m e n t 开始了在中国的高速发展。据中国互联网 中心c n n i c 统计,截止到2 0 0 3 年1 2 月3 1 日,我国的上网计算机总数己达3 0 8 9 万台,是1 9 9 7 年1 0 月2 9 9 万台的1 0 3 3 倍( 如图1 1 所示) ,可见我国上网计 算机总数呈现出较快的增长态势。同时,我国的上网用户总人数已经达到7 9 5 0 力人,是1 9 9 7 年1 0 月的1 2 8 2 倍 c n n i c 0 3 1 。可见我国上网用户总数增长非 常之快。 随着接入i n t e r n e t 的用户数量和节点数量的快速增长,i n t e r - n e t 的网络带宽 也在不断地提高。与m o o r e 定律齐名的g i l d e r 定律预言:i n t e m e t 的带宽将会 每六个月增长一倍。目前我国国际出口带宽的总容量为2 7 2 1 6 m ,与最初的6 4 k 相比,增长非常迅速。同时,随着我国互联网基础设施的进一步建设和发展, i n t e r n e t 终端接入用户的网络带宽也由最初拨号上网的低速连接逐渐向宽带接 入过渡,末端用户可用i n t e r n e t 带宽呈线性增长 h a n 0 1 。根据c n n i c 的调查, 截止到2 0 0 3 年1 2 月3 1 日,专线上网用户人数和宽带上网用户人数分别为2 6 6 0 电子科技大学博士学位论文 万人和1 7 4 0 万人,其中宽带上网用户人数半年增加了7 6 0 万人,增长率达到了 7 7 6 c n n i c 0 3 。据专家预计,宽带接入的用户将会进一步增长,并最终成为 上网用户的主流。 3 0 锄 激t 一。 姒。二7 撇1 哆多 啪j p , 蹿尊! s ,2 t1 1 1 ! ! :i 一 钟i o 镪- f ,t 镐7 ,l - f1 3 1 o j7o z ,l0 2 。t0 3 ,t 。t0 6 , 巨至匦囹 图1 1 中国连入i n t e m e t 的主机总量( 万台) ( 来源:第十三次中国互联网络发展状况调查统计报告) 1 1 2 i n t e r n e t 存储技术面临新的挑战 随着i n t e m e t 规模的不断扩大,越来越多各式各样的信息被网罗其中,形 成了一个广阔宏大的信息空间。在这个空间中,存在着海量的信息,如何快速、 高效、安全地让网络用户在如此浩瀚的信息海洋之中找到并获取自己所需的资 源,是当前互联网发展的最大挑战之一。 数据存储技术和存储管理源于7 0 年代的终端主机( t e r m i n a l i o s t ) 计算 模式,当时由于数据集中在主机上,因此,易管理的海量存储设备一磁带库是 当时必备的设备。 8 0 年代以后,由于p c 的发展,尤其是九十年代应用最广的客户机朋& 务器 ( c l i e n t s e r v e r ) 模式的普及,推动了i n t e r n e t 的高速发展。在这种模式下,数 据信息集中在各种服务器上,大量的用户通过连接相对少数的服务器以获取所 需的资源。这种资源集中的模式主要是由早期的互联网的特点所决定的。在互 联网发展初期,客户机的运算速度慢、储存容量小、网络带宽窄,很难以自己 萋喜 黼 晰 o 电子科技大学博士学位论文 作为信息载体实现与其它主机的资源共享。而对专用服务器而言,它们的软硬 件和网络条件比普通客户机优越得多,这使得大量的数据向服务器端聚集,成 为互联网信息和服务的汇集点。到现在为止,客户机服务器模式仍然是i n t e r n e t 中最常用的数据存储和资源访问模式。 i n t e m e t 正在使存储技术发生着革命性的变化。这种变化主要表现在三个方 面:首先是存储容量的急剧膨胀,各种计算设备每时每刻都在产生大量的数据, 需要海量的存储空间;其次是数据就绪时间的延展,i n t e r n e t 要求网络数据必须 保证2 4 7 小时都处于就绪状态;最后,数据存储的结构不同了,在i n t e r n e t 和全球化电子商务的时代,数据应该是面向全世界的,数据的存取只应该受到 安全机制的管理,而不应该受到地域空间的约束 w e i 0 3 1 。 客户机n 务器的数据服务模式从互联网发展的初期到现在,一直扮演了举 足轻重的角色。但是,随着i n t e r n e t 的高速发展,传统的客户机n 务器这种数 据集中的服务模式正面临新的挑战 k a n t 0 1 1 。 1 、用户对服务器数据服务的质量要求越来越高。互联网的用户数量正以爆 炸式的速度增长,并且接入方式多种多样,接入速度也有了很大的提高。庞大 的用户数量带给i n t e m e t 的是高密度、海量的数据请求。据统计,一台普通的 w w w 服务器在一分钟之内,就可能收到1 0 0 万次的数据请求 k a n t 0 0 1 。而客 户机连接速度的提高也使得用户期望更快更好的获取服务,难以再忍受以往过 长的服务响应延迟。这些都对网络服务器的服务质量提出了更高的要求。然而, 由于服务器和客户机在数量上的绝对悬殊,靠单纯地提高服务器端的软硬件配 置和增加网络带宽来满足大规模用户密集、苛刻的服务请求,不是十分现实。 2 、数据文件类型和大小不断增加,对服务器储存容量的要求不断提高。随 着互联网应用的不断发展,数据类型也日趋多元化。早期的互联网服务内容相 对单一,主要是h t m l 网页、e m a i l 信件和图片文档等,数据量较小。而现在通 过i n t e r n e t 共享的数据类型越来越丰富,单个文件的数据量也越来越大,如软 件、音乐、视频文件的大小则是动辄数十兆字节,甚至超过l o i g a 字节。数据 文件的平均大小的增加,使得同样容量的服务器空间可以容纳的信息数量减少。 网络服务器存储容量的增加难以跟上数据文件大小和数量的增长速度,使得与 过去比较而言,服务器的数据汇集能力大打折扣。 电子科技大学博士学位论文 3 、用户交互模式发生变化,需要一种新的数据共享模式。随着计算机技术 的不断提高和网络环境的不断改善,互联网用户不再仅仅满足于单向的从服务 器端下载数据,他们开始热衷于与其他用户进行双向的交流,共享自己掌握的 资源和数据。在客户机服务器模式下,用户将自己数据集中到i n t e r n e t 中的服 务器上以实现共享交流,是一种“星形”的交流方式。但是随着个人掌握的数 据量的增加,由于服务器的存储容量瓶颈限制,这种传统的“星形”共享方式 已经无法满足用户日益增长的数据存储与共享需求。 4 、用户对数据的可靠性要求越来越高。特别是对于已经高度电子化的现代 企业来说,运行过程中积累起来的大量数据资料是它们最可宝贵的财富所在, 是企业存亡的生命线。如果这些数据一旦丢失或损坏,企业将遭受沉重的打击, 甚至于陷于灭顶之灾。根据3 m 公司的最新调查,对于市场营销部i g 来说,恢 复数据至少需要1 9 天,耗资1 7 ,0 0 0 美元;对于财务部门来说,这一过程至少 需要2 1 天,耗资1 9 ,0 0 0 美元;而对于工程部门来说,这一过程将延至4 2 天, 耗资达9 8 ,0 0 0 美元。而且在恢复过程中,整个部门实际上是处在瘫痪状态。 在今天,长达4 2 天的瘫痪足以导致任何一家公司破产! 美国“9 1 l ”恐怖袭击 的灾难性后果就使得世贸大厦中多家公司的商业数据毁于一旦,给企业用户造 成了无可挽回的损失,也使人们认识到了数据集中存储的局限性和可能带来的 潜在危险。 5 、互联网的应用曰新月异,对存储技术的扩展性提出了更高的要求。随着 技术的飞速发展,继p c 时代、网络时代之后,人类社会逐步进入“普及计算” ( p e r v a s i v ec o m p u t i n g ) 时代。特别是随着i p v 6 的推进,充裕的地址空间足以 为每一个电子设备分配一个i p ,连入i n t e r n e t 的节点数量会急剧增加,接入设 备的种类也会多种多样。在这种技术趋势下,未来的数据存储系统必须要具有 很好的扩展性,能够有效地管理种类繁多的计算设备产生的海量数据,并让用 户可以快捷、高效地存取、查找和使用这些数据,满足用户大规模、高动态的 数据请求。而系统扩展性正是客户机j r 务器模式的软肋所在。 1 2 分布式存储技术简介 随着i m e m e t 技术的不断发展和应用的日渐广泛,传统的客户机服务器数 电子科技大学博士学位论文 据存储服务模式已经难以满足用户高性能、高可靠、高可扩展性的海量数据存 储要求。在应用需求的推动之下,分布式存储技术得到了快速的发展,为构建 新一代的i n t e r n e t 数据存储和服务模式铺就了一条新的可行之道 z h a n 9 0 0 。 在分布式存储领域中,已经有许多研究人员开展了大量的研究工作,提出 了许多的技术和方法。这些系统中,有些尚在实验室研究阶段,有些已经成为 工业标准。本节将简要介绍与本文内容相关的一些研究工作。 1 2 1 网络存储技术 1 、网络附加存储( n e t w o r k a t t a c h e ds t o r a g e n a s ) 网络附加存储设备( n a s ) 是一种专业的网络文件存储及文件备份设备, 或称为网络直联存储设备、网络磁盘阵列。一个n a s 里面包括核心处理器,文 件服务管理工具,一个或者多个的硬盘驱动器用于数据的存储。n a s 可以应 用在任何的网络环境当中。主服务器和客户端可以非常方便地在n a s 上存取任 意格式的文件,包括s m b 格式( w i n d o w s ) n f s 格式( u n i x ,l i n u x ) 矛nc i f s 格 式等等。n a s 系统可以根据服务器或者客户端计算机发出的指令完成对内在文 件的管理。客户通过f i l ei o 方式发送文件存取请求到n a s ,n a s 通过操作系 统将f i l ei o 转换成b l o c ki o ,发送到内部磁盘。n a s 的特性还包括:独立于 操作平台,不同类的文件共享,交叉协议用户安全性许可性,浏览器界面的操 作管理,和不会中断网络的增加和移除服务器。 n a s 的主要目标是:方便、快捷地扩展文件服务器的存储容量和服务能力。 根据实际应用存储的需要,系统管理员可以动态地在应用系统中增、删n a s 服务器,而且操作、维护非常简单。对于局域网应用系统而言,n a s 是非常合 适的支持海量文件存储的技术。 n a s 是极具发展前途的一种存储技术,具有安装简单、易于管理、文件共 享、高扩展性等优点。n a s 已成为网络存储的主要选择之一。 2 、存储区域网( s t o r a g e a r e an e t w o r k s a n ) s a n 是存储技术进入网络时代的产物,它一方面能为网络上的应用系统提 供丰富、快速、简便的存储资源;另一方面又能对网上的存储资源实施集中统 电子科技大学薄学位论文 一的管理,成为了当今理想的存储管理和应用模式 f a r l e y 0 1 1 。 s a n 可以定义为:叛数据存穑为中心,莱疆胃 率臻静两络攘矜结稳,逶道 具有高速传输速率的光纤通道的直接涟接方式,提供s a n 内部任意节点之间的 多黯可选择豹数据交换,并将数据存储管理集中在相对独立的存储区域网内, 实现最大限度的数据共事和数搬优化蛰理,以及系统的无缝扩展。串型s c s i 协 议f c p ( f i b e rc h a n n e lp r o t o c 0 1 ) 是s a n 中使用最多的协议。应用系统可以通过 s c s i 协议访超数公里之终的存镳l 受务器。s a n 谴多主规访闻存壤爨秘_ 恚撬润互 相访问一样方便。 s a n 逶盔了数据静蕊可爱瞧、嵩扩震瞧、高毪能、遂距离延伸和数据荚攀 的需求,为多个主机系统共享襻储子系统和数据奠定了基础,实现了服务器和 存储的彻底分离,减少了应用臌务器的负担。s a n 具有多种拓扑结构:点到点 s a n 、环状s a n 、交换式s a n 。s a n 的高遮、离可靠性以及良好的扩鼹魅力, 使s a n 成为高端存储解决方案的代名词。s a n 可以使用于非线形编辑、服务 器集爨、远程灾戆恢复、互联阙数据爨务等多令镁域。 瓣于光纤通道的s a n 的缺点在于霈要依赖专用的、造价昂贵的光缚通道, 从而限制了s a n 的应用范围。 掇然耧是为了扩震系统的豁镳能力,毽整n a s 帮s a n 与分布式存储系统 所做工作的层次是不同的。n a s 主要侧重于系统的透明访问与零配置管理,集 成现有技术,提供“文件级”服务。s a n 所做的工作处于“数攒块”级,它利 用现商网络和现有数据传输协议s c s i 来实现数据的网终毒健。分布式存镶系 统所做的工作是“文件”级的,它利用现有的网络和文件服务器搭建海量文件 存德系统,s a n 黪n a s 弼以馋蕊分鸯式存罐系绞懿一个节, n , , w e i 0 3 。 3 、i p 存储 i p 存储即i s c s i ,这种技术在i p 栈的一个层面上传送本机s c s i 。其主要 悉怒疑采弼p 龟倦送s c s i 命令,簌麓使褥荣蘑i s c s i 镑议接目的存德设备可 以直接挂接在h a t e m e t 上,构成i ps a n 。它既有s a n 结构的优越性能,又充分 利蠲了现有以太网设薤。i s c s i 健企业阙络可以在搂入w a n 时能够在任何位置 传输、存储s c s i 命令及数据。i s c s i 使s a n 在更广泛斡主浚市嬷上部溪成为 可能ac i s c o 、i b m 公司,很早就投入到了i s c s i 市场中。微软公司也声明它将 电子科技大学博士学位论文 在w i n 2 0 0 0 、x p 灏w i n d o w s2 0 0 3s e r v e r 上提供免费的i s c s i 驱动。 在支持i s c s i 的系统中,用户或软件应用为在一台s c s i 存储设备上保存线 索取数据丽发出命令;搽作系统对这个请求进行鲶理并将这个请求转换为一条 或多条s c s i 命令,再传送给软件或接口卡。命令和数攒被封装起来,形成 条由i s c s i 包头开头的字节串,封装起来的数据被传送到t c p i p 屡后,幽 t c p i p 搀懿装起来载数据分为逡于斟络抟竣豹题。如果爨要,瓣装的s c s i 命 令遥可以先进行加密,然后在不安全的网络上传送。 i p 网络的普及性将使数据可以通过l a n 、w a n 或通过i n t e n e t 莉用新爱 i p 移储秘议传输。i s c s i 可用予改造本地s a n ,构建基予i p 两非f c 购s a n 。 应用系统可以通道普通i n t e m e t 和远处的存储服务器相遗,使用s c s i 协议访问 存镶骧务器。这楼一来,s a n 瓣实鼹性褥至l 了大大豹握麓,太熬豹痤蟋系统霹 以通过i s c s i 来扩展系统的存储能力。 1 2 2 集群存储技术 随着计算机技术的发震,具有高性能计算能力不再怒昂贵熟巨型诗算机麴 专长。微型计算机计算能力和网络技术的飞速发展,使得人们可以利用廉价的 微型诗篓投建立起集群系统( c l u s t e rs y s t e m ) b u r n s 9 4 b u m s 9 翅【b a k e r 9 5 , 从而达到和巨型计算机相媲美的处理能力。简单的说,集群( c l u s t e r ) 就是一 缝诗舞税,它们绍为一个整诲离霄户捷供一缝网络资源。这些鼙个静计算辊系 统就是集群的节点( n o d e ) 。 集群计算技术真是计算机界研究的一个热点问题。集群系统不但能够充 分裂蔼褒蠢豹诗算资源,瑟虽麓够逶过较甄懿较、硬孛代徐实城铰褰穗姥懿计 算桃系统。目前,最具代表性的集群系统是美国u cb e r k e r l y 大学的n o w 项 酲c c u l l e r 9 4 a n d e r s o n 9 5 n o w 、 b e o w u l f b e c k e r 9 5 】和著名的 p v m s u n d e r a m 9 0 g e i s t 9 4 c h e n 0 1a 】【c h e n 0 1 b 。 所谓集群文件系统( c l u s t e rf i l e s y s t e m ,c f s ) m e r c h a n t 9 2 【b r i a n 0 0 1 【h a k a n 9 9 怒指椠襁在一个哥扩充骚务器集群上酶文俘系统。灞户不需癸考患文 件悬存储程集群中什么位置,仅仅需豢使用统一的界面就可以访问文件资源。 当负载增加时,只需在服务器集群中增加新的服务器就可以提高文件系统的性 电子科技大学博士学位论文 能。c f s 通常保留了传统文件系统的语义,增加了集群文件系统必须的机制, 可以向用户提供高可靠性、高性能、可扩充的文件服务。 集群文件系统有几个共同的特点:1 、与传统分布式文件系统相比,系统设 计支持更大的应用规模( 几十台文件服务器、文件服务器之间可以跨越几个路 由器) ;2 、加强了文件服务器之间的协作;3 、增加了提高文件可靠性的手段。 大多数传统的网络文件系统如n f s 、a f s 、c o d a 对于并行处理而言是远远 不够的,因为它们都依赖中心文件服务器。新一代的文件系统如g l o b a lf i l e s y s t e m ( g f s ) 、x f s 和m f s 则比较适合于集群系统。因为这些系统都在集群 系统中的机器上分配存储器、c a c h e 和控制权,并且提供了并行文件访问和 c a c h e 一致性的解决方法。 g l o b a l 文件系统( g l o b a lf i l es y s t e m ,g f s ) 允许多个l i n u x 机器通过网络 共享存储设备。每一台机器都可以将网络共享磁盘看作是本地磁盘,而且g f s 自己也以本地文件系统的形式出现。如果某台机器对某个文件执行了写操作, 则后来访问此文件的机器就会读到写以后的结果。 x f s 试图通过将服务器的功能如保持c a c h e 的一致性、定位数据和处理磁 盘请求分布在各个客户上来提供对文件系统数据的低延迟、高带宽的访问。为 了保持c a c h e 一致性,x f s 采用了如下的方法。它将客户方的所有的内存空间 看为一个大的c a c h e ,这样就减少了客户方的数据缓存,利用了闲置机器的内 存,这种合作型的缓存可以通过减少到达磁盘的请求量来降低读延迟。为了将 定位数据的功能分布到每个客户端,x f s 让每个客户都必须对文件的一个子集 对应的请求进行处理。文件数据在多个客户端加以分类从而提供更高的带宽, 这种方法可以保证没有任何节点会产生单点失效的情况。 m f s 是m o s i x 集群自己的文件系统。m f s 将集群中的所有文件系统和目 录都看作是一个文件系统,而且它提供了对所有节点上的所有文件系统的统一 访问。m f s 包含了许多位于不同节点上的文件子树,因此它就允许对多个文件 进行并行操作和c a c h e 一致性。m f s 增加了对d f s a ( d i r e c tf i l es y s t e ma c e s s 、 的支持。d f s a 的目的就是让那些需要进行大量i 0 操作的进程迁移到远端节 点上,该远端节点拥有大多数i 0 操作将会涉及到的文件,因此大多数的i o 操作都能在远端节点上完成,而且在远端节点上可以通过本地访问来访问数据。 电子科技大学博士学位论文 m f s 比其它网络文件系统优越的地方就是它允许使用本地文件系统,大大减少 了进程和文件服务器之间的通讯开销。 l i n u x 集群技术已经发展成为成熟的低成本、高性能并行计算环境。p v f s ( p a r a l l e lv i r t u a lf i l es y s t e m ) b r i a n 0 0 是基于l i n u x 集群的高性能文件系统, 它的设计目标是提供文件并发访问的高带宽、提供多种a p i 接口、基于u n i x i o a p i 的应用程序可以不加修改直接访问、高可靠性和可扩充性。p v f s 提供 了集群内部一致性的名字空间,容许数据条列化到不同的i 0 节点。 p v f s 基于c l i e n t s e r v e r 模型,系统中有多个服务器,称为i od a e m o n 。i 0 d a e m o n 运行在集群中的节点上,这些节点称为f 0n o d e 。每个i on o d e 都拥有 自己的磁盘驱动器。p v f s 中每个文件被条列化分布在不同i 0n o d e 的磁盘驱 动器上,从而提高文件访问速度。应用程序通过p v f s 提供的a p i 库( c l i e n t l i b r a r y ) 访问p v f s 。在p v f s 中有一个管理d a e m o n ( m a n a g e rd a e m o n ) 负 责文件系统中元数据操作,例如建立、打开、关闭和删除文件时进行权限检查。 当对普通文件进行读操作或写操作时,不需通过m a n a g e rd a e m o n 进行,i 0 d a e m o n 和c l i e n tl i b r a r y 一起就可以完成对文件的读写操作。通常,i 0d a e m o n 和m a n a g e r d a e m o n 可以运行在不同的节点上以获得更好的性能。 虽然与传统的分布式文件系统相比,集群文件系统的可扩展性得到了提高, 但是它的体系结构所能支持的系统最大规模仍然存在局限性,无法胜任面向广 域网的大规模数据存储应用。 1 2 3 分布式文件系统 l 、州f s s u nm i c r o s y s t e m 公司于1 9 8 5 年开发了n f s ( n e t w o r kf i l e s y s t e m ) r u s s e l 8 7 ,以此作为对远程文件进行透明存取的一种方法。它目前已被移植到 几乎所有u n i x 系统( 包括l i n u x 、f r e e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论