MooseFS使用总结_第1页
MooseFS使用总结_第2页
MooseFS使用总结_第3页
MooseFS使用总结_第4页
MooseFS使用总结_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MooseFS使用总结08阿炯336055阿炯流行的开源分布式文件系统比较现在需要存储大量数据文件(1000万个文件),并且需要能够轻松访问其他计算机,因此数据非常珍贵,并且希望该文件系统具有冗馀功能。 首先,我们关注了Ubuntu企业云提供程序:Eucalyptus。 提供与Amazon web服务(AWS )几乎完全兼容的云计算界面,看起来像是云存储的可靠解决方案。Eucalyptus模仿Amazon的S3服务,提供了一个名为Walrus的存储服务组件。 但经过一些探索,我发现Eucalyptus想说爱你不容易。 Eucalyptus和AWS的EC2/S3在理论上是兼容的,但实际上却有很多工具可供AWS使用,因为Eucalyptus的部署很麻烦,文档不足,并且在互联网上几乎找不到相关的帮助最后一次部署Walrus之后,Walrus发现它不是我想的冗馀云存储系统。 只不过是实现了S3接口的独立软件。 事实上,Walrus与Eucalyptus的其他组件sc(storage controller )没有任何关联,Walrus只是提供了与S3一致的接口,其实现方法没有冗馀性并且不能够分别引入到多个服务器中。 因此,我们开始寻找真正的分布式文件系统来解决存储难题。找一找,市场上各种各样的分散文件系统的种类很多,不断出现。 举几个主要因素: mogileFS:Key-Value型元文件系统不支持FUSE,应用程序访问它时需要API,主要用于在web区域处理大量小图像,效率高于mooseFSFastDFS :美国人基于mogives改进的key-value文件系统不支持FUSE,提供比mogives更好的性能。moosefs :支持fuse,比较轻量,master服务器有单一依赖关系,支持以c书写,性能比较好,在国内使用人较多的glusterfs:fuse,比moosefs还要庞大。ceph :支持fuse,客户端已经在linux-2.6.34内核中,即可以选择ceph作为文件系统,如ext3/rasierFS。 完全分散,无集中依赖,用c写,性能好。 基于不成熟的btrfs,它本身也是非常不成熟的。lustre:Oracle公司的企业级产品非常庞大,与核心和ext3密切相关。NFS :旧的网络文件系统,具体来说不知道,但是NFS这几年没有发展,肯定不能使用。 本来我打算用mogileFS,用的人最多,而且我的主要需求都是网络。但是,对api的研究表明,由于Key-Value文件系统没有目录结构,因此list中子目录的所有文件都不可用,无法像本地文件系统那样操作,无论做什么都需要api,这让人非常不愉快mogilliefs这种做法可能受到同一个开发团队另一个着名产品memcached的监听端口api模型的影响,也许在mogiefs开始设计时FUSE不流行。总之,找到支持FUSE的分布式文件系统,最后从mooseFS、glusterFS、ceph中进行选择。 技术上ceph最高,用c写入,进入linux-2.6.34内核,基于btrfs文件系统,保证高性能,多个master的结构彻底解决了单点依赖问题,实现了高可用性。 但是官方网站也明确指出,ceph不成熟,btrfs本身不成熟,不将ceph用于生产环境。glusterFS适用于相对较大的应用程序,因为口碑相对较差,所以没有考虑。 最后选择了缺点和优点相同的mooseFS。 虽然有一个依存点,但是master占用了很多内存。 但是根据我的需求,mooseFS足以满足存储需求。 国内mooseFS的人很多,很多人被用于生产环境,使我的选择更加坚定。一、MFS介绍:distinctivefeaturesofmoosefsare :MooseFS的优异特性包括- higher reliability (datacancebestodeinserverlcopiesonseparatecomputers )高可用性(可在多台计算机上存储数据的多个拷贝)- dynamicallyexpandingdiskspacebyattachnewcomputers/disks动态扩展允许您随时添加计算机和磁盘- possibilityofstoringdfilesforadefinedperiodoftime ( trash bin serviceonafilesystemlevel )您可以重复使用在指定时间内删除的文件(垃圾回收站是系统级别的服务)- possibilityofcreatingsnapshotofafile,whichansecontrecopyofthewholesfile,even while the file is being written。在整个文件中,您可以为正在写入的文件创建快照。MFS文件系统结构:包括四种角色:管理服务器管理服务器(managing server,master ) :负责管理每个数据存储服务器、调度文件读写以及收集和恢复文件空间。singcomputermanagethewholesystem,storingmetadataforeveryfile (informationonsize,attributesandfilelocalisation (s ) includingalinformation )每台计算机管理整个文件系统,并存储记录每个文件的元数据(包括文件大小、文件属性、文件位置、目录、套接字、管道和设备等非规则文件的系统)元数据记录服务器的元数据服务器(元数据服务器) :负责备份master服务器的更改日志文件,文件类型为changelog_ml.*.mfs,在master服务器出现问题时可以继承。数据存储服务器data servers (chunkservers ) :负责与管理服务器的连接,按照管理服务器的时间表提供存储空间,并为客户提供数据传输。使用客户端计算机装载客户端-通过fuse内核接口连接到远程管理服务器上管理的数据存储服务器时,共享的文件系统看起来与本地unix文件系统类似说明mfs的优点一)、Free(GPL )0 .可以在不更改顶级应用程序的情况下使用的通用文件系统(支持fuse )。1 .可在线扩展,体系结构可扩展性非常高。2 .易于部署。3 .体系结构具有高可用性,没有单点故障可以断开主组件。4 .文件对象具有高可用性,可以设置任何文件的冗馀度,绝对不会影响读写性能。提供Windows回收站的功能。提供类似Java语言的垃圾回收(GC )。提供netapp、emc和ibm等业务存储的快照功能。8 .谷歌文件系统的c实现。提供web gui监视界面。10 .提高随机读写的效率。11 .提高大量小文件的读写效率。可能的瓶颈:0). master本身的性能瓶颈。 mfs系统master单点故障如何解决? 有人在互联网上提供moosefs drbd heartbeat来保证主单点问题吗? 但是,在使用中不能完全关闭,间歇性的网络中断是不可能的!短期对策:按业务划分1 ) .体系结构存储文件总数的上限。 (mfs将文件系统的结构高速缓存在master的内存中,个人来说文件越多master的内存消耗越大,8g对应2500kw的文件数,2亿文件需要64GB的内存。)短期对策:按业务划分2 ) .单点故障解决方案的稳健性。二、mfs各要素的主要配置文件1、master主服务器元数据isstedestoredinmemoryofthemanagingserverandsimultanullyisbeingsavedondisk (asaperiodicallyupdatedbinaryfileandimmediatelyu datedincrementalslogs.themainityfileaswilllasthestorgearrreplicatedtometalogger (if present )元数据元数据存储在主服务器的内存中,也存储在磁盘中(作为定期更新的二进制文件实时更新changelog日志)。 如果metal logger存在,则主二进制文件和日志也会复制到metal logger中。cpu/ram资源使用了多少?CPU和内存资源的消耗量In our environment (ca. 500 TiB, 25 million文件2 millionfoldersdistributeon 26 millionchunkson 70 machines ) theusageofchunkservercpu (byconstantfiletransfer ) is about 15-20 % andchunkserverramusivallyconsumeabout 100 MIB (independentofamountofdata )在我们的测试环境中,chunkserver的CPU利用率约为15-20% (连续文件传输),chunkserver内存使用100MiBthemasterserverconsuemesabout 30 % of CPU (ca.1500 operationspersecond ) and8gibb ram.cpuloaddependsonamontoractionsandramonnumberoffilemaster服务器消耗大约30%的CPU (每秒大约1500次运行)和8G内存。 CPU的负荷依赖于操作的次数,存储器的使用量依赖于文件和文件夹的数量。filedataisdividetoffragments (chunks ) ofmaximumsize 64 mbachhicharestedasfilesonselecteddiskservers (chunk servers ).eachchunkissave文件数据以块为单位(块的最大大小为64MB以上)存储在数据服务器(chunkservers )上的指定磁盘中。 如果设定的目标存储点数与机器数相同,则不同的块将按机器进行存储。hatstrationofsizingisrequideforthemasterserver?Master主服务器有哪些需求?最重要的元素是sasthefullefilesystemstructioninramforspeed.besidesrammfsmassmartemcementsondddisformanintermationfilefil最重要的元素是mfsmaster计算机的内存。 整个文件系统结构都被缓存在内存中,以提高访问速度。 除内存MFS主计算机外,还需要硬盘大小来存储元数据和增加的日志文件。thesizeofthemationfileisdependentonthenumberoffiles (不是他们的大小).thesizeofincrementernallo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论