第讲:HS海量存储_第1页
第讲:HS海量存储_第2页
第讲:HS海量存储_第3页
第讲:HS海量存储_第4页
第讲:HS海量存储_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3讲HDFS海量存储

HDFS——TheHadoopDistributedFileSystem(Hadoop分布式文件系统)目录1、HDFS简介2、HDFS常用操作通过web了解Hadoop的活动

通过用浏览器和http访问jobtracker所在节点的50030端口监控jobtracker通过用浏览器和http访问namenode所在节点的50070端口监控集群:50030/jobtracker.jsp

:50070/dfshealth.jsp

观看日志

HDFS

主要用途提供分布式存储机制,提供可线性增长的海量存储能力任何节点操作都可以自动数据冗余,无须使用Raid,无须另行备份为进一步分析计算提供数据基础

HDFS设计基础与目标

硬件错误是常态。因此需要冗余流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理大规模数据集简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改程序采用“数据就近”原则分配节点执行在HDFS的主从结构中,有两类节点namenode和datanode。他们以管理者-工作者模式工作。HDFS的关键运作机制主节点维护着文件系统树和整棵树内的所有文件和目录。命名空间镜像文件(永久)编辑日志文件(永久)也记录着每个文件中各个数据块所在的数据节点信息。(临时记录,数据节点可能会重建)子节点文件系统的工作节点本地化的文件数据块自身存储的数据块列表子节点才是HDFS真正的存储和检索地点,如果想在主节点做整个集群数据的索引并检索的话,请考虑可行性,毕竟HDFS不擅长做巨型索引。客户端(client)代表用户通过与namenode和datanode交互访问整个文件系统。可以是具体程序,也可以是应用。HDFS的关键运作机制客户端交互HDFS客户端提供一个类似POSIX的文件系统接口类似操作系统中的文件界面所以,用户在编程时,无需知道namenode和datanode也可以实现功能没有namenode,文件系统会崩溃,文件系统上的所有文件将丢失(无法读出,因为无法定位元数据块的位置,也就无法根据datanode的块来重构文件)。HDFS的关键运作机制没有datanode,文件系统不会崩溃,文件系统只是无法存储文件,也不会丢失数据。备份组成文件系统元数据持久状态的文件。操作方法是在写入本地磁盘的同时,写入一个远程挂载的网络文件系统。解决方案一在运行集群时,运行一个辅助namenode,但不能用作namenode,辅助主节点是用来定期通过编辑日志合并命名空间镜像,防止编辑日志过大。主节点失效时数据会部分丢失。解决方案二

HDFS体系结构

NameNodeDataNode事务日志映像文件SecondaryNameNode

Namenode

管理文件系统的命名空间记录每个文件数据块在各个Datanode上的位置和副本信息协调客户端对文件的访问记录命名空间内的改动或空间本身属性的改动nNamenode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等VERSION文件是javaproperties文件,保存了HDFS的版本号。layoutVersion是一个负整数,保存了HDFS的持续化在硬盘上的数据结构的格式版本号。namespaceID是文件系统的唯一标识符,是在文件系统初次格式化时生成的。cTime此处为0storageType表示此文件夹中保存的是元数据节点的数据结构。fsimage文件,也即命名空间映像文件,是内存中的元数据在硬盘上的checkpoint,它是一种序列化的格式,并不能够在硬盘上直接修改。当文件系统客户端(client)进行写操作时,首先把它记录在修改日志中(editlog)

Da痛ta井no割de负责吃所在竹物理型节点榴的存拳储管赌理一次月写入播,多铸次读居取(为不修燥改)文件袄由数霉据块态组成化,典番型的步块大灶小是64训MB数据诵块尽编量散化布道移各个俊节点bl婚k_<玻id禽>保存妻的是HD岩FS的数衔据块川,其袖中保馋存了支具体搂的二缩慧进制姓数据勒。bl呈k_<谨id躲>.拐me巾ta保存帖的是匹数据译块的剧属性肉信息弟:版卷本信侍息,伸类型竭信息陪,和ch茫ec峡ks管um读取粉数据醉流程客户便端要摄访问HD帆FS中的殿一个妈文件首先让从na胃me紫no表de获得册组成鉴这个值文件仇的数责据块外位置丹列表根据善列表边知道愁存储算数据碧块的da际ta总no华de访问da誉ta赚no羞de获取画数据Na捉me查no年de并不夫参与深数据案实际殿传输读过愁程图旺解写入牺数据跟流程客户冠端请椒求na奋me轮no公de创建草新文弄件客户嘴端将桨数据怀写入DF晨SO各ut山pu富tS迟tr款ea练m建立pi异pe梯li星ne依次宰将目阔标数诊据块昂写入财各个da迁ta看no策de,建仔立多储个副守本写过庭程图晒解HD扩FS的可俊靠性冗余准副本脏策略机架春策略心跳拐机制安全约模式校验悬和回收林站元数锄据保迁护快照所机制冗余堪副本泊策略可以警在hd做fs栏-s出it耽e.乓xm授l中设洋置复斩制因焰子指号定副沸本数韵量所有按数据茶块都讨有副膊本Da纯ta耕no毙de启动愤时,堤遍历员本地挥文件幻玉系统扯,产代生一粮份hd疤fs数据侦块和盖本地参文件汤的对恩应关胃系列斧表(bl昼oc惕kr遇ep句or途t)汇阁报给na尽me红no召de副本肥因子刊参数机架懒策略集群塞一般府放在营不同咸机架踢上,衫机架扎间带房诚宽要升比机摇架内推带宽群要小HD禁FS的“蝴机架获感知纱”一般第在本尼机架值存放耀一个短副本烦,在脆其它员机架搬再存特放别恢的副毒本,赵这样检可以袍防止插机架梅失效交时丢喉失数堂据,报也可蜂以提雾高带革宽利插用率Ra复ck告Aw鸣ar益e.菠py#!尸/us事r/b缺in酒/p拒yt株ho边n露#-抱*-像co罢di蠢ng泼:U冰TF锋-8患-帮*-刮i沈mp负or但t氧sy垄s滑ra游ck初={"模ha趁do耐op投-n饮od疗e-暴31软":赛"r诸ac齐k1赔","h诱ad物oo膛p-事no也de凶-3屡2"吼:"狭ra驾ck耍1"看,"h屑ad叛oo笼p-逗no区de小-4里9"凭:"往ra竖ck贷2"壳,"h垒ad休oo鸡p-便no证de弱-5谈0"泼:"确ra款ck知2"便,"h肆ad膏oo价p-寸no钳de毛-5运1"承:"律ra补ck扭2"态,"1私92千.1丑68轿.1堡.3我1"侦:"通ra浩ck难1"娃,"1嚼92披.1睁68息.1也.3锅2"较:"迎ra搭ck斜1"并,"1懂92愤.1乱68贺.1夸.4绿9"溉:"容ra贷ck况2"箭,"1膝92德.1跑68址.1据.5何0"晃:"路ra作ck搬2"吵,"1糠92阀.1翅68嚼.1率.5员1"盼:"属ra腾ck殃2"遇,芬}if拼_体_n次am零e_稠_=贪="装__笑ma筋in改__忌":贯p毙ri劣nt句"浴/"划+避ra枪ck幅.g霜et羞(s狡ys拢.a而rg搏v[集1]温,"悠ra模ck驴0"呜)co茎re治-si侍te距.x易ml配置匀文件<p草ro般pe斜rt姜y><n阵am届e>to费po船lo穷gy自.s世cr剥ip退t.鉴fi责le昏.n斗am捡e</遥na醉me兆><v卖al壤ue贩>/贩op牧t/克mo服du议le足s/舅ha棋do粗op梦/h役ad首oo舰p-油1.付0.蚊3/承bi珍n/筹Ra魔ck倚Aw茅ar苏e.裹py浴</敢va室lu壶e><!胜--机架汤感知叔脚本暗路径--苏></宁pr常op轨er汇ty准><p朽ro辣pe宫rt迁y><n归am络e>to震po搁lo兴gy菠.s请cr盛ip悠t.菌nu帐mb沉er统.a退rg逼s</铺na倚me积><v宋al雀ue饺>2讯0<孟/v峰al灿ue弱><!门--机架窑服务殃器数铜量,黑由于势我写乎了20个,菊所以台这里匠写20秃--躁></盒pr击op免er闲ty剪>然后者重启ha端do合op的na争me喝no扬de和jo岩bt袍ra旋ck鉴er,可览以在lo锡gs里看尿下na榨me哑no毯de和jo陆bt家ra生ck玩er的日带志,样看到睁机架富感知障功能眉已经新启用铅了心跳吵机制Na扮me仗no状de周期咬性从da藏ta害no树de接收芦心跳余信号荷和块恰报告Na绣me镰no歌de根据妈块报凤告验土证元洗数据没有扒按时掏发送究心跳渠的da柜ta扁no恩de会被收标记避为宕腔机,良不会榨再给散它任泰何I/薪O请求如果da骗ta饼no画de失效皂造成坡副本宝数量势下降撇,并糠且低赤于预荡先设拼置的萄阈值叛,na泼me葛no凳de会检席测出降这些秆数据猎块,饺并在鲜合适招的时贫机进肆行重息新复碎制引发缓重新尾复制学的原傲因还稻包括据数据秧副本妄本身征损坏掌、磁帅盘错令误,子复制冠因子滤被增泉大等安全股模式Na患me钱no同de启动揭时会前先经拘过一盼个“离安全括模式梁”阶慕段安全效模式跪阶段匹不会父产生投数据炸写在此顷阶段Na捉me师no寺de收集社各个da炭ta驶no京de的报扶告,搜当数末据块挥达到崇最小协副本减数以垫上时游,会爆被认虽为是监“安斧全”马的在一隔定比察例(许可设访置)猛的数减据块愤被确丈定为港“安么全”悼后,叶再过贯若干景时间弃,安热全模睛式结续束当检炮测到村副本互数不舞足的饿数据温块时右,该陡块会替被复得制直凤到达绘到最想小副古本数校验踪蝶和在文堂件创消立时谅,每过个数军据块诵都产讯生校少验和校验贴和保还存在.m裙et拘a文件译内客户祥端获昂取数竞据时跳可以曾检查睁校验纷和是查否相魂同,戒从而膛发现没数据场块是堆否损骄坏如果份正在倚读取饲的数常据块镜损坏英,则球可以段继续士读取拆其它秤副本回收括站删除牛文件牢时,惭其实近是放疮入回估收站/t拦ra礼sh回收染站里桶的文法件可斩以快阁速恢棒复可以忽设置反一个冰时间棕阈值就,当弃回收观站里呼文件客的存先放时淹间超辆过这兄个阈许值,棉就被苗彻底嘱删除榨,并轻且释感放占删用的锹数据须块打开牵回收恨站功逐能在co喜nf盟/c忘or洲e-si构te感.x喜ml添加糕配置衡:<p卫ro巷pe估rt饥y><n共am薯e>fs县.t刊ra判sh脂.i原nt锯er截va拥l</例na员me族><v叼al昏ue睬>1庄00指80睛</晓va忘lu鬼e><d替es猎cr蚕ip膏ti冷on嫩>Nu雷mb失er彼o葛f氏mi玻nu氏te恰s村be妈tw揉ee昨ntr密as秀hc离he外ck惜po意in旁ts.学If改z谷er那o,缴t跳he液t编ra蜓sh革f僵ea币tu杰re她i苏s界di凳sa夺bl欣ed</装de士sc概ri科pt佳io统n></搭pr护op赢er锤ty蚂>重启促集群元数犁据保汁护映像揭文件构刚和帜事务鸭日志潮是Na天me交no评de的核塞心数送据。尺可以钩配置碧为拥睁有多歪个副其本副本吧会降智低Na睛me呢no暴de的处腰理速诵度,罗但增叶加安地全性Na扯me田no练de依然吊是单帐点,益如果起发生委故障虚要手某工切拥换快照支持摇存储踩某个挥时间商点的珍映像门,需崇要时待可以脖使数谱据重锻返这畏个时爪间点混的状靠态Ha挤do娘op目前初还不五支持恩快照滩,已改经列使入开佛发计趟划,楚传说缝在Ha斩do桃op2.蕉x某版拆本里依讲获粪得此猴功能HD处FS文件关操作命令去行方的式AP亦I方式列出HD签FS下的迎文件注意授,ha束do岁op没有键当前忙目录论的概积念,小也没孩有cd命令上传堤文件途

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论