已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop组件HDFS详解概念HDFSHDFS(Hadoop Distributed File System)是一种专门为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。可以把一个大数据集(100TB)在HDFS中存储为单个文件,大多数其他的文件系统无力实现这一点。数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件相同的是,HDFS文件系统中的数据是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。元数据节点(NameNode),从元数据节点(Secondary NameNode)和数据节点(DataNode)元数据节点(NameNode)用来管理文件系统的命名空间其将所有文件和文件夹的元数据保存在一个文件系统树当中。这些信息也会在硬盘上保存成一下文件:命名空间镜像(namespace image)以及修改日志(edit log)。其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。从元数据节点(secondary NameNode)从元数据节点并不是元数据节点出现问题的时候的备用节点,它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点命名空间的镜像文件和修改日志文件合并,以防日志文件过大。合并过后的命名空间镜像文件也在从元数据节点保存了一份,以防元数据节点失败的时候,可以恢复。数据节点(DataNode)是文件系统中真正存储数据的地方。客户端(client)或者元数据信息(NameNode)可以向数据节点请求写入或者读出数据块。其周期性的向元数据节点回报其存储的数据块信息。基本文件命令HDFS文件系统命令采取的形式为:hadoop fs cmd其中cmd是具体的文件命令,是一组数目可变的参数,cmd命令通常与Unix对应的命令相同。例如,文件列表命令为:hadoop fs ls.下面看看在hadoop中最常用的文件管理任务:添加文件和目录Hadoop fs mkdir /user/MDSSHadoop的mkdir命令会自动创建父目录(如果此前不存在),类似于unix中的p选项的mkdir命令。Hadoop fs ls该命令列出目录及文件信息Hadoop fs lsr该命令循环列出目录、子目录及文件信息Hadoop fs put example.txt /user/MDSS该命令将本地文件系统的example.txt文件放入到HDFS文件系统的/user/MDSS目录下。检索文件Hadoop fs get /user/MDSS/example.txt .该命令将HDFS中的example.txt文件取回到本地文件系统中,与-put命令截然相反。Hadoop fs cat user/MDSS/example.txt显示HDFS文件系统中example.txt的文件内容。我们可以在hadoop的文件命令中使用unix的管道,将其结果发送给其他的unix命令做进一步处理。例如,如果该文件非常大(正如典型的hadoop文件那样),并且你希望快速的检查其内容,就可以把hadoop中cat命令的输出用管道传递给unix命令head.Hadoop fs cat /user/MDSS/example.txt | headHadoop内在支持tail命令来查看最后一千字节。Hadoop fs tail /user/MDSS/example.txt删除文件rm从HDFS文件系统删除example.txt文件,rm命令也可以删除空目录。Hadoop fs rm /user/MDSS/example.txtRmr命令可以循环删除目录以及子目录下的文件。Hadoop fs rmr /user/MDSS/将会删除/user/MDSS/目录以及子目录复制文件从本地文件系统复制文件到HDFS文件系统命令:copyFromLocalHadoop fs copyFromLocal example.txt /user/MDSS/example.txt从HDFS文件系统复制文件到本地文件系统命令:copyToLocalHadoop fs copyToLocal /user/MDSS/example.txt example.txt查阅帮助查阅某个命令的帮助命令如下:Hadoop fs help lsHDFS文件命令列表cathadoop fs cat file file 显示文件内容。若要读取压缩文件,应该使用text命令。chgrphadoop fs chgrp -R GROUP PATH PATH 变更文件和目录的群组。选项-R递归的执行变更。用户必须为文件的所有者或超级用户。chmodhadoop fs chmod -R MODE,MODE PATH PATH 变更文件和目录的访问权限。类似于unix对应的命令,MODE可以为一个3位8进制数,或augo+/-rwxX.选项-R递归的执行变更。用户必须为文件所有者或超级用户。chownhadoop fs chown -R OWNER :GROUP PATH PATH 变更文件和目录的所有者。选项-R为递归执行变更。用户必须为超级用户。copyFromLocalhadoop fs copyFromLocal LOCALSRC LOCALSRC DST等同于put,从本地文件系统中复制文件。copyToLocalhadoop fs copyToLocal -ignoreecrc -crc SRC SRC LOCALDST等同于get,将文件复制到本地文件系统中。counthadoop fs count -q PATH PATH 显示由PATH确定的子目录个数、文件个数、使用字节个数,以及所有的文件/目录名。选项-q显示额度信息。cphadoop fs cp SRC SRC DST将文件从源复制到目的地。如果指定了多个源,目的端必须为一个目录。duhadoop fs du PATH PATH .显示文件大小,如果PATH是一个目录,会显示该目录中每个文件的大小。文件名用完整的URI协议前缀表示。请注意虽然du反映了磁盘使用情况,但不能望文生义,因为真实的磁盘使用情况依赖于块大小和副本系数。dushadoop fs dus PATH PATH 类似于du,但是当作用于目录时,dus会显示文件大小之和。expungehadoop fs expunge清空回收站。如果打开回收站属性,当文件被删除时,它首先会移动到临时目录.Trash/中。只有超过用户设置的延迟之后,文件才会被永久删除。而expunge命令强制删除.Trash/目录中的所有文件。gethadoop fs get ignorecrc -crc SRC SRC LOCALDST将文件复制到本地文件系统。如果指定了多个源文件,本地目的端必须为一个目录。如果LOCALDST被置为-,文件被复制到stdout。getmergehadoop fs getmerge SRC SRC LOCALDST addnl获取由SRC指定的所有文件,将它们合并为单个文件,并写入打本地文件系统中的LOCALDST。选项addnl将在每个文件的末尾处加上一个换行符。helphadoop fs help CMD显示命令CMD的用法信息。如果不显示CMD,则显示所有命令的用法信息。lshadoop fs ls PATH PATH列出文件和目录,每个入口点会显示文件名、权限、所有者、组、大小和修改时间。文件入口点还会显示它们的副本系数。lsrhadoop fs lsr PATH PATH ls的递归版本。mkdirhadoop fs mkdirPATH PATH .创建目录,会创建路径中所有缺失的父目录(类似于unix的mkdir p).moveFromLocalhadoop fs moveFromLocal LOCALSRC LOCALSRC DST类似于put,只是本地的源在复制之后会被删除。moveToLocalhadoop fs moveToLocal -crc SRC SRC LOCALDST显示一条“not implemented yet”消息。mvhadoop fs mvSRC SRC DST将文件从源移动到目的地。如果指定多个源文件,目的端必须为一个目录。不允许跨文件系统的移动。puthadoop fs put LOCALSRC LOCALSRC DST从本地文件系统中复制文件或目录到HDFS。如果LOCALSRC被置为-,则输入为stdin且DST必须为文件。rmhadoop fs rm PATH PATH删除文件和空目录。rmr hadoop fs rmr PATH PATH rm的递归版本。setrephadoop fs setrep -R -w REP PATH PATH 改变文件的目标副本系数,放入REP中。选项-R将递归的改变PATH指定的目录中所有文件的目标副本系数。副本系数需要一定的时间才能达到目标值。选项-w将等待副本系数以与目标值相匹配。stathadoop fs stat FORMAT PATH PATH 显示文件中的统计信息。FORMAT字符串完全被打印出来,但会按照以下设定的格式进行替换%b以数据块为单位的文件大小%F根据文件类型为字符串“directory”或“regular file”%n文件名%o块大小%r副本%y以yyyy-MM-dd HH:mm:ss格式显示的UTC时间。%Y自1970年1月1日起(UTC)计的毫秒数。tailhadoop fs tail -f FILE显示FILE中最后的1KB数据。testhadoop fs test ezd PATH对PATH进行如下类型的检查。-e PA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗设备操作员技能培训资料
- 2025年通信安全员证考试题库及答案
- 制造业专员生产计划与质量控制方案
- 北京市区域交通流分析与规划面试技巧
- UI设计交互设计原则与实践案例分析
- 初创企业融资方案指南
- ERP系统运维成本管理与优化
- AI工程师职业素养与软技能提升计划
- 企业环境管理与绿色运营方案
- 职业道德考试题库及答案2025年
- 健康产业园区建设与发展策略研究
- 仪器维护与保养试题及答案
- 高性能计算应用的软件定义网络优化-全面剖析
- 同程旅行外包合同协议
- 保密警示教育典型泄密案例教育学习
- 骨科围术期血糖管理
- 短剧制作合同协议
- 2025-2030中国干眼症产品行业市场现状供需分析及投资评估规划分析研究报告
- 化学课程标准2025解读
- DB42-T 2051-2023 文物保护单位保护标志及保护界桩设置规范
- 《文化和旅游领域重大事故隐患判定标准》知识培训
评论
0/150
提交评论