尚学堂hadoop大数据培训hadoop常见重要命令行操作及命令作用

上传人：3*** IP属地：贵州上传时间：2018-12-28 格式：DOC 页数：11 大小：464KB 积分：20 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京尚学堂提供关于关于 Hadoop 1. rootmaster # hadoop -help 2.Usage: hadoop -config confdir COMMAND 3. where COMMAND is one of: 4. fs run a generic filesystem user client 5. version print the version 6. jar run a jar file 7. checknative -a|- h check native hadoop and compression libraries availability 8. distcp copy file or directories recursively 9. archive -archiveName NAME - p * create a hadoop archive 10. classpath prints the class path needed to get the 11. Hadoop jar and the required libraries 12. daemonlog get/set the log level for each daemon 13. or 14. CLASSNAME run the class named CLASSNAME 15. 16. Most commands print help when invoked w/o parameters. 查看版本 1. rootmaster # hadoop version 2.Hadoop .0.6.0-101 3.Subversion :hortonworks/hadoop.git - r b07b2906c36defd389c8b5bd22bebc1bead8115b 4.Compiled by jenkins on 2014-01-09T05:18Z 5.Compiled with protoc 2.5.0 6.From source with checksum 704f1e463ebc4fb89353011407e965 7.This command was run using /usr/lib/hadoop/hadoop-common-.0.6.0- 101.jar 运行 jar 文件 1.rootmaster liguodong# hadoop jar /usr/lib/hadoop-mapreduce/hadoop- mapreduce-examples-.0.6.0-101.jar pi 10 100 2.Number of Maps = 10 3.Samples per Map = 100 4.Wrote input for Map #0 5.Wrote input for Map #1 6.Wrote input for Map #2 7 8.Job Finished in 19.715 seconds 9.Estimated value of Pi is 3.14800000000000000000 检查 Hadoop 本地库和压缩库的可用性 1. rootmaster liguodong# hadoop checknative -a 2.15/06/03 10:28:07 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native 3.15/06/03 10:28:07 INFO zlib.ZlibFactory: Successfully loaded & initialized n ative-zlib library 4.Native library checking: 5.hadoop: true /usr/lib/hadoop/lib/native/libhadoop.so.1.0.0 6.zlib: true /lib64/libz.so.1 7.snappy: true /usr/lib64/libsnappy.so.1 8.lz4: true revision:43 9.bzip2: true /lib64/libbz2.so.1 文件归档 Archive hadoop 不适合小文件的存储，小文件本身就占用了很多 metadata,就会造成 namenode 越来越大。 Hadoop Archives (HAR files)是在 0.18.0 版本中引入的，它的出现就是为了缓解大量小文件消耗 namenode 内存的问题。 HAR 文件是通过在 HDFS 上构建一个层次化的文件系统来工作。一个 HAR 文件是通过 hadoop 的 archive 命令来创建，而这个命令实际上也是运行了一个 MapReduce 任务来将小文件打包成 HAR。对于 client 端来说，使用 HAR 文件没有任何影响。所有的原始文件都使用 har:/URL。但在 HDFS 端它内部的文件数减少了。通过 HAR 来读取一个文件并不会比直接从 HDFS 中读取文件高效，而且实际上可能还会稍微低效一点，因为对每一个 HAR 文件的访问都需要完成两层读取，index 文件的读取和文件本身数据的读取。并且尽管 HAR 文件可以被用来作为 MapReduce job 的 input，但北京尚学堂-cctv 央视网广告合作伙伴，专业 IT 培训机构,口碑最好的 java 培训、,iOS 培训，android 培训，hadoop 大数据培训，web 前端，0 元入学，先就业后付款，平均就业薪水 9500 以上是并没有特殊的方法来使 maps 将 HAR 文件中打包的文件当作一个 HDFS 文件处理。创建文件 hadoop archive -archiveName xxx.har -p /src /dest 查看内容 hadoop fs -lsr har:/dest/xxx.har 1. rootmaster liguodong# hadoop archive 2.archive -archiveName NAME -p * 3.rootmaster liguodong# hadoop fs -lsr /liguodong 4.drwxrwxrwx - hdfs hdfs 0 2015-05- 04 19:40 /liguodong/output 5.-rwxrwxrwx 3 hdfs hdfs 0 2015-05- 04 19:40 /liguodong/output/_SUCCESS 6.-rwxrwxrwx 3 hdfs hdfs 23 2015-05- 04 19:40 /liguodong/output/part-r-00000 7. 8.rootmaster liguodong# hadoop archive -archiveName liguodong.har - p /liguodong output /liguodong/har 9. 10. rootmaster liguodong# hadoop fs -lsr /liguodong 11. drwxr-xr-x - root hdfs 0 2015-06-03 11:15 /liguodong/har 12. drwxr-xr-x - root hdfs 0 2015-06- 03 11:15 /liguodong/har/liguodong.har 13. -rw-r-r- 3 root hdfs 0 2015-06- 03 11:15 /liguodong/har/liguodong.har/_SUCCESS 14. -rw-r-r- 5 root hdfs 254 2015-06- 03 11:15 /liguodong/har/liguodong.har/_index 15. -rw-r-r- 5 root hdfs 23 2015-06- 03 11:15 /liguodong/har/liguodong.har/_masterindex 16. -rw-r-r- 3 root hdfs 23 2015-06- 03 11:15 /liguodong/har/liguodong.har/part-0 17. drwxrwxrwx - hdfs hdfs 0 2015-05- 04 19:40 /liguodong/output 18. -rwxrwxrwx 3 hdfs hdfs 0 2015-05- 04 19:40 /liguodong/output/_SUCCESS 19. -rwxrwxrwx 3 hdfs hdfs 23 2015-05- 04 19:40 /liguodong/output/part-r-00000 20. 21. 查看内容 22. rootmaster liguodong# hadoop fs -lsr har:/liguodong/har/liguodong.har 23. lsr: DEPRECATED: Please use ls -R instead. 24. drwxr-xr-x - root hdfs 0 2015-05- 04 19:40 har:/liguodong/har/liguodong.har/output 25. -rw-r-r- 3 root hdfs 0 2015-05- 04 19:40 har:/liguodong/har/liguodong.har/output/_SUCCESS 26. -rw-r-r- 3 root hdfs 23 2015-05- 04 19:40 har:/liguodong/har/liguodong.har/output/part-r-00000 27. 28. - 29. rootmaster liguodong# hadoop archive -archiveName liguodong2.har - p /liguodong/output /liguodong/har 30. 31. rootmaster liguodong# hadoop fs - lsr har:/liguodong/har/liguodong2.har 32. -rw-r-r- 3 root hdfs 0 2015-05- 04 19:40 har:/liguodong/har/liguodong2.har/_SUCCESS 33. -rw-r-r- 3 root hdfs 23 2015-05- 04 19:40 har:/liguodong/har/liguodong2.har/part-r-00000 关于 HDFS 1. rootmaster /# hdfs -help 2.Usage: hdfs config confdir COMMAND 3.where COMMAND is one of: 4.dfs run a filesystem command on the file systems supported in Hadoop. 5.namenode -format format the DFS filesystem 6.secondarynamenode run the DFS secondary namenode 7.namenode run the DFS namenode 8.journalnode run the DFS journalnode 9.zkfc run the ZK Failover Controller daemon 10. datanode run a DFS datanode 11. dfsadmin run a DFS admin client 12. haadmin run a DFS HA admin client 13. fsck run a DFS filesystem checking utility 14. balancer run a cluster balancing utility 15. jmxget get JMX exported values from NameNode or DataNode. 16. oiv apply the offline fsimage viewer to an fsimage 17. oev apply the offline edits viewer to an edits file 18. fetchdt fetch a delegation token from the NameNode 19. getconf get config values from configuration 20. groups get the groups which users belong to 21. snapshotDiff diff two snapshots of a directory or diff the 22. current directory contents with a snapshot 23. lsSnapshottableDir list all snapshottable dirs owned by the current user 24. Use -help to see options 北京尚学堂-cctv 央视网广告合作伙伴，专业 IT 培训机构,口碑最好的 java 培训、,iOS 培训，android 培训，hadoop 大数据培训，web 前端，0 元入学，先就业后付款，平均就业薪水 9500 以上 25. portmap run a portmap service 26. nfs3 run an NFS version 3 gateway 校验检查某个目录是否健康 1. rootmaster liguodong# hdfs fsck /liguodong 2.Connecting to namenode via http:/master:50070 3.FSCK started by root (auth:SIMPLE) from /0 for path /liguodong a t Wed Jun 03 10:43:41 CST 2015 4Status: HEALTHY 5. Total size: 1559 B 6. Total dirs: 7 7. Total files: 11 8. Total symlinks: 0 9. Total blocks (validated): 7 (avg. block size 222 B) 10. . 11. The filesystem under path /liguodong is HEALTHY 更加详细的查看命令 1. rootmaster liguodong# hdfs fsck /liguodong -files -blocks 作用：检查文件系统的健康状态可以查看一个文件所在的数据块可以删除一个坏块。可以查找一个缺失的块。 balancer 磁盘均衡器命令：hdfs balancer，也可以动过脚本启动均衡器。 Hadoop 的 HDFS 集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当 HDFS 出现不平衡状况的时候，将引发很多问题，比如 MR 程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。可见，保证 HDFS 中的数据平衡是非常重要的。 1.rootmaster liguodong# hdfs balancer hdfs dfsadmin 可以设置安全模式，如出现异常可以设置为只读模式。 plain view plaincopy 1.rootmaster liguodong# hdfs dfsadmin 2.Usage: java DFSAdmin 3.Note: Administrative commands can only be run as the HDFS superuser. 4. -report 5. -safemode enter | leave | get | wait 6. -allowSnapshot 7. -disallowSnapshot 8. -saveNamespace 9. -rollEdits 10. -restoreFailedStorage true|false|check 11. -refreshNodes 12. -finalizeUpgrade 13. -metasave filename 14. -refreshServiceAcl 15. -refreshUserToGroupsMappings 16. -refreshSuperUserGroupsConfiguration 17. -printTopology 18. -refreshNamenodes datanodehost:port 19. -deleteBlockPool datanode-host:port blockpoolId force 20. -setQuota . 21. -clrQuota . 22. -setSpaceQuota . 23. -clrSpaceQuota . 24. -setBalancerBandwidth 25. -fetchImage 26. -help cmd edits 和 fsimage 文件查看器北京尚学堂-cctv 央视网广告合作伙伴，专业 IT 培训机构,口碑最好的 java 培训、,iOS 培训，android 培训，hadoop 大数据培训，web 前端，0 元入学，先就业后付款，平均就业薪水 9500 以上 edits 和 fsimage 是两个至关重要的文件，其中 edits 负责保存自最新检查点后命名空间的变化，起着日志的作用，而 fsimage 则保存了最新的检查点信息。这个两个文件中的内容使用普通文本编辑器是无法直接查看的，幸运的是 hadoop 为此准备了专门的工具用于查看文件的内容，这些工具分别为 oev 和 oiv，可以使用 hdfs 调用执行。 oiv(offline image viewer 的缩写)，用于将 fsimage 文件的内容转储到指定文件中以便于阅读，该工具还提供了只读的 WebHDFS API 以允许离线分析和检查 hadoop 集群的命名空间。oiv 在处理非常大的 fsimage 文件时是相当快的，如果该工具不能够处理 fsimage，它会直接退出。该工具不具备向后兼容性，比如使用 hadoop-2.4 版本的 oiv 不能处理 hadoop-2.3 版本的 fsimage，只能使用 hadoop-2.3 版本的 oiv。就像它的名称所提示的（offline），oiv 也不需要 hadoop 集群处于运行状态。oiv 具体语法可以通过在命令行输入hdfs oiv查看。 oiv 支持三种输出处理器，分别为 Ls、XML 和 FileDistribution，通过选项-p 指定。 Ls 是默认的处理器，该处理器的输出与 lsr 命令的输出极其相似，以相同的顺序输出相同的字段，比如目录或文件的标志、权限、副本数量、所有者、组、文件大小、修改日期和全路径等。与 lsr 不同的是，该处理器的输出包含根路径/，另一个重要的不同是该处理器的输出不是按照目录名称和内容排序的，而是按照在 fsimage 中的顺序显示。除非命名空间包含较少的信息，否则不太可能直接比较该处理器和 lsr 命令的输出。Ls 使用 INode 块中的信息计算文件大小并忽略-skipBlocks 选项。示例如下： 1. rootmaster current# pwd 2./hadoop/hdfs/namenode/current 3.rootmaster current# hdfs oiv -i fsimage_0000000000000053234 - o fsimage.ls 4.rootmaster current# cat fsimage.ls 5.-rwxrwxrwx 3 oozie hdfs 890168 2015-04- 28 17:41 /user/oozie/share/lib/pig/jaxb-impl-2.2.3-1.jar 6.-rwxrwxrwx 3 oozie hdfs 201124 2015-04- 28 17:41 /user/oozie/share/lib/pig/jdo-api-3.0.1.jar 7.-rwxrwxrwx 3 oozie hdfs 130458 2015-04- 28 17:41 /user/oozie/share/lib/pig/jersey-client-1.9.jar XML 处理器输出 fsimage 的 xml 文档，包含了 fsimage 中的所有信息，比如 inodeid 等。该处理器的输出支持 XML 工具的自动化处理和分析，由于 XML 语法格式的冗长，该处理器的输出也最大。 1. rootmaster current# hdfs oiv -i fsimage_0000000000000053234 -p XML - o fsimage.xml 2.rootmaster current# more fsimage.xml FileDistribution 是分析命名空间中文件大小的工具。为了运行该工具需要通过指定最大文件大小和段数定义一个整数范围0,maxSize，该整数范围根据段数分割为若干段0, s1, , sn-1, maxSize，处理器计算有多少文件落入每个段中（si-1, si），大于 maxSize 的文件总是落入最后的段中，即(sn-1, maxSize)。输出文件被格式化为由 tab 分隔的包含 Size 列和 NumFiles 列的表，其中 Size 表示段的起始，NumFiles 表示文件大小落入该段的文件数量。在使用 FileDistribution 处理器时还需要指定该处理器的参数 maxSize 和 step，若未指定，默认为 0。 1. rootmaster current# hdfs oiv -i fsimage_0000000000000053234 - o fsimage.fd -p FileDistribution 1000 step 5 2.Files processed: 1 Current: /app-logs/ambari- qa/logs/application_1430219478244_0003/slave2_45454 3.totalFiles = 534 4.totalDirectories = 199 5.totalBlocks = 537 6.totalSpace = 1151394477 7.maxFileSize = 119107289 8. 9.rootmaster current# more fsimage.fd 10. Size NumFiles 北京尚学堂-cctv 央视网广告合作伙伴，专业 IT 培训机构,口碑最好的 java 培训、,iOS 培训，android 培训，hadoop 大数据培训，web 前端，0 元入学，先就业后付款，平均就业薪水 9500 以上 11. 0 22 12. 2097152 491 13. 4194304 13 14. 6291456 2 15. 8388608 1 16. 10485760 3 17. 12582912 0 oev 是（offline edits viewer（离线 edits 查看器）的缩写），该工具只操作文件因而并不需要 hadoop 集群处于运行状态。该工具提供了几个输出处理器，用于将输入文件转换为相关格式的输出文件，可以使用参数-p 指定。目前支持的输出格式有 binary（hadoop 使用的二进制格式）、xml（在不使用参数 p 时的默认输出格式）和 stats（输出 edits 文件的统计信息）。该工具支持的输入格式为 binary 和 xml，其中的 xml 文件为该工具使用 xml 处理器的输出文件。由于没有与 stats 格式对应的输入文件，所以一旦输出为 stats 格式将不可以再转换为原有格式。比如输入格式为 bianry，输出格式为 xml，可以通过将输入文件指定为原来的输出文件，将输出文件指定为原来的输入文件实现 binary 和 xml 的转换，而 stats 则不可以。 1. rootmaster current# hdfs oev -i edits_0000000000000042778- 0000000000000042779 -o edits.xml 2.rootmaster current# cat edits.xml 3. 4. 5. -47 6. 7. OP_START_LOG_SEGMENT 8. 9. 42778 10. 11. 12. 13. OP_END_LOG_SEGMENT 14. 15. 42779 16. 17. 18. 在输出文件中，每个 RECORD 记录了一次操作，当 edits 文件破损进而导致 hadoop 集群出现问题时，保存 edits 文件中正确的部分是可能的，可以通过将原有的 bianry 文件转换为 xml 文件，并手动编辑 xml 文件然后转回 bianry 文件来实现。最常见的 edits 文件破损情况是丢失关闭记录的部分（OPCODE 为-1），关闭记录如下所示。如果在 xml 文件中没有关闭记录，可以在最后正确的记录后面添加关闭记录，关闭记录后面的记录都将被忽略。 1. 2. -1 3. 4. 5. 关于 yarn 1. rootmaster liguodong# yarn -help 2.Usage: yarn -config confdir COMMAND 3.where COMMAND is one of: 4. resourcemanager

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

尚学堂hadoop大数据培训hadoop常见重要命令行操作及命令作用

文档简介

温馨提示

最新文档

评论

尚学堂hadoop大数据培训hadoop常见重要命令行操作及命令作用

文档简介

温馨提示

最新文档

评论

相关文档