




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
HADOOPHADOOP 学习笔记学习笔记 白兵白兵 南南 大大 通通 用用 数数 据据 技技 术术 股股 份份 有有 限限 公公 司司 GeneralGeneral DataData TechnologiesTechnologies Co Co Ltd Ltd 天津总公司 中国天津华苑产业区海泰发展六道 6 号海泰绿色产业 基地 J 座 5 层 电 话 022 58815678 传 真 022 58815679 北京分公司 北京海淀区金源时代商务中心 B 区 1206 电 话 010 88866866 传 真 010 88864556 E mail info GBase 版权所有版权所有 2004 2013 精品文档 II欢迎下载II欢迎下载 日期日期版本版本变更说明变更说明作者作者 2014 9 25V20140925 创建白兵 精品文档 III欢迎下载III欢迎下载 目录 1文档说明 1 2第一课 认识 HADOOP 2 2 1HADOOP 的前世今生 2 2 2HADOOP 基础原理 2 2 2 1HDFS 3 2 2 2MapReduce 5 2 3HADOOP 的国内外应用 6 3第二课 认识 HADOOP2 常用组件简介 6 3 1Hbase 简介 6 3 2Hive 简介 7 3 3pig 简介 7 3 4Zookeeper 简介 7 3 5Sqoop 简介 8 3 6Hue 简介 8 3 7Yarn 简介 8 3 8Impal 简介 8 4第三课 部署 HADOOP 10 4 1部署环境 10 4 2目录结构 10 4 3安装步骤 11 4 3 1环境检查 For more details see http wiki apache org hadoop ConnectionRefused A 此问题折腾了很久很久 最终得到解决 遇到相似问题以下检查点供参考 1 首先检查 hostname 配置是否正确 2 在 etc hosts 中的 0 00 行注释掉 最好将 127 0 0 1 行也注释掉 3 在配置文件中最好使用 ip 地址 不要使用 localhost 我的问题为 配置文件中指定的目录权限不足 导致无法创建相应目录而使 NAMENODE 没有启动起来 精品文档 19欢迎下载19欢迎下载 5 5 第四课 第四课 HADOOPHADOOP 的基本操作的基本操作 5 15 1启动 停止 hadoop 启动启动Hadoop 1 进入HADOOP HOME目录 2 执行sh bin start all sh 关闭关闭Hadoop 1 进入HADOOP HOME目录 2 执行sh bin stop all sh 单独运行 namenode datanode secondarynamenode resourcemanager nodemanager hadoop daemon sh start namenode hadoop daemon sh start datanode hadoop daemon sh start secondarynamenode 在hadoop 2 0以前我们可能会使用这样的一类命令 start jobtracker 2 0以 后hadoop将jobtracker与tasktracker以YARN来代替 所以resourcemanager与 nodemanager的启动命令 yarn daemon sh start resourcemanager yarn daemon sh start nodemanager 5 2 文件操作 5 2 15 2 1 查看文件列表查看文件列表 查看hdfs中 根目录下的文件 1 进入HADOOP HOME目录 2 执行sh bin hadoop fs ls 发现目录下至存在一个baibing的目录 3 补充 查看文件内容 hadoop fs cat test test txt 精品文档 20欢迎下载20欢迎下载 5 2 25 2 2 创建文件目录创建文件目录 查看hdfs中根目录下新建一个叫做test te的t2新目录 1 进入HADOOP HOME目录 2 执行 hadoop master sbin hadoop fs mkdir test 或者 hadoop master sbin hdfs dfs mkdir test2 你可能注意到了在创建目录时使用了两种命令 查询资料得到区别如下 hadoop fs 使用面最广 可以操作任何文件系统 hadoop dfs 与 hdfs dfs 只能操作 HDFS 文件系统相关 包括与 Local FS 间的操作 前 者已经 Deprecated 一般使用后者 5 2 35 2 3 上传文件上传文件 上传一个本机 home hadoop test tx的文件到hdfs中 test 目录下 1 进入HADOOP HOME目录 2 执行 hadoop fs put home hadoop test txt test 或 hdfs dfs put home hadoop test1 txt test2 5 2 45 2 4 下载文件下载文件 下载hdfs中 test目录下的test txt文件到本机 home hadoop test 中 精品文档 21欢迎下载21欢迎下载 1 进入HADOOP HOME目录 2 执行hadoop fs get test test txt home hadoop test 5 2 55 2 5 删除文件 目录删除文件 目录 删除hdfs中 test2目录下的 test1 txt 删除hdfs中 test2目录 1 进入HADOOP HOME目录 2 执行hdfs dfs rm test2 test1 txt hdfs dfs rm r test2 5 3 MapReduce Job 操作 5 3 1 提交 MapReduce Job 原则上说 Hadoop所的MapReduce Job都是一个jar包 运行一个 home admin hadoop job jar的MapReduce Job 1 进入HADOOP HOME目录 2 执行sh bin hadoop jar home admin hadoop job jar jobMainClass jobArgs 5 3 2 杀死某个正在运行的 Job 假设Job Id为 job 201005310937 0053 1 进入HADOOP HOME目录 2 执行sh bin hadoop job kill job 201005310937 0053 精品文档 22欢迎下载22欢迎下载 5 3 3 练习 WordCount 下面为本人练习执行hadoop自带实例WordCount过程 1 本地创建两个文本文件file1 txt和file2 txt 使file1 txt内容为 Hello World 而file2 txt的内容为 Hello Hadoop 2 在HDFS上创建输入文件夹 并上传本地file中文件到集群的input目录下 3 hadoop jar home hadoop hadoop share hadoop mapreduce hadoop mapreduce examples 2 4 0 jar wordcount input output 备注 备注 以input作为输入目录 output目录作为输出目录 输出目录运行前不能创建 否则暴多 另外执行命令时记得把JAR路径写全了 不然会提示找不到该Jar包 4 yunx查看HDFS上output目录内容 5 3 45 3 4练习练习过程中的问题 问题1 jar文件不知如何查看 JAR命令详细解 问题2 运行出现的虚拟内存溢出问题 报错如下 14 09 19 03 01 11 INFO mapreduce Job Task Id attempt 1411064209333 0004 m 000000 1 Status FAILED Container pid 2850 containerID container 1411064209333 0004 01 000005 is running beyond virtual memory limits Current usage 77 2 MB of 1 GB physical memory used 2 5 GB of 2 1 GB virtual memory used Killing container 该问题解决过程中 各种参数调整各种内存大小配置处理 最后终于找到具体 原因为 该错误是 YARN 的虚拟内存计算方式导致 上例中用户程序申请的内存为 1Gb YARN 根据此 值乘以一个比例 默认为 2 1 得出申请的虚拟内存的值 当 YARN 计算的用户程序所需虚 精品文档 23欢迎下载23欢迎下载 拟内存值大于计算出来的值时 就会报出以上错误 调节比例值可以解决该问题 具体参 数为 yarn site xml 中的 yarn nodemanager vmem pmem ratio 调整 yarn nodemanager vmem pmem ratio 3 重启hadoop后问题得到解决 问题3 xml 怎么注释 A Eg yarn nodemanager resource memory mb 30000 yarn scheduler maximum allocation mb 3000 yarn scheduler minimum allocation mb 1000 mapreduce reduce memory mb 512 5 4 HADOOP 常用命令收集 1 列出所有 HadoopShell 支持的命令 hadoop fs help 2 显示关于某个命令的详细信息 hadoop fs help command name 3 将集群置于安全模式 精品文档 24欢迎下载24欢迎下载 hadoop dfsadmin safemodeenter 4 显示 Datanode 列表 Hadoop dfsadmin report 5 使 Datanode 节点 datanodename 退役 Hadoop dfsadmin decommission datanodename 6 显式地将 HDFS 置于安全模式 Hadoop dfsadmin safemode hadoop 命令 1 hadoop fs mkdir user username 创建用户 2 hadoop fs chown user user user username 设置权限 3 hadoop dfsadmin setSpaceQuota 1t user username 限制空间容量 4 hadoop dfsadmin saveNamespace 创建检查点 将内存中的文件熊映射保存为一个新 的 fsimage 文件 重置 edits 文件 该操作仅在安全模式下执行 5 hadoop dfsadmin safemode get 查看 namenode 是否处于安全模式 6 hadoop dfsadmin safemode wait 在脚本中执行某条命令前 namenode 先退出安全模式 7 hadoop dfsadmin safemode enter 进入安全模式 8 hadoop dfsadmin safemode leave 离开安全模式 9 hadoop dfsadmin report 显示文件系统的统计信息 以及所连接的各个 datanode 的 信息 10 hadoop dfsadmin metasave 将某些信息存储到 hadoop 日志目录中的一个文件中 包 括正在被复制或删除的块信息 以及已连接的 datanode 列表 11 hadoop dfsadmin refreshNodes 更新允许连接到 namenode 的 datanode 列表 12 hadoop dfsadmin upgradeProgress 获取有关 hdfs 升级的进度信息或强制升级 13 hadoop dfsadmin finalizeUpgrade 移除 datanode 和 namenode 的存储目录上的旧版 数据 14 hadoop dfsadmin setQuota 设置目录中包含的文件和子目录的个数的配额 15 hadoop dfsadmin clrQuota 清理指定目录的文件和子目录个数的配额 16 hadoop dfsadmin clrSpaceQuota 清理指定的空间大小配额 17 hadoop dfsadmin refreshServiceAcl 刷新 namenode 的服务级授权策略文件 18 hadoop fsck 检查 hdfs 中文件的健康状况 该工具会查找那些所有 datanode 中均 缺失的块以及过少或过多复本的块 19 hadoop fsck user tom part 007 files blocks racks files 选项显示文件名称 大小 块数量 健康状况 block 选项描述文件中各个块的信息 每个块一行 racks 选 项显示各个块的机架位置和 datanode 的地址 精品文档 25欢迎下载25欢迎下载 6 6 第五课 第五课 HBASE 1HBASE 1 简单介绍和安装简单介绍和安装 6 1HBASE 介绍 HBase 是一个高可靠性 高性能 面向列 可伸缩的分布式存储系统 利用 HBase 技 术可在廉价 PC Server 上搭建起大规模结构化存储集群 HBase 是 Google Bigtable 的开源实现 类似 Google Bigtable 利用 GFS 作为其文件 存储系统 HBase 利用 Hadoop HDFS 作为其文件存储系统 Google 运行 MapReduce 来处理 Bigtable 中的海量数据 HBase 同样利用 Hadoop MapReduce 来处理 HBase 中的海量数据 Google Bigtable 利用 Chubby 作为协同服务 HBase 利用 Zookeeper 作为对应 HBaseHBase 系统架构如图所示系统架构如图所示 Client HBase Client 使用 HBase 的 RPC 机制与 HMaster 和 HRegionServer 进行通信 对于管 理类操作 Client 与 HMaster 进行 RPC 对于数据读写类操作 Client 与 HRegionServer 进行 RPC Zookeeper Zookeeper Quorum 中除了存储了 ROOT 表的地址和 HMaster 的地址 HRegionServer 也会把自己以 Ephemeral 方式注册到 Zookeeper 中 使得 HMaster 可以随时感知到各个 HR egionServer 的健康状态 此外 Zookeeper 也避免了 HMaster 的单点问题 见下文描述 HMaster HMaster 没有单点问题 HBase 中可以启动多个 HMaster 通过 Zookeeper 的 Master E lection 机制保证总有一个 Master 运行 HMaster 在功能上主要负责 Table 和 Region 的管 理工作 1 管理用户对 Table 的增 删 改 查操作 精品文档 26欢迎下载26欢迎下载 2 管理 HRegionServer 的负载均衡 调整 Region 分布 3 在 Region Split 后 负责新 Region 的分配 4 在 HRegionServer 停机后 负责失效 HRegionServer 上的 Regions 迁移 HRegionServer HRegionServer 主要负责响应用户 I O 请求 向 HDFS 文件系统中读写数据 是 HBase 中最核心的模块 HRegionServer 内部管理了一系列 HRegion 对象 每个 HRegion 对应了 Table 中的一 个 Region HRegion 中由多个 HStore 组成 每个 HStore 对应了 Table 中的一个 Column F amily 的存储 可以看出每个 Column Family 其实就是一个集中的存储单元 因此最好将 具备共同 IO 特性的 column 放在一个 Column Family 中 这样最高效 ROOT 3 1 4 1 5 2 6 2 会发现一个规律 2n 和 2n 1 的容忍度是 一样的 都是 n 1 所以为了更加高效 何必增加那一个不必要的 zookeeper 呢 自己的 理解 6 2 4 安装 修改 conf hbase env sh export JAVA HOME home apple jdk1 8 export HBASE MANAGES ZK false 如果 HBASE MANAGES ZK 值为 true 则表示使用 HBase 自带的 ZooKeeper 建议单独部署 ZooKeeper 这样便于 ZooKeeper 同时为其它系统提供服务 本人在实际安装过程中 显示设置为 ture 即使用默认自带的 ZooKeeper 但因为未知原因 没有成功 后改用设置为 false 单独部署 ZooKeeper 解决 精品文档 29欢迎下载29欢迎下载 6 2 5 安装 设置环境变量 export HBASE HOME home hadoop hbase export PATH PATH HBASE HOME bin 6 3 启动 HBASE 用如下命令启动和关闭 Hbase start hbase sh stop hbase sh 注意 必须先启动 Hadoop 再启动 Hbase 先关闭 Hbase 再关闭 Hadoop 启动后 使用 jps 查看 Hbase 进程 验证 Hbase 用如下命令进入 Hbase http 192 168 130 140 60010 master status 精品文档 30欢迎下载30欢迎下载 6 46 4 安装过程中的问题 1 zookeeper ClientCnxn Session 0 x0 for server null unexpected error closing socket connection and attempting reconnect 2 原因 zppkeeper 未启动 或无法连接 从查看各节点 zookeeper 启动状态 端口占用 防火墙等方面查看原因 3 第三个配置是配置 hmaster 的地址 第四个是配置 ZooKeeper 集群服务器的位置 这个注意必须是奇数个最后 一个是配置 zookeeper 的属性数据存储目录 如果你不想重启电脑就被 清空的话就要配置这个 因为默认是 tmp 精品文档 31欢迎下载31欢迎下载 4 精品文档 32欢迎下载32欢迎下载 7 7 第六课 第六课 Z Zookeeper 安装安装 7 1下载 zookeeper 3 4 6 tar gz 本次安装 3 4 6 版本 其他版本下载地址 最好使用 stable 版本 http zookeeper apache org releases html 7 2解压 将下载文件放在 home hadoop 下 并将所有者 CHOWN 为 hadoop hadoop slave1 tar zxvf zookeeper 3 4 6 tar gz 将解压后的 zookeeper 3 4 6 文件放在系统的 home hadoop 中 7 3修改 zoo cfg 配置文件 将 zookeeper 3 4 6 conf 目录下的 zoo sample cfg 文件拷贝一份 命名 为为 zoo cfg 修改 增加 zoo cfg 如下内容 其它配置参数不变 dataDir home hadoop zookeeper 3 4 6 zookeeper data dataLogDir home hadoop zookeeper 3 4 6 logs the port at which the clients will connect clientPort 2181 server 1 master 2888 3888 server 2 slave1 2888 3888 server 3 slave2 2888 3888 参数解释 其中 2888 端口号是 zookeeper 服务之间通信的端口 而 3888 是 zookeeper 与其他应用 程序通信的端口 而 zookeeper 是在 hosts 中已映射了本机的 ip server A B C D 其 中 A 是一个数字 表示这个是第几号服务器 B 是这个服务器的 ip 地址 C 表示的是这 精品文档 33欢迎下载33欢迎下载 个服务器与集群中的 Leader 服务器交换信息的端口 D 表示的是万一集群中的 Leader 服务器挂了 需要一个端口来重新进行选举 选出一个新的 Leader 而这个端口就是用来 执行选举时服务器相互通信的端口 如果是伪集群的配置方式 由于 B 都是一样 所以不 同的 Zookeeper 实例通信端口号不能一样 所以要给它们分配不同的端口号 7 4创建相应目录 拷贝目录 编辑 myid 创建 dataDir 参数指定的目录 这里指的是 home hadoop zookeeper 3 4 6 zookeeperdir zookeeper data 并在目录下创建文件 命名为 myid hadoop master zookeeper 3 4 6 mkdir zookeeper data hadoop master zookeeper data cat myid 1 将 zookeeper 3 4 6 目录拷贝到其他服务器 141 142 然后按照上述的方法修改 myid 141 中 myid 置为 2 142 中置为 3 7 5配置环境变量 在 etc profile 文件中设置 PATH ZOOKEEPER HOME home hadoop zookeeper 3 4 6 PATH 增加 ZOOKEEPER HOME bin 或 PATH ZOOKEEPER HOME bin PATH 7 6启动并测试 zookeeper 1 在所有服务器中执行 zookeeper 3 4 6 bin zkServer sh start PS PS 记住是在所有 我就遇到只在 记住是在所有 我就遇到只在 mastermaster 执行 然后发现有报错 纠结很久执行 然后发现有报错 纠结很久 才找到问题根源 秀逗了一盘 才找到问题根源 秀逗了一盘 2 输入 jps 命令查看进程 其中 QuorumPeerMain 是 zookeeper 进程 启动正常 HMaster 和 HRegionServer 为已启动的 hbase 进程 其他为安装 hadoop 后启动的进程 精品文档 34欢迎下载34欢迎下载 3 查看状态 zookeeper 3 4 6 bin zkServer sh status 4 启动客户端脚本 zookeeper 3 4 6 bin zkCli sh server zookeeper 2181 7 77 7 安装过程中的问题 CannotCannot openopen channelchannel toto 1 1 atat electionelection addressaddress 说这个异常可以忽略 原因是还有节点没有启动 zookeeper 全部启动之后 自然就不会 出异常了 精品文档 35欢迎下载35欢迎下载 8 8 附录附录 8 1配置项 core site xml 介绍 namevalue Description fs default namehdfs hadoopmaster 9000 定义 HadoopMaster 的 URI 和端口 fs checkpoint dir opt data hadoop1 hdfs namesecondary1 定义 hadoop 的 name 备份的路径 官方文 档说是读取这个 写 入 dfs name dir fs checkpoint period1800 定义 name 备份的备份 间隔时间 秒为单位 只对 snn 生效 默认 一小时 fs checkpoint size33554432 以日志大小间隔做备 份间隔 只对 snn 生 效 默认 64M pression codecs press Default Codec pression lzo LzoCodec pression lzo LzopCodec press GzipCod ec press BZip2Co dec 排版调整 实际配置不要回车 Hadoop 所使用的编解 码器 gzip 和 bzip2 为自带 lzo 需安装 hadoopgpl 或者 kevinweil 逗号分隔 snappy 也需要单独安 装 pression lzo LzoCodec LZO 所使用的压缩编 码器 topology script file name hadoop bin RackAware py 机架感知脚本位置 topology script number args1000 机架感知脚本管理的 主机数 IP 地址 fs trash interval10800 HDFS 垃圾箱设置 可 以恢复误删除 分钟 数 0 为禁用 添加 该项无需重启 hadoop hadoop http filter initializers org apache hadoop security AuthenticationFilterInitializer 需要 jobtracker tasktrac 精品文档 36欢迎下载36欢迎下载 排版调整 实际配置不要回车 ker namenode datanode 等 http 访问端口用户 验证使用 需配置所 有节点 hadoop http authentication type simple kerberos AUTHENTICATION HANDLER CLASSNAME 验证方式 默认为简 单 也可自己定义 class 需配置所有节 点 hadoop http authentication token validity 排版调整 实际配置不要回车 36000 验证令牌的有效时间 需配置所有节点 hadoop http authentication signature secret 排版调整 实际配置不要回车 默认可不写参数 默认不写在 hadoop 启 动时自动生成私密签 名 需配置所有节点 hadoop http authentication cookie domain domian tld http 验证所使用的 cookie 的域名 IP 地 址访问则该项无效 必须给所有节点都配 置域名才可以 hadoop http authentication simple anonymous allowed 排版调整 实际配置不要回车 true false 简单验证专用 默认 允许匿名访问 true hadoop http authentication kerberos principal 排版调整 实际配置不要回车 HTTP localhost LOCALHOST Kerberos 验证专用 参加认证的实体机必 须使用 HTTP 作为 K 的 Name hadoop http authentication kerberos keytab 排版调整 实际配置不要回车 home xianglei hadoop keytab Kerberos 验证专用 密钥文件存放位置 hadoop security authorizationtrue false Hadoop 服务层级验证 安全验证 需配合 hadoop policy xml 使用 配置好以后用 dfsadmin mradmin refreshServiceAcl 刷新生效 io file buffer size131072 用作序列化文件处理 时读写 buffer 的大小 hadoop security authenticationsimple kerberos hadoop 本身的权限验 精品文档 37欢迎下载37欢迎下载 证 非 http 访问 simple 或者 kerberos hadoop logfile size1000000000 设置日志文件大小 超过则滚动新日志 hadoop logfile count20 最大日志数 io bytes per checksum1024 每校验码所校验的字 节数 不要大于 io file buffer size io skip checksum errorstrue false 处理序列化文件时跳 过校验码错误 不抛 异常 默认 false io serializations org apache hadoop io serializer WritableSerialization 排版需要 实际配置不要回车 序列化的编解码器 press blocksize1024000 块压缩的序列化文件 的最小块大小 字节 webinterface private actionstrue false 设为 true 则 JT 和 NN 的 tracker 网页会 出现杀任务删文件等 操作连接 默认是 false 8 2配置项 hdfs site xml 介绍 namevalueDescription dfs default chunk view size32768 namenode 的 http 访问页面 中针对每个文件的内容显示 大小 通常无需设置 dfs datanode du reserved1073741824 每块磁盘所保留的空间大小 需要设置一些 主要是给非 hdfs 文件使用 默认是不保 留 0 字节 dfs name dir opt data1 hdfs name opt data2 hdfs name nfs data hdfs name NN 所使用的元数据保存 一 般建议在 nfs 上保留一份 作为 1 0 的 HA 方案使用 也可以在一台服务器的多块 硬盘上使用 dfs web uginobody nobody NN JT 等所使用的 web 精品文档 38欢迎下载38欢迎下载 tracker 页面服务器所使用 的用户和组 dfs permissionstrue false dfs 权限是否打开 我一般 设置 false 通过开发工具 培训别人界面操作避免误操 作 设置为 true 有时候会 遇到数据因为权限访问不了 dfs permissions supergroupsupergroup 设置 hdfs 超级权限的组 默认是 supergroup 启动 hadoop 所使用的用户通常是 superuser dfs data dir opt data1 hdfs data opt data2 hdfs data opt data3 hdfs data 真正的 datanode 数据保存 路径 可以写多块硬盘 逗 号分隔 dfs datanode data dir perm755 datanode 所使用的本地文件 夹的路径权限 默认 755 dfs replication3 hdfs 数据块的复制份数 默 认 3 理论上份数越多跑数 速度越快 但是需要的存储 空间也更多 有钱人可以调 5 或者 6 dfs replication max512 有时 dn 临时故障恢复后会 导致数据超过默认备份数 复制份数的最多数 通常没 什么用 不用写配置文件里 dfs replication min1 最小份数 作用同上 dfs block size134217728 每个文件块的大小 我们用 128M 默认是 64M 这个计 算需要 128 1024 2 我碰上 过有人直接写 128000000 十分浪漫 dfs df interval60000 磁盘用量统计自动刷新时间 单位是毫秒 dfs client block write retries3 数据块写入的最多重试次数 在此次数之前不会捕获失败 dfs heartbeat interval3 DN 的心跳检测时间间隔 秒 精品文档 39欢迎下载39欢迎下载 dfs namenode handler count10 NN 启动后展开的线程数 dfs balance bandwidthPerSec1048576 做 balance 时所使用的每秒 最大带宽 使用字节作为单 位 而不是 bit dfs hosts opt hadoop conf hosts allow 一个主机名列表文件 这里 的主机是允许连接 NN 的 必须写绝对路径 文件内容 为空则认为全都可以 dfs hosts exclude opt hadoop conf hosts deny 基本原理同上 只不过这里 放的是禁止访问 NN 的主机 名称列表 这在从集群中摘 除 DN 会比较有用 dfs max objects0 dfs 最大并发对象数 HDFS 中的文件 目录块都会被认 为是一个对象 0 表示不限 制 dfs replication interval3 NN 计算复制块的内部间隔时 间 通常不需写入配置文件 默认就好 dfs support appendtrue false 新的 hadoop 支持了文件的 APPEND 操作 这个就是控制 是否允许文件 APPEND 的 但是默认是 false 理由是 追加还有 bug dfs datanode failed volumes tolerated 0 能够导致 DN 挂掉的坏硬盘 最大数 默认 0 就是只要有 1 个硬盘坏了 DN 就会 shutdown dfs secondary http address0 0 0 0 50090 SNN 的 tracker 页面监听地 址和端口 dfs datanode address0 0 0 0 50010 DN 的服务监听端口 端口为 0 的话会随机监听端口 通 过心跳通知 NN dfs datanode http address0 0 0 0 50075 DN 的 tracker 页面监听地址 和端口 dfs datanode ipc address0 0 0 0 50020 DN 的 IPC 监听端口 写 0 的 话监听在随机端口通过心跳 传输给 NN dfs datanode handler count3 DN 启动的服务线程数 精品文档 40欢迎下载40欢迎下载 dfs http address0 0 0 0 50070 NN 的 tracker 页面监听地址 和端口 dfs https enabletrue false NN 的 tracker 是否监听在 HTTPS 协议 默认 false dfs datanode https address0 0 0 0 50475 DN 的 HTTPS 的 tracker 页面 监听地址和端口 dfs https address0 0 0 0 50470 NN 的 HTTPS 的 tracker 页面 监听地址和端口 dfs datanode max xcievers2048 相当于 linux 下的打开文件 最大数量 文档中无此参数 当出现 DataXceiver 报错的 时候 需要调大 默认 256 8 3配置项 mapred site xml 介绍 namevalueDescription hadoop job history location job 历史文件保存路径 无可配 置参数 也不用写在配置文件里 默认在 logs 的 history 文件夹 下 hadoop job history user location 用户历史文件存放位置 io sort factor30 这里处理流合并时的文件排序数 我理解为排序时打开的文件数 io sort mb600 排序所使用的内存数量 单位兆 默认 1 我记得是不能超过 mapred child java opt 设置 否则会 OOM mapred job trackerhadoopmaster 9001 连接 jobtrack 服务器的配置项 默认不写是 local map 数 1 reduce 数 1 mapred job tracker http address0 0 0 0 50030 jobtracker 的 tracker 页面服务 监听地址 mapred job tracker handler count15 jobtracker 服务的线程数 mapred task tracker report address127 0 0 1 0 tasktracker 监听的服务器 无 需配置 且官方不建议自行修改 mapred local dir data1 hdfs mapred local data2 hdfs mapred local mapred 做本地计算所使用的文件 夹 可以配置多块硬盘 逗号分 隔 精品文档 41欢迎下载41欢迎下载 mapred system dir data1 hdfs mapred system data2 hdfs mapred system mapred 存放控制文件所使用的文 件夹 可配置多块硬盘 逗号分 隔 mapred temp dir data1 hdfs mapred temp data2 hdfs mapred temp mapred 共享
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑施工安全监管信息化解决方案2025年研究报告
- 食品转包类型的合同协议
- 离婚协议赠予协议书范本
- 杀菌釜设备安装合同范本
- 物流代办合同协议书模板
- 法律合作协议书模板模板
- 矿山承包开采破碎协议书
- 独栋物业转让协议书范本
- 游泳馆培训协议合同范本
- 销售超滤纯水器合同范本
- GB/T 45920-2025铁铝酸盐水泥
- 大健康行业发展趋势
- 北京海淀2025年物理高二下期末达标测试试题含解析
- 陕西省2025年中考语文真题试卷及答案
- 2024-2025学年北师大版七年级数学下册期末阶段复习综合练习题
- 光伏电站台风预警与应急措施
- 2025年广州数学中考试题及答案
- 湖北省省直辖县级行政区划潜江市2024-2025学年七年级下学期期末考试生物试卷(含答案)
- 学霸提优第四单元《我们讲文明》重难点梳理 课件
- 医德培训课件
- 公司适用法律法规标准清单2025年08月更新
评论
0/150
提交评论