HADOOP学习笔记.doc

上传人：精*** IP属地：广东上传时间：2020-02-05 格式：DOC 页数：48 大小：1.42MB 积分：28 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

HADOOPHADOOP 学习笔记学习笔记白兵白兵南南大大通通用用数数据据技技术术股股份份有有限限公公司司 GeneralGeneral DataData TechnologiesTechnologies Co Co Ltd Ltd 天津总公司中国天津华苑产业区海泰发展六道 6 号海泰绿色产业基地 J 座 5 层电话 022 58815678 传真 022 58815679 北京分公司北京海淀区金源时代商务中心 B 区 1206 电话 010 88866866 传真 010 88864556 E mail info GBase 版权所有版权所有 2004 2013 精品文档 II欢迎下载II欢迎下载日期日期版本版本变更说明变更说明作者作者 2014 9 25V20140925 创建白兵精品文档 III欢迎下载III欢迎下载目录 1文档说明 1 2第一课认识 HADOOP 2 2 1HADOOP 的前世今生 2 2 2HADOOP 基础原理 2 2 2 1HDFS 3 2 2 2MapReduce 5 2 3HADOOP 的国内外应用 6 3第二课认识 HADOOP2 常用组件简介 6 3 1Hbase 简介 6 3 2Hive 简介 7 3 3pig 简介 7 3 4Zookeeper 简介 7 3 5Sqoop 简介 8 3 6Hue 简介 8 3 7Yarn 简介 8 3 8Impal 简介 8 4第三课部署 HADOOP 10 4 1部署环境 10 4 2目录结构 10 4 3安装步骤 11 4 3 1环境检查 For more details see http wiki apache org hadoop ConnectionRefused A 此问题折腾了很久很久最终得到解决遇到相似问题以下检查点供参考 1 首先检查 hostname 配置是否正确 2 在 etc hosts 中的 0 00 行注释掉最好将 127 0 0 1 行也注释掉 3 在配置文件中最好使用 ip 地址不要使用 localhost 我的问题为配置文件中指定的目录权限不足导致无法创建相应目录而使 NAMENODE 没有启动起来精品文档 19欢迎下载19欢迎下载 5 5 第四课第四课 HADOOPHADOOP 的基本操作的基本操作 5 15 1启动停止 hadoop 启动启动Hadoop 1 进入HADOOP HOME目录 2 执行sh bin start all sh 关闭关闭Hadoop 1 进入HADOOP HOME目录 2 执行sh bin stop all sh 单独运行 namenode datanode secondarynamenode resourcemanager nodemanager hadoop daemon sh start namenode hadoop daemon sh start datanode hadoop daemon sh start secondarynamenode 在hadoop 2 0以前我们可能会使用这样的一类命令 start jobtracker 2 0以后hadoop将jobtracker与tasktracker以YARN来代替所以resourcemanager与 nodemanager的启动命令 yarn daemon sh start resourcemanager yarn daemon sh start nodemanager 5 2 文件操作 5 2 15 2 1 查看文件列表查看文件列表查看hdfs中根目录下的文件 1 进入HADOOP HOME目录 2 执行sh bin hadoop fs ls 发现目录下至存在一个baibing的目录 3 补充查看文件内容 hadoop fs cat test test txt 精品文档 20欢迎下载20欢迎下载 5 2 25 2 2 创建文件目录创建文件目录查看hdfs中根目录下新建一个叫做test te的t2新目录 1 进入HADOOP HOME目录 2 执行 hadoop master sbin hadoop fs mkdir test 或者 hadoop master sbin hdfs dfs mkdir test2 你可能注意到了在创建目录时使用了两种命令查询资料得到区别如下 hadoop fs 使用面最广可以操作任何文件系统 hadoop dfs 与 hdfs dfs 只能操作 HDFS 文件系统相关包括与 Local FS 间的操作前者已经 Deprecated 一般使用后者 5 2 35 2 3 上传文件上传文件上传一个本机 home hadoop test tx的文件到hdfs中 test 目录下 1 进入HADOOP HOME目录 2 执行 hadoop fs put home hadoop test txt test 或 hdfs dfs put home hadoop test1 txt test2 5 2 45 2 4 下载文件下载文件下载hdfs中 test目录下的test txt文件到本机 home hadoop test 中精品文档 21欢迎下载21欢迎下载 1 进入HADOOP HOME目录 2 执行hadoop fs get test test txt home hadoop test 5 2 55 2 5 删除文件目录删除文件目录删除hdfs中 test2目录下的 test1 txt 删除hdfs中 test2目录 1 进入HADOOP HOME目录 2 执行hdfs dfs rm test2 test1 txt hdfs dfs rm r test2 5 3 MapReduce Job 操作 5 3 1 提交 MapReduce Job 原则上说 Hadoop所的MapReduce Job都是一个jar包运行一个 home admin hadoop job jar的MapReduce Job 1 进入HADOOP HOME目录 2 执行sh bin hadoop jar home admin hadoop job jar jobMainClass jobArgs 5 3 2 杀死某个正在运行的 Job 假设Job Id为 job 201005310937 0053 1 进入HADOOP HOME目录 2 执行sh bin hadoop job kill job 201005310937 0053 精品文档 22欢迎下载22欢迎下载 5 3 3 练习 WordCount 下面为本人练习执行hadoop自带实例WordCount过程 1 本地创建两个文本文件file1 txt和file2 txt 使file1 txt内容为 Hello World 而file2 txt的内容为 Hello Hadoop 2 在HDFS上创建输入文件夹并上传本地file中文件到集群的input目录下 3 hadoop jar home hadoop hadoop share hadoop mapreduce hadoop mapreduce examples 2 4 0 jar wordcount input output 备注备注以input作为输入目录 output目录作为输出目录输出目录运行前不能创建否则暴多另外执行命令时记得把JAR路径写全了不然会提示找不到该Jar包 4 yunx查看HDFS上output目录内容 5 3 45 3 4练习练习过程中的问题问题1 jar文件不知如何查看 JAR命令详细解问题2 运行出现的虚拟内存溢出问题报错如下 14 09 19 03 01 11 INFO mapreduce Job Task Id attempt 1411064209333 0004 m 000000 1 Status FAILED Container pid 2850 containerID container 1411064209333 0004 01 000005 is running beyond virtual memory limits Current usage 77 2 MB of 1 GB physical memory used 2 5 GB of 2 1 GB virtual memory used Killing container 该问题解决过程中各种参数调整各种内存大小配置处理最后终于找到具体原因为该错误是 YARN 的虚拟内存计算方式导致上例中用户程序申请的内存为 1Gb YARN 根据此值乘以一个比例默认为 2 1 得出申请的虚拟内存的值当 YARN 计算的用户程序所需虚精品文档 23欢迎下载23欢迎下载拟内存值大于计算出来的值时就会报出以上错误调节比例值可以解决该问题具体参数为 yarn site xml 中的 yarn nodemanager vmem pmem ratio 调整 yarn nodemanager vmem pmem ratio 3 重启hadoop后问题得到解决问题3 xml 怎么注释 A Eg yarn nodemanager resource memory mb 30000 yarn scheduler maximum allocation mb 3000 yarn scheduler minimum allocation mb 1000 mapreduce reduce memory mb 512 5 4 HADOOP 常用命令收集 1 列出所有 HadoopShell 支持的命令 hadoop fs help 2 显示关于某个命令的详细信息 hadoop fs help command name 3 将集群置于安全模式精品文档 24欢迎下载24欢迎下载 hadoop dfsadmin safemodeenter 4 显示 Datanode 列表 Hadoop dfsadmin report 5 使 Datanode 节点 datanodename 退役 Hadoop dfsadmin decommission datanodename 6 显式地将 HDFS 置于安全模式 Hadoop dfsadmin safemode hadoop 命令 1 hadoop fs mkdir user username 创建用户 2 hadoop fs chown user user user username 设置权限 3 hadoop dfsadmin setSpaceQuota 1t user username 限制空间容量 4 hadoop dfsadmin saveNamespace 创建检查点将内存中的文件熊映射保存为一个新的 fsimage 文件重置 edits 文件该操作仅在安全模式下执行 5 hadoop dfsadmin safemode get 查看 namenode 是否处于安全模式 6 hadoop dfsadmin safemode wait 在脚本中执行某条命令前 namenode 先退出安全模式 7 hadoop dfsadmin safemode enter 进入安全模式 8 hadoop dfsadmin safemode leave 离开安全模式 9 hadoop dfsadmin report 显示文件系统的统计信息以及所连接的各个 datanode 的信息 10 hadoop dfsadmin metasave 将某些信息存储到 hadoop 日志目录中的一个文件中包括正在被复制或删除的块信息以及已连接的 datanode 列表 11 hadoop dfsadmin refreshNodes 更新允许连接到 namenode 的 datanode 列表 12 hadoop dfsadmin upgradeProgress 获取有关 hdfs 升级的进度信息或强制升级 13 hadoop dfsadmin finalizeUpgrade 移除 datanode 和 namenode 的存储目录上的旧版数据 14 hadoop dfsadmin setQuota 设置目录中包含的文件和子目录的个数的配额 15 hadoop dfsadmin clrQuota 清理指定目录的文件和子目录个数的配额 16 hadoop dfsadmin clrSpaceQuota 清理指定的空间大小配额 17 hadoop dfsadmin refreshServiceAcl 刷新 namenode 的服务级授权策略文件 18 hadoop fsck 检查 hdfs 中文件的健康状况该工具会查找那些所有 datanode 中均缺失的块以及过少或过多复本的块 19 hadoop fsck user tom part 007 files blocks racks files 选项显示文件名称大小块数量健康状况 block 选项描述文件中各个块的信息每个块一行 racks 选项显示各个块的机架位置和 datanode 的地址精品文档 25欢迎下载25欢迎下载 6 6 第五课第五课 HBASE 1HBASE 1 简单介绍和安装简单介绍和安装 6 1HBASE 介绍 HBase 是一个高可靠性高性能面向列可伸缩的分布式存储系统利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群 HBase 是 Google Bigtable 的开源实现类似 Google Bigtable 利用 GFS 作为其文件存储系统 HBase 利用 Hadoop HDFS 作为其文件存储系统 Google 运行 MapReduce 来处理 Bigtable 中的海量数据 HBase 同样利用 Hadoop MapReduce 来处理 HBase 中的海量数据 Google Bigtable 利用 Chubby 作为协同服务 HBase 利用 Zookeeper 作为对应 HBaseHBase 系统架构如图所示系统架构如图所示 Client HBase Client 使用 HBase 的 RPC 机制与 HMaster 和 HRegionServer 进行通信对于管理类操作 Client 与 HMaster 进行 RPC 对于数据读写类操作 Client 与 HRegionServer 进行 RPC Zookeeper Zookeeper Quorum 中除了存储了 ROOT 表的地址和 HMaster 的地址 HRegionServer 也会把自己以 Ephemeral 方式注册到 Zookeeper 中使得 HMaster 可以随时感知到各个 HR egionServer 的健康状态此外 Zookeeper 也避免了 HMaster 的单点问题见下文描述 HMaster HMaster 没有单点问题 HBase 中可以启动多个 HMaster 通过 Zookeeper 的 Master E lection 机制保证总有一个 Master 运行 HMaster 在功能上主要负责 Table 和 Region 的管理工作 1 管理用户对 Table 的增删改查操作精品文档 26欢迎下载26欢迎下载 2 管理 HRegionServer 的负载均衡调整 Region 分布 3 在 Region Split 后负责新 Region 的分配 4 在 HRegionServer 停机后负责失效 HRegionServer 上的 Regions 迁移 HRegionServer HRegionServer 主要负责响应用户 I O 请求向 HDFS 文件系统中读写数据是 HBase 中最核心的模块 HRegionServer 内部管理了一系列 HRegion 对象每个 HRegion 对应了 Table 中的一个 Region HRegion 中由多个 HStore 组成每个 HStore 对应了 Table 中的一个 Column F amily 的存储可以看出每个 Column Family 其实就是一个集中的存储单元因此最好将具备共同 IO 特性的 column 放在一个 Column Family 中这样最高效 ROOT 3 1 4 1 5 2 6 2 会发现一个规律 2n 和 2n 1 的容忍度是一样的都是 n 1 所以为了更加高效何必增加那一个不必要的 zookeeper 呢自己的理解 6 2 4 安装修改 conf hbase env sh export JAVA HOME home apple jdk1 8 export HBASE MANAGES ZK false 如果 HBASE MANAGES ZK 值为 true 则表示使用 HBase 自带的 ZooKeeper 建议单独部署 ZooKeeper 这样便于 ZooKeeper 同时为其它系统提供服务本人在实际安装过程中显示设置为 ture 即使用默认自带的 ZooKeeper 但因为未知原因没有成功后改用设置为 false 单独部署 ZooKeeper 解决精品文档 29欢迎下载29欢迎下载 6 2 5 安装设置环境变量 export HBASE HOME home hadoop hbase export PATH PATH HBASE HOME bin 6 3 启动 HBASE 用如下命令启动和关闭 Hbase start hbase sh stop hbase sh 注意必须先启动 Hadoop 再启动 Hbase 先关闭 Hbase 再关闭 Hadoop 启动后使用 jps 查看 Hbase 进程验证 Hbase 用如下命令进入 Hbase http 192 168 130 140 60010 master status 精品文档 30欢迎下载30欢迎下载 6 46 4 安装过程中的问题 1 zookeeper ClientCnxn Session 0 x0 for server null unexpected error closing socket connection and attempting reconnect 2 原因 zppkeeper 未启动或无法连接从查看各节点 zookeeper 启动状态端口占用防火墙等方面查看原因 3 第三个配置是配置 hmaster 的地址第四个是配置 ZooKeeper 集群服务器的位置这个注意必须是奇数个最后一个是配置 zookeeper 的属性数据存储目录如果你不想重启电脑就被清空的话就要配置这个因为默认是 tmp 精品文档 31欢迎下载31欢迎下载 4 精品文档 32欢迎下载32欢迎下载 7 7 第六课第六课 Z Zookeeper 安装安装 7 1下载 zookeeper 3 4 6 tar gz 本次安装 3 4 6 版本其他版本下载地址最好使用 stable 版本 http zookeeper apache org releases html 7 2解压将下载文件放在 home hadoop 下并将所有者 CHOWN 为 hadoop hadoop slave1 tar zxvf zookeeper 3 4 6 tar gz 将解压后的 zookeeper 3 4 6 文件放在系统的 home hadoop 中 7 3修改 zoo cfg 配置文件将 zookeeper 3 4 6 conf 目录下的 zoo sample cfg 文件拷贝一份命名为为 zoo cfg 修改增加 zoo cfg 如下内容其它配置参数不变 dataDir home hadoop zookeeper 3 4 6 zookeeper data dataLogDir home hadoop zookeeper 3 4 6 logs the port at which the clients will connect clientPort 2181 server 1 master 2888 3888 server 2 slave1 2888 3888 server 3 slave2 2888 3888 参数解释其中 2888 端口号是 zookeeper 服务之间通信的端口而 3888 是 zookeeper 与其他应用程序通信的端口而 zookeeper 是在 hosts 中已映射了本机的 ip server A B C D 其中 A 是一个数字表示这个是第几号服务器 B 是这个服务器的 ip 地址 C 表示的是这精品文档 33欢迎下载33欢迎下载个服务器与集群中的 Leader 服务器交换信息的端口 D 表示的是万一集群中的 Leader 服务器挂了需要一个端口来重新进行选举选出一个新的 Leader 而这个端口就是用来执行选举时服务器相互通信的端口如果是伪集群的配置方式由于 B 都是一样所以不同的 Zookeeper 实例通信端口号不能一样所以要给它们分配不同的端口号 7 4创建相应目录拷贝目录编辑 myid 创建 dataDir 参数指定的目录这里指的是 home hadoop zookeeper 3 4 6 zookeeperdir zookeeper data 并在目录下创建文件命名为 myid hadoop master zookeeper 3 4 6 mkdir zookeeper data hadoop master zookeeper data cat myid 1 将 zookeeper 3 4 6 目录拷贝到其他服务器 141 142 然后按照上述的方法修改 myid 141 中 myid 置为 2 142 中置为 3 7 5配置环境变量在 etc profile 文件中设置 PATH ZOOKEEPER HOME home hadoop zookeeper 3 4 6 PATH 增加 ZOOKEEPER HOME bin 或 PATH ZOOKEEPER HOME bin PATH 7 6启动并测试 zookeeper 1 在所有服务器中执行 zookeeper 3 4 6 bin zkServer sh start PS PS 记住是在所有我就遇到只在记住是在所有我就遇到只在 mastermaster 执行然后发现有报错纠结很久执行然后发现有报错纠结很久才找到问题根源秀逗了一盘才找到问题根源秀逗了一盘 2 输入 jps 命令查看进程其中 QuorumPeerMain 是 zookeeper 进程启动正常 HMaster 和 HRegionServer 为已启动的 hbase 进程其他为安装 hadoop 后启动的进程精品文档 34欢迎下载34欢迎下载 3 查看状态 zookeeper 3 4 6 bin zkServer sh status 4 启动客户端脚本 zookeeper 3 4 6 bin zkCli sh server zookeeper 2181 7 77 7 安装过程中的问题 CannotCannot openopen channelchannel toto 1 1 atat electionelection addressaddress 说这个异常可以忽略原因是还有节点没有启动 zookeeper 全部启动之后自然就不会出异常了精品文档 35欢迎下载35欢迎下载 8 8 附录附录 8 1配置项 core site xml 介绍 namevalue Description fs default namehdfs hadoopmaster 9000 定义 HadoopMaster 的 URI 和端口 fs checkpoint dir opt data hadoop1 hdfs namesecondary1 定义 hadoop 的 name 备份的路径官方文档说是读取这个写入 dfs name dir fs checkpoint period1800 定义 name 备份的备份间隔时间秒为单位只对 snn 生效默认一小时 fs checkpoint size33554432 以日志大小间隔做备份间隔只对 snn 生效默认 64M pression codecs press Default Codec pression lzo LzoCodec pression lzo LzopCodec press GzipCod ec press BZip2Co dec 排版调整实际配置不要回车 Hadoop 所使用的编解码器 gzip 和 bzip2 为自带 lzo 需安装 hadoopgpl 或者 kevinweil 逗号分隔 snappy 也需要单独安装 pression lzo LzoCodec LZO 所使用的压缩编码器 topology script file name hadoop bin RackAware py 机架感知脚本位置 topology script number args1000 机架感知脚本管理的主机数 IP 地址 fs trash interval10800 HDFS 垃圾箱设置可以恢复误删除分钟数 0 为禁用添加该项无需重启 hadoop hadoop http filter initializers org apache hadoop security AuthenticationFilterInitializer 需要 jobtracker tasktrac 精品文档 36欢迎下载36欢迎下载排版调整实际配置不要回车 ker namenode datanode 等 http 访问端口用户验证使用需配置所有节点 hadoop http authentication type simple kerberos AUTHENTICATION HANDLER CLASSNAME 验证方式默认为简单也可自己定义 class 需配置所有节点 hadoop http authentication token validity 排版调整实际配置不要回车 36000 验证令牌的有效时间需配置所有节点 hadoop http authentication signature secret 排版调整实际配置不要回车默认可不写参数默认不写在 hadoop 启动时自动生成私密签名需配置所有节点 hadoop http authentication cookie domain domian tld http 验证所使用的 cookie 的域名 IP 地址访问则该项无效必须给所有节点都配置域名才可以 hadoop http authentication simple anonymous allowed 排版调整实际配置不要回车 true false 简单验证专用默认允许匿名访问 true hadoop http authentication kerberos principal 排版调整实际配置不要回车 HTTP localhost LOCALHOST Kerberos 验证专用参加认证的实体机必须使用 HTTP 作为 K 的 Name hadoop http authentication kerberos keytab 排版调整实际配置不要回车 home xianglei hadoop keytab Kerberos 验证专用密钥文件存放位置 hadoop security authorizationtrue false Hadoop 服务层级验证安全验证需配合 hadoop policy xml 使用配置好以后用 dfsadmin mradmin refreshServiceAcl 刷新生效 io file buffer size131072 用作序列化文件处理时读写 buffer 的大小 hadoop security authenticationsimple kerberos hadoop 本身的权限验精品文档 37欢迎下载37欢迎下载证非 http 访问 simple 或者 kerberos hadoop logfile size1000000000 设置日志文件大小超过则滚动新日志 hadoop logfile count20 最大日志数 io bytes per checksum1024 每校验码所校验的字节数不要大于 io file buffer size io skip checksum errorstrue false 处理序列化文件时跳过校验码错误不抛异常默认 false io serializations org apache hadoop io serializer WritableSerialization 排版需要实际配置不要回车序列化的编解码器 press blocksize1024000 块压缩的序列化文件的最小块大小字节 webinterface private actionstrue false 设为 true 则 JT 和 NN 的 tracker 网页会出现杀任务删文件等操作连接默认是 false 8 2配置项 hdfs site xml 介绍 namevalueDescription dfs default chunk view size32768 namenode 的 http 访问页面中针对每个文件的内容显示大小通常无需设置 dfs datanode du reserved1073741824 每块磁盘所保留的空间大小需要设置一些主要是给非 hdfs 文件使用默认是不保留 0 字节 dfs name dir opt data1 hdfs name opt data2 hdfs name nfs data hdfs name NN 所使用的元数据保存一般建议在 nfs 上保留一份作为 1 0 的 HA 方案使用也可以在一台服务器的多块硬盘上使用 dfs web uginobody nobody NN JT 等所使用的 web 精品文档 38欢迎下载38欢迎下载 tracker 页面服务器所使用的用户和组 dfs permissionstrue false dfs 权限是否打开我一般设置 false 通过开发工具培训别人界面操作避免误操作设置为 true 有时候会遇到数据因为权限访问不了 dfs permissions supergroupsupergroup 设置 hdfs 超级权限的组默认是 supergroup 启动 hadoop 所使用的用户通常是 superuser dfs data dir opt data1 hdfs data opt data2 hdfs data opt data3 hdfs data 真正的 datanode 数据保存路径可以写多块硬盘逗号分隔 dfs datanode data dir perm755 datanode 所使用的本地文件夹的路径权限默认 755 dfs replication3 hdfs 数据块的复制份数默认 3 理论上份数越多跑数速度越快但是需要的存储空间也更多有钱人可以调 5 或者 6 dfs replication max512 有时 dn 临时故障恢复后会导致数据超过默认备份数复制份数的最多数通常没什么用不用写配置文件里 dfs replication min1 最小份数作用同上 dfs block size134217728 每个文件块的大小我们用 128M 默认是 64M 这个计算需要 128 1024 2 我碰上过有人直接写 128000000 十分浪漫 dfs df interval60000 磁盘用量统计自动刷新时间单位是毫秒 dfs client block write retries3 数据块写入的最多重试次数在此次数之前不会捕获失败 dfs heartbeat interval3 DN 的心跳检测时间间隔秒精品文档 39欢迎下载39欢迎下载 dfs namenode handler count10 NN 启动后展开的线程数 dfs balance bandwidthPerSec1048576 做 balance 时所使用的每秒最大带宽使用字节作为单位而不是 bit dfs hosts opt hadoop conf hosts allow 一个主机名列表文件这里的主机是允许连接 NN 的必须写绝对路径文件内容为空则认为全都可以 dfs hosts exclude opt hadoop conf hosts deny 基本原理同上只不过这里放的是禁止访问 NN 的主机名称列表这在从集群中摘除 DN 会比较有用 dfs max objects0 dfs 最大并发对象数 HDFS 中的文件目录块都会被认为是一个对象 0 表示不限制 dfs replication interval3 NN 计算复制块的内部间隔时间通常不需写入配置文件默认就好 dfs support appendtrue false 新的 hadoop 支持了文件的 APPEND 操作这个就是控制是否允许文件 APPEND 的但是默认是 false 理由是追加还有 bug dfs datanode failed volumes tolerated 0 能够导致 DN 挂掉的坏硬盘最大数默认 0 就是只要有 1 个硬盘坏了 DN 就会 shutdown dfs secondary http address0 0 0 0 50090 SNN 的 tracker 页面监听地址和端口 dfs datanode address0 0 0 0 50010 DN 的服务监听端口端口为 0 的话会随机监听端口通过心跳通知 NN dfs datanode http address0 0 0 0 50075 DN 的 tracker 页面监听地址和端口 dfs datanode ipc address0 0 0 0 50020 DN 的 IPC 监听端口写 0 的话监听在随机端口通过心跳传输给 NN dfs datanode handler count3 DN 启动的服务线程数精品文档 40欢迎下载40欢迎下载 dfs http address0 0 0 0 50070 NN 的 tracker 页面监听地址和端口 dfs https enabletrue false NN 的 tracker 是否监听在 HTTPS 协议默认 false dfs datanode https address0 0 0 0 50475 DN 的 HTTPS 的 tracker 页面监听地址和端口 dfs https address0 0 0 0 50470 NN 的 HTTPS 的 tracker 页面监听地址和端口 dfs datanode max xcievers2048 相当于 linux 下的打开文件最大数量文档中无此参数当出现 DataXceiver 报错的时候需要调大默认 256 8 3配置项 mapred site xml 介绍 namevalueDescription hadoop job history location job 历史文件保存路径无可配置参数也不用写在配置文件里默认在 logs 的 history 文件夹下 hadoop job history user location 用户历史文件存放位置 io sort factor30 这里处理流合并时的文件排序数我理解为排序时打开的文件数 io sort mb600 排序所使用的内存数量单位兆默认 1 我记得是不能超过 mapred child java opt 设置否则会 OOM mapred job trackerhadoopmaster 9001 连接 jobtrack 服务器的配置项默认不写是 local map 数 1 reduce 数 1 mapred job tracker http address0 0 0 0 50030 jobtracker 的 tracker 页面服务监听地址 mapred job tracker handler count15 jobtracker 服务的线程数 mapred task tracker report address127 0 0 1 0 tasktracker 监听的服务器无需配置且官方不建议自行修改 mapred local dir data1 hdfs mapred local data2 hdfs mapred local mapred 做本地计算所使用的文件夹可以配置多块硬盘逗号分隔精品文档 41欢迎下载41欢迎下载 mapred system dir data1 hdfs mapred system data2 hdfs mapred system mapred 存放控制文件所使用的文件夹可配置多块硬盘逗号分隔 mapred temp dir data1 hdfs mapred temp data2 hdfs mapred temp mapred 共享

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

HADOOP学习笔记.doc

文档简介

温馨提示

最新文档

评论

HADOOP学习笔记.doc

文档简介

温馨提示

最新文档

评论

相关文档