CDH520集群优化配置

上传人：l*** IP属地：天津上传时间：2021-12-04 格式：DOC 页数：6 大小：27KB 积分：15 举报 版权申诉

免费预览已结束，剩余1页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、CDH5.2.0 集群优化配置HDFS dfs.block.size HDFS 中的数据 block 大小，默认是 64M ，对于较大集群，可以设置为 128或 264M dfs.datanode.socket.write.timeout/dfs.socket.timeout 增加 dfs.datanode.socket.write.timeout 和 dfs.socket.timeout 两个属性的设置（默认 300），比如 30000 ，避免可能出现的 IO 超时异常 dfs.datanode.max.transfer.threads 增加 datanode 在进行文件传输时最大线

2、程数（默认4096），比如 8192，假设集群中有某台 dataode 主机的这个值比其他主机的大，那么这台主机上存储的数据相对别的主机比较多，导致数据分布不均匀的问题，即使 balance 仍然会不均匀 node.handler.count 设定 namenode server threads 的数量，默认是 10，对于较大集群，可适当调大，比如64。这些 threads 會用 RPC 跟其他的 datanodes 沟通。当 datanodes 数量太多时会发現很容易出現RPC timeout ，解決方法是提升网络速度或提高这个值，但要注意的是 thread 数量多也表

3、示 namenode 消耗的内存也随着增加 dfs.datanode.handler.count datanode上用于处理 RPC 的线程数，默认是 3，对于较大集群可适当调大，比如 8。 YARN yarn.app.mapreduce.am.resource.mb ApplicationMaster 的 container 占用的内存大小，可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb 作业的每个 Map/Reduce 任务分配的物理内存量，参数大于最小容器内存 ( yarn.scheduler.minimum-allo

4、cation-mb )，两个参数配置的值设置一样即可 mapreduce.map.java.opts.max.heap/mapreduce.reduce.java.opts .max.heap 每个 Map/Reduce 的 JVM 启动所占用的内存，正常此参数小于等于 Map/Reduce 申请的内存( mapreduce.map.memory.mb/mapreduce.reduce.memory.mb) 的85%，因为map任务里不一定只跑 java，比如hadoop streaming 程序 io.file.buffer.size SequenceFiles 读取和写入操作的缓存区

5、大小，还有 map 的输出都用到了这个缓冲区容量，可减少 I/O 次数。建议设定为 64KB 到 128KB mapreduce.task.io.sort.factor Reduce Task 中合并小文件时，一次合并的文件数据，每次合并的时候选择最小的前 N 个进行合并，此参数正常与 mapreduce.task.io.sort.mb 一起配置 mapreduce.task.io.sort.mb Map Task 缓冲区排序文件时要使用的内存缓冲总量，如果 mapreduce.task.io.sort.factor 设置了较大值，此参数也应相应调大 io.sort.spil

6、l.percent mapreduce.task.io.sort.mb 的阈值，默认是 80,当 buffer 中的数据达到这个阈值，后台线程会起来对 buffer 中已有的数据进行排序，然后写入磁盘 yarn.nodemanager.resource.memory-mb NodeManager 节点上可使用的物理内存总量，默认是 8192（MB ），根据节点所能分配的最大的内存进行分配即可（扣除其他服务内存、系统内存等） yarn.scheduler.minimum-allocation-mb 容器可以请求的最小物理内存量，此参数小于等于作业分配的MapReduce 内存量（

7、mapreduce.map.memory.mb/mapreduce.reduce.memory.mb） yarn.scheduler.increment-allocation-mb 内存规整化单位，为容器申请内存增量，最后内存请求数量将四舍五入为该数字最接近的倍数，比如使用 Fair Scheduler， Container 请求资源是1.5GB ,容量增量为1G,则将被调度器规整化为 ceiling（1.5 GB / 1GB） * 1G 2GB （公式：（请求资源 /容量增量）* 容量增量） yarn.scheduler.maximum-allocation-mb 单个任务可申请

8、的最大物理内存量（默认是 8192（ MB ）。默认情况下， YARN 采用了线程监控的方法判断任务是否超量使用内存，一旦发现超量，则直接将其杀死HBASEzookeeper.session.timeout RegionServer 与 Zookeepe r 间的连接超时时间，默认180000ms （正常维持这个时间）。当超时时间到后， ReigonServer 会被 Zookeeper 从集群清单中移除， HMaster 收到移除通知后，会对这台 server 负责的 regions 重新balance，让其他存活的 RegionServer接管，修改此参数也应该修改 Zook

9、eeper 对应最大超时时间（ maxSessionTimeout） hbase.hregion.max.filesize 在当前 ReigonServer上单个 Reigon的最大存储空间，单个 Region 超过该值时，这个 Region 会被自动split成更小的region，一般512M以下的都算小 region ，根据实际情况可设置成 5-10G 大小 hbase.regionserver.handler.count 增大 RegionServer 中启动的 RPC 服务器实例数量（默认10），比如 50，此参数正常与hbase.client.write.buffer 一起配置

10、hbase.client.write.buffer 增大 htable 客户端写缓冲区大小（默认是 2097152），比如 5M ，缓冲区是为了写数据的临时存放，设置大了，浪费客户端和服务端的存储，设置小了，如果写的数据多，太多的 RPC 又带来网络开销，官方给的一个服务端存储耗费评估计算是： hbase.client.write.buffer*hbase.regionserver.handler.count ，服务端的 region server 的处理 handler 个数也很关键 hbase.hregion.memstore.flush.size 当单个 memstor

11、e 达到指定值时，flush 该 memstore （台 ReigonServer可能有成百上千个 memstore）， CDH5.2.0 默认大小为 128M ，内存允许情况下，适当调高此参数，可避免过多的 flush hbase.regionserver.global.memstore.upperLimit/lowerLimit 这是一个 Heap 内存保护参数，默认值已经能适用大多数场景（如非特殊情况，不做修改）。hbase.regionserver.global.memstore.upperLimit 的意思是当ReigonServer内所有的 memstore所占用的内存总

12、和达到 heap 的 hbase.regionserver.global.memstore.upperLimit 大小时，HBase 会强制 block 所有的更新并 flush 这些 memstore 以释放所有 memstore 占用的内存； hbase.regionserver.global.memstore.lowserLimit 的意思是当全局 memstore 的内存达到 hbase.regionserver.global.memstore.lowserLimit 大小时，它不会flush所有的memstore,它会找一些内存占用较大的 memstore,做个别flush，当

13、然更新还是会被blockhfile.block.cache.size 该值直接影响数据读的性能，storefile的读缓存占用 Heap 的大小百分比。如果读比写少,0.4-0.5 ,如果读写较均衡, 0.3 左右。如果写比读多,默认即可。设置这个值的时候,需要参考 hbase.regionserver.global.memstore.upperLimit ,如果两值加起来超过 80-90%,会有 OOM 的风险 hbase.hstore.blockingStoreFiles 在 compaction 时,如果一个 Store(Coulmn Family) 内有超过 base.hstore

14、.blockingStoreFiles 个 storefile 需要合并,则 block 所有的写请求,进行 flush , 限制 storefile 数量增长过快,直到完成压缩或直到超过为 hbase.hstore.blockingWaitTime 指定的值。但是 block 写请求会影响当前 region 的性能, 将值设为单个 region 可以支撑的最大 store file 数量会是个不错的选择, 即允许 comapction 时, memstore 继续生成 storefile 。最大 storefile 数量可通过 hbase.hregion.max.filesize/hba

15、se.hregion.memstore.flush.size 来计算 hbase.hstore.blockingWaitTime 达到由 hbase.hstore.blockingStoreFiles 指定的 HStoreFile 限制后， HRegion 阻止更新的时间段。此时间段过后， HRegion 将停止阻止更新，即使尚未完成压缩，即写请求继续被处理，可适当增大是参数 hbase.client.scanner.caching scanner次缓存多少数据来scan（从服务端一次读取多少数据回来scan）,内存允许情况下，增大此参数 SOLR Solr Server 的 Java 堆栈大小 Java 进程堆栈内存的最大大小，传递到 Java -Xmx ，内存允许情况下，调高此参数 Solr 服务器的 Java 直接内存大小由 Java 进程分配的最大堆栈外内存量。传递到 Java -XX:MaxDirectMemorySize 。如果未设置，则默认为堆的大小，内存允许情况下，调高此参数 schema.xml 优化 1. 将所有只用于搜索的，而不需要作为结果的 field （特别是一些比较大的field ）的stored设置为false 2.将不需要被用于搜索的，而只是作为结果返回的

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CDH520集群优化配置

文档简介

温馨提示

最新文档

评论

CDH520集群优化配置

文档简介

温馨提示

最新文档

评论

相关文档