下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、CDH5.2.0 集群优化配置HDFS dfs.block.size HDFS 中的数据 block 大小, 默认是 64M ,对于较大集群,可以设置为 128或 264M dfs.datanode.socket.write.timeout/dfs.socket.timeout 增加 dfs.datanode.socket.write.timeout 和 dfs.socket.timeout 两个属 性的设置(默认 300),比如 30000 ,避免可能出现的 IO 超 时异常 dfs.datanode.max.transfer.threads 增加 datanode 在进 行文件传输时最大线
2、程数(默认4096),比如 8192,假设集群中有某台 dataode 主机的这个值比其他主机的大,那么这 台主机上存储的数据相对别的主机比较多,导致数据分布不 均匀的问题,即使 balance 仍然会不均匀 node.handler.count 设定 namenode server threads 的 数量,默认是 10,对于较大集群,可适当调大,比如64。这些 threads 會用 RPC 跟其他的 datanodes 沟通。当 datanodes 数量太多时会发現很容易出現RPC timeout ,解決方法是提升网络速度或提高这个值,但要注意的是 thread 数量多也表
3、示 namenode 消耗的内存也随着增加 dfs.datanode.handler.count datanode上用于处理 RPC 的线程 数,默认是 3,对于较大集群可适当调大, 比如 8。 YARN yarn.app.mapreduce.am.resource.mb ApplicationMaster 的 container 占用的内存大小,可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb 作业的每个 Map/Reduce 任务分配的物理内存量,参数大于最 小容器内存 ( yarn.scheduler.minimum-allo
4、cation-mb ),两个参 数配置的值设置一样即可 mapreduce.map.java.opts.max.heap/mapreduce.reduce.java.opts .max.heap 每个 Map/Reduce 的 JVM 启动所占用的内存,正 常此参数小于等于 Map/Reduce 申请的内存( mapreduce.map.memory.mb/mapreduce.reduce.memory.mb) 的85%,因为map任务里不一定只跑 java,比如hadoop streaming 程序 io.file.buffer.size SequenceFiles 读取和写入操 作的缓存区
5、大小,还有 map 的输出都用到了这个缓冲区容 量, 可减少 I/O 次数。建议设定为 64KB 到 128KB mapreduce.task.io.sort.factor Reduce Task 中合并小文件时, 一 次合并的文件数据, 每次合并的时候选择最小的前 N 个进行 合并,此参数正常与 mapreduce.task.io.sort.mb 一起配置 mapreduce.task.io.sort.mb Map Task 缓冲区排序文件时要使用 的内存缓冲总量, 如果 mapreduce.task.io.sort.factor 设置了较 大值,此参数也应相应调大 io.sort.spil
6、l.percent mapreduce.task.io.sort.mb 的阈值, 默认是 80,当 buffer 中的 数据达到这个阈值,后台线程会起来对 buffer 中已有的数据 进行排序,然后写入磁盘 yarn.nodemanager.resource.memory-mb NodeManager 节点上可使用的物理内存总量, 默认是 8192(MB ),根据节点所能 分配的最大的内存进行分配即可(扣除其他服务内存、系统 内存等) yarn.scheduler.minimum-allocation-mb 容器可以请 求的最小物理内存量,此参数小于等于作业分配的MapReduce 内存量(
7、mapreduce.map.memory.mb/mapreduce.reduce.memory.mb) yarn.scheduler.increment-allocation-mb 内存规整化单位, 为容 器申请内存增量,最后内存请求数量将四舍五入为该数字最 接近的倍数,比如使用 Fair Scheduler, Container 请求资源 是1.5GB ,容量增量为1G,则将被调度器规整化为 ceiling(1.5 GB / 1GB) * 1G 2GB (公式:(请求资源 /容量增量)* 容量增量 ) yarn.scheduler.maximum-allocation-mb 单个任 务可申请
8、的最大物理内存量(默认是 8192( MB )。默认情 况下, YARN 采用了线程监控的方法判断任务是否超量使用 内存,一旦发现超量,则直接将其杀死HBASEzookeeper.session.timeout RegionServer 与 Zookeepe r 间的连接 超时时间,默认180000ms (正常维持这个时间)。当超时时 间到后, ReigonServer 会被 Zookeeper 从集群清单中移除, HMaster 收到移除通知后, 会对这台 server 负责的 regions 重 新balance,让其他存活的 RegionServer接管,修改此参数也 应该修改 Zook
9、eeper 对应最大超时时间 ( maxSessionTimeout) hbase.hregion.max.filesize 在当前 ReigonServer上单个 Reigon的最大存储空间,单个 Region 超过该值时,这个 Region 会 被自动split成更小的region,一般512M以下的都算小 region ,根据实际情况可设置成 5-10G 大小 hbase.regionserver.handler.count 增大 RegionServer 中启动的 RPC 服务器实例数量(默认10),比如 50,此参数正常与hbase.client.write.buffer 一起配置
10、hbase.client.write.buffer 增 大 htable 客户端写缓冲区大小 (默认是 2097152),比如 5M , 缓冲区是为了写数据的临时存放,设置大了,浪费客户端和 服务端的存储, 设置小了, 如果写的数据多, 太多的 RPC 又 带来网络开销,官方给的一个服务端存储耗费评估计算是: hbase.client.write.buffer*hbase.regionserver.handler.count ,服务 端的 region server 的处理 handler 个数也很关键 hbase.hregion.memstore.flush.size 当单个 memstor
11、e 达到指定 值时,flush 该 memstore (台 ReigonServer可能有成百上千 个 memstore), CDH5.2.0 默认大小为 128M ,内存允许情况 下,适当调高此参数,可避免过多的 flush hbase.regionserver.global.memstore.upperLimit/lowerLimit 这 是一个 Heap 内存保护参数,默认值已经能适用大多数场景(如非特殊情况,不做修改) 。hbase.regionserver.global.memstore.upperLimit 的意思是当ReigonServer内所有的 memstore所占用的内存总
12、和达到 heap 的 hbase.regionserver.global.memstore.upperLimit 大小时,HBase 会强制 block 所有的更新并 flush 这些 memstore 以释 放所有 memstore 占用的内存; hbase.regionserver.global.memstore.lowserLimit 的意思是当全 局 memstore 的内存达到 hbase.regionserver.global.memstore.lowserLimit 大小时,它不 会flush所有的memstore,它会找一些内存占用较大的 memstore,做个别flush,当
13、然更新还是会被blockhfile.block.cache.size 该值直接影响数据读的性能,storefile的读缓存占用 Heap 的大小百分比。如果读比写少,0.4-0.5 ,如果读写较均衡, 0.3 左右。如果写比读多,默认即可。设 置这个值的时候,需要参考 hbase.regionserver.global.memstore.upperLimit ,如果两值加起 来超过 80-90%,会有 OOM 的风险 hbase.hstore.blockingStoreFiles 在 compaction 时,如果一个 Store(Coulmn Family) 内有超过 base.hstore
14、.blockingStoreFiles 个 storefile 需要合并,则 block 所有的写请求,进行 flush , 限制 storefile 数量增长过快,直到完成压缩或直到超过为 hbase.hstore.blockingWaitTime 指定的值。但是 block 写请求 会影响当前 region 的性能, 将值设为单个 region 可以支撑的 最大 store file 数量会是个不错的选择, 即允许 comapction 时, memstore 继续生成 storefile 。最大 storefile 数量可通过 hbase.hregion.max.filesize/hba
15、se.hregion.memstore.flush.size 来计算 hbase.hstore.blockingWaitTime 达到由 hbase.hstore.blockingStoreFiles 指定的 HStoreFile 限制后, HRegion 阻止更新的时间段。 此时间段过后, HRegion 将停 止阻止更新,即使尚未完成压缩,即写请求继续被处理,可 适当增大是参数 hbase.client.scanner.caching scanner次缓 存多少数据来scan(从服务端一次读取多少数据回来scan),内存允许情况下, 增大此参数 SOLR Solr Server 的 Java 堆栈大小 Java 进程堆栈内存的最大大小,传递到 Java -Xmx ,内存允许情况下, 调高此参数 Solr 服务器的 Java 直 接内存大小 由 Java 进程分配的最大堆栈外内存量。传递到 Java -XX:MaxDirectMemorySize 。如果未设置,则默认为堆 的大小,内存允许情况下,调高此参数 schema.xml 优化 1. 将所有只用于搜索的,而不需要作为结果的 field (特别是一 些比较大的field )的stored设置为false 2.将不需要被用于 搜索的, 而只是作为结果返回的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 未来五年电子商务支付服务行业市场营销创新战略制定与实施分析研究报告
- 未来五年新形势下停机坪管理服务行业顺势崛起战略制定与实施分析研究报告
- 未来五年卫生盥洗设备批发行业市场营销创新战略制定与实施分析研究报告
- 未来五年植物加工类饮片市场需求变化趋势与商业创新机遇分析研究报告
- 呼叫中心客户服务培训手册
- 加油站洗车业务考核制度
- 红星美凯龙员工考核制度
- 家具厂仓库绩效考核制度
- 关于新员工每月考核制度
- 建筑业市场发展趋势调研及预测报告
- (2026年)企业春节后复工复产安全教育培训课件
- 铁路集中修施工培训
- 电商客服服务流程与话术手册
- Python深度学习入门(从零构建CNN和RNN)
- 小学信息科技课堂中人工智能教育实践研究教学研究课题报告
- 2026年桥梁耐久性与设计初衷的关系
- 2025年上海辅警招聘考试真题(附答案)
- (2025)继发性高血压筛查和诊断中国专家共识解读课件
- 慢性病患者医患沟通策略
- 老年人皮肤瘙痒的护理
- 饮用水深度处理技术研究
评论
0/150
提交评论