




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、腾讯云数据中心操作系统Gaia介绍大数据应用坚实基石海量用户产生海量数据月活跃用户8.3亿,最高同时在线2.1亿; 在线人际关系链超X000亿;月活跃4.4亿;日均消息量超X0亿;月活跃用户数6.5亿;日均相册上传超过X亿,日写操作总数过X0亿;腾讯游戏月活跃用户超X亿; 手机游戏月活跃用户超X亿;日均pv超X亿,手机侧近超X亿; 日均uv超X千万,手机侧超X千万;部分数据来自腾讯2014第二季度综合业绩报告海量数据造就强大技术支撑99.999%可用性稳定保障腾讯拥有业界顶级的分布式计算集群实时接入数据万亿条/天单集群规模最大6000台,日均Job数120w+,支持多存储引擎和多并行计算框架统
2、一资源管理和调度,磁盘、 CPU、网络等利用率85%+腾讯数据平台整体架构Gaia as Cluster Operation SystemGaia 基亍Yarn的通用资源调度平台,提供高并发任务调度和资源管理,实现集群资源共享,可伸缩性和 可靠性,丌仁可以为MR等离线业务提供服务,还可以支持实时计算,甚至在线service业务。Gaia(盖娅):希腊神话中的大地之神,是众神之母,所有神 灵中德高望重的显赫之神。Gaia以后可以承载各种编程框架、 各种应用,是个统一的资源管理调度系统各种业务都植根 亍“大地”之上。为什么选择Yarn可扩展、高可用、低耦合、开放性Gaia自研调度器sfair sc
3、heduler挑战一. 可扩展性差挑战二. 高作业并发量,但调度吞吐率低tdw集群要承担公司各个业务线的数据任务,任务量并发高(4k),且持续增长中。挑战三. HA考虑不周,影响可用性AM意外挂掉,整个application attempt失败。挑战四. 资源利用率低资源利用率低,提高了成本。挑战五. Yarn不成熟,bug较多Gaia自研调度器sfair scheduler心跳处理过重,严重影响Scalability;调度吞吐率过低,无法保证高并发作业;调度没有对集群整体的考虑,资源分配丌均衡;Gaia自研调度器sfair scheduler调度丌再由心跳触发;引入单独线程做周期性调度;心跳
4、中只做RM和NM的信息交互等轻量处理;调度效率对集群规模丌那么敏感Gaia自研调度器sfair scheduler解耦和后带来的优势:心跳处理变得轻量,丌再是大规模集群可扩展性的瓶颈: 10ms1ms调度丌被劢的等待心跳的到来,在调度周期内执行批量调度,提高了调度的吞吐。 解耦和后带来的问题:调度周期内会长期持有大锁,造成eventDispatcher中其他事件处理耗时增加:3349ms329328 ms (add 1000 app)Gaia自研调度器sfair scheduler优化多线程间同步优化多线程同步:优化attempt schedule中的锁:sort是针对于copy之后app,而
5、sort 占用调度的时间又过久, 去掉sort过程的持锁增加removed 标记位329328 ms- 3926msGaia自研调度器sfair scheduler优化队列和作业排序方式K(n=1000)SortAndWalkHeapifyAndWalktimecomparetimecompare10001361235654643280100130123665242122410134123439201887521411236312118828其中:n:app/queue个数k:一次调度平均要遍历的次数Gaia自研调度器sfair scheduler降低调度开销增加对queue/app的资源需求
6、统计;执行调度时,没有资源需求的queue/app不参与调度。提升调度公平性对node也做全局考虑,不再依赖心跳的随机性。减少不必要的对象创建避免每次比较两个app时都要分配新对象,优化后一次调度所花的时间大概减少了5%。另外,对GC的压力减小了50%。优化调度参数的计算将遍历和累加,改为变量维护,需要时直接读取。这类调度参数,每秒需要读取千万次。Gaia自研调度器sfair scheduler心跳处理与调度解耦和,提升可扩展性现网:将单集群规模扩展至6k(年底8800)个节点(业内最大集群),作业最大并发已 达4k,日运行作业数120w,task数7500w,调度1250个资源池;控制多线程
7、间的同步优化线程间锁,将调度线程持锁时间减少70%;优化队列和作业排序方式取消全排序,采用堆排序,减少调度器80%的cpu时间;降低调度开销统计app/queue的资源需求,对无资源需求的app/queue,禁止其参与调度,现网中降低了 近80%的调度开销。Gaia自研调度器sfair scheduler优化前经过优化,在大规模环境下,调度器的平均吞吐率从20提高到1000, 提高50倍。优化后Gaia资源管理内存1)系统不可控:周期性监控可能触发系统oom kill。2)资源浪费:无法利用机器 的整体资源。3)资源利用率低:按照峰值 分配container。4)失败率高:hardlimit导
8、致container容易被kill。5)资源需求不易评估Gaia资源管理内存Elastic Memory Control(弹性内存控制)1)不会触发系统oom kill:使用了container机制,且task_cgroup是hardlimit。2)可以容纳更多container:可按照平均值分配container。作业失败率大大降低:container之间是softlimit机制。对用户资源评估能力要求降低Gaia资源管理CPUtask_cgroupsRoot (1024)container 1(1024)container 2(1024)container n(1024)sshd、+ NM 进程+DataNode进程DataNode(1024 * 3)NM进程(1024)网管a系gen统t等进系统程进程最终整个集群瘫痪1)cpu share + cpuset结合的 机制;2)为系统进程留足资源;3)将NM与DataNode进程纳 入container管理;Gaia资源管理网络出带宽TC+cgroups相结合的方式 控制。container之间的网络带宽 可以相互borrow,可以充分 利用网络资源。Future work易用经济可靠RM/NM HAAM Retain稳定规模更大业务更多场景更加复杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铝单板购销合同(4篇)
- 2025年个人月工作总结(16篇)
- 中国人民大学和平与发展学院招聘笔试真题2024
- 能源管理在工程中考核试卷
- 2024年金华金开招商招才服务集团有限公司招聘考试真题
- 2024年广西壮族自治区南宁生态环境监测中心招聘考试真题
- 大学生的社会实践心得体会(16篇)
- 有关投资合同锦集(3篇)
- 电子测量仪器的光电传感器技术考核试卷
- 2025年心理健康的心得体会(19篇)
- 施工现场平面布置与临时设施、临时道路布置方案
- 建筑施工大型机械设备安全使用与管理培训
- T-CNPPA 3027-2024 药品泡罩包装应用指南
- 山东省潍坊市2025届高考数学二模试卷含解析
- 6S管理制度(可参考)-6s管理制度
- 四肢与关节检查
- 产后抑郁症讲课课件
- 低碳生活 主题班会课件-2篇
- 会下金蛋的鹅课件
- 实验室组织机构图
- 2024年河南省郑州市中考一模语文试题(含答案解析)
评论
0/150
提交评论