第9章 集群调度与资源管理_第1页
第9章 集群调度与资源管理_第2页
第9章 集群调度与资源管理_第3页
第9章 集群调度与资源管理_第4页
第9章 集群调度与资源管理_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章集群调度与资源管理云原生架构师实战课资深云原生架构师CONTENTS调度流程:节点过滤与优选资源模型:Request与Limit详解QoS等级:Pod的服务质量保障亲和性与反亲和性:精细调度策略实战案例:GPU任务与混部场景课后实操任务:配置资源限制与调度策略调度流程:从“候选”到“最佳”01筛选阶段(Predicates)核心逻辑:基于规则过滤节点,淘汰不符合条件的主机。常用策略:PodFitsResources(资源充足)、MatchNodeSelector(标签匹配)。02打分阶段(Priorities)核心逻辑:为候选节点评分,得分最高者胜出。常用策略:LeastRequested(资源最低)、BalancedResource(资源均衡)。资源模型:RequestvsLimitRequest(软限制)作用:用于调度决策,调度器依据Request筛选节点。性质:弹性申请,实际使用可超Request,但不能超Limit。Limit(硬限制)作用:运行时强制限制,kubelet确保资源不超限。性质:硬性约束,超限会触发OOMKill或CPU限流。核心差异对比表QoS等级:不同Pod的“优先级”Guaranteed(最高)所有容器的Request与Limit相等。资源不足时最后被驱逐,保障核心服务。Burstable(中等)至少一个容器设置了Request但未达标。具有基础保障,资源紧张时被优先考虑。BestEffort(最低)未设置任何Request或Limit。无资源保障,资源不足时最先被驱逐。QoS等级策略对比表亲和性与反亲和性:让Pod“择邻而居”核心价值:超越nodeSelector解决痛点:弥补nodeSelector匹配规则单一的缺陷。提供更灵活、强大的调度策略,支持复杂逻辑组合。三种主要类型节点亲和性:基于节点标签的高级匹配。Pod亲和性:调度到同一拓扑域的节点。Pod反亲和性:避免调度到同一节点,保障高可用。高可用典型场景利用反亲和性确保应用的多个副本不会被调度到同一个节点。防止单点故障,提升系统整体稳定性。架构示意图:Pod反亲和性高可用调度效果实战案例一:GPU任务的专属调度实现步骤与背景背景:确保昂贵的GPU资源仅被特定Pod使用,避免浪费。打标签:kubectllabelnodes<node-name>accelerator=nvidia-tesla-p100Pod配置:在YAML中设置nodeSelector匹配上述标签。关键配置(YAML)spec:containers:-name:gpu-podimage:nvidia/cuda:9.0nodeSelector:accelerator:nvidia-tesla-p100调度逻辑示意图实战案例二:在离线混部与资源超卖背景与挑战在线业务存在明显的波峰波谷,低谷期资源大量闲置。目标是利用这些空闲资源运行离线任务,提升集群整体利用率。核心策略:QoS分级•在线服务:设置为Guaranteed等级,确保资源独享。•离线任务:设置为BestEffort,抢占空闲资源,紧张时优先驱逐。技术架构选型基于K8s原生调度能力,或集成Volcano、Yunikorn等高级调度器,实现精细化的资源调度与隔离。避坑指南:常见问题与最佳实践Pod一直处于Pending状态原因:调度器无法找到满足条件的节点(资源不足/亲和性不匹配)。排查:kubectldescribepod<pod-name>查看Events。Pod被频繁驱逐(OOMKilled)原因:内存Limit设置过小,或应用存在内存泄漏。排查:kubectltoppod<pod-name>查看实际内存使用。最佳实践:合理设置Request和Limit核心服务设为Guaranteed(request=limit),确保服务质量。非核心服务设为Burstable/BestEffort,提高利用率。最佳实践:利用亲和性提高可用性使用Pod反亲和性确保副本分布在不同节点、机架或区域。避免单点故障,提升系统整体容灾能力。课后实操:配置资源限制与调度策略任务目标创建Pod并设置CPU/内存Request和Limit,观察QoS等级使用nodeSelector将Pod调度到特定标签节点利用反亲和性确保多Pod不共节点任务步骤编写YAML配置资源限制,kubectlcreate创建Podkubectldescribe查看Pod的QoS等级为节点打标签(如disk=ssd),配置nodeSelector验证调度编写反亲和性规则YAML,创建Pod验证分散部署本章总结调度流程(SchedulingProcess)分为筛选(Predicates)和打分(Priorities)两个阶段,通过多维度计算最终选择最优节点。资源模型(ResourceModel)Request用于调度(软限制),Limit用于运行时(硬限制),两者共同保障服务的稳定性。QoS服务质量等级分为Guaranteed、Burstable、BestEffort三级,决定了资源不足时的Pod驱逐优先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论