快手+云原生时代下大规模 GPU 资源利用率优化最佳实践（演讲PPT）

上传人：策*** IP属地：山西上传时间：2023-09-26 格式：DOCX 页数：60 大小：2.67MB 积分：19.9 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

快手基础技术部容器云技术中心1背景与趋势2GPU虚拟化与混部3GPU潮汐混部实践4持续演进与展望快手编排调度发展历程2018~20192019~2020CPU在离线混部CPU潮汐混部2021~2022GPU虚拟化与GPU混部2023~后续业务背景与趋势GPU硬件多年持续迭代GPU算力需求多样化提升GPU算力需求多样化提升GPU资源效率与云原生化快手内部GPU在线服务及离线训练任务均完成云原生化迁移背景：成本问题逐步凸显核心优化目标：GPU资源利用率提升GPU卡规模GPU服务运行效率主流A100主流A100、A30、A10、T4等多型号数万台GPU主机&十万量级GPU卡在线服务（推理等）在线服务（推理等）、AI训练任务及近线服务（特征提取等）多样化场景在线服务GPU峰均差值约30PP训练类算力全天需求旺盛·业务框架适配GPU卡型多样利用率稳定性GPU显存约束GPU编解码器面临挑战·业务框架适配GPU卡型多样利用率稳定性GPU显存约束GPU编解码器云原生下的云原生下的挑战成本优化成本优化是目标，稳定性保障是前提1背景与趋势2GPU虚拟化与混部建设3GPU潮汐混部实践4持续演进与展望请求优先级在线容量冗余，峰值高而日均利用不足离线训练成本高昂请求优先级在线容量冗余，峰值高而日均利用不足离线训练成本高昂，近线类需求旺盛分时复用削峰填谷高优抢占消除冗余保障实时在线需求任务颗粒度任务颗粒度VGPU大量单实例无法用满GPU资源硬件算力持续增强形成浪费GPU算力渲染器编码器显存提升利用率优化成本VV显存分配识别显存水位预测显存实时避让如何落地系统能力显存分配识别显存水位预测显存实时避让……Services音视频增强特征提取等音视频增强特征提取等框架平台定义与调度VGPU在线业务场景显存隔离限制显存隔离限制编解码器拦截混部GPU离线训练与近线任务离线时间片兜底算力请求优先级离线时间片兜底离线内存监测硬件基础设施GPU卡CPU内存网络存储允许多容器允许多容器实例在资源隔离前提下共享GPU卡VGPU实例：CPU+内存+算力占比+显存占比+器件选配业务：用量减少成本降低平台：部署密度增加利用率提升路径方式收益GPUGPU显存N分之一N分之一算力/显存GPU算力GPU算力编解码器可选项多实例共享单实例独占GPU显存GPU虚拟化底层技术选型多进程共享上下文，吞吐指标更优缺乏故障强隔离，容器间异常会传导不支持显存硬隔离内核层劫持内核层拦截驱动API隔离显存/算力细粒度的显存和算力调度策略无需替换CUDA库上层应用无感CUDA层劫持（vCUDA）CUDA层拦截API隔离显存/算力依赖容器镜像替换CUDA库CUDA发新版需要迭代适配硬件物理切分方式，适用A100、A30等卡型不支持动态划分依赖CUDA11及以上高版本快手GPU虚拟化方案技术路线：技术路线：内核态劫持●算力隔离：基于内核态的时间片轮转调度，多容器时分复用GPU计算器件●显存隔离：基于内核态劫持显存申请、回收等接口，控制容器使用显存配额共享GPUVGPU按时间片调度示意图性能压测数据聚合QPS对比原生GPU整卡快手虚拟化单卡双实例MPS方案单卡双实例P99延迟对比原生GPU整卡模式快手GPU虚拟化单卡两实例MPS方案单卡两实例按比例切分出VGPU单元GPU虚拟化-按比例切分出VGPU单元产品设定不同比例套餐并推荐产品设定不同比例套餐并推荐资源套餐通用GPUA30（8核12GB整卡50%显存）资源套餐通用GPUA30（4核8GB0.5卡50%显存）VGPU集群资源调度架构碎片控制>存核比匹配优化瓶颈负载感知>编解码器显式分配>离近线+低压力在线优先组合>在线VGPU扩容感知混部GPU在线请求实时抢占d请求suspend什么是GPU混部？在线请求实时抢占d请求suspend允许允许在线和离近线容器实例在请求优先级保障前提下共享同一块GPU卡算力抢占在线服务有GPU计算请求时立刻获取算力执行，离线服务的请求被压制显存避让当剩余GPU显存低于安全阈值时，离线服务实例会被立即驱逐以释放显存供给在线服务进程kGPU驱动4感知显存实时可申请量4感知显存实时可申请量仅在线服务运行的GPU利用率GPU仅在线服务运行的GPU利用率GPUGPU混部提升利用率示意在线与离近线复用资源下的在线与离近线复用资源下的GPU利用容器2CUDAAPPCUDAAPP……容器2CUDAAPPCUDAAPP……KgpuKgpuDeviceWrapper>业务透明无感切换GPUGPU算力调度器核心功能因素核心功能因素容器1容器1CUDAAPPKGPUKGPUDeviceWrapper硬件硬件GPU卡利用率提升效果稳定性保障>完备的故障隔离能力>实时量化干扰指标业务成本显著下降>对接服务成本优化超50%>数千卡近线类算力稳态供给推理类资源池利用率提升显著>GPU峰均提升约6PP>GPU日均提升近7PPGPU日均利用率趋势1背景与趋势2GPU虚拟化与混部建设3GPU潮汐混部实践4持续演进与展望•延时极度敏感••延时极度敏感•性能波动关乎收入•潮汐特征明显•训练过程需要稳态运行•资源配额实时协调GPUGPU整机维度分时复用•多机多卡高算力需求•多角色Gang调度•任务非实时可推迟运行风险XVS✔X✔XX风险与挑战风险XVS✔X✔XX推理稳态运行建设08:30~22:30在线业务流量持续高位推理稳态运行建设08:30~22:30在线业务流量持续高位实时抢占07:30~08:30时段建设在线服务逐步扩容增加容量，抢占逻辑最高优技术技术技术训练任务运行在离资源转换训练任务运行时段建设23:30~07:30时段建设23:30~07:30凌晨在线流量持续低谷建设建设提升训练任务错峰规模化运行稳定性，尽力减技术关键技术技术关键技术策略离线训练运行保障策略08:3008:30~22:3022:30~23:3023:30~07:3007:30~08:30离线训练任务运行规模趋势特点离线GPU资源持续压制状态离线GPU资源逐步增多离线GPU资源规模趋势于稳定态离线GPU资源被实时抢占GPU日均提升成本优化潮汐策略运转效果GPU日均提升成本优化凌晨时段资源转化抽取率20+%混部GPU实际分配率近80%GPU日均提升3~5PP2023年潮汐范围GPU日均趋势仅以T4和A10型号为统计范围凌晨时段可转化节省数千块A10卡和T4卡年化收益数千万

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

快手+云原生时代下大规模 GPU 资源利用率优化最佳实践（演讲PPT）

文档简介

温馨提示

最新文档

评论

快手+云原生时代下大规模 GPU 资源利用率优化最佳实践（演讲PPT）

文档简介

温馨提示

最新文档

评论

相关文档