大模型场景下智算平台的设计与优化实践_第1页
大模型场景下智算平台的设计与优化实践_第2页
大模型场景下智算平台的设计与优化实践_第3页
大模型场景下智算平台的设计与优化实践_第4页
大模型场景下智算平台的设计与优化实践_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j百度智能云大模型场景下智算平j百度智能云j百度智能云2018我资源比较少,我资源比较少,几十卡的规模,如何提升卡的利用率?20242j百度智能云大模型时代,智算平台新特点智算平台需解决的问题大模型场景技术实践对于智算平台发展的未来思考j百度智能云01大模型时代,智算平台新特点j百度智能云大模型时代,智算平台新特点j百度智能云工程问题工程问题$2150万增强:耗时长凸显大模型训推加速需求$2150万新增:成本高带来稳定性需求,减少资源闲置增强:参数爆炸突破显存墙,多机多卡成为常态新要求增强:卡间和机间高性能通信愈发重要新要求维持:维持:GPU切分在小模型和推理场景依然存在新增:新卡适配和芯片利旧,多芯混合调度新增:数据湖存储和高性能存储5j百度智能云02智算平台需解决的问题百度智能云智算平台需解决的问题百度智能云资源管理任务管理基础设施基础设施7j百度智能云03大模型场景技术实践j百度智能云j百度智能云9j百度智能云基础设施——高性能存储j百度智能云超大镜像预加载P2P镜像分发流式镜像拉取SKP2P镜像分发流式镜像拉取SK MM高性能并行文件系统全高性能并行文件系统全SSD闪存RDMA链路加速托管BCC/BBC集群大吞吐数据湖存储分布式缓存加速基础设施——高性能网络3层无收敛RDMA网络512512j百度智能云TorTor拓扑感知调NCCLNCCL通信拓扑感知j百度智能云03大模型场景技术实践调度——GPU虚拟化j百度智能云j百度智能云调度——GPUj百度智能云优势:故障隔离好缺点:有一定性能损耗14优势:故障隔离好缺点:有一定性能损耗14缺点:故障隔离差j百度智能云调度——资源管理和调度逻辑j百度智能云调度会话调度会话插件集合合占Binpack/Spread调度资源分配资源分配资源回收资源回收资源抢占资源抢占j百度智能云03大模型场景技术实践应用——AIAK训推加速j百度智能云大模型推理加速镜像量化/剪枝/蒸馏数学等价代换/死代码移除大模型推理加速镜像量化/剪枝/蒸馏数学等价代换/死代码移除大模型训练加速镜像大模型训练加速镜像品训练性能提升30%+百矢口应用——训练容错百矢口任务无效训练时间=任务无效训练时间=故障中断次•提升调度效率••提升调度效率•降低节点MTTR•降低节点故障率(任务故障恢复时+任务故障重算时长)+任务常•提升故障感知召回率硬件故障快速感知硬件端到端上线预检测节点热维修/秒级冷迁移恢复任务异常快速感知重调度容错硬件故障快速感知硬件端到端上线预检测节点热维修/秒级冷迁移恢复任务异常快速感知重调度容错镜像/数据缓存加速Ckpt存储加速异步Ckpt加速分布式Ckpt加速…j百度智能云应用——FlashCheckpointj百度智能云 FlashCKPTFlashCKPT训练框架训练框架训练框架训练框架yyyNVMENVMESSD加速层Memory加速层加速层Memory加速层分布式,异步写checkpoint操作,提升整体有效训练时长。业务可制定更细粒度的检查点策略,从而降低故障恢复时间3小时每日节省有效训练时长1秒千亿大模型CKPT写入j百度智能云03大模型场景技术实践j百度智能云j百度智能云运维目标运维目标运维目标!故障处理容量管理&优化故障处理容量管理&优化任务性能调优故障定位时间小时级->分钟级发现资源瓶颈提升分配/利用率发现任务性能瓶颈,避免空跑j百度智能云03大模型场景技术实践j百度智能云智算平台架构j百度智能云FlashCheckpointAI基础设施云原生化一站式大模型算力平台百度百舸发展历程AI基础设施云原生化一站式大模型算力平台AI硬核能力积累百舸1.0AI基础设施产品化器器33j百度智能云对智算平台发展的一些思考智算平台个人思考j百度智能云承上启下,承

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论