肖松-大模型场景下智算平台的设计与优化实践_第1页
肖松-大模型场景下智算平台的设计与优化实践_第2页
肖松-大模型场景下智算平台的设计与优化实践_第3页
肖松-大模型场景下智算平台的设计与优化实践_第4页
肖松-大模型场景下智算平台的设计与优化实践_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j百度智能云大模型场景下智算平j百度智能云j百度智能云我资源比较少,我资源比较少,几十卡的规模,如何提升卡的利用率?我的模型跑起来耗时长,我的模型跑起来耗时长,能加速吗?我想跑大模型,需要多少资源?我想跑大模型,需要多少资源?网络如何构建?多长时间能跑完?国产卡怎么用?国产卡怎么用?能否与NV卡一起使用?20242j百度智能云大模型时代,智算平台新特点智算平台需解决的问题大模型场景技术实践对于智算平台发展的未来思考j百度智能云01大模型时代,智算平台新特点大模型时代,智算平台新特点j百度智能云ResNet50(小模型)$15$15GPT-4(大模型)$2150万$2150万新要求工程问题增强:耗时长凸显大模型训推加速需求新增:成本高带来稳定性需求,减少资源闲置增强:参数爆炸突破显存墙,多机多卡成为常态增强:卡间和机间高性能通信愈发重要维持:新增:新卡适配和芯片利旧,多芯混合调度新增:数据集处理加速新增:数据湖存储和高性能存储5j百度智能云02智算平台需解决的问题智算平台需解决的问题智算平台需解决的问题运维运维应用应用调度调度基础设施基础设施训练推理数据训练推理数据资源管理资源管理存储百度智能云百度智能云7j百度智能云03大模型场景技术实践j百度智能云基础设施——混合多芯j百度智能云AI效能矩阵图谱9基础设施——高性能存储 托管BCC/BBC集群TCP并行文件存储PFSKP2P镜像分发全P2P镜像分发全SSD闪存基础设施——高性能网络3层无收敛RDMA网络j百度智能云TorTor拓扑感知调度NCCLNCCL通信拓扑感知j百度智能云03大模型场景技术实践调度——GPU虚拟化j百度智能云CUDAdriverAPI,提供显存限制,算力时分SR-IOV,硬件划分,提供显存划分、算力划分(1/3、调度——GPU虚拟化j百度智能云优势:故障隔离好缺点:有一定性能损耗14优势:故障隔离好缺点:有一定性能损耗14缺点:故障隔离差j百度智能云调度——资源管理和调度逻辑j百度智能云调度会话插件集合 入队调度会话插件集合 入队资源分配资源回收资源抢占资源分配资源回收资源抢占Binpack/Spread调Binpack/Spread调度GPU拓扑j百度智能云03大模型场景技术实践AIAK训推加速j百度智能云应用——AIAK训推加速j百度智能云应用——大模型推理加速镜像量化/剪枝/蒸馏品数学等价代换/死代码移除大模型推理加速镜像量化/剪枝/蒸馏品数学等价代换/死代码移除大模型训练加速镜像大模型训练加速镜像品用——训练容错矢百应用——训练容错矢百应×(任务故障恢复时长+任务故障重算时长)×(任务故障恢复时长+任务故障重算时长)+任务常态镜像/数据缓存加速镜像/数据缓存加速节点热维修/秒级冷迁移恢复主流框架/分布式库,打开开关即可容错j百度智能云应用——FlashCheckpointj百度智能云如何降低Checkpoint时间? 有效训练时间训练框架训练框架训练框架训练框架同步写加速层同步写加速层 NVME NVMESSD分布式,异步写流式分块上传等待流式分块上传并行文件存储PFSFlashCKPT并行内存写入,快速完成checkpoint操作,提升整体有效训练时长。业务可制定更细粒度的检查点策略,从而降低故障恢复时间3秒1秒j百度智能云03大模型场景技术实践j百度智能云运维目标j百度智能云运维目标 运维目标!故障处理任务性能调优 故障处理任务性能调优故障定位时间小时级->分钟级发现资源瓶颈提升分配/利用率发现任务性能瓶颈,避免空跑j百度智能云03大模型场景技术实践智算平台架构池大规模镜像P2P加速大规模镜像P2P加速CCECCEK8S集群A800/H800/昆仑/升腾异构算A800/H800/昆仑/升腾异构算力高性能分布式存储高性能分布式存储PFS98.8%j百度智能云j百度智能云百度百舸发展历程j百度智能云AI硬核能力积累百舸1.0AI基础设施产品化太行.弹性裸金属沧海.高性能存储百舸2.0AI百舸2.0AI基础设施云原生化百舸3.0一站式大模型算力平台j百度智能云对智算平台发展的一些思考j百度智能云智算平台个人思考j百度智能云承上启下,承上启下,向下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论