版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
百度AI大底座大模型研发基础设施方案最佳实践和案例大模型研发集群构建方案大模型训推加速优化方案基于Al大底座的大模型研发基础设施概览大模型Al新时代的基础设施0201040503Jared,et
al.2020.(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)500ERNIE3.0Titan(260B)
●Plato-
XL(11B)ERNIE-VILG(10B)CogView(4B)●DALL-E(1.2B)
viT(630M)
viT-G(2B)SwinV2(3B)0.5ERN|E1.0(110M)0.052018/9/182019/10/232020/11/262021/12/31计算规模大GP3:314
ZFLOPS单卡A100训练需要32年成本投入大GP3:数以亿计的训练和推
理成本模型参数大GP3:
175B参数350G+存储空间算力是大模型核心驱动力,推进AI基础设施新范式演进以GPT-3为例,
1750亿参数模型、
3000亿词语,计算量314ZFLOPS整体向低精度迁移,混合精度是常态训练显存,推理服务,芯片存算比us时代的万卡互联新摩尔定律分布式架构Scaling
三要素模型参数演进Turing-NLG(17B)
T5(11B)
v-MOE(15B)
ERNIE3.0(10B)模型大小(十亿参数)ERN|E2.0(330M)BERT(340M)GPT-3(175B)GPT-2(1.5B)ELMo(90M)2017/8/14505高性价比利用率提升多级存储弹性按需训练加速优化分布式训练高性能算子显存优化集群加速比算法收敛速度弹性容错一站式平台最佳实践智算集群构建异构算力万卡集群高速互联大模型训练的核心需求关注点百度AI大底座全景图
百度AI大底座由AI
IaaS层(百舸AI异构计算平台)、
AI
PaaS层(AI中台)两大部分组成
文心大模型及相关应用第三方模型及相关应用推理加速AlAK-lnference高性能存储并行文件存储PFSAI服务器lnfiniBand
x-MAN样本中心
模型中心全功能Al开发平台BML
零门槛Al开发平台EasyDL数据湖存储加速RapidFS海量数据湖存储对象存储BOS异构芯片昆仑芯GPU分布式训练加速AlAK-Training高速互联RDMAGPU调度Al作业调度弹性训练可观测性应用计百
算舸
平异
台构百度AI大底座全景图Al资产共享平台Al服务运行平台AI
中
台基础管控最佳实践和案例大模型研发集群构建方案大模型训推加速优化方案基于Al大底座的大模型研发基础设施方案概览大模型开启Al新时代0201040503
异构调度数据加速
训练加速
百度AI大底座
-
AI基础设施解决方案全景图最适合跑大模型的大规模、高性能AI基础设施CCE(公有云)稳定收敛CCE-Stack(私有云)最优的训练推理性能BF16优化参数推荐CostModel通信overlap动态batch行模型轻量化模型稀疏化多卡部署灰度发布流量控制动态伸缩公共数据集公共模型库模型/数据预热高性能存储一键跑通千亿大模型训练推理高性能计算(A100、A800、昆仑)高速互联
网络(IB
、
RoCE)云原生AI套件配置网络产品配置容器平台配置故障感知算力容错存储产品配置计算产品配置云原生平台
服务部署
推理加速
容错训练
基础设施高性能存储(PFS、
BOS、
RapidFS)百舸控制面网络容错任务容错GPU架构感知Tor架构感知Binpack调度Gang调度稳定性万卡模型训练不中断云原生AI套件最佳实践和案例大模型研发集群构建方案大模型训推加速优化方案基于Al大底座的大模型研发基础设施概览大模型开启Al新时代0201040503实例名称实例规格ehc.lgn5.c128
m1024.8a800.8
re.4dCPU:IntelXeonGold8350C/32C2.6GHz
240W
*2内存:DDR4-320064G
RDIMM*16磁盘:SATA-SSD480G*1+
NVMe-SSD4T*4网卡:100GCX6双口*4+
100G双口智能网卡*
1其他:NVIDIA
A80080G
NVLinkSW*8ehc.lgn5.c128
m1024.8a100.8
ib.4dCPU:IntelXeonGold8350C/32C2.6GHz
240W
*2内存:DDR4-320064G
RDIMM*16磁盘:SATA-SSD480G*1+
NVMe-SSD4T*4网卡:200GCX6单口*4+
100G双口智能网卡*
1其他:NVIDIA
A10080G
NVLinkSW*8大模型训练物理服务器介绍服务器配置–
A100/A800存储带宽
实例
2GB/s设备数
实例32*基于多可用区部署统计存储虚拟化(裸金属终态)网络带宽
实例
180GbpsPPS50M+Gbps支持DPU卸载网络+存储网络虚拟化性能卓越SPDKOVS-ControllerNova-puteSnic-Agent8导轨优化的三层CLOS架构•结合网络流量特点,重点优化同号卡AllReduce操作•一组机器有8台Tor组成,分别连接20台机器对应变化
的GPU网卡•多组Unit间的同号卡通过Leaf层连接,支持最大400卡AllReduce互联•异号GPU网卡通过Spine层连接,使能异号卡网络通信EHC集群AEHC集群B•
网络带宽更充足•节点间跳步数更稳定大模型集群可达万卡级别,单作业千卡;兼顾P2P延迟和通信吞吐AI训练中网络侧最多的流量是同号卡AllReduce操作与DragonfIY
、Torus拓扑比较的优势•IB可支撑16000卡规模,RoCE可支持30000+卡专有RDMA100GbVPC接入400GB
NVLink800Gb
RDMA通信
特点通信
需求专
有VPC
BVPC
ARDMAKM
E
MD
IS分布式缓存加速
RapidFS托管BCC/BBC
集群并行文件存储
PFSMDISKME
MDIS
K*
数据集存储/上传
-月光宝盒/对象存储BOS*
预训练模型存储
-
训练开
始时远端拉取到本地-
PFS*
容错检查点存储
-训练过
程中的checkpoint存储到
远端存储
-PFS*
Conda
/VSCode代码库
存储
-PFS*
支持存储可观测性对象存储
BOS标准存储
低频存储
冷存储
归档存储大模型存储方案介绍覆盖模型训练全周期离线传输月光宝盒TCP/InfiniBand/RoCE大模型训练全场景覆盖TCPM
E
MDISKE
M迁移方式方式描述优势局限性全托管•
公网端到端直连迁移•
适用于百TB以下规模的跨云迁移或本地自建S3集群搬站•
全流程可视化•
操作简单•
仅公网环境,速率
较慢,迁移周期长半托管•
专线环境跨云迁移/本地
自建S3集群搬站•
公网环境跨云迁移(源端
有闲置的公网带宽)•
支持专线,速
度快•
专线环境迁移非端
到端直连,需IDC
中转,并部署迁移
Agent•
公网环境迁移速度
较慢月光宝盒•
百度提供100TB~800TB
硬件,拷贝后物流运送到百度机房上传•
适用于本地IDC上云,不
适用于跨云迁
移•
需要物流运送,第
三方物流存在不可
控因素硬盘寄送•
客户自有硬盘寄送到百度
云机房•
适用于本地IDC上云、自
动驾驶数据采
集场景•
需要物流运送,且
需要客户拥有较多
磁盘开源大模型&数据集缓存加速数据和环境准备,避免跨网数据访问数据集上云方案数据集加速数据流转平台CloudFlow开发镜像开源数据集开源大模型托管BCC/BBC
集群大规模训练场景下,支持高并发、低延迟数据访问、具备横向扩展能力……
OSS
数据节点……元数据节点并行文件存储PFS全闪硬件架构,适合大训练集读写计算节点内核客户端*IO
并行*
亚毫秒延时*
百
GB/s
吞吐*
内核客户端*
高速硬件*
极短IO
路径MDSMDSMDSMDSOSSOSSOSSOSS
OSS
最佳实践和案例大模型研发集群构建方案大模型训推加速优化方案基于Al大底座的大模型研发基础设施概览大模型开启Al新时代0201040503
通信效率优化
高性能训练通信库ECCLAIAK-Training:全链路训练优化能力AIAK-Training
训练加速套件通信优化策略:隐藏/融合/压缩/卸载/拓扑预处理加速算子融合低精度训练显存卸载机制参数/梯度/优化器分片DataLoader优化高性能算子重计算技术
显存利用优化
计算效率优化
IO和预处理优化
单机多卡RDMA
多机优化TCP多机优化通信优化All2All加速:通过机内NVLink减轻对网络的压力•
在8导轨优化的网络架构下,同号卡最多3条,但所有异号卡通信需要经过Spine层•同号卡AllReduce操作性能好,但All2All操作对网络压力较大•
优化思路是通过机内高性能NVLink中转网络请求,从而将异号卡通信转换为同号卡通信,充
分利用8导轨优势•
如右图所示,A节点的GPU0先经过NVLink到GPU3,再发往B节点GPU38导轨优化下,同号卡最多经过Leaf层,异号卡通信需要经过spine层
Rail-localAll2All
(NCCL2.12十)1.91.71.51.31.10.9 All2All性能提升(%)
170.40%123.59%116.17%107.98%109.66%
o
107.75%2
4
8
16
32
64
。
归—化后收益
通信卡数—
All2All加速
算子库:针对大模型典型模型结构专门优化 图转换:将聚类后的图转换为后端表示、加速算子库使能
多后端:兼容手写
+编译的多种后端,提供可扩展后端抽象
图优化:模型量化&稀疏化、重点算子融合
后端加速:动态Batch,行通信加速
流量动态调度:弹性扩缩TritonFastDeployKserveAIAK-
Inference推理加速GraphOptimizerAIAK-OP(代码自动生成)GraphConverter基础算子库
(如cuDNN)TensorRT
TVM
一
竖切、横切、纵向扩展
模型分组参数切片,减少显存占用(Groupsharding)
干亿模型训练配置
4D
混合并行框架策略参与节点行机内8卡AllReducesharding机内8卡Broadcast流水并行多机—组,机间同号卡P2P通信数据并行多组数据并行(多机—个单元)高效流水并行编排框架加速大模型天然适合切分混合多种并行策略–
4D混合并行Transformer层内大MatMul切分,
称为
模型并行(MP)将训练数据切分加速
训练,称为数据并行
(DP)按
Transformer
层切分,称为流
水线并行(PP)纵向扩展模型切分横切竖切主流框架支持通信层监控层框架层任务层容错训练|保障大规模并行训练稳定执行PaddlePaddlePytorch任务自动重启Checkpoint存储加速千亿参数大模型训练不中断自动checkpoint训练拓扑维护网络抖动错误重试网络异常节点感知Step粒度容错网络多路径利用任务监控资源监控容错判断最佳实践和案例大模型研发集群构建方案大模型训推加速优化方案基于Al大底座的大模型研发基础设施概览大模型开启Al新时代0201040503百舸LLaMA-65B大模型快速搭建最佳实践操作流程图:集群创建:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年家务分工中的性别平等教育实践指南
- (完整版)型材屋面工程施工方案
- 2026年未成年人犯罪记录封存制度解读
- 2026年幼儿园教师数学启蒙教育方法培训
- 2026年恒温恒湿空调系统调试技术总结
- 2026年濒死期患者家属心理支持
- 2026年理财资金投向与绿色金融产品
- 2026年养老院护士入职培训记录
- 2026年数字化探究式学习中学生的自主发现能力
- 2026年大学生劳动教育理论与实践指导手册
- ISO13485:2016医疗器械质量管理手册+全套程序文件+表单全套
- 2026年一级建造师一建水利水电实务案例分析考前八页纸考点重点知识预测记忆总结笔记
- 2025年国企智联招聘行测笔试题库
- 科技情报研究课题申报书
- 幼儿饮用水卫生安全培训课件
- 市场调研报告采购协议书
- 2025年保安员证考试题库(附答案+解析)
- 树木修剪应急服务方案(3篇)
- 溃疡性结肠炎中西医结合诊疗指南
- 税务政策培训课件
- 膝关节炎的康复治疗讲课件
评论
0/150
提交评论