2025多模态大模型加速算法与开发

上传人：1*** IP属地：境外上传时间：2025-08-18 格式：PPTX 页数：23 大小：3.77MB 积分：12 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多模态大模型加速算法与开发实践20240102030405目录多模态大模型趋势与挑战MindSpeed-MM介绍应用案例趋势与挑战多模态算力趋势多模态算法结构1.1多模态趋势开源：清影（智谱）、OpenSoraPlan（北大）、OpenSora（潞晨）、Mochi、腾讯混元（hunyuanvideo）AI迭代持续带来爆点应用，多模态大模型将带动更多行业变革业界主要的视频生成模型：闭源：Sora（

OpenAI

）、海螺AI（miniMax）、可灵（快手）、Pixverse（爱诗科技）、即梦（字节）、通义万相（阿里）、Runway、Luma视频生成大模型催生新应用及新需求：AI短剧，短视频进入“零基础创作”时代多模态数据推动算力、存储、网络迎来新一轮爆发1.1多模态算力趋势大模型对集群算力需求快速增长EFLOPS-day：1EFLOPS(约3千张A100卡)集群运行1天所提供的算力Huawei

OpenAI

Google0.1110100100010000PanGu-αLaMDAEFLOPS-days2020

2021

2022

2023

2024

2025>1000

Eflops-days100~1000

Eflops-days10~100

Eflops-daysPanGuGPT5PanGuGPT47287976

PaLM83GLaM30<10

Eflops-daysT5

2.6GPT20.5GPTBERT2018

2019？Gemini

？>1000

？GPT3102022

2024以Movie

Gen

30B的模型为例，数据量：100M视频文本对和1B级图片文本对，集群规模：6144

H100多模态模型参数持续增长多模态大模型已成为AI算力消耗的新增点1.2多模态算法结构以扩散技术（diffusion）为主的多模态生成模型以LLM

Next-TokenPrediction为主的多模态生成理解原生训练统一模型技术趋于成熟

技术趋于成熟

技术尚不成熟多模态模型结构非常复杂，并且在快速持续创新和演进中例如：视频生成SORA类、图像生成SD类例如：Qwen2-VL系列、InternVL

2.0系列以LLM+视觉编码器+对齐层为主的多模态理解模型例如：EMU3、Janus1.2多模态算法结构以LLM+Diffusion为主的多模态生成理解原生训练统一模型覆盖图文音视频的全模态模型多模态模型结构非常复杂，并且在快速持续创新和演进中例如：JanusFlow、Transfusion技术尚不成熟技术尚不成熟例如：推测1.3加速算法及套件同步快速发展技术效果DPZeRO

(Microsoft).DP维度切分参数、梯度、优化器状态，减少内存开销CPRing

Attention

(Colossal

AI).DP维度切分attention

head，针对长序列场景大幅减少内存Ulysses

(Microsoft).进一步优化Ringattention，减少内存的同时提高性能TPMegatron-TP

(NVIDIA).Transformer结构亲和的分布式矩阵乘，解决单卡不能训大模型的问题

2D,2.5D,3D-TP

(Colossal

AI).基于不同的分布式矩阵乘算法，进一步发展TP，但这些方法对组网和通信有额外要求PP

Gpipe

(Google).将不同层切分到不同NPU上，使能大模型训练。同时为了提升性能，将一个batch分成不同microbatch以实现流水，流水方式为全部前向+全部反向1F1B

(Microsoft).流水方式为一次反向紧跟一次前向，解决Gpipe中激活值存储的问题TeraPipe

(UCB).按seq维度切分，实现流水并行

BFPipe

(ServiceNow).通过重组PP维度的排布，实现DP+PP的通信计算overlap，52B模型吞吐提高43%

Chimera

(ETHZ).通过额外存一份模型减少流水线气泡，内存换性能，2048

V100训练1.3B模型，加速约20%FisherPipe

(ETHZ).针对二阶优化器K-FAC设计的流水线并行自动并行Alpa

(UCB).自动PTD并行，通过动态规划+整数规划搜索最优方案Dapple

(Alibaba)DP+PP自动并行，通过整数规划搜索最优方案Colossal-AUTO

(Colossal

AI)TP+DP+重计算自动并行，整数规划搜索最优解Galvatron

(北大)PTD+ZeRO自动并行，决策树+动态规划搜索最优解Unity

(Stanford)将PTD并行和算子融合同时优化以提升性能Nemo

Hyperparameter

tool.该功能只在企业版中提供，不对社区开放MoETutel

(Microsoft).优化MoE的计算，gating和All2AllFasterMoE

(清华)提出影子专家、细粒度调度等算法解决动态不均衡问题FlexMoE

(清华)设计负载调度模块，利用启发式算法动态优化专家计算负载SmartMoE

(清华)，设计了专家放置策略，在PTD并行策略组合的基础上，实现了动态负载均衡充分挖掘算力价值成为热门研究课题，不断涌现的热门技术集中于头部加速套件业界研究现状

Dapple

Alibaba5月GPIPEGoogle1F1BMicrosoft6月20199月Megatron-TP

NVIDIAZeROMicrosoft10月20207月20215月Ring

Atten

Colossal

AITeraPipe

UCB9月

20221月Galvatron北大7月

6月4月4月7月2月Alpa

UCBFasterMoE清华Tutel

MicrosoftChimera

ETHZUnity

stanfordFisherPipe

ETHZBFPipe

ServiceNow8月

3D-TPColossal

AI11月20232月FlexMoE清华SmartMoE清华Ulysses

MicrosoftColossal-AutoMindSpeed研究现状Gpipe1F1BPTD并行Sequence

Parallel并行Virtual

Pipeline并行Expert

Parallel并行重计算技术分布式优化器(ZeRO-1)ZeRO-2/ZeRO-3计算通信并行技术超长序列优化技术已支持的技术内存深度优化MoE负载均衡自动并行在研技术MindSpeed-MM介绍MindSpeed-MM

架构设计MindSpeed-MM

模型开发MindSpeed-MM

加速方法2.1

MindSpeed

MM架构全栈联合优化、分层开放长序列、MoE、多模态等典型模型应用PyTorch/MindSporeCANN基础算子|融合算子|

HCCL

GE引擎|毕昇编译器昇腾系列硬件

MindSpeed大模型加速库套件MindSpeed

MM-多模态模型套件MindSpeed

LLM-大语言模型套件典型LLM模型LLM模型核心组件数据工程、模型增强、训练流程、偏好对齐稠密稀疏Qwen/LLaMA3.1系列

GPT4/Deepseek系列MindSpeed

Core-亲和加速模块并行优化多维混合并行自动并行搜索高效流水排布内存优化内存压缩算法

自适应SwapGelu重计算优化通信优化通信隐藏

流量冲突管理通算融合计算优化高性能融合算子昇腾亲和优化…MM模型核心组件预处理加速、模态编码对齐、训练流程、评价体系典型MM模型多模态生成多模态理解类Sora/SDXL/SD3系列

InternVL/LLaVA系列2.2

MindSpeed

MM架构大规模分布式训练，多模态统一架构模型套件软件架构统一的多模态大模型套件并行优化MindSpeed

Core内存优化通信优化计算优化预置模型生成模型理解模型

原生适配类

SORA、CogVideoX

LLAVA、InternVL、Qwen2-VL

Diffusers功能任务预训练全参微调低参微调在线推理评估生成结构SoraModel

SDModel

AudioGeModelPredictModel

AEModelSTDIT

CasualVAEDIT

VQVAELatteT2V

VAEUNet

…理解结构VLMModel

AudioReModelVisionModel

GPTModelCLIPViT

LlamaInternViT

InternLMQwen2-LM…数据工程公共模块数据构建、预处理、图文交织、数据分桶… DiffusionModel、TextModel、Tokenizer…预置模型预置模型：提供开箱即用脚本，包括预训练/微调/在线推理等。原生适配接入：第三方库Diffusers已原生适配NPU，在MM中提供启动脚本，部分加速代码通过Patch替换，不与MM整体架构强耦合，可快速支持图像生成能力。主体结构支持灵活搭建多模态生成模型和多模态理解模型，可扩展：PredictModel：多模态扩散骨干模型。AEModel：压缩骨干模型。VisionModel：视觉编码骨干模型。GPTModel：LLM骨干模型。对接MindSpeed

Core具备更强大的并行能力，非对齐长序列并行提供更长序列训练能力。对接MindSpeed

Core加速库，更多亲和优化，提升性能。2.2

MindSpeed

MM架构-训练流程InternVL2 MindSpeed-MM/modelsInternViTMLPInternLMmodel.jsonVisionModelProjectorGPTModel实例化模型选择/开发原子模型开发配置实例化设计模型结构组合并实例化模型选择原子模型编写模型配置2.3

MindSpeed

MM模型开发—理解模型WFVAEMT5VideoDiTDDPMmodel.jsonOpenSoraPlan MindSpeed-MM/modelsaepredictortext_encoderdiffusion实例化模型选择/开发原子模型开发配置实例化设计模型结构组合并实例化模型选择原子模型编写模型配置2.3

MindSpeed

MM模型开发—生成模型2.3

MindSpeed

MM加速方法PP：切分模型权重，降低内存VPP：进一步切分PPstage，减少空泡率，提升性能异构PP：灵活切分模型，提高负载均衡动态PP：减少冗余计算和通信，降低内存3.4

MindSpeed

MM加速方法USP：CP-Ulysses融合CP-RingAttentionNPU12跨节点Ring

P2PNPU8NPU4NPU0NPU15NPU11NPU7NPU3节点内Ulysses

AlIToAIINPU1

NPU2NPU5

NPU6NPU9

NPU10NPU13

NPU14Node0Node1Node2Node3分层zero：节点内zero3，节点间zero1ZeRO1:节点间通信ZeRO3:节点内通信编码器离线处理：离线提取文本和视频特征，训练DiTDiTs（PTD并行）读取离线特性TP+SP：切分权重和激活值 TP:切分Linear和Attention，Linear按行或列切分权重，Attention将head计算切分到多个device TP通信：2次all-reduce，前向对输入all-reduce，反向对梯度all-reduce TP-SP:对Sequence进行切分，作用于layernorm和dropout，将计算和激活切分到多个device TP-SP通信:2次all-gather，2次reduce-scatter2.3

MindSpeed

MM加速方法：DistTrain多模态异构模型分解训练➊独立并行：针对不同结构的模型，独立设置多维并行配置，利用数据、模型参数等特性，设置最优性能的资源和并行配置。➋分离部署：根据最优性能配置，将异构模型Encoder、LLM、Generator，分离部署到不同的计算单元，实现多模态训练流水优化。关键技术关键挑战EncoderLLMGeneratorCPU

NPU

NPU预处理计算单元1计算单元2计算单元3➊独立并行➋分离部署➊异构模型，流水空泡大➊异构模型：针对Encoder、LLM、Generator等不同结构的模型，采用与LLM相同的并行策略，流水线并行空泡大。➋动态数据：针对图像、视频、文本等不同模态的数据，不同

DP采用相同的Batch

Size，计算负载差距大，由于动态分辨率场景数据形状动态变化，相同DP内计算也拖尾。➋动态数据，计算负载不均2.4

MindSpeed

MM典型多模态模型性能0.90.921

10.97

0.97

0.970.98110.80.60.40.201.2

1.1

OpenSora

1.2OpenSoraPlan

1.3SDXLSD3SD3.5FLUXLLAVA

1.5Intern

2.0-8BIntern

2.0-76BQwen2-VL-2BQwen2-VL-7BNPU性

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025多模态大模型加速算法与开发

文档简介

温馨提示

最新文档

评论

2025多模态大模型加速算法与开发

文档简介

温馨提示

最新文档

评论

相关文档