版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Meta基于1.6万H100LLAMA43.1,6KH100MovieMeta基于1.6万H100LLAMA43.1,6KH100MovieXAI2.4万H100集群训练,自建10万H100集群训练Grok- 万10LLaMA41010H100Nemotron340B0.6万卡H10010H100Meta基于1.6万H100LLAMA43.1,6KH100MovieMeta基于1.6万H100LLAMA43.1,6KH100MovieXAI2.4万H100集群训练,自建10万H100集群训练Grok-LLaMA3LLaMA3全部用户角度看AI生态、生态:NVIDIAPyTorchAI靠堆量勉强满足ScalingLawSRAMHBMIO、光罩面积限制、Systemon跨节点互联、硅光互联、光交换(224GSerdes逼近物理极限Scaleup/Scaleout新建智算超算能耗逼近国内外相关AI阿里云:\h阿里云AI基础设施全面升级,模型算力利用率提升超\h火山云:\h百度百舸:\h面向10GoogleTPU:\hGoogleCloud6TPU4.7AIAmazonAWS:\h亚马逊云科技瞄准生成式AIMETA:\hMetaWillSoonGeta100000GPUClusterAI 集群线性度:XX%集群算力利用率:XX%
MC2
计算优化通信优化计算优化通信优化并行算法内存优化
MindSpore8
集群稳定运行
故障智能检测和隔离
任务分钟级恢复MindX
MindX
MindX
通信加速解码优化量化压缩通信加速解码优化量化压缩最优并行调度优化
通信量O(n²
AI组网方案演进:参数面多轨下行降速,样本面与业务面合一,影响IO图例 25G图例 25G网10GE网 M-LAGGE带外网 GE带内网400GROCE
2*25GE
2*25GE
2*25G
参数 存储后组网方案演进:参数面多轨下行降速,样本面与业务面合一,影响IO 每台存储通用服务器上行2*25GETCPIP(NFS),上联计算业务Leaf;后端网络2*25GE 100GRoCE汇聚出口
25G管理 堆
GE带外网络
25GRoCEM-GE带内网络
带内
Leaf
Leaf
2*25GE2*25GE
2*25GE
2*100G LeafSpine
2*25GE 2 3
公网、云专网、IP公网、云专网、IP100G
25G
10GEGE
25GRoCEGE管理带外
堆 带内
Leaf
Leaf
100GROCE200GROCE400GROCE
Atlas900A2
2*25GE 2*25GE
2*100G
2*100G
LeafSpine
512卡A100租用一个月的价格:11601*(512/8)*7.895858040.96585.8对于3DAttention而言,空间分辨率提升n倍,序列长度和动态内存变为n^2倍,Attention开销变为n^4倍;视频帧数提升n倍,序列长度和动态内存变为n倍,Attention开销变为n^2倍。3DAttention序列长达数百K,FA耗时占比95%+,3B模型+720p5s视频NPU单步迭代耗时[1,1200,[1,19200,[1,38400,[1,67200,[1,57600,[1,115200,[1,201600,[1,1200,[1,19200,[1,38400,[1,67200,[1,57600,[1,115200,[1,201600,720P9s视频对应的序列长度为200k,对性能和内存均提出重大挑战,单步迭代耗时170s,SPGC和HostGC和HostDeepSpeedZero0和Zero2在进入DiT之前,会经过视频数据读取、分辨率变换、视频VAE编码、文本编码等多个步骤,若果要处理的视频是不同分辨率的,例如2K、4K、1080P等,会导致不同Sample(Batch)的预处理开销显著不同,导致Host负载不均衡,进而严重影响训练性能。因此总结文生视频场景有三个典型基于(1)和(2):可采取数据预处理的方案,即在Epch0保存E编码和文本编码,从第二次Epch和文本编码;或提前计算并保存编码,减轻st开销,避免st输入数据多且复杂:Sora基于Text2Video,属于多模态类型,输入数据包含Timestep(用于扩散模型)、文本编码(用于Cross图1.SP基本原理,源自Ulysses图2原始Attention权重矩 图3聚类后的Attention权重矩 第一阶段——聚类:Attention模块中的SoftmaxQKT)权重矩阵如图1和图2个TokenQ𝑖与向量K的相似度呈现一定规律性,可以将规律分布相近的TokenQ𝑖进行置固定阈值e,对相似度小于e的TokenK𝑖进行过滤,因此每份𝐶𝑄𝑖都将对应得到更小矩阵𝐶K𝑖。然后对重排矩阵𝐶𝑄𝑖、𝐶K𝑖进行计算,得到权重矩阵的子结果(如图4红色框内部分所示),整体计算性能提升与矩阵𝐶K𝑖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 渔区防火安全施工方案
- 污水处理厂项目可行性研究报告
- 土体改良与软土地基处理技术方案
- 2026湖北武汉市三级医院招聘14人备考题库附参考答案详解(基础题)
- 2026广东茂名市职业病防治院(茂名市骨伤科医院)招聘就业见习岗位人员1人备考题库及参考答案详解(b卷)
- 2026海南海控乐城医院(四川大学华西乐城医院)招聘26人备考题库附答案详解(典型题)
- 2026浙江台州市中医院招聘心电图诊断医生(编外)1人备考题库及参考答案详解(精练)
- 2026年物流自动化解决方案解析
- 2026西藏拉萨市第一中等职业技术学校招聘编外生活辅导员17人备考题库及答案详解(历年真题)
- 阳极氧化工安全理论考核试卷含答案
- 2025年山东春考语文考试真题及答案
- 2025年殡仪馆火化师招聘笔试题库附答案
- 2025年足球裁判员考试题及答案
- 监狱视频管理办法
- 股东考核管理办法
- 大数据平台建设工期保证体系及保证措施
- 2025年吉林省长春市中考英语真题(原卷版)
- 新疆圣雄氯碱有限公司2万吨-年废硫酸再生处理项目环评报告
- 2025年口腔正畸主治考试《基础知识》新版真题卷(含答案)
- 冒顶片帮事故培训
- 苏教版高中化学必修二知识点
评论
0/150
提交评论