




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
践张杰阿里云-机器学习平台PAI高级技术专家最大中文多模态预训练模型特点:如下图所示;M6-下游任务图到文生成次感。M6-100B:一款简约不失优雅气质的风衣,采用经典翻领设M6-下游任务图到文生成M6-base:北欧风格以简洁著称于世,并影响到后来的极简主义、简约主义、后现代等风格。在20世纪风起云涌的工业设计浪潮中,北欧风格的简洁被推到极致。舒适的抱枕能够轻松满足您的愿望,给您温暖贴心呵护。M6-100B:北欧风格家具,以简洁时尚的造型出现于世人面前,可轻松为居室营造舒适惬意的休闲空间氛围,让你感受更为舒适温馨的家居生活体验。M6-下游任务文本到图像生成(女士九分破洞牛仔裤)M6-下游任务文本QA(知乎式问答)M6-下游任务zero-shot分类模型训练发展趋势深度学习模型发展的两个阶段模型训练发展趋势模型参数规模和模型效果Bert参数规模越大,模型困惑度越低;MoETransformer模型参数规模越大,翻译质量越高;[2]模型训练发展趋势训练方式的变迁,训练数据越来越多;•单GPU训练速度不能满足需求;•采用数据并行来加快训练速度;模型训练发展趋势训练方式的变迁•随着模型参数规模进一步扩大,单GPU显存已经不能存放模型副本;•采用模型并行的策略来进行纵向扩展;•模型并行又包括流水并行和算子拆分;流水并行模型训练发展趋势训练方式的变迁•单一的模型并行训练速度并不能满足业务需求;GradsAllReduce•GradsAllReduce3322GradsAllReduce流水并行+数据并行流水并行GradsAllReduce23算子拆分23GradsAllReduce算子拆分+数据并行模型训练框架现状和挑战分布式训练框架Gpipe只支持流水并行、Mesh实现高效的分布式并行训练,例如如何在Mesh中配置拆架数据并行•多种并行策略统一:将不同并行化策略进行统种并行策略;行策略;分布式训练流程•虚拟资源划分:按并行策略为每个子图分配devices;图(图拷贝、拆TFruntime行图;•replica(数据并行•replica(数据并行)•stage(模型并行)•split(算子分片)•pipeline(流水并行)•auto-parallel(自行并行)2组APIs配置混合并行策略scope基础并行策略scope基础并行策略虚拟资源划分•RowLayout•ColumnLayout•AverageLayout•SpecifiedLayout•AutoLayout数据并行llReduce3流水并行+数据并行2GradsAllReduceWhale:APIs数据并行llReduce3流水并行+数据并行2GradsAllReduce: withwh.cluster():withwh.replica():流水并行withwithwh.cluster():withwhpipeline():withwh.stage():withwh.stage():withwh.cluster():withwh.replica():withwhpipeline():withwh.stage():withwh.stage():withwh.cluster():withwh.split():withwh.cluster():withwh.split():withwh.cluster():withwh.replica():withwh.split():更多示例:withwh.cluster():withwh.replica():withwh.split():最佳实践-大规模分类100,000分类模型:全连接层梯度通信Bottleneck最佳实践-大规模分类最佳实践-大规模分类Whale混合并行表达:•数据并行和算子拆分组合的并行策略•5行代码完成模型分布式改写性能:•64卡混合并行性能=14.8*数据并行扩展性:接扩展更大规模(如1亿分类)最佳实践-Bertlarge数据并行性能最佳实践-Bertlarge流水并行训练加速:•结合流水来提高资源利用率;最佳实践-Bertlarge流水并行结合数据并行进行分布式扩展eee最佳实践-Bertlarge•WhalePipeline=1.34*WhaleDP=2.32*HorovodDP最佳实践-最大中文多模态模型M6预训练万亿规模模型预训练挑战•训练难:•如何实现复杂的并行策略;•如何给用户提供简洁、易用的接口;•万亿规模模型对计算效率、通信效率都带来很大挑战,如何解决;•成本高:TBTBoptimizerstates和activetensor,显存需求巨大;•业界训练同等规模模型需要的资源:英伟达3072A100、谷歌2048TPU;最佳实践-最大中文多模态模型M6预训练MoE结构进行计算加速[1]SWITCHTRANSFORMERS:SCALINGTOTRILLIONPARAMETERMODELSWITHSIMPLEANDEFFICIENTSPARSITY最佳实践-最大中文多模态模型M6预训练分布式训练策略:最佳实践-最大中文多模态模型M6预训练分布式训练优化e•显存优化最佳实践-最大中文多模态模型M6预训练简洁易用接口•Whale自动进行DP+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 传输专业试题及答案
- 湖北省武汉市部分学校2026届高三上学期九月调研考试地理(含答案)
- 河北省衡水市桃城区2025-2026学年高二上学期开学考试政治试题(含答案)
- 康复专业面试题库及答案
- 福建省漳州市乙级联盟2024-2025学年高二上学期期中质量检测政治试卷(含答案)
- 福建省泉州市2024-2025学年高二上学期期末教学质量监测生物试卷(含答案)
- 宁海无尘室施工方案
- 安徽省江淮名校2024-2025学年高二上学期期中考试地理试卷(含答案)
- 临时展厅地坪施工方案
- 2025年天津二中高三开学考-物理试卷
- 电信营业员聘用合同范本
- 饿了么食品安全管理办法
- 2025年上海市(秋季)高考语文真题详解
- 苯二氮卓药讲课件
- 小学生钻石画社团课件
- 隐私计算在档案中的应用-洞察及研究
- 中国酒店发展阶段课件
- 2025年重庆市八中科学城中学校小升初自主招生数学试题
- 科技论文写作 第2版 课件 第1-5章 科技论文写作概述-英文科技论文的写作
- 新生儿医患沟通实务要点
- 旅行社地接合同协议书
评论
0/150
提交评论