2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率

上传人：1*** IP属地：山西上传时间：2025-12-03 格式：DOCX 页数：72 大小：4.20MB 积分：19.9 举报 版权申诉

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率_第2页

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率_第3页

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率_第4页

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率_第5页

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

A:nnAl+研发数字峰会2024Al+研发数字峰会Al+DevelopmentDigitalsummitAI驱动研发变革促进企业降本增效北京站08/16-17王全东小米大模型团队Al+研发数字峰会Al+DevelopmentDigitalsummitAl+Al+DevelopmentDigitalsummitAl+研发数字峰会Al+DevelopmentDigiAl+研发数字峰会Al+DevelopmentDigitalsummit长文本模型的技术挑战行业报告新闻摘要长文写作行业报告新闻摘要长文本模型的技术挑战长文本模型结构：Al+研发数字峰会Self-Attention(Groupe长文本模型的技术挑战5~10BtokensAl+研发数字峰会Al+DevelopmentDigitalsummitlILⅢl1k-2k凶16k-32k长文本模型的技术挑战Al+研发数字峰会Al+DevelopmentDigitalsummit长文本模型的技术挑战Al+研发数字峰会Al+DevelopmentDigitalsummitPoSE:2048tokens0……0……45752Full-PoSE:2048tokens0……0……4575201…81918k窗长2~15Ttokens5~10Btokens5~10Btokens0长文本模型的技术挑战DecoderonlyTransformer长文本模型训练infra开发优势：对Attention的实现不敏感，适合各种attention方法劣势：序列并行度不能超过头数Al+研发数字峰会Al+DevelopmentDigital[N,d](Local:[N/P,dj)alltoallcommX[N,d/P]1[N,d]([N,d/P]1[N,d](Loca:[N/P,dj)matmulQ[N,d](Q[N,d](Local:[N/P,dl)[d,N](Local[d,N](Local:[d,N/P)[d/P,N]K[d/P,N]K33KTK[N,d](Local:[N/P,d])K[N,d](Local:[N/P,d])matmulmatmulVValltoallcomm1QnK1QnKsoftmax[N,d/P]/[N,d/P]/PP[N,d/P]N:sequencelengthd:hiddensizehc:headcountP:totalprocessor(GPU)countAssumesP=hc=4matmulW₀[N,d](Local:[N/Pdj)Al+DevelopmentDigitalsummit长文本模型的技术挑战Al+DevelopmentDigitalsummit优势：并行度的扩展性较好劣势：对Attention变种不友好，eg.SparseAttentionBlockwiseBlockwiseK:dxN[FedForwardFeedForwardCopyBlocktoSRAMKeyValueBlockBlockwiseKeyValueBlockBlockwiseKeyValueBlockQ:NxdOuterLoopV:NXdAtentionAtentionqueryblockqueryblockDevice1Device2(b)Blockwise_BlockwiseBlkiCopyonSRAMQuery1BlockwiseBlockwiseBlockwiseBlockwiseAttentionAttentionAttentionAttentionQuery2Key1Key2Key3Key4Query3Value1Value2Value3Value4sm(QKTV:N×d[Query4compute,sendtoreceivefromnextdevicepreviousdeviceInnerLoopKeyandValuelnnerLoop长文本模型的技术挑战推理成本高：attention的平方复杂度推理速度角度，200k比20k贵28倍，比2k贵112倍Al+研发数字峰会Al+DevelopmentDigitalsummit长文本模型的技术挑战其他长文本模型结构：Al+研发数字峰会Al+DevelopmentDigitalsummitLinearprojectionConcatConcatRetrieveattention&PEUpdate{KV}s-1{KV}s其他长文本模型结构：NAl+研发数字峰会Al+研发数字峰会2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进由H古OQ&KVCEMAoutputx′LayerinputXAttention×AttentionTimestepNorm×(a)SketchofMegalodonlayer.(b)Pre-Norm(c)Two-hopResidualMEGALODON模型结构byMeta,2024推理加速based大模型兼容主流attention预训练大模型：eg.Llama,可持续训练投机解码√×√√×√√×√√×√动态稀疏attention:eg.√×√√×√√×√√√√√√√×××√√×××√√√××√√√√√×√√√√√×√√√√√√√×√√√√√×√√√√√√Al+Al+DevelopmentDigitalsummit1.开发一种优化资源使用的架构，同时保持模型能力不变。2.区分重要token和不重要token,重要token占主要算力3.兼容现有attentionbased模型生态，模型广泛应用的关键Al+研发数字峰会Al+DevelopmentDigitalsummit受语音领域启发：语音信号下采样减少冗余保留必要信息语音识别中语音分帧后降采样4倍LayernormConformerBlocksxN|DropoutLinearFeedForwardModule+ConvolutionModuleConvolution+Subsampling10msrateMulti-HeadSelfAttentionModuleSpecAug10msrate+FeedForwardModule1111iAl+研发数字峰会Al+DevelopmentDigitalsummit5050Hz50Hz25Hz→*25Hz12.5Hz50Hz50Hz50Hz50Hz50Hz;100Hz25Hz50Hz2×2×卡十十→→→→Zipformer模型结构byDanielPovey,2024受语音领域启发：语音信号下采样减少冗余保留必要信息文本序列是否存在冗余?Yes!Up-samplePoolPoolAl+DevelopmentDigitalsummitAl+DevelopmentDigitalsummitBlock1Block2Block3EncoderDecoder(受语音领域启发：语音信号下采样减少冗余保留必要信息文本序列是否存在冗余?Yes!Al+研发数字峰会Al+研发数字峰会nnToclassificationhead—ABlock3SoftmaxClassProbabilitiesForEncoder-OnlySettingTruncateForEncoder-DecoderSetting不SpectralFilterUpsample+Upsample÷+Decoder十Residual—受语音领域启发：语音信号下采样减少冗余保留必要信息文本序列中的token是否同等重要?No!LightMLPHeavyMLPmRoutingAl+研发数字峰会Al+DevelopmentDigitalsummitLightAttentionHeavyAttentionRoutingq,vHeavybranch受语音领域启发：语音信号下采样减少冗余保留必要信息SUBLLM:采样(Sub-sampling)-上采样(Up-sampling)-旁路(Bypass)LLMBypassConnection_1BypassConnection_2LUpsampling_2●●BBssapyBBsBssapyBUpsampling_1/pdf/2406.06571,acceptedbyECAI2024受语音领域启发：语音信号下采样减少冗余保留必要信息BlocksModelrepresentation122Al+Al+研发数字峰会Al+DevelopmentDigitalsummit1.通过去除不太重要的tokens来缩短序列长度2.使用Score层来衡量token的重要性x=INDEXSELECT(x,I)x=INDEXSELECT(x,I)Score层给每个tokenScore层给每个token打分再得到weight=S(x1),...,S(xn)W=W1,...,WNWn=CLAMP(BALANCER(sn,[0,1]))I={i|wiI={i|wi∉TOPK(w,N')}LearnableSubsamplingModule妙处1:解决训练和推理的不一致性位置编码下采样RelPos(x{,xj)=RoPE(x;,xj,(Ii-I;))Al+研发数字峰会Al+DevelopmentDigitalsummitInferenceMode:推理时看不到未来token,设定阈值为0,正数分值的token保留Iinfer={i|wi≥v}Balancer:通过对梯度进行惩罚来限制score的正数比例=预设下采样保留比例Al+研发数字峰会Al+研发数字峰会Al+DevelopmentDigitalsummitWkept=INDEXSELECT(w,T)Wdiscarded=INDEXSELECT(w,)Wsample;～UNIFORM(E),fori=1,2,…,N′Wscaling=Wkept—WsampleWsample实际基本为0,不影响weight大小，但是有梯度otherwiseAl+DevelopmentDigitalsummit1.下采样前和上采样后的序列加权求和，perchannel2.增强训练的收敛性和稳定性。Al+研发数字峰会Al+DevelopmentDigitalsummitSUBLLM-BypassModule+ResidualConnection-BypassModuleLLaMA1.给重要token分配更多算力2.MoD每间隔一个block做一次topk的token筛选3.加速50%Mixture-of-DepthsRoutingDecisionsSequenceEarly-ExitVanillaTransformerMixture-of-DepthsRoutingDecisionsSequenceEarly-ExitVanillaTransformerSequenceSequencelayersNormalizeSelf-attentionNormalizeTw=0.65□hRouteRouteSelf-attentionNormalize个Normalizew=0.41Al+研发数字峰会Al+DevelopmentDigitaAl+Al+DevelopmentDigitalsummit主要实验结果Al+研发数字峰会Al+DevelopmentDigitalAl+研发数字峰会Al+DevelopmentDigitalsummitBF16,FlashAttention2主要实验结果Al+研发数字峰会Al+DevelopmentDigitalsummitEfficiencySpeed-UpMaxSpeed-UpInferenceTGS个Ratio个Mem(GB)↓TGS个Ratio个Speed个Ratio个Mem(GB)↓65.99SST2个Amazon个DBpediaYelp个Hate↑Avg.个81.0186.5442.9764.7787.5968

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率

文档简介

温馨提示

最新文档

评论

2024年AI+研发数字峰会(AiDD峰会)：SUBLLM新架构：文本下采样机制革新大语言模型效率

文档简介

温馨提示

最新文档

评论

相关文档