CN118132155B 一种针对线性注意力的序列并行方法、装置、设备及介质 (上海人工智能创新中心)_第1页
CN118132155B 一种针对线性注意力的序列并行方法、装置、设备及介质 (上海人工智能创新中心)_第2页
CN118132155B 一种针对线性注意力的序列并行方法、装置、设备及介质 (上海人工智能创新中心)_第3页
CN118132155B 一种针对线性注意力的序列并行方法、装置、设备及介质 (上海人工智能创新中心)_第4页
CN118132155B 一种针对线性注意力的序列并行方法、装置、设备及介质 (上海人工智能创新中心)_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种针对线性注意力的序列并行方法、装本发明公开了一种针对线性注意力的序列处理设备按照数据分发策略将分布式环境中原始序列对应的多个子序列分发至对应的第二处预先配置的反向传播方式和前向总输出矩阵确2通过第一处理设备按照预先配置的数据分发策略将分布式环境中线性变换器上原始通过所述第二处理设备采用预先配置的前向传播方式确定所述子序列对应的前向总通过所述第二处理设备采用预先配置的反向传播方式和所述前向总输出矩阵确定所根据所述子序列以及对应的查询权重系数、关键字权重系数和根据所述总查询矩阵和所述总关键字矩阵的转置矩阵之间的乘掩码矩阵和所述总数值矩阵确定对应子序列的根据所述总查询矩阵、预先配置的衰退率对角矩阵以及上一个子根据上一个子序列的前向中间状态和所述子序列对应的衰退率的转置矩阵与所述总数值矩阵的乘积值更新所述子序列的前根据所述卡内输出矩阵和所述卡间输出矩阵确定所述子序列对根据预先配置的分布式总卡数和序列并行尺度确定对应的序根据所述原始序列的序列总长度和所述序列并行尺度确定对应的子根据预先获取的全局设备索引列表和所述序列并行尺度确定序列并行起始设备索引按照所述子序列长度将所述原始序列拆分成对应的多个子序列;将所述子序列传输至所述并行起始设备索引列表中对应的第二处理将所述子序列从所述并行起始设备索引列表分散发送至各个序列并行通信组中所述将每个所述子序列对应的前向中间状态存储至所述第二处理设备的根据总输出矩阵梯度、总数值矩阵的转置矩阵、预先配置的掩码矩根据预先配置的衰退率集合、所述总输出矩阵梯度和上一个子序根据所述总输出矩阵梯度、总数值矩阵的转置矩阵、预先配3根据所述总查询矩阵、所述总关键字矩阵的转置矩阵、预先配根据接收到的下一个子序列的反向中间状态、预先配置的衰退子序列对应的衰退率以及所述总数值矩阵确定对应子序列的卡间关根据接收到的下一个子序列的反向中间状态、预先配置的衰退子序列对应的衰退率以及所述总关键字矩阵确定对应子序列的卡间根据所述卡内查询矩阵的梯度和所述卡间查询矩阵的梯度确定对应的总查询矩阵的根据所述卡内关键字矩阵的梯度和所述卡间关键字矩阵的梯度确定对应的总关键字根据所述卡内数值矩阵的梯度和所述卡间数值矩阵的梯度确定对应的总数值矩阵的根据下一个子序列的反向中间状态、预先配置的衰退率和衰退率集阵以及所述总输出矩阵梯度更新所述子序列分发模块,用于通过第一处理设备按照预先配置的数变换器上原始序列对应的多个子序列分发至对应的第第一确定模块,用于通过所述第二处理设备采用预先配置的第二确定模块,用于通过所述第二处理设备采用预先配置的总输出矩阵确定所述子序列对应的参数梯度,以根据所述参数梯度更新对应子序列的参第一确定单元,用于根据所述子序列以及对应的查询权第二确定单元,用于根据所述总查询矩阵和所述总关键第三确定单元,用于根据所述总查询矩阵、预先配置的衰退更新单元,用于根据上一个子序列的前向中间状态和所述子之间乘积值的转置矩阵与所述总数值矩阵的乘积值更新所述子序列的前第四确定单元,用于根据所述卡内输出矩阵和所述卡间输出4所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1_5中任一项所述的8.一种计算机可读存储介质,其特征在于,所述令,所述计算机指令用于使处理器执行时实现权利要求1_5中任一项所述的针对线性注意5[0001]本发明涉及人工智能技术领域,尤其涉及一种针对线性注意力的序列并行方法、有技术中采用单个设备对异常长的序列进行计算[0005]通过第一处理设备按照预先配置的数据分发策略将分布式环境中线性变换器上[0006]通过所述第二处理设备采用预先配置的前向传播方式确定所述子序列对应的前[0007]通过所述第二处理设备采用预先配置的反向传播方式和所述前向总输出矩阵确线性变换器上原始序列对应的多个子序列分发至对6[0016]应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范7[0030]在本发明中,提出了一种适用于线性Transformer的线性注意力序列并行(LASP)[0033]与序列长度无关的通信开销。的优雅通信机制利用线性[0035]与数据并行的兼容性。LASP与所有批级别的DDP方法兼容,例如PyTorch/[0036]在一实施例中,图1是本发明实施例提供的一种针对线性注意力的序列并行方法意力的序列并行装置来执行,该针对线性注意力的序列并行装置可以采用硬件和/或软件8所示的相邻两个GPU分别为Devicei和Devicei+1,每个Device包含线性注意力(LinearAttention)、激活函数(GLU)和两个归一化层(Norm),将两个子序列Xi和Xi+1分别分发至表了前向传播和反向传播中的共轭通信操作。在前向传播中,g是从设备i发送到(i+1)的前向传播和反向传播过程中交换前向中间状态KV和反向中间状态dKV,以确保序列并行的器上原始序列对应的多个子序列分发至对应[0041]其中,前向总输出矩阵可以理解为采用预先配置的前向传播方式生成的一个矩[0045]在一实施例中,图3是本发明实施例提供的另一种针对线性注意力的序列并行方9[0046]S210、根据预先配置的分布式总卡数和序列并行尺度确定对应的序列并行组数通信组内包含序列并行组数量等同。在实施例中,可以采用get_global_rank()函数获取序列并行起始设备索引构成对应的序列并行起始[0055]在实施例中,第一处理设备可以对多个原始序列进行拆并将一个原始序列对应的所有子序列传输至并行起始设备索引列表中对应的第二处理设个序列并行通信组中第二处理设备索引对应的第[0061]在实施例中,首先计算得到总查询矩阵和总关键字矩阵的转置矩阵之间的乘积态之间的乘积值确定对应子序列的卡间查询矩阵输出矩阵梯度确定对应子序列的卡内数值矩的矩阵乘积值结果的转置矩阵与总输出矩阵梯度进行相乘,即可得到对应子序列的卡内数值矩阵的梯λC[0078]S2170、根据卡内查询矩阵的梯度和卡间查询矩阵的梯度确定对应的总查询矩阵[0080]S2180、根据卡内关键字矩阵的梯度和卡间关键字矩阵的梯度确定对应的总关键[0082]S2190、根据卡内数值矩阵的梯度和卡间数值矩阵的梯度确定对应的总数值矩阵[0084]在一实施例中,采用预先配置的前向传播方式确定子序列对应的前向总输出矩免重新计算前向中间状态KV,可以选择在前向传播计算后立即将其存储在GPU的高带宽内Mij=0。t个子序列对应的卡内输出矩t表示第t个子序列对应的总查询矩阵;表示第t个t个子序列对应的卡间输出矩[0120]其中,Qt表示第t个子序列的总输出矩阵;Ot,intra表示第t个子序t,inter表示第t个子序列的卡内输出矩阵。t个子序列对应的前向中间t_1表示第t_1个子序列对应的前向中间状态;λC表示衰退率集合中的最后一个元V_t表示第t个子序列对应的总数值矩阵。tttt输入至GPU。Mij=0。示第t个子序列对应的卡间查询矩阵的梯度;dKt,intra表示第t个子序列对应的卡内关键字Kt)dKVt+1dkvr表示第t+1个子序列对应的反向中间状态的转置矩阵;dKVt+1表示第t+1个子序列对应的反向中间状Kt表示第t个子序列对应的总关键字矩阵[0144]S7120、计算intra和inter结果的和:dQt=dQt,intra+dQt,inter,dKt=dKt,intra+[0147]其中,dKVt=λCdKVt+1+(ΛQt)TdOt;dKVt表示第t个子序列对应的反向中间状态;并行化在每个Transformer层中的两个层归一化层之后使用了两次全聚合操作,并在注意力和前馈神经网络(FFN)层之后使用了一次减少一分散操作,这导致通信量为2BNd+4BNd/度N或子序列长度C的变化影响,这对于跨大型GPU集群的极长序列并行化是一个巨大的优Megatron_SP指的是Megatron_LMSequenceParalle将KV和dKV的更新融合到了内部块和跨[0159]作为重要的分布式训练技术,分片数据并行方法旨在减少大型模型训练期间的GPU内存使用。DeepSpeed中的ZeRO系列优化器和PyTorch中的FSDP提出了在分布式环境中[0161]在一实施例中,图8是本发明实施例提供的一种针对线性注意力的序列并行装置式环境中线性变换器上原始序列对应的多个子序列分发至[0163]第一确定模块820,用于通过第二处理设备采用预先配置的前向传播方式确定子[0164]第二确定模块830,用于通过第二处理设备采用预先配置的反向传播方式和前向[0174]第二确定单元,用于根据总查询矩阵和总关键字矩阵的值的转置矩阵与总数值矩阵的乘积值更新子序列的码矩阵以及总关键字矩阵确定对应子序列的卡内查询码矩阵以及总查询矩阵确定对应子序列的卡内关键字矩阵以及总输出矩阵梯度确定对应子序列的卡内数[0193]本发明实施例所提供的针对线性注意力的序列并行装置可执行本发明任意实施至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种如因特网的计算机网络和/或各种电信网络与其他设[0197]处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器[0200]用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合机器上执行且部分地在远程机器上执行或完全在远程机器或服务面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论