CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-18 格式：DOCX 页数：69 大小：2.08MB 积分：9.6 举报 版权申诉

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）_第2页

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）_第3页

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）_第4页

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）_第5页

已阅读5页，还剩64页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请实施例提供了一种神经网络模型的对人工智能AI领域的神经网络进行模型训练的置使用多个加速器训练神经网络模型的并行处在每个加速器上再进一步根据不同的输入数据练装置中的多个加速器中通过分布式存储完整2存储部分权重系数，所述多个加速器各自存储的所述部分权重系数组成完整权重系将所述多个加速器中分别存储的所述部分权重系数进行汇聚以得到所述完整权重系根据输入数据和所述完整权重系数训练神经网络模型，其中，所利用所述目标梯度更新所述部分权重系数，存储优化器中部分初始变量，所述多个加速器各自存储的部分根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的目标加速器在根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求根据所述部分初始变量处理所述目标梯度的矢量表示和所述部将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操作进6.根据权利要求1至5任一项所述的训练装置，其特所述完整权重系数均分后一一分配至所述多个加速器7.根据权利要求1至5任一项所述的训练3将所述多个加速器中分别存储的所述部分权重系数通过集合通信方式中的收集操作8.根据权利要求2至5任一项所述的训练装置，其根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述目标9.根据权利要求3或4所述的训练装置，其特征在根据输入数据和完整权重系数计算梯度信息，其中，存储优化器中部分初始变量，所述多个加速器各自存储的部分根据所述部分初始变量处理所述目标梯度和部分权重系数以得到处理后的目标梯度，所述多个加速器各自处理的所述部分权重系数组成所述完根据所述处理后的目标梯度更新所述完整权重系数，并根据更新后个加速器在根据所述部分初始变量处理所述目标梯度和部分权重系数以得到处理后的目将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求根据所述部分初始变量处理所述目标梯度的矢量表示和所述部将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操作进根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述目标将所述完整初始变量均分后一一分配至所述多个加速4存储部分权重系数，所述多个加速器各自存储的所述部分权重系数组成完整权重系将所述多个加速器中分别存储的所述部分权重系数进行汇聚以得到所述完整权重系根据输入数据和所述完整权重系数训练神经网络模型，其中，所利用所述目标梯度更新所述部分权重系数，存储优化器中部分初始变量，所述多个加速器各自存储的部分根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的目标据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的目标梯度包将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求根据所述部分初始变量处理所述目标梯度的矢量表示和所述部标梯度的标量表示进行汇聚以得到所述目标梯度的求和将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操作进将所述完整权重系数均分后一一分配至所述多个加速将所述多个加速器中分别存储的所述部分权重系数通过集合通信方式中的收集操作5根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述目标完整初始变量均分后一一分配至所述多个加根据输入数据和完整权重系数计算梯度信息，其中，存储优化器中部分初始变量，所述多个加速器各自存储的部分根据所述部分初始变量处理所述目标梯度和部分权重系数以得到处理后的目标梯度，所述多个加速器各自处理的所述部分权重系数组成所述完根据所述处理后的目标梯度更新所述完整权重系数，并根据更新后据所述部分初始变量处理所述目标梯度和部分权重系数以得到处将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求根据所述部分初始变量处理所述目标梯度的矢量表示和所述部标梯度的标量表示进行汇聚以得到所述目标梯度的求和将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操作进根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述目标将所述完整初始变量均分后一一分配至所述多个加速存储单元，用于存储部分权重系数，所述多个加速器6汇聚单元，用于将所述多个加速器中分别存储的所存储单元，用于存储优化器中部分初始变量，所述多个加速器处理单元，用于根据所述部分初始变量处理所述目标梯度和部分权重更新单元，用于根据所述处理后的目标梯度更新所述完整权重7[0002]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控将该权重系数通过集合通信中的广播(broadcast)操作发送到各加速器上(1001)。一般从处理单元(neuralprocessingunit，NPU)或者张量处理单元(tensorprocessingunit，8器将该多个加速器中分别存储的该部分权重系数进行汇聚以得到该完整权重系数；此后，9练装置中的每个加速器在根据该部分初始变量处理该目标梯度和该部分权重系数以得到体用于将该多个加速器中的该目标梯度的标量表示通过集合通信方式中的减少操作在多个加速器中通过集合通信方式中的减少操作(allreduce)得到该目标梯度的求和结于将该多个加速器中分别存储的该部分权重系数通过集合通信方式中的收集(Allgather)中通过集合通信方式中的Allgather操作得到该完整权重系数，本实现方式提供了获取该的每个加速器可以在多个加速器中通过集合通信方式中的ReduceScatter操作计算得到目后的目标梯度的更新参数，并根据该处理后的目标梯度的更新参数实现对目标梯度的更后的目标梯度更新该完整权重系数，并根据更新后的完整权重系数训练该神经网络模型，练装置中的每个加速器在根据该部分初始变量处理该目标梯度和部分权重系数以得到处体用于将该多个加速器中的该目标梯度的标量表示通过集合通信方式中的减少操作进行通过集合通信方式中的减少操作(allreduce)得到该目标梯度的求和结果，本实现方式提可以在多个加速器中通过集合通信方式中的ReduceScatter操作计算得到目标梯度，本实的更新参数实现对初始变量的更新；和/或，每个加速器还用于获取该目标梯度的更新参中部分初始变量，该多个加速器各自存储的部分初始变量组成该优化器的完整初始变量，标梯度的标量表示通过集合通信方式中的减少操作进行汇聚以得到该目标梯度的求和结该部分权重系数通过集合通信方式中的收集操作进行汇聚以得到或，获取该初始变量的更新参数，并根据该初始变量的更新参数实现对初始变量的更新；和/或，获取该目标梯度的更新参数，并根据该目标梯度的更新参数实现对目标梯度的更种可能实现方式所带来的有益效果，均可以参考第一方面中各种可能的实现方式中的描标梯度的标量表示通过集合通信方式中的减少操作进行汇聚以得到该目标梯度的求和结或，获取该初始变量的更新参数，并根据该初始变量的更新参数实现对初始变量的更新；和/或，获取该目标梯度的更新参数，并根据该目标梯度的更新参数实现对目标梯度的更种可能实现方式所带来的有益效果，均可以参考第二方面中各种可能的实现方式中的描分初始变量组成该优化器的完整初始变量，该优化器用于更新神经网络模型的权重系数；[0048]本申请实施例第九方面提供一种存储一个或多个计算机执行指令的计算机可读[0055]图4为本申请实施例提供的神经网络模型训练过程中集合通信实现的一个示意[0056]图5为本申请实施例提供的神经网络模型训练过程中集合通信实现的另一个示意[0057]图6为本申请实施例提供的神经网络模型训练过程中集合通信实现的另一个示意[0058]图7为本申请实施例提供的神经网络模型训练过程中集合通信实现的另一个示意[0063]图12为本申请实施例提供的训练装置实现神经网络模型训练方法的另一个示意[0064]图13为本申请实施例提供的训练装置实现神经网络模型训练方法的另一个示意[0065]图14为本申请实施例提供的训练装置实现神经网络模型训练方法的另一个示意[0074]神经网络训练的示意图如图3所示。神经网络训练一般采用反向传播的方法进行[0077]集合通信提供了很多操作的应用编程接口(AppilicationProgramming生成目标模型/规则201，示例性地，当该目标模型/规则用于实现自然语言处理(natural[0083]深度神经网络中的每一层的工作可以用数学表达式来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objective执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210行的方式实现神经网络模型训练过程的系统架存储器322、总线323，以及n个加速器，其中，n个加速器包括加速器1(324)、加速器2[0095]具体地，如图1所示，该训练过程通过CPU100与多个加速器(加速器1、加速器[0097]2)在加速器1上初始化权重系数，并将该权重系数通过集合通信中的广播处理单元(neuralprocessingunit，NPU)或者张量处理单元(tensorprocessingunit，n个加速器中有n份初始变量需要保存，该初始变量一直存在于训练的过程中参与迭代运布式存储，在步骤1003中通过多个加速器之间的集合通信方式来实现完整权重系数的获过这两个方面的改进介绍本申请实施例中的一种神经网络模型络模型的训练过程中，训练装置中的多个加速器的处理能力一般是相同或者接近相同的，因此可以将完全权重系数根据多个加速器的数量均分，均分后一一分配至该多个加速器，器使用均分后的权重系数参与模型训练，使得训练装置中不同加速器的处理进度保持同加速器可以将该多个加速器中分别存储的该部分权重系数通过集合通信方式中的收集器可以在多个加速器中通过集合通信方式中的Allgather操作得到该完整权重系数，本实个加速器之间也可以通过与CPU之间的交互实现完整权重系数的获取，多个加速器之间也输出为梯度信息，此后可以使用该梯度信息更新各个加速器上所存储的权重系数(可以是步骤1101中的部分权重系数或者是步骤1102中得到的完整权重系数)，完成一次迭代训练[0123]本实施例中，在训练装置使用多个加速器训练神经网络模型的并行处理的过程[0125]请参阅图12，本申请实施例中一种神经网络模型的训练方法的另一个实施例包在多个加速器中通过集合通信方式中的ReduceScatter操作计算得到目标梯度，本实现方之间也可以通过与CPU之间的交互实现目标梯度的获取，多个加速器之间也可以通过其它理步骤1204中计算得到的目标梯度和步骤1201中所存储的部分权重系数以得到处理后的器在根据该部分初始变量处理该目标梯度和该部分权重系数以得到处理后的目标梯度时，矢量表示；再进一步根据该部分初始变量处理该目标梯度的矢量表示和该部分权重系数，[0147]示例性的，以图13所示Lars优化器中的数据结构为例，在计算Lars优化器中的根据该参数P_S以及Lars优化器中的其它第一初始变量处理该目标梯度的矢量表示，得到目标梯度的标量表示通过集合通信方式中的减少操作(Allreduce)进行汇聚以得到该目标器中通过集合通信方式中的减少操作(allreduce)得到该目标梯度的求和结果，本实现方除了使用集合通信方式实现之外，多个加速器之间也可以通过与CPU之间的交互实现目标部分权重系数，即在训练装置中的多个加速器中通过分布式存储优化器中的完整初始变部分权重系数的更新参数，并根据该部分权重系数的更新参数实现对部分权重系数的更[0153]以训练Bert和GPT-2网络为例，Bert网[0156]本实施例中，在训练装置使用多个加速器训练神经网络模型的并行处理的过程器中存储部分初始变量，每个加速器再使用目标梯度和部分权重系数作为优化器的输入，[0158]请参阅图14，本申请实施例中一种神经网络模型的训练方法的另一个实施例包在多个加速器中通过集合通信方式中的ReduceScatter操作计算得到目标梯度，本实现方之间也可以通过与CPU之间的交互实现目标梯度的获取，多个加速器之间也可以通过其它个加速器各自处理的部分权重系数组成步骤1401中的完整输出为梯度信息，此后可以使用该梯度信息更新各个加速器上所存储的权重系数(可以是步骤1401中的完整权重系数或者是步骤1404中得到的部分权重系数)，完成一次迭代训练[0174]此外，训练装置中的每个加速器还就可以进一步获取该完整权重系数的更新参用于获取该初始变量的更新参数，并根据该初始变量的更新参数实现对初始变量的更新；[0175]本实施例中，在训练装置使用多个加速器训练神经网络模型的并行处理的过程中，将神经网络模型中的优化器的完全初始变量分布式存储于训练装置中的多个加速器[0176]在图1至图14所对应的实施例的基础上，为了更好的实施本申请实施例的上述方[0177]具体请参阅图15，图15为本申请实施例提供的训练装置15[0188]根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的[0192]将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度[0196]将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操[0199]将所述多个加速器中分别存储的所述部分权重系数通过集合通信方式中的收集[0201]根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述[0204]具体请参阅图16，图16为本申请实施例提供的训练装置1600的另一种结构示意

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）

文档简介

温馨提示

最新文档

评论

CN113705801B 一种神经网络模型的训练装置、方法及相关设备 （华为技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113705801B 一种神经网络模型的训练装置、方法及相关设备（华为技术有限公司）