CN119416897A 一种提高深度算子网络模型推理求解和训练速度的方法 (中国石油大学(华东))_第1页
CN119416897A 一种提高深度算子网络模型推理求解和训练速度的方法 (中国石油大学(华东))_第2页
CN119416897A 一种提高深度算子网络模型推理求解和训练速度的方法 (中国石油大学(华东))_第3页
CN119416897A 一种提高深度算子网络模型推理求解和训练速度的方法 (中国石油大学(华东))_第4页
CN119416897A 一种提高深度算子网络模型推理求解和训练速度的方法 (中国石油大学(华东))_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种提高深度算子网络模型推理求解和训本发明属于人工智能及高性能计算技术领解和训练速度的方法。本发明针对PI_DeepONetDeepONet常用的模型尺寸范围内,SGEMM算子相较于CUDA计算平台的基础线性代数库中最好的对模型中使用的modifiedMLP的特殊结构设计融合算子,模型的端到端推理速度获得2倍以上的加速比,图形处理器计算时间最高可被缩短22.根据权利要求1所述的一种提高深度算子网络模型推理求解和训练速度的方法,其3.根据权利要求2所述的一种提高深度算子网络模型推理求解和训练速度的方法,其4.根据权利要求3所述的一种提高深度算子网络模型推理求解和训练速度的方法,其矩阵元素由共享内存中移动到对应线程的寄存器中,把A矩阵的tile由全局内存移动至共享内存时需要以转置后的顺序存入共享内存中,添加内存填充让同一线程束中每8个线程5.根据权利要求4所述的一种提高深度算子网络模型推理求解和训练速度的方法,其以减少寄存器的使用,将modifiedMLP的残差连接中的所有计算步骤与Linear_tanh算子阵元素,每个线程根据Linear_tanh输出结果的tile,使用向量化访存指令获取所需的数在融合算子的前向传播过程中添加额外的访存步骤,将tanh激3tanh激活函数的输出值,在反向传播过程中重新执行S矩阵乘法和激活函数的计算得到6.根据权利要求5所述的一种提高深度算子网络模型推理求解和训练速度的方法,其自己本地的模型参数和数据集子集独立地进行前向传播和反向传播的计算并得到本地梯模型并行中,完整的模型参数被划分给各个图形处理器,在训练过程将用于聚合梯度的全局规约分解为规约和广播,它们将分别与反向传4Dissanayake和PhanThien将偏微分方程的求解问题转化为无约束最小化问题,提出了使用神经网络求解偏微分方程的算法,并使用其算法求解了泊松方程和非线性热传导方程,种偏微分方程。fPINN结合了PINN和时间离散化技术用以求解时间分数阶偏微分方程。PPINN通过将一个长时问题分解为多个独立的短时问题来减小算法的训练代价并更高效地5类方法往往具有更好的泛化性。其中最具代表性的两个工作分别是LuLu等提出的深度算入时序网络结构来用于输入数据具有时序性的问题。GoswamiS等提出一种提高深度算子Wen等提出U_FNO用于多相流问题的求解。MeerMehranRashid等使用FNO来学习二维复合些领域的真实数据可能难以大量获取或者获取成本非常高昂,只有非常少量的标签数据,经网络的模型中加入偏微分方程的条件作为约束。PI_DeepONet是一种提高深度算子网络模型推理求解和训练速度的方法先进的用于求解偏微分方程的深度学习模型,PI_S3、设计分布式并行训练策略;通过将计算和通信的时间开销重叠,减少PI_61*n的B矩阵元素由共享内存中移动到对应线程的寄存器中,把A矩阵的tile由全局内存移动至共享内存时需要以转置后的顺序存入共享内存中,添加内存填充让同一线程束中每8个线程的访存位置落入不同的共享内存单元中,在数据由共享内存到寄存器的移动过程[0015]可选的,步骤S2中,将bias加法、tanh激活函数与SGEMM算子进行融合,获得实现tanh计算以减少寄存器的使用,将modifiedMLP的残差连接中的所有计算步骤与Linear_tanh算子融合,在这一步中会重新利用存储A矩阵元素和B矩阵元素的寄存器来存出tanh激活函数的输出值,在反向传播过程中重新执行S矩阵乘法和激活函数的计算得到进行神经网络模型的分布式训练时,每个图形处理器上都保存一份完整的网络模型参数,先利用自己本地的模型参数和数据集子集独立地进行前向传播和反向传播的计算并得到处理器只负责本地存储的部分网络模型的计算和参7算子1的实验中进行无偏差项加法矩阵乘法,(b)是矩阵乘法算子1的实验中进行有偏差项法算子2的实验中进行有偏差项加法的矩阵乘法,(e)是矩阵乘法算子3的实验中进行无偏算子1的实验中进行无偏差项加法矩阵乘法,(b)是矩阵乘法算子1的实验中进行有偏差项法算子2的实验中进行有偏差项加法矩阵乘法,(e)是矩阵乘法算子3的实验中进行无偏差8DeepONet类模型是基于chen等人证明的神经网络通用近似定理的算子形式构造设备利用自己本地的模型参数和数据完成训练过程中前向传播和反向传播的计算得到梯围绕优化环形all_reduce算法的通讯策略展开。当并行系统中的计算设备异构性较强时,用深度神经网络逐层计算的结构特点,将完整的网络模型逐层分配到不同的计算设备上,9PI_DeepONet神经网络模型将PINN类模型的物理信息约束思想与深度算子网络相[0028]为提高PI_DeepONet神经网络模型的训练和推理速度,本发明通过算子融合来减DeepONet类模型中的全连接层通常宽度较小,并在训练中使用较大的批次大小,矩阵块和B矩阵块放入共享内存中,可减少对全局内存的访问次数,但受限于共享内存大本发明使用双缓冲机制在一定程度上掩盖各级访存造成的延迟。在图形处理器骤二结束后才能执行步骤三。通过使用双倍的缓冲空间可以将三个步骤流水线化。具体来说,在第一次大循环开始前执行步骤一和步骤二,将第一次大循环所需数据预取放入共享内存,将第一次小循环所需数据预取放入寄存器中;之后每次大循环开始时预取下一次大循环所需数据,将全局内存的访存开销和后续所有小循环步骤重叠;每次小循环开始时预取下一次小循环所需数据放入寄存器中,将共享内存的访存开销和浮点数乘法累加指令重叠。[0036]tanh激活函数在反向传播求梯度的过程中需要用到激活函数在前向传播时计算函数的输出写回全局内存,但这会造成寄存器溢出和打破原算子中计算和访存的重叠状传播过程中重新执行SGEMM和激活函数的计算得到tanh激活函数的输出值用于为了能够高效地利用更多的计算设备进行训练并进一步缩短PI_DeepONet模型的式进行神经网络模型的分布式训练时,每个图形处理器上都保存一份完整的网络模型参首先利用自己本地的模型参数和数据集子集独立地进行前向传播和反向传播的计算并得DeepONet模型参数量较小,但在训练过程中通常需要使用很大的批次大小来保证训练效的方式进行PI_DeepONet模型的分布式训练时,各图形处理器之间只需要通信用于参数更被打包进网络层所在参数组的缓冲区中,当一个参数组中所有模型参数的梯度都收集完本部分介绍本发明所开展的实验和开展实验所使用的硬件配置,其中4.1中的实验用来测试定制SGEMM算子的性能,4.2中的实验测试定制SGEMM算子和算子融合策略为模型整体带来的推理速度提升,4.3中的实验测试了第4节中分布式数据并行策略的可扩展乘法进行对比;第二组是固定M的大小,在深度算子网络常用的尺寸范围内改变N和K的大和K的大小改变为128,使用算子3重复上述实验,实验结果如图7中的(e)和图7中的(f)所大小,对比算子1和对应尺寸上效率最高的CUDA计算平台的基础线性代数库单精度矩阵乘比算子2和对应尺寸上效率最高的单精度矩阵乘法,实验结果如图8中的(c)和图8中的(d)为了验证2.2中的策略对模型推理速度的提升,本发明使用modifiedMLP构建了去Tanh的)占比也高达41.5%。这些逐元素计算主要来自modifiedMLP特殊的残差[0049]本发明还统计了优化后的网络模型在推理过程中各种计算任务所消耗时间的比逐元素算子所带来的频繁的算子启动开销和访存开销连接网络、tanh激活函数和modifiedMLP的残差连接结构组成,本发明将批次大小固定在为了验证第3部分中策略的有效性,本发明继续使用4.2中构建的PI_DeepONet模CUDA计算平台的基础线性代数库中最好的单精度矩阵乘法实现,最高可取得约1.5倍的加

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论