CN119166159B 一种模型优化方法以及相关装置 (中昊芯英(杭州)科技有限公司)_第1页
CN119166159B 一种模型优化方法以及相关装置 (中昊芯英(杭州)科技有限公司)_第2页
CN119166159B 一种模型优化方法以及相关装置 (中昊芯英(杭州)科技有限公司)_第3页
CN119166159B 一种模型优化方法以及相关装置 (中昊芯英(杭州)科技有限公司)_第4页
CN119166159B 一种模型优化方法以及相关装置 (中昊芯英(杭州)科技有限公司)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模型中符合拆分条件的计算操作;拆分计算操多个子计算结果应用到目标模型的数据处理流执行神经网络模型中的计算操作,提高计算效2识别所述目标模型中符合拆分条件的计算操作;所述拆分条在所述目标模型载入硬件计算系统的过程中,将多个子计将多个子计算结果应用到所述目标模型的数据处其中,所述在所述目标模型载入硬件计算系统的过程中,将多个子获取多个子计算操作各自待配置的候选运算单元之间的第一数其中,所述在所述目标模型载入硬件计算系统的过程中,将多个子基于所述计算操作与所述目标模型中其他计算操作之间的数据交互获取所述目标模型中各个计算操作所属的计算类型、计算操作之间的数据交互关系、基于所述计算类型和/或所述数据交互关系,确定所述目标模型中符合所述拆分条件3.根据权利要求2所述的方法,其特征在于若所述目标模型为泛光大模型,则确定所述目标模型中确定所述目标模型中所述数据交互结构为矩阵乘法与激活函数拼接得到的计算操作,确定所述计算操作的候选拆分方式;所述候选拆分方式基于所基于所述计算操作与所述目标模型中其他计算操作之间的数据交互3获取所述目标模型中与所述计算操作关联的其他计算操作的操作关联的其他计算操作用于指示计算过程中应用到所述计算操作中部分计算结果或全以与所述计算操作关联的其他计算操作的数量,确定候选拆分方式对应的运算效率;获取所述目标模型中所述计算操作之后待执将多个第一子计算操作得到的多个子计算结果相加,以获将多个第二子计算操作得到的多个子计算结果拼接,以获若所述目标模型为泛光大模型,则拆分输入矩阵,并将拆分后的输4获取所述计算操作在各个候选拆分方式下对应基于存储空间占用率的排序关系,重新确定各个候选拆分方式对应的运算效率的数识别单元,被配置为识别所述目标模型中符合拆分条件的计算配置单元,被配置为在所述目标模型载入硬件计算系统的执行单元,被配置为通过目标运算单元执行各自对应的子计567[0038]下面结合附图对本申请实施例提供的模型优化方法以及相关装置进行说明。图1[0044]在本申请实施例中,硬件计算系统和运算单元是模型优化方法的关键组成部8如中央处理单元(CPU用于通用计算,适合处理复杂的逻辑和控制任务。图形处理单元9的正确性和完整性。当某个数据流需要其他数据流的计算结果时,系统会在特定点进行数据整合,将其他数据流的输出作为输入继续计算。例如,在深度学习模型的反向传播过程中,梯度的计算需要前向传播的中间结果,会在适当的时间点进行数据整合。会在关键点都完成了当前阶段的任务。这种同步机制可以是显式的等待操作,也可以是隐式的依赖关前计算或向后传播。整合后的计算结果作为输入数据传递给模型的下一层或下一个模块,继续进行后续的计算任务。例如,整合后的特征图或隐状态会被传递给模型的下一层进行进一步的计算。[0061]在步骤201中,首先需要收集和分析目标模型的相关信息。具体而言,计算类型操作之间的数据交互关系(DataInteractionRelationships分析计算操作之间的依赖作是否可以被拆分并在不同运算单元上并行执行。数据交互关系对于确保拆分后的子计算操作可以独立执行或有限度地并行执行至关重要。通过数据交互关系来分析计算操作之间称为大型预训练模型,如BERT、GPT等则确定目标模型中计算类型为矩阵乘法的计算操以下计算操作符合拆分条件:以矩阵乘法操作作为单独的子计算操作进行拆分和并行执[0082]在这个可选实施例中,步骤302通过分析与当前计算操作关联的其他计算操作的[0085]拆分方式的运算效率与关联计算操作数量成反比。关联的其他计算操作数量越[0091]在这个实施例中,在步骤302之后会额外评估存储空间占用率对候选拆分方式运[0093]对每种拆分方式的存储空间占用率进行排序,占用率越低的拆分方式优先级越[0104]对于一个大规模矩阵乘法操作Y=WcdotX,拆分为多个子计算操作Yi=Wi[0122]在神经网络的训练过程中,特别是在如Transformer等使用GeLU激活函数的模型确保计算结果能够正确地整合到模型的整体数据处理流程中。这种方式提高了计算效率,计算和减少聚合次数的原则。[0156]在多层感知机模块中首先需要输入矩阵X和矩阵A进行矩阵乘法,这里对矩阵A进的数据所以需要先进行聚合。这里对于拆分方式的选择以及对后续的影响不太容易说明[0159]在图2中可以看出左右拆分计算后得到的仍然是最终的结果,或者说每个运算单[0160]矩阵乘法大部分情况下,在权重拆分方式上应该是左右拆分方式的计算效率更法就可以将权重矩阵按行进行拆分,这样就可以直接使用前面得到的部分结果参与计算,而不需要额外的通信开销。后仅在需要同步的时候将数据聚合在一起。参见图3和图4所示,泛光大模型中自注意力(Self_Attention)模块采用的是多头注意(Multi_HeadAttention)机制,多头注意力[0166]图5为本申请实施例提供的模型优化装置的结构框图,该装置应用于部署有目标[0174]基于所述计算类型和/或所述数据交互关系,确定所述目标模型中符合所述拆分[0177]确定所述目标模型中所述数据交互结构为矩阵乘法与激活函数拼接得到的计算计算操作关联的其他计算操作用于指示计算过程中应用到所述计算操作中部分计算结果[0187]以所述计算操作之后待执行的数据聚合次数,确定候选拆分方式对应的运算效[0205]以所述第一数据传输效率与所述第二数据传输效率的最优解对应的候选运算单间的通信;存储器402用于存放计算机程序;处理器401用于执行存储器402中所存放的程[0210]在本申请实施例中,通信总线404可以是外设部件互连标准(Peripheral[0212]处理器401可以是通用处理器,包括中央处理器(CentralProcessingUnit,算机程序被执行时能够实现上述方法实施例中可由电子[0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论