CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）

上传人：1*** IP属地：山西上传时间：2026-07-01 格式：DOCX 页数：74 大小：2.95MB 积分：9.6 举报 版权申诉

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）_第2页

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）_第3页

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）_第4页

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）_第5页

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022.01.21201810425869.92018.05.07公开了用于执行矩阵乘积和累加(MMA)运算数据路径，其被配置为执行MMA运算以在数据路与在用于MMA运算的指令中指定的矩阵运算对象相关联的相应向量对的至少一个点积来生成结过将第一向量的每个元素与第二向量的对应元每个元素和第二向量的每个元素相关联的指数2缓冲区，用于存储由所述矩阵乘积和累加指令的运算对象指定的所述有符号矩阵数2.根据权利要求1所述的多线程处理器，其中所述有符号矩阵数据包括32位二进制补3.根据权利要求1所述的多线程处理器，其中所述有符号矩阵数据包括16位二进制补多个内核，用于执行矩阵乘积和累加矩阵乘积和累加311.根据权利要求10所述的单指令多数据多线程处理器，其中所述L1高速缓存包括至12.根据权利要求10所述的单指令多数据多线程处理器，其中所述存储器包括至少6413.根据权利要求10所述的单指令多数据多线程处理器，其中所述互连将所述一个或14.根据权利要求10所述的单指令多数据多线程处理器，其中所述调度器将所述矩阵乘积和累加指令分派到所述多个内核中的一个或更多15.根据权利要求10所述的单指令多数据多线程处理器，其中所述有符号矩阵数据包16.根据权利要求10所述的单指令多数据多线程处理器，其中所述有符号矩阵数据包18.根据权利要求17所述的计算机实现的方法，其中所述算术逻辑单元包括至少一个19.根据权利要求17所述的计算机实现的方法，其中所述有符号矩阵数据包括32位二20.根据权利要求17所述的计算机实现的方法，其中所述有符号矩阵数据包括16位二22.根据权利要求17所述的计算机实现的方法，还包括使用互连将所述多个部分积累4[0003]本申请要求于2017年5月8日提交的标题为“矩阵乘积累加运算的广义加速(GeneralizedAccelerationofMatrixMultiplyAccumulateOperations)”的美国临[0006]常规的处理器包括一个或更多个内核，其中每个内核可包括用于对整数和/或浮两个标量运算对象相乘，并将中间结果以及可选的第三标量运算对象添加到累加寄存器。矩阵乘积和累加(matrixmultiplyandaccumulate，MMA)运算是应用于矩阵运算对象的[0007]常规的处理器可以通过将MMA运算分解为一系列点积运算和加法运算来实现矩阵运算，并且每个点积运算可以进一步分解为对一对向量的相应元素的一系列FMA指令。然5在多个点积运算中被重新使用(例如，第一矩阵的相同行被用于生成与第二矩阵的多个列对应的多个点积)。如果每个基本算术运算都需要在执行算术运算之前将数据从寄存器文单个时钟周期(cycle)中多个运算对象可以从寄存器文件被加载到数据路径的输入)，通[0008]公开了一种用于执行矩阵乘积和累加(MMA)运算的方法、计算机可读介质和处理果矩阵的多个元素。通过计算与在用于MMA运算的指令中指定的矩阵运算对象相关联的相[0018]图9示出了根据一个实施例的包括被配置为实现矩阵运算的数据路径的处理器的[0024]图15示出了在其中可以实现各种先前实施例的各种架构和/或功能的示例性系6益于数据路径内的数据共享，该数据路径减小了寄存器文件与数据路径的输入之间的带[0027]图1示出了根据一个实施例的用于执行矩阵乘积和累加运算的方法100的流程令中指定的每个运算对象是具有行和列的二维阵列中[0028]在步骤104，将指令中指定的第一运算对象的至少两个向量和该指令中指定的第个触发器在数据路径的输入处临时存储用于MMA指令的运算对象的数据，使得多个运算对多个时钟周期内能够从数据文件读取数据路径所需的所有运7[0032]图2示出了根据一个实施例的并行处理单元(parallelprocessingunit，PPU)PPU200是设计为并行处理大量线程的潜在隐藏架构。线程(即，执行线程)是被配置为由PPU200执行的一组指令的实例。在一个实施例中，PPU200是图形处理单元(graphics备(诸如液晶显示(liquidcrystaldisplay，LCD)设备)上显示的二维(2D)图像数据的图200可以经由系统总线202连接到主机处理器或其他外围设备。PPU200还可以连接到包括[0034]I/O单元205被配置为通过系统总线202从主机处理器(未示出)发送和接收通信进行通信的外围组件互连高速(PeripheralComponentInterconnectExpress，PCIe)接主机接口单元210被配置为在PPU200的各种逻辑单元[0037]前端单元215耦合到调度器单元220，其配置各种GPC250以处理由一个或更多个8[0038]调度器单元220耦合到工作分配单元225，其被配置为分派在GPC250上执行的任作分配单元225为GPC250中的每一个管理待处理(pending)任务池和活动任务池。待处理动任务池可以包括多个时隙(例如，4个时隙)，用于GPC250正在有效处理的任务。当GPC等待数据依赖性被解决的同时，那么活动任务可能会被从GPC250中逐出并返回到待处理[0039]工作分配单元225经由XBar270与一个或更多个GPC250通信。XBar270是将PPU[0041]在一个实施例中，主机处理器执行实现应用程序编程接口(application理器上执行的一个或更多个应用程序能够调度在PPU200上执行的运算。应用程序可以生程序内核将任务输出到由PPU200处理的一个或更多个流。每个任务可以包括一个或更多[0042]图3A示出了根据一个实施例的图2的PPU200的GPC250。如图3A所示，每个GPC(workdistributioncrossbar，WDX)380、存储器管理单元(memorymanagementunit，会，图3A的GPC250可以包括代替图3A中所示的单元或除了图3A中所示的单元之外的其他管理器310可以配置一个或更多个TPC320中的至少一个来实现图形渲染流水线的至少一9340上执行顶点着色程序。流水线管理器310还可被配置为将从工作分配单元225接收的数栅引擎325中的固定功能硬件单元，而其他数据包可以被路由到TPC320以供图元引擎335[0044]PROP单元315被配置为将由光栅引擎325和TPC320生成的数据路由到分区单元[0045]光栅引擎325包括被配置为执行各种光栅操作的多个固定功能硬件单元。在一个[0046]包括在GPC250中的每个TPC320包括M管路控制器(M-PipeController，MPC)素的2D阵列)并对纹理映射进行采样以产生采样纹理值，以供由SM340执行的着色程序使元280包括光栅操作(ROP)单元350、二级(L2)高速缓存360、存储器接口370和L2交叉开关取存储器(graphicsdouble-data-rate,version5,synchronousdynamicrandom[0051]在一个实施例中，PPU200实现多级存储器分层结构。存储器204位于耦合到PPU200的SDRAM中的片外。来自存储器204的数据可以被获取并存储在位于芯片上并且在各个204相关联的L2高速缓存360的一部分。然后可以在GPC250内的各个单元中实现较低级高[0052]ROP单元350包括ROP管理器355、颜色ROP(CROP)单元352和ZROP(ZROP)单元35结合光栅引擎325实施深度测试。ZROP单元354从光栅引擎325的剔除引擎接收与像素片段相关联的采样位置的深度。ZROP单元354测试相对于深度缓冲区中与片段相关联的采样位并将深度测试的结果发送给光栅引擎325。ROP管理器355控制ROP单元350的操作。应当领元350生成的结果被路由到哪个GPC250。CROP单元352和ZROP单元354经由L2XBar365耦令高速缓存405、一个或更多个调度器单元410、寄存器文件420、一个或更多个处理内核更多个线程组(即，warp)的指令调度。调度器单元410调度用于在并行线程组中执行的线410可以管理多个不同的warp、调度warp以执行以及然后在每个时钟周期期间从多个不同[0056]每个SM340包括为SM340的功能单元提供一组寄存器的寄存器文件420。在一个术逻辑单元。在一个实施例中，浮点算术逻辑单元实现用于浮点算术的IEEE754-2008标共享存储器470或L1高速缓存490与寄存器文件420之间实现加载和存储操作的N个LSU网络480是交叉开关，其可被配置为将任何功能单元连接到寄存器文件420中的任何寄存L1高速缓存490位于从SM340到分区单元280的路径中。L1高速缓存490可用于高速缓存读的数据以及与图元的每个顶点相关联的属性。PPU200可以被配置为处理图元以生成帧缓[0064]应用程序将场景的模型数据(即，顶点和属性的集合)写入存储器(诸如系统存储据并将命令写入一个或更多个流以执行操作来处理模型数据。这些命令可以引用要在PPU线方式处理来自同一场景的不同数据，直到该场景的所有模型数据已经被渲染到帧缓冲200与一个或更多个其他逻辑单元(诸如精简指令集计算机(reducedinstructionset[0066]在一个实施例中，PPU200可被包括在图形卡上，其包括一个或更多个存储设备[0067]图5示出了根据一个实施例的包括图2的PPU200的片上系统(System-on-Chip，以通过由SoC500的多个组件共享的系统MMU590路由。SoC500还可包括耦合到一个或更形处理流水线600是被实现以从3D几何数据生成2D计算机生成图像的处理步骤的抽象流程理流水线600可以在先前附图和/或一个或更多个任何后续附图的功能和架构的上下文中制到存储器中的帧缓冲区或其他类型的表面数据据组装阶段610收集临时存储或队列中的顶点数据，诸如通过从主机处理器接收包括指向[0073]图元组装阶段630收集由顶点着色阶段620输出的顶点并且将顶点分组成几何图[0074]几何着色阶段640通过对几何图元执行一组操作(即，几何着色器或程序)来处理几何图元。曲面细分(tessellation)操作可以从每个几何图元生成一个或更多个几何图[0075]在一个实施例中，图形处理流水线600可以在流式多处理器和顶点着色阶段620、平截头体外的任何几何图元可以被裁剪(即，转换为被包围在观看平截头体内的新的几何化阶段660还可以计算多个像素的覆盖掩码，其指示像素的一个或更多个采样位置是否拦[0078]片段着色阶段670通过对片段中的每一个执行一组操作(即，片段着色器或程序)片段的内插纹理坐标执行照明操作或采样纹理映射。片段着色阶段670生成发送到光栅操[0079]在一个实施例中，片段着色阶段670可以使用PPU200的一个或更多个纹理单元硬件对纹理数据603进行采样。纹理单元345可以将采样值返回到片段着色阶段670以由片[0080]光栅操作阶段680可对像素数据执行各种操作，诸如执行阿尔法测试、模板测试(stenciltest)以及将像素数据与对应于与像素相关联的其他片段的其他像素数据混合。[0081]应当领会，除上述阶段中的一个或更多个以外或代替上述阶段中的一个或更多以从图形处理流水线中排除(诸如几何着色阶段640)。其他类型的图形处理流水线被认为是在本公开的范围内所预期的。此外，图形处理流水线600的任何阶段可以由图形处理器以由可编程硬件单元(诸如PPU200的SM34[0082]图形处理流水线600可以经由由主机处理器(诸如CPU550)执行的应用程序来实PPU200)来生成图形数据而不要求程序员利用PPU200的特定指令集。应用程序可以包括被路由到PPU200的设备驱动程序的API调用。设备驱动程序解释API调用并执行各种操作在其他情况下，设备驱动程序可以至少部分地通过利用CPU550和PPU200之间的输入/输出接口启动PPU200上的操作来执行操作。在一个实施例中，设备驱动程序被配置为利用[0083]可以在PPU200内执行各种程序以便实现图形处理流水线6设备驱动程序可以启动PPU200上的内核以在一个SM340(或多个SM340)上执行顶点着色阶段620。设备驱动程序(或由PPU200执行的初始内核)还可启动PPU200上的其他内核以形处理流水线600的阶段中的一些可以在固定单元硬件(诸如在PPU200内实现的光栅器或[0088]图7示出了根据一个实施例的MMA运算。MMA运算将输入矩阵A710与输入矩阵B大小不准确对齐的矩阵运算对象可以简化为使用数据路径的多数据路径被配置为在多个相似的向量单元上执行用于并行输入向量的多个元素的相同指运算对象的有效存储能够在与处理器的一个或更多个数据路径相关联的公共寄存器文件710和输入矩阵B720的元素可被编码为半精度浮点值，而收集器矩阵C730的元素可被编扩展为将收集器矩阵C730的元素存储为全精度浮点值，其将收集器矩阵C730的元素的初限存储来自收集器矩阵C730的四个4向量元素。每个象限可对应于收集器矩阵C730的多[0094]例如，如图7所示，收集器矩阵C0,0的第一个元素是输入矩阵A710的第矩阵C730的元素的64个点乘积运算中的每一个都是通过使用来自输入矩阵的不同向量对文件和数据路径的输入之间的带宽，那么上述的MMA运算便可以通过将来自两个输入矩阵上象限的前两行可由数据路径计算，所述数据路径被配置为接收输入矩阵A710的上面的向量集中的前两个向量以及输入矩阵B720的左边的向量集中的前四个向量作为输入，以过期间，利用来自输入矩阵A710的不同向量和来自输入矩阵B720的相同四个向量在2次量在多个点积运算中被重用。前半部分的第一个向量和行的后半部分的第二向量，并且输入矩阵B720的每一列可以被收集器矩阵C730的元素，其中输入矩阵A710的向量的前半部分和输入矩阵B720的向量的上半部分在第一指令周期期间被加载到数据路径的输入中，并且输入矩阵A710的向量的后半部分和输入矩阵B720的向量的下半部分以及在第一指令周期期间存储在收集器矩阵C730中的中间结果在第二指令周期期间被加载到数据路径的输入中。通过将输入矩阵的向量中的每一个分成多个部分，每个部分具有多个元素(其数量等于由数据路径实现的[0099]图8是根据一个实施例的点积运算的概念图。点积运算基本上将多个部分乘积相入向量A的第一元素A0812与来自输入向量B的对应元素B0814相乘以生成部分乘积A0B0826。和标量收集器值Cin820求和以生成结果值Cout832。结果值Cout832可以存储在用于标量收集器值Cin820的寄存器中并且可以被重新用于累加用于较长向量的多[0102]虽然点积运算可以在传统的FMA数据路径中实现，其中在数据路径的一次通过期[0103]图9示出了根据一个实施例的包括被配置为实现矩阵运算的数据路径930的处理理单元、精简指令集计算机(RISC)型处理器、专用集成电路(ASIC)、现场可编程门阵列的读取和写入端口，使得可以在任何给定的时钟周期中读取寄存器库910中的一个寄存器阵列的行和列中的多个元素，并且每个寄存器可以存储特定运算对象的一个或更多个元[0105]处理器900还包括耦合到一个或更多个数据路径的输入的多个运算对象收集器。何特定的时钟周期期间将数据加载到运算对象收集器920中，然后在任何后续时钟周期中置以及存储在触发器中的数据何时被传输到触发器的输出。这使得多个运算对象收集器920能够在多个时钟周期内从寄存器文件加载运算对象，然后在单个时钟周期期间将多个行运算所需的运算对象，其中运算对象可以在一个或更多个时钟周期内从寄存器文件910取端口可用。[0106]交叉开关915或其他类型的可切换互连可以耦合到寄存器库910的读取端口和运与包含在寄存器文件的单个寄存器中的64位相对应的64个互连进位信号(interconnects果数据路径需要与数据路径的输入耦合的三个运算对象收集器920，则每个运算对象收集置为将读取端口的64个互连上的64个信号路由到三个运算对象收集器92对象收集器920可以耦合到半精度矩阵乘积累加(HMMA)数据路径930以及双精度(64位)浮[0108]FP64数据路径940的输出耦合到结果队列950。结果队列950存储由FP64数据路径度浮点结果的64个触发器。结果队列950使得能够在等待写入端口的可用性以将值写回到都需要被写回到相同的寄存器库910，则可以在第一时钟周期期间将一个结果写入寄存器[0109]应当领会，结果队列950可以附加到包含在数据路径内部的不需要在执行多个指收集器920。HMMA数据路径930和FP64数据路径940可以被包括在处理器900的公共内核中，处理器900包括多个内核，每个内核包括一个FP64数据路径940和HMMA数据路径930以及可径930被配置为执行矩阵乘积和累加(MMA)运算。用于MMA运算的指令指定多个矩阵运算对[0111]在一个实施例中，多个运算对象收集器920包括用于指令中指定的第一运算对象量应该足以存储两个输入矩阵运算对象的至少六个向量(例如，最少六个64位运算对象收[0112]在一个实施例中，HMMA数据路径930还被配置为接收指令中指定的第三运算对象集器920存储输入矩阵A710的两个向量(例如，行)和输入矩阵B720的四个向量(例如，一运算对象的两个向量对应于输入矩阵A710的第一行和第二行，并且第二运算对象的四个向量对应于输入矩阵B720的第一行至第四行，则第三运算对象的元素的索引必须与输[0113]同样，HMMA数据路径930在HMMA数据路径930的输出处生成结果矩阵的多个元通过计算从矩阵运算对象中选择的相应向量对的至少一个点积来生成结果矩阵的多个元第一向量的每个元素与第二向量的对应元素相乘来生成多个部分乘积中的每个部分乘积。集器矩阵C730的全部部分乘积以及加数值(addendvalue)在多次通过中已经累加到内部450和互连网络480之间实现，其使得存储在结果队列950中的结果能够被写回寄存器文件程被配置为使用在指令中指定的用于MMA运算的运算对象的向量的不同组合来在特定内核自输入矩阵A710和输入矩阵B720的额外向量组合进行类算对象收集器920中，然后通过在内核450中对HMMA数据路径执行MMA运算来生成结果矩阵A710的前两个向量，而分配输入矩阵B720的不同的向量集。因此710的向量的运算对象收集器920可以在两个内核450之间共享，通过将这些运算对象收集量在第一线程和第二线程之间共享，并且因此输入矩阵A710的向量不需要在两个指令周[0119]图10示出了根据一个实施例的传统的双精度浮点FMA数据路径1000。传统的双精度浮点FMA数据路径1000示出了处理器900的FP64数据路径940的一个可能的实现方式。数相乘并将乘积与运算对象C相加。三个运算对象中的每一个都是双精度浮点值，用64位编来自B运算对象1004的尾数位相乘。在一个实施例中，乘法器1010可以是，例如华莱士树法器被设计用于64位浮点数，从而将两个52位尾数相乘加上一个隐藏位(对于归一化值)，[0121]并行地，来自A运算对象1012的指数位在加法器1020中被添加到来自B运算对象且可以在与通过华莱士树的简化层传播乘法器1010的结果以生成两个整数类似的时间内的运算对于本领域技术人员来说是很好理解的并且应该被认为是在数据路径1000的范围[0125]应当领会，每个单元1110用于将来自两个输入运算对象的两个半精度浮点值相元1110的每一个产生的部分乘积求和需要额外每个单元1110可以对标量半精度浮点值执行FMA运算，以分别在每个单元1110的各自输出第一模式中每个单元1110对向量输入并行地执行FMA运算，以及其中在第二模式中每个单1170。乘积对齐逻辑1130从每个单元1110接收由乘法器输出的用于单元1110的两个整数。得乘积对齐逻辑1130对由每个单元1110中的乘法器产生的部分乘积之一进行移位。同样，[0128]然后将经移位的部分乘积被传递给4:2CSA1142，其将四个整数值相加并成的，部分乘积的宽度也几乎与来自第三运算对象的单精度浮点加数的尾数的宽度相同。择逻辑1105在数据路径1100耦合到附加运算对象收集器920时使得MMA[0131]例如，耦合到数据路径1100的运算对象收集器920可以包括多个运算对象收集器920，其足以存储与输入矩阵A710相关联的至少两个输入向量和与输入矩阵B720相关联的至少两个输入向量加上与收集器运算对象C730的多个元素相关联的一个或更多多路复用器的两个或更多个输入之间切换多路复用器的第二次通过期间，选择第一输入向量和第二输入向量瓦,以及来自收集器矩阵C在收集器矩阵C中的点积结果是被编码为半精度浮点值还利用单元1110内的逻辑来执行与附加组合逻辑相同并且将该乘积与运算对象C相加。大单元1220类似于小单元1210之处在于大单元1220实现[0139]如图12所示，由小单元1210生成的部分乘积被输出到第一部分乘积解析器123器1232的输出和由大单元1220中的乘法器产生的第二部分乘积的两个整数中的第一个被交换器控制大单元1220是被配置为第一模式以生成标量FMA运算的结果还是大单元1220被器对传递到乘积对齐逻辑1240的两个整数中的任一个进行移位。当小单元1210和大单元[0141]然后将对齐的部分乘积传递给3:2CSA1250，其将两个部分乘积与来自第的至少两个向量和来自输入矩阵B720的至少两个向量以及来自收集器矩阵C730的不同[0144]在第一流水线阶段1301中，转换/编码逻辑1315接收两个输入向量的元素和收集被配置为将所有输入值转换为半精度浮点值格式以与数据路径1300的其[0145]在一个实施例中，转换/编码逻辑1315还可以包括修改的Booth编码器。修改的算法可以通过减少乘法器1310中的简化层(加法器)的数量来加速乘法器1310。应当领会，在一些实施例中，数据路径1100和1200也可以被修改以将转换/编码逻辑1315和被设计用一个实施例中，移位逻辑1330块被配置为截断对齐的部分乘积以便降低CSA树中的加法器在第三简化级别上的4:2CSA1344的输出生成用于与加数相加的两个向量的点积的进位值[0150]虽然没有明确示出，与选择逻辑1105和1205类似的选择逻辑可以耦合到转换/编对能够在数据路径的多次通过中被该逻辑的[0153]图14示出了根据一个实施例的、被配置为与图10的双精度浮点FMA数据路径共享1300，其中内核包括HMMA数据路径1300和双精度浮点FMA数据路径1000两者，双精度浮点FMA数据路径1000耦合到相同运算对象收集器920和结果位值和总和值)被路由到包括在FMA数据路径1000中的一对交换器。该对交换器使得FMA数据路径1000能够使用完成加法器对来自HMMA数据路径1300的点积值或来自FMA数据路径相关联的最大指数值也可以被发送到FMA数据路径1000中的交换器，使得归一化逻辑可以在由加法器1020产生的指数值和与由HMMA数据路径1300生成的点积相关联的最大值指数[0156]如前所述，可以设计各种数据路径以比在当前数据路径设计更高效地实现MMA运加载具有多个运算对象的运算对象收集器有关的所有运算，然后在数据路径上执行MMA运算以生成对应于结果矩阵的不同元素的多个点积值，然后将多个点积值写入寄存器文件。每个指令周期可以包括数据路径的多次通过以生成针对多次通过的不同向量对的组合的于MMA运算的指令可以在多个指令周期上实现

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）

文档简介

温馨提示

最新文档

评论

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质 （辉达公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113961872B 用于执行矩阵乘积和累加运算的方法、处理器和存储介质（辉达公司）