CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）

上传人：1*** IP属地：山西上传时间：2026-05-02 格式：DOCX 页数：82 大小：4.06MB 积分：9.6 举报 版权申诉

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）_第2页

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）_第3页

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）_第4页

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）_第5页

已阅读5页，还剩77页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2011.04.142017.10.052017.03.232014.05.012011.04.142017.10.052017.03.232014.05.01,,,,,,,有效访问存储器和避免不必要的计算的系一方面通过使用称为值局部性映射或脏图块映射(DTM)的预构造的粗粒度表示来避免对部分均的快速路径的决定是通过咨询这种粗粒度的脏2至少一个存储器，其存储(a)表示表面的图像元素值，以及处理器，所述处理器操作性地耦合到所述至少一个存储器，所述处理所述表面存储器压缩信息并使用读取的所述表面存储器压缩信息来构造所述表面的值局着色器，所述着色器操作性地耦合到所述至少一个存储器映射选择性地以不同的方式处理表示所述表面的不同的图像元素值以减少所述着色器处4.如权利要求1所述的系统，其中，所述值局部性映射(a似或相同的图像元素值，以及(b)提供与每种类型的值局部性和一个位模式相关联的至少述粗粒度的值局部性映射传达所述表面的粗粒度区域是否包含与一个或多个值相似或相且所述着色器被配置为响应于所述零带宽清除数据而选择性地处理所述着色器被配置为响应于所述减少压缩数据而选择性地处理图着色器被配置为响应于所述差分压缩而选择性地模式驱动器软件读取所述表面存储器压缩信息，以辅助构建所述表面的所述值局部性映3从至少一个存储器中读取表面存储器压缩信息，所述至少一个存储器存储(a)表示表面的图像元素值，以及(b)指示存储的表示所述表面的所述图像元素值的压缩状态的表面使用读取的所述表面存储器压缩信息来构造所述表面的值局所述表面的其他图像元素值相似或相同的图像元素值而激活的专用供至少一个位，所述至少一个位指示所述表面图块是否具有彼此相似或相同的图像元素供与每种类型的值局部性和一个位模式相关联的至少一个位模式值，以传达局部性的缺并且所述处理包括响应于所述零带宽清除数据而选择性地且所述处理包括响应所述减少压缩数据而选择性地处理述处理包括响应所述差分压缩而选择性地处理图45[0005]本技术涉及用于有效地处理表面(诸如纹理)以利用值局本文的技术涉及压缩表面的运行时检查，以及减少对存储器负载和/或计算的需要的专用[0006]对照片般逼真的实时渲染和增加显示分辨率的无止境追求意味着图形密集型应着技术扩展接近尾声，采用第一原理方法来提高GPU效率以发现满足现代图形应用需求的线)。用实时光线跟踪来生成阴影和/或反射的映射，然后着色器可以将其与从几何图形生成的[0011]图1A-1F示出了来自各种实际应用的具有高值局部性(在本文中也称为部分均匀6纹理)的示例纹理。这样的纹理可以是静态的或动态的，并且可以在运行时预先确定或生应用程序开发者预先确定并随应用程序一起提供[0013]作为非限制性示例，图2示出了静态(未在帧内生成)和动态(在帧内生成)纹理的总计数的标准化分解以及各种不同的应用的每个类别中的部分均匀纹理的比例。图2是通[0014]现代GPU的存储器系统已被设计为有效地操作用于图形应用，其中存储器访问模有效地压缩纹理并节省内存带宽(但是这些GPU不一定对这样的值局部性做很多其他事现代GPU通过压缩它们来识别和利用部分均匀纹理中的值局部性以节省内存带宽。参见例纹理像素具有相同的蓝色或黑色天空明暗度(shade))，则纹理压缩CODEC可以将指令一次7single-chip3DWorkstationGraphicsAccelerator)”，p123，ACM/SIGGRAPH/[0018]利用纹理和其他表面值局部性来减少或消除动态计算冗余(例如，通过计算值重[0021]图2示出了对于多个不同的示例应用静态和动态纹理中的部分均匀性的示例性非[0039]本文的示例性非限制性技术描述了利用表面/纹理值局部性来避免动态计算冗余8[0041]本文的示例非限制性技术可以应用于处理CPU和/或GPU上的任何压缩数据(图像、[0049]深度学习系统中的权重向量通常具有大多数权重为0。通过查询压缩信息并预先9中间层的输出(其可以被认为是特征组合的权重)也倾向于表现出部分均匀性并且该知识[0059]图3示出了用于避免动态计算冗余的示例非限制性系统20在着色器执行(212)中重构表达式。DTM和表达式重构的组合允许着色器使用/访问这样的[0062]响应于来自输入设备54的实时输入，执行一个或更多个着色器58的CPU和/或GPU56访问存储在DRAM62中的图形信息(例如几何和纹理阵列64)以生成用于在显示器60上显[0063]在所示的实施例中，图块纹理或其他表面64存储在DRAM62中，并且相应的DTM64'存储在与CPU和/或GPU56相同的芯片上的L2高速缓存存储器66中。在简单的情况下，DTM64'使用纹理或其他表面64的每个图块中的一个或少量位来表示或指示该纹理/表面2n-1个来传达图块具有的2n-1个唯一均匀值中的哪一个以及剩余的一位模式来传达其他[0065]DTM64'构造可以非常有效，使得避免存储器取出的收益远远超过DTM构造的成更快的替代方案是直接或间接地使用例如256B图块的存储器压缩状态(简称为压缩状态(compstatus))。压缩状态可以反映几种压缩模式中的一种。在一些示例非限制性实施例纹理64通常包括指示表面/纹理64中的每个图块的压缩状态的元数据(压缩状态信息)。在并基于观察到的均匀性和/或任何识别的兴趣值，使用专用执行路径编译着色器代码58指示均匀性和/或兴趣值(88)时，CPU/GPU58执行编译的着色器代码并调用一个或更多个[0070]因此，示例性非限制性技术可以通过检测和优化动态纹理中的值局部性来帮助的益处源于避免了TEX流量(减少存储器拥塞和提高有效L1高速缓存容量)以及启用代码专[0071]示例非限制性技术通过消除源自具有高的值局部性的纹理/表面的动态计算冗余化以及启用技术来读取存储器压缩状态以利用现代GPU中已经可用的存储器压缩信息，从选择性地避免存储器提取着色器程序中的部分均匀纹理并且反而使用专用于静态已知值因此需要在释放相关的高速缓存线之前将其写回主存储器中))。在诸如零带宽清除(ZBC)储器访问在某些上下文中是只读的，因为纹理映射通常不会改变纹理，因此纹理映射操作清除为均匀颜色后将写入纹理。当其纹素(通过任何机制)被发现为非相似或不相同时，一示的用于辅助快速和有效DTM构造的一个示例非限制性实施例涉及在DTM构造代码中使用vanilla存储器加载指令来直接从虚拟存储器系统(包括高速缓存和主存储器)或从专用硬件结构(系统可以选择在专用存储结构中保持或高速缓存压缩状态)读取图块的压缩状态。存储不能由用户模式驱动器(UMD)直接访问，可以使用简单的硬件增强以及适当增强的存现通过现代高性能GPU56上的概念验证软件实现，在一组现代图形应用程序中实现平均先构建的粗粒度表示来避免对部分均匀纹理的存储器[0077]2)用于通过用户模式驱动器(UMD)软件读取存储器压缩信息的方式，以辅助快速[0078]在以下描述中，第一部分以API不可知的方式提供关于3D图形编程的各种突出方[0080]在高级别，可以将在图3A系统上执行的类型的实时3D图形应用的帧(诸如虚拟现将这些应用程序视为API调用和着色器程序的两级层次结构非常有用。帧执行一个或更多[0081]绘制或分派调用消耗零个或多个输入纹理64并产生一个或更多个输出纹理或其64'。示出前景的驱动器管理的计算值重用(CVR)技术。它的工作原理是选择性地避免在着色器一些非限制性实施例中，通过咨询部分均匀纹理的粗粒度表示(称为脏图块映射(DTM)[0085]在一个示例非限制性实施例中，DTM64图块中的所有位置是否具有均匀值。DTM64'可以由软件(SW)根据其的2n-1个唯一均匀值中的哪一个以及剩余的一位模式来传达其他2n-1个值中没有一个适[0087]软件可以定义由单个DTM图块表示的纹素的数量以及用于表示DTM中的图块的位[0089]·每个图块DTM的多位-如果图块中的所有纹素的值等于最多2n-1个特定(全局)[0097]·将表面划分为尺寸合适的粗粒度图块(参见原始纹理的图6A和分割纹理的图[0098]·确定图块中的所有纹素是否具有给定的兴趣值(在图6B的[0101]在一些示例性实施例中，DTM64'可[0103]编译器和驱动程序软件一起工作以提供版本控制转换。在示例非限制性实施例储器访问。图5示出了如何使用图4BDTM在默认执行路径和更快的专用执行路径之间进行的成本。这样做的一个示例性非限制性方式是利用可能已经可用于表面/纹理图块的压缩[0112]读取区域中的每一个纹素以确定该区域中的所有纹素是否具有相同值是昂贵[0113]惯常的纹理压缩是用于减小存储在存储器中的纹理的大小的有价值的工具。例要离开芯片以创建DTM64'和/或以其他方式确定是否应该由默认执行路径或专用执行路径处理该图块-处理器可以在运行时通过检查其片上L2高速缓冲存储器的内容来确定。此为处理器仅在确定图块中的纹素都具有相同的预定已知值(例如，黑色)时才采用专用路[0115]在一个示例上下文中，惯常的软件和/或硬件存储器压缩可用并且部署在被优化宽并可选地节省存储器存储。一个示例非限制性实施例使用颜色和深度零带宽清除(ZBC)整个屏幕以将屏幕绘制为天蓝色(或者对于夜空来说是黑色)。然后，假设一个动态过程增别大多数图块或其他屏幕区域何时保持其初始化值，并使用专门的路径执行来避免花费处理时间和存储器访问来检索和处理冗余值的需要。[0118]图7示出了使用两个不同的示例均匀压缩模式的示例场景，其可以用于压缩具有是存储在DRAM224中的纹理232本身或任何更详细的压缩相关信息-至少在区域被标记为缩数据234的这种情况下，用于8：1减少图块的DTM64'结构也比简单地读取每个纹素快8[0126]许多表面被定义为可以不同地压缩的不同分辨率的多个n维阵列(数据矩阵)。在[0127]一个或更多个查询图块可以形成DTM图块，其状态将等于所有组成查询图块的“脏”状态的逻辑或。查询图块中的纹素数量将取决于纹素DTM图块的粒度由整体DTM尺寸预算和输入表面的大小确定。[0128]图8示出了每个DTM图块的查询图块的大小和数量如何可以根据每像素位而变高级别)DTM之外进行服务，则由于DTM查找而导致的动态工作字节集以及由此的运行时开着色器程序/过程在效率的潜在增加方面是感兴趣的，以及哪些局部化的纹素值是由处理个特定场景。分析可以考虑在特定系统上运行特定应用程序的单个用户和/或跨多个系统运行应用程序的多个用户，或者可以使用深度学习以各种不同方式执行应用程序和/或分识别特定纹理的最常见纹素值的信息。或者深度学习可以用于分析应用程序的所有表面/假设一个程序要对图6A/6B纹理的所有纹素进行以下操作，[0149]通过DTM64'对这种仅黑色区域的高级知识对存储器负载的需要以及对由负载本该已经检索的数据的任何相关计算。在其他情况下，[0156]图7A示出了来自应用程序的样本DirectX汇编代码片段，以说明着色器程序中的后修改Draw3()的着色器以查找A和B的DTM，并根据DTM查找的结果跳转到优化的快速路径[0170]代替或除了使用预先计算的DTM以避免冗余工作之外，利用值局部性的另一种方者的结果或重用领导者的结果以及少量额外的重构工作，具体取决于压缩模式(编译器为不同的压缩模式和重用可能性创建版本)。在非领导者线程中可以减少存储器提取和数学[0175]如果16个线程在该4×4矩阵上工作(每个块一个线程)，则仅4个线程计算唯一输别在4B元素阵列的两个相邻位置(分别为位置0和位置1)上运行。在不失一般性的情况下，达为领导者纹素的部分结果和静态可评估常量的突出显示在delta值上评估的f'()函数。速缓存线，ROP图块等)中的值均匀性并压缩(例如，使用缩减压缩)阴影映射以进行存储。程束中运行)读取先前存储的压缩状态值并发现对于阴影映射的多个图块的多个纹素压缩在处理的纹素值与领导者线程正在处理的纹素值之间的差异来计算结果差分(Δs)(差分结果基于在差分压缩映射或其他数据结构中提供的差分值来计算)。其他(跟随者)线程使用它们各自计算的Δs来校正由领导者线程发送的计算值。每个线程的计算由编译器在编版本可以针对未使用任一方法压缩的图块进行定[0232]图12A示出了在可能的情况下每单帧以及跨越多帧的采样中看到的唯一FP颜色值参见例如NVIDIAGeforceGTX1080(2016)。这意味着我们研究的帧中的所有值局部性理于主y轴绘制的性能加速是保守的，因为一个示例非限制性原型使用关于部分均匀性的知[0235]纹理访问的减少没有那么多的性能提升，因为帧的不同区域/绘制调用的性能倾[0239]在一个实施例中，PPU300被配置为接收指定用于处理图形数据的着色程序的命[0240]应用程序将场景的模型数据(例如，顶点和属性的集合)写入存储器(诸如系统存并将命令写入一个或更多个流以执行操作来处理模型数据。这些命令可以参考要在PPU的屏幕空间中的二维数据)以产生片段数据之后，SM的第二子集执行像素着色以产生经处理附图和/或一个或更多个任何后续附图的功能和架构的上下[0243]在一个实施例中，输入数据601包括命令，其配置处理单元以实现图形处理管线据组装阶段610收集临时存储或队列中的顶点数据，诸如通过从主机处理器接收包括指向点坐标或其他顶点属性执行操作。这些操作通常包括光照操作(例如，修改顶点的颜色属[0246]图元组装阶段630收集由顶点着色阶段620输出的顶点并且将顶点分组成几何图可以被重新用于连续几何图元(例如，三角形带中的两个连续三角形可以共享两个顶点)。[0247]几何着色阶段640通过对几何图元执行一组操作(例如，几何着色器或程序)来处元组装阶段630、几何着色阶段640、片段着色阶段670和/或与其相关联的硬件/软件内操化阶段660还可以计算多个像素的覆盖掩码，其指示像素的一个或更多个样本位置是否拦[0251]片段着色阶段670通过对片段中的每一个执行一组操作(即，片段着色器或程序)[0252]光栅操作阶段680可对像素数据执行各种操作，诸如执行阿尔法测试、模板测试(stenciltest)以及将像素数据与对应于与像素相关联的其他片段的其他像素数据混合。置引擎生成的平面方程生成像素片段的属性。光栅引擎的输出包括例如要由在DPC内实现[0253]应当领会，除上述阶段中的一个或更多个以外或代替上述阶段中的一个或更多图形处理管线中排除(诸如几何着色阶段640)。其他类型的图形处理管线被认为是在本公的一个或更多个专用硬件单元来实现。图形处理管线600的其他阶段可以由可编程硬件单程序的API调用。设备驱动程序解释API调用并执行各种操作以响应API调用。在一些情况序(或由PPU执行的初始内核)还可启动PPU上的其他内核以执行图形处理管线600的其他阶[0258]来自存储器62或其他系统存储器的数据可以由存储器分区单元取回并存储在L2括与对应的存储器设备相关联的L2高速缓存66的一部分。然后可以在GPC内的多个单元中段通过样本位置的深度测试，则ROP单元更新深度缓冲区并将深度测试的结果发送给光栅到每个GPC。ROP单元跟踪从不同GPC接收到的分组并且确定由ROP单元450生成的结果通过成由对角线存储的矩阵数据和/或从对角线存储的矩阵数据生成原始矩阵和/或转置矩阵。可以在共享存储器内部提供转置硬件以注册SM[0265]在一个示例中，由对角线存储的矩阵数据可以从DRAM获取并存储在共享存储器[0267]每个SM还包括N个LSU，其实现共享存储器/L1高速缓存和寄存器文件之间的加载置为将任何功能单元连接到寄存器文件中的任何寄存器，以及将LSU连接到寄存器文件和[0268]共享存储器/L1高速缓存是片上存储器阵列，其允许数据存储和SM与图元引擎之[0269]将数据高速缓存和共享存储器功能组合成单个存储器块为两种类型的存储器访器/L1高速缓存内的集成使共享存储器/L1高速缓存起到用于流式传输数据的高吞吐量管备62。图形卡可以被配置为与台式计算机的主板上的PCIe插槽接口。在又一个实施例中，PPU可以是包含在主板的芯片集中的集成图形处理单元(iG[0273]具有多个GPU和CPU的系统被用于各种

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）

文档简介

温馨提示

最新文档

评论

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法 （辉达公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN111986279B 有效访问存储器和避免不必要的计算的系统和方法（辉达公司）