显卡工作流程.doc

上传人：q*** IP属地：河南上传时间：2020-02-02 格式：DOC 页数：4 大小：32KB 积分：12 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

显卡工作流程_第一章：第二代及以后的GPU工作流程简介简单（而不一定绝对科学）的说：GPU主要完成对3D图形的处理-图形的生成渲染。GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）1、顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Vertex Shader（定点着色器）完成。2、光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。3、纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texture mapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texture mapping unit）即是用来完成此项工作。4、像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）5、完成最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。第二章：DirectX8和DirectX9 GPU的传统流水线前面的工作流程其实已经说明了问题。本章来总结一下，承前启后。传统的GPU功能部件我们不妨将其分为顶点单元和像素流水线两部分顶点单元由数个硬件实现的Vertex Shader组成。传统的像素流水线由几组PSU(Pixel Shader Unit)+TMU+ROP组成。于是，传统的GPU由顶点单元生成多边形，并由像素流水线负责像素渲染和输出。对于像素流水线需要做的说明是：虽然传统的流水线被认为=1PSU+1TMU+1ROP，但这个比例不是恒定的，例如在RadeonX1000（不包括X1800）系列中被广为称道的3:1黄金架构，PSU:TMU:ROP的数量为3：1：1。一块典型的X1900显卡具有48个PSU，16个TMU和16个ROP。之所以采用这种设计方法，主要考虑到在当今的游戏中，像素指令数要远远大于纹理指令的数量。ATI凭借这个优秀的架构，成功击败了Geforce7，在DX9后期取得了3D效能上的领先。总结：传统的GPU由顶点单元生成多边形，像素流水线渲染像素并输出，一条像素流水线包含PSU，TMU，和ROP(有的资料中不包含ROP)，比例通常为1:1:1，但不固定。第三章：顶点和像素操作指令GPU通过执行相应的指令来完成对顶点和像素的操作熟悉OpenGL或Direct3D编程的人应该知道，像素通常使用RGB三原色和alpha值共4个通道（属性）来描述。而对于顶点，也通常使用XYZ和W 4个通道（属性）来描述。因而，通常执行一条顶点和像素指令需要完成4次计算，我们这里成这种指令为4D矢量指令（4维）。当然，并不是所有的指令都是4D指令，在实际处理中，还会出现大量的1D标量指令以及2D，3D指令。总结：由于定点和像素通常用4元组表示属性，因而顶点和像素操作通常是4D矢量操作，但也存在标量操作。第四章：传统GPU指令的执行传统的GPU基于SIMD的架构。SIMD即Single Instruction Multiple Data，单指令多数据。其实这很好理解，传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4D ALU。需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D 3D指令时效率则会高不少，例如如下指令：ADD R0.xyz , R0,R1/此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0ADD R3.x , R2,R3/此指令是将R2 R3矢量的w值相加结果赋值给R3对于传统的4D ALU，显然需要两个周期才能完成，第一个周期ALU利用率75% ，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。但当然，即使采用co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2D ALU一周期完成，而且同样，两条2D指令也不能被1D+3D ALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。总结：传统的GPU中定点和像素处理分别由VS和PS来完成，每个VS PS单元中通常有一个4D ALU，可以在一个周期完成4D矢量操作，但这种ALU对1D 2D 3D操作效率低下，为了弥补，DX9显卡中ALU常被设置为1D+3D 2D+2D等形式。第五章：统一渲染架构相对于DirectX 9来说，最新的DirectX 10最大的改进在于提出了统一渲染架构，即Unified Shader。传统的显卡GPU一直采用分离式架构，顶点处理和像素处理分别由Vertex Shader和Pixel Shader来完成，于是，当GPU核心设计完成时，PS和VS的数量便确定下来了。但是不同的游戏对于两者处理量需求是不同的，这种固定比例的PS VS设计显然不够灵活，为了解决这个问题，DirectX10规范中提出了了统一渲染架构。不论是顶点数据还是像素数据，他们在计算上都有很多共同点，例如通常情况下，他们都是4D矢量，而且在ALU中的计算都是没有分别的浮点运算。这些为统一渲染的实现提供了可能。在统一渲染架构中，PS单元和VS单元都被通用的US单元所取代，nVidia的实现中称其为streaming processer，即流处理器，这种US单元既可以处理顶点数据，又可以处理像素数据，因而GPU可以根据实际处理需求进行灵活的分配，这样便有效避免了传统分离式架构中VS和PS工作量不均的情况。总结：统一渲染架构使用US（通常为SP）单元取代了传统的固定数目的VS和PS单元，US既可以完成顶点操作，又可以完成像素操作，因而可以根据游戏需要灵活分配，从而提高了资源利用率。显示卡负责的的工作及其进行的程序究竟是怎样的呢? 我们必须了解，资料 (data) 一旦离开 CPU，必须通过 4 个步骤，最后才会到达显示屏: 1、从总线 (bus) 进入显卡芯片将 CPU 送来的资料送到显卡芯片里面进行处理。 (数位资料) 2、从 video chipset 进入 video RAM将芯片处理完的资料送到显存。 (数位资料) 3、从显存进入 Digital Analog Converter (= RAM DAC)，由显示显存读取出资料再送到

人人文库> 全部分类> 应用文书 > 产品手册

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

显卡工作流程.doc

文档简介

温馨提示

最新文档

评论

显卡工作流程.doc

文档简介

温馨提示

最新文档

评论

相关文档