显卡发展史__燕山大学郭培赞.ppt

上传人：米*** IP属地：江西上传时间：2019-11-30 格式：PPT 页数：42 大小：7.62MB 积分：20 举报 版权申诉

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

,显卡战争,燕山大学虚拟现实实验室：郭培赞,目录,工作原理,显卡处理图像数据的过程1、CPU显卡CPU将有关作图的指令和数据通过总线传送给显卡。对于现代显卡，由于需要传送大量的图像数据，因而显卡接口在不断改进，从最早的ISA接口到PCI、过去式的AGP接口，以及正在流行的PCI-Express接口，其数据吞吐能力不断增强。2、显卡内部图像处理GPU根据CPU的要求，完成图像处理过程，并将最终图像数据保存在显存中。3、最终图像输出对于普通显卡，RAMDAC即DigitalAnalogConverter（随机读写存储数模转换器）从显存中读取图像数据，转换成模拟信号传送给显示器。对于具有数字输出接口的显卡，则直接将数据传递给数字显示器。,返回目录,基本结构,每一块显示卡基本上都是由“显示主芯片GPU”，“显示缓存”（简称显存），“BIOS”，数字模拟转换器（RAMDAC），“显卡的接口”以及卡上的电容、电阻等组成。多功能显卡还配备了视频输出以及输入，供特殊需要。DVI,VGA.随著技术的发展，目前大多数显卡都将RAMDAC集成到了主芯片了。理论上，如果电脑配有两块具有双头输出功能且提供PCI-E接口的显卡，则它能够支持四台监视器。CRT需要接受模拟信号，LCD接受的则是数字信号,返回目录,基本结构,DisplayPort支持的宽带高达10.8GB/s，即使HDMI1.3也有一定差距。色深完全支持到了30及36位,已经到了肉眼无法识别的程度了。DisplayPort最大的特色是接口分为内置和外置两种。外置接口外型上很像USB接口，用于链接外部现实设备，而内置接口用于计算机内部空间有限的地方，比如笔记本和刀板显卡此外，DisplayPort还加入了DPCP版权保护系统，它采用了现代的128位AES加密技术。三星宣布了全球首款DisplayPort接口桌面液晶显示器，这款显示器应该说相当的“恐怖”，光屏幕足有30寸。,返回目录,HDMI接口（英文：HighDefinitionMultimediaInterface，HDMI）是一种专用型数字化接口，其可同时传送音频和视频信号。同时无需在信号传送前进行数/模或者模/数转换。HDMI可搭配宽带数字内容保护（HDCP），以防止具有著作权的影音内容遭到未经授权的复制。,基本结构,返回目录,API接口,OpenGLOpenGL是OpenGraphicsLibrary的缩写，是一套三维图形处理库，也是该领域的工业标准。SGI（SiliconGraphics）硅图（工作站生产商）在1992年7月发布1.0版，后成为工业标准，由成立于1992年的独立财团OpenGLArchitectureReviewBoard(ARB)控制。SGI等ARB成员以投票方式产生标准，并制成规范文档(Specification)公布，各软硬件厂商据此开发自己系统上的实现。只有通过了ARB规范全部测试的实现才能称为OpenGL。2011年8月9日在温哥华举行的SIGGRAPH2011大会上Khronos发布了新的OpenGL4.2标准细节,返回目录,API接口,返回目录,DirectXDirectX并不是一个单纯的图形API，它包含有DirectGraphics(Direct3D+DirectDraw)、DirectInput、DirectPlay、DirectSound、DirectShow、DirectSetup、DirectMediaObjects等多个组件，它提供了一整套的多媒体接口方案。最新版本为DirectX11。,API接口,DirectX7.0:最大的特色就是支持T&L，中文名称是“坐标转换和光源”。让显卡分担了部分CPU需要进行的工作。,返回目录,Geforce256代号NV10于1999年8月发布。这是图形芯片领域开天辟地的产品，也是第一款提出GPU概念的产品。,DX8,返回目录,DirectX8.0:引发了一场显卡革命，它首次引入了“像素渲染”概念，同时具备像素渲染引擎(PixelShader)与顶点渲染引擎(VertexShader)，反映在特效上就是动态光影效果。同硬件T&L仅仅实现的固定光影转换相比，VS和PS单元的灵活性更大，它使GPU真正成为了可编程的处理器。此时DirectX的权威地位终于建成。,DX8,顶点生成：位置、颜色、标准向量等顶点处理：确定3D图形的形状及位置关系，建立起3D图形的骨架。光栅化计算：点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。相应的片元集合也就随之产生。,顶点着色单元,像素渲染单元,纹理贴图单元,VertexShader顶点着色器,PixelShader像素渲染器,返回目录,Texturemappingunit纹理贴图单元,纹理帖图：完成对多边形表面的帖图。像素处理：（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在这个阶段PixelShader（像素着色器）从显存中读取纹理数据对片元上色并渲染。最终输出：由ROP（光栅化引擎）完成所有像素到帧缓冲区的输出，经过D/A转换输出到显示器之后，我们就可以看到绘制完成的图像。对于快节奏的游戏，电脑每秒钟必须执行此过程约60次。,返回目录,DX10,DirectX10.0:引入了统一渲染架构Unified-Shader,，也就是说现在每条渲染管线都由流处理器和纹理贴图单元组成，其中流处理器身兼顶点着色、像素着色和几何着色三职。ShaderModel4.0另一个重大变化就是在VS和PS之间引入了一个新的可编程图形层-几何渲染器(GeometryShader)。原来的VertexShader和PixelShader只是对逐个顶点或像素进行处理，而新的GeometryShader可以批量进行几何处理，而调配哪几组Shader单元负责处理什么数据或者进行什么样子类型的计算，则由一个被称为smallsetsofinstructions(SSI)的部分来控制。,返回目录,DX10,返回目录,图形流水线中可编程单元的行为由Shader单元定义，并可以由高级的Shading语言（例如NV的Cg，OpenGL的GLSL，Microsoft的HLSL）编写。Shader源码被译为字节码，然后在运行时由驱动程序将其转化为基于特定GPU的二进制程序，具备可移植性好等优势。,API接口,返回目录,DirectX11:引入最大新技术特征无疑是硬件Tessellation曲面细分，另外多线程渲染、ComputeShaders也是DirectX11中重要环节，引入ShaderModel5.0。,劳拉姐姐,前世今生,五、PCI-E显卡时代,性能指标,1显示芯片（制造工艺、核心频率、SP单元、渲染管线）2显存（显存类型、显存容量、显存带宽（显存等效工作频率显存位宽8）、显存速度、显存颗粒、最高分辩率、显存时钟周期、显存封装模式）3技术支持（ROPs数量*核心频率=像素填充率、纹理填充率、3DAPI、RAMDAC频率）4显卡PCB板：PCB层数、显卡接口、输出接口、散热装置）,返回目录,性能指标,显卡性能的一个很好的整体衡量标准是它的帧速。影响帧速的因素包括：每秒生成的三角形数或顶点数：说明了显卡能以多快的速度生成线框图像。像素填充速率：这项指标说明了GPU一秒钟内能处理多少个像素，从而也就说明了显卡能以多快的速度对图像进行光栅化处理。像素填充率显卡的显示核心频率X像素渲染管线数量。纹理填充率核心频率X像素渲染管线数量X每管线纹理贴图单元数量。,开发代号：显示芯片制造商可以利用一个基本开发代号在通过控制渲染管线数量、流处理器单元数量、显存类型、显存位宽、核心和显存频率、所支持的技术特性等方面来衍生出一系列的显示芯片,显存位宽是显存在一个时钟周期内所能传送数据的位数，位数越大则相同频率下所能传输的数据量越大。SDRAM在一个时钟周期内只传输一次数据，它是在时钟的上升期进行数据传输；而DDR内存则是一个时钟周期内传输两次数据,显存速度一般以ns（纳秒）为单位。常见的显存速度有1.2ns、1.0ns、0.8ns、0.4ns等。显存的理论工作频率计算公式是：等效工作频率（Hz）=n/（显存速度）（n因显存类型不同而不同，如果是GDDR3显存则n=2；GDDR5显存则n=4）习惯上称呼的DDR频率是其等效频率,返回目录,体系架构,GeForceGTX580是Fermi架构二代升级版本的GF110核心。其中G代表GPU，F代表Fermi架构。包括主接口（HostInterface）、GigaThread引擎、四组图形处理器集群（GPC）、六个64位GDDR5显存控制器、六个ROP分区、768KB二级缓存。每组SM内又包含32个流处理器（CUDA核心）32个流处理器构成一组SM(StreamingMultiprocessor),返回目录,体系架构,光栅引擎以流水线的方式执行边缘/三角形设定(Edge/TriangleSetup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作，每个时钟循环周期处理8个像素。GF100有四个光栅引擎，每组GPC分配一个，整个核心每周期可处理32个像素。RasterEngine是用于修正,而ROPs则是传统的运算.,多形体引擎则要负责顶点拾取(VertexFetch)、细分曲面(Tessellation)、视口转换(ViewportTransform)、属性设定(AttributeSetup)、流输出(StreamOutput)等五个方面的处理工作，DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。,返回目录,体系架构,返回目录,NVIDIA的线程粒度被称作Warp，一个Warp是32线程；而AMD的线程粒度称作wavefront，粒度是64线程。,每个CUDACore是一个统一的处理器核心，执行顶点，像素，几何和kernel函数。一个统一的768KB二级缓存架构负责线程加载、存储和纹理操作。每组SM里四个纹理单元，共享使用12KB一级纹理缓存，并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样，并支持DX11新的压缩纹理格式。,CUDA（ComputeUnifiedDeviceArchitecture，统一计算架构）是NVIDIA公司对于GPGPU（GeneralPurposeGPU），即通用计算图形处理器的正式名称。通过这个技术，用户首次可以利用GPU作为C-编译器的开发环境。CUDA架构可以兼容OpenCL或者自家的C-编译器。无论是CUDAC-语言或是OpenCL，指令最终都会被驱动程序转换成PTX代码，交由显示核心计算。要将GPGPU普及化，还要看微软能否在Windows操作系统中，提供相关的编程接口。DirectCompute是微软的通用计算API。CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动。,体系架构,返回目录,第一个问题：为什么需要GPU？CPU除了处理游戏的AI，情节等方面的数据外，对于有些图像方面也是由它完成的。当微软每次发布新的DirectX时，并不是每款GPU都能支持DirectX新的特性，所以有些图像方面的任务还得由CPU来完成。还有有些特性比如重力特性以前是由CPU来完成，现在有些GPU也能支持了，这些任务就由GPU来完成了。,第二个问题：GPU能否替代CPU？GPU相当于专用于图像处理的CPU，正因为它专，所以它强，在处理图像时它的工作效率远高于CPU，但是CPU是通用的数据处理器，在处理数值计算时是它的强项，它能完成的任务是GPU无法代替的，所以不能用GPU来代替CPU。,体系架构,返回目录,SIMD是SingleInstructionMultipleData的缩写，翻译过来的意思为单指令多数据流。其执行方法是让一个控制器对多个处理器进行控制，将一个指令下发到每个被控制的处理器上对不同数据进行相同的操作。这一技术在CPU以及GPU上都得到了应用，而其中GPU领域应用更为广泛（特指ATI方面）4D设计的SIMD单元只有一个指令端口，但却能同时吃进四个通道的数据流，这样就能够在一个周期内完成4D矢量指令的处理。SIMD单元能够有效提升GPU的矢量处理性能，但缺点是，SIMD在执行标量指令时效能较为低下，因为它只有一个指令端口，所以在面对标量指令时（即1D向量指令的时候），4DSIMD单元一个时钟周期只能允许一个标量进入，也只能处理一个标量，其效率就会下降到原来的1/4。,体系架构,返回目录,MIMD多指令多数据流在并行计算当中最为通用。让NVIDIA的每个流处理器仅处理一个1D指令，而如果遇到4D、3D、2D指令时，则将这些指令打散为多个1D指令，并且通过分配器将这些指令分配到每个流处理器当中。从理论上分析，流处理器的执行效率几乎达到了100%。负面效果就是“组长”这一职位过多（反映在显卡当中就会出现过多的分派单元，从而导致晶体管数量的增加）。并且由于组长数量过多，因此导致了组员数量的减少。NVIDIA显卡基本上都是以大核心甚至“巨核心”的形象出现在消费者面前。也就是从G80开始，NVIDIA彻底抛弃了传统显卡的SIMD架构，和ATI在显卡的技术发展思路上分道扬镳。,体系架构,返回目录,显卡分类,集成显卡的优点：是功耗低、发热量小集成显卡的缺点：性能相对略低，固化在主板或CPU上，大部分都集成在主板的北桥芯片中，本身无法更换，不能对显卡进行硬件升级，但可以通过CMOS调节频率或刷入新BIOS文件实现软件升级来挖掘显示芯片的潜能独立显卡的优点：单独安装有显存，一般不占用系统内存，在技术上也较集成显卡先进得多，比集成显卡能够得到更好的显示效果和性能，容易进行显卡的硬件升级。独立显卡的缺点：系统功耗有所加大，发热量也较大，需额外花费购买显卡的资金，同时（特别是对笔记本电脑）占用更多空间。核芯显卡的优点：SandyBridge是Intel新一代图形处理核心，相对于集成显卡，核芯显卡把集成显卡中的“处理器+南桥+北桥（图形核心+内存控制+显示输出）”三芯片解决方案精简为“处理器（处理核心+图形核心+内存控制）+主板芯片（显示输出）”的双芯片模式核芯显卡的缺点：配置核芯显卡的CPU通常价格较高，同时其难以胜任大型游戏。,NVIDIA(英伟达)Optimus(优驰)技术该技术可在NVIDIA(英伟达)显卡与Intel核心显卡之间自动切换，切换过程是无缝完成且在后台进行的，目的就是在实现强劲性能的同时达到超长电池续航时间。无论是欣赏电影、网上冲浪还是畅玩3D游戏，都能够享受到该技术所带来的好处。,返回目录,核显历程,Tick-Tock是Intel公司发展微处理器芯片设计制造业务的一种发展战略模式，在2007年正式提出。Intel指出，每一次处理器微架构的更新和每一次芯片制程的更新，它们的时机应该错开。“Tick-Tock”的名称源于时钟秒针行走时所发出的声响。Intel指，每一次“Tick”代表着一代微架构的处理器芯片制程的更新，意在处理器性能几近相同的情况下，缩小芯片面积、减小能耗和发热量；而每一次“Tock”代表着在上一次“Tick”的芯片制程的基础上，更新微处理器架构。一般一次“Tick-Tock”的周期为两年，“Tick”占一年，“Tock”占一年。,返回目录,核显历程,2010年1月份，Intel发布了全新的SandyBridge架构，从45nm进化到32nm,首次将GPU芯片跟CPU融合在一起，内置的图形核心则升级为HDGraphics2000/3000（Intel官方成为核芯显卡，简称核显），分别拥有6个、12个EU可编程着色器。独立动态加速TurboBoost技术可使显卡驱动会控制访问三级缓存的权限，甚至可以限制GPU使用多少缓存。如果软件需要更多CPU资源，那么CPU就会加速、GPU同时减速，反之亦然。它使能够根据工作负载，自动以适当速度开启全部核心，或者关闭部分限制核心、提高剩余核心的速度，2012年初，Intel核芯显卡在第三代酷睿处理器IvyBridge身上再度迎来蜕变，从32nm进化到22nm,EU可编程着色器将提升至16个，完整支持PCI-E3.0，集成显示核心再次升格为HDGraphics2500/4000，全面支持DirectX11、OpenGL3.1和OpenCL1.1。,QPI(QuickPathInterconnect)快速通道互联，取代前端总线(FSB)的一种点到点连接技术，20位宽的QPI连接其带宽可达惊人的每秒25.6GB，用于多处理器之间的互联。,返回目录,核显历程,PECI接口规格由Intel提出，作为新一代的数字接口，它是存在于处理器与其他芯片或系统稳定性监控设备之间的专用单线型总线。PCH(PlatformControllerHub)是一个intel公司的集成南桥（singlewirebus）,显卡分类,Tegra用于手持移动平台，GeForce用于提供家庭娱乐；Quadro用于专业绘图设计；Tesla用于大规模的并联电脑运算。,Radeon用于PC平台，FirePro用于专业绘图设计；Fusion是整合APU,返回目录,显卡分类,NVIDIAQuadroPlex1000,针对专业图形计算领域，NVIDIA将SLI甚至QuadSLI系统都转移到了这个机箱（称为图形子系统）之内，配上专用的电源和散热措施，通过专用的转接卡和高速线缆联接电脑主机，从而实现难以想象的图形计算能力！如果主机有两条PCI-EX16插槽的话，就能够接入两套QuadroPlex系统，最多实现8颗GPUSLI系统，依此类推！,返回目录,显卡分类,NVIDIATesla,返回目录,显卡分类,Tegra图睿是一种采用单片机系统设计（system-on-a-chip）芯片，它集成了ARM架构处理器和NVIDIA的Geforce，并内置了其它功能，产品主要面向小型设备。ARM公司本身并不靠自有的设计来制造或出售CPU，而是将处理ARM器架构授权给有兴趣的厂家。ARM提供了多样的授权条款，包括售价与散播性等项目。对于授权方来说，ARM提供了ARM内核的整合硬件叙述，包含完整的软件开发工具（编译器、debugger、SDK），以及针对内含ARMCPU硅芯片的销售权。,返回目录,显卡分类,将中央处理器和独显核心做在一个晶片上，它同时具有高性能处理器和最新独立显卡的处理性能，支持DX11游戏和最新应用的“加速运算”，大幅提升了电脑运行效率，实现了CPU与GPU真正的融合。2011年1月，AMD推出了一款革命性的产品AMDAPU，是AMDFusion技术的首款产品。2011年6月面向主流市场的LlanoAPU正式发布。第一步是物理整合过程（PhysicalIntegration)，利用高带宽的内部总线通讯，集成高性能的内存控制器，借助开放的软件系统促成异构计算。第二步称为平台优化（OptimizedPlatforms），CPU和GPU之间互连接口进一步增强，并且统一进行双向电源管理，GPU也支持高级编程语言，这部分才是最关键的。第三步是架构整合（ArchitecturalIntegration），实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、GPU硬件可调度、CPU/GPU/APU内存协同一致，这已在APU中初步完成。第四步是架构和系统整合(Architectural&OSIntegration），主要特点包括GPU计算环境切换、GPU图形优先计算、独立显卡的PCI-E协同、任务并行运行实时整合等等，这些需要和微软、ADOBE等行业软件巨头不停的沟通交流。,返回目录,显卡分类,华硕正在开发第二代XGStation，它将使用新一代PCI-E总线，确保外置显卡使用全速的PCI-EX16接口；另外还在外部提供了新标准的视频输入功能，让外置显卡处理过的3D图像能够显示在笔记本电脑的屏幕上！如此一来，华硕第二代XGStation将会是一款非常实用的产品，笔记本电脑用户想玩3D游戏的话，只要购买一块普通显卡，配合XGStation就能让3D

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

显卡发展史__燕山大学郭培赞.ppt

文档简介

温馨提示

最新文档

评论

显卡发展史__燕山大学郭培赞.ppt

文档简介

温馨提示

最新文档

评论

相关文档