革命性DX11架构!GTX480470权威评测

2010-04-15 20:06  出处:PConline原创  作者:后天太阳   责任编辑:chenri 

第五章 Fermi计算架构解析

第五章/第一节 Fermi计算架构解析:GPU并行计算的历史

    自从NVIDIA于1999年发布第一颗GPU(GeForce 256)开始,GPU就已经与并行计算结下了不解之缘,GPU被扩展成为可进行浮点运算的可编程处理器,而不仅仅是图形处理器。GPU无论计算能力还是内存带宽都要远胜于CPU,其性能不应该被限制在游戏和3D渲染之中。

  针对非图形应用程序的GPU编程的探索始于2003年。通过使用高级绘制语言如DirectX、OpenGL和Cg,将多种数据平行算法导入GPU。诸如蛋白质折叠、股票期权定价、SQL查询及MRI重建等问题都能通过GPU获得非凡的加速表现。早期将图形API用于通用计算的努力被称之为GPGPU(GPU通用计算)。

  虽然GPGPU模型展现了不俗的加速性能,但仍然有不少缺陷:

  首先,它要求程序员全面掌握与图形API以及GPU架构相关的知识;
  其次,问题必须以顶点坐标、纹理及着色器程序的形式表达出来,这就大大增加了程序的复杂程度;
  第三,不支持基础的编程特性如面向内存的随机读写,极大地限制了编程模型;
  最后,缺乏双精度支持(直到最近才具备这一特性)意味着有些科学应用程序将不能在GPU上运行。

  为了解决这些问题,NVIDIA采用了两种关键技术——G80统一图形及计算架构和CUDA。CUDA是一种软硬件架构,可以使用多种高级编程语言来针对GPU进行编程。这两种技术代表着一种新的应用GPU的方式。跟以前通过编程将专门的图形单元同图形API结合到一起不同,程序员可以利用CUDA的扩展来编写C语言程序,并面向一个通用的平行处理器。NVIDIA将这种新的GPU编程方式称为“GPU计算”,它意味着更广泛的应用程序支持、更多编程语言的支持以及同早期GPGPU编程模型的彻底分离。

  第一款支持C语言的GPU,它让程序员可以利用GPU的运算能力而无需掌握一门新的编程语言;

  第一款以单一的非统一的处理器取代分离式顶点及像素管线的GPU,这种处理器可以执行顶点、几何、像素及计算程序;

  第一款利用标量线程处理器的GPU,从而使得程序员无需手工操控向量寄存器。

  G80还采用了单指令、多线程(SIMT)的执行模型,多个独立线程同时执行单个指令,并针对线程间通信采用了共用存储器和障栅同步。

  之后NVIDIA又对G80架构进行了重大改进,第二代统一架构GT200将流处理器的数量从128增加到了240个。每一个处理器的寄存器数量增倍,使得任何时候都可以在芯片上处理更多的线程。采用了硬件存储器存取合并技术以提高存储器存取的效率。此外,还采用了双精度浮点运算支持以满足那些科学及高性能计算(HPC)应用程序的需求。

  在设计每款新一代GPU时,都必须遵循这样的原则——提高当前应用程序的性能及GPU的可编程性。应用程序的速度提高会立竿见影地带来诸多好处。正是GPU在可编程性方面的不断进步才使得它演变成为当前最通用的并行处理器。也正是基于这样的理念,GT200架构的继任者又被赋予了更多新的功能。

第五章/第二节 Fermi计算架构:完全按照客户需求设计

  在竞争对手还在游戏性能方面苦苦追赶之时,高瞻远瞩的NVIDIA已经在朝着更高的目标迈进了。3D和游戏当然是一个重要方面,是GPU的老本行,而并行计算则是GPU的未来,两者不但不冲突而且是相辅相成的,NVIDIA的目的是游戏和计算两手抓、两手都要硬。

  在前文中笔者提到过,GF100是近年来GPU架构变化最大的一次,它不仅仅体现在图形架构方面,其实他在并行计算架构方面的改进更彻底,现在要讲的才是Fermi架构的精华部分。

  G80是统一图形及并行计算的雏形,而GT200是对G80在性能及功能性方面的扩展。而对于Fermi,NVIDIA利用了从之前两款处理器以及为它们所编写的应用程序所获得的经验,并采用了一种全新的方法而设计和创建了世界上第一款计算GPU。在为Fermi的研发开展准备工作时,NVIDIA听取了自推出G80和GT200以来大量从事GPU计算的用户的反馈,并将以下关键领域作为改进的重点:

1. 提高双精度浮点运算的性能——高性能计算与科学计算很少用到单精度。

2. ECC支持——ECC使得GPU计算用户在数据中心中可放心地部署大量的GPU,并确保数据敏感型应用程序如医学影像及财务期权定价等不出现内存错误。

3. 真正的缓存层次——有些并行算法无法使用GPU的共用存储器,用户需要一个真正的缓存架构以提供帮助。

4. 更大的共用存储空间——许多CUDA程序员需要超过16KB的共用存储器来实现应用程序的加速。

5. 更快速的情境转换——用户需要在应用程序之间实现更快速的情境转换,以及图形与计算应用之间更快的互操作。

6. 更快速的原子操作——用户需要为他们的并行算法实现更快速的“读-修改-写”原子操作。

  针对以上的这些需求,Fermi工作小组设计了一款处理器,总计算能力得到了很大的提升,通过架构上的创新还大大增加了可编程性以及计算效率。Fermi在架构上的亮点体现在:

● 第三代流处理器簇(SM)

每个SM有32个CUDA核,是GT200的4倍
双精度浮点运算的峰值性能是GT200的8倍
双Warp调度器同时调度和分配来自两个不同warp的指令
64KB的RAM,可配置为共享缓存+L1缓存

● 第二代并行线程执行ISA

统一寻址空间,提供完全的C++支持
针对OpenCL和DirectCompute做优化处理
完全的IEEE 754-2008 32-bit/64-bit精度支持
完全的32-bit整数路径,64-bit扩展
内存存取指令支持向64-bit寻址的转换
通过Predication提升性能

● 改进的内存子系统

并行DataCacheTM 层次,拥有可配置的L1和统一的L2缓存
第一款提供ECC内存支持的GPU
显著提升原子内存操作性能

● NVIDIA TM引擎

应用程序情境切换性能10倍于上代产品
同时执行多个核心程序
线程块乱序执行
双重叠式内存传输引擎

第五章/第三节 Fermi计算架构:恐怖的双精度性能

  Fermi是NVIDIA新一代图形架构的开发代号,包括GeForce、Quadro、Tesla在内的三种产品都将基于Fermi架构设计;GF100是该架构第一颗GPU的核心代号;GTX400系列则是NVIDIA第一代DX11显卡,GTX480和GTX470是该系列基于GF100核心的高端显卡产品。基于Fermi架构的计算处理器则被称为Tesla C2050/C2070。

  第一款基于Fermi架构的GPU就是GF100,不管是民用级的GeForce还是专业级的Tesla,其GPU核心及架构是完全相同的。此前已经详细介绍了它的图形架构,此处着重介绍并行计算方面的内容。

  首先我们来看看Fermi的计算架构与图形架构有何不同呢?原来对于图形架构最重要的光栅化引擎与多形体引擎都不见了,GF100的四块GPC也不再区分,剩下的只有SM、CUDA核心还有缓存。

  Fermi的16个SM分布在通用L2缓存的周围。每个SM都是一个垂直的矩形条,包含一块橘色区域(调度和分配)、一块绿色区域(执行单元)和一块淡蓝色区域(寄存器和L1缓存)。

  Fermi的流处理器簇已经是第三代了,其改进其实之前在图形架构部分也介绍过,因为这些对于图形渲染或多或少还是有点用的,当然对于科学计算来说简直是革命性的:

  首先CUDA内核中的FPU采用了最新的IEEE 754-2008浮点标准,为单精度和双精度算法都提供了FMA指令,FMA在做乘法和加法运算的时候只在最后作一次舍入,不会在执行加法的时候就出现精度损失,FMA的精度比把操作分开执行时更高。

  其次,NVIDIA上代的GT200和对手最新的RV870在执行整数型加、乘指令时仅支持24bit精度,因此整数算法需要多指令的模拟序列。而对于Fermi,全新设计的整数ALU支持32位精度,面向所有符合标准编程语言要求的指令。同时,还对该整数ALU进行了优化,使其有效地支持64位及扩展的精度操作。它支持各种指令,包括Boolean(布尔)、shift(位移)、move(数据传输或赋值)、compare(比较)、convert(转换)、bit-field extract(位平面提取)、bit-reverse insert(位反转插入)和population count(计数)。

  最最重要的一点,Fermi的双精度运算能力达到了单精度的一半,而上代GT200的双精度能力只有单精度的1/8,对手的RV870是1/5,显而易见此次双精度运算能力的提升是革命性的。

    此外,Fermi架构中的双Warp调度器是完全独立的,无需对指令流内的相依性进行检测,在这种双指令发射模型下,Fermi的硬件性能非常接近与理论峰值。

第五章/第四节 Fermi计算架构:首次支持C++

  Fermi是第一个支持新并行线程执行(PTX)2.0指令集的体系结构。PTX是级别较低的虚拟机和ISA,目的是为了支持并行线程处理器的运作。在程序安装的时候,PTX指令会被GPU驱动转译成机器代码。

    PTX的主要目标包括:

1. 提供一个能跨越数代GPU的稳定ISA
2. 让经过编译的应用程序充分利用GPU的性能
3. 提供一个支持 C、C++、Fortran以及其他编译器对象并且与机器无关的ISA
4. 为应用程序和中间件开发者提供一个代码分发ISA
5. 为优化映射PTX 代码至对象机器的代码产生器和转移器提供一个一般化的ISA
6. 让库以及性能核心程序(performance kernel)代码编写更容易
7. 提供一个可以跨越GPU内核规模(从几个到多个)的可伸缩编程模型

    PTX2.0具备许多新的特性,大大提升了GPU(图形处理器)的可编程性、精度及性能。这些特性包括:完全的IEEE 32位浮点精度;所有变量和指针都有统一的寻址空间;64位寻址;以及针对OpenCL和DirectCompute的新指令。尤为重要的是,PTX2.0完全支持C++编程语言。

● 统一寻址空间实现完全的C++支持

  Fermi和PTX 2.0 ISA采用统一的寻址空间,将存取操作的三个不同的寻址空间(线程的私有局部空间、线程块的共用空间、全局空间)进行了统一。在PTX 1.0中,存取指令都具体对应这三个寻址空间中的一个,程序就可以在一个编译时确知的指定寻址空间中存取数值。这样很难为C和C++指针提供完全的支持,因为一个指针的目标寻址空间在编译时可能根本无从知晓而只有在运行时才能动态确定。

    PTX 2.0把三个寻址空间都统一为一个单独、连续的寻址空间,因此只需一套存取指令,而不再需要三套针对不同寻址空间(局部的、共用的及全局存储器)的存取指令。统一寻址空间为40位,可以支持1 Terabyte的可设定地址的内存,而存取ISA支持64位以适应未来的增长。

  采用统一的寻址空间让Fermi可以真正支持C++程序。在C++中,所有的变量和函数都存在于对象中,而对象又通过指针进行传递。有了PTX 2.0,就可以利用统一的指针传递任意存储空间里的对象。Fermi的硬件地址转译单元自动将指针参考映射到正确的存储空间。

    Fermi和PTX 2.0 ISA还支持C++虚拟函数、函数指针、针对动态对象分配、解除分配的“new”和“delete”操作以及针对异常处理的“try”和“catch” 操作。

● 针对OpenCL和DirectCompute的优化

    OpenCL及DirectCompute同CUDA的编程模型有非常密切的对应关系,CUDA里的线程、线程块、线程块格、障栅同步、共用存储器、全局存储器以及原子操作都能在OpenCL和DirectCompute中看到,可以说OpenCL和DirectCompute的整个框架就是照搬CUDA的,因此基于CUDA的Fermi天生就已经为OpenCL和DirectCompute提供了优化。

    此外,Fermi还为OpenCL和DirectCompute的表面(surface)格式转换指令提供了硬件支持,允许图形与计算程序能简单地对相同的数据进行操作。PTX 2.0 ISA还为DirectCompute提供了population count、append以及bit-reverse 指令的支持。

第五章/第五节 Fermi计算架构:首次支持显存ECC

    NVIDIA在与程序员的沟通与反馈中发现,虽然共享内存能够惠及许多问题,但它并不能够用于解决所有问题。一些算法会自然而言地关联到共享内存,另一些则要求高速缓存,还有一些要求二者的组合。最佳的内存层级结构应能够同时为共享内存和高速缓存带来优势,同时让编程人员可以选择在二者之上进行设计。Fermi内存层级结构支持两种类型的程序行为。

  为加载/存储操作添加一个真正的高速缓存层级结构会带来严峻挑战。传统的GPU架构为纹理操作提供了只读“加载”路径,同时为像素数据输出提供了只写“输出”路径。然而,这一方法在执行要求同时进行读写的通用C或C++线程程序时表现非常不佳。例如,向内存发起一个寄存瀑然后再读回会形成写后读威胁。如果读和写路径不同,可能会直接覆盖掉整个写/“导出”路径,而无法正确发起读操作,从而使得读路径上的任意高速缓存不能与写数据保持一致。

  Fermi通过为加载和存储提供单个统一的内存请求路径解决了这一挑战,这一方法为每一个SM多处理器提供一个一级高速缓存,同时设置统一的二级高速缓存,以支持所有操作(加载、存储和纹理)。每个SM多处理器上的一级高速缓存可以进行配置,以支持共享内存和缓存本地与全局内存操作。64KB的内存可分出48 KB用作共享内存,16KB用作一级高速缓存;或者16KB用作共享内存,48KB用作一级高速缓存。当提供48KB的共享内存时,需要广泛使用共享内存的程序(如电子动态模拟)的性能将可以提高三倍。对于预先无法确定内存访问情况的程序,设置48KB的一级高速缓存将能够比直接访问DRAM带来显著改进的性能。

  在任意一种配置中,一级高速缓存都可以通过缓存复杂程序的临时寄存器溢出对性能有所帮助。前一代GPU将寄存器直接交给DRAM,从而增加了访问延迟。通过使用一级高速缓存,性能能够随着临时寄存器容量的增加逐步提升。

  Fermi采用了一个768KB统一二级高速缓存,用于支持所有加载、存储和纹理请求。二级高速缓存在GPU之间提供了有效、高速的数据共享。针对以前未知的数据地址的算法,如Physics Solver、光线追踪以及稀疏矩阵相乘等,将能够从这一高速缓存结构中受益最大。此外,要求多个SM来读取同一数据的过滤器和卷积内核也能够从中受益。

● 第一款支持ECC显存的GPU

  Fermi是第一个在显存中提供了基于纠错码(ECC)的数据保护功能的GPU。CPU计算用户使用ECC来在高性能计算环境中增强数据完整性。ECC是诸如医疗成像以及大型集群计算等领域中一个迫切需要的特性。

  自然发生的辐射可能导致内存中的数据被更改,导致软错误。ECC技术能够在单位软错误影响系统之前就予以发现并进行纠正。由于此类辐射所致错误的可能性随已安装系统的数量直线增长,ECC是大型集群部署中的一个必备要求。

  Fermi支持单错纠正双错检测(SECDED)ECC代码,能够在数据被访问期间纠正硬件中的任意单位错误。此外,SECDED ECC还确保了所有双位错误和众多多位错误能够被发现和报告,以便能够重新运行程序,而不是继续执行不良数据。

  Fermi的寄存器文件、共享内存、一级高速缓存、二级高速缓存和显存均提供有ECC保护功能,从而不仅是适用于HPC应用的最强大GPU,同时也是最可靠的GPU。此外,Fermi还支持行业标准,能够当在芯片间传输数据时对其进行检查。所有NVIDIA GPU均支持用于CRC检查的PCI-E标准,能够在数据链路层进行重试。Fermi还支持用于CRC检查的同类GDDR5标准,能够当数据在内存总线上传输时进行重试(也称作“EDC”)。

  是否支持ECC,成为GeForce与Tesla的最大区别,当然Tesla还配备了更大容量的显存,为密集型数据处理提供更高的性能。

第五章/第五节 Fermi计算架构:NVIDIA Nexus开发平台

  NVIDIA Nexus是第一个设计用于支持大规模并行CUDA C、OpenCL和DirectCompute应用的开发环境。它通过将支持并行处理的硬件源代码的调试与性能分析工作直接交由Microsoft Visual Studio进行,有效消除了CPU和GPU之间的生产率差距。Visual Studio是Windows操作系统下使用最广泛的集成应用开发环境。

  Nexus支持Visual Studio开发人员使用与在编写和调试CPU代码时用到的完全相同的工具与接口,来编写和调试GPU源代码,包括来源和数据断点、以及内存检测等。此外,Nexus还扩展了Visual Studio的功能,提供了工具来管理大规模并行计算,如支持对数千个并行运行的线程中的某一个进行检测和调试,以及对所有并行线程计算得出的结果进行高效的可视化呈现等。

  Nexus是开发能够同时利用CPU和GPU的协处理应用的最佳环境。它能够在两个处理器间捕获性能事件和信息,并在单个相互关联的时间线内将信息显示给开发人员。在此基础之上,开发人员能够了解到其应用在整个系统中的执行和表现情况,而不是被局限于某个子系统或处理器。

● 本章小节:

  很显然,Fermi并非简单地添加执行单元构建而成,它解决了GPU计算领域的一些最富挑战性的问题。数据局部性的重要性通过Fermi的两级高速缓存结构及其整合的加载/存储内存路径,得到了充分展现。双精度计算性能被提升到了超级计算级别,同时原子操作的执行速度加快了二十多倍。最后,Fermi的全面ECC支持也有力彰显了NVIDIA大举进攻高性能计算市场的野心。

  在软件方面,Fermi架构首次提供了C++和Nexus支持。其中C++是世界上应用最广的基于对象的编程语言;Nexus是全球首个设计用于支持大规模并行GPU计算应用的开发环境。

  凭借其卓越性能、强大功能和出色可编程性的完美组合,Fermi架构将是GPU计算下一代发展的必然方向。

第六章 GeForce附加功能再次得到增强

  前面几章讲述的都是NVIDIA新一代显卡所独有的技术,用户必须购买全新的GTX480/470显卡才能享受。而本章所要介绍的则是之前大家耳熟能想的老技术,但伴随着Fermi的发布,这些技术无论性能、功能还是技术都被NVIDIA大幅增强,老N卡用户都可以从中获益……

第六章/第一节 附加功能增强:PhysX物理加速

  PhysX是NVIDIA的一大法宝,在NVIDIA DX11显卡面世之前,旧的N卡正是凭借该技术与A卡相抗衡。通过笔者此前的网友调查来看,虽然PhysX的关注度没有DX11那么高,但还是拥有很多忠实的用户,一些玩家为了同时追求DX11与PhysX,费尽心机通过破解杂交的方式来让N卡和A卡协同工作。

  如今GTX480/470正式发布,同时支持DX11和PhysX,玩家没必要再瞎折腾了。而且刚刚发布的《地铁2033》这款游戏对DX11和PhysX都提供了支持,看来不光是玩家,开发商对于PhysX也比较热衷,毕竟这是目前唯一一款支持GPU加速的物理引擎,而另一款物理引擎Havok在被Intel收购之后一直处于雪藏状态。

  此前想要实现物理效果必须购买专用的物理加速卡,而NVIDIA收购了Ageia公司之后,将PhysX技术以完全免费的形式附送给了GeForce显卡,让N卡用户多了一个非常炫的功能。

  NVIDIA在游戏界有着举足轻重的影响力,和众多游戏开发商保持着密切的合作关系,大名鼎鼎的“The Way”计划就保证了N卡在几乎所有游戏大作中都有着良好的性能发挥。PhysX物理引擎被NVIDIA收入囊中之后,原本屈指可数的物理游戏逐渐开花结果,以《镜之边缘》、《蝙蝠侠》、《黑暗虚空》为代表的一些重量级大作开始使用PhysX物理引擎,影响力非同小可。

   而且,中国本土游戏开发商也开始使用PhysX引擎来增强画面,比如《MKZ铁甲突袭》和《剑网3》都内置了PhysX支持,可见PhysX技术显然要比其它同类物理技术更易用一些。

  虽然物理加速技术还没有一个统一的标准,但PhysX无论从游戏数量还是画面效果方面,都更胜一筹。随着使用PhysX引擎的游戏越来越多,独一无二的PhysX显然将会成为事实上的标准。

  新发布的GTX480/470显卡在PhysX加速方面的性能有了长足的进步,但NVIDIA上一代显卡如果单独拿来做物理加速卡的话,性能也很足够,特效也不会损失,因为PhysX考验的是CUDA并行计算效能,与DX API支持度无关。然如果N卡用户想要升级到GTX480/470的话,旧显卡没必要淘汰,它还可以当作单独的物理加速卡使用,从而为GTX480/470减负,达到更高的游戏性能。

第六章/第二节 GeForce增强附加功能:3D立体3屏技术

  ATI HD5000系列最诱人的技术恐怕就是Eyefinity了,实现三屏环幕的效果确实相当震撼,为游戏玩家提供了非常宽阔的视野。当然这里说的三屏并不是简单的连接三个显示器,而是将三个显示器虚拟成为一个大的分辨率,然后实现超宽分辨率的游戏,这才是玩家最需要的技术。

  NVIDIA最新的GTX400并没有提供单卡三屏输出,这将会导致N卡失去一个很大的卖点。为了弥补显示输出方面的不足,NVIDIA为双卡SLI系统重新编写了驱动,使得双卡能够实现与ATI完全相同的三屏环绕输出。

  NVIDIA这种解决方案的缺点就是需要两张显卡才能实现,但优点就是显卡并没有限定非得用刚刚发布的GTX480/470,上一代的显卡也可以,只要组成SLI即可。还有个好处就是SLI系统性能比较强劲,足以带动大分辨率玩BT游戏。

  当然,最具有特色的就是,三屏环幕结合3D Vision技术,实现3D立体3屏环绕技术,足以产生令人震惊的显示效果。这一顶尖技术目前还只有NVIDIA能做得到,AMD的3D立体方案还停留在实验室当中。

  现在,玩家不用在3D Vision和Eyefinity这两种技术之间徘徊了,因为NVIDIA也能支持“Eyefinity”技术,只要您组建SLI系统。至于3D Vision则成本较高,好在红蓝模式也能凑合看,如果您预算有限的话不妨继续等待,目前3D立体已经成为大势所趋,相关设备应该很快就会降到一个合理价位。

  三屏的兼容性是几近完美的,只要游戏能支持宽屏模式即可,而NVIDIA 3D Vision对于游戏的支持度也是非常到位,因此3D Vision Surround的效果无须质疑,有兴趣的朋友不妨去NVIDIA合作伙伴的形象店去体验体验

第六章/第三节 增强附加功能:光线追踪

  光线追踪技术我们已经谈论了多年,由于消耗资源太恐怖一直都停留在纸面,未能进入民用阶段,但谁也不能否认它就是图形处理的未来发展趋势。

  为了让光线追踪早日成为现实,NVIDIA将光线追踪与现有的光栅化技术结合了起来,制作了第一个针对民用级市场的交互式光线追踪引擎。

  过去的GPU很难以较高的效率运行光线追踪这种渲染模式,因为光线的方向具有不可预测性,需要大量随机存储的存取,导致GPU反复进行着相同的操作。为了高效期间,GPU一般以线性块的方式进行存取。

  GF100的计算架构在设计之初就将光线追踪考虑在内了,GF100是首款在硬件上支持循环的GPU,它能够执行高效的光线追踪以及大量其它图形算法。通过提升随机存储的性能,GF100的L1、L2大幅提升了光线追踪效率,L1为临近的光线增强了存储器的本地性,L2则增大了显存带宽。

  GF100不仅在标准光线追踪中表现出色,而且在路径追踪等高级全局照明算法中也有不凡的表现。路径追踪采用大量光线来收集场景中的环境光照信息。据实际测试来看,GF100的性能可达GT200的四倍之多。

  为了维持性能,游戏也可以有选择的运用光线追踪。例如,光栅化可以用来执行场景的第一个通道,被确定为反射光的像素可以通过光线追踪来接受进一步的处理。这种混合型渲染模式能够实现更高性能以及更佳的图像质量。

  现在N卡用户都可以去下载NVIDIA的这个Demo,来体验一下传说中的光线追踪到底能有多好的画质、能有多么逼真?当然上代显卡的速度会比较慢,而GTX480/470则要快很多。

第七章 GTX480/470显卡实物解析

第七章/第一节 GTX480/470显卡实物赏析

  GF100是由30亿颗晶体管打造的怪兽级核心,虽然使用了先进的40nm工艺,但功耗发热依然不低,那么采用GF100核心的显卡GTX480/470到底长什么样呢?会不会也是体形超大的怪兽?

革命性DX11架构!GTX480470权威评测

革命性DX11架构!GTX480470权威评测
从上到下依次为:GTX285、GTX480、GTX470

    笔者拿到GTX480和GTX470显卡时,也没有想到它们会如此“小巧”,GTX480与GTX285一样长,GTX470还要更短小一些,并没有想想中的那么夸张。

  如果看图片还不够直观的话,通过下面的数据来了解高端显卡的长度数据:

  HD5970=31CM

  GTX480=HD5870=HD4870X2=GTX295=GTX285=28CM

  GTX470=HD5850=HD4890=HD4870=24CM

  GF100核心要比RV870复杂很多,NVIDIA居然将显卡长度和散热器体积控制的如此出色,着实难能可贵。通过对比图可以看出GTX480的外观较NVIDIA此前的公版卡风格有了很大的变化,下面就来仔细看看。

第七章/第二节 GTX480/470显卡实物赏析

  首先来看看NVIDIA官方公布的GTX480显卡照片,经过处理之后非常漂亮,而且每张都是3000像素以上的超大分辨率,适合NFan们当作桌面使用。

第七章/第三节 GTX480/470显卡实物赏析

第七章/第四节 GTX480实物:外观和散热器实拍图

  前面是NVIDIA官方的图片,下面是我们评测室收到的样卡,接下来将对它进行全方位拆解,将所有细节展示给大家看

  值得一提的是,GF100核心依然仅支持双头输出,并不像HD5000那样可以支持三屏甚至六屏输出。所以这里GTX480虽然设计了三路数字输出,但最高仅支持两个2560x1600的分辨率。其中HDMI是因为挡板实在没有空间才设计为Mini型接口,它需要占据DVI的一个通道,三头无法同时启用。

  NVIDIA称,之所以没有设计Mini DisplayPort是因为DP显示设备太少而且价格昂贵,但HDMI在家电消费领域已经得到普及,而且一些支持3D立体显示的电视机、投影仪和显示器都支持HDMI 1.4标准,因此NVIDIA额外设计了一个Mini HDMI来支持这一最新标准。HDMI虽然可以通过DVI转接而来,但无法支持立体显示,因此原生Mini HDMI是一个必备接口。

  GTX480的散热器实在是不简单,为了充分利用空间,加大散热鳍片密度,四条热管不得不裸露在外(还有一条隐藏在里面);为了加大涡轮风扇的进风量,PCB经过了镂空处理,而且散热器外壳的风扇位置刻意下沉了一段距离,这样就能保证多块GTX480紧挨着插在主板上时,也不会发生散热器吸风受阻影响散热的情况。

  GTX480的散热片是一体式的,外壳直接裸露在外,可以一定程度上加强散热能力。经过镀镍之后的金属外壳也很有质感,使得公版卡别具特色。但该散热片与热管在显卡满载工作时非常烫手,笔者就在拆GTX480显卡时不小心被烫伤了,因为其它所有显卡都用塑料外壳温度并不高,而GTX480的金属外壳几乎与核心温度相同。

第七章/第五节 GTX480实物:全裸拆解与显存解析

  取下散热器,GTX480的庐山真面目一览无余:

  GF100核心与G92一样,已经整合了所有的功能模块和输出模块,并不像GT200/G80那样专门把2D输出模块单独分离出来设计成一颗NVIO芯片,正所谓分久必合、合久必分。单一芯片使得GTX480整卡看上去比GTX285简洁多了。

  GTX480的核心代号是GF100-375,目前已经是A3版本了,看来GF100在发布之前已经过了多个版本的修正与改进。要知道当年8800GTX用的是A2版本的核心,8800Ultra使用的才是A3版本,频率得到了大幅提升。

  GF100-375并不是完整的GF100核心,其中被屏蔽了一组SM,也就是32个CUDA核心和4个纹理单元,而显存位宽和光栅单元都保持不变。

  GTX480所用的显存颗粒与HD5870完全相同,三星0.4ns GDDR5颗粒,32Mx32颗粒,12颗组成1.5GB 384Bit的规格。

  该显存的理论频率可达5000MHz,HD5870的默认频率高达4800MHz,而GTX480的默认频率仅为3700MHz,只比ATI第一代GDDR5显卡HD4870高100MHz。看来NVIDIA对于GDDR5显存颗粒的特性尚未吃透,显存控制器还无法达到更高的频率。

  虽然更大的位宽弥补了频率的不足,GTX480的177GB/s显存带宽也要高于HD5870的154GB/s,但要知道NVIDIA上代产品GTX285凭借512Bit GDDR3也达到了159GB/s的水平,GTX480大幅扩充规模之后当然需要更加海量的带宽,显然GDDR5的频率已经制约到了GF100实力发挥。

  输出接口部分让人有些失望,这是近年来NVIDIA首次在高端显卡上面没有安装DVI屏蔽罩。虽然数字输出不需要低通滤波电路,但在输出2560x1600这样的高分辨率时,屏蔽措施还是很重要的。君不见Dual-Link DVI数据线都非常粗壮,屏蔽措施做得非常好,如果显卡输出部分不安装屏蔽罩的话,很容易受到手机信号的干扰。

  虽然我们收到的NVIDIA测试样卡没有屏蔽罩,但厂商实际上市的公版卡和重新设计的非公版显卡可能会加装屏蔽罩,这种成本不高但比较实用配件还是不要缩水比较好一些。

第七章/第六节 GTX480实物:全裸拆解与显存解析

  GTX480并没有像ATI那样采用先进的数字供电,但规模和做工用料也非常豪华,我们来仔细看看:

  GTX480的供电模块使用了CHiL的解决方案,CHL8266是一颗最高支持6相供电的数字式PWM主控,最大输出电流可达200A,最高输出电压2V,可支持400W的核心。CHL8266兼容Intel最新的VMR11.1规范,支持可编程或动态开关相位的节能技术及高转换效率模式,提供了智能调节负载与电压输出的Gamer模式,非常适合大功率显卡使用。

  CHL8266主控搭配6颗CHL8510 MOS管驱动器构成一套完整6相供电回路,每颗CHL8510最高可输出6A电流,6颗可提供超过400W的功率输出,完全满足GF100核心的需要。

  GTX480的TDP(热设计功耗)达到了250W,双6Pin PCI-E供电接口无法提供如此大的功率输入,因此只好采用了8+6Pin的设计,再加上PCI-E接口本身的供电,最高可达300W功率输入。

第七章/第七节 GTX480实物:外观与散热器赏析

  GTX470比GTX480更苗条一点,散热片并没有裸露在外,和以前的GTX260、8800GTS等显卡的外形比较相似。

  GTX470几乎就是GTX480的缩小版,整体外形与结构完全相同,PCB也经过镂空处理,外壳风扇部分也凹进去一点,确保SLI模式下也有足够的进风量。

  输出接口与GTX480完全相同,第二条PCI插槽位全部用作出风口,热风将被毫无阻挡的吹出机箱外,这样整体风道的散热效率就会比HD5870/5850高一些。

  GTX470的散热器结构与GTX480完全相同,但散热片小一些,热管也少一根,由于体积的缩小,GTX470包括弯曲热管在内的所有散热片都可以被装在外壳里面,没有任何金属裸露在外,不用怕被烫伤了。

第七章/第八节 GTX480实物:外观与散热器赏析

    GTX470的PCB比GTX480更短小,因此元器件的排列密度更高了,不过各大模块的布局依然十分清晰。

   GTX470的核心代号是GF100-275,也是40nm工艺A3步进。这颗核心被屏蔽掉了两组SM,也就是64个流处理器和8个纹理单元,另外还屏蔽了组64bit显存控制器,光栅单元少了8个。

  依然是三星GDDR5 32Mx32显存颗粒,但速度慢了一点,0.5ns理论频率是4000MHz。而GTX470的默认显存频率只有3350MHz,最终显存带宽只比HD5850高一点点。

  320bit的显存位宽只需要10颗显存颗粒就能满足,比GTX480少了两颗,因此GTX470的显存规格就是1280MB,容量也少了256MB。

  GTX470的供电部分也经过了重新设计,电源主控更换为安森美半导体的NCP5388 4相PWM控制器,兼容Intel VMR11.0规范,不支持动态节能技术。这颗主控经常出现在中低端显卡之上,不过该主控同样具有大电流稳定输出的能力。

  供电模块的做工用料比较传统,可谓是比上不足比下有余。

  输出接口同样没有安装DVI屏蔽罩,对于普通1920x1200级别分辨率可能影响不大,但如果使用2560x1600分辨率的显示器或者120Hz 3D显示器的话,就有影响了。

第七章/第九节 首批送测显卡:七彩虹GTX470

  据了解本次GeForce GTX 480/470的产品发布合作伙伴在中国一共是8家厂商,大家可以关注以下八家厂商以保证可以第一时间的买到GeForce GTX 480/470。分别是,七彩虹、翔升、耕昇、影驰、Inno3D、微星、索泰和技嘉。

  令人欣喜的是,七彩虹公版设计的GTX470显卡加装了DVI屏蔽罩,显示输出质量得到了保证,像笔者这样吹毛求疵的玩家可以安心了。
第八章 GeForce GTX 480演示DEMO解析

  无论ATI还是NVIDIA,每次有新显卡发布都会同时公布一个或者多个用显卡实时渲染而成的DEMO。这些美轮美奂DEMO的设计初衷就是通过完美的3D效果征服每一位观众,让大家对新显卡的性能和技术充满憧憬和期待。所以ATI和NVIDIA必定会使出浑身解数,在DEMO中大量采用显卡最新、特有、特长技术。

键盘也能翻页,试试“← →”键