迟来的DX11王者!GeForce GTX 480/470全球同步首发详测

2010-04-07 17:37  出处:PConline原创  作者:佚名   责任编辑:zhengwanglun 

[序言:迟来的DX11王者]

  终于……Fermi来了、GF100来了、GeForce GTX 480/470来了……

  可以说,过去这整整半年是AMD春风得意、指点江山的半年,也是NVIDIA深深蛰伏、卧薪尝胆的半年。AMD从容不迫地陆续发布了将近二十款产品,完整覆盖了从桌面到移动、从高端到低端;NVIDIA的全新架构看起来很美,却一直停留在幻灯片上,隔三差五地曝光吊足了胃口,但始终“只可远观而不能亵玩焉”。

  此情此景是不是感觉很眼熟?往近了说,DX10时代之初的NVIDIA、ATI如今似乎互换了角色,G80 GeForce 8800、R520 Radeon HD 2000分别灵魂附体却都跑到了对方身上;往远了说,NV30 GeForce FX 5000系列的历史似乎正在重演。依稀之间,仿佛是又一次宿命的轮回。

  关于NVIDIA、AMD这几年反复纠缠的肥皂剧我们已经不想再说太多,是非曲直自有定论,每一个观众眼里也都有自己的“哈姆雷特”。其实不管你爱谁恨谁,又无论从哪个角度说,我们在任何时候都不希望出现一家独大的垄断局面,因为无数的历史经验告诉我们,那种情况下受伤的不止有处于竞争劣势的厂商,还有广大消费者。没有激烈的竞争,就不会有革命性的创新与进步,也不会有受惠于大众的丰富产品。君不见,GeForce GTX 480/470虽已发布在即,Radeon HD 5800系列却依然稳坐钓鱼台,就是不肯降低身价,让多少人空等了这么久。您看,是不是这个理儿?

  今天,2010年3月26日,NVIDIA的王者归来大戏终于正式上演,漫长的翘首期盼也得以暂时告一段落。本次发布的产品有两款,一是面向极限发烧友玩家群的GeForce GTX 480,号称“世界上最快的GPU”(呃注意不是显卡),国内官方建议零售价3888元人民币,二是针对高性能游戏用户的GeForce GTX 470,是高端性价比的代表,国内官方建议零售价2888元人民币。

  GeForce GTX 480本次在我国国内的产品发布合作伙伴一共有八家,分别是七彩虹、翔升、耕昇、影驰、映众、微星、索泰、技嘉,消费者可以关注这些厂商以便在第一时间买到新卡。

   GeForce GTX 480/470是NVIDIA这么长时间以来闭关修炼的最终成果,也是未来两年左右深入发展的基石。它们都采用了全新设计的GF100游戏架构,并融入了Fermi计算架构的精髓。它们一方面肩负着打造极致PC游戏性能与画质的使命,另一方面还承担着推广并行计算应用、拓展GPU疆土的职责。虽然主机、掌机、手机游戏风起云涌,但PC平台的价值谁都不能无视,对NVIDIA是起家和壮大的根基,NVIDIA自己也“坚信PC游戏是独一无二的”,同时由于缺乏作为平台核心支撑的中央处理器(CPU),NVIDIA一直在努力将GPU推向各种应用领域的中心地位,梦想着从PC游戏这个小舞台走出去,迈向更广阔的天地。

  闲言碎语到此结束,下边书归正传。我们将用一个比较大的篇幅,为您细细地梳理GeForce GTX 480/470的里里外外,既有深层次的架构和技术秘密,也有最直接的游戏性能厮杀。Here We Go......

 [全新架构:GF100四大设计展NV雄心]

  首先解释一下两个开发代号。“Fermi”代表了NVIDIA的下一代CUDA计算架构。它取自美籍意大利裔物理学家恩里科·费米(Enrica Fermi),堪称是伽利略之后最伟大的物理学家、现代物理学的最后一位通才,一生成就无数、荣誉无数,以此为代号也充分展现了NVIDIA的雄心。

   “GF100”则代表了NVIDIA的下一代GPU图形处理器(早期还有GT300、G300等说法),不过需要澄清的是,“GF”两个字母并非GeForce的缩写,其中G代表GPU、F代表Fermi、100代表高端序列,完整的意思是首款基于Fermi架构的GPU。在它的基础上,今后还会陆续衍生出面向中低端市场的更多型号,代号都是GF10x的形式。

   GF100在个人消费领域最重要的使命当然是在硬件上完整支持DX11,包括曲面细分(Tessellation)、并行计算(DirectCompute)等等。为此,GF100使用了大幅革新的计算架构,专为支持新一代游戏特效而设计,其中既有AMD已经宣传过的顺序无关透明度(OIT),也有NVIDIA别具一格的CUDA架构、32x CSAA反锯齿、光线追踪(TR)、流体模拟等等。

   按照NVIDIA自己的说法,GF100的设计目标有四个,下边只作简单概述,后文都会有详细介绍。

1、极致的游戏性能

  NVIDIA虽然在专业图形和计算领域频频发力,但依然非常重视PC游戏,提供顶级游戏性能自然是GF100的头号使命,为此而做的努力包括第三代流式多处理器(SM)、CUDA核心(流处理器)和ROP单元数量翻一番、几何学流水线大幅改进等等。

2、一流的图像质量

  画质是游戏玩家非常热衷的话题。GF100可以实现全新的32x CSAA覆盖采样抗锯齿。无论多边形边缘还是透明纹理,GF100都能获得最高质量的抗锯齿效果,同时将性能损失降至最低。

3、电影般的几何学逼真度

  从GeForce FX到GeForce GTX 280,着色性能提升了150多倍,但几何学速度却只提高了两倍,极大地限制了GPU的几何学处理能力,这也就成了GF100的改革重点之一,号称几何学并行执行性能已是GT200的八倍之多。

  NVIDIA还学习了CG电影中的曲面细分(Tessellation)和置换贴图(Displacement Mapping)两大技术,前者可以将较大的三角形细化成更多较小三角形的集合,后者则能改变这些三角形的相对位置,两种技术结合就能通过相对简单的描绘来完成复杂多变的模型。《加勒比海盗》中恐怖的深海阎王、飞翔的荷兰人号船长戴维·琼斯(Davy Jones)就是典型例子。

  GF100的整个渲染流水线都旨在为曲面细分和几何学吞吐量提供最大化性能,为此特意设计了PolyMorph引擎和Raster引擎。

4、专为游戏量身打造的计算架构

  光栅化渲染流水线已开始显现疲态,实时光线追踪短期内又不现实,因而更先进的新算法迫在眉睫。G80是NVIDIA公司首款包含计算特性的GPU,Fermi/GF100便是在此基础上发展而来的,能够为游戏大幅提升计算特性。

  GF100可以利用Fermi的计算架构来处理游戏应用。在图形处理方面,诸多线程独立地工作,而且线程之间还会相互通信、协调,对图形处理器与PhysX物理处理快速上下文切换、计算内核并行执行、光线追踪和人工智能算法增强等等都大有裨益。

  正因为实现了这四大方面的设计目标,NVIDIA才号称GF100能带来电影级的视觉效果(Cinematic Visuals),不过,似乎每次产品升级的时候厂商都会这么宣传。

[GF100架构深入剖析之一]

  今年初,我们曾在第一时间介绍过GF100游戏架构的诸多方面,不过当时公开的资料比较有限,所以今天我们会花费较大的篇幅,再次系统性地剖析一下GF100的内部架构。由于涉及技术点比较多,可能会显得有些晦涩,但只有吃透这些我们才能真正明白GeForce GTX 400系列显卡的精髓,以及NVIDIA公司的发展思路。

1、整体概览

  GF100芯片外表看起来非常庞大,内部结构也是异常复杂,简单地说可以分成以下几个模块:主接口(Host Interface)、GigaThread引擎、四个图形处理器集群(GPC)、六个64位GDDR5显存控制器、六个ROP分区、768KB二级缓存,其中每个GPC包含四组流式多处理器(SM)、四个PolyMorph引擎、一个Raster引擎,而每个流式多处理器内又有32个流处理器——NVIDIA称之为CUDA核心,完整的核心拥有512个。

  16个SM都是高度并行的多处理器,能在任何时候支持最多48个Wrap。512个CUDA核心都是统一的处理器核心,能够执行顶点、像素、几何学和计算内核等不同任务。48个ROP单元可用于像素混合、抗锯齿、原子存储等操作,每组6个由一个64位显存控制器进行控制。统一的二级缓存则能够提供载入、存储、纹理操作等服务。

  GPU工作的时候,通过主接口读取中央处理器指令,GigaThread引擎从系统内存中获取特定的数据并拷贝到显存中,显存控制器提供数据存取所需的高带宽。GigaThread引擎随后位各个SM创见和分派线程块,SM则将多个Warp(32个线程的群组)调度到各个CUDA核心以及其他执行单元。在图形流水线出现工作超载的时候,GigaThread引擎还负责进行工作的重新分配。

2、GPC架构

  GPC是GF100的主要高级硬件模块,每个完整的GF100核心内拥有四个GPC。

GF100 GPC有两项重要创新:一是用于顶点属性提取与曲面细分的可扩展PolyMorph引擎,驻留在SM中,二是用于三角形设置、光栅化以及Z轴压缩(Z-Cull)的可扩展Raster引擎,驻留在GPC中。

  GPC囊括了所有主要的图形处理单元,代表了顶点、几何、光栅、纹理、像素处理资源的均衡集合。除了ROP功能之外,GPC还完全可以看作是一个自给自足的GPU。

   在NVIDIA之前的GPU中,SM和纹理单元组成的集合叫作纹理处理集群(TPC),而GF100中每一个SM都有四个专用的纹理单元,这样就不再需要TPC了。

3、并行几何学处理

  随着图形渲染工作量的突飞猛进,传统的固定流水线已经不堪重负,特别是曲面细分的加入可以将三角形密度提高数十倍,从根本上改变了GPU图形负载的平衡,因此很有必要重新设计平衡的图形流水线,以保证高效率和高性能。

   为了实现较高的三角形输出率,GF100设计了总计一种可扩展几何引擎PolyMorph,并为其配备专用的顶点拾取单元和曲面细分单元(Tessellator),从而极大地提升了几何性能。与之相配,GF100还设计了并行Raster引擎,可以在每个时钟周期内设置最多四个三角形。

(1)、PolyMorph引擎

   该引擎的工作流程可分为五个阶段:顶点拾取、曲面细分、视口转换、属性设置、流式输出。每个阶段中的运算结果都会被发送到一个SM,由其执行游戏的着色程序并将结果返回到引擎中的下一个阶段,而五个阶段全部完成后结果就会发送到Raster引擎。

  每个完整的GF100核心拥有16个PolyMorph引擎,每个GPC分配四个。

(2)、Raster引擎

  基元在PolyMorph引擎中处理完毕后便发送至Raster引擎,这里又分为三个阶段:边缘设置、光栅器、Z轴压缩。事实上这些阶段在此前的GPU中也都存在,GF100只不过将它们放在了一起,而且全部四个Raster引擎采取了并行工作的方式,从而实现更高的三角形吞吐量。

  正是通过GPC架构几何流水线的重大突破,GF100提供了曲面细分所需要的更高级别三角形和光栅化性能,几何性能也达到了GT200核心的八倍,并且随着曲面细分几何复杂度的增加,GF100会更加得心应手,超越竞争对手的幅度也会越来越大。

   微软DirectX SDK软件开发包中就提供了多个演示程序,比如“SubD11”中,曲面细分等级为2的时候,GeForce GTX 480的性能只是Radeon HD 5870的1.4倍左右,但曲面细分等级增加到31之后,性能差距就骤然拉大到了9.8倍之多,再比如“PN Triangeles”,曲面细分等级分别为5、19的时候,GeForce GTX 480的性能分别是Radeon HD 5870的2.3倍和7.2倍。

  还有我们都很熟悉的Unigine Heaven,NVIDIA给出的数据显示GeForce GTX 480的速度全程都在30FPS之上,而Radeon HD 5870却有47%的时间都不到30FPS,而且在细节较少、天空场景开阔的时候,两款显卡速度差不多,而在几何细节等级较高、曲面细分网格密度较大的情况下,GeForce GTX 480的速度已经是对手的二倍,快了足足20FPS。

  正因为如此,NVIDIA宣称自己的架构是面向未来设计的,有充足的发展空间,不过问题是游戏在短期内还不太可能使用太高负载的曲面细分,而且AMD也不可能没有考虑过这种情况,下半年的新架构应该会有些不同。

键盘也能翻页,试试“← →”键