沉寂半年今朝爆发!NV旗舰GTX480全国首测

2010-04-07 07:33  出处:PConline原创  作者:佚名   责任编辑:zhengwanglun 

GF100采用三级分层游戏架构

    我们已经知道,GF100采用台积电40nm工艺制造,集成大约30亿个晶体管,包含512个流处理器(CUDA核心)。32个这种核心组成一个流式多处理器阵列(SM),然后再四个组成一个图形处理集群(GPC)。GF100就是这样的三层分级架构:4个GPC、16个SM、512个SP。

  NVIDIA声称Fermi GF100是一个全新架构并非没有道理。不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。

    光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。

    多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。需要说明的一点是AMD显卡在多形体引擎方面的设计采用的是所有SM共用一个多形体引擎,而NVIDIA采用的是每组SM一个,这样也就避免了多形体引擎称谓显卡性能瓶颈。

    多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。

    在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。

    ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。

    除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Sahder单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说,想超频的话很多地方都要重新来过了。

    从NV30 GeForce FX 5800到GT200 GeForce GTX 280,NVIDIA显卡的几何性能只提高了不到3倍,而Shader性能提升了150多倍,但仅仅是从GT200到GF100,几何性能的增长倍数就达到了8x。

    有了如此强大的几何性能,NVIDIA就可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景,并保持和对手同样水平的性能,所以才有了16个多形体引擎和4个光栅引擎。

    细分曲面是AMD DX11产品的宣传重点,但NVIDIA要做得复杂得多,而且理论上说效果更出色。接下来NVIDIA要做的就是让游戏开发商充分挖掘GF100架构的潜力,在保证性能的基础上做出更精致的游戏画面。

抖动采样(Jittered Sampling)实现更逼真画面

    DX11详细定义了显卡需要提供的特性,但对渲染后端的工作涉及甚少,所以NVIDIA做了多形体引擎,还有抖动采样。抖动采样不是新技术,长期用于阴影贴图和各种后期处理,通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。

    DX9/10上抖动采样是分别拾取每一个纹素,DX10.1开始改用Gather4指令,NVIDIA则在硬件上使用单独一条矢量指令。NVIDIA自己的测试显示,这么做的性能大约是非矢量执行的两倍。

改进抗锯齿最高可实现32AA

  CSAA是在G80 GeForce 8800 GTX上引入的,当时最高支持16x,如今不但提高到了32x,而且将色彩取样和覆盖取样分离开来,在32x CSAA中分别有8个和24个,无论性能还是画质都有明显提升。NVIDIA宣称,GF100 CSAA从8x到32x的平均性能损失只有区区7%。

  在GF100上,Alpha to Coverage可以使用全部采样点(最多32个),而且有33个透明级别,透明多重采样抗锯齿(TMAA)的质量也因此得到了改进。

游戏计算(Compute for Gaming)

    首先,CUDA架构的实现途径就多种多样,CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA自己似有的开发方式,也有开放的业界标准规范,开发商可以自由选择。

    在游戏中,NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果。值得注意的是NVIDIA这次新加入了队C++的原生支持。

《Metro 2033》里的景深效果

光线追踪演示DEMO

    NVIDIA还宣称,GF100的游戏计算性能相比GT200有了大幅提高,比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。

立体多屏环绕技术3D Vision Surround

    ATI Eyefinity可以支持六屏输出,而3D Vision Surround最多只能达到三屏,但它支持3D立体效果,是3D Vision技术的扩展增强版。遗憾的是,AMD Radeon HD 5000系列能单卡支持六屏输出,NVIDIA GF100却仍然只能同时驱动两台显示器,三台或者更多的话就需要两块GF100组建SLI系统。这样一来,双卡系统的性能当然会好很多,但成本也急剧增加。

    但也正因为不是GF100架构的全新技术,GT200 GeForce GTX 200系列同样可以支持3D Vision Surround。事实上,NVIDIA在CES上展示的系统使用的就是两块GeForce GTX 285。


    显示设备支持方面,3D立体系统需要三台同样支持3D Vision技术的液晶显示器投影仪或者DLP,单个分辨率最高1920×1080;如果是非立体系统(此时叫作NVIDIA Surround),任何普通显示设备均可,单个分辨率最高2560×1600。

键盘也能翻页,试试“← →”键