主宰DX11新纪元!GTX480/470显卡详评测

2010-04-15 20:06  出处:PConline原创  作者:后天太阳   责任编辑:chenri 

 

  Fermi的到来意味着图形晶片行业正式全面进入DirectX11新纪元,不过在此之前我们不妨先来简单回顾一下即将成为历史的DirecrX10时代,让大家有个简单的认识:

  ——2006年11月,NVIDIA发布了业界第一款DX10显卡Geforce8800系列显卡,宣布行业进入DX10时代。采用全标量流处理器设计颠覆旧有的象素与顶点单元分化设计,同时也为GPU通用运算埋下伏笔。

  ——2007年5月,ATI也发布了自己首款支持DX10的显卡RadeonHD2900XT,由于产品整体策略存在多处失误,导致大幅落后对手。HD2000系列的失败标志着旧ATI策略已成过去,往后将是AMD-ATI的新红色时代。

  ——2007年10月,NVIDIA发布第1.5代DX10显示核心G92,这款为市场化而生的核心征战了整个DX10时代,演变出无数款显卡产品。经过历史证明它是DX10时期最成功的核心,没有之一!

  ——2007年11月,ATI发布第二代DX10显卡RadeonHD3800系列,这是ATI用田忌赛马的中型核心策略抗击NVIDIA的第一代产品。HD3000系列利用低成本优势和对手打了一场残酷的价格战,中型核心策略初见成效。

  ——2008年6月,NVIDIA发布第二代DX10显卡GeforceGTX200系列,除了性能提升外,GTX200更主要是引领GPU走进通用运算,CUDA语言成为GPU通用计算的重要依据,这大大提升了GPU在整个IT行业里面的地位。

  ——2008年6月,ATI发布第三代DX11显卡RadeonHD4800系列,几近完美的成本/性能/公耗黄金比赢得了市场的欢迎,标志着中型核心策略的成功,因此确立了ATI未来发展的方针,为DX11时代全面反击铺路。

  ——2009年1月,NVIDIA发布55nm新工艺的GT200系列显卡,包括GTX285和双核版的GTX295。更新55nm工艺主要是为迎击HD4000系列中型核心策略所带来的挑战,其中55nm工艺是GTX295成功面世的必须因素。

  ——2009年4月,ATI发布RadeonHD4770显卡,或许在数年以后没人会记得这个型号,但肯定会有人记得ATI因此而率先采用40nm工艺成功生产芯片,40nm新工艺是ATI成功推进DX11产品线的关键因素。


--------------------------------------------------------------------------------

  随着微软Windows 7大旗指向DirectX11,3D显示技术行业也紧跟脚步随之而来。去年9月ATI凭借RadeonHD5870率先进入DX11新纪元,随后更加是快速全面推进DX11产品线,目前我们已经可以在卖场中见到300元-3000元的全线ATI HD5000系列显卡。不过从整个行业来看,ATI始终还不是领导者,所以不能说整个图形芯片行业已全面进入DX11时代,大家都在期待者着业界领导者NVIDIA所带来的巨大呼声。

  记得从2009年第一季,已经有消息称GT200的继任者,也就是NVIDIA首款支持DX11的产品GT300(人们当时对Fermi的称呼)将会在第三季度面世。不过,经过无数的新闻报道、经过无数的真假好坏消息泄露、经过无数的预言猜测、经过复数的纸面发布、经过多份不同版本的官方宣传资料、甚至连正式名字都在最后一个多月时间内才正式公布等等情况证实,残酷的事实告诉我们:Fermi不止一次地跳票了!

  在2月22日,NVIDIA终于官方正式宣布全新一代DX11显卡GTX480/470将会确定在3月27日真正正式发布。长期忍受马甲之苦的玩家终于有了盼头,无一不为这一天的到来而抱有热切期待心态。其中N饭为的是有口头资本去痛击A饭昔日的嚣张!A饭为的是可以早日以更低的价格购买HD5800系列显卡,不管怎样,这一天终于来临了!

GF100架构最高端GTX480实物及参数介绍:

  GeforceGTX480是GF100架构的旗舰显卡,核心采用台积电40nm工艺制造,大概集成30亿个晶体管。最新资料显示GeforceGTX480核心拥有480个流处理器(上代GTX285为240个),核心运行频率为700MHz(上代GTX285为648MHz),流处理器运行频率为1401MHz(上代GTX285为1476MHz)。

  显存方面,GTX480位宽为384Bit(上代GTX285为512Bit),首次在旗舰显卡上采用了GDDR5显存(上代GTX285采用GDDR3显存),运行频率为3696MHz(上代GTX285为2484MHz),显存容量为1536MB(上代GTX285为1024MB)。

  功耗方面,GTX480单卡高达250W,比上代GTX285的183W要高出不少,不过相比旧65nm工艺的GTX280高出不多,要知道GTX280也达到了236W的高位,同样采用8pin+6pin的外接供电配置。

关于GTX480最终为何只有480个流处理器——

  在首次纸面发布GF100的时候,所有的官方资料和消息都显示GTX480拥有512个流处理器(CUDA核心),但最终GTX480被确定为480个。普遍估计主要原因来自台积电的40nm工艺良品率问题(可参看良率仍低于50% TSMC为480SP GTX480负责),因为屏蔽部分运行单元仍然是现时解决良品率问题的最有效方法,所以目前上市的GTX480只具备480个流处理器,不排除日后会有完整512个流处理器的完整版GTX480出现。另外一种说法为GTX480功耗控制困难,必须屏蔽部分运行单元才能解决能耗和温度问题。

  具有传奇色彩的GTX480显卡今日正式向世人露面,说其具有传奇色彩是因为在此之前,众多泄露的图片中显示的FERMI显卡外观都有所不一样,而今日我们看到这款最终形态的GTX480,是在产品发布之前两周内,才首次被人揭露。

  掩盖整卡近一半的铝版让GTX480具有强烈的金属味道,同时我们发现该金属板并非仅仅是外观装饰,而是辅助散热的主要部件,后面的拆解大家将会见到其作用。

  虽然GTX480采用一体式的全封闭式的散热器,不过四条热管还是外露了。

  外接供电接口采用8pin+6pin配置,这种配搭是目前最高功耗显卡的最高外接电源输入配置。

  输出接口方面,GTX480配置了Dual DVI+Mini HDMI接口,比较可惜的是仍然没有对DisplayPort的支持。不过这样的输出接口配置也足以满足用户对各显示设备的支持。因为是测试样本的缘故,随卡并没有附带mini-HDMI转HDMI的相关线材,不过相信在正规零售版本中,各品牌的GTX480显卡都会附送mini HDMI转HDMI的转接口或者是转接线。


--------------------------------------------------------------------------------

注:

  据了解本次GeForce GTX 480的产品发布合作伙伴在中国一共是8家厂商,消费者可以关注以下8家厂商以保证可以第一时间的买到GeForce GTX 480。分别是,七彩虹、翔升、耕昇、影驰、Inno3D,微星、索泰和技嘉。

GF100架构最高端GTX480实物拆解:

  打开外盖后我们发现,散热风机原来放置在覆盖显卡的底板上,而并非与外壳连成一体。这点与GTX200系列显卡有所不同,GTX200系列显卡散热器为完全一体化设计,风机和散热片都全部安置在外壳上。

  以上这图我们可以明显看到上层金属板与核心散热鳍片是紧贴在一起的,并且起着覆盖风导的作用,这种设计在美观之余又能起着帮助散热的作用。

  去掉散热片后我们见到整个散热器的底板覆盖着整张PCB,其中核心、部分电容和电感等突出的器件都有相应的切割口外露,这种一体成型的底板加工费相对较高。

  散热片个头相当大,且我们发现整个散热片其实具有5条热管,只不过有一条热管并没有外伸到散热器外面。热管与散热片之间采用HDT热管触底技术相连,GF100核心直接与热管接触。

  GTX480与470的PCB设计都有一处非常特殊,就是在PCB上直接挖空了吸风口,这种在PCB上为散热器打洞的设计首次出现在单卡身上,之前双核显卡Geforce9800GX2曾经也有过类似的设计。

  GTX480公版号为P1002,PCB整体布局非常标准,与过往的高端显卡一样,核心与显存的供电都集中在PCB后方,核心和显存放置在PCB前方,显存以包围状围绕着GPU核心。PCB背面无显存颗粒,从外观判断背面并没有预留显存空焊位。

  另外,值得一提的是经历G80和GT200两代的NVIO芯片终于在GTX480上销声匿迹了,估计是凭借40nm的优势,NVIDIA把这个色彩输出单元整合回核心里面。

  GTX480的GF100核心,采用台积电40nm工艺制造,核心编号为GF100-375-A3,其中A3代表第三版样本。生产周期为2010年第四周。

  由于德国奇梦达已经倒闭,所以目前高速GDDR5显存多数由三星供应。GTX480采用-0.4ns的三星GDDR5颗粒,正面12颗32Mx32bit显存颗粒一共组成了1536M/384Bit的显存规格。从理论上来看0.4ns颗粒的工作频率为5000MHz,而GTX480的显存官方默认频率仅为3696Mhz,所以在显存方面GTX480有着很大的超频空间。

  老实说GTX480的供电配置让人有所意外,以往经常出现在高端卡身上的数字供电并没有被GTX480采纳。GTX480整体供电配置仍然以贴片铝聚合物电容+贴片电感+MOSFET的传统方案,不过每相核心供电都加入了单独的控制IC。

  GTX480核心供电采用6相配置,每相使用三个LFPAK封装的MOSFET进行分流。而显存则采用2相供电配置。

GF100架构次高端GTX470实物及参数介绍:

  GeforceGTX470是GF100架构的次级旗舰显卡,核心拥有448个流处理器(比GTX480少32个),核心运行频率为607MHz(比GTX480低93MHz),流处理器运行频率为1215MHz(比GTX480低186MHz)。

  显存方面,GTX470位宽为320Bit(比GTX480少64Bit),同样采用了GDDR5显存,运行频率为3348MHz(比GTX480低348MHz),显存容量为1280MB(比GTX480少256MB)。

  功耗方面,GTX470为215W,比GTX480低35W,但仍然比上代GTX285的183W要高出不少。

  相比之下,GTX470的外形比GTX480要内敛一点,整体尺寸更短、外形相当平实,与GTX200系列在外观上十分相似。

  近镜我们发现GTX470显卡上的这个风扇的位置有所偏差,并非在显卡尾部的中心,而是偏向上方。在接下来的拆解中自然能发现其中的巧妙。

  输出接口方面,GTX470与GTX480同样配备了配置了Dual DVI+Mini HDMI接口,基本满足日常用户对各种显示设备的需求。

GF100架构次高端GTX470实物拆解:

  与GTX480一样,GTX470的散热器主要组成部分都安置在底板上,不过散热片的色调和GTX480有所不一样,GTX470散热片上的热管为纯铜颜色。

  GTX470的散热片同样具备5条热管触底技术的热管,由于散热片部分并不需要象GTX480那样外露,所以并没有作镀镍处理。

  GTX470的公版代号为P1025,由于只有320Bit显存位宽,所以显存颗粒从GTX480的12个减少至10颗,同样全部放置在正面。整体外观上看,GTX470布局比较奇特。

  GTX470 PCB的奇特在于其风扇进风口正好位于尾布中心,并且所占面积比GTX480还要大,这直接导致了核心主要供电部分被压缩并排在PCB下方。

  供电部分仍然采用传统的铝聚合物电容+贴片电感+LFPAK封装的MOSFET,核心部分一共采用6相供电,而显存部分采用了单相供电。

  GTX470核心代号为GF100-275-A3,生产周期为2010年第6周,比GTX480稍晚。

  GTX470同样采用来自三星的-0.5ns GDDR5显存,10颗32Mx32Bit显存颗粒组成了1280M/320Bit的显存规格,显存频率为3348MHz。

GF100架构分析:图形处理集群

  GigaThread引擎是NVIDIA在G80时候开始提出的一项线程调度多任务管理引擎,其角色在整个核心中起着一个任务分派的角色。G80的GigaThread引擎已经能实时管理多达12288个Thread,而在GF100架构上不仅线总程数增加了一倍,还显著性地提升了contextswitching的性能、实现并发式核心程序(concurrent kernel)执行以及改进的Thread Block调度。

  GigaThread引擎能够从系统内存中获取指定的数据并将其拷贝到显存中。GF100采用了6个64位GDDR5存储器控制器(总共384位),便于显存高带宽存取。GigaThread引擎然后会为各个SM创建和分派线程块。单个SM反过来会将多个Warp(32个线程的群组)调度至多个CUDA核心以及其它执行单元。当图形流水线中出现工作高负载现象时,例如在Tessellation(曲面细分)以及光栅化阶段之后,GigaThread引擎还能够将工作重新分配至SM。

  GF100核心内部总共拥有512个CUDA核心,每32个核心构成一个SM(流式多处理器),共有16个SM。每个SM都是一个高度并行的多处理器,它们在任何时候都能够支持多达48个Warp。每个CUDA核心都是统一的处理器核心,能够执行顶点、像素、几何学以及计算内核。统一的2级高速缓存架构能够提供载入、存储以及纹理操作等服务。

  GF100拥有48个ROP单元,它们可用于像素混合(Pixel Blending)、抗锯齿以及原子存储器操作。ROP单元每8个一组,共有6组。每一组均由一个64位存储器控制器来进行控制。存储器控制器、2级高速缓存、以及ROP群组全都密切关联,扩展一个单元就会自动地扩展其它部件。

GF100的主要计算单元——图形处理集群(GPC)

  GF100的图形架构由大量叫做“图形处理集群”(GPC)的硬件模块构成。一个GPC包含一个Raster引擎以及最多四个SM。

  如其名称所示,GPC囊括了所有主要的图形处理单元。它代表了顶点、几何、光栅、纹理以及像素处理资源的均衡集合。除了ROP功能以外,GPC可以被看作是一个自给自足的GPU,而一颗GF100拥有四个GPC!

  在GF100之前的GPU中,SM与纹理单元在一种叫做“纹理处理集群”(TPC)的硬件模块中聚集在一起。而在GF100中,每一个SM都拥有四个专用独立的纹理单元,这样就不再需要TPC了。

GF100图形处理集群改进:PolyMorph引擎

  GPC是GF100的主要高级硬件模块。它拥有两项重要的创新:一个用于三角形设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Raster引擎,一个用于顶点属性提取与Tessellation(曲面细分)的可扩展PolyMorph引擎。Raster引擎驻留在GPC当中,而PolyMorph引擎则驻留在SM中。

  虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远。当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下,计算机生成的电影中每一帧通常会运用数以亿计的多边形!在解决几何学逼真度这一问题上,NVIDIA把目光投在了电影上获得启发。电影中人物的精细画质归功于两种关键技术:Tessellation(曲面细分)以及Displacement Mapping(贴图置换)。

  Tessellation(曲面细分)的使用从根本上改变了GPU图形负荷的平衡。凭借Tessellation(曲面细分),特定帧中的三角形密度能够增加数十倍,但这给设置于光栅化单元等串行工作的资源带来了巨大压力。为了保持较高的Tessellation(曲面细分)性能,有必要重新平衡图形计算流水线。

  为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph引擎”的可扩展几何引擎。每16个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator,从而极大地提升了几何性能。与之搭配,每个GPC还配有一个并行Raster引擎,它们在每个时钟周期内可设置最多四个三角形。同时,它们还能够在三角形获取、Tessellation(曲面细分)、以及光栅化等方面实现巨大性能突破。

  PolyMorph引擎:

  PolyMorph引擎拥有五个阶段:顶点获取、Tessellation(曲面细分)、观察口转换、属性设置以及流式输出。每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段。在所有阶段都完毕之后,结果会被传递给Raster引擎。

  第一个阶段是从一个全局顶点缓冲区中获取顶点。所获取的顶点于是被发送至SM,以进行顶点着色以及外壳着色。在这两个阶段中,顶点从一个物体空间转变成了世界空间,而且还算出了Tessellation(曲面细分)所需的参数(例如Tessellation(曲面细分)系数)。Tessellation(曲面细分)系数(或LOD)被发送至Tessellator。

  在第二个阶段中,PolyMorph引擎读取Tessellation(曲面细分)系数。Tessellator将修补面(控制点网格所定义的光滑表面)分成小方块并输出许多顶点。修补(u、v)值定义了网格以及形成网格的连接方式。

  全新的顶点被发送至SM,域着色器与几何着色器均在这里执行。域着色器能够根据外壳着色器与Tessellator的输入来运算每个顶点的最终位置。在本阶段中,通常会附上一个Displacement Mapping(贴图置换)以提升修补面的细节表现。几何着色器能够执行任何后期处理、按需增加或删除顶点以及基元。结果最终将被发回至Tessellation(曲面细分)引擎。

  在第三个阶段,PolyMorph引擎会执行观察口转换以及视角校正。接下来就是属性设置,把后期观察口顶点属性转变成了平面方程,以进行高效的着色器评估。最后,可以选择将顶点“流出”至存储器,使其能够用于更多处理。

  在之前的架构上,固定功能的操作由单个流水线来执行。在GF100上,固定功能与可编程操作全部都实现了并行化,从而极大地提升了性能。

GF100图形处理集群改进:Raster引擎

  在PolyMorph引擎处理完基元之后,它们就被被发送至光栅(Raster)引擎。为了实现较高的三角形吞吐量,GF100采用四个Raster引擎并行工作的方式。

  Raster引擎由三个流水线阶段组成。在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程。没有朝向屏幕方向的三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形。

  光栅器(Rasterizer)为每一个基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能,那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器在每个时钟周期内均可输出8个像素,整个芯片每个时钟周期内总共可输出32个光栅化的像素。

  光栅器所生成的像素将被发送至Z坐标压缩(Z-cull)单元。Z坐标压缩单元获取像素图块(Pixel Tile)并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从流水线中剔除,从而就不再需要进一步的像素着色工作了。

PolyMorph引擎与Raster引擎加入对GF100的GPC架构具有重大意义:

  PolyMorph引擎与Raster引擎的加入让GPC架构在平衡图形流水线方面实现了巨大突破。Tessellation(曲面细分)需要全新级别的三角形与光栅化性能。PolyMorph引擎为三角形、Tessellation(曲面细分)以及流出(Stream Out)等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。

GF100架构分析:第三代流处理器群(SM)

  从G80到GT200再到GF100,NVIDIA GPU的流处理器群(SM)已经升级至第三代,每一代各部分单元的配比都不一样。第三代SM在架构上引入了多项革新,使其不仅成为迄今为止最强大的SM,而且还是可编程性最强、效率最高的SM。

  GF100架构每个SM都有32个CUDA处理器,达到了之前SM中处理器数量的四倍。GF100的CUDA核心专为在着色器的任何负荷下均实现最高性能以及最高效率而设计。通过采用全标量架构,无论输入向量尺寸如何,都能够实现全部性能。Z缓冲区(1D)或纹理存取(2D)方面的操作均可充分利用GPU资源,再不受旧有的固定4D算法的约束。

  每一个CUDA处理器都拥有一个完全流水线化的整数算术逻辑单元(ALU)以及浮点单元(FPU)。GF100采用了全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的乘法加法(FMA)指令。FMA在一个最终的四舍五入步骤中即可完成乘法与加法运算,改进了乘法加法(MAD)指令,在加法中不会损失精度。FMA在处理紧密重叠的三角形时能够最大限度地减少渲染错误。

  在GF100中,全新设计的整数ALU支持所有指令全32位精度,符合标准编程语言的要求。整数ALU还经过了优化,可有效支持64位以及更高精度的运算。它支持各种指令,其中包括Boolean、移位、移动、比较、转换、位字段提取、位反向插入(Bit-reverse Insert)以及种群统计。

GF100流处理器群的载入单元与存储单元:

  每一个SM都拥有16个载入/存储单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或DRAM中。

GF100流处理器群的四个特殊功能单元:

  特殊功能单元(SFU)可执行抽象的指令,例如正弦(sin)、余弦(cosine)、倒数和平方根。图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令,一个Warp(32个线程)的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来,让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。

GF100流处理器群的双Warp调度器  

  GF100架构的每个SM可对32个为一组的并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行(Dual-issue)模式,GF100能够实现接近峰值的硬件性能。

  大多数指令都能够实现双路执行,两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。双精度指令不支持与其它指令同时分派。

GF100流处理器群的纹理单元

  GF100架构每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。GF100的目标是通过提升效率来提升纹理性能。通过将纹理单元搬到SM当中实现了这一目标,提升了纹理高速缓存的效率、实现了更高的时钟频率。

  在以往的GT200架构中,最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元。而在GF100架构中,每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。而且,纹理单元的内部架构还得到了大幅增强。在阴影贴图、屏幕空间环境光遮挡等实际使用情况中,净效应就是所实现的纹理性能得到了大幅提升。

  GF100专用的1级纹理高速缓存经过重新设计,可实现更高的效率。而且,通过配备统一的2级高速缓存,纹理可用的最大高速缓存容量达到了GT200的三倍,为纹理密集的着色器提升了命中率。之前架构上的纹理单元以GPU的核心频率工作。在GF100上,纹理单元的运行频率与SM同步,从而在单元数量相同时提升了纹理性能。

  GF100的纹理单元还新增了对DirectX 11中BC6H与BC7纹理压缩格式的支持,从而减少了HDR纹理与渲染器目标的存储器占用。纹理单元通过DirectX 11的四偏置点(Four-offset)Gather4特性,还支持抖动采样。这样一来,单一纹理指令就能够从一个128×128的像素网格中获取四个纹理像素。GF100在硬件上采用了DirectX 11四偏置点Gather4,大大加快了阴影贴图、环境光遮挡以及后期处理算法的速度。凭借抖动采样,游戏就能够高效地执行更加平滑的软阴影或定制纹理过滤器。

GF100流处理器群可调配的共享存储器与L1缓存

  作为一种高速、可编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新。通过促进线程间的通信,共享存储器让各种各样的应用程序均能够在GPU上高效地运行。从此共享存储器便被所有主要的GPU计算标准与同类架构所采用。

  在GF100架构中,每个SM均包含了一个专用的1级高速缓存。1级高速缓存能够起到与共享存储器互补的作用,共享存储器能够为明确界定存储器存取的算法提升存储器存取速度,而1级高速缓存则能够为这些不规则的算法提升存储器存取速度。在这些不规则算法中,事先并不知道数据地址。

  每个SM均拥有64KB容量的片上存储器,这部分存储器可配置为16KB的1级高速缓存外加48KB共享存储器,或配置为16KB共享存储器外加48KB的1级高速缓存,这就是可调配性。

  对于图形程序,GF100能够利用16KB的1级高速缓存配置。1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升。而如果针对计算程序,1级高速缓存以及共享存储器让同一个线程块中的线程能够互相协作,从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享且可调配的存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。

GF100架构分析:高速二级缓存

  GF100拥有一个768KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务。2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短,从而提升了带宽效率。

  统一的高速缓存比单独的高速缓存效率更高。在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订,它也无法使用其它高速缓存中未贴图的部分。高速缓存的利用率将时钟低于理论峰值。GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存。2级高速缓存取代了之前GPU中的2级纹理高速缓存、ROP高速缓存以及片上FIFO。

  与只读的GT200 2级高速缓存相比,GF100的2级高速缓存既能读又能写,而且是完全一致的。我们采用了一种优先算法来清除2级高速缓存中的数据,这种算法包含了各种检查,可帮助确保所需的数据能够驻留在高速缓存当中。

GF100架构分析:优化8xAA的ROP与32xAA支持

提升抗锯齿能力的新型ROP单元——

  GF100的ROP子系统经过重新设计,可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元,数量比上一代架构翻了一倍。每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。

  在GF100上,由于压缩效率的提升以及更多ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升。当压缩不起作用时,场景中几何逼真度的提升更加需要ROP单元良好地运行。

支持高达32x的覆盖采样抗锯齿(CSAA)——

  GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,该模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏进一步提升几何逼真度。

  由于受到API与GPU计算能力的限制,当今的游戏能够渲染的几何图形数量还很有限。叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明纹理公告板,利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA),GPU共有32个覆盖采样,从而最大限度减少了镶边效果。

  透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中,所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助。取而代之的是,它们采用了一种叫做“透明测试”的技术,该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码,使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合,能够生成大幅提升的图像质量。

GF100架构分析:面向图形方面的各种计算

  计算机图形是一系列具有无数种途径的多样化问题。光栅化、光线追踪以及Reyes都是为人们所广泛认可的通用渲染算法。在每一种渲染风格中,都存在着针对各种子问题的不同解决方案。迄今为止,GPU已经专为光栅化而进行了设计。随着开发人员不断探索全新的方式来改进其图形引擎,GPU将需要在各种不断发展的图形算法上实现出色的性能。

  在游戏当中,每一帧都会出现渲染算法切换,这一点使其性能很难达到灵敏帧速率的要求。GF100将渲染算法切换的时间缩短至约20微妙,使其能够在每帧多个内核之间执行精细的上下文切换。例如,一款游戏可以使用DirectX 11来渲染场景、切换至CUDA以实现选择性光线追踪、调用一个DirectCompute内核来执行后期处理以及利用PhysX执行流体模拟。

将来诸多的游戏计算都可以利用GPU进行:

新渲染算法

——可获得精确发射与折射效果的光线追踪
——用于精细贴图置换与高品质抗锯齿的Reyes
——用语立体数据模拟的立体象素渲染

图象处理算法

——具有精确焦外聚光点的顶制景深
——用于高级HDR渲染的直方图
——用于高级模糊及锐化效果的定制过滤器

物理效果模拟

——用于高级流体模拟的平滑粒子流体力学
——用于精细烟雾与流体特效
——物理学物体广泛应用

大量游戏人物的人工智能算法

  另外,随着开发人员越来越多地将GPU应用于通用用途,在编程语言以及调试方面提供更好的支持就变得愈加重要。GF100是首款完全支持C++的GPU(图形处理器),C++是游戏开发人员所选用的一种编程语言。为了使向GPU编程的过渡过程变得轻而易举,我们还开发了Nexus,Nexus是一种面向GPU的微软Visual Studio编程环境。加上这些能够提供更好调试支持的全新硬件特性,开发人员将能够在GPU上轻松开展开发工作,正如他们在CPU上开发应用程序一样。

GF100图形计算:光线追踪与流体力学

GF100图形计算:光线追踪

  无论是光线追踪本身还是光线追踪与光栅化的结合都行业视为是图形处理的未来发展趋势,随着GF100问世,交互式的光线追踪计算首次在PC上成为可能。

  过去在GPU难以高效运行的难题当中,光线追踪一直是很有代表性的一个。光线追踪反复循环的工作让GPU反复地计算,而且光线方向具有不可预测性,需要大量随机存储器存取,为高效灵活处理,GPU一般以线性块的方式存取储存器。

  GF100面向图形方面的计算能力,在设计其间就专门把光线追踪考虑在内了,GF100是首款在硬件上支持光线追踪循环计算的GPU,能够执行高效的光线追踪和大量的其他图形算法。通过灵活可调配存储器的存取性能,GF100的1级和2级高速缓存大幅提升了光线追踪的效率。

  GF100不仅在标准光线追踪中有优势,并且在路径追踪等高级全局照明算法中也有不错的表现。路径追踪采用大量光线来收集场景中的环境光照信息。上图为NVIDIA借助OptiX技术的路径追踪所渲染的布加迪威龙,OptiX技术能很容易整合到众多的游戏渲染引擎中,从而实现近乎真实照片般的逼真效果。

GF100图形计算:流体力学

  逼真的流体效果模拟长期以来一直被用于电影中,《终结者2:审判日》中的T-1000角色正是由计算机生成的“液态金属”所打造出来的效果。对海量水体的模拟效果是完成《2010》中灾难场景的重要组成部分。在PC游戏领域,虽然游戏设计师很渴望可以利用类似效果打造出更逼真的游戏画面,但流体模拟的复杂计算阻碍了他们在实时应用程序中应用。

  GF100是首款能够满足高效流体模拟所需性能的GPU,GF100搭配一款改进型SPH解算器就能够让游戏设计师在整个游戏环境中加入高品质SPH流体效果。GF100能够模拟每帧128000个以上的SPH粒子,足以支持大量的水和各种基于流体的特效。例如可用于为雨水建模,制作出自然形成的水花、旋涡和溢流效果。

  SPH算法一般不利用共享存储器,共享存储器在上一代架构中限制了性能。GF100强大的高速缓存架构大幅减少片外存储器的通信量,从而能够在不耗尽存储器带宽的情况下模拟大量粒子效果。

 

GF100的多屏幕3D环绕立体幻镜技术

  除了画面外,多屏显示似乎是DX11时代的一个新方向,ATI的Eyefinity宽域技术最多支持6屏幕输出,使全线HD5000系列显卡至少能支持3屏输出。而NVIDIA的GF100架构在多屏输出的基础上还结合了自己的技术特性,推出了环绕立体幻镜技术。

  三屏幕3D立体幻镜的渲染能力最高需要每秒7.46亿个象素,这个数字是上代顶级游戏配置的三倍,加上Tessellation、计算着色和物理运算等负载之后,三屏幕3D立体幻镜玩游戏时对GPU的要求达到前所未有的高度,所以组建三屏幕3D立体幻镜必须配搭GTX400系列或GTX200系列显卡的SLI系统。

  另外,根据NVIDIA介绍,即使玩家没有配备3D幻镜及3D显示器,也可以通过三台普通显示器实现多屏环绕效果,最高可支持三台2560x1600分辨率的显示器组成多屏环绕显示系统,不过组建这样的多屏显示系统仍然需要两块或更多的NVIDIA显卡组成SLI配置。

  边框阻隔是多屏幕显示无可避免的问题,ATI的Eyefinity宽域技术在初期也不具备边框校正功能,而后来在催化剂10.3驱动中才加入边框补偿的功能。而NVIDIA的多屏幕3D环绕立体幻镜技术同样支持类似的技术。边框校正能使多显示器画面连接后显得具连贯性,玩家就好象坐在座舱里面往外看风景一样,窗框挡住了部分视线,这样的体验更贴近真实。

关于曲面细分和贴图置换的概述

  虽然Tessellation(曲面细分)以及Displacement Mapping(贴图置换)不是什么新型渲染技术,但是直到目前,电影行业还大都一直在运用这两项技术。随着DirectX 11与NVIDIA GF100的推出,开发人员将能够利用这些强大的技术来打造游戏应用程序。在游戏开发与高品质实时渲染上,我们将介绍一下Tessellation(曲面细分)以及Displacement Mapping(贴图置换)的一些特性与优势。

  物体与人物等游戏内容一般需要用Mudbox、ZBrush、3D Studio Max、Maya或SoftImage等建模软件包来创建。这些软件包能够提供基于Displacement Mapping(贴图置换)表面的工具来辅助艺术家创建细腻的人物与环境。现在,艺术家必须手动创建各种细腻程度的多边形模型,以满足游戏中各种渲染场景所需、达到保持可玩性帧速率的目的。这些模型就是带有相关纹理贴图的三角形网格,而这些纹理贴图则是正确着色所需要的。当游戏中运用到这些模型时,每一帧的模型信息都通过主接口(Host Interface)发送给GPU。由于PCI Express总线的带宽限制,游戏开发商倾向于使用相对简单的几何模型以及目前GPU最保守的几何学吞吐量。

  即使在最好的游戏中,也会因为现有图形API以及GPU的限制而存在几何学伪像。在下列《FarCry2》游戏截图中即可看到复杂几何图形的折衷表现结果。手枪皮套有太多的刻画面,皮带的分割感太强。瓦楞屋顶本应看起来有波纹感,但是实际上是带有条纹纹理的平面。最后,正如游戏中的大多数人物一样,这个人戴着一顶帽子,细心地避开了渲染头发所涉及的复杂度。

  利用基于GPU的Tessellation(曲面细分),游戏开发人员能够发送物体或人物的紧凑型几何表现形式,而Tessellator单元则能够为特定场景生成合适的几何学复杂度。现在我们来看看更加细腻的细节表现,研究一下Tessellation(曲面细分)与Displacement Mapping(贴图置换)结合使用的特点与优势。

  让我们来看一看上面的人物。我们能够看到,在左边的图像使用了四边形网格来勾勒人物的大致轮廓。即使与一般的游戏内容相比,这种表现形式占用空间也是非常少的。中间这幅人物图像是对左侧图像进行了精细Tessellation(曲面细分)与描绘的结果。因此它拥有了非常光滑的外观,没有因几何形状的限制而形成多个刻画面。不幸的是,这个人物虽然外表光滑,但是与粗糙的网格相比,细节部分并无改善。右侧的图像是对中间图像附上了一个Displacement Mapping(贴图置换)的效果。这个人物拥有可媲美电影制作中的丰富几何细节。

测试平台说明及测试介绍:

  测试平台:

 

  测试说明 :

  测试项目方面,我们舍弃了老旧的3Dmark06,只采用3Dmark Vantage作为理论性能的项目。而游戏方面若游戏有自带或者第三方Benchamark软件则使用,若没有的则使用FRAPS监查帧数变化最平均值,务求尽量获得最准确的数据;由于测试对象为NVIDIA新一代的高端显卡,我们直接采用2560*1600和1920*1200两个高分辨率进行性能测试,所以部分要求强度相对较低的游戏,开启8xAA全屏抗锯齿的方式进行测试。

理论性能测试----3Dmark Vantage

  3DMark Vantage是专门针对微软DX10 API的综合性基准测试工具。 此前的3DMark最终结果只有一个简单的分数,3DMark Vantage一个全新特性是引入了四种不同等级的参数预设(Preset),按照画质等级划分成了入门级(Entry,E)、性能级(Performance,P)、高端级(High,H)、极限级(Extreme,X)四类。测试结果改成了“字母等级”加“数字”的组合形式。

  3Dmark Vantage的理论测试中,在主流强度的Performance模式里面关闭物理的GTX480/470都分别稍微落后于HD5870与HD5850,这主要原因在于低强度下更考验的是显卡的运行频率,这方面HD5800系列占了便宜。

  而到了高强度的Extreme模式,GTX400系列终于展现了其强大的性能,反超ATI的HD5800系列。另外不得不提的是GTX480的双卡效率相当高,在Extreme模式下提升幅度达到185%。

DirectX10游戏----Crysis Warhead《孤岛危机:弹头》 

  Crysis Warhead《孤岛危机:弹头》全面强化Nanosuit作战服的崭新能力与操作体验,新加入的“Advanced AI”技术将把游戏互动体验提升到一个更高的高度。玩家将在游戏中继续借助Nanosuit与外星种族展开最后的生死搏斗,与众多新增角色一同进行惊心动魄的冒险之旅。无可否认,Crysis Warhead的配置需求代表了将来很长一段时间DX10游戏的基本配置要求,很具参考性。

  可以看到新一代的顶级显卡终于可以在24寸加4XAA的环境下,以50的平均FPS畅玩“显卡危机”了。而30寸超大显示器的环境下唯一能超过30FPS水平线的显卡全球只有GTX480可以达到。GTX480双卡系统继续在高负载的情况下发挥作用,性能提升幅度仍然超过80%。

DirectX10游戏----FarCry2《孤岛惊魂2》 

  《Far Cry 2》游戏采用了强大的技术和卓越的声音视觉效果共同创造了一个艳丽的虚拟世界,其中包含了众多聪明的敌人、与现实相贴切的枪械和车辆以及它们的损坏方式。与此同时,其快节奏的游戏体验也给人以刺激的挑战。

  打开抗锯齿的《孤岛惊魂》是对显卡ROP性能最敏感的一个游戏,由这项测试中可以看到优化ROP性能后的GTX400性能十分强劲,即使是次高端的GTX470也能一举超过ATI最快单核的HD5870。而GTX480更是最多领先HD5870达到50%以上!

 

DirectX10游戏----Resident Evil 5《生化危机5》

  《生化危机5》的故事是在一片酷热沙漠中的无名小镇上展开的,根据竹内润的介绍,这个地区发生了类似种族冲突的纷争,居民们情绪激动且各种暴力事件频发。与真实世界中发生种族冲突乃至仇杀的地区一样,这里充满了混乱,社会失去了本来的秩序,正义和邪恶的界限已经变得模糊不清。我们的主人公克瑞斯,就是在这样一个背景下前往这个充满动荡的地区展开调查的。

  生化危机5中低分辨率下仍然是以GTX480击败HD5870、GTX470压倒HD5850的规律进行着,不过随着分辨率提高,ATI HD5800系列的表现有所提升,2560X1600分辨率下HD5850反超了GTX470,不过GTX480仍然以微弱优势超过HD5870。

DirectX9游戏----STREET FIGHTER 4《街头霸王4》

  在经历了10年岁月、两代主机更迭交替、无以计数的传闻和猜测后,Capcom公司的格斗游戏名作《街头霸王》系列的最新续作《街头霸王4》终于向玩家们显露出他的真实面貌。本作将承袭系列作传统2D玩法,并采用最新的3D绘图技术,以更华丽的方式重现原作独特的2D绘图风格.

  根据我们测试经验得知《街头霸王4》是ATI传统强项,尤其在高AA强度的情况下。可见旧GT200架构的GTX285在该项测试中比HD5800系列落后很多。不过GTX400系列则一改这个局面,即使是GTX470就已经基本和HD5870持平。另一方面可以看到在高分辨率下GTX480比GTX285有着一倍以上的提升,这不得不服全新GF100架构的厉害。

DirectX9游戏----StarCraft 2 beta《星际争霸2 beta》

  2月18日——《星际争霸2》终于展开了万众期待的全球范围的封闭测试,来自世界各地的数千名受到暴雪邀请的游戏玩家才有幸参与封闭测试。星际2延续了星际1传统的打法,同样是以人海战术和兵种的搭配为重点。既然用人海战术,那么对系统整机的要求还是非常高的,显卡性能差点就会被KO。

  千元以上的高端卡在星际2中基本性能差别不大,由于暴雪的游戏在3D图形效果方面并非特别复杂,所以该测试频率成了关键因素,很明显的一点可见:GTX285性能甚至比GTX470还要好,主要是因为频率更高。因此HD5800系列显卡在该项测试中占了一点优势。同时也可见SLI双卡在暴雪游戏里面不发挥多太作用,这几乎是长年不变的规则。

DirectX9游戏----NEED for speed:shift《极品飞车13:变速》

  《极品飞车13》将偏向于赛车的真实感,游戏画面风格和赛车的操控感都将有较大的改变。《极品飞车13:变速》是《极品飞车》系列转型之后推出的首批作品当中的次世代版。本作不再由过去的Black Box工作室开发,而是交给了Slightly Mad工作室。Slightly Mad工作室专以开发赛车游戏见长。

  《极品飞车13》显然对于这些怪兽级显卡来说只是小菜一碟,所有显卡都能在最高分辨率+8XAA的情况下流畅体验该游戏,A与N阵容在此游戏中性能差别很少。

物理加速游戏----Batman: Arkham Asylum《蝙蝠侠:阿甘疯人院》

   Eidos Interactive、华纳兄弟互动娱乐和NVIDIA公司共同宣布,由DC Comics公司授权的《蝙蝠侠:阿甘疯人院》Windows PC版本支持NVIDIA PhysX技术,提供超逼真的临场体验,加上游戏中充满高度互动性的物件,带领玩家进入蝙蝠侠在纽约市罪犯精神病院中的惊险搏斗。

  《蝙蝠侠:阿甘疯人院》是一款物理游戏,ATI显卡在里面难以发挥出正常性能基本已经成为定理。

物理加速游戏----Dark Void《黑暗虚空》

  今年伊始卡普空代理发行了一款名为《Dark Void》(黑暗虚空)的游戏,制作单位是曾经帮微软开发过《血色苍穹》游戏的Airtight Games工作室,制作单位名气并不大,这样的游戏要想获得玩家的认可必须要有一些绝活,他们的选择是支持PhysX和APEX技术,游戏中的爆炸、烟雾以及碎片效果因此比以往的物理游戏更为强悍,制作方试图以提高玩家的互动性的方式作为突破口打开玩家的大门。

  《黑暗虚空》仍然是一个物理游戏,所以ATI仍然大幅度落后...

物理加速&DX11游戏----METRO 2033《地铁2033》

  本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。

  首个DX11+物理的重头作《地铁2033》又将是DX11时代的“显卡危机”,可见只有GTX480能在1920x1200分辨率下满足30FPS基本流畅。而在2560x1600超高分辨率下,除了GTX480双卡SLI外基本是全军溃灭。至于A卡方面.....因为这是一款物理游戏,所以...

DirectX11游戏----Colin McRae DiRT 2《 科林麦克雷:尘埃2 》

  作为全球首款支持DirectX 11的赛车游戏,《尘埃2》使用的EGO引擎整体部署DirectX 11技术,支持图形多线程、硬件Tessellation以及SM5.0等新特性,更注重沙尘和赛车的表现效果,无论是飘沙的设计,还是在车道上留下的车痕都体现的淋漓尽致。另外,据悉本作还针对车辆内的操作人员动作也做了强化,让玩家亲身体验赛车的刺激。

  曾经《尘埃2》是ATI大范围宣传Tessellation特效的一款重点DX11游戏,同时CodeMaster也是ATI的战略合作伙伴,不过这都不足以阻拦GTX400大军的脚步。GTX480/GTX470全面超过HD5800系列显卡,GTX480最多领先HD5870达到45%!加入PolyMorph引擎的GF100果然在Tessellation性能方面更胜一筹。

DirectX11游戏----S.T.A.L.K.E.R.: Call of Prypiat《潜行者:普里皮亚季的召唤》

  《S.T.A.L.K.E.R:普里皮亚季召唤》采用GSC的X-Ray图形引擎开发,并且支持DirectX 11。游戏故事发生在《切尔诺贝利的阴影》的故事之后,普里皮亚季是乌克兰的一个城镇名字,是切尔诺贝利事件的隔离区,它是一座被废弃的城市,具体在乌克兰首都基辅以北的区域,民间有“鬼城”之称,现时Pripyat市已经成为了一个旅游景点

  《潜行者:晴空》是唯一一个ATI HD5800系列全面超员GTX480/470的项目,这归咎于GSC Game World是ATI铁杆伙伴,从DX9到DX10.1再到DX11,GSC Game World一直都和ATI进行紧密的合作开发游戏。

DirectX11 DEMO----StoneGiant《石巨人》

  游戏引擎开发商BitSquid和游戏开发商Fatshark今日宣布,已为PC游戏爱好者准备了一款用于检验GPU之DX11能力的技术演示程序,名为“StoneGiant”。

  如果有兴趣的朋友不妨体验一下该DEMO,只要试过《石巨人》DEMO即可感觉到里面夸张的几何多变型使用率,每样物体每一个细节都做得非常细腻,十分考验显卡的几何生成能力。专门针对几何计算而优化架构的GF100在这测试里肯定占尽优势。

DirectX11游戏----Battlefield: Bad Company 2《叛逆连队2》

  《战地:叛逆连队2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏。该作是EA DICE开发的第9款“战地”系列作品,也是《战地:叛逆连队》的直接续作,在继承前作特性的基础上,加强了多人联机载具对战和团队合作元素的设定。游戏使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏的支持。

  近期颇受欢迎的《战地:叛逆连队2》是大家比较看重的游戏,NVIDIA与ATI的表现影响到众多玩家日后升级电脑体验叛逆连队2的重要依据。GTX400系列明显在该游戏中性价比更高,虽然GTX470稍慢于HD5870,不过前者肯定比HD5870便宜不少。

DirectX11 DEMO----Unigine_Heaven-2.0《天堂 2.0》

  Unigine放出了其DX11性能测试程序Unigine Heaven的2.0版本,Unigine Heaven 2.0支持DX9、10、11,并新增对OpenGL的支持,并进一步加重了tessellation负担,游戏支持高级SSAO技术,并能精确物理模拟的容积云和带有光线散射的动态天空。

  曾经ATI的HD5000系列显卡是唯一可以以DX11模式运行的显卡,而NVIDIA  GTX400系列到来不但终止了这种状况,并且一举全面超越了HD5800系列显卡。

NVIDIA游戏DEMO:Realistic Character Hair

  Character Hair是针对NVIDIA即将发布的Fermi显卡做了优化,其功能就是为了测试NVIDIA DriectX 11显卡的细分曲面技术。由于人像的头发能够随风而动是由Physics技术而生成的,所以人像的头发飘动自然而真实。在DEMO里可以不同角度的观看人像头发的动态效果,头发数量和曲面细分效果的强弱得到控制,实现实时的GPU渲染效果。

NVIDIA游戏DEMO:Realistic Water&Terrain

  Water&Terrain同样是针对NVIDIA即将发布的Fermi显卡做了优化,其功能就是为了测试NVIDIA DriectX 11显卡的细分曲面技术,同样使用Physics技术生成的水动态的流动。由于可以大量的使用Tessseltion(曲面细分)技术,所以水面的细节比较逼真。

 

NVIDIA游戏DEMO:RagingRapids(小船)

  RagingRapids此款游戏是专门为FERMI GPU而设计的Physx测试程序,小般行使过的水花溅射、旗帜的破坏和山上的滚石都是由Physx技术自帖控制和生成的。并且该程序还可以从GPU渲染马上切换到CPU渲染,实时看到Physx的强大运算及回事效果。

NVIDIA游戏DEMO:SupersonicSled

  SupersonicSled是NVIDIA根据Fermi显卡的特点而制作的一款demo,这款demo主要展示了Tessseltion(曲面细分)和Physx特效。

NVIDIA游戏DEMO:RayTracing_DesignGarage

  RayTracing这款Demo同样针对NVIDIA的Fermi显卡而推出的测试软件,这款Demo主要展示了显卡的光线追踪技术。在上代显卡中,光线追踪技术很早就被使用,虽然画面效果也十分精细,但其光线反射效果并不是通过实时运算产生,因此在物体运动时期表面的光影无法根据周围环境而变化。而最新的光线追踪技术则与现实更为接近,可以使物体表面根据周围环境产生不同的光影反射效果。

微软官方DX11性能测试DEMO测试:

注:数字越大超好!

CascadedShadowMaps11

SubD11

PNTriangles11

最强的CUDA转码压片:MediaCoder测试

  MediaCoder是一款免费的通用音频/视频批量转码软件,它将众多来自开源社区的音频/视频编解码器及工具整合为一个通用的解决方案,可将音频/视频文件在数种格式之间进行转换。并且支持CUDA Encoder,即是,只要你的显卡支持NVIDIA CUDA,比如GeForce 8系列以上显卡、Quadro FX系列等专业显卡以及Tesla运算处理器等,则可开启CUDA加速功能(上图红圈部分),可以加速视频转换速度。

CPU编码成绩:

CUDA Encoder编码成绩:

  可以看到GPU的CUDA编码加速技术具有质的优势,基本上领先传统的CPU编码一半有多。新架构的GTX480不愧为世上最快的单GPU显卡。

 

CUDA软件应用:Badaboom

  Badaboom是读者都已经非常熟悉的一款软件了,这款软件伴随着CUDA技术的正式发布,目前还确实受到了很多NVIDIA 显卡用户的青睐。Badaboom主要应用在视频转换上,进行视频编码的操作我们平时经常用到,例如我们要将从网络上下载或者从DVD上获得的视频文件进行重新的编码压缩,才能传到我们手机、IPOD、iPhone以及PSP中观看。

  经过笔者的测试,很大一部分视频格式都可以被BadaBoom支持,可以说所有编码格式的视频都能够支持。只不过互联网上有部分视频采用的非标准容器封装的,有可能导致BadaBoom不能正确识别。

  BadaBoom在目标视频的输出上可以直接支持数十种设备,即使这数十种分辨率中都没有你想要的,你还可以完全自定义视频分辨率,非常方便。不过需要提醒大家的是,BadaBoom是一款共享软件,从网上下载之后只有30次的试用期,过期后则必须购买正式版本。

  而由于要进行和其他软件的对比测试,显然这样的模板设计不能满足我们要求。我们要具体指导它的码率、品质、音频品质等等,以保证和其他软件压缩一致性。

  而从图片中看到,左侧一栏可以直接选择光驱中的光盘、浏览DVD中的对应文件,或者直接在硬盘上搜索需要压缩的文件,操作也非常方便。

CUDA软件应用:PowerDirector(威力导演) 

  威力导演这款软件就是专门针对这样的人群而设计的一款简便易上手的视频剪辑软件。软件的界面非常具有前卫感,提供的功能包括了视频剪辑、音频分离、音频剪辑、过场效果、视频特效、字幕效果等等等等,可谓非常全面。即使是对于有一定专业要求的用户来说,威力导演也能够满足他们的需要。

  不必多说,这款软件自然也是一款基于CUDA架构而设计的软件了。我们可以在软件的设置界面当中,打开“编辑”选项卡,在这个选项卡的底部就可以看到开启GPU加速的选项了:

  值得注意的是,这款软件同样是一款仅支持NVIDIA CUDA架构的GPU加速软件,而软件也提示用户尽量选择性能稍高的显卡进行计算。不过通过我们的实验,即使目前NVIDIA 的入门级产品也基本上等同于现在顶级的CPU性能了。

CUDA软件应用:MotionDSP vReveal

  vReveal这款软件的界面非常简单,对于大多数初学者用户来说上手自然也就非常方便了。用户只要将需要优化的视频拖拽或者添加(实际上,首次安装完毕vReveal软件后,系统会自动搜索视频文件)到软件当中,就可以轻松对这些视频进行编辑了。

  这款软件虽然能够支持CUDA架构的GPU计算,不过同样也是一款支持CPU计算的软件,因此我们在使用前一定要确认在软件当中打开了GPU加速的支持。软件安装完毕后默认是开启GPU加速的,我们可以参考下图的设置确认是否开启了GPU加速功能:

  从软件设置上很容易看出,这款软件目前仅提供了对NVIDIA 统一架构显卡的支持,而对于ATI 产品来说,目前尚未提供支持。我们在确认好开启GPU加速之后,接下来就可以尝试为手机或者小型数码相机拍摄的视频短片进行优化了。

  实测效果对比图:

  左侧画面更为昏暗,主题不突出,而通过处理的画面锐度变得更高,可以看清很多细节元素,另外在功能选项中的“防抖”技术非常好玩,它是利用截取视频中的恒定部分让画面更为稳定,实际播放的效果更为明显。

CUDA软件应用:Folding@Home

  Folding@home是斯坦福大学的一个分布式计算计划可以利用分布于全球的计算机模拟复杂的蛋白质折叠效应,是一款典型的科学计算程序。目前已经推出了支持CUDA环境的版本。该项目的客户端程序可以使用客户机的CPU或NVIDIA CUDA enable GPU对同一以项目进行求解,为了让大家最清楚的了解CUDA的GeForce系列GPU在科学计算方面与CPU和其他计算解决方案在性能上的区别。

  从测试的过程可以看出,GTX480的Folding@home的性能非常强大,领先GTX285一倍有多。而且这组数据也给我们了解到NVIDIA GPU在Folding @home计算中的强大之处。

温度测试:

注:室温为16℃-24℃

  GTX480温度测试结果图:

  GTX470温度测试结果图:

  温度方面,在封闭机箱的情况下GTX480和GTX470不约而同地都是88度左右,可以证明核心发热量有点大。不过在满载下,温度情况得到好转,同样是在96度处风扇开启了全速,显卡温度得到缓解。

  功耗测试:

  功耗因素测试说明 :

  在功耗的对比方面,我们选择了Seasonic的Powerangel功率测试仪器进行平台的功耗对比(不包含光驱显示器及其他周边配件和外设)即机箱内设备功耗。测试主要划分为闲置与满载两个项目,其中闲置主要是针对进入系统后闲置的状态下,而满载则针对的是FURMARK进行渲染平均功耗读数测试进行。测试在都关闭主板板载的CPU节能功能的环境下进行。

  功耗方面,由于发热量有点大,而且风扇转速闲值比较高,所以满载方面的功耗会比较高。不过另一方面,在待机的情况下,功耗控制还是比较不错了。原因就在于,比较低端的2D频率。

总结:DX11首战终落幕 新时代将越来越精彩

  经历半年的失利后,NVIDIA终于首次登台DX11,并毫无疑问地完全击败对手,消灭了所有GTX480/470延迟半年仍然优势不明显的谣言。

  预计GTX480和GTX470价格分别为3999元和2999元,比HD5870和HD5850目前3299元2299元的价格要高出一段距离。加上HD5800系列已经上市半年时间,不少简化型非公版早已准备就绪,估计在GTX480/470货源稳定之际,ATI肯定会采用降价策略应对,时间是ATI现阶段强而有力的武器。

  不得不正视的一个问题,就是ATI中型核心策略里面的双核单卡战略,HD5970早早已在市场中等待GTX480的挑战,而受制于功耗方面的难题,GF100要推出双核版本相信仍然要等一段时间。

  另外,GF100架构的延伸产品线在时间方面也是个大问题,尽管GTX480/470到来肯定风光无限,但除此以外NVIDIA在DX11领域仍然没有任何产品,基于GF100架构的中低端产品目前仍然没有任何消息,反观ATI的全线产品都已经在布局完成,这实在是让人担忧的局面。

  不过不管怎样,我们在GF100系列身上好象又看到了G80的影子,NVIDIA总是在每次DirectX更新之际冒一个创新的险,下一盘很大的棋。正如DirectX9时代的FX5800,DirectX10时代的Geforce8800系列,他们相比旧一代显卡都有着翻天覆地的变化。NVIDIA承担着新工艺成品率、成本控制、功耗控制和时间把握等风险,把几乎所有想实现的事情都赋予在Fermi架构身上,这是一次把创新压了大注码的赌博,大家都应该为NVIDIA的创新精神而致敬。而反观ATI,他们把注码更多地放在掌握生产工艺和架构深挖上面,RV800的SIMD架构能追溯到R580时代,预计ATI下一代架构仍然围绕生产设计水平为主要基石的中型核心策略。两者截然不同的晶片设计风格将在DX11时代继续上演一幕幕的精彩对决。