正在阅读：NV独领风骚！开普勒GTX680显卡震撼首测NV独领风骚！开普勒GTX680显卡震撼首测

2012-03-22 20:51 出处：PConline原创作者：阿乐责任编辑：zhangqingle

“开普勒”显卡第二步：费米

　　NVIDIA将2010年的GTX400系列显卡新架构命名为“费米”，是第二款以大物理学家命名的产品，通用运算理念再一次得到进化。后来的事实也证明，Fermi确实是NVIDIA最得意之作，甚至连对手AMD今年新推出的“GCN”架构也借鉴了不少“费米”的通用运算理念，这点我们后文再细说。

DX11与并行运算的结合：“费米”架构简析

　　2010年，NVIDIA声称Fermi GF100是一个全新架构并非没有道理。几乎每一个原有模块都进行了重组：有的砍掉了，有的转移了，有的增强了，还新增了光栅引擎和多形体引擎。完整的GF100核心总共有16组SM，每一组SM包含32个CUDA核心，ROP单元总共48个，分为六组，分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。

完整的GF100核心架构

　　“费米”架构GF100芯片内建512个流处理器，NVIDIA将之称作“CUDA核心”，这512个核心分为16组SM单元，每组SM单元包含32个CUDA核心，核心晶体管数量达到了30亿个。设计如此大规模的GPU，在当时是一件近乎不可能的事情，因此“费米”芯片良品率低、功耗巨大。NVIDIA被迫在当时的旗舰GTX480显卡上，屏蔽了32个CUDA核心，但GTX480的性能依然达到了新高。

“费米”架构SM单元结构图

　　DX11一个很重要的特点就是细分曲面，细分曲面把游戏画面切割成更小的三角形，这样使得整个画面更加逼真细腻，而细分曲面的实现则需要用到多形体引擎，多形体引擎的数量也直接关系到显卡在DX11游戏中的表现。

“费米”的变化：通用运算是基础，也更适应DX11新特性

　　GF110芯片与之前的GT200芯片在核心架构上有巨大的不同，“费米”加入多形体引擎以更适应DX11显卡的要求。多形体引擎负责顶点拾取、细分曲面、视口转换、属性设定、流输出等五个方面的处理工作，以符合DX11中最重要的曲面细分(Tessellator)特性。GF100中有16个多形体引擎，每组SM一个。

“费米”第一代成品：GTX480规格

　　NVIDIA在GPU架构设计部分很出色，但是NVIDIA在芯片制造端掉了链子——由于GPU核心太大，台积电40nm工艺还不够成熟，导致GF100核心良品率低下，没能达到设计预期，最终的产品不仅功耗发热很大，而且规格不完整，外界对GTX480显卡的评价不是很高，让对手找到了攻击点。

Barts核心和Cayman核心：AMD开始做出改变

　　这时候AMD已经意识到自己走错了路子，开始寻找挽救的方法，继续小核心策略。2010年底，AMD发布HD6800系列，超线程分配处理器从一个变成两个。SIMD的缺点就是流处理器执行效率比MIMD架构低，其效率高低完全依赖于分配单元的派发效率。因此Barts这种双线程分配处理器的设计意义重大，可以有效地提高SIMD执行效率。到了HD6900核心则更进一步，图形引擎也变成了两个，进一步提升性能。

HD6870显著提升了曲面细分性能

　　根据AMD官方提供的数据来看，HD6870的曲面细分性能最多可达HD5870的两倍，这种情况出现在10级左右的中等细分程度，当曲面细分达到20级以上的时候，Tessellator本身的运算能力将成为瓶颈，此时线程派遣器的效率再高，也无济于事。

“费米”最终成品：上一代“制高点”GTX580显卡

　　由此可见，AMD HD6800核心和HD6900核心的改进都是治标不治本，AMD如果不改变SIMD架构很难再有新的突破。NVIDIA GF100核心的架构是相当强大的，等到工艺成熟之后的GF110核心（GTX580显卡），就又站在了游戏与通用计算的性能之巅。

　　“费米”这代的竞争，NVIDIA先输了上半场，下半场漂亮地反击。