千元价位重磅炸弹 GTX460显卡全球首测

2010-07-15 07:37 出处：PConline原创作者：佚名责任编辑：zhanli

　　那我们来看一下，目前千元级别都存在哪些产品，当然关于依然绝唱的上代显卡在这里我们就不列出来了，因为就市场端来看经常缺货抑或根本找不到了。A卡方面，HD5770，HD5830;N卡方面，GTX460，GTX465。除了最新上市的GTX460显卡，其余几款很多品牌都做了降价处理。HD5770目前售价899元，HD5830售价1499元，对于A饭来说，这次真的要感谢一下NVIDIA GTX460。而N卡方面，除了今天要发布的GTX460，GTX465不少商家也降至了1899元。为什么刚上市不久就会掉价如此猛烈，相信看完评测部分大家心里都应该有个底了。

　　关于架构方面，我想很多朋友和我一样好奇，NVIDIA这次是不是又在GF100的基础上屏蔽几组SM，称为新产品。下面这张图也许能帮助大家直观得了解。GeForce GTX460采用的是GF104显示核心。

　　从上面这张图来看，SM的数量少了一半，不过SM的内容数量有所改变。而且有一点我得跟大家交代一下，GF104的核心架构图应该是扁的才对，从后面的PCB上大家也可以看出，GPU的形状呈长方形，且比较小巧。

　　下面，我们就来对两者的核心架构进行一下简单的分析。

GF100与GF104核心规格对比：

-CUDA核心方面：GF100具备512个，而GF104具备384个

-GPC(图形处理器集群)：GF100具备4个，GF104具备2个，砍半

-Raster Engine(光栅化引擎)：GF100具备4个，GF104具备2个，砍半

-SM(流处理器簇)：GF100具备16个，GF104具备8个，砍半

-PolyMorph Engine(多形体引擎)：GF100具备16个，GF104具备8个，砍半

-纹理单元：GF100具备64个，GF104同样具备64个

-光栅单元：GF100具备48个，GF104具备32个

GF104显示核心

　　从上图以及与GF100和GF104核心的对比可以看出，纹理单元保持原有数量不变之外，除了CUDA核心与光栅单元没有对半砍外，其他的均减少了一半。

　　GF104与GF100一样，同样舍弃了TPC(Texture Processing Cluster)概念，引入全新的GPC(Graphic Processing Cluster)图形处理器集群概念。GeForce GTX 460中GPC是由4个SM单元和1个Raster Engine引擎所组成，将顶点、几何、光栅、纹理以及像素处理资源进行有机整合。而GTX460与GTX480相同，都没有采用完整的规格，其中一组SM阵列被屏蔽，减少了48个流处理器和八个纹理单元。

　　说到这里，我想一些读者应该会与我有相同的想法，难道NVIDIA留了一手？还有传说中的GTX460+出现？如果有，又将是填补哪个价位，哪个产品的空缺呢？不过，这个估计得等一段时间才能揭晓，我们还是来看一下与其有竞争力的几块显卡的规格对比。

　　在GTX480评测的时候我们对新架构中做了一个比较详细的介绍。既然都是基于fermi架构而来，自然百变不离其宗。下面，我们就GF104的架构再做一遍温习。

关键词之Raster Engine和Polymorph Engine

　　NVIDIA认为成熟的GT200架构已经无法适应大规模的tessellation计算，决定为DX11产品设计全新的图形架构。而并行化的Raster Engine和Polymorph Engine就是并行处理架构上的关键模块。

　　Polymorph Engine运算过程

　　顶点拾取、曲面细分、观察口转换、属性设置和流式输出是Polymorph Engine工作的五个阶段。任意阶段的运算都会被发送至一组SM。该SM将执行游戏的着色程序并将计算结果返回至Polymorph Engine的下一个阶段。所有阶段性计算完成之后，结果再传输给Raster Engine。

　　Raster Engine运算过程

　　每个Polymorph Engine都拥有专属的顶点获取单元以及tessellator，很大得提高了几何性能。另外，四个并行的Raster Engine与之遥相呼应，他们在每个时钟周期内设置最多四个三角形。

关键词之SM阵列

　　在GTX460中，一个GPC由两组SM阵列组成，每一组SM阵列具备48个流处理器、一个PolyMorph Engine多形体引擎、16个Store单元、八个SFU单元和8个纹理单元、两个Warp调度器和指令发送器、能配置为48KB Shared Memory+16KB L1缓存或者16KB Shared Memory+48KB L1缓存的共享内存/L1缓存。在AMD统一渲染架构的GPU中，类似SM等级的部件是SIMD Core，例如RV870拥有20个SIMD Core。

关键词之纹理单元

　　在GF104中，每个SM配备了8个纹理单元，共计64个。和上一代GT200以及竞争对手Cypress的80个纹理单元相比，与GF100一样，GF104的纹理单元数量不但没有提升，反而下降了，而GeForce GTX4650由于屏蔽了1组SM，实际上只有48个纹理单元，比GTX465多4个。NVIDIA通过将纹理单元移植到SM中的设计来提升纹理单元的使用效率和时钟频率。一个纹理单元在一个时钟周期内能够计算一格纹理地址并获取四个纹理采样，可以支持包括双线性、三线性在内的各项异性过滤模式。

关键词之Shared Memory和L1/L2 cache

GF100的L1/L2缓存

　　在G80和GT200中，每个SM都有16KB的shared memory。而fermi中，每个SM拥有16KB的shared memory，能配置为48KB shared memory+16KB L1 cache或者16KB shared memory+48KB L1 cache的模式。程序员可以自己编写一段小程序，把shared memory 当成cache来使用，由软件负责实现数据的读写和一致性管理。而在fermi架构中，其提供了768KB的一体化L2 cache，L2 cache为左右的Load/Store以及纹理请求提供高速缓存。L2 chche上读取的数据都是连贯的，它实现了GPU高效横跨数据共享，对于那些无法预知数据地址的算法，例如物理结算期、光线追踪以及稀疏矩阵乘法都可以从Fermi的内存设计中获益。

关键词之ROP单元

　　GF104包含四个ROP分区，一个ROP分区包括了8个ROP单元，共计32个ROP单元。一格ROP单元能在一个时钟周期内输出一格32位整数像素，理论上，由于ROP的压缩效率和ROP单元数量的提升，GF104在8x抗锯齿下的性能会得到明显改善。我们从GTX480的评测文章中就已经可以看出这一点了，这次GTX4650的评测我们也将在这一点有具体呈现。

为DX11而生的完美GF104

　　GF100迟到了近大半年，在这大半年中ATI顶着DX11的皇冠红了。但是从以上的架构的简单分析来看，我更偏向于NVIDIA的全新架构，虽然ATI HD5000系列从高端到低端支持DX11的显卡都已配齐，但是谁都知道，在架构上做削减的HD5000系列低端卡玩起DX11游戏是相当费劲，但还是吸引了不少消费者的眼球。下面我们来看一下DX11显卡所具有的特性：

1. Tessellation：镶嵌式细分曲面技术

2. Multi-Threading：多线程处理

3. DirectCompute 11：计算着色器

4. ShaderModel 5.0：着色器模型5.0版

5. Texture Compression：纹理压缩

不过，由于之前对这些概念都已经嚼过了，今天我们就只拎其中一个比较重要的出来为大家做一下解析。