费米相亲寻真芯 CPU快男30进7突围赛

2010-06-13 17:13 出处：PConline原创作者：无悠责任编辑：mengxiaodong

　　CPU真的是费米哥哥的数据之源么？不是说费米已经能够单独胜任以往CPU在图形处理时的很多工作，逐渐取代其角色了么？我们先来了解CPU和GPU之间是如何分工协作的。

　　为了清晰了解计算机在3D处理中的方法，我们不妨仔细观察一下雕塑家的工作。一般说来，很多雕塑家会在雕塑开始之前，用支架建立起一个简单的结构，尽可能模拟最终目标的形态，然后在这些支架上用各种各样的材料填充、并制作出栩栩如生的表面。在展示整个雕塑灵魂或者特别需要关注的地方，雕塑家还会用特殊的材质和手法进行雕刻，以达到最终的目的。

　　在计算机的处理过程中，我们将第一部分，也就是雕塑家搭建的支架，叫做建模。这部分内容由CPU和GPU共同完成(CPU为主、GPU为辅)。在这个步骤，计算机会将整个3D模型完全建立起来，并根据计算能力和计算需求，使用一定数量的三角形和框线来搭建一个“框线世界”。并将这些框线内容传递给GPU的顶点处理单元。

　　第二步，顶点处理单元收到了由CPU传来的数据后，会根据最终显示的图形需求，将图形由3D的模型转换成屏幕可以直接显示的2D图形。顶点处理单元输入原始3D模型的每一个顶点，再根据实际情况处理并输出2D画面的顶点。在这个过程中，那些被遮挡起来的、在屏幕上无法显示的场景，往往会根据Z轴也就是画面深度的数据，予以剔除或保留(如果是透明图形的话)。这个步骤被称作“平面化”。

　　第三步，计算机会利用各种手段，尽可能地让这个模型在场景中看起来足够真实。比如为物体加上阴影，对表面进行贴图处理，给予各种各样的光照效果等等。此阶段需要大量的像素和纹理操作，基本上全部交由GPU的像素处理引擎和纹理处理单元完成。我们称此步骤为“像素化”。

　　处理好的图像再经过一些后端处理(Render Back-Ends，游戏中常见的景深、动态模糊、色调映射、边缘侦测、平滑和锐化处理都是由后端处理来完成)，就能转化为我们在屏幕上看到的内容。需要说明的是，我们在本文对图形处理的描述非常简单，但实际情况远比上文描述的内容更为复杂。但总的来说，上述三个步骤：建模、平面化和像素化，覆盖了计算机处理图形的大部分重要内容。

　　所以，fermi的革命性意义在于，它能够“自主”的在CPU提供的三角形数据的技术上，随机切割三角形的平面，生成更多的小三角形，CPU在这条图形处理链上所扮演的角色，是上游数据的操纵者。因此，其提供数据的带宽大小，直接决定GPU的效能表现。而CPU数据提供质量的标准有两个，一个是系统总线带宽，也就是数据的高速通道；另外一个就是CPU的处理频率。

CUDA-Z软件界面截图

　　我们利用CUDA-Z（CUDA-Z是一个检测显卡CUDA性能的小软件，其功能大致相当于devicequery+bandwidthTest+一简单的benchmark），来检测GTX480的带宽数据，结果如下：

　　内存拷贝带宽: 57.7GB/s
　　单精度: 1338.0Gflop/s
　　双精度: 168.2Gflop/s
　　32位整数: 671.8Giop/s
　　24位整数: 671.0Giop/s

　　那么，我们在选购CPU时，就必须考虑基于新一代的QPI总线直链技术的CPU。QPI总线具有带宽大，效率高的特点。Intel的QuickPath Interconnect技术缩写为QPI，译为快速通道互联。事实上它的官方名字叫做CSI，Common System Interface公共系统界面，用来实现芯片之间的直接互联，而不是在通过FSB连接到北桥，矛头直指AMD的HT总线。无论是速度、带宽、每个针脚的带宽、功耗等一切规格都要超越HT总线，此外，QPI另一个亮点就是支持多条系统总线连接，Intel称之为multi-FSB。系统总线将会被分成多条连接，并且频率不再是单一固定的，也无须如以前那样还要再经过FSB进行连接。根据系统各个子系统对数据吞吐量的需求，每条系统总线连接的速度也可不同，这种特性无疑要比AMD目前Hypertransport总线更具弹性。而传统的FSB最大仅能提供12.8GB/s的带宽值，于费米的57.7GB/s比起来，可谓杯水车薪。