费米相亲寻真芯 CPU快男30进7突围赛

2010-06-13 17:13  出处:PConline原创  作者:无悠   责任编辑:mengxiaodong 

  【6月13日太平洋电脑网广西站】一个好汉三个帮,科比在加索尔和拜纳姆的强势撑腰下,射得随心所欲,2分、3分赚得分外香;而詹姆斯只能独孤一剑暂称王,统治力量难以长盛。因此党教导我们,要两手抓,两手都要硬,团结一致,才能获得整体战斗力的最大发挥。而对于主打性能和效能的高端PC来说,一个篱笆三个桩的同位语就是“一台强机三大件”。一块性能卓越的显卡,如果没有好的CPU、内存、硬盘作为坚强队友,不断“喂球”、“助攻”,它亦是发作不能。同理,i7 980X的梅西,没有坚挺有力的后腰、边锋,性能同样很寂寞。当然,是真的寂寞。这就是我们常说的“木桶原理”,在日常的PC应用中,制约性能海拔上涨的因素,正是系统木桶上最短的那根箍条。

123

  而CPU,正是木桶...不对,是系统,特别是搭载费米显卡的系统中,最短的那根条。 

1111 

  对于图像和3D处理应用密集型的系统来说,CPU和GPU可谓黄金搭档,是决定整机图形性能高低的哼哈二将。您的《NBA2K10》和《crysis 2》是60帧还是6帧,就取决于这两位大哥的配合默契程度了。俗话说,一个巴掌拍不响,CPU以及GPU的运算能力要互相适应,互相“对得起”,才能好事成双,效能最大化。目前基于GF100构架的费米产品,产品线日益丰富,售价日趋合理,已经开始软化消费者的抵触心理,初步熨开市场。而新出的GTX465以及襁褓中的GTX460产品,也将会大幅拉近米爷和群众间的距离,而类似《孤岛危机2》这样的硬件绞肉机也蓄势待发,相信很多朋友打算在近期入手GTX400系列的产品,那么,综合考虑GTX400系列的售价、发热量和功耗,我们该如何为米后招一块门当户对而又身价合理的U婿呢?

  煮米要用芯,为Fermi比武招亲,下面,无悠就与大家一起分享自己的选择心得,从IntelLGA775LGA1366AMD的Athlon II到Phenom II共30款处理器中,挑出7位男芯与费米绝配。而3D Mark Vantage是测试系统整体的DX11游戏效能的权威软件,那么,无悠将为大家从3D Mark官方网站上,收集、汇总来自世界各地的玩家的3D Mark Vantage成绩,让U男们突围得有图有真相(说明:GTX465以及GTX460因价格定位影响,促成AMD在2K战线上继续自导自演,因此本文未涉及GTX465和460的评述)。

  首先,正如每次相亲的保留节目,我们必须明确这块未来U婿的家世背景,这是能否促成好事的大前提条件。如果GTX480是足坛里的梅西,那么其脚痒程度自不必说,肯定巴不得从边线不断传来精妙的曲线传中,最好是暴走版+机器版的贝克汉姆,一秒一个助攻,要不,巧妇难为无米之炊岂不悲情?费米作为英伟达新一代的性能主力,其数据消化能力没得说,CPU和内存喂多少待处理的原始数据给他,他都来者不拒瞬间瓦解转换成有游戏和观赏价值的图形信息。而系统总线就是这些数据的运送高速公路。如果系统总线的数据带宽不足,就像公路的宽度过窄,导致数据传输赛。想想吧,当米哥砸吧着一张嗷嗷待哺的嘴,等着数据下锅开榨出一盘丰盛的视觉盛宴,数据材料却被滞留在路上,迟到了!巧妇难为无米之炊,费米断粮后,你要它提供个啥?

  CPU真的是费米哥哥的数据之源么?不是说费米已经能够单独胜任以往CPU在图形处理时的很多工作,逐渐取代其角色了么?我们先来了解CPU和GPU之间是如何分工协作的。

11

  为了清晰了解计算机在3D处理中的方法,我们不妨仔细观察一下雕塑家的工作。一般说来,很多雕塑家会在雕塑开始之前,用支架建立起一个简单的结构,尽可能模拟最终目标的形态,然后在这些支架上用各种各样的材料填充、并制作出栩栩如生的表面。在展示整个雕塑灵魂或者特别需要关注的地方,雕塑家还会用特殊的材质和手法进行雕刻,以达到最终的目的。

  在计算机的处理过程中,我们将第一部分,也就是雕塑家搭建的支架,叫做建模。这部分内容由CPU和GPU共同完成(CPU为主、GPU为辅)。在这个步骤,计算机会将整个3D模型完全建立起来,并根据计算能力和计算需求,使用一定数量的三角形和框线来搭建一个“框线世界”。并将这些框线内容传递给GPU的顶点处理单元。

  第二步,顶点处理单元收到了由CPU传来的数据后,会根据最终显示的图形需求,将图形由3D的模型转换成屏幕可以直接显示的2D图形。顶点处理单元输入原始3D模型的每一个顶点,再根据实际情况处理并输出2D画面的顶点。在这个过程中,那些被遮挡起来的、在屏幕上无法显示的场景,往往会根据Z轴也就是画面深度的数据,予以剔除或保留(如果是透明图形的话)。这个步骤被称作“平面化”。

  第三步,计算机会利用各种手段,尽可能地让这个模型在场景中看起来足够真实。比如为物体加上阴影,对表面进行贴图处理,给予各种各样的光照效果等等。此阶段需要大量的像素和纹理操作,基本上全部交由GPU的像素处理引擎和纹理处理单元完成。我们称此步骤为“像素化”。

  处理好的图像再经过一些后端处理(Render Back-Ends,游戏中常见的景深、动态模糊、色调映射、边缘侦测、平滑和锐化处理都是由后端处理来完成),就能转化为我们在屏幕上看到的内容。需要说明的是,我们在本文对图形处理的描述非常简单,但实际情况远比上文描述的内容更为复杂。但总的来说,上述三个步骤:建模、平面化和像素化,覆盖了计算机处理图形的大部分重要内容。

  所以,fermi的革命性意义在于,它能够“自主”的在CPU提供的三角形数据的技术上,随机切割三角形的平面,生成更多的小三角形,CPU在这条图形处理链上所扮演的角色,是上游数据的操纵者。因此,其提供数据的带宽大小,直接决定GPU的效能表现。而CPU数据提供质量的标准有两个,一个是系统总线带宽,也就是数据的高速通道;另外一个就是CPU的处理频率。

22
CUDA-Z软件界面截图

  我们利用CUDA-Z(CUDA-Z是一个检测显卡CUDA性能的小软件,其功能大致相当于devicequery+bandwidthTest+一简单的benchmark),来检测GTX480的带宽数据,结果如下:

  内存拷贝带宽: 57.7GB/s
  单精度: 1338.0Gflop/s
  双精度: 168.2Gflop/s
  32位整数: 671.8Giop/s
  24位整数: 671.0Giop/s

  那么,我们在选购CPU时,就必须考虑基于新一代的QPI总线直链技术的CPU。QPI总线具有带宽大,效率高的特点。Intel的QuickPath Interconnect技术缩写为QPI,译为快速通道互联。事实上它的官方名字叫做CSI,Common System Interface公共系统界面,用来实现芯片之间的直接互联,而不是在通过FSB连接到北桥,矛头直指AMD的HT总线。无论是速度、带宽、每个针脚的带宽、功耗等一切规格都要超越HT总线,此外,QPI另一个亮点就是支持多条系统总线连接,Intel称之为multi-FSB。系统总线将会被分成多条连接,并且频率不再是单一固定的,也无须如以前那样还要再经过FSB进行连接。根据系统各个子系统对数据吞吐量的需求,每条系统总线连接的速度也可不同,这种特性无疑要比AMD目前Hypertransport总线更具弹性。而传统的FSB最大仅能提供12.8GB/s的带宽值,于费米的57.7GB/s比起来,可谓杯水车薪。

  下面,是超频至4.4GHz的基于FSB 1333的E8600和4.3GHz的基于QPI总线的i7 920的对比测试图:

4
4.3GHz的基于QPI总线的i7 920的Vantage测试截图

7
超频至4.4GHz的基于FSB 1333的E8600的Vantage测试截图

  这一轮,很遗憾,LGA775接口家族的处理器全部落马,直接淘汰!由此可以推论,如果消费者的预算情况限定他们只能在800元价位线上挑选U,那么,无悠会选择内部集成了PCI-E控制器和内存控制器的i3-530产品,而不是LGA775的E8400散片或者E7500原包。并且,考虑到费米无出其右的热功耗,一款32nm的高能低耗CPU将会是这位性能火爆哥的静心丸。

  接下来,我们考察内部集成内存控制器的Phenom II处理器和英特尔上代高端Q9650之间的效能表现,以进一步说明系统总线构架和控制器组成对费米性能的影响。

6
内部集成内存控制器的Phenom II X4 955测试截图

  而同样频率的Q9650的GPU子项分数仅有25140,可知Phenom X4的GPU子项分数高出Q9650的GPU子项分数6.5%,由此证明AMD X4 955的催化效应高于后者。并且,即便如今市场上还有散装的QX四核处理器低价流片,但其超高的发热量只会为费米火上浇油,所以,cool'n quit的phenom X4甚至经小幅超频、开核后性能可与之并驾的Athlon X3 400系列CPU,都会是不错的性价之选!

  然后,我们来检测CPU频率对fermi性能表现的影响。

o
i7 920 3.825GHz

4
i7 920 4.3GHz

  由以上对比图可知,i7 920经超频后,在3.825GHz下,GPU的子项分数为26020,而超至4.3GHz后,GPU的子项分数变为31139,频率提高0.5GHz,提升率为0.5/3.825=13%,而GPU分数的提升率为(31139-26020)/26020=20%,以百分之13的频率升幅,获得百分之20的GPU性能增长,说明CPU频率对fermi的GPU性能表现密切相关。这点也不难理解,因为更高的处理器频率意味着在同样的时钟周期内,CPU能够提供更多的数据量(三维空间坐标的原始数据,详见上文)给我们的米哥,因此,高频CPU将会是米哥的不错搭档。那么,新晋上市的具有更高的默认主频的i7 930,无疑会比老一代的920更有购买价值,虽然后者的价格会更加的便宜。

  细心的网友读到这里,可能会发现,4.3GHz的i7 920平台所使用的内存容量为8GB(估计是芝奇新推出的8GB三通道套装,能够在3D Mark官网上露脸的,不像那些放着QPI三通道不去用的傻冒)。你怎么能排除内存大小带来的影响呢?下面,来看两张i7 980X搭配多路GTX480系统的测试截图。

2
4.2G 980X+6G内存+3-way SLI

3
3.990G 980X+12GB内存+4-way SLI

  由图可知,主频为4.215GHz的980X搭配3路SLI的GTX480,其CPU和GPU分数几乎和主频为3.990GHz+4路SLI的GTX480平台的成绩持平,而后者的内存容量更是达到了恐怖的12GB!可见当内存容量提升至4GB或以上后,其对系统图形处理能力的影响可忽略不计。然而,为什么会产生这样的结果呢?接下来会是一次复杂的数学多步运算,口算帝和数学帝慎入!

  根据相关评测证实,多路费米架构的SLI效率高达90%以上,也就是说,如果阉掉第二套平台的一块GTX480,变成和第一套平台一样的3-Way SLI,那么它的GPU成绩理论上应该只有41664 X (1-0.33)=27914;平台一领先平台二的CPU主频为:(4.215-3.990)/3.990=5.6%;第一套平台的GPU子成绩领先第二套平台的GPU子成绩为(40814-27914)/27914=46.2%!以5.6%的频率升幅获得46.2%的GPU性能提升,这样的拉升幅度已经远远超过我们在前面分析的i7 920+GTX470平台的表现,这是为什么呢?

  无悠推测,i7 980X具备6个物理核心,而其主频提升0.3GHz的意义在于,它的每颗物理核心的频率都提升了0.3GHz,那么整个CPU内部就共有0.3X6=1.8GHz的频率提升,加上32nm的Clardale构架更为高效的执行效率,那么,1.8GHz带来的GPU性能提升,自然不容小觎!

1
只有超频至4.5GHz的i7 980X,方能尽显4-way SLI GTX480的英雄本色!

  综上所述,多核CPU核心频率提升所带来的执行效率和图形性能的涨幅,远远高于较少核心CPU的频率提升所带来的。因此,如果一颗800元左右的双核i3 530(i3 530超线程后虚拟出的四个线程,其执行效率不能与原生四线程的CPU媲美),能够轻易超至4GHz甚至更高的4.4GHz的频率,而一颗1350元左右的具有原生四核的i5-750只能超至3.8GHz,无悠建议追求性能与价格比的童鞋,选择后者。当然,如果您的预算允许您装配具有四核八线程、主频高达2.93GHz的i7 870,千万不要因为它是LGA1156并且只支持双通道内存,就犹疑不决,通过以上分析,我们已经排除了内存情况对GPU性能的制约!

  为了证明无悠的“i3 530”无用论,特此出具一下评测证明:

aa
i3 530测试图

  由图可知,利用i3 530搭配双路GTX480组成的“准发烧”级系统,其GPU单项成绩竟然和仅搭配一块GTX470显卡,但CPU为4.3GHz的i7 920的平台的GPU子项成绩拉不开距离!倒是拉开了悲剧~~

8
4.7GHz i7 980X测试截图

9
3.34GHz(睿频加速开启) i7 980X测试截图

  而在进入3D Mark Vantage最变态、最不人道、最纠结的“Extreme(简称“X”,灰烬级测试。Vantage由下至上分为四个测试等级:E,入门级;P,性能级;H:骨灰级;X,灰烬级)”测试后,内存的影响力进一步降低,频率能够为系统带来高达1W的分数提升!

  综上所述,无悠认为,无论是希望搭建玩家级的GTX470游戏平台的朋友,还是打造骨灰级别的多路GTX480系统的朋友,费米的择偶标准将是:以多核心为基础、高频率、新架构为参考的CPU。而考虑到您的投资重点将会在费米本身,加上对费米显卡发热量、功耗的综合考虑,无悠给出以下三种方案:

  费米女婿,完美型:i7 980X。这位女婿的最大竞争点,在于其具备的原生六核心设计,在超频至4.2GHz及以上后,能够提供无与伦比的处理器带宽和运算性能,适合用来组建多路GTX480系统。因为GF100构架本身就是多线程并行预算的革命性产品,而且它的处理带宽惊人,对数据的吞吐量巨大,特别是在组建多路系统后,只有一颗带宽强大、多任务处理性能卓越的CPU,才能协调好多费米GPU间的运算,并提供充足的数据保障,保证不出现数据挂起、GPU运算架空等低效情况的出现,从而驾驭这些性能巨兽!

  费米女婿,超男型:i7 930和X6 1090T。虽然在核心数量上,其略逊980X一筹,但是四核心八线程的规格也足以令它在应付单路GTX480和GTX470 SLI时,游刃有余,一“芯”多用。并且,其默认频率高达2.8GHz,得益于不断成熟的Nehalem架构制造工艺,玩家能够轻易将i7 930的频率提升至4.2GHz的水平,这样也有助于米哥的马力全开!而AMD方面,采用ThuBan构架的六核产品1090T,亦是上佳之选。它与i7 980X同样具备六个物理核心,多线程运算效率卓越,并且频率高达3.2GHz,也符合无悠的择偶标准。

  费米女婿,标准型:i5 750和X4 955。i5 750是首颗在核心封装内集成了PCI-E控制器的产品,这也就证明i5 750能够通过核心内部的高速QPI总线通道,高效的与GTX400核心进行数据通信。另外,这颗CPU也是目前售价最为便宜的具备原生四核的Nehalem产品,散片报价不过1250元,非常实惠,非常适合打算组建单路GTX470平台的朋友选用。而与之相同定位的,则是AMD方面的Phenom X4 955,前者具备四核和高达3.2GHz的高频,并且售价近乎破千,具有很好的性价比。

  费米女婿,贤惠型:i3 530和X3 425。GTX480的TDP功耗为250W,470的功耗也达到惊人的215W,其耗电量和发热量史无前例。而高能低耗的32nm处理器产品,不仅能让系统整机的功耗控制在一个良好的范围内,在这个火热的世界杯的夏天,也能让机箱内部的温度不那么火爆,从而提升费米产品的工作稳定性。虽然i3 530仅采用双核四线程的设计,但经过前面的分析,当您将530超频至4.0GHz后,也能很好的带动GTX470的性能发挥。并且,得益于卓越的32nm制程,i3 530突破4G应该是信手拈来的case,不足为具。而AMD方面的X3 435,同样存在开核的可能,核心频率也有3.0GHz,小超能到4.0GHz的境界。最后,选择TDP绝低的i3 530和435,还有可能连换电源的钱都省下了,何乐而不为?

  费米女婿,废柴型:基于上代LGA775构架的Core处理器,不仅总线执行效率低下,价格定位偏高,并且核心数大部分皆为双核,为废米也!

IT热词