首页 > DIY外设 > 显卡 > 评测> 正文

珠光宝甲火力全开,七彩虹 GeForce RTX 5070 Ti Ultra W OC 16GB评测

DIY 编辑:唐家承 发布于:2025-02-20 23:00 PConline原创

前言

在RTX 50系首发阵容中被认定为性价比最高的产品——RTX 5070 Ti终于解禁了,这期评测我们不但会为大家带来性能方面的解读,也会给大伙讲解这张显卡被众多玩家视为性价比最高的原因。

因为英伟达并没有为RTX 5070 Ti规划公版显卡(至少市售版没有),咱们测评的对象是七彩虹 iGame GeForce RTX 5070 Ti Ultra W OC 16GB(以下简称为iGame RTX 5070 Ti Ultra W OC),这是一款自带一键超频的特殊非公产品,感谢七彩虹提供的显卡,接下来咱们进入主题。

GeForce RTX 5070 Ti规格一览

先来看看这张显卡的规格,GeForce RTX 5070 Ti 基于Blackwell架构打造,工艺制程是熟悉的台积电 4nm 4N NVIDIA 定制工艺。Blackwell架构的通用算力、光追性能以及AI性能与CUDA数量、第4代RT Core以及第5代Tensor Core的数量有关,而这三种核心又组成了全新一代SM单元。

现在咱们把目光聚焦到GeForce RTX 5070 Ti的SM数量,它拥有70组SM单元,CUDA核心数为8960,规格约为RTX 5090/5090 D的41%。目前RTX 50系的价格比较混乱,咱们还是以英伟达官方的MSRP为例。RTX 5090/5090 D为16499元起,RTX 5070 Ti为6299元起,这就意味着RTX 5070 Ti属于付出38% RTX 5090/5090 D的金钱,买到了41% RTX 5090/5090 D的规格,这就是大伙都觉得它性价比高的原因。不过还是那句话,目前RTX 50系新品市场价比较混乱,以上提到的仅为理论参考。

如果你有认真对比过这个表格还会发现,其实英伟达一并公布了RTX 5070的规格,毫无疑问RTX 5070的定价会更加“亲民”,但以目前披露的规格代入上文的算法,RTX 5070 Ti依然是性价比更高的那个。

游戏性能测试

纸面数据就点到即止,接下来我们直奔主题,看看iGame RTX 5070 Ti Ultra W OC的游戏表现。开始分享数据前先介绍一下咱们的测试平台配置:我们采用了曾被誉为“让RTX 4090成为瓶颈”的当代游戏神U——AMD锐龙7 9800X3D,与之搭配的主板是微星高端主板MSI MPG X870E CARBON Wi-Fi暗黑,以及芝奇Trident Z5 RGB 幻锋戟 DDR5-8000 C38 24GB*2,这套平台的性能理应能将七彩虹 iGame GeForce RTX 5070 Ti Ultra W OC 16GB的游戏性能完全发挥出来。

先看看基础的游戏性能,我们测试了《光明记忆:无限》《古墓丽影:暗影》《战争机器5》等13款游戏,并比较iGame RTX 5070 Ti Ultra W OC(超频模式,下同)与RTX 4070 Ti在2k分辨率下最高/极致画质设置下的平均帧差异。

在不借助DLSS 4的状态下,实测iGame RTX 5070 Ti Ultra W OC比RTX 4080 SUPER强19%~41%,大部分测试游戏的平均帧率在100FPS以上,《古墓丽影:暗影》的平均帧甚至飙到305 FPS。

以超高负载的新一代硬件杀手《黑神话:悟空》为例,2K分辨率影视级画质设置下,iGame RTX 5070 Ti Ultra W OC依然有85 FPS的平均帧,畅游后西游世界无压力了。类似情况的还有开启光追的《鸣潮》,RTX 4070 Ti的平均帧77 FPS能保证流畅运行,而iGame RTX 5070 Ti Ultra W OC的平均帧达到了107FPS,后者在面对突发的高负载状况时能保证更高的帧率,从而避免游戏陷入突然卡顿的困境。

以上还是没有搬出RTX 50系的大招——DLSS 4的情况,对比iGame RTX 5070 Ti Ultra W OC与RTX 4070 Ti的帧率情况不难发现,DLSS 4(X4)确实为平均帧带来了质的飞跃。

对比的对象是4款目前已支持DLSS 4的游戏,根据表格数据不难发现,有了多帧生成加持后,iGame RTX 5070 Ti Ultra W OC的平均帧几乎翻倍于RTX 4070 Ti。

再对比这两张卡的帧率差异其实意义不大了,我们不妨将关注点移到iGame RTX 5070 Ti Ultra W OC开启DLSS 4多帧生成时,相比其DLSS设置有何差异。我们对比了该卡在【关闭DLSS】、【DLSS 4帧生成2X】、【DLSS 4帧生成4X】三项设置的帧率变化,测试的游戏同样是4款已支持DLSS 4的游戏。

实测结果十分夸张,开启【DLSS 4帧生成4X】后,4款游戏的平均帧率均有了飞跃式提升,《赛博朋克2077》的平均帧率暴涨至原来的6倍,放以前我们一般把这种现象称为魔法或者BUG,但英伟达将它变成了现实常态。

具体到目前支持DLSS 4的3A大作,先是引入了路径追踪的《赛博朋克2077》,这款游戏负载之变态有了解过的小伙伴应该都清楚,较早前的RTX 5090 D首测已经证明了50系可以轻松应付这款游戏,现在换成iGame RTX 5070 Ti Ultra W OC后情况又会变成怎么样呢?在2K分辨率下没开DLSS 4之前,平均帧只有32.41 FPS,属于掌机级流畅度。开启DLSS 4后平均帧暴涨至200FPS,1%帧暴涨到121 FPS,轻松玩转这款硬件杀手,而且延迟也降低了不少。

再看看《霍格沃兹之遗》,这是一款优化比较好,即便不依赖DLSS也能保证流畅度的游戏。iGame RTX 5070 Ti Ultra W OC在2K分辨率下DLSS OFF的状态下平均帧也有77 FPS,不过1% LOW帧仅为39 FPS,这就意味着运行过程中有卡顿。有了DLSS 4后流畅度更上一层楼,1%帧暴涨到143 FPS,完全规避了卡顿现象。追求画质的玩家可以考虑将帧生成下调至【2X】,以获得更接近原生的游戏画面。

接着是《星球大战:法外狂徒》,2K分辨率下未开启DLSS时,26 FPS的1%LOW帧简直能用灾难级来形容,DLSS 4再次施展魔力,将一款画质拉满时完全无法游玩的游戏变得流畅运行,平均帧率足以轻松喂饱2K@144的电竞显示器。

最后是喜闻乐见的《漫威争锋》,竞技类网游对帧率的要求十分高,而这款游戏却有大量画质设定,画质拉满的话配置要求并不低。在2K分辨率未开启DLSS时,iGame RTX 5070 Ti Ultra W OC的1%LOW为98 FPS,平均帧率仅为124 FPS,对于一款竞技网游来说这帧率表现只算及格。现在有了DLSS 4帮忙,同一张卡的平均帧率突破至375 FPS,1% LOW帧也有243FPS,这流畅度能让高端玩家赢在起跑线。

看完4款游戏的表现咱们可以先下结论,iGame RTX 5070 Ti Ultra W OC的游戏性能足以轻松胜任2K分辨率下兼顾画质地流畅运行AAA大作的需求。即便抛开DLSS 4带来的魔法级帧率暴涨因素,在CUDA规模提升、第4代RT Core以及第5代Tensor Core、16GB GDDR7显存的四重升级下,硬件的游戏性能代际提升已经达到了31%左右,考虑到这个卡在RTX 50家族的性价比定位,在市场价格理性时,这个卡的竞争力很强。

外观篇:七彩虹iGame RTX 5070 Ti Ultra W OC 嘻哈涂装个性尽显

说完游戏性能再看回测试显卡本身,先从开箱开始聊起,作为七彩虹的艺术化经典款,每一代七彩虹iGame Ultra系列显卡都采用了不同的艺术风格来呈现自身的多元化身份。如今进化到RTX 50系的七彩虹iGame Ultra系列再次迎来了视觉大升级,包装上的涂鸦风格Ultra字样让人印象深刻。

包装背面的LOGO更大,也更加醒目,远远看上去更加接近涂鸦字体。

打开包装就能见到显卡本体,随显卡还赠送了一根3* 8Pin转12V-2x6转接线,在细节处七彩虹准备得充足到位。

把显卡的膜撕掉后,换上了嘻哈风格涂装的iGame RTX 5070 Ti Ultra W OC就完完整整地呈现在我们眼前了。

所谓“嘻哈”,即“HIP-HOP”文化,这个艺术文化包含了音乐、舞蹈、涂鸦、运动等多种元素,七彩虹首次将这些元素糅合到新一代的普及型显卡上,呈现出完全不同于以往任何一代Ultra显卡的魅力。

每一张非公显卡都有独特的散热系统,这张iGame RTX 5070 Ti Ultra W OC的散热器取自主题,名为“嘻哈散热器”,当然这个命名也跟显卡上布满的嘻哈元素有关。

比如在散热外壳上,七彩虹做了独特的珠光颜料——官方将其称为“嘻哈律动”,所谓珠光颜料,能让外壳的颜色随光线的入射角和观察角的不同,而呈现出不同的颜色。

iGame RTX 5070 Ti Ultra W OC的外壳有多个部位均覆盖有珠光颜料。细看的话还会发现一些小巧思,比如这些珠光渐变的地方非平面,而是有层次的设计,让显卡的外壳看上去更立体。两个风扇之间的颜色不但会随角度渐变,而且基板是透明的,透过基板可以看到散热器后面的散热鳍片或者线路。

显卡的散热风扇也值得称道,三环式101mm扇叶设计势必能带来良好的散热性能。

显卡的背板生动诠释了“嘻哈律动”的设计主题,Ultra系列的标识以街头涂鸦的风格呈现,整块显卡背板俨然成了一面彰显个性的涂鸦墙。

RTX 50系的三风扇卡基本具备的特征——背板镂空,鉴于散热鳍片的覆盖面远大于PCB,这个散热能显著提高显卡的散热效能,关于PCB部分,咱们接着看后续的拆解就能看到了。

先把目光转回显卡本体,在显卡的顶部,也就是横装时对外的这面同样涂有珠光颜料以及一些对应Ultra图标及风格的点缀,12V-2x6供电接口位于显卡中央靠侧面的位置,其实那个位置就是PCB的边缘了,PCB的长度就是从IO面板到供电接口的距离,这个在拆解的时候会聊到。细心观察的小伙伴可能还会发现,里面像灯光般规则的纹理其实的确是RGB灯。

PCB插槽面能看到外露的风扇和RGB灯光连线,考虑到这块是几乎贴着主板,基本不存在误操作拔线的空间,接口放置在这区域很合理。

IO面除了能看到3个DP 2.1b接口以及1个HDMI 2.1b接口外,还有七彩虹经典的一键超频按钮,面板处还标识了按钮位置对应的工作状态,比如图示按下就是超频状态。从这个角度也能看出iGame RTX 5070 Ti Ultra W OC的厚度为大两槽半,厚重的散热鳍片确实会给显卡增加厚度。

接下来装到主机上看看效果并且跑分测试,通电点亮之前的状态如图,全白色的外壳搭配白色主题主机确实十分养眼。

红色的Ultra图案并不会显得突兀,适当的点缀反而让整机设计更立体化。

接口的细节处理不错,虽然看着接口在散热鳍片正上方,实际上接口下方的散热鳍片有做专门的凹陷设计,这样连接供电线的时候就不怕手指被金属刮到了。(不过还是要小心操作)

如果你跟我们一样,也是狂热的海景房爱好者,那么一定也会在乎显卡的造型,事实上七彩虹也考虑到位,显卡侧面也做了贴合Ultra系列“嘻哈”主题的纹理,如果你有仔细看的话还会发现,其实这个仿立体浮雕的图案是自创的英文变体,对应的正是“iGAME ULTRA”。

开机点亮后,RGB灯珠与珠光颜料图层争相辉映,打造出一种奇妙的光学盛宴。

拆解:做工精致且舍得堆料的个性之作

上机完毕当然是拆解环节了,希望尽快了解跑分详情的小伙伴可以跳往下一章节,接下来一起看看这个显卡的内部构造吧。拆显卡前记得把风扇和灯光的电源线拔出,以防分离散热器的时候挫伤线材。

接着将背板上的螺丝卸下,此时显卡的背板与PCB分离已经没有了物理连接,可以轻松拆下来了。

由于前面已经将风扇及灯光的电源拔掉,散热器与PCB已经没有直接的物理连接,但还是通过IO挡板连接,卸下挡板的时候需要稍微注意超频按键的连接线,把这些都卸下后就能把IO挡板及散热器外壳拆下来了。

最后就剩散热鳍片与PCB连接了,松开这最后四枚螺丝,然后稍稍用力将散热鳍片与PCB分离,至此基本可以宣告iGame RTX 5070 Ti Ultra W OC的拆解工作完成。

整张显卡的结构很清晰,一共分为散热器外壳正面、散热器背板、散热鳍片、IO挡板以及PCB一共五个部分,给大家上一张全家福。

可以在散热鳍片上看到,在七彩虹给PCB的供电、显存IC都上了导热垫。

iGame RTX 5070 Ti Ultra W OC的元器件均贴得规整统一,颇有大厂风范。显卡的供电规格为10+4+3,对于一张300瓦的中高端显卡来说,这个供电规格堪称豪华。

可以看到这张显卡的GPU核心代号为GB203-300-A1。

显存来自三星的GDDR7,丝印为K4VAF3257ZC-SC28,显存位宽256bit,显存带宽为896GB/s,一颗显存的容量为2GB,一共8颗显存IC组成16GB显存。与RTX 5080使用的显存十分接近,两者只有频率的差异。

负责实际功率调节的IC型号为MP87993,这款芯片在RTX 50系的产品中大量出现。

PWM控制器被放置在PCB的背面,型号为MP29816。

字PCB背面还有一枚45492芯片,这是高精度、低功耗的电压检测器。

一键超频按键接口、风扇供电接口以及外壳灯光供电接口均位于显卡边缘位置,安装和拆卸都比较便捷。

看完PCB部分再看看散热鳍片,散热器与GPU的接触面为大面积纯平铜底座,并且经过镀镍处理,实用性和耐用性都会有保障。

这个显卡的散热器拥有7根6mm热管的散热配置,为了保证散热效果,热管与散热鳍片还采用了回流焊工艺相连,散热效能值得期待。

拆解下来我们发现,iGame RTX 5070 Ti Ultra W OC的做工及用料均不错,而且结构相对简单没有太多的层级堆叠构造,这样在日常使用和装卸中反而能带来更好的可靠性。

iGame Center软件:贴心的独显管家

如今AIC大厂除了卷用料和卷做工等硬件品质外,“软”实力也开始被重视,七彩虹也推出了自家的显卡管理软件——iGame Center。

这款软件的功能十分多样,从基础的监控硬件到管理显卡的灯光、超频等个性化调控一应俱全。我很喜欢七彩虹的这套UI设计,功能分布清晰容易上手,比如我想设置这张iGame RTX 5070 Ti Ultra W OC的灯光只需要在软件里选中显卡,即可快速调整显卡的发光方式和发光颜色。

另外极客玩家们热衷的超频设置也能通过iGame Center来满足,它提供了核心频率、显存频率、功耗释放等多个细节选项供调整。

像硬件信息监控窗等玩家常用功能也能在iGame Center内被找到,对于普通的游戏玩家来说,只需装这个管家软件就能满足日常的监控及性能优化需求了。

基准性能测试——理论性能测试

显卡的基本情况分享完毕,接下来当然就是性能实测环节,首先看看理论性能如何,咱们主要参考3DMark基准。在Fire Strike Ultra的基准测试中,iGame RTX 5070 Ti Ultra W OC的性能大约是RTX 4070 Ti的138%;到了DX12的Time Spy测试中,前者性能是后者的128%;在对显卡压力最高的Speed Way基准中,新卡领先幅度又回到了39%。可见随着图形负载的压力越大,新老两代显卡的性能差异会越来越大。

先看看3DMark提供的DLSS 3测试,正如前面提到的结论,新老两代显卡在图形负载越高的时候,性能的差异会越明显,比如8K样例开启DLSS的时候,iGame RTX 5070 Ti Ultra W OC的性能足足是RTX 4070 Ti的140%,这也真实反映出两者在面临实际游戏场景时的性能差异。

3DMark已经第一时间加入了DLSS 4的对比测试内容,用理论性能的方式看RTX 50系显卡表演魔法很有趣。实测可见DLSS 4所带来的提升十分明显,4K分辨率下,DLSS 4相对DLSS 3的帧率暴涨,在负载稍低的2k分辨率测试环境下,DLSS 4的帧率仍为DLSS 3的166%,8K样例的差异是最大的,开启DLSS 4后平均帧率高达137FPS,这只能用性能炸裂来形容了。

基准性能测试——AI性能测试

聊完理论性能,我们再来聊时下大热的AI基准。自从ChatGPT横空出世后,PC行业内几乎所有巨头都将AI PC挂在嘴边,但真正要在本地部署AI并用本地硬件轻松跑通这些大模型,英伟达提供的硬件敢说第二,应该没有厂商敢认第一。正如CES 2025上英伟达提到了AI如何塑造RTX 50系列。这代新品的其中一个重大更新就是原生支持FP4精度模型,根据英伟达的官方说法,有了这项新特性,RTX 50系相比RTX 40系的效率更高,显存占用还更低了。

恰巧FLUX.1 AI Image Generation Demo For NVIDIA基准软件提供了验证,实测结果不但展示了FP4的魅力,更展示了大显存在AI应用场景的显著优势。在FP8精度下,2张显卡的性能差异明显,诚然数百倍的性能差异必不可能是两张卡的真实算力对比,归根结底还是两者显存容量造成的差异,RTX 4070 Ti 12GB显存溢出后就需要将一部分任务分配给CPU,导致GPU根本无法全力输出。到了FP4精度,它们的性能反而更“真实”,RTX 4080 SUPER需要半分多钟才能生成一张图,而iGame RTX 5070 Ti Ultra W OC仅需8秒,这项对比则将原生FP4的优点发挥得淋漓尽致。

再来看另一个AI基准——AI Text Generation Benchmark,这是一个集合了PHI 3.5、LLAMA 3.1、LLAMA 2等多种大语言模型的基准测试软件。从实测结果来看,iGame RTX 5070 Ti Ultra W OC的表现可圈可点,除了PHI 3.5外,其他基准对比RTX 4080 SUPER均有30%~40%的领先,随着以后FP4精度模型的推广和普及,RTX 50系的优势势必越来越明显。

再来看看MLPerf Client v0.5,这项AI基准更倾向于实际应用场景,比如针对创意写作、长文摘要等场景的测试,实测iGame RTX 5070 Ti Ultra W OC的领先幅度均在40%以上,可谓遥遥领先。

基准性能测试——创造力性能测试

看完以上几个基准,相信大伙对iGame RTX 5070 Ti Ultra W OC的AI性能已经有一定的了解,对于那些以视频或者3D创作为谋生手段的从业者来说,N卡也是热门的创造力工具。RTX 50系列在创造力方面的提升同样明显,首先不得不提到的是第九代NVENC,即新一代的英伟达编码器,它可以输出H.264/H.265 4:2:2编码的视频,而iGame RTX 5070 Ti Ultra W OC内置了双NVENC,效率自然更高。

我们使用DaVinci Resolve 19.1.2将一条8K Prores422HQ的无损素材编码分别导出为H.264、H.265、AV1等版本,对比不同版本的导出时间差异。

实测结果着实让人印象深刻,iGame RTX 5070 Ti Ultra W OC导出这三条不同格式的4K视频比RTX 4070 Ti节省了快一半的时间,尤其是导出逐渐会成为主流的AV1格式视频,用时节省了一大半。而且正如前面所言,它还支持编码4:2:2色度取样的视频,而且实测的导出时间也很优秀。有了这项新特性,iGame RTX 5070 Ti Ultra W OC不但能为创作者节省大量时间,更能帮助创作者轻松输出更高清无损的视频样例。

再来看看更理性的Pugetbench创作力跑分基准测试,在几款Adobe基准中iGame RTX 5070 Ti Ultra W OC在达芬奇、PR的创作软件的代际性能提升明显,达芬奇软件的测试基准得分代际提升来到了25%~30%。

接着是3D渲染软件的性能评估,我们选择了Blender与V-Ray的基准测试。实测iGame RTX 5070 Ti Ultra W OC在这几个3D渲染基准中平均领先RTX 4070 Ti大约19%,同样是考虑到两者的CUDA规模差距,个别项目的提升幅度基本合理。

最后是喜闻乐见的工业领域专用软件基准SPEC2020,这项基准测试涵盖了市面上多个工业级生产力软件,能一定程度上反映出显卡的工业生产水平。实测除了极个别软件外,iGame RTX 5070 Ti Ultra W OC的代际提升均十分显著,而且提升幅度在10%到25%之间。

功耗与温度表现

最后是烤机表现,iGame RTX 5070 Ti Ultra W OC的标定功耗为300W,为了验证这套风冷散热器的表现,我们使用FurMark烤机30分钟。实测烤机半小时后,显卡的BPD功耗为300瓦,GPU核心温度保持在62.7℃,显存温度仅为58℃,散热表现让人满意。

总结:外观个性的高端性能守门员

从实测结果来看,iGame GeForce RTX 5070 Ti Ultra W OC 16GB显卡的性能以及代际提升无疑是值得肯定的,尤其是这代“70 Ti”产品已经开始普及16GB显存,对于一些想尝鲜本地部署AI工具的小伙伴来说,更大的显存容量显然有更高的可玩性,以时下爆火的Deepseek为例,16GB显存足够本地运行DeepSeek-R1-Distill-Qwen-14B模型,这个模型用来应付一些基础文书工作绰绰有余了。

说回RTX显卡的本职工作——游戏,iGame RTX 5070 Ti Ultra W OC显然能轻松应付2K分辨率下各项AAA大作的极致画质压榨,更重要的是,DLSS 4的多帧生成技术让这张显卡能更轻松地运行更高分辨率的游戏,让画质与流畅性不再是二选一,也让这张显卡成为高端显卡的守门员。

说回显卡本身,iGame GeForce RTX 5070 Ti Ultra W OC以嘻哈精神为内核呈现出的设计语言,与时下年轻人对个性化与特立独行的追求不谋而合。我很喜欢这张显卡的珠光颜料,iGame设计团队显然深谙Z世代审美密码。以"街头涂鸦"为灵感源的散热装甲,通过珠光颜料的随光异色特性,在静态设备上演绎出动态的光影叙事。这种摒弃传统RGB的"被动式美学",既契合环保理念,又在机箱内构建出独具辨识度的视觉焦点。

除了外观个性外,这套嘻哈散热器绝非徒有其表,优秀的散热性能足以为显卡长时间高负载运作提供稳定支持。从实际体验来说,iGame GeForce RTX 5070 Ti Ultra W OC的游戏性能、创作力、AI性能均足以为绝大多数玩家提供优秀的体验,再考虑到它的“性价比”定位,“高端性能守门员”应该是个恰当的头衔。这个卡虽名为70 Ti,实际就是绝大多数普通玩家的“顶流”。当市场价格完成理性回调后,这张显卡拥有成为爆款的潜力,相信能持续为英伟达在高端独显市场攻城略地。

GeForce RTX 50系列亮点技术盘点

好了,以上就是我们给出的测试与分析内容,最后给大家介绍一下这一代显卡的架构亮点以及部分技术解析。

Blackwell架构的改进

GeForce RTX 50系显卡采用了此前NVIDIA在AI领域推出的Blackwell架构,以大卫·布莱克威尔命名,其是一名受人尊敬的数学家和统计学家,在博弈论和统计学领域留下了不可磨灭的贡献,NVIDIA用其名字命名这一架构反映了新平台的开创性和先进的计算能力。Blackwell可以说是NVIDIA近年来更新幅度最大的GPU架构了,相比起之前的架构来说,划时代地引入了神经网络着色器,力图为游戏开创先进、高效更为逼真的渲染方式,带给玩家全新的游戏体验。

相比前代Ada架构,Blackwell的升级聚焦于四大方向:分别是AI算力的爆发、光线追踪技术的革新、显存能效的提升以及划时代的神经网络渲染。

第五代Tensor核心

其中AI算力的爆发就不得不提到Blackwell架构上的第五代Tensor核心,新一代Tensor Core添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。

第四代RT核心

而光线追踪技术的革新则仰赖于第四代RT核心的加持,相较于第三代RT核心来说,Blackwell架构的第四代RT核心主要提升了检测光线、路径与三角形相交的效能,过往在检测时往往只能检测单个三角形,一旦场景复杂,检测能力不足就容易导致渲染出错等问题,而现在检测能够以簇集方式进行,检测效率更高。同时还有三角形簇集解压缩引擎加持,其新增了Linear-swept Spheres(LSS)功能,可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,能够让显卡发挥更好的性能但只消耗较小的显存占用。

综合来看,Blackwell架构的光线追踪多边形相交效率是上一代Ada架构的2倍,是Turing架构的8倍,同时还可以节省25%的显存使用率。

第四代RT核心的改进主要是为实现更好的光追效果。其中有两项新技术能够受益,第一项是RTX Mega Geometry技术。随着光线追踪游戏场景的几何复杂性不断增加,游戏画面中几何图形的计算量也呈现出快速增长的趋势。而RTX Mega Geometry技术能够加速构建边界体积层次结构(BVH),使得在实时渲染中可以处理多达100倍的三角形数量。

该技术的出现,也使得开发者能够在游戏场景中使用更复杂的几何图形,而不会影响游戏帧率。过去需要一个个算BVH,现在RTX Mega Geometry能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。相信随着这些技术的不断发展和应用,未来的游戏将能够呈现出更加逼真和细腻的视觉效果,同时保持高效的性能表现。

另外一个能够受益的技术则是Curve Primitive,方便光追在曲面中的应用,例如一位男士的头发可能需要多达400万个三角形,再加上光线追踪技术,画面所需要的运算负载极大。NVIDIA则通过第四代RT核心中的Linear- Swept Spheres(线性扫描球体)技术有效减少了渲染头发所需的几何体数量,以球形代替多边形,更贴合头发的形状,从而将内存占用量大幅缩减至三分之一,并进一步提升了实际帧数,让头发的渲染效果更加自然流畅。

GDDR7显存

第三点改变则是显存效率的提升,Blackwell架构中还首次加入了对GDDR7显存的支持,此前GDDR6显存的信号编码为NRZ/PAM2,而RTX 40系上的GDDR6X则是PAM4编码。最新的GDDR7显存,信号编码改成了PAM3,NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。说人话就是,新的编码机制可以使杂讯失真比减小,信号品质更清晰,同时还能带来更高的显存运行频率以及更低的电压,根据NVIDIA的介绍,使用GDDR7显存后,数据传输速率可达GDDR6时的2倍,并且功耗接近GDDR6的一半,经典加量还减价。

神经网络着色器

接着我们再细说一下这一代架构的最大变化,NVIDIA这次将Blackwell架构的SM单元直接称为神经网络着色器。相比较于之前的可编程着色、CUDA统一着色、通用计算着色来说,其最大的变化就是引入了AI,AI将会彻底改变GPU的着色方式。

在Blackwell架构中,NVIDIA 进一步拓展了神经网络渲染的范畴,引入了诸多创新元素,包括神经网络纹理压缩(Neural Textures)、神经网络材质(Neural Materials)、神经网络体积(Neural Volumes)、神经网络辐射场(Neural Radiance Fields)以及神经网络辐射缓存(Neural Radiance Cache)等,这些元素共同构成了神经网络渲染中神经网络着色的重要呈现方式。

这里举个例子让大家能够更简单地理解神经网络渲染,过去复杂的物品或大量异材质的贴图往往会占用相当大的内存空间,如果叠加光追的话,计算量将会更大。然而,得益于神经网络渲染技术中的神经网络材质功能,这一问题得到了显著改善。开发者可以先在离线渲染出物品的光照数据,然后再用这些数据训练一个小的AI模型,游戏运行时只要实时调用这个AI模型当场推理就好了,这样就能还原出想要的光照效果了,再配合神经网络纹理压缩技术,就能显著降低实际生成的材质数据量,从而在占用更少显示内存的同时,实现了细节更丰富的材质表现,达到了实时生成如电影般细腻素材的效果。

目前神经网络渲染技术已经得到了微软的大力支持,未来也将会加入DirectX中,玩家能够体验到更真实的游戏世界。

而在硬件层面,由于神经网络渲染的加入,Blackwell架构的SM单元相较于RTX 40系的Ada架构还是有不小变化的,Ada架构内的SM内,SM单元会拆分成一半的CUDA专门用于处理FP 32(单精度浮点数),另一半则依需求动态调整去处理FP32和INT32(32位整数)。而在Blackwell架构上,SM单元则改成了CUDA核心可以完全依需求动态处理FP32和INT32的形式。

另外一个改进是,过往的着色工作往往只有SM单元的Shader在处理,而Blackwell架构上引入了神经网络渲染以后,使得Blackwell架构上的第五代Tensor核心也能共同分担着色工作,大大提高了着色效率。

这样改进的好处是,Blackwell架构能够进一步针对神经网络渲染工作进行排序,即把传统的着色工作分配给Shader,而需要动用神经网络渲染的工作负载则可以给到Tensor核心上,两种核心同时运用,效率最高可以提升2倍之多。并且得益于Tensor核心也加入了可编程渲染管线,现在开发者或API也能更好地调用Tensor核心,未来游戏内我们能见到的AI技术势必越来越多。

先进的AI管理处理器

此外,AI的应用也越来越多,不仅游戏中应用AI技术,现在连可编程渲染的过程里也引入了AI,因此如何去分配显卡内部多样化工作就成了一个问题。如过往显卡在开启DLSS玩游戏时,其中应用到的语言模型和游戏引擎需要同时与GPU的不同核心交互,生成游戏帧,但是往往很难做到每一帧都有一致的生成时间,抑或是游戏AI对话的响应不够及时,这些情况都会造成游戏体验不友好。

而Blackwell架构为了解决这一问题,引入了AI管理处理器(AMP)。它能够实时调度资源,确保在神经网络渲染、帧生成和 AI 驱动的游戏交互中实现智能化的任务分配。这种设计不仅带来了更高效的性能输出,还让显卡在游戏渲染和 AI 运算之间实现了绝佳的平衡,确保帧的间隔均匀,对话类型的AI能够及时响应,玩家的游戏体验一致性能够比较好地保障。

技术解析:DLSS 4

介绍完NVIDIA引以为傲的RTX神经网络渲染,再让我们看看应用RTX神经网络渲染的最好例子——DLSS。它不仅能提高帧率,还可同时提供清晰锐利的高质量图像,效果与原生分辨率渲染媲美。目前支持DLSS的游戏已经多达540款,而玩家使用DLSS的时间更是长达3亿个小时,可以说DLSS给玩家带来了划时代的游戏体验。

目前DLSS已经迭代至DLSS 4,DLSS 4进一步整合了多帧生成 (Multi Frame Generation)、光线重建 (Ray Reconstruction)和超级分辨率 (Super Resolution)等多种先进技术,通过 AI 模型对帧间信息进行深度分析与融合,最终呈现出更具沉浸感与真实感的画面。

什么是DLSS 多帧生成?

在 DLSS 3 帧生成技术中,AI 模型使用运动向量和深度等游戏数据以及来自 GeForce RTX 40 系列光流加速器的光流场来生成一个额外的帧。由于每生成一个新的帧都需要光流加速器和 AI 模型参与,因此生成多帧的开销相当高昂,而过高的性能开销会带来瓶颈,导致帧率提升受限。

而这次DLSS 4全新升级,引入了多帧生成技术,它可以利用 AI 为每个渲染帧额外生成多达3帧!相比传统渲染的方式,能够最多实现8倍的性能提升。并且每次渲染额外帧只需要AI模型执行一次,就能输出三帧画面,因此无论是对性能、显存的开销还是延迟都比之前要好了许多。

DLSS多帧生成技术还会与 DLSS 光线重建和DLSS超分辨率等其他技术协同工作。光线重建技术可以根据生成的多帧更好地处理光线追踪效果,使光线效果更加逼真和自然;超分辨率技术则可以在多帧生成的基础上,进一步提升画面的分辨率和细节,确保在高帧率下画面质量也能保持较高水平。

另外,由于多帧生成技术,输出的帧多了,要给每一帧都安排一个合理的间隔刷新才能让观感更好。因此NVIDIA还引入了专属的Flip Metering来代替CPU Pacing,它将帧节奏逻辑转移到显示引擎,让GPU能够更精确地管理显示时间,尽可能地将每一帧画面的生成时间保持一致,从而提高整体游戏视觉的流畅感。不过由于Flip Metering是硬件级的控制器,因此DLSS 4的多帧生成目前只有RTX 50系显卡支持。

新Transformer模型架构

DLSS 4 还引入了图形行业首个 Transformer 模型实时应用。熟悉AI的应该对它很熟悉了,它在AI生成领域已经应用多年了。基于Transformer架构的 DLSS 超分辨率和光线重建模型,相比之前DLSS使用的卷积神经网络(CNN)模型来说,具备2倍的参数量和4倍的计算量。在游戏场景中,能够提供更高的稳定性、更少的拖影、更高的细节和更强的抗锯齿能力,使画面更加清晰、流畅和逼真。

不过虽然DLSS 4的多帧生成功能是RTX 50系显卡的独占功能,但新的Transformer模型将会逐步下放至DLSS 3、DLSS 2等,将适用于所有GeForce RTX显卡。

Transformer 模型的最大优势在于其强大的全局分析能力。传统的卷积神经网络(CNN)在单帧优化上表现出色,但对动态场景中的复杂变化(如快速移动物体或光线变化)处理有限。而 Transformer 能够捕捉多帧之间的时间关系和全局场景信息,从而更加精准地还原细节,进一步减少“拖影”现象。

显存占用优化

同时得益于多帧生成功能是利用效率极高的AI模型,相较于上一代的硬件光流器进行帧生成的方式,能够显著降低生成额外帧的计算开销。反映在显示中就是能够节约显存占用,例如在《战锤 40 K:暗潮 》中,以4K最高设置游玩,DLSS 4不仅可将帧率再提升10%,还能将内存占用量减少400 MB。

超过75款游戏和应用将支持DLSS 4

超过75款游戏和应用将在GeForce RTX 50系列开售时支持DLSS 4的全新DLSS多帧生成功能,包括《赛博朋克2077》《战神:诸神黄昏》《心灵杀手2》《霍格沃兹之遗》等,《黑神话:悟空》也将于今年晚些时候升级支持 DLSS4的多帧生成。随着时间的推移,支持DLSS 4的游戏和应用数量将不断增加。

对于尚未完成更新至最新DLSS模型和功能的游戏,NVIDIA App将通过全新DLSS优设功能实现相关支持。说人话就是,如果你想玩的游戏还没有提供DLSS,你可以通过NVIDIA App进行设置,强开DLSS技术,同时随着Game Ready驱动的不断更新,DLSS相关的AI模型也会封装在驱动之中,随着模型的不断迭代,画质与性能也会越来越好,简单地说DLSS越用越好用!

不过DLSS 4技术中的多帧生成功能目前仅支持最新的GeForce RTX 50系列显卡。究其原因还是因为多帧生成需要Blackwell架构内置的Flip Metering硬件及其他支持。因此想要体验最新的黑科技,还需要玩家更新至GeForce RTX 50系列显卡才行。

技术解析:NVIDIA Reflex 2

另外,值得一提的是,与DLSS 4一起到来的还有全新的NVIDIA Reflex 2技术。延迟一直是电竞中绕不开的话题,玩家的每个动作都会经过复杂的计算,再在屏幕上渲染,其中的每一步都会增加延迟。虽然延迟往往只有几十毫秒,但是你却能明显地感觉到游戏的不流畅、卡顿。

为了尽可能地降低延迟所带来的不良游戏体验,NVIDIA发布了NVIDIA Reflex技术,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。目前NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。

而GeForce RTX 50系显卡再度升级,带来了NVIDIA Reflex 2技术。它结合了Reflex低延迟模式与Frame Warp技术。它可以把最新的鼠标输入指令同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。

另外,Frame Warp的加入,能够进一步将延迟降低。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。Frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。

而当Frame Warp转移游戏像素时,图像中可能会产生缝隙撕裂、镜头位置的变化会让游戏场景中显示新的部分。NVIDIA则开发了一种优化了延迟的预测渲染算法,该算法使用来自先前帧的视角、颜色和深度数据,对这些撕裂空白的像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。说人话就是现在NVIDIA Reflex 2还可以根据上一帧的信息去脑补一些空白的像素,有种无中生有但你又看不出来的感觉。

首发支持NVIDIA Reflex 2技术的游戏是《THE FINALS》以及《无畏契约》,该技术也将在 GeForce RTX 50 系列 GPU 上首次亮相,当然后续也会逐步开放给更多的GeForce RTX系列显卡,老玩家也可以体验到最新的技术。

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部