首页 > DIY外设 > 显卡 > 应用> 正文

【硬件编年史】DLSS技术到底有什么用,大力真的能出奇迹?

YIHAN 编辑: 陈奕翰 发布于:2023-07-09 22:43 PConline原创

写在开头

2018年8月,伴随着NVIDIA RTX 20系显卡的发布,游戏图形界又一扇门被打开,实时光线追踪技术正式走进玩家的视线,成为游戏行业新的画质标准。在过去的几年中,已经有众多耳熟能详的游戏大作加入了实时光线追踪效果,为玩家带来更加接近真实世界光影的全新视觉体验。

不过与之一起诞生的还有DLSS深度学习超级采样,它能够很好的弥补实时光追下的性能损耗。这项技术随着GeForce RTX 40系显卡的发布迎来了3.0版本。老黄甚至在发布会上声称DLSS 3.0可以实现性能的翻倍,今天我们刚好收到了索泰 GeForce RTX 4090 PGF OC显卡,那就用这张旗舰中的旗舰来给大家展示一下最新的DLSS 3.0到底有没有老黄说得那么神!

引入Tensor Core

开始前先让我们对DLSS的由来有个大致的了解,DLSS技术最早是在RTX 20系显卡上提出的。之所有能够在RTX 20系显卡上引入DLSS,是因为RTX 20系显卡的架构上与GTX 10系显卡有了本质的不同,NVIDIA引入了Tensor Core,给20系显卡带来了进步非常大的深度学习性能。

Tensor Core的官方叫法是张量计算核心,作用就是增加显卡的AI深度学习计算能力。而我们本次介绍的主角DLSS,本意是超分辨率技术,其是由显卡渲染低分辨率的画面后交由AI进行学习后,渲染出更高分辨率的画面。而这个AI其实就归功于我们说到的Tensor Core。

第一代Tensor Core

不过第一张实装Tensor Core的显卡并不是Turing架构的RTX 20系,而是我们耳熟能详的Titan V,作为唯一的Volta架构显卡,它才是第一个吃上Tensor Core的。在RTX 20系显卡还没发布前,许多深度学习的从业者就是购买这张显卡进行深度计算的。

规格上,Titan V显卡仅配备了640个第一代Tensor Core,不过它支持FP16和FP32下的混合精度矩阵乘法,可提供每秒超过100万亿次(TFLOPS)的深度学习性能,是Pascal架构的5倍以上。与Pascal相比,用于训练的峰值teraFLOPS(TFLOPS)性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍,训练和推理性能提升了3倍。

第二代Tensor Core

搭载第一代Tensor Core的Titan V显卡其实不是我们常规意义上的游戏卡,真正让这项技术下放,还要是Turing架构的RTX 20系显卡,上到旗舰的RTX 2080 Ti,下到甜品级的RTX 2060统统都引入了Tensor Core。

正因为Tensor Core的引入,让RTX 20系显卡有了一定的深度学习能力,老黄才得以在RTX 20系显卡上完成光线追踪和DLSS。第二代Tensor Core相比第一代又有了进步,提供了一系列用于深度学习训练和推理的精度(从FP32到FP16再到INT8和INT4),每秒可提供高达500万亿次的张量运算。

第三代Tensor Core

在RTX 30系显卡,也就是Ampere架构的显卡中,NVIDIA的Tensor Core升级为第三代。采用全新精度标准Tensor Float 32(TF32)与64位浮点(FP64),以加速并简化人工智能应用,可将人工智能速度提升至最高20倍。

第三代Tensor Core中,NVIDIA还引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是第三代Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

第四代Tensor Core

而RTX 40系显卡上的Tensor Core已经进化到了第四代,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。

而真正让DLSS 3.0起飞的还有两个核心技术,一个是着色器执行重排序(SER),另一个则是Optical Flow Accelerator光流加速器。

首先这个着色器执行重排序最大的作用其实还是提升光追性能,由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。

而RTX 40系显卡着重加强了这一方面的技术,着色器执行重排序的加入可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。

而另一个核心技术光流加速器其实从Ampere架构就已经有了,不同的是,Ada Lovelace架构中的光流加速器升级到了第二代,大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS。

由于第二代光流加速器带来的巨大的性能提升,因此也有了更广泛的实用性了,最大的优势就是DLSS 3.0技术能够更准确预测场景中的运动,玩家在游戏中既能有不错的图像质量又能保持更高的帧率。可以说第四代Tensor Core加上Ada Lovelace光流加速器以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,是DLSS 3.0得以成功的基础。

DLSS技术发展

讲完了实现DLSS技术的硬件基础,就该看看DLSS在三代显卡中究竟有了什么样的变化。

DLSS 1.0

在DLSS 1.0时代,NVIDIA对Tensor Core的利用略显粗暴。如果你想得到一个4K的游戏画面,DLSS 1.0就是让AI事先看很多1080P与8K的游戏画面,AI通过对比1080P的画面与4K画面的区别,然后由AI自己总结规律并生成算法。等你打开游戏时,AI只需要将这个算法融入显卡驱动或游戏引擎中,显卡就可以在后期运用Tensor Core和算法只做1080P的渲染,输出时靠AI算法的脑补,从而让你获得一个4K的画面。

不过这个做法有一个很大的问题,由于AI是强行将没有规律的东西强行转化成可行性较高的规律,它并不像事物客观本身存在的规律。AI只是借助画面本身周边的图案和颜色去猜测不存在的颜色与图案,因此在脑补过程中需要创造不存在的内容来填充画面,而仅仅靠AI脑补的做法,势必会出现一些瑕疵。

最终得到的就是画面比较模糊,尤其是连贯的动态画面中,会出现大量的鬼影与噪点,观感甚至不如不开DLSS的画面。因此老黄在推出DLSS 1.0后,不少玩家试用完都大呼受骗,觉得DLSS 1.0在截图时强无敌,一旦在游戏中动态显示就原形毕露了。

DLSS 2.0

为了解决这一问题,NVIDIA在后来推出了“船新”的版本——DLSS 2.0,这一次的DLSS 2.0可不是DLSS 1.0的小修小补,而是大刀阔斧的改变。老黄将DLSS 1.0的框架全部推倒重来,DLSS 2.0其实是由两部分组成,一个是多帧合成,另一个才是超分辨率。

其工作原理其实是显卡会预先渲染出4张1080P的画面,然后通过AI结合渲染过程中的运动矢量信息以及空间深度信息等,预测出各个像素点的颜色变化趋势。再通过AI高级算法将4张1080P画面的最优细节合并,最后输出一张4K分辨率的游戏画面。

然后以此类推,由1-4帧合成第一张4K画面,2-5帧再合成第二张4K画面,3-6帧合成第三张4K画面。如此操作,相当于显卡一直在从事1080P的画面渲染,相比直接渲染4K画面,大大节约了性能开支,因此我们才能在开启DLSS 2.0后见到帧数的提升。

而我们提到DLSS 2.0中还有一个技术就是多帧合成,原理其实就是NVIDIA把一个画面分成ABCD若干区域,在第一帧渲染的时候只对A B区域采样,第二帧渲染的时候只对C D采样,之后再将这两帧的采集内容合并,就输出一个正常画面,这里只是比喻,实际的算法肯定比这个复杂得多。如果你还不理解,那我们换个说法你可能好理解一下,我们都用过手机的HDR拍照,所谓的HDR拍照就是通过对画面不同区域进行曝光,然后把多张不同曝光的照片合成在一起,就得到了HDR照片,这样亮的画面更亮,暗的部分也能暗下来,细节也更多。

不过这种算法也不是万能的,DLSS 2.0也有它的问题,在处理静态图片的时候则提升很大,甚至由于多次采样,DLSS 2.0开启后的图像质量比原生的图像还要高。但是,一旦画面动起来,由于分别采样,像素就很有可能出现错位,从而出现大量鬼影,传统的TAA抗锯齿算法就是为了解决这个问题,而在DLSS 2.0 中,NVIDIA对TAA算法做出了改进,使得AI可以实时演算,因此不再像DLSS 1.0纯靠猜,而是有依据的合成。

即使有了TAA算法加持,但画面运动的话依旧可能有一定的劣化,不过人眼对动态画面的敏感程度远没有静态画面那么高,当时DLSS 2.0能够在保证一定的画面质量的前提下,大幅节约显卡算力已经非常令人满意了。

DLSS 3.0

至于RTX 40系显卡才有的DLSS 3.0,其实可以看做是完整版的DLSS 2.0,它把之前的技术都进行了整合。包含了补帧、Reflex以及DLSS 2.0中的超分辨率。

超分辨率还是老样子,与之前的DLSS 2.0保持一致,让显卡渲染4张1080P画面,然后用AI结合运动矢量信息进行多帧合成输出4K。

而我们上面提到的补帧则是通过新增的光流单元,分析两帧之间的画面运动差异,在两帧画面中间额外插入一帧画面,实现帧数的倍增,相当于在1帧到2帧之间还有一个1.5帧。

当然你可能在一些手机与电视上听过一种MEMC的补帧技术,厂商在宣传时也说能够带来更丝滑的体验。不过DLSS 3.0上的这个补帧跟它们还是有些不太一样,毕竟手机或电视上的补帧是后处理的补帧,而我们见到的游戏画面是由显卡渲染完成的,因此DLSS 3.0在补帧时,RTX 40系显卡是全程参与,所以像游戏画面中物体的运动矢量信息、三维空间信息等都一清二楚,所以补出来的效果也会更好。

另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。

不过既然是补帧,那就需要前后两帧的画面做分析,那必然导致一个问题——延迟,因此DLSS 3.0上还有一个叫做Reflex的技术就是为了解决这个问题。开启它你就能够降低输入延迟,其原理是在游戏中,渲染列队的显卡始终处于运行状态,尽管补帧能够更大限度提高帧率,但现在每一帧都需要排队等候渲染,并且还要拦截帧下来进行分析补帧再渲染,因此会增加延迟。

而Reflex技术可使CPU和显卡完美保持同步,从而动态减少渲染队列,同时还可减轻CPU压力,使游戏能够采样鼠标在最后一刻的输入以进一步降低系统延迟。

虽然会带来一定的帧生成时间不均匀导致的顿挫感,但是却实实在在能够降低输入延迟。并且这个功能在你开启DLSS 3.0的补帧后会强制打开,为的就是尽可能的保障游戏体验。

总得来说,DLSS 3.0是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。

测试平台介绍

说了那么多,想必大家也想知道DLSS 3.0对比DLSS 2.0究竟有多大的提升吧?实际测试前还是先看看我们的测试平台,这次为了让大家看得尽兴,我们也是搬出了目前RTX 4090显卡中的天花板——索泰 GeForce RTX 4090 PGF OC显卡。

首先最抢眼的就是它的外观了,相比前代多了一丝优雅,圆润的外壳设计也多了许多流线型的柔美,为显卡注入了流动与韵律,打破使用尖锐线条勾勒显卡外观的传统。

黑白撞色设计在视觉效果上既时尚前卫,又带来了一种沉静之感与中和之意,静谧而平衡,同时也暗藏了一丝丝电竞硬核风格,设计相当超前。

旗舰级的显卡自然有旗舰级的配置,背板用上了全金属结构,同时还增加了合金加固骨骼结构部件,有利于巩固显卡、不易变型,而且还可以提升散热效能,加上背板末端设有开孔设计,有效加强风扇气流。

内部散热也是丝毫不虚,3风扇9热管的豪华配置,这是高端显卡才有的待遇。除此之外还有大面积的VC均热板和密密麻麻的散热鳍片,这个规格,核心想发热都难。不得不说,只有旗舰级的散热规格才对得起旗舰PGF的定位。

光有散热还不够,供电也得满上!这张索泰RTX 4090 PGF OC显卡采用了SEP 2.0供电系统。供电总相数来到了夸张的28相,其中24相为核心供电,4相为显存供电,并且供电集成度相当高,每相均采用了固态电容做输入输出,还有全封闭电感坐镇。

外部的电源接口则是全新的12VHPWR供电接口,一根12VHPWR的电源线就可达到供电需求。600W的供电能力完全能够喂饱这块530W TDP的性能巨兽。

视频输出接口同样是顶尖的存在,毕竟你都买索泰RTX 4090 PGF OC显卡了,怎么说也得配一个4K的显示屏吧,真4K才能体验真电竞。索泰这张卡上的3个DP1.4a和1个HDMI2.1就能很好的满足视频输出,支持4屏显示或最高8K@60Hz的规格完全“超速”了。

说了那么多,上面这些豪华的配置都是为了极致的性能释放,而性能的来源就是这颗AD102-301-A1核心,别看它只是小小的一颗芯片,其实它得益于TSMC 4N工艺,在里面塞下了763亿个晶体管,这个数量足足是RTX 3090 Ti的2.7倍!当然它还有384bit位宽、144个SM、96MB的L2缓存……这里的每一项都是在告诉你,拥有这颗核心,你就拥有了地表最强游戏显卡。

话不多说,这就上机实测给大家看看,一上机就见证到了索泰RTX 4090 PGF OC的绝美颜值。顶部的索泰ZOTAC信仰Logo灯率先亮起,同步闪烁的还有正面的灯带,围绕着三把散热风扇,犹如律动的音符一般。笔者也是被这张卡深深折服了,有颜又有性能,不愧卡皇之名。

用来测试它的硬件当然不能差,CPU用的是最新的Intel Core i9-13900KS,华硕的Z790 Hero主板搭配2根16GB的金士顿DDR5-6000高频内存,散热更是龙神2代360水冷,这套配置可以说是不存在瓶颈了,能充分发挥出索泰RTX 4090 PGF OC显卡的真正实力。

游戏性能测试

为了让大家能够更直观的知道DLSS 3.0的功效,我们选择了几款已经支持DLSS 3.0的游戏进行实测。

首先是大家喜闻乐见的“显卡杀手”《赛博朋克2077》,从测试结果就可以看出DLSS 3.0对帧率的提升是明显的。先看看平均帧,同样是4K画质下开启超级画质及超级光追,如果使用DLSS 2.0,质量档下可以稳定在4K@60Hz下流畅运行。而DLSS 3.0就不一样了,质量档下几乎可以稳定在4K@120Hz,并且帧数还远高于DLSS 2.0。如果你在DLSS 3.0下开平衡档,甚至已经可以用4K@144Hz显示器驰骋夜之城了。

其次再看看1%Low帧,从这里也可以看出,有了DLSS 3.0的索泰RTX 4090 PGF OC在游戏体验上更为稳定,普遍相比DLSS 2.0提升了30%以上,像是质量档的比较,DLSS 2.0下1%Low为56 FPS,而DLSS 3.0下已经77 FPS了,甚至达到了DLSS 2.0的平均帧。可以说DLSS 3.0就是一次全面的性能飞跃,要性能有性能,要稳定有稳定,新一代游戏神器了属于是。

这时就有玩家会有疑问了,那开启DLSS后,原本精美的游戏画面不会有画质损耗吗?这里我们也录制了原生4K以及DLSS 3.0四档画面在ICAT中进行画质对比。实测下来,不得不说老黄的DLSS 3.0真的有点东西,即使开启DLSS 3.0后,画面是用低分辨率超分渲染至4K的,但观感上与原生4K几乎没有任何差距,无论是水面反射还是地板纹理全都清晰、锐利。

而DLSS 3.0更强悍的地方在于,像文字或者物体边缘经过AI处理后,细节会比原生更为清晰,下图中的广告牌就是一个很好的例子,最左侧的原生4K在ICAT中放大后,广告牌上的文字略显模糊,但后面四张图像经过DLSS 3.0的渲染后,字体清晰度明显更胜一筹,所以玩家无需担心开启DLSS 3后画质会降低,大胆开起来!画质、流畅度我全都要!

这里也放一段完整的视频给大家感受一下DLSS 3.0下的画质表现。可以看到动态下的效果依旧不错,质量档几乎与4K原生无异,而性能档之后则可以看出明显的画质区别。

紧接着我们去《F1 22》中感受索泰RTX 4090 PGF OC驰骋疆场的紧张刺激。DLSS 2.0下,游戏帧数的提升已经相当不错了,开启后各个档位的帧数差距在30 FPS左右,质量档下DLSS 2.0也能在4K下做到138 FPS的超高成绩。不过有了DLSS 3.0就不一样了,帧数相比DLSS 2.0那可以用飞跃形容,忽然就多出了30多 FPS,质量档下169 FPS完全可以用电竞级3A来形容,肉眼可见的丝滑,如果你调至超级性能档,游戏帧数甚至可以来到恐怖的254 FPS,遥遥领先隔壁DLSS 2.0近60 FPS。

还是一样的结果,对比1%Low帧,开启DLSS 3.0后能够比DLSS 2.0再强25%左右,反映在游戏中就是时刻稳定在4K@120Hz上,几乎感受不到较大的帧率波动。你的游戏体验也会更加丝滑。所以笔者还是建议能够开启DLSS 3.0的游戏都开一下,真的会有不一样的感觉。甚至于延迟也没有特别大的区别,10ms内几乎感觉不到差距。

画质表现与2077中的无异,基本上质量档与平衡档的画质跟原生4K十分接近,甚至不少文字细节会更清晰。不过性能档与超级性能档的画质就会有一点点损失,但是在赛车这种高动态的游戏里,基本不会被肉眼察觉。

这里同样放一段完整的视频给大家感受一下DLSS 3.0下的画质表现。

最后再看看《瘟疫传说:安魂曲》,这也是一款支持DLSS 3.0的大作。首先看看DLSS 2.0,不得不说仅仅开启DLSS 2.0就对游戏帧数有了不小的提升,想要体验4K@144Hz只需要开启平衡档即可。不过毕竟我们用的是索泰RTX 4090 PGF OC,有黑科技怎能不用。既然如此,那我们就试一下老黄的DLSS 3.0,开启以后帧数又有了大幅提升,平均每个档位相比DLSS 2.0时能够带来25-30%左右的性能提升,表现相当不错,质量档下就完全能够满足4K@144Hz的体验。

得益于DLSS 3.0的巨大优势,1%Low同样表现出色,光是4K画质下,1%Low就全部突破100 FPS,甚至已经摸到了120 FPS高刷游戏的门槛,可见DLSS 3.0对性能的影响究竟有多大。老黄的DLSS 3.0确实可以说是黑科技了,现在只希望能够有越来越多的3A大作适配DLSS 3.0,让更多的玩家感受新时代的游戏体验。

看完性能,来看看画质。在瘟疫传说中有五个档位可选,分别是质量档、平衡档以及性能档,以及超级性能档,其中质量档和平衡均有不错的表现,近处的斗车、中远景的岩石以及远处的树木细节基本与原生画质没有区别。如果你是索泰RTX 4090 PGF OC的用户,我建议你直接开启质量档即可,既有画质又有性能,可谓双赢。

从视频的动态效果中你更能看出DLSS 3.0的优势所在,这里也给大家看看动态下的效果展示。

当然我们也测试了其他游戏,可以看到有了DLSS 3.0的索泰RTX 4090 PGF OC如虎添翼,在各项游戏中都大展身手,开关DLSS 2与DLSS 3,游戏帧数竟有30-40 FPS的差距,这还只是跟它自己比较。如果你用索泰RTX 4090 PGF OC与前代卡皇相比,那简直就是降维打击,超强的性能让它可以4K@144Hz畅玩3A大作。

总结

看完了测试你一定觉得DLSS 3.0相当厉害,毕竟老黄的技术可不是开玩笑的。不过它也不是没有缺点,第一个就是目前支持的游戏还比较少,要说DLSS 2.0支持的游戏都几百款了,DLSS 3.0的游戏还不够100,妥妥的战未来技术;这第二个缺点就是RTX 40系显卡独占了。

不过瑕不掩瑜,NVIDIA的DLSS 3.0让我们实现了在4K超清分辨率下面全开光线追踪最高特效的自由。特别是配上索泰 GeForce RTX 4090 PGF OC后,游戏画面不仅更精美,帧数也能维持在丝滑流畅的水平,同时也得益于40系显卡的新架构与新制程,功耗控制得当。称它是地表最强卡皇都不为过。

在实测了多款DLSS 3.0游戏后,大家也见识到了索泰 GeForce RTX 4090 PGF OC的性能表现,4K画质下丝滑流畅,甚至有8K的一战之力。当然它强大的性能远不止于游戏,如果你想要一张AI算力强大的显卡,拥有512个第四代Tensor Core的RTX 4090更是你的得力干将。

最后,不得不说老黄的眼光是真的独到,我们现在能够在索泰 GeForce RTX 4090 PGF OC上用上如此黑科技的DLSS 3.0,这一切都得益于NVIDIA早早对AI人工智能项目的布局与深耕,DLSS 3.0不仅仅是全新ADA架构带来的技术红利,更加是人工智能运算改变游戏世界的里程碑。

NVIDIA   DLSS   索泰   PGF   4090
YIHAN

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部