太平洋科技硬件

大杯的不只有体积还有性能，影驰GEFORCE RTX 4090金属大师OC首发评测

DIY硬件责任编辑：liweineng 发布于：2022-10-12 21:00 PConline原创

　　随着NVIDIA GEFORCE RTX 4090 Founder Edition正式性能解禁，GEFORCE RTX 4090从RTX 3090 Ti手上接下了性能王座的位置。当然FE公版仅是有限发售了，真正贴近我们的永远都是AIC的非公版显卡。之前我们就已经对影驰GEFORCE RTX 4090金属大师OC（下述简称“影驰RTX 4090金属大师OC”）进行了开箱图赏，那么今天我们就来看看此款显卡的性能表现如何？

　　 影驰GEFORCE RTX 4090金属大师OC

　　作为首批推出的AIC非公版产品，影驰GEFORCE RTX 4090金属大师OC是一款超频版的非公版显卡，有着比FE公版更高的Boost频率；同时其外观与散热规格都比上一代的产品要更大更强。

　　整块显卡的外包装设计延续了金属大量系列的设计元素，只不过这次外包装也随着显卡的大而做得“更大”。而细心的你肯定会发现，这一代的NVIDIA型号标签设计风格变更了，真简洁。

　　如果用一个词来形容RTX 30系列时代的金属大师那肯定会是“圆润”，那新一代的影驰RTX 4090金属大师OC肯定是“硬朗”。显卡外观采用了全新的设计，完全是起棱起角，设计思路是以宇宙魔方的方块造型为蓝本。

　　单是这个金属外罩就很在份量，整个都是以金属来打造，一体成型、修边、打磨、喷涂，这个外罩看着就想到成本不低了。

　　显卡背部是一整块的金属背板，中间做了拉丝处理，风格与正面的区别开来；同时尾部为镂空设计，加快热量排出。

　　接口方面较为常规：3个DP1.4a与1个HDMI2.1的组合，最多可以实现3+1多显示器组合的输出。

　　细节做工真是很可以，外壳的喷涂细节方向比一般的客制化铝垞都要好些。而且笔者认为这种不规划的条形设计，其实玩家们完全可以利用涂装的形式打个性化的显卡外观。

中间风扇环还采用了CNC削边处理

　　顶部镂空有一排的出风口，横跨整个显卡的顶部，加快热量的排出

　　至于辅助供电接口方面，RTX 40系列显卡基本都会采用最新 12VHPWR接口，电源没此接口的也不怕，只需要确保电源额定功率足够850W以上，那么可以利用NVIDIA配送的4*8Pin转12VHPWR配套使用。

2影驰RTX 4090金属大师拆解回顶部

影驰GEFORCE RTX 4090金属大师OC，拆解

　　从RTX 30系列显卡开始，PCB大小不再是显卡性能衡量的标准。旗舰级的产品往往在设计与用料上更为精细化，集成度高，用料强，PCB相对散热就显得小。但中低端产品，走的是成本路线，PCB再大，成本同样会被压缩起来。

　　RTX 4090金属大师OC采用了无灯化的设计，整块显卡一个灯都没有，PCB走线也变得更为简洁。上图为连接两组风扇的接口，一黑一白防呆设计。

　　隐藏式的PCB金属加强件，直接安装到显卡散热模块上，让PCB变得更稳固，避免PCB变形。要知道PCB较细且集成度高，而散热模块的重量较高，加上PCB金属加强件后，即使不使用显卡支架也不会出现严重的掉头现象。

　　显存与供电部分全都配上高系数导热垫辅助散热，显存位置更是直接在真空腔均热板上，有着更高的散热效能。

　　拆下PCB加强件后，可看到前后的供电辅助散热部分全都原生自散热器上，相比模块化的散热效能会更高一些。

　　这一代的影驰RTX 4090金属大师OC采用了全新一代寒光星δ（德尔塔）散热系统，由三把10cm直径风扇、真空腔均热板底座、4条8mm+4条6mm镀镍复合热管，以及大面积的散热鳞片构成。

　　三把风扇直接固定在散热模块上，每个风扇拥有11片静霜扇叶，支持PWM控制，可以实现更高的风压与风量，并支持智能启停功能。

　　两段式的散热模块，其中4条8mm粗与2条6mm热管直接贯穿整个散热模块；热管与散热鳍片之前采用了成熟的回流焊接工艺焊接在一起，配上散热鳍片的扣FIN工艺，可以让散热模块有着更高效的散热表现。

成熟的扣Fin工艺

　　如果你不是明白什么叫大面积的散热鳍片，这里笔者为大家量取了散热鳍片的厚度：43mm，那你应该相像到这个散热模块有多大了吧？

　　影驰RTX 4090金属大师OC高集成度的PCB，14层高规格PCB，18+4相供电设计，虽然同样有一定的空焊位置，但仍比FE公版的供电配置要强些。

　　显卡PCB背部则简洁一些，主要是一些控制芯片，核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC（一组10个MLCC），电气性能更强一些。

ADA架构的AD102-300核心，性能强劲的保证

　　四周是12颗美光GDDR6X显存，颗粒编号为D8BZC，共组成24GB 384-bit的显存规格。

　　供电位置同样被设计在了PCB两端，只是影驰RTX 4090金属大师OC显卡有着更强劲的18+4相供电的设计。

　　每相供电均采用了安森美家提供的DrMos芯片，封装编码为：NCP30215，最大持续输出电路为55A。

　　供电控制芯片采用了三颗，均在PCB背部，分别是：uP9512、uP9521,以及uS5650Q。其中uP9512与uP9521共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

12VHPWR接口

NVIDIA统一配发的4*8Pin转12VHPWR转换线

影驰为大家配备的金属支架

3测试平台介绍回顶部

测试平台介绍：

　　由于测试对对象影驰RTX 4090金属大师OC为旗舰级性能的显卡，所以我们在其它配件的先用上都挑选一些较为顶级的设备。三套件为：INTEL目前最强的处理器i9-12900K，微星MEG Z670 ACE主板，以及金士顿的64GB DDR5-6000高规格内存。

　　同时测试前我们得确认主板BIOS里的Resizable BAR功能开启，这样才能发挥出RTX 4090显卡强劲的性能。

　　海韵PRIME GX1300电源 80PLUS金牌全模

　　电源方面使用了海韵PRIME GX1300 80PLUS金牌全模电源，其是一款1300W额定功率的电源，可以满足各玩家顶级平台的供电需求。

　　同时还提供了一条双8Pin转12VHPWR模组线，可以提供600W供电需求，满足RTX 4090显卡。

4理论&游戏性能测试回顶部

性能测试：

　　理论性能

　　从3DMARK理论性能来看，影驰RTX 4090金属大师OC有着比上代RTX 3090 Ti更为出色的性能表现，约为58.7%性能提升。这已经是近几年来NVIDIA旗舰显卡提升最猛的一代之一，只能说这次Ada Lovelace架构与TSMC 4N工艺的配合着实给我们带来了更多的惊喜。

　　尤其是在光线追踪以及DLSS项目上，影驰RTX 4090金属大师OC提升最为明显，基本能达到上代显卡的1.5倍以上。

　　 AIDA64 GPGPU理论性能测试

　　而来到算力方面，AIDA64 GPGPU部分大部可以参考参考，这一部分的算力提升甚至比理论性能更猛，达到了80.8%，Ada Lovelace架构下高规格带来的算力提升超级恐怖的说。尤其是SHA-1 HASH算力的提供甚至达到了10倍，这不好是国内矿民环境不太好，不然这显卡又会是空气卡了。

游戏性能

　　游戏性能方面，我们选用大量的光线追踪游戏，以及3A游戏大作。同时测试了2K、4K,以及DSR 8K三个不同的分辨率，可看到除着分辨率的越高，影驰RTX 4090金属大师OC显卡性能那提升是越来越明显。

　　拿4K分辨率来说，绝大部分的游戏在影驰RTX 4090金属大师OC下都是以高流畅度运行的。甚至在DLSS技术的加持下，能达到了120 FPS以上，这样我们配备上4K144显示器，那是真的爽了。

5DLSS3性能测试回顶部

DLSS3性能测试

　　Ada Lovelace架构最大的亮点优势就是支持最新的DLSS3，这里我们也一并测试一多款DLSS测试程序与游戏。影驰RTX 4090金属大师OC在DLSS3上的性能表现也是比较理想的，可看到在4K分辨率后，DLSS3技术为我们带来了更高的帧数，即使是8K分辨率下也能达到90 FPS以上。

　　而我们再测试一下支持DLSS3技术的赛博朋克 2077内测版本，以DLSS OFF为基准的情况下，影驰RTX 4090金属大师OC在开启DLSS2游戏帧数已经有着明显的提升，可以达到77 FPS；而当开启DLSS3+ReFlex功能后，游戏帧数再一次提升到了146 FPS，而且游戏延迟也越来越低。

　　F1 22

　　同样的F1 22游戏中，4K分辨率下仅TAA设置的游戏流畅度仅为75，这说明了RTX 4090不开启DLSS功能的游戏性能也很强。但是当开始DLSS3后，无论是质量档还是性能档，其游戏流畅度都高于120 FPS，对于一款赛车游戏来说，这流畅度是真再爽不过了。

DLSS3-F122-DLSS-Balance

DLSS3-F122-DLSS-Perfoemance

DLSS3-F122-DLSS-Quality

DLSS3-F122-DLSS-SuperPerfoemance

DLSS3-F122-TAA

　　Unreal Engine 5 Lyra DLSS3

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

　　而最后我们还测试了利用Unreal Engine 5引擎打造的Lyra DEMO，此DEMO除了能够支持最新的DLSS3技术外，还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比，游戏流畅度自然是DLSS3开启后提升较为明显的，达到192 FPS，而PCL延迟也进一步降低到了50ms的水平。

6创作者能力测试回顶部

创作者性能测试:

　　来到生产力方面，我们先来看看专业级别的生产力会是怎么样的表现。Blender与OctanceBench测试中影驰RTX 4090金属大师OC性能表现同样的给力，而且80%以上的提升幅度着实厉害。即使是在SPEX的专业领域测试中，影驰RTX 4090金属大师OC也没让人失望，比上代旗舰约54%的性能提升。尤其是此款显卡才卖1W3左右，这价格对于专业领域用户来说实在是太便宜了。

　　至于视频制作方面，我们测试了PCMAK10整机性能、UL Procyon、以及PugetBench的测试，影驰RTX 4090金属大师OC在制作视频方面的提升关不太明显，可能是测试所使用的软件与工程文件不够足以发挥出RTX 4090显卡的性能。

　　所以我们再做了一个RTX 40系列显卡内置的第8代NVENC双编码器的测试，测试片源来自NVIDIA提供的8K片源与工程文件，影驰RTX 4090金属大师OC在8K30 AV1视频输出到H.265格式视频时明显有着更短的视频，尤其是8K30规格的视频用时更短一些。而且还支持AV1格式的输出，这实在是再好不过了。

　　同时MAGIC MASK工程文件的测试与ON1 Resize的项目测试中也表明，影驰RTX 4090金属大师OC内置的第8代NVENC双编码器很强大，而且利用RTX 40核心里的黑技术，可以让渲染的时候更短，大大的加快效率。

7超频&功耗&总结回顶部

超频

　　超频方面，笔者手上这块影驰RTX 4090金属大师OC显卡BIOS里最大的功耗限定为480W，若是动手能力较差的网友可以使用影驰XTREME TUNER中的AI OC超频选项，通过一系列的检测，软件给出了核心频率+165MHz设定，这频率更为安全可靠，性能提升还是可以的。

　　而对于笔者来说，那肯定是不满足的，先来一个基本的盘，直接核心频率+210MHz，显存+200MHz，这样显卡核心频率就Boost到了3015MHz，并且顺利通过了Time spy压力测试。

　　最后笔者直接把影驰RTX 4090金属大师OC显卡超到了3090MHz的核心频率，3DMARK测试中40秒档的实际稳定频率为3075MHz，显卡得分为37719，比默认频率的35781得分提升了5.4%。同时大家注意一下HWINFO64记录下来的最高功率，只有455W，明显是撞到功耗墙了，若是再解锁功耗墙，相信频率将会有更高的提升。

功耗与散热

　　利用Furmark软件进行显卡烤机测试，影驰RTX 4090金属大师OC显卡占用率达到了99%，满载功耗为448.1，基本就是限制在于450W TDP之下。显卡的核心满载温度为66.3度，显存满载温度为76.7度，温度表现与噪音表现的确都比FE公版的要好一些。

　　新一代的RTX 40系列显卡对PCIe供电要求都较低，主要是来自12VHPWR的供电，满载时就已经达到了439W，所以笔者建议大家使用模组线，而非转换线。笔者这个满载的功耗有点高，对于线材和接口的要求更高了，所以NVIDIA转换线上的30次插拨限制也并非随便说说的。

总结：

　　首先从外观设计来说，笔者认为新一代的影驰RTX 4090金属大师OC显卡才是真正的金属大师，硬朗的设计风格，更让玩家们所接受。全金属的设计，也真正的达到了金属“大师”级别，配合上RTX 4090的性能表现，那是真的绝了。

　　同时此款显卡的性能表现的确给人不少的惊喜，60%以上的基础性能提升，1.5倍的算力提升，以及2倍专业内容性能的提升，这些都是相当吸引人的，一块显卡就能达到了过去两块显卡的地步，也怪不得这一代取消了NVLink的支持，因为的确没必要，双卡适配也麻烦，现在就没有一块RTX 4090不能干的事。

　　最后是价格方面，影驰RTX 4090金属大师零售报价为12999，与FE公版持平；影驰RTX 4090金属大师OC零售报价13499。总结：有能力购买的真香显卡。

8ADA架构讲解回顶部

Ada Lovelace架构讲解

　　Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

　　从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元，以及面向AI推理的Tensor Core单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RT Core和三代Tensor Core基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元，同时加入众多新颖的黑科技，从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

　　在讲述核心架构前，我们先了解几个关键词：GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。

　　大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心， GeForce RTX 4090的核心是 AD102，目前Ada Lovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

　　而GeForce RTX 4080 16GB核心代号为AD103-300，拥有9728个CUDA核心和16 GB高速美光GDDR6X显存，显存位宽也缩减到了256Bit；GeForce RTX 4080 12GB规格要低一些，核心代号为AD104-400，拥有7680个CUDA核心和12GB 美光 GDDR6X显存，显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForce RTX 4080 系列相关的信息。

　　得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺，GeForce RTX 4090核心面积仅是608mm²（上代RTX 3090 Ti 628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

　　值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForce RTX 4090 Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

　　从GTC2022秋季大会中，其实我们就已经发现了，目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。

　　再来看上面的GeForce RTX 4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForce RTX 4090核心代号为AD102-300，其拥有9个完整规格的GPC (图形处理集群，每个内建6个TPC)，与2个非完整的GPC (图形处理集群，每个内建5个TPC)，共组成了64个TPC ，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

　　如果你还是不太懂，这里笔者就逐一为了Ada Lovelace架构显卡的构成。

　　刚才我们已经说到，一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的Raster Engine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

全新的SM流式多处理器

　　Ada Lovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores（张量核心）、4个Texture Units（纹理单元）、256 KB Register File（寄存器堆），以及128 KB L1 数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

　　过去的Turing架构INT32 计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

　　再来看看Ada Lovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForce RTX 4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了，比上一代的RTX 3090 Ti显卡的40 TFLOPS，还真是提升了两倍有多。

　　另外缓存方面Ada Lovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128 KB的缓存，这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX 4090显卡拥有72MB二级缓存，也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

技术讲解：第三代 RT Cores与第四代 Tensor Cores

　　以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

　　第三代 RT Cores

　　RT Cores用于光线追踪加速，第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS，是上一代产品 2.8 倍。

　　在Ampere架构中，第二代RT Cores支持边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

　　所以在第三代 RT Cores增加了两个重要硬件单元：Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine，主要是用于alpha通道的加速，可以将 alpha 测试几何体的光线追踪速度提高2倍。

　　在传统光栅渲染中，开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染，例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

　　而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

　　三角形。根据Alpha 通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

　　Displaced Micro-Meshes Engine

　　如果说Opacity Micromap Engine加速的是面处理，那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示，在Ada Lovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RT Cores更低，效率也更高。

　　通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在Ada Lovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程，减少构建时间和存储成本。

　　同时Ada Lovelace架构SM中新增了着色器执行重排序（Shader Execution Reordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用 GPU 资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

　　第四代 Tensor Cores

　　Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎，具有高达 1.32 petaflops 的张量处理性能，超过上一代的 5 倍。

9DLSS3技术讲解回顶部

技术讲解：DLSS3

　　或者说第四代 Tensor Cores太硬核你不会知道是啥？提升意义在哪？但是Tensor Cores最经典的应用DLSS你肯定会知道，这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

　　之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

　　在DLSS3中包含了三项技术：DLSS 帧生成、DLSS 超分辨率（也称为 DLSS 2）和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS 帧生成技术；而后两技术中，DLSS 超分辨率只需要GeForce RTX显卡都能使用上，NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

　　想实现DLSS 帧生成可不简单，这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是：利用 AI 技术生成更多帧，以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

　　从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而Ada Lovelace架构的光流加速器升级到了第二代，其提供了高达300 TeraOPS (TOPS) ，比安培架构的初代光流加速器（Optical Flow Acceleration，OFA）快 2 倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

　　另外，由于DLSS 帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

　　最后由于DLSS 3是建立在DLSS 2基础之上的，游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能，所以DLSS 3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

　　阅读小亮点：NVIDIA Reflex

　　NVIDIA Reflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

　　想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

　　当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后，直接达到1440p分辨率360 FPS的体验，这着实是性能有点强劲了。

　　在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布，包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz，而最猛的是ASUS ROG Swift 360 Hz PG27AQN ，刷新率直接来到了360Hz。

　　但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

技术讲解：双 NVIDIA 编码器（NVENC）

　　GeForce RTX 40 系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式 AV1。

　　而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

　　不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1 编码器可将效率提高 40%，同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容，这样我们做游戏录制也会变得更为轻松。

　　包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。