太平洋科技硬件

棱角当道时代的锐丽异类，耕升 GeForce RTX 4090 炫光 OC评测

YIHAN 责任编辑：chenyihan 发布于：2022-10-13 19:27 PConline原创

　　引言

　　在经历了两年的矿潮折磨后，玩家终于迎来了一丝曙光，RTX 40系新显卡的发布既带来突飞猛进的性能提升，又搭载了眼前一亮的全新黑科技。无论是TSMC 4N NVIDIA定制工艺还是强悍的DLSS3技术，都让玩家对RTX 4090旗舰显卡的实际表现充满期待。

　　而随着NVIDIA GeForce RTX 4090 Founders Edition公版显卡的解禁，各家AIC厂商也是百花齐放，推出了形态各异的非公RTX 4090，耕升作为显卡产品领域里拥有相当深厚资历的显卡品牌，自然也不会缺席这次顶级显卡产品盛会，我们也有幸在第一时间收到了耕升 GeForce RTX 4090 炫光 OC显卡，一起来看看这款性能怪兽的表现究竟如何。

　　耕升 GeForce RTX 4090 炫光 OC（简称：“耕升 RTX 4090 炫光 OC”）

　　 外观鉴赏：耕升 GeForce RTX 4090 炫光 OC

　　首先来看看外包装盒，耕升 RTX 4090 炫光 OC的包装盒体积巨大，正面印有耕升的Logo以及GeForce RTX 4090字样，包装盒的正中间是大大的X型标志，满满的炫酷科技风，黑、灰银、红、蓝、粉等色彩的搭配更是能抓住人们的视线，包装设计相当有特色。

　　包装盒的底部印有这一代显卡使用的先进技术，如DLSS、光线追踪、NVIDIA Reflex以及NVIDIA Studio。

　　打开包装盒后，映入眼帘的就是耕升 RTX 4090 炫光 OC本体，附赠的还有电源转换线和RGB同步线，今年的RTX 4090有几斤几两大家也都见到，所以耕升 RTX 4090 炫光 OC还附赠了显卡支架，其他的配件则是使用手册和说明书等。

　　外观方面，耕升 RTX 4090 炫光 OC延续了前作RTX 3090Ti的设计风格，简约沉稳，散热器外壳为波浪形的全黑配色设计，材质宛如暗黑色的钢琴，与现在很多棱角分明、硬朗线条的产品不同，耕升 RTX 4090 炫光 OC的设计更圆润更有层次感。

　　显卡顶部印有GEFORCE RTX 字样，底下是一整排的出风口，横跨整个显卡顶部，加速热量排出。并且这一代的RTX 4090个头不小，耕升 RTX 4090 炫光 OC为3.5槽设计，装机时要注意兼容性。

　　显卡正面是三把风扇组成的第二代“炫之黑曜石”散热器，左右两侧的风扇为102mm，中间的为92mm。白色的扇叶与全黑的波浪形导流罩，简约而又不失美感，强烈的对比感增强了产品的视觉效果。

　　与其他非公的RTX 4090类似，背板为全金属覆盖设计，上面印着“GeForce RTX”的字样和 NVIDIA 核心AIC之一“耕升”的英文名称。

　　并且显卡背板的右半部分还是镂空式设计，隐约可以看见内部的散热鳍片，增加内部空气对流，散热风扇能够快速带离内部热量，降低显卡温度，稳定释放性能。

　　显卡的接口为三个DP1.4a和一个HDMI2.1a，即使是外界到8K的显示器，这些接口也足够，并且这代显卡最多支持四联屏输出。

　　在供电方面，耕升 RTX 4090 炫光 OC使用的是12VHPWR供电接口，电源没有此接口不用担心，显卡配件内有NVIDIA专门配送的4*8pin转12VHPWR电源转换线。另外这一代的显卡建议搭配ATX3.0标准额定功率满850W以上的电源，确保显卡能在稳定功率下使用。

　　玩灯依旧是耕升的强项，这一代也不例外。正面纯黑色的导流罩表明平平无奇，其实底下是满满当当的ARGB灯珠，安装点亮后能够呈现多如繁星的炫彩灯光。

　　而显卡外壳是用半透明的塑胶材质制作，并且在表面采用了PCB板花纹设计，显卡在通电运行时会呈现出电路板的纹路，搭配上动态的RGB灯效，效果惊艳，极具未来感。

　　并且这一代显卡的RGB通过5V/3针线材连接后还能够实现全局灯效同步，使用自家的GW-SOUL软件还能自定义灯光效果。

　　喜欢RGB，喜欢玩灯的玩家，不要错过这张有“夜店卡皇”之称的耕升 RTX 4090 炫光 OC，它是目前发光面积最大的RTX 4090显卡，没有之一。

2回顶部

　　 显卡拆解：耕升 GeForce RTX 4090 炫光 OC

　　卸下背板的螺丝就可以拆下耕升 RTX 4090 炫光 OC硕大的散热器，首先映入眼帘的是X型的散热鳍片固定器，在这背后就是那颗目前最强的GPU核心——TSMC 4N NVIDIA定制工艺的AD102-300-A1核心。

　　耕升 RTX 4090 炫光 OC采用了类公版的PCB设计，PCB本体不算长，相比前代RTX 3090Ti还要再小一些，但是却容纳了更多的元器件，并且采用越肩设计，比一般的显卡都要再高一些。

　　PCB的背面则简洁不少，主要是一些控制芯片，核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC)，整体电气性能更强。

　　PCB的正中间是RTX 4090 GPU专属的AD-102-300-A1核心，而其周边则是12颗GDDR6X显存。

　　显存来自美光，型号为2MU47 D8BZC，单颗显存容量2GB，12颗组成24GB超大显存。

　　供电位置被安排在PCB的两端，耕升 RTX 4090 炫光 OC使用了18相核心供电+4相显存供电设计，稳定输出，持久耐用。

　　每相供电均采用独立的DrMos芯片，型号为BLN3-2N2D

　　供电控制芯片共三颗，均安排在PCB背面，型号分别是：uP9512、uP9521,以及uS5650Q。其中uP9512与uP9521共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

　　看完了PCB电路设计，下面来看看耕升全新设计的第二代“炫之黑曜石”散热器。

　　这一代的散热器相当庞大，不仅能够给GPU散热，还为显存、电感以及MOS管等进行散热，保证耕升 RTX 4090 炫光 OC能够全力输出。

　　可以看到显存和供电部分都配上了高系数的导热垫辅助散热，GPU核心也抹上了厚厚的硅脂，显存位置更是紧贴真空腔均热板，超高的散热效能助力这一代显卡强劲的性能释放。

　　第二代“炫之黑曜石”散热器用的是两段式的散热模块，两边均升级了特大面积的散热鳍片。

　　内建了8根复合式热导管，S型的热导管贯穿了整个散热主体，实现超高效的导热设计。

　　8根热导管加上大面积的散热鳍片，这个散热配置看着就不会差，并且背板末端部分还是镂空设计，搭配散热风扇，还能进一步降低显卡温度。即使是超频，也能游刃有余。

　　第二代“炫之黑曜石”散热系统不仅升级了外观和灯效设计，还升级优化了耕升“炫风之刃”散热风扇的扇叶。散热器由2个102mm和1个92mm的风扇组合而成，经过升级后，提升风流量的同时还能减低声噪，更高速有效地散热，轻松应对高达600W TGP功耗下的温度。

3回顶部

　　 测试平台介绍

　　耕升 RTX 4090 炫光 OC作为旗舰级性能的显卡，想要衬得上它的，自然也是顶级的配置，我们选用了Intel目前最强的处理器i9-12900K，微星MEG Z670 ACE主板，以及金士顿的64GB DDR5-6000高规格内存。

　　测试前，通过GPU-Z对显卡的运行状态以规格参数进行再次的检查，避免因为运行状态及参数不正确而导致测试成绩不正确。同时也能通过GPU-Z所呈现的数据来看看耕升 RTX 4090 炫光OC显卡更为细分的规格参数。另外测试前我们确认主板BIOS里的Resizable BAR功能开启，这样才能发挥出RTX 4090显卡强劲的性能。

　　航嘉MVP P1200 80PLUS白金牌全模电源

　　电源方面使用了航嘉MVP P1200 80PLUS白金牌全模电源，其是一款1200W额定功率的电源，可以满足各玩家顶级平台的供电需求。

　　同时还提供了一条原生12VHPWR模组线，可以提供600W供电需求，满足RTX 4090显卡。

4回顶部

　　 理论性能测试

　　从3DMARK理论性能来看，耕升 RTX 4090 炫光 OC对比上代RTX 3090 Ti有着更为出色的性能表现，首先是代表DX11的Fire Strike测试，虽然没有实现性能的翻倍，但提升也在70%左右。而在代表DX12的Time Spy测试中，RTX 4090与RTX 3090Ti也是拉出了远远的差距，Time Spy Extreme差点突破两万分大关。最让我惊喜的还是DLSS项目，不开启DLSS时，帧数已经接近前代开启DLSS的帧数，而RTX 4090在开启DLSS后，帧数直接翻倍。实测下来，RTX 4090的性能提升堪称巨大。

　　 游戏性能

　　从上面的理论性能来看，这一次RTX 4090的性能提升是我历年来见过的最高的一次，相比其他显卡的性能几乎是跨时代级别的提升，这也让我非常好奇这款显卡的实际游戏性能。

　　这种级别的显卡我想就没必要测试2K了，这次我们直接在4K分辨率下测试，选用了大量光线追踪游戏和3A大作，可以看到在号称显卡杀手的《赛博朋克2077》中，前代旗舰仅有48 FPS，而耕升 RTX 4090 炫光 OC已经能够在超级光追下跑出80 FPS的成绩。而在《极限竞速：地平线5》中，RTX 4090的性能大约比RTX 3090Ti强出74%。实测下来，绝大部分的游戏在耕升 RTX 4090 炫光 OC下都是以高流畅度运行的。甚至在DLSS技术的加持下，能达到了120 FPS以上，这样我们配备上4K144显示器，那是真的爽了。

5回顶部

　　 DLSS3性能测试

　　Ada Lovelace架构最大的亮点优势就是支持最新的DLSS3，这里我们也一并测试一多款DLSS测试程序与游戏。开启DLSS3后，耕升 RTX 4090 炫光 OC的性能表现相比前代旗舰RTX 3090 Ti有几乎翻倍的提升，4K分辨率下已经能够做到183 FPS的成绩，完全能够满足4K@144的电竞需求，即使将分辨率提升至8K，RTX 4090的帧数表现也逼近百帧，8K电竞指日可待。

　　同样的F1 22游戏中，4K分辨率下仅TAA设置的游戏流畅度仅为75，这说明了RTX 4090不开启DLSS功能的游戏性能也很强。但是当开始DLSS3后，无论是质量档还是性能档，其游戏流畅度都高于120 FPS，对于一款赛车游戏来说，这流畅度是真再爽不过了。

DLSS3-F122-DLSS-Balance

DLSS3-F122-DLSS-Perfoemance

DLSS3-F122-DLSS-Quality

DLSS3-F122-DLSS-SuperPerfoemance

DLSS3-F122-TAA

　　Unreal Engine 5 Lyra DLSS3测试

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

　　而最后我们还测试了利用Unreal Engine 5引擎打造的Lyra DEMO，此DEMO除了能够支持最新的DLSS3技术外，还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比，游戏流畅度自然是DLSS3开启后提升较为明显的，达到192 FPS，而PCL延迟也进一步降低到了50ms的水平。

6回顶部

　　 创作者性能测试

　　视频制作方面，我们测试了PCMAK10整机性能、UL Procyon、以及PugetBench的测试，由于Photoshop、Premiere以及After Effect这三个软件对于显卡的要求都不算太高，显卡加速只起到辅助作用，所以耕升 RTX 4090 炫光 OC在制作视频方面的提升关不太明显，与上一代旗舰RTX 3090Ti相比，提升幅度约13%，而RTX 4090真正强悍的地方在于支持新的编解码方式，下面我们也会进行详细的测试。

　　来到生产力方面，我们先来看看专业级别的生产力会是怎么样的表现。Blender与OctanceBench测试中耕升 RTX 4090 炫光 OC性能表现同样的给力，相比前代RTX 3090Ti有85%以上的性能提升。即使是在SPEX的专业领域测试中，耕升 RTX 4090 炫光 OC也没让人失望，比上代旗舰有约55%的性能提升。尤其是此款显卡才卖1W3左右，这价格跟这性能，只能说搞工业设计的用户这次真的可以换显卡了，这代RTX 4090真的可以显著提升你们的渲染效率。

　　这代RTX 4090的一大亮点就是支持AV1编码，AV1相比H.265能够以更低带宽、更小文件提供更高质量的画质，并且完全开放没有任何授权费用，正陆续得到更多平台、软件的支持。所以我们再做了一个RTX 40系列显卡内置的第8代NVENC双编码器的测试，测试片源来自NVIDIA提供的8K片源与工程文件，耕升 RTX 4090 炫光 OC在8K30 AV1视频输出到H.265格式视频时明显有着更短的视频，尤其是8K30规格的视频用时更短一些。而且还支持AV1格式的输出，这实在是再好不过了。即便是相同的H.265格式，耕升 RTX 4090 炫光 OC的导出速度相比前代旗舰也快了70%左右。

　　同时MAGIC MASK工程文件的测试与ON1 Resize的项目测试中也表明，耕升 RTX 4090 炫光 OC内置的第8代NVENC双编码器很强大，而且利用RTX 40核心里的黑技术，可以让渲染的时候更短，大大的加快效率。

7回顶部

　　超频

　　这一代的RTX 4090超频能力相当出色，虽然英伟达已经给RTX 4090足够高的频率，出厂最高可达2520MHz，不过依旧有继续超频的空间。所以我们手动对这张显卡进行超频，简单小超一下，将GPU核心频率拉至2910MHz，此时跑3DMark的Port Royal光追测试，显卡得分26734分，相比默认状态下的26105有了小幅提升。

　　而对于笔者来说，这肯定是不满足的，所以继续往上超频，GPU核心频率直接拉到3015MHz，这在以前是想都不敢想的，已经接近部分CPU的频率了，超频后3DMark的Port Royal光追测试显卡得分27073，相比默认状态下提升了约4%。可以看到这代RTX 4090，即使不超频已经有非常不错的性能表现了，超频后的性能提升也比较可观。

　　 功耗与散热

　　最后对耕升 RTX 4090 炫光 OC进行烤机测试，测试时室温24℃，Furmark甜甜圈设定为1280 x 720分辨率。在烤机15分钟后，显卡占用率达到了99%，满载功耗446.7W，显卡运行频率顶着2910MHz在跑，核心满载温度稳定在64℃，显存满载温度为62℃，果然全新的第二代“炫之黑曜石”散热器的效能强劲，用来压制这款显卡还是绰绰有余的。

　　相比FE公版，耕升 RTX 4090 炫光 OC的温度表现和噪音表现都更好，GPU温度有将近10℃的差距，显存更是接近20℃差距。并且得益于台积电4nm工艺，这一代的RTX 4090在同等TDP下，性能更强的同时，温度也大幅下降。

　　总结

　　首先是外观方面，这一代的耕升 RTX 4090 炫光 OC不仅有着极具未来感的外观设计，颜值上也保留了前代的大面积炫光RGB，至今给我留下深刻印象，可以说是“棱角分明当道时代的锐丽异类”，即使是对RGB不感冒的玩家在看到耕升 RTX 4090 炫光 OC时，也会被它炫酷的RGB灯效所吸引。

　　评测完可以看到这代RTX 4090后，它的性能也给我带来不小的惊喜，耕升 RTX 4090 炫光 OC相比前代旗舰提升巨大，性能确实称得上地表最强，至少现阶段，还没有对手能够撼动它消费级卡皇的宝座。散热效能也是前所未见，如此强悍的性能，温度控制却相当到位，不过60多度而已，从里到外都彰显了高端旗舰的风范。

　　如果你想购买一款性能最强、颜值在线、温控到位的显卡，那么耕升 RTX 4090 炫光OC一定是你的最佳选择。DLSS3黑科技加持带你体验4K光追游戏的魅力，全新升级的RT Cores和Tensor Cores邀你一同领略AI领域、视频转码等方面的代际飞跃。

　　最后是价格方面，耕升 RTX 4090 炫光零售报价为12999，与FE公版持平；耕升 RTX 4090 炫光 OC零售报价13999。

8回顶部

　　 Ada Lovelace架构讲解

　　Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

　　从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元，以及面向AI推理的Tensor Core单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RT Core和三代Tensor Core基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元，同时加入众多新颖的黑科技，从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

　　在讲述核心架构前，我们先了解几个关键词：GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。

　　大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心， GeForce RTX 4090的核心是 AD102，目前Ada Lovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

　　而GeForce RTX 4080 16GB核心代号为AD103-300，拥有9728个CUDA核心和16 GB高速美光GDDR6X显存，显存位宽也缩减到了256Bit；GeForce RTX 4080 12GB规格要低一些，核心代号为AD104-400，拥有7680个CUDA核心和12GB 美光 GDDR6X显存，显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForce RTX 4080 系列相关的信息。

　　得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺，GeForce RTX 4090核心面积仅是608mm²（上代RTX 3090 Ti 628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

　　值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForce RTX 4090 Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

　　从GTC2022秋季大会中，其实我们就已经发现了，目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。

　　再来看上面的GeForce RTX 4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForce RTX 4090核心代号为AD102-300，其拥有9个完整规格的GPC (图形处理集群，每个内建6个TPC)，与2个非完整的GPC (图形处理集群，每个内建5个TPC)，共组成了64个TPC ，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

　　如果你还是不太懂，这里笔者就逐一为了Ada Lovelace架构显卡的构成。

　　刚才我们已经说到，一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的Raster Engine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

　　 全新的SM流式多处理器

　　Ada Lovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores（张量核心）、4个Texture Units（纹理单元）、256 KB Register File（寄存器堆），以及128 KB L1 数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

　　过去的Turing架构INT32 计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

　　再来看看Ada Lovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForce RTX 4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了，比上一代的RTX 3090 Ti显卡的40 TFLOPS，还真是提升了两倍有多。

　　另外缓存方面Ada Lovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128 KB的缓存，这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX 4090显卡拥有72MB二级缓存，也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

　　 技术讲解：第三代RT Cores与第四代Tensor Cores

　　以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

　　第三代 RT Cores

　　RT Cores用于光线追踪加速，第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS，是上一代产品 2.8 倍。

　　在Ampere架构中，第二代RT Cores支持边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

　　所以在第三代 RT Cores增加了两个重要硬件单元：Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine，主要是用于alpha通道的加速，可以将 alpha 测试几何体的光线追踪速度提高2倍。

　　在传统光栅渲染中，开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染，例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

　　而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

　　三角形。根据Alpha 通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

　　Displaced Micro-Meshes Engine

　　如果说Opacity Micromap Engine加速的是面处理，那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示，在Ada Lovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RT Cores更低，效率也更高。

　　通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在Ada Lovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程，减少构建时间和存储成本。

　　同时Ada Lovelace架构SM中新增了着色器执行重排序（Shader Execution Reordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用 GPU 资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

　　第四代 Tensor Cores

　　Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎，具有高达 1.32 petaflops 的张量处理性能，超过上一代的 5 倍。

9回顶部

　　 技术讲解：DLSS3

　　或者说第四代 Tensor Cores太硬核你不会知道是啥？提升意义在哪？但是Tensor Cores最经典的应用DLSS你肯定会知道，这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

　　之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

　　在DLSS3中包含了三项技术：DLSS 帧生成、DLSS 超分辨率（也称为 DLSS 2）和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS 帧生成技术；而后两技术中，DLSS 超分辨率只需要GeForce RTX显卡都能使用上，NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

　　想实现DLSS 帧生成可不简单，这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是：利用 AI 技术生成更多帧，以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

　　从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而Ada Lovelace架构的光流加速器升级到了第二代，其提供了高达300 TeraOPS (TOPS) ，比安培架构的初代光流加速器（Optical Flow Acceleration，OFA）快 2 倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

　　另外，由于DLSS 帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

　　最后由于DLSS 3是建立在DLSS 2基础之上的，游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能，所以DLSS 3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

　　阅读小亮点：NVIDIA Reflex

　　NVIDIA Reflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

　　想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

　　当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后，直接达到1440p分辨率360 FPS的体验，这着实是性能有点强劲了。

　　在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布，包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz，而最猛的是ASUS ROG Swift 360 Hz PG27AQN ，刷新率直接来到了360Hz。

　　但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

　　 技术讲解：双NVIDIA编码器（NVENC）

　　GeForce RTX 40 系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式 AV1。

　　而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

　　不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1 编码器可将效率提高 40%，同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容，这样我们做游戏录制也会变得更为轻松。

　　包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。