太平洋科技硬件

ADA架构第二发炮弹，NVIDIA GeForce RTX 4080 FE公版首发评测

DIY硬件责任编辑：liweineng 发布于：2022-11-15 22:18 PConline原创

技术回顾：Ada Lovelace架构优势

　　Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

　　从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元，以及面向AI推理的Tensor Core单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RT Core和三代Tensor Core基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元，同时加入众多新颖的黑科技，从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

　　全新的SM流式多处理器

　　Ada Lovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores（张量核心）、4个Texture Units（纹理单元）、256 KB Register File（寄存器堆），以及128 KB L1 数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

　　过去的Turing架构INT32 计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

　　再来看看Ada Lovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForce RTX 4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了，比上一代的RTX 3090 Ti显卡的40 TFLOPS，还真是提升了两倍有多。

　　另外缓存方面Ada Lovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128 KB的缓存，这样RTX 4090/RTX4080显卡中就实现了更大的L1/共享内存以及更大的L2缓存，因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

　　技术讲解：第三代 RT Cores与第四代 Tensor Cores

　　以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

　　第三代 RT Cores

　　RT Cores用于光线追踪加速，第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS，是上一代产品 2.8 倍。

　　在Ampere架构中，第二代RT Cores支持边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

　　所以在第三代 RT Cores增加了两个重要硬件单元：Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine，主要是用于alpha通道的加速，可以将 alpha 测试几何体的光线追踪速度提高2倍。

　　在传统光栅渲染中，开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染，例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

　　而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

　　三角形。根据Alpha 通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

　　Displaced Micro-Meshes Engine

　　如果说Opacity Micromap Engine加速的是面处理，那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示，在Ada Lovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RT Cores更低，效率也更高。

　　通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在Ada Lovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程，减少构建时间和存储成本。

　　同时Ada Lovelace架构SM中新增了着色器执行重排序（Shader Execution Reordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用 GPU 资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

　　第四代 Tensor Cores

　　Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎，具有高达 1.32 petaflops 的张量处理性能，超过上一代的 5 倍。

　　技术讲解：DLSS3

　　或者说第四代 Tensor Cores太硬核你不会知道是啥？提升意义在哪？但是Tensor Cores最经典的应用DLSS你肯定会知道，这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

　　之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

　　在DLSS3中包含了三项技术：DLSS 帧生成、DLSS 超分辨率（也称为 DLSS 2）和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS 帧生成技术；而后两技术中，DLSS 超分辨率只需要GeForce RTX显卡都能使用上，NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

　　想实现DLSS 帧生成可不简单，这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是：利用 AI 技术生成更多帧，以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

　　从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而Ada Lovelace架构的光流加速器升级到了第二代，其提供了高达300 TeraOPS (TOPS) ，比安培架构的初代光流加速器（Optical Flow Acceleration，OFA）快 2 倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

　　另外，由于DLSS 帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

　　最后由于DLSS 3是建立在DLSS 2基础之上的，游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能，所以DLSS 3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

　　阅读小亮点：NVIDIA Reflex

　　NVIDIA Reflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

　　想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

　　当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后，直接达到1440p分辨率360 FPS的体验，这着实是性能有点强劲了。

　　在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布，包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz，而最猛的是ASUS ROG Swift 360 Hz PG27AQN ，刷新率直接来到了360Hz。

　　技术讲解：双 NVIDIA 编码器（NVENC）

　　GeForce RTX 40 系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式 AV1。

　　而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

　　不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1 编码器可将效率提高 40%，同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容，这样我们做游戏录制也会变得更为轻松。

　　包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

上一页 1 2 3 4 5 6 7 89在本页浏览全文

键盘也能翻页，试试“← →”键

本文导航