太平洋科技硬件

技嘉GeForce RTX 4080 MASTER超级雕首发评测：极致的堆料，绝对的旗舰！

Ting 责任编辑：chenzhanting 发布于：2022-11-15 23:30 PConline原创

技术讲解：第三代 RT Cores与第四代 Tensor Cores

　　以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

　　第三代 RT Cores

　　RT Cores用于光线追踪加速，第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS，是上一代产品 2.8 倍。

　　在Ampere架构中，第二代RT Cores支持边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

　　所以在第三代 RT Cores增加了两个重要硬件单元：Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine，主要是用于alpha通道的加速，可以将 alpha 测试几何体的光线追踪速度提高2倍。

　　在传统光栅渲染中，开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染，例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

　　而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

　　三角形。根据Alpha 通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

　　Displaced Micro-Meshes Engine

　　如果说Opacity Micromap Engine加速的是面处理，那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示，在Ada Lovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RT Cores更低，效率也更高。

　　通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在Ada Lovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程，减少构建时间和存储成本。

　　同时Ada Lovelace架构SM中新增了着色器执行重排序（Shader Execution Reordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用 GPU 资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。　　

　　第四代 Tensor Cores

　　Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎，具有高达 1.32 petaflops 的张量处理性能，超过上一代的 5 倍。