太平洋科技硬件

真核弹降临！影驰 GeForce RTX 4090 HOF OC LAB Plus显卡评测

YIHAN 责任编辑：chenyihan 发布于：2023-02-12 00:15 PConline原创

　　 Ada Lovelace架构讲解

　　Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

　　从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元，以及面向AI推理的Tensor Core单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RT Core和三代Tensor Core基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元，同时加入众多新颖的黑科技，从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

　　在讲述核心架构前，我们先了解几个关键词：GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。

　　大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心， GeForce RTX 4090的核心是 AD102，目前Ada Lovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

　　得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺，GeForce RTX 4090核心面积仅是608mm²（上代RTX 3090 Ti 628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

　　值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForce RTX 4090 Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

　　从GTC2022秋季大会中，其实我们就已经发现了，目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。

　　再来看上面的GeForce RTX 4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForce RTX 4090核心代号为AD102-300，其拥有9个完整规格的GPC (图形处理集群，每个内建6个TPC)，与2个非完整的GPC (图形处理集群，每个内建5个TPC)，共组成了64个TPC ，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

　　如果你还是不太懂，这里笔者就逐一为了Ada Lovelace架构显卡的构成。

　　刚才我们已经说到，一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的Raster Engine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

　　 全新的SM流式多处理器

　　Ada Lovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores（张量核心）、4个Texture Units（纹理单元）、256 KB Register File（寄存器堆），以及128 KB L1 数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

　　过去的Turing架构INT32 计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

　　再来看看Ada Lovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForce RTX 4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了，比上一代的RTX 3090 Ti显卡的40 TFLOPS，还真是提升了两倍有多。

　　另外缓存方面Ada Lovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128 KB的缓存，这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX 4090显卡拥有72MB二级缓存，也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。