首页 > DIY外设 > 显卡 > 评测> 正文

真核弹降临!影驰 GeForce RTX 4090 HOF OC LAB Plus显卡评测

YIHAN 责任编辑:chenyihan 发布于:2023-02-12 00:15 PConline原创

    Ada Lovelace架构讲解

  Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

  从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

  在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。

  大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

  得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm²(上代RTX 3090 Ti 628mm²),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。

  值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

  从GTC2022秋季大会中,其实我们就已经发现了,目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。

  再来看上面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

  如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。

  刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。

    全新的SM流式多处理器

  Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

  过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

  再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。

  另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD102核心是96MB二级缓存,而RTX 4090显卡拥有72MB二级缓存,也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

键盘也能翻页,试试“← →”键
影驰   RTX 4090   显卡   HOF   名人堂
YIHAN

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部