技术讲解:Ada Lovelace架构解析 Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。 从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。 全新的SM流式多处理器 Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。 过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。 再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4070 Ti拥有60个SM,7680个CUDA核心,那你也就应该明白它的着色器能力进一步加强,即使比起上一代的卡皇RTX 3090 Ti显卡,那也是丝毫不虚的。 另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX 4070 Ti配备了48MB二级缓存,相比RTX 3070 Ti可以说是质的飞跃。
|
本文导航 |
原创栏目
硬件热点
硬件视频
IT百科
网友评论
聚超值•精选