正在阅读:RTX 3080首发评测:翻倍CUDA+三星8nm,比2080 Ti强30%!RTX 3080首发评测:翻倍CUDA+三星8nm,比2080 Ti强30%!

2020-09-16 21:00 出处:PConline原创 作者:超大陆、忆暶 责任编辑:xiezixian

  NVIDIA Ampere架构与RTX 30系显卡详解:大幅性能提升是怎样来的?

 CUDA核心再改,实现翻倍CUDA数?

  三张显卡发布后,大家最热议讨论的应该就是CUDA核心数了,还记得同事最深刻的一句感叹:“有生之年我想看到CUDA数能做到一万,结果没想到这么快就来了。”

RTX 3080

  确实,RTX 3080虽然算是RTX 2080的对位产品,但按官网规格来看,CUDA数却直接多了快两倍了,对比RTX 2080 Ti也几乎翻倍,这两年里英伟达技术进步快得这么离谱了吗?

RTC
Turing架构SM单元示意图,图中FP32区域每个小框框=1个FP32单元

  先讲讲CUDA怎么算的:CUDA数=FP32单元数。

  一直以来CUDA核心数的计算方式是一个SM模块下的FP32运算单元个数, 在我们固有印象中,INT(整数运算单元)和FP(浮点运算)组合才算是一个处理器单元,但因为大部分运算性能(比如游戏计算)主要考察FP32单元性能,所以老黄从Fermi架构开始,其实就直接用FP32单元=CUDA核心这样的计算方式,沿用至今。

  以Turing示例,每SM单元有64个CUDA核心,看上图数FP32的格子就能数出64个FP32单元。

NEW
NVIDIA Ampere架构图,FP32+INT32同步运算

  而到了这代NVIDIA Ampere架构后,布局结构与Turing是差不多的,中间的一组数据路径依然是全FP32单元设计,而左边的数据路径则变成了“FP32+INT32”,对于新SM单元是怎么工作的,英伟达内容与技术副总裁Tony Tamasi在Reddit上作出了解释:

RTX 3080

Tony Tamasi:

(红线部分)一组数据路径包含16组FP32 CUDA核心,每个时钟周期可以执行16条FP32指令;

另一条路径包含16个FP32和16个INT32核心。

得益于新设计,每个SM单元里的分区可以选择在每个时钟周期内执行32条FP32指令,或者是16条FP32+16条INT32指令。

换算下来,一个SM单元可以在每个时钟周期执行128条FP32指令,是Turing架构的两倍。或者是,每个时钟周期执行64条FP32+64条INT32。

RTX 3080
RTX 3080核心示意图,总共68组SM单元

  128个FP32,那相对于Turing,每个SM单元的FP32数量就是翻倍了。而按照FP32=CUDA核心数的计算方式,那也确实没错,68组SM单元x每单元128个FP32=8704,就是官方标称的CUDA核心数了。

  那么,CUDA核心翻倍,是否意味着性能翻倍呢?如果纯理论FP32计算的时候,是的。但在游戏中,虽然FP32用得很多,也有包括INT在内的多种运算情况,十分复杂。所以游戏里两倍性能提升几乎不可能存在。

RTX 3080

  话说回来,在官网上看到NVIDIA Ampere架构的简介,写的是“2倍FP32吞吐量”,而不是直接标注两倍FP32数量,估计是考虑到翻倍可能会曲解意思,毕竟只有单独计算FP32时才能有翻倍的性能。

  不过这种FP32翻倍的设计能大大提升运算效率,且在实际应用场景中能在不少地方体现出来,也是这次NVIDIA Ampere架构GPU能大幅超越上代Turing架构GPU的主要原因。

  三星定制8nm制程,芯片效能跃进

  英伟达似乎很久没有提升它们显卡的工艺技术了,从Pascal的TSMC 16nm,到Turing的12nm FFN(其实算是16nm的改良版),相比于AMD从GF 12nm提升至TSMC 7nm,英伟达这边的产品并没有太大的工艺提升。

GA100

  虽然NVIDIA Ampere架构升级工艺是板上钉钉的事,但英伟达首先给我们放了个烟雾弹:5月份发布的GA100使用的是TSMC 7nm工艺,让大家以为RTX 30系显卡使用的是一样的工艺。等到发布会,大家才知道用的是三星8nm工艺。

  虽然书面上是三星8nm,但实际上它是三星10nm工艺改良而来。

die
图源igor's LAB

  RTX 3080(GA102)628mm²的芯片尺寸内塞进了280亿个晶体管,与之相比的是上代的RTX 2080 Ti,则是754mm²内,只有186亿个晶体管,密度几乎翻倍,而对比采用了TSMC 7nm的GA100,826mm²的面积里塞下了540亿个晶体管。

  下面简单换算一下:

  GA100的晶体管密度在6537万/mm²左右,GA102是4458万/mm²左右,TU102则是2466万/mm²左右。

  三种工艺的晶体管密度差距比较大,不过三星8nm对比TSMC 12nm FFN也有非常大的提升。

  升级了工艺,肉眼可见的提升就是提频,不过因为GPU BOOST技术的存在,在加速的情况下两代的核心频率其实差不了太多。

GA102

  另外就是能效比方面,看上面的图,官方称在60fps时,NVIDIA Ampere能达到Turing的1.9倍能效比,实现同样的性能,前者只需120W多点的功耗,后者则要240W的功耗,并且温度低了3°C,噪音还能减少2dB。

  对比AMD的暴力激进工艺提升(GF 12nm直接升级至TSMC 7nm),英伟达这边显然放缓了一下脚步(只从TSMC 12nm FFN升级至三星8nm),虽然晶体管密度提升非常可观,但没有用上7nm还是让人觉得有些惋惜,当然这也可能与TSMC 7nm的产能有关。

  升级GDDR6X,比肩HBM2显存带宽

GDDR6X

  GDDR6X显存也是RTX 30系新卡算力大幅提升的关键因素之一,在更高分辨率、更高光追特效这些高压应用场景下,显存的容量和带宽都很容易成为计算的瓶颈,所以NVIDIA也首发应用了美光GDDR6X显存。GDDR6X的升级重点是加入了PAM4,可以大致理解为每周期传输的数据量翻倍。

GDDR6X
GDDR6与GDDR6X眼图

  官方提供的眼图中可以看到,因为拥有4种电平(以250mV为步进),对比于GDDR6只能发送两个二进制数据(上升沿和下降沿),GDDR6X可以在每个时钟周期发送四位二进制数据。

  按照19.5Gbps的显存频率来计算,GDDR6X能提供最高936GB/s的显存带宽,非常接近HBM2的1TB/s带宽,对比RTX 2080 Ti上的GDDR6带宽提高了52%。

  使用上GDDR6X,显存带宽可以提升至HBM2的水平,但也不用花费HBM2那么多的成本和技术,对消费级显卡来说是一大利好。

  Tensor Core与RT Core齐升级,光追不再是鸡肋

  光线追踪是RTX 20系主打的新技术,它开启了一个画质的新维度,能制造出传统的光栅化渲染无法比拟的光线效果,但很明显的缺点就是显卡的性能比较难应付当时的光追游戏,游戏表现的光追效果不太明显。

RTX 3080

  影响实时光追性能的主要是RT Core,第一代RT Core可提供34T的RT性能,而Tensor Core可提供DLSS处理能力,能提供89T的性能,还有一个是传统的SM单元,提供11T的FP32计算能力。

RTX 3080

  在NVIDIA Ampere架构中,三种单元的性能都获得了大幅度提升,首先是之前介绍的SM单元,FP32计算性能提升至30T,幅度2.7倍;然后是RT Core的RT性能提升至58T,幅度是1.7倍;最后是Tensor Core的Tensor性能提升至238T,幅度2.67倍。

RTX 3080

  而虽然RT Core能大幅提升实时光线渲染能力,但在RTX 20系上,只打开光线追踪的性能表现依然不理想,这时就要AI核心Tensor Core提供的DLSS来让运行效率再提升了。

RTX 3080
Turing架构渲染时间

  在Turing架构的RTX 2080 Super中,使用RT Core渲染一帧图像为19ms,传统着色器为51ms,渲染速度提升了2.68倍。而在打开DLSS后,渲染速度缩短至13ms。

RTX 3080
NVIDIA Ampere渲染时间

  在NVIDIA Ampere上,同样是使用RT Core+Tensor Core,RTX 2080 Super需要13ms,而RTX 3080可以缩小至7.5ms,而通过新的并行处理技术,SM、RT Core与Tensor Core可以同时工作,渲染时间更是能缩短至6.7ms,对比RTX 2080 Super提升高达94%。

  而通过实测,RTX 3080已经能在绝大部分游戏中,满足4K分辨率下光线追踪效果拉满并维持60fps以上帧数的条件,从“能玩”到“可以玩”,RTX 30系已经实现。

  PCIe 4.0、HDMI 2.1、RTX IO、Reflex……

  PCIe 4.0首发于X570主板,并在去年AMD的RX 5000系显卡上适配,但即使是系列里最强的RX 5700 XT,其性能也完全用不上PCIe 4.0 x16的带宽。

  这次的RTX 3080,虽然支持PCIe 4.0,但理论性能也不能跑满通道带宽,这里的PCIe 4.0其实是为以后的RTX IO做铺垫。

RTXIO

  显卡要渲染游戏图像,传统方式需要经过如图上复杂的路径,这样会频繁调用CPU与内存,这些硬件很有可能会造成瓶颈,且数据传输速度会受限于PCIe通道速度。

RTX 3080

  为了避免这种瓶颈,NVIDIA开发了RTX IO技术,能够让GPU直接从SSD中调用素材,既节约了CPU的占用,也提高了效率,而采用PCIe 4.0通道,就能直接把这条通道的带宽翻倍。

RTXIO

  从官方DEMO的展示来看,RTX IO的提升幅度非常大,对比使用PCIe 4.0 SSD,24核线程撕裂者的配置,RTX IO解压只需1.5秒,而前者最快也要5秒。

  不过目前的问题是,RTX IO技术需要游戏独立研发支持,像DLSS、光追技术一样,得花额外的研发与推广成本。

RTXIO

  另外还有HDMI 2.1显示输出接口,如果你未来想体验8K的游戏画面,那你需要用上RTX 3090显卡、HDMI 2.1线缆、以及HDMI 2.1标准接口的显示器,缺一不可,因为它的传输带宽相比原来的标准也是提高了不少,反正短期来说依然是土豪的玩意。

reflex

  最后还有一个比较重要的技术是NVIDIA Reflex,简单理解就是一项能降低延迟的技术,能减轻CPU负载,让渲染队列即时进行,并可智能提速核心频率。在电竞游戏中这项技术能起到较大作用,能提升玩家,甚至电竞选手的反映速度。

键盘也能翻页,试试“← →”键

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
热门排行

DIY论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品