首页 > DIY外设 > 显卡 > 评测> 正文

ADA架构第二发炮弹,NVIDIA GeForce RTX 4080 FE公版首发评测

DIY硬件 责任编辑:liweineng 发布于:2022-11-15 22:18 PConline原创
1序言回顶部

  2022年11月16日晚点22点,NVIDIA GeForce RTX 4090显卡正式解禁。NVIDIA对新品发布的节奏把控的确是紧得很,距旗舰产品GeForce RTX 4090发布后一个月,正式解禁包括GeForce RTX 4080 16GB Founder Edition和AIC版的评测与开箱部分,明天就能正式开卖此款显卡。而此两款旗舰级显卡的陆续到似乎也是向对手的一种示威,毕竟部品新显卡也是纸面发布不久,下个月正式解禁的样子。

  说回正题,此次我们收到了多家的GeForce RTX 4080 16GB非公版产品,同时也收到来NVIDIA寄回过来的GeForce RTX 4080 16GB Founder Edition(简称“RTX 4080 16GB FE”),而此次测试我们也将会以RTX 4080 16GB FE性能为基准,为大家测试一下此款RTX 4080 FE性能到底如何?

  规格对比

  与往常一样,我们先来看看RTX 4080 16GB FE的规格,这个规格表其实早在RTX 4090 FE发布之时就已经做好了,不过RTX 4080 12G这个产品就真正式更名了,那之后是RTX 4070 Ti还是RTX 4070这个就真的之后再另说了。


AD103 FullChip Diagram

  RTX 4080 16GB FE,核心代号AD103-300,是继AD102后的第二个Ada Lovelace架构核心,采用了中型核心的设计,从规格上来看并没有AD102那样的庞大。一个完整规格的AD103核心包括了7个GPC (图形处理集群)、40 个TPC (纹理处理集群)、80 个SM (流式多处理器) 和⼀个带有 8 个 32Bit显存控制器的 256 Bit显存位宽。


GeForce RTX 4080 16GB

  而从上面的两个GPU架构图,你应该懂了些什么,对的,RTX 4080 16GB与RTX 4090一样并非采用了完整规格的核心,其同样内置了7个GPC单元,但是TPC数量进行了一定的削减,保留38 个TPC,这样SM单元为76个,9728个CUDA核心,显存位置同样保持在256Bit上。只不过NVDEC(视频解码器;【NVENC,视频编码器】)数量也从完整的4个减成了1个,那是否意味着视频解码方面有一定的减弱?之后我们再来测试一下。

  再来对比一下30系列时代同定位的RTX 3080 Ti显卡,RTX 4080 16GB其实并没有规格上的优势,甚至还有一些低了?错了,RTX 4080 16GB是甚至Ada Lovelace架构核心,而RTX 3080 Ti却是Ampere架构的显卡,两者从架构上就不对比,而RTX 4090首发时也表明Ada Lovelace架构有着更先进的设计、更高的性能表现。

  同时RTX 4080 16GB采用了选进的TSMC 4n工艺,内部的晶体管数量已经达到了459亿,比RTX 3080 Ti高多了,但是其设计功耗也 仅是320W,所以每瓦性能比上来看RTX 4080 16GB相信会比RTX 3080 Ti好不少,那实测是否真是如此呢,我们就去看一下。

2RTX 4080 FE显卡回顶部

  GeForce RTX 4090 Founder Edition外观

  从外观上来看,RTX 4080 16GB FE采用了RTX 4090 FE同款的外观设计,其实不单是外包装,设计元素,甚至是散热器做弄等,与散热直接就是RTX 4090 FE基本就是一个模样,因此很容易让人误认为此款为RTX 4090 FE显卡

  但实际上看背面与小标签就知道,这其实是RTX 4080 16GB FE显卡,毕竟背部有着那么明显的RTX 4080产品型号标识。

  两块显卡放到一起就会发现什么叫真正的1:1,初步来看这套散热器方案与RTX 4090 FE是一样的,设计之初其实是为了600W TDP散热而来,但是现在用到RTX 4090上很是冷快,那么直接套到RTX 4080 16GB FE显卡,也就意味着此款显卡的散热会有相当不错的效果。

  前面的RTX 4080小标还是比较好看的,

  从30系列FE公版显卡开始,FE公版就是默认采用前后两把的轴流风扇设计,两把12cm风扇均PWM控制,低转速时噪音和风量控制都相当好。

  输出接口方面,当然是同一套的3*DP1.4a+1*HDMI2.1接口,单接口最高支持4K144Hz,多屏最多支持3+1屏输出。

  GeForce RTX 4090 Founder Edition,PCB


RTX 4090 Front PCB

  由于特殊原因,此次我们并没有对GeForce RTX4080 16GB FE显卡进行拆解,我们直接拿NVIDIA提供的PCB图来了解显卡的内部设计。


GeForce RTX4080 16GB FE PCB

  首先我们可以看到AD103核心采用的是中型核心设计,所以核心尺寸上得比AD102核心得小巧多了;同样由于显存位宽的限制所以GeForce RTX4080 16GB FE显存仅配合了PCB正面8颗GDDR6X显存颗粒,组成16GB/256Bit规格,显存带宽达到了716.8GB/s。

  而供电设计方向,由于GeForce RTX4080 16GB TDP设计功耗为320W(FE Maximun TDP为355W),所以在供电方面进行了一定的削减(PCB供电有部分空焊位置),采用了12相核心+4相显存的供电设计,而空焊的位置其实是为了满足更高核心规格、更高频率的AD103而设计。你看同时发布的几家AIC非公RTX 4080显卡的供电就知道了,基本就是照着RTX 4090供电规格去弄的,只等NVIDIA释放更高功耗设计的BIOS了。

  散热方面还是NVIDIA标志性的双轴流风扇散热模块,整个散热模块均为大面积的黑化散热鳍片与多热管的设计。

3测试平台介绍回顶部

  测试平台介绍:

  此次测试平台我们不再使用RTX 4090首发时的那套,而是更换成了英特尔最新的13代酷睿i9-13900K处理器,此款处理器因为有着更高的频率与更多的核心数量,所以在游戏与内容创作方面都处于目前桌面级市场上顶级的水平。

  而配合上旗舰级的处理器,我们拿来的四条Kingston FURY Renegade DDR5 RGB内存,并手动降频运行在DDR5-6000  C32,Gear 2模式下,这样可以确保平台有着更佳性能的同时也有着更高的稳定性。

  显卡方面,我们拿来了上代同定位的RTX 3080 Ti FE、RTX 4090 FE两款公版显卡与这次首发对象RTX 4080 FE显卡进行对比测试,包括理论性能表现,内容创作能力,游戏性能,DLSS测试,功耗对比,以及超频测试。

  显示器方面自然是评测室专用的电竞神器——爱攻&保时捷联名 PD32M 4K144 电竞显示器,配合上RTX 4080 FE显卡相信会有着更佳的游戏体验。

  同样的在测试前,我们得先确保一下系统配置是正确的,因为上次RTX 4090首发时就知道,需要在系统和BIOS中进行一定的配置才能开启上DLSS2功能。同时NVIDIA的技术指导文档中已经说到,想要开启DLSS3功能,需要几个步骤:

  将硬件加速的 GPU 调度设置为开启

  以全屏模式运行游戏以获得最佳性能和最低延迟。 

  请确保在 NVIDIA 控制面板中将显示器设置为最大刷新率。

  建议使用 G-SYNC Ultimate 显示器进行最佳体验评估。

  在主板的 SBIOS 中开启 Resizable BAR。

4理论性能&内容创作测试回顶部

  理论性能测试:

  理论性能我们主要是以3DMARK测试为主,由Fire Strike、Time Spy、Port Royal、Speed Way等进行显卡性能测试,而其它的测试小项为辅。尤其是Port Royal与新增的Speed Way主要反馈的是显卡的光线追踪性能。

  小结:可看到RTX 40系列显卡的性能水平基本就是提升了一个台阶,单纯的拿3DMARK跑分来说,RTX 4080 16GB理论性能都要比RTX 3090 Ti好,更不用说RTX 3080 Ti此款显卡了。

  当然与旗舰级的RTX 4090差跑还是有较为明显的理论性能差别,毕竟CUDA核心、RT Cores、Tensor Cores,甚至是显存位宽这些都差距有点明显,这样的理论性能表现也是能接受的,就看真实的性能会是如何了。

  AIDA64 GPGPU测试

  GPGPU理论性能测试方面其实很好的表明了这一代的RTX 40系列显卡在算力上有着较为出色的性能表现。这次RTX 4080的性能表现还是不错的,中型核心就已经优势于上代的大型核心,每W性能比提升不少。

  创作者能力测试:

  视频与平面内容创作方面这次我们测试得比较多,包括了PCMark 10与PugetBench三个大项,其中PugetBench其实把PS|PR|LR|AE|达芬奇这五款较为常见的软件都测试了篇。ADOBE软件使用的是最新的ADOBE 2023版本,而达芬奇是NVIDIA提供的AV1特殊版本。

  PCMARK10测试中反馈的是整机的性能,所以大家可认真看看子测试项目上,提升较大的同样是游戏方面。

  而PugetBench方面我们更新到了最新版本的脚本,能够支持最新的ADOBE 2023版本软件,按照性能比例来说,RTX 4080 FE比RTX 3080 Ti提升约为7%,同样比RTX 4090的弱一些。性能差别较大的是达芬奇的测试上,使用的版本为18.0.2,性能提升达到了125%。但是ADOBE全家桶的性能表现其实并不太理想,总感觉优化不太到位,反而对旧显卡RTX 3080 Ti的优化就相当可以。之后ADOBE推出更新的版本,或者是NVIDIA推出正式版本驱动后我们再来测试一翻。

  专业设计领域

  专业设计领域领域测试中,RTX 40系列显卡真是专门为了专业内容领域而来的,整 个性能表现提升还真的很强。尤其是旗舰级别的RTX 4090能达到190%性能提升,而RTX 4080也有143%性能提升,比上代RTX 30系列旗舰都强得多了。

  AV1能力测试:

  虽然说RTX 4080 16GB FE显卡中少了三个NVDEC单元,但是NVENC单元仍是保留两个的,对于AV1这个新格式来说还是完全没问题。我们同样利用上次RTX 4090首发时的达芬奇Prores422HQ to Av1 Encode Test项目文件进行测试,同样tearsofsteel_8k_proRes422HQ视频源,我们测试【H.265 8K30】项目下的RTX 4080 FE导出速度比RTX 3080 Ti FE快1.6倍。

  另外可看到AV1格式的确是比H.265格式省空间多了,AV1 8K30视频也就800多MB,AV1 4K30也就400多MB;而H.265两个分辨率的格式都得去到1.16GB,这一对比容量差别是真大了。

  我们再来看看H.265格式与AV1格式画质上的差别,同样是拿8K30的视频抽取三个不同的时间节点,且100%放大后对比,从肉眼来看,其实就是一样的。这样也意味着即使是AV1与H.265有着同样的画质表现,但是所占的空间容量更低。配合上RTX 40系列显卡导出AV1格式有着时间、容量以及画质上的优势。

5游戏性能测试回顶部

  游戏性能测试:

  对于这个次旗舰级别的显卡来看,1080p与2K分辨率的游戏其实全都没有压力的,就看其RTX 4080能提升多少游戏流畅度了。RTX 4080 FE应对市面上的3A游戏完全是没有压力的,基本能上120 FPS以上来跑,部分游戏更是达到了200 FPS+的水平,比上代RTX 3080 Ti快了25%以上。

  而随着分辨率的逐步提升,RTX 4080 FE逐步拉开了与RTX 3080 Ti的差距,4K分辨率下达到了37%的流畅度提升。同样大部分的3A游戏都能保持在超高的流畅度,4K144的电竞梦这次不用再等RTX 4090显卡来实现了,一块RTX 4080显卡即可以满足。

  而8K的情况下,只有RTX 4090才能真正满足全部的3A游戏高画质的要求了,RTX 4080 16GB其实我们降低一些画质即可以满足8K60基本的游戏度运行,同样的RTX 4080比上代RTX 3080 Ti提升了约40%。

6DLSS3性能测试回顶部

  DLSS3性能测试:

  自RTX 4090显卡发布之后越来越多的游戏都支持上了DLSS3这一新技术,而来到11月15日GeForce RTX 4080发售时,将已有10款DLSS 3游戏发布

  1.《瘟疫传说:安魂曲》A Plague Tale: Requiem

  2.《光明记忆:无限》(Bright Memory: Infinite

  3.《毁灭全人类2:重新探测》Destroy All Humans! 2 - Reprobed

  4.《暗影火炬城》(F.I.S.T.: Forged in Shadow Torch

  5.F1 ® 22

  6.《逆水寒》(Justice

  7.《生死轮回》(Loopmancer

  8.《漫威蜘蛛侠:重制版》 Marvels Spider-Man Remastered

  9.《微软模拟飞行》(Microsoft Flight Simulator 

  10.《超级人类》(SUPER PEOPLE

  而这次DLSS3测试中,我们挑选了这里面的6款游戏,配合上UE5引擎的两个BENCHMARK与赛博朋克2077 DLSS3内测游戏RTX 4080 16GB的显存性能测试。

  哦对了,在DLSS3的游戏测试之前我们仍是先来看看DLSS3的理论性能表现,这里我们直接使用的是最新版本的3DMARK理论性能测试软件,内部集成了一个最新的DLSS3测试程序。

  但是由于目前只有两款显卡支持最新的DLSS3技术,所以下面的测试我们基本都是拿RTX 4090 FE显卡与RTX 4080 16GB FE进行性能对比。从数据上来看,RTX 4090 FE果真对得起旗舰级的称号,在不开启DLSS功能下的基础性能就已经相当出色,当然RTX 4080也不弱4K分辨率光线追踪的仍能跑到39 FPS,在开启DLSS2游戏帧数更是明显直接直长号䭴101 FPS,而在DLSS3技术加持下,已经达到了132 FPS超级流畅的水平。同时可看到随着分辨率不断增加,DLSS3功能对游戏流畅度的提供就越来越明显,尤其是8K分辨率下,本只能玩2FPS,结果直接跑到了69 FPS,这提升是真的相当显著。

  Unreal Engine 5 Enemies DEMO

  看数据估计大家都会觉得沉闷,这里我们做了一些小视频给大家参考。Enemies是NVIDIA提供给媒体与各大KOL测试所用的DEMO,利用Unreal Engine 5轻松制作了一个数字人类,第一次接触这个DEMO的时候还真的相当的惊讶,原来Unreal Engine 5已经可以这么强劲。

  另外 值得我们注意的是这个DEMO是带上DLSS3,兼容DLSS2技术的,那我们通过开启DLSS3与关闭DLSS就可看到DEMO里FPS值的变化是不一样的,4K分辨率下RTX 4080可达77 AVG/66 1%FPS/55 ms的水平,而关闭DLSS3后仅有22 AVG/17 1%FPS/195 ms,基本就是3.5倍的游戏流畅度提升。

  《光明记忆:无限》(Bright Memory: Infinite

  《光明记忆:无限》(Bright Memory: Infinite)之前RTX 4090首发的时候是利用beta版本的,而RTX 4080首发时我们就此款《光明记忆:无限》游戏就已经支持DLSS3技术,并且我们还能在游戏中通过开启DLSS3的【插帧】来实现DLSS2与DLSS3。

dlss

  同样的,其实在不开启DLSS的情况下,RTX 4080 16GB FE显卡在4K分辨率下仍是可以流畅运行《光明记忆:无限》此款游戏;但是开启DLSS2功能后,游戏帧数就达到了137,1%帧数也达到了115 FPS,这完全就是翻倍的游戏流畅度提升嘛;至于开启DLSS3之后,那么游戏帧数更是达到了160 FPS,配上目前游戏的4K144显卡,例如我们测试中使用的AGON PD32M,玩此款游戏那是真爽了。

  再分享一个笔者在游戏开头找杀了几个对手之后《光明记忆:无限》游戏里开启DLSS3游戏的效果,分辨率为4K,画质极高 ,DLSS模式为性能。

  2K分辨率与4K分辨率DLSS性能测试

  DLSS3的性能测试我们这里做了两个分辨率与十个项目,这里就不再单一的说了,笔者弄个汇总的表格给大家作参考之用吧。注意:DEMO里是没帧生成开关的,所以30系列显卡其实运行在DLSS2模式之下。

  2K分辨率与4K分辨率两者的表格其实都表明,基于新一代Ada Lovelace架构的RTX 4080 16GB FE显卡在DLSS2功能的加持下就有着比上代RTX 3080 Ti FE更高的游戏流畅度,而开启40系列显卡独有的DLSS3功能后,游戏流畅度进一步的提供,基本可以实在4K144,2K180以上的水平,40系列显卡真强果真不是吹的。

  8K分辨率

8k

  当然其实我们也用RTX 4080 FE测试了8K DLSS3游戏的性能表现,同时我们也遇到了爆显存的情况,主要表现为显存占用达到了16GB,游戏帧数也较低。只能说老黄的刀法是真可以,刚好16GB这个就爆了,或者之后在游戏厂商的优化下,可以降低更少的显存占用。

  值得注意的是RTX 4080 FE其实在DLSS3功能的加持下都能使用8K60这样的游戏帐,刚好配上目前的8K显示器,甚至是8K电视也是不错的。

  而在RTX 4080推出后不久,WRC Generations, 《极品飞车:不羁》(Need for Speed Unbound)和 《战锤40K:暗潮》(Warhammer 40,000: Darktide)等三款游戏也将会发布,圣诞节前玩家就可畅玩这些DLSS 3游戏。

  了解关于DLSS 3更新:https://www.nvidia.com/en-us/geforce/news/more-november-2022-rtx-dlss-game-updates

7温度&功耗回顶部

  温度与功耗测试:

  烤机方面我们同样利用FURMARK软件进行重负载的烤机测试,经常20分钟的烤机,显卡最终核心温度稳定在63度,显存温度为60度,此时核心频率仍能运行在2475MHz高频下,GPU功耗达到了302W;从HWINFO64上来看,PCI-E供电仅提供了6.6W,主要的供电来源为+12V辅助供电上,达到了298W。同时此时的风扇转带最高仅是43%,噪音表现相当出色。

  横向对比一下上代显卡与RTX 4090显卡的功耗,从功耗来看,其实RTX 4080功耗控制还是相当不错的,最高才是300W还比RTX 3080 Ti少多了,而且性能更强了。

  测试的时候其实我们同时利用HWINFO64在后台进行功耗记录,结果如上图一样,RTX 3080 Ti基本跑的是350W,而RTX 4080 16GB FE也就300W左右,部分应用软件上甚至更低的功耗表现。所以说RTX 4080 16GB每瓦性能比是实打实的提升到了一个新高度。

8超频能力&总结回顶部

  超频能力测试:

  RTX 4080 16GB FE显卡在Time Spy测试中的默认得分为28130,其40秒的核心频率为2775MHz。

  利用MSI Afterburner软件对RTX 4080 16GB FE显卡进行超频,先把功耗与温度的限制拉到最高,同时把电压解锁到100%,这样我们就可以对显卡进行超频了。核心+190MHz,Time Spy测试中的默认得分为29394,其40秒的核心频率为3000MHz。

  随后我们直接把核心+200MHz,显存+500MHz,这时候核心在运行Time Spy测试的频率已经达到了3000MHz,直接通过了Time Spy压力测试。

  最高核心频率只能控制在核心+250MHz,显存+1400MHz,Time Spy测试中的默认得分为30196,其40秒的核心频率为3045MHz,显存频率为1575.25MHz,相比默认频率提升了7.3%。

  小结:RTX 4080 16GB FE显卡起步潜力其实相当强,但是我们利用HWINFO64在旁监测,核心与显存超频后最高TDP被限制在了350W。相信一些AIC厂商在更强供电规模的情况下,有着更进一步的超频潜力。

  总结:

  对于一款定位次旗舰的显卡来说,RTX 4080 16GB性能表现的确是比较养眼的,无论是理论性能,常规游戏,还是支持DLSS3的最新游戏,RTX 4080在多个分辨率下都有着较为出色的性能表现。尤其是在DLSS3的加持下,分辨率越高比上代RTX 3080 Ti性能提升就越大,即使是4K分辨率也能享受120Hz流畅丝滑的体验,甚至你降低画质也能在8K分辨率上体验到60 FPS。

  至于创作者能力上,RTX 4080 16GB仍给我们较为满意的答案,专业领域方面性能上的提升甚至比上代30系列旗舰都要比下去,专业用户也可以享受到更为全面的提升。果然RTX 40系列显卡是冲着专业用户而来的。

  当然如果是你小视频工作室,那么此款显卡也会是不错的选择,AV1的加持与NVIDIA双编码器技术的应用越来越多,在同画质的情况下,编码导出时间更快,占用容量更低。

  最后自然是价格,RTX 4080 16GB FE零售报价9499元,这价看着不低但开卖的时候大家还是很实诚的,你看当时RTX 4090 24GB FE直接买断货就是同样的道理,相信RTX 4080 16GB FE同样会被买断,毕竟性能、功耗、温度这三者就已经比目前同档次的显卡都要好。

9ADA架构回顾回顶部

  技术回顾:Ada Lovelace架构优势

  Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

  从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

  全新的SM流式多处理器

  Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

  过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

  再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。

  另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090/RTX4080显卡中就实现了更大的L1/共享内存以及更大的L2缓存,因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

  技术讲解:第三代 RT Cores与第四代 Tensor Cores

  以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

  第三代 RT Cores

  RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

  在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

  所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

  在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

  而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

  三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

  Displaced Micro-Meshes Engine

  如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。

  通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

  同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

  第四代 Tensor Cores

  Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。

  技术讲解:DLSS3

  或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

  之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

  在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

  想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

  从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300  TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

  另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

  最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

  阅读小亮点:NVIDIA Reflex

  NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

  想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

  当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

  在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

  技术讲解:双 NVIDIA 编码器(NVENC)

  GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

  而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

  不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

  包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。

NVIDIA   GeForce   RTX 4080   FE   公版   首发
DIY硬件

网友评论

聚超值•精选

相关推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部