首页 > DIY外设 > 显卡 > 评测> 正文

比上代旗舰RTX 3090 Ti还猛,NVIDIA RTX 4070 Ti首发评测

DIY硬件频道 责任编辑:chenzhanting 发布于:2023-01-04 10:00 PConline原创
1NVIDIA GEFORCE RTX 4070 Ti显卡规格回顶部

  NVIDIA GEFORCE RTX 4070 Ti,唯一一款显卡因为被网友吐槽而更名的显卡。要知道在去年的GTC 2022秋季大会上,与旗舰显卡GeForce RTX 4090一周发布的是GeForce RTX 4080 16GB与GeForce RTX 4080 12GB。而GeForce RTX 4080 12GB因为AD104核心编号、12GB GDDR6X显存与192Bit位宽显存,这样相对较低的规格而被吐槽,因为此款显卡最终更改命名为“NVIDIA RTX 4070 Ti”,同时零售报价也从7199元下调到6499元。那么此款被网友们吐槽的显卡性能表现到底会怎么样呢?我们一同来看看。

  NVIDIA GEFORCE RTX 4070 Ti显卡规格

  首先,NVIDIA GEFORCE RTX 4070 Ti显卡核心代号为AD104-400,是Ada Lovelace架构下的第三款核心,其规格相比AD102与AD103核心相对较弱些。AD104采用的是小型核心的设计,核心面积为295mm2,与上代GA104核心的392mm2面积少了约24%,但其核心规格与显存容量都要更高。

  一个完整规格的AD104核心包括了5个GPC (图形处理集群)、30 个TPC (纹理处理集群)、60 个SM (流式多处理器) 、⼀个带有 6 个 32Bit显存控制器的 256 Bit显存位宽,以及四个NVENC和两个NVDEC。

  而从NVIDIA官方给出来的GPU架构图来看,NVIDIA GEFORCE RTX 4070 Ti显卡采用的是较为完整的AD104核心,7680个CUDA核心,192Bit显存位宽,只是在视频引擎上进行了一定的削减。

  从纸面的数据来看,NVIDIA GEFORCE RTX 4070 Ti规格、定位是来代替RTX 3070 Ti的?如果你真这样认为的话,那你是太小看老黄了。经过我们一系列的实际测试,NVIDIA GEFORCE RTX 4070 Ti直接就把上代旗舰RTX 3090 Ti干翻了,你敢不敢相信?

2战斧 Geforce RTX 4070 Ti 豪华版外观回顶部

  战斧 Geforce RTX 4070 Ti 豪华版

  比较不幸的是,这次NVIDIA GEFORCE RTX 4070 Ti首发评测并没有FE的身影,NVIDIA对RTX 4070 Ti非公版显卡对行了开放,所以你可看到各大AIC非公RTX 4070 Ti会在CES大会之后亮相。而这次测试中我们使用的是NVIDIA提供的七彩虹战斧 Geforce RTX 4070 Ti 豪华版。

  战斧 Geforce RTX 4070 Ti 豪华版最大的优势就在于定价上,基本就是按照NVIDIA提供的零售报价(MSRP)。不过频率同样是按照NVIDIA Geforce RTX 4070 Ti官方频率:核心基础频率2310MHz、核心Boost频率2715MHz,以及21Gbps显存频率,核心TDP也是限制在285W上,所以拿此款显卡来当基础之用。当然其它更强的非公显卡MAX TDP可以达到340W甚至是更高。

  战斧 Geforce RTX 4070 Ti 豪华版显卡外观采用了目前较为流行的家族式脸谱造型设计,而且从体积来说,基本就是与两位老大战斧 Geforce RTX 4080豪华版与战斧 Geforce RTX 4090 豪华版一样,若不看背部的标签纸还真是难以区分开型号。

  正面是两个深红色的钻石切割面、三个大尺寸风扇配上磨砂哑光的导流罩。

  而背部是大比重的镂空散热设计,配上红色的拉花,和正面相呼应,彰显出RTX 40系列显卡的神秘感与力量感。

  接口方面,采用了三个DP 1.4与一个HDMI 2.1的的配置,可以满足到4K144,以及2K240高分辨率高刷新率的输出。

  供电接口,战斧 Geforce RTX 4070 Ti 豪华版采用了RTX 40系列显卡标配12VHPWER供电接口。当然大家不用担心没此接口,显卡附件中就已经配上双8Pin To 12VHPWER的转换线,转换线全都由NVIDIA认证,不用担心出现质量问题。

3战斧 Geforce RTX 4070 Ti 豪华版拆解回顶部

  战斧 Geforce RTX 4070 Ti 豪华版,拆解

  从战斧 Geforce RTX 4070 Ti 豪华版显卡PCB正面可看到,显卡的集成度其实还是比较高的;PCB采用了七彩虹自家研发的非公版设计,供电部分主要集中的PCB左侧,中间是GPU与显存颗粒部分,而右侧是就是另外的供电位置。

  由于PCB正面的集成度相对较高,所以PCB背部会显得较为简洁一些,主要一些MLCC,以及PWM供电芯片。

  AD104-400核心与6颗镁光GDDR6X显存颗粒

  整块显卡采用了12相供电的设计,左边是10相,而右边是2相。

  在供电部分其实我们看到些许的空焊位置,相信此款PCB会同样采用到更高定位、更高频的GA104核心显卡中。

  主供电PWM控制芯片:UPI uP9212R,

  每相供电均配上了DrMOS芯片,分别是BLN0与BLN3。其中BLN0具体型号为AOZ5311NQ,最大持续输出电流为55A;而BLN3具体型号为AOZ5311NQI-03,同样为最大持续输出电流为55A,两个型号的DrMOS芯片性能参数其实是一样的,这里厂商可能是根据不同的模块供电特性来使用DrMOS芯片。

  战斧 Geforce RTX 4070 Ti 豪华版显卡配置了一个超大面积的散热模块,三把98mm风扇直接固定到散热鳍版上。

  两段式的散热模块设计,左侧是GPU主散热模块,底部是一个镀镍的纯铜底座,配上6条热管进行热量传递。

  配上高系数导热垫为显存与供电模块进行散热辅助。

  6条热管直接贯穿左右两侧的大面积散热鳍版模块,散热鳍版的做工和细节也做得很不错。从散热规模来看,此款显卡的散热会有不错的散热效果。

4测试平台结束|理论性能测试回顶部

  测试平台介绍

  此次测试平台,我们同样采用了RTX 4080 FE首发评测当时所采用的平台,每个配件都是目前市场上最为顶级的存在,这样,我们可以测试出目前高端显卡在此平台上到底会有何性能表现,也不会为显卡测试带来瓶颈。

  而配合上旗舰级的处理器,我们拿来的四条Kingston FURY Renegade DDR5 RGB内存,并手动降频运行在DDR5-6000  C32,Gear 2模式下,这样可以确保平台有着更佳性能的同时也有着更高的稳定性。

  显卡方面,我们拿来了上代同定位的RTX 3070 Ti FE、RTX 3090 Ti、RTX 4080 FE、RTX 4090 FE等四款显卡与这次首发对象RTX 4070 Ti显卡进行对比测试,包括理论性能表现,内容创作能力,游戏性能,DLSS测试,功耗对比,以及超频测试。

  显示器方面自然是评测室专用的电竞神器——爱攻&保时捷联名 PD32M 4K144 电竞显示器,当然RTX 4070 Ti显卡是被NVIDIA定义为2K高刷的游戏显卡,之后我们也会单独拿到高刷显示器进行单项测试。

  同样的在测试前,我们得先确保一下系统配置是否正确。因为前两次RTX 4090、RTX 4080首发时我们测试中就知道,需要在系统和BIOS中进行一定的配置才能开启上DLSS3功能。同时NVIDIA的技术指导文档中已经说到,想要开启DLSS3功能,需要几个步骤:

  将硬件加速的 GPU 调度设置为开启

  以全屏模式运行游戏以获得最佳性能和最低延迟。 

  请确保在 NVIDIA 控制面板中将显示器设置为最大刷新率。

  建议使用 G-SYNC Ultimate 显示器进行最佳体验评估。

  在主板的 SBIOS 中开启 Resizable BAR。

  理论性能测试

  理论性能我们主要是以3DMARK测试为主,由Fire Strike、Time Spy、Port Royal、Speed Way等进行显卡性能测试,而其它的测试小项为辅。尤其是Port Royal与新增的Speed Way主要反馈的是显卡的光线追踪性能。

  理论性能方面这里我们区分出来两部分,DLSS2部分的测试由于8K分辨率比例太高,所以我们就没对比做性能比例。

  性能比例方面,我们以RTX 3070 Ti显卡为基准进行性能对比,可看到新一代的RTX 4070 Ti相比RTX 3070 Ti有着大幅度的性能提升,约提升了50%;尤其是在Port Royal与Speed Way两顶光线追踪测试上提升幅度最为明显。

  而RTX 4070 Ti与RTX 3090 Ti理论性能对比来看,两者在理论性能方面相关约1%,可以说是基本一致的。当然DLSS2模式测试上,RTX 3090 Ti要比RTX 4070 Ti好上一点,尤其是随着分辨率提升而越为明显。当然RTX 4070 Ti还有独特的DLSS3技术,之后我们测试就知道有多厉害了。

  三个ADA架构的显卡理论性能对比来看,NVIDIA的刀法还是那样的神,当然最猛的自然是RTX 4090 FE,这是RTX 40系列出货量最高的显卡,大家懂选择的都懂。而这次RTX 4070 Ti理论性能表现其实已经很不错,性价比上来说,还得比RTX 4080高些,而且根据渠道消息说,RTX 4070 Ti货量也比其它两款显卡要多不少,所以各大AIC也急着曝光自家的RTX 4070 Ti显卡。

  AIDA64 GPGPU测试

  GPGPU理论性能测试方面,很好的表明了这一代的ADA架构的三款RTX 40系列显卡在算力上有着较为出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。相比RTX 3090 Ti显卡,RTX 4070 Ti显卡整体的GPGPU算力表现同样要强些,6K出头的显卡能实现上代旗舰显卡(1W5)的性能表现,着实不错。

5创作者能力测试回顶部

  创作者能力测试

  视频与平面内容创作方面这次我们测试得比较多,包括了PCMark 10与PugetBench三个大项,其中PugetBench其实把PS|PR|LR|AE|达芬奇这五款较为常见的软件都测试了篇。ADOBE软件使用的是最新的ADOBE 2023版本,而达芬奇是NVIDIA提供的AV1特殊版本。

  首先我们来看看PCMARK10 Extended项目上,各显卡的性能表现如何,由于是同一平台,只是更换了不同的显卡进行测试,所以看到对显卡依赖程度较为的【游戏】子项上不同定位的显卡有着较大的差距。当然在【数位内容创作】与【生产力】子项上同样会有小幅度的不同性能差距,总的来说,RTX 4070 Ti在PCMARK10 Extended项目上与RTX 3090 Ti基本一致,但的确比RTX 3070 Ti好不少。

  而来到UL Procyon与PugetBench测试中,可看到RTX 3090 Ti还是老当益壮,主要是显存带宽和容量上比RTX 4070 Ti高不少,而且Adobe全家桶对更成熟的Ampere架构RTX 3090 Ti优化更好一些,所以RTX 3090 Ti内容创作表现的确会比RTX 4070 Ti好,达到了RTX 4080级别。

  当然随着Adobe全家桶、达芬奇,以及是剪映等这些软件的不断优化,相信在ADA架构在这些项目上的优势会被逐步加大,尤其是RTX 40系列显卡还支持了AV1视频格式的编码与解码,这些RTX 30系列都是不具备的。

  专业设计领域

  专业设计领域的测试项目同样是RTX 40系列显卡的优势所在,这明显是得益于ADA架构带来的算力提升。所以你可看到与GPGPU同样的结果,RTX 4070 Ti的专业内容创作能力已经比上代旗舰RTX 4090 Ti强9%了,更不用说比RTX 3070 Ti强出61%了。

  AV1能力测试

  刚才我们已经说了RTX 40系列显卡由于是采用了双编码器NVENC,能够支持最新的AV1视频格式的编码解码,那么我们同样使用NVIDIA提供的支持AV1格式的达芬奇软件进行测试。

  由于RTX 30系列显卡是不支持AV1的,所以我们这里同样测试的H.265视频的输出,从结果来看,H.265 4K分辨率的视频其实大家都相差不多,也就那么几秒。但若是H.265 4K分辨率的视频下,那他们的差距就真的大的,RTX 4070 Ti显卡导出时间为47秒,虽然比两位老大都要多2秒的样子,但是比RTX 3090 Ti显卡的115秒是真的快多了。而且经过我们多次的测试,AV1格式的视频有着视频的质量高、容量占用低的优势,因此各大视频平台才会主推这样的开源视频格式。

  既然我们已经利用达芬奇进行AV1测试,那么我们顺道测试一下RTX 40系列显卡的创作软件上的AI能力。我们测试的项目是AI ACCELERATED MAGIC MASK,利用GFE软件录屏进行AI渲染时间的记录,从结果来看,又是RTX 40系列显卡的优势项目,RTX 4070 Ti相比RTX 3090 T渲染时间缩短了5s,看着不多,但当项目难度更大,更复杂的情况下,渲染优势就会被逐步的拉开。

6游戏性能测试|DLSS 3测试回顶部

  游戏性能测试

  刚说了一堆的理论性能、内容创作能力,现在我们来看一下NVIDIA显卡的老本行,游戏。这里我们其实同样测试的1080p、1440p、2160p三个不同的分辨率;同时此12款游戏都带上内置的测试程序,有9款游戏都是带上DLSS,我们根据不同的游戏设置不同的DLSS模式。当然啦针对RTX 40系列显卡的DLSS3测试在楼下,在支持DLSS3游戏中我们这里会手动把帧生成功能给关闭掉。

  1080p分辨率下,其实都不用担心这几款显卡的性能表现,最差的RTX 3070 Ti都跑得很顺。当然从结果来看,RTX 4070 Ti是真强了,比RTX 3090 Ti显卡强上了约9%,似乎这一切都很是完美。RTX 4070 Ti在大部分的游戏中基本都在运行在200+FPS的流畅度下,意味着合来做电竞显卡也是比较轻松的。

  来到1440p分辨率下,其实结果与1080p分辨率的一样,RTX 4070 Ti整体游戏性能仍是比RTX 3090 Ti要强上不少的,基本大部分的游戏都能运行在120+FPS以上,那么我们配上目前主流的2K165Hz显示器完全是没有问题的。

  其实NVIDIA对于RTX 4070 Ti显卡的定位是1440p分辨率下能跑爽120+FPS的显卡,而且是不太建议测试2160p分辨率的游戏,但实际上RTX 4070 Ti同样是具备玩爽2160p分辨率游戏的, 在与1440p分辨率同款游戏设置的情况下,RTX 4070 Ti可以在绝大部分的游戏上跑到60FPS。

  当然若是在2160p分辨率下,RTX 4070 Ti显卡性能表现会比RTX 3090 Ti要弱些,但别忘记了这是在DLSS2模式下,相信在DLSS3模式下,RTX 4070 Ti显卡就猛了。

  DLSS3性能测试

  那若是在DLSS3模式下,RTX 4070Ti会有着如何表现呢?我们先来看一下3DMARK中的DLSS理论性能测试,RTX 30系列显卡同样运行在DLSS2模式下,而RTX 40系列显卡运行在DLSS3模式下。

  RTX 4070 Ti在DLSS3模式下有着较大幅度的性能提升,大家可看到关闭DLSS下,其性能是比不上RTX 3090 Ti的,但是当开启DLSS3下帧数就大幅领先,ADA架构与DLSS3带来的提升着实的厉害得很。

dlss3

  那你们以为只会是3DMARK的理论性能方面会有所提升吗?你错了,我们在十款支持DLSS3的游戏中,通过开启帧生成功能来实现DLSS2与DLSS模式下的帧数变化,同时利用最新版本的FrameView软件进行帧数记录。

  从结果上来看,在1440p分辨率下,RTX 4070 Ti显卡在开启DLSS3模式下,游戏的流畅度得到了大幅度的二次提升,大分部游戏跑个150+ FPS都不是问题。当然开启DLSS3的帧生成后,相对应的延迟会增加些许。

  在DLSS3模式下,我们同样是测试了三个分辨率。先从1080p分辨率结果来看,RTX 4070 Ti相比上代的RTX 3070 Ti提升了95%,这提升幅度着实是让人有点不太敢相信,但经过反复测试,的确结果就是这样。

  其实这次测试中比较重点的是RTX 4070 Ti能比RTX 3090 Ti强多少?这里大家都可以看到了,1080p与1440p分辨率下RTX 4070 Ti着实是神了,完全是碾压RTX 3090 Ti显卡的,相信最近入手RTX 3090 Ti的玩家会哭晕了,要知道目前RTX 3090 Ti二手报价也得8K。

7温度与功耗测试|超频测试|总结回顶部

  温度与功耗测试

  由于我们没有FE公版,所以功耗与温度测试同样是利用战斧 Geforce RTX 4070 Ti 豪华版显卡来进行的,看较为朴素的RTX 4070 Ti显卡温度表现会是如何。

  结果还是较为喜人的,战斧 Geforce RTX 4070 Ti 豪华版核心待机温度也就29.5度,满载的核心温度也才是63.6度左右,这其实也不出意外,毕竟280W TDP的显卡采用2.5寸的设计,散热 一般都不会太差。战斧 Geforce RTX 4070 Ti 豪华版满载功耗也就270W,相比 RTX 3090 Ti动不动就是400W以上的功耗,着实省心不少。

  当然一个FURMARK测试并不能代表什么,于是我们利用HWINFO64软件与FrameView软件双重记录这四款显卡的不同功耗表现情况。当然啦其实我们评测室也是PCAT V2套件的,只是测试显卡和项目较多,我们这次就不使用PCAT V2套件来测试功耗。

  无论是理论性能还是内容创作,甚至是游戏上,RTX 4070 Ti显卡的功耗就在200W水平的样子,而RTX 3090 Ti显卡还真对不对就是380W,这功耗水平差距是真的大,结果上我们刚才的游戏测试结果来看,RTX 4070 Ti功耗水平也RTX 3090 Ti一半,其每瓦性能比要比RTX 3090 Ti高多了。

  超频能力测试

  在测试RTX 4070 Ti显卡的超频之前,我们先看一下默认战斧 Geforce RTX 4070 Ti 豪华版跑3DMARK的水平怎么样,在Time Spy测试中,40s时显卡的运行频率是2790MHz。

   

  同平台的情况下,我们最终可以把战斧 Geforce RTX 4070 Ti 豪华版核心频率+175MHz,显存频率+600MHz通过测试,性能提升5%。当然啦,这是由于显卡TDP已经撞墙上了,想有更高频率,要么厂商给出来更高的TDP版本BIOS,要么就是更换更高也阶的非公RTX 4070 Ti。

  总结

  从性能上来说,RTX 4070 Ti可以当作是RTX 3090 Ti显卡的增强版本,其性能方面已经完全碾压RTX 3090 Ti;同时功耗方面也仅是RTX 3090 Ti显卡的一半,这样的性能和功耗表现都是值得我们入手的。

  再来说定价,RTX 4070 Ti零售报价为6499元,是目前RTX 40系列显卡中零售报价最低的,相对来说,RTX 4070 Ti性价比明显高于RTX 4080一些许,但是同样不如RTX 4090旗舰真香卡。

  那会是什么样的用户来购买此款RTX 4070 Ti显卡呢?预算足够的相信会直接购买RTX 4090,而预算有限的情况下,想要做内容创作,专业内容方面的RTX 4070 Ti会是不错的选择,即能满足专业需求,同时其功耗也不高,花在电源上的钱不会太多,就是得注意一下是否能装到机箱里,毕竟目前的RTX 4070 Ti非公显卡都是2.5寸厚较长的设计,对机箱的兼容性会有一定要求。

  当然啦,若你是游戏玩家,那么你之前是用旧显卡的,那么RTX 4070 Ti会是不错的选择,2K分辨率下游戏通杀,直接跑到了120+FPS;还有着不错的4K游戏性能表现,当然啦随着之后的DLSS3游戏越来越多,那么RTX 4070 Ti优势也将会越来越明显。甚至是之后的全景光追模式游戏,例如《赛博朋克2077》overdrive模式,RTX 4070 Ti性能会是RTX 3090 Ti的3倍,可惜目前CDPR仍未上线这个游戏补丁,目前没法测试,之后我们同步关注RTX 4070 Ti在全景光追模式下游戏的表现,有兴趣的网友可以留意一下我们。 

  最后建议大家从正规渠道购买RTX 4070 Ti,并认准NVIDIA在中国大陆地区授权认证的合作伙伴:华硕、七彩虹、耕升、影驰、技嘉、映众、铭瑄、微星、索泰。

8技术回顾:Ada Lovelace架构优势回顶部

  ---------------------------------------------------

  技术回顾:Ada Lovelace架构优势

  Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

  从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

  全新的SM流式多处理器

  Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

  过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

  再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。

  另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090/RTX4080显卡中就实现了更大的L1/共享内存以及更大的L2缓存,因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

  技术讲解:第三代 RT Cores与第四代 Tensor Cores

  以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

  第三代 RT Cores

  RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

  在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

  所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

  在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

  而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

  三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

  Displaced Micro-Meshes Engine

   

   

  如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。

   

   

  通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

  同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

  第四代 Tensor Cores

  Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。

  技术讲解:DLSS3

  或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

  之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

  在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

  想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

  从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300  TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

  另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

  最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

  阅读小亮点:NVIDIA Reflex

  NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

  想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

  当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

  在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

  技术讲解:双 NVIDIA 编码器(NVENC)

  GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

  而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

  不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

  包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。

 

DIY硬件频道

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部