太平洋科技硬件

【AI时刻】不止游戏，AI杀疯了！体验史上最强游戏显卡的AI性能

YIHAN 编辑：陈奕翰发布于：2023-07-11 10:34 PConline原创

写在开头

这半年以来，除了RTX 40系显卡的DLSS 3给大家带来惊艳的效果外，AIGC的火爆程度也远超玩家想象。换作以前，根本没人想到GPU的强大算力能够用于AI。虽说相比大规模的AI计算集群，游戏显卡的算力不值一提，但是我们用它实现一些简单的AI应用还是相当不错的，当然，AI也能帮助你提高工作效率等，这些都是极具实用意义的体现。

想要实现AI应用也不难，现在你只需要一台高配置电脑就可以享受到。不过既然是体验，那我们怎么能用普通的显卡呢，我们刚好收到了索泰 GeForce RTX 4090 PGF OC显卡，作为地表最强的游戏显卡，其AI能力想必也是各大玩家好奇的重点。那么这块显卡的实际表现究竟如何呢？我们一起来看下。

引入Tensor Core

想要体验AIGC，首先就要了解显卡的内部构造。最开始游戏显卡并不能用来做AI训练，在以前它更多是一张纯正的游戏显卡。不过后续NVIDIA给游戏显卡引入了Tensor Core，因此显卡有了进步非常大的深度学习性能。这也让AI成为游戏显卡的另一大用处。

Tensor Core的官方叫法是张量计算核心，作用就是增加显卡的AI深度学习计算能力。我们本次所讲的AI应用其实就离不开这个Tensor Core。可以说自打RTX 20系显卡里加入它以后，显卡又开启了一扇新的大门，让玩家不仅可以玩游戏，还可以用AI创造更多可能。

第一代Tensor Core

不过第一张实装Tensor Core的显卡并不是Turing架构的RTX 20系，而是我们耳熟能详的Titan V，作为唯一的Volta架构显卡，它才是第一个吃上Tensor Core的。在RTX 20系显卡还没发布前，许多深度学习的从业者就是购买这张显卡进行深度计算的。

规格上，Titan V显卡仅配备了640个第一代Tensor Core，不过它支持FP16和FP32下的混合精度矩阵乘法，可提供每秒超过100万亿次（TFLOPS）的深度学习性能，是Pascal架构的5倍以上。与Pascal相比，用于训练的峰值teraFLOPS（TFLOPS）性能提升了高达12倍，用于推理的峰值TFLOPS性能提升了高达6倍，训练和推理性能提升了3倍。

第二代Tensor Core

搭载第一代Tensor Core的Titan V显卡其实不是我们常规意义上的游戏卡，真正让这项技术下放，还要是Turing架构的RTX 20系显卡，上到旗舰的RTX 2080 Ti，下到甜品级的RTX 2060统统都引入了Tensor Core。

正因为Tensor Core的引入，让RTX 20系显卡有了一定的深度学习能力，老黄才得以在RTX 20系显卡上完成光线追踪和DLSS。第二代Tensor Core相比第一代又有了进步，提供了一系列用于深度学习训练和推理的精度（从FP32到FP16再到INT8和INT4），每秒可提供高达500万亿次的张量运算。

第三代Tensor Core

在RTX 30系显卡，也就是Ampere架构的显卡中，NVIDIA的Tensor Core升级为第三代。采用全新精度标准Tensor Float 32（TF32）与64位浮点（FP64），以加速并简化人工智能应用，可将人工智能速度提升至最高20倍。

第三代Tensor Core中，NVIDIA还引入了稀疏化加速，可自动识别并消除不太重要的DNN（深度神经网络）权重，同时依然能保持不错的精度。首先原始的密集矩阵会经过训练，删除掉稀疏矩阵，再经过训练稀疏矩阵，从而实现稀疏优化，进而提高Tensor Core的性能。

所以最终的结果就是第三代Tensor Core在处理稀疏网络的速率是Turing的两倍，算力高达238 Tensor TFLOPS，而Turing为89 Tensor TFLOPS。

第四代Tensor Core

而RTX 40系显卡上的Tensor Core已经进化到了第四代，最主要的变化是新增了Hopper FP8 Transformer Engine，可提供1400 TFLOPS的张量处理性能，可以说深度学习性能得到了巨大的飞跃，这也意味着通过它可以实现新的技术想法，后面的DLSS 3我们会再次提到Tensor Core的功劳。

我们细说这个FP8低精度浮点数特性，其实可能很少有人注意到这个硬件升级，不过它对于AI领域的改变真的挺大的，有了FP8硬件加速之后获益最大的是近年新兴的一种 AI 基础架构，Transformer。这几年有名的语言AI，比如BERT、GPT，都用到了这个结构，当然我们熟悉的AI绘图领域也有用到这个结构。

Transformer模型的架构

这类AI模型的特点就是大、而且参数多，而FP8数据格式可以帮它们减小空间占用，塞更多参数进去，算起来也更快。上面我们也提到了，Ada架构的RTX 40系显卡中负责FP8加速的硬件结构叫 Hopper FP8 Transformer Engine，Transformer都写在名字里了，足以见得其重要性。

当然你可别以为，AI只是用在GPT、AI绘图等领域，其实我们之前文章里讲到的DLSS 3.0技术也是AI应用的一种，因为DLSS中像多帧合成、补帧以及超分辨率等技术都是依靠深度学习后完成的。感兴趣的玩家可以点击【硬件编年史】DLSS技术到底有什么用，大力真的能出奇迹？浏览，看看老黄是如何把DLSS技术推到今天的神坛之上。

测试平台介绍

大家看完Tensor Core的介绍也好奇它经过四代传承，究竟能够带来怎样的AI深度学习能力吧？那我们也不吝啬，祭出目前RTX 40系显卡中Tensor Core最多的显卡——索泰 GeForce RTX 4090 PGF OC，带大家看看这么一张顶尖的游戏显卡在AI中有如何精彩的表现。

首先最抢眼的就是它的外观了，相比前代多了一丝优雅，圆润的外壳设计也多了许多流线型的柔美，为显卡注入了流动与韵律，打破使用尖锐线条勾勒显卡外观的传统。

黑白撞色设计在视觉效果上既时尚前卫，又带来了一种沉静之感与中和之意，静谧而平衡，同时也暗藏了一丝丝电竞硬核风格，设计相当超前。

旗舰级的显卡自然有旗舰级的配置，背板用上了全金属结构，同时还增加了合金加固骨骼结构部件，有利于巩固显卡、不易变型，而且还可以提升散热效能，加上背板末端设有开孔设计，有效加强风扇气流。

内部散热也是丝毫不虚，3风扇9热管的豪华配置，这是高端显卡才有的待遇。除此之外还有大面积的VC均热板和密密麻麻的散热鳍片，这个规格，核心想发热都难。不得不说，只有旗舰级的散热规格才对得起旗舰PGF的定位。

光有散热还不够，供电也得满上！这张索泰RTX 4090 PGF OC显卡采用了SEP 2.0供电系统。供电总相数来到了夸张的28相，其中24相为核心供电，4相为显存供电，并且供电集成度相当高，每相均采用了固态电容做输入输出，还有全封闭电感坐镇。

外部的电源接口则是全新的12VHPWR供电接口，一根12VHPWR的电源线就可达到供电需求。600W的供电能力完全能够喂饱这块530W TDP的性能巨兽。

视频输出接口同样是顶尖的存在，毕竟你都买索泰RTX 4090 PGF OC显卡了，怎么说也得配一个4K的显示屏吧，真4K才能体验真电竞。索泰这张卡上的3个DP1.4a和1个HDMI2.1就能很好的满足视频输出，支持4屏显示或最高8K@60Hz的规格完全“超速”了。

说了那么多，上面这些豪华的配置都是为了极致的性能释放，而性能的来源就是这颗AD102-301-A1核心，别看它只是小小的一颗芯片，其实它得益于TSMC 4N工艺，在里面塞下了763亿个晶体管，这个数量足足是RTX 3090 Ti的2.7倍！当然它还有384bit位宽、144个SM、96MB的L2缓存……这里的每一项都是在告诉你，拥有这颗核心，你就拥有了地表最强游戏显卡。

话不多说，这就上机实测给大家看看，一上机就见证到了索泰RTX 4090 PGF OC的绝美颜值。顶部的索泰ZOTAC信仰Logo灯率先亮起，同步闪烁的还有正面的灯带，围绕着三把散热风扇，犹如律动的音符一般。笔者也是被这张卡深深折服了，有颜又有性能，不愧卡皇之名。

用来测试它的硬件当然不能差，CPU用的是最新的Intel Core i9-13900KS，华硕的Z790 Hero主板搭配2根16GB的金士顿DDR5-6000高频内存，散热更是龙神2代360水冷，这套配置可以说是不存在瓶颈了，能充分发挥出索泰RTX 4090 PGF OC显卡的真正实力。

AI性能测试

介绍完了测试平台，就该开始今天的重点了。AI作为这个时代最前沿的技术之一，现在几乎所有人、所有行业都在谈AI，我们的老黄也不例外，在GTC上、在COMPUTEX 2023上都大谈AI，甚至说“现在就是AI的iPhone时刻”，为了让大家感受AI的魅力，更进一步推出了一系列AI产品与服务，震撼全场。事不宜迟，我们开始见证这张顶级的索泰RTX 4090 PGF OC显卡的AI性能。

AI绘画

提到AI绘画，就不得不提最近很火的Stable Diffusion，也就是大家俗称的AI画画，通过敲入一些关键字，让AI描绘出来大家脑海中想要的画面，这样的用法可谓相当神奇，不少原画师在见到这样的工具出现后都开玩笑的说未来我们将被AI取代。

Stable Diffusion是一种基于潜在扩散模型的文本到图像的生成器，使用者可以任意输入文本生成高质量、高分辨率、高逼真的图像。相比起同样火热的Midjourney工具，Stable Diffusion的优势在于开源免费和高可控性。这也是很多玩家在体验AI绘画的时候选择Stable Diffusion的原因。

不仅如此，Stable Diffusion还有一个巨大的优势，其支持本地运行，这意味着几乎所有人都可以使用自己的电脑进行AI绘画，使用门槛极低。这里我们就用索泰RTX 4090 PGF OC进行测试，为了方便知道其真实性能，我们会在后续测试中加入其他显卡供大家对比参考。

我们先来一个简单的测试，用NVIDIA提供的描述生成768 x 768大小的图片，画图的参数是：使用v2-1 768-emapruned模型；teps: 50；CFG scale: 7.5，一组10张图，每次绘画3组。实测下来可以看到索泰RTX 4090 PGF OC一骑绝尘，90秒就完成了该项测试，换算过来就是3秒种就能画出一张，这个速度相信让不少画师都心头一紧吧。

看完了开胃小菜，下面我们画点观众爱看的小姐姐，我们使用了majicmixRealistic_v6模型，搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器： Euler, CFG : 7.5, Seed: 172450070, Size: 1024x768，共生成1组，6张图片。

毫无疑问，索泰RTX 4090 PGF OC依旧是天花板一般的存在，35秒的完成速度傲视群雄，相比较第二名的RTX 4080，已经有了10秒钟的优势，更不用说其他显卡了。换句话说就是，如果你也像我一样，喜欢AI绘画，那选择一张索泰RTX 4090 PGF OC就能满足你的所有想象。

AI高清化照片

看完AI绘画，你可能已经被AI惊人的表现所折服。其实AI的作用远不止绘图，它还能在处理照片领域发光发热。现阶段AI对照片进行无损放大是比较常见的做法。通过AI你可以将原本低像素的照片放大到更大的尺寸，同时分辨率也会有所提升。这对不少老照片简直是救命稻草般的存在。

不过AI其实并不是无脑的将分辨率提高，而是利用AI深度学习的功能，对画面内容进行猜测、填补，给画面带来更多细节。有点类似于我们之前讲到的DLSS中的补帧，AI有根据的猜和补能够让你的老照片焕发生机。

在AI应用软件ON1 Resize AI 2023中，我们使用AI将多张图片提升200%分辨率，此时索泰RTX 4090 PGF OC的速度为6秒一张，而上代的卡皇RTX 3090 Ti为9秒，其实你不要以为这是3秒的差距，如果你的工程量比较复杂，那快的这3秒累计起来那就是30%以上的性能提升。

AI提升视频分辨率

AI不仅可以高清化照片，对提升视频分辨率也有不小的贡献。NVIDIA在RTX 4090首发时还没推出提升视频分辨率的功能，直到后面RTX 4070系列上线，这项划时代的功能才正式上线。它就是号称视频版DLSS的RTX Video Super Resolution 视频超分辨率技术（RTX VSR）。现在刚好有索泰RTX 4090 PGF OC显卡，那就用这张显卡看看，顶级的性能加上超强的AI技术，究竟能不能将低分辨率的视频也提升到前所未有的效果。

首先开启RTX VSR需要你的显卡为30系或40系，在NVIDIA控制面板中找到视频图像设置，手动开启RTX Video enhancement即可启用RTX VSR技术，其中分为1-4档调节，数字越大质量越好。

实测环节，可以看到在开启RTX VSR技术之后，原视频里的人物线条由原本的模糊不清变得十分清晰锐利，甚至部分细节已经超越原生1080P了，并且低画质的视频也有不少噪点，在开启VSR 4档后，噪点几乎消失。

除此之外，由于是AI智能提升分辨率的缘故，字体在原生的480P视频中有些发虚，甚至字体边缘可以看到毛边，不过有了VSR的加持后，字体锐利可见，完全不输原生1080P的效果，不得不说VSR确实有点东西。

这里我们也给大家准备了对比视频，从视频里就可以看到VSR的效果之明显，最高级别的VSR 4跟原生480P相比就是一眼的区别，在开启RTX VSR技术后，部分图像质量有了显著提高，不仅锯齿和噪点几乎全部消失，颜色过渡也更为平滑，目前VSR能有这种表现堪称惊艳。

左：原生480P 中：VSR 4档右：原生1080P

当然你除了在浏览器能够使用这项功能外，本地浏览器也能享受黑科技的魅力，VLC是目前首个支持RTX VSR技术的本地播放器，且能够支持多种视频格式播放，你硬盘里的老视频也能拥有清晰画质了！

我们将本地的360P画质视频进行RTX VSR 4档渲染，从画面上看，开启了VSR技术后，右侧的渲染视频确实比左侧原生的视频要清晰许多，并且肉眼可见噪点的减少，观感上要明显好于原生的360P视频。

如果你想知道本地VSR的效果，这里也有视频可以看到二者的差距，确实能够明显看出有VSR的加持后，不少细节重新清晰可见，对一些低分辨率视频确实有提升。

左：本地原生360P 右：VSR-4档

总的来说，索泰RTX 4090 PGF OC上的RTX VSR技术还是相当不错的，既有不错的观感，又有合适的功耗，有了这项全新的AI技术，将为玩家和视频观看者带来革命性的新体验！

AI目标追踪

如果你是一位视频后期，那接下来介绍的功能对你一定有用。在最新的Davinci Resolve Studio 18里面，已经支持使用显卡加速功能，有了它你就可以利用AI识别和追踪视频中的目标，换作以前，如果要用人工来做，就需要逐帧把目标抠画出来，不仅效率低、做起来还相当繁琐，但现在有了AI的帮助，就变得简单太多了，能够极大提高你的工作效率，并且效果也比人工抠图好不少。

我们使用达芬奇AI ACCELERATED MAGIC MASK测试时发现，同一项目下，架构革新后的索泰RTX 4090 PGF OC有着更快的渲染时间，原本RTX 3090 Ti需要27秒才能完成的操作，现在索泰RTX 4090 PGF OC仅用17秒！效率足足提高了近50%，换装索泰RTX 4090 PGF OC确确实实能够为后期团队带来更高的效率。

这里也给大家看看实际效果，可以看到使用AI目标追踪后，人物边缘锐利，而且动作连贯，真的比手动省时又省力。

总结

光是看测试结果，想必你已经被索泰GeForce RTX 4090 PGF OC震惊了吧。虽然这是一张定位游戏的消费级显卡，但它的AI性能也不容小觑。像AI绘画、AI追踪目标、图片视频高清化等操作都有不错的加速效果。当然了，你要拿它跟专业的AI加速卡比那还有差距，不过作为个人用户来说，目前的加速效果已经能够让你提升不小的效率了。

当然，索泰GeForce RTX 4090 PGF OC之所以能够迸发如此强悍的AI性能，也离不开它的豪华配置，全面革新的Ada Lovelace架构下Tensor Core得以大放异彩，24GB的GDDR6X显存，提供了充足的舞台供AI尽情发挥。AI性能的飞跃也成为了索泰GeForce RTX 4090 PGF OC显卡的最大亮点。

不过RTX 40系显卡能够在AIGC中大放异彩，那还要属老黄的高瞻远瞩。一方面是因为NVIDIA占据了绝大部分的市场份额，另一方面更是NVIDIA早早就在AI市场深耕多年，由上至下地布局通过GPU加速AI的战略。这一点与如今的CUDA十分相似，超前的部署，让自己的生态得以完善，那玩家自然也会选择你的产品。

不得不说，现阶段你想要一款能够带你驰骋AI疆场的显卡，那索泰GeForce RTX 4090 PGF OC应该是你的不二之选。一方面它有强悍的性能，另一方面也有完善的软件生态支持，实用性相比其他显卡来说更佳。顶级的显卡，顶级的性能，造就无与伦比的创作潜力。

索泰 NVIDIA RTX4090 PGF

YIHAN