太平洋科技硬件

【AI时刻】回顾NVIDIA GTC 2024，Blackwell算力核弹问世，AI机器人来袭

月亮背面的外星人编辑：孙奥睿发布于：2024-03-19 08:37 PConline原创

一图看懂NVIDIA GTC 2024

AI生成

AI，这个在2023年犹如井泉喷涌进我们日常生活的词语，现如今正以惊人的速度重塑着我们的生活方式，同时间改变着整个世界的面貌。从大语言LLMs模型到先进的AI图像生成，从智能算法推荐到惊人的AI视频生成，人工智能的触角已经伸展到了科技的各个角落。

图片源自于网络

从GPT-4发布，到谷歌Bard的入场、Meta开源模型LLama的问世，再到国内文心一言、星火大模型、通义千问、月之暗面等诸多国产模型的纷纷亮相。我们目睹了全球人工智能领域的快速发展和技术突破。

图片源自于网络

如今AI的竞争依然处于百花齐放百家争鸣的阶段，每一家都在使用自身优势在AI浪潮中分得一杯羹。从北美的硅谷到欧洲的科技集群，从亚洲的研发中心到其他地区的创新孵化器，AI正在成为跨国界、跨文化的合作与竞争的焦点。

图片源自于网络

若将人工智能比作科技高峰上的璀璨之花，那么NVIDIA无疑是这些花朵赖以绽放的肥沃土壤。正是NVIDIA提供的先进计算平台，成为滋养人工智能之林的关键养分，让这些技术之花竞相开放，展现出惊世之美。

AI生成

2024 NVIDIA GTC主题演讲见证 AI 的变革时刻

每年春季，NVIDIA的GTC主题演讲就如约而至。自2019年以“GPU Computing: The Future of Computing”揭开序幕，AI便成了GTC年会的重头戏。NVIDIA始终致力于将旗下产品的强大算力与AI技术的前沿需求无缝对接。正是老黄远见卓识的策略布局，使NVIDIA在AI的黄金时代巍然屹立，稳占行业霸主之位。

图片源自于网络

2023年，老黄在演讲中详细阐述了NVIDIA在人工智能、数据中心、云计算等关键领域取得的最新成果。重点介绍了NVIDIA Hopper GPU架构，它使AI性能相比前一代产品实现了翻倍的飞跃。同时，NVIDIA DGX Cloud为企业级用户带来了前所未有的强大算力支持；而NVIDIA Omniverse平台则将AI技术的应用拓展到了设计和建筑行业。老黄在演讲中富有预见性地指出：我们现在正处在人工智能的‘iPhone时代’。

图片源自于网络

那么在今天的GTC大会上，老黄，这位“人类AI教父”又给我们带来了什么新鲜事呢？

Blackwell 2080亿晶体管的算力猛兽

当下，世界范围内使用最多的AI应用-LLMs，如Google 的 Gemini、Meta 的 NLLB、Maxtral 的 Mistral 以及 OpenAI 的 GPT-4 等模型，均采用了“专家混合”（Mixtures of Experts，MoEs）技术。这些模型功能的强大，对芯片硬件提出了更高的要求。2023年，NVIDIA 凭借其Hopper架构，成功地迎接了这些挑战。

图片源自于网络

在今年的GTC上，老黄再一次地刷新了世界AI商用算力的排行榜，发布了Blackwell 架构和同名AI处理器B100、B200 和 GB200，产品取名自杰出数学家和统计学家 David H. Blackwell，体现了其在概率计算、博弈论、统计学和动态规划等多个领域的杰出贡献。

此次发布的 Blackwell GPU B100使用了两个台积电4NP工艺制造的芯片，芯片面积为814平方毫米，这个数据已经接近了EUV光刻技术的理论极限值（858平方毫米），两个芯片通过C2C-Interface进行相连，组成一个“1600平方毫米”的超大处理单元。

左边为B100，右边为H100 图片源自于网络

单个 GPU 芯片含 1040 亿晶体管，整体达到 2080 亿个，比上一代的 Hopper 架构增加了 240 亿个。每个 GPU 连接了四个各有 24 GB 的 HBM3E 存储芯片，使得 B100 AI处理器拥有 192 GB 的高速存储，并且存储带宽达到了 8 TB/s。

B100/B200/H100/AMDMI300X AI处理器重点参数对比图片源自于网络

在计算性能方面，NVIDIA 目前主要公布了 Blackwell 架构中 Tensor Cores 的性能数据。对比 NVIDIA Hopper架构的数据显示，对于低精度计算，Blackwell GPU 的性能是前代的2.5倍；而针对 FP64 计算，性能从 67 TFLOPS 降低至 30 TFLOPS。对此，NVIDIA并没有进行解释，许多博主也对FP64精度计算性能的下降表示了疑惑。

图片源自于网络

在日常的计算任务中，FP32（单精度浮点数）和FP64是最为普遍的数据格式，它们使用32位和64位分别对浮点数进行编码，既能提供较大的数值范围也保障了较高的数值精度，但相对地，也对内存和计算资源的需求更高。与之相对，FP16（半精度浮点数）和FP4提供的算力精度较低，特别是FP4，其低精度下的性能并不理想，即使在大型语言模型（LLMs）中开启FP4精度运行也是如此。

图片源自于网络

尚不明确NVIDIA此次为何将主要升级焦点放在FP4运算上。随着针对移动端LLMs需求的增长，对FP4运算的依赖可能有所增加，这或许促使NVIDIA优化了对FP4的支持，以提升这些应用的运算效率。

功耗方面，NVIDIA 宣布 Blackwell 系列的TDP范围在 700 至 1200 W之间。其中，风冷版本的 B100 和 B200 的 TDP 分别为 700W和 1000 W，而 1200 W版本的则需使用上水冷散热。此外，Blackwell GPU 还配备了支持 6.0 标准的 PCI-Express 控制器。

然后也放一下B100和B200的对比图，B200在运算性能与显存上对比B100有了不小的提升，相当于B100的“官方灰烬版”。同时NVIDIA还推出了GB200。

图片源自于网络

GB200就是将2个B200芯片和1个GraceCPU整合到一起，“合体之后”的性能表现将是单片H100的30倍左右的提升。当然GB200是应该是不会单独售卖的，如同去年推出的HGX 100 72X一样，GB200主要还是通过整合，然后形成一个GB200 NVL72的计算中心进行出售。

GB200与GH200（2024）重点参数对比图片源自于网络

图片源自于网络

回顾最近发布的Blackwell GPU，我认为其最大亮点并非在于算力的显著提升，而是它所搭载的192GB HBM 3E高带宽存储。面对如今日益增长的模型尺寸——例如，埃隆·马斯克最近宣布开源的Grok-1模型，它至少需要800GB的显存才能运行。若使用H100 GPU（配备80GB显存），运行该模型需要整整10张卡，而采用B100 GPU（如果每张配备192GB显存），仅需4张便可满足需求。这对于运维商而言，无疑是一种成本效率极高的解决方案。

这也是未来AI处理器发展的一个趋势，为了更好地AMD 的 Instinct MI300 系列产品形成压制。NVIDIA 还计划在今年下半年为 H100 系列加速器增加新的 H200 或 GH200 代，这将提供更高的 141 GB HBM3E 存储以及 4.8 TB/s 的存储带宽，也就是官方的显存提升版本。

图片源自于网络

Omniverse 再升级，Vision Pro应用新场景？

图片源自于网络

NVIDIA在本次的GTC 2024中进一步升级了其Omniverse平台，并将其企业技术扩展到了苹果生态系统。这一策略在于借助Vision Pro应用，使开发者得以在增强现实/虚拟现实（AR/VR）环境中利用Omniverse的强大工具。

在GTC大会上上，NVIDIA展示了设计师如何利用Vision Pro中的汽车配置工具操作车辆模型，并能够以虚拟的方式“进入”车辆内部进行查看。这种交互是通过Omniverse Cloud API实现的，此外，图形内容还可以通过云计算服务直接流式传输至Vision Pro，实现高效的图形传输网络服务。

图片源自于网络

这一升级意味着，Omniverse和Vision Pro的结合将为AR/VR领域带来更加沉浸式和互动性强的体验。用户能够在三维空间中以更加自然和直观的方式进行设计、模拟和创作，这对于产品设计、建筑可视化以及互动娱乐等多个应用场景都将是一次质的飞跃。

图片源自于网络

机器人的ChatGPT时代可能即将来临

图片源自于网络

正当我们以为今天的大会只会聚焦于算力话题时，老黄却给我们带来了意想不到的惊喜——备受瞩目的年度机器人环节如约而至，NVIDIA宣布了其人形机器人项目GR00T。

图片源自于网络

在今日的主题演讲中，黄仁勋展示了多款由GR00T平台驱动的人形机器人如何高效完成多项任务，这些机器人分别来自 Agility Robotics、Apptronik、傅利叶智能以及宇树科技。

GR00T的诞生源自NVIDIA的Isaac机器人平台工具，它基于全新的通用基础模型设计，使得GR00T驱动的人形机器人能够接收并处理文本、语音、视频乃至现场示范的输入信息，从而执行精确的操作。这些操作包括理解自然语言、模仿人类行为、在现实世界中的导航和互动等。可以说，AI已经变成了机器人的“灵魂”。

图片源自于网络

NVIDIA还开发了一款新型的“机器人大脑”计算芯片——Jetson Thor，该芯片能够执行复杂的任务，并借助Transformer引擎处理多元的传感器数据。

未来，NVIDIA将人形机器人定位为公司的一个关键战略方向。正如黄仁勋所预示的，机器人界的ChatGPT时代可能即将来临。

在过去，NVIDIA给人更多的印象就是一个游戏显卡的制造商，很少有人能够想到在不到20年的时间里，NVIDIA通过CUDA能够让GPU从一个“游戏硬件”概念变成一个改变世界的“数字石油”。

图片源自于网络

未来，随着技术的不断进步，NVIDIA的GPU很可能继续拓展其影响力。随着量子计算、边缘计算和物联网的发展，NVIDIA的技术有望在新的领域中发挥关键作用，进一步加速世界的数字化转型。

图片源自于网络