太平洋科技硬件

【硬件编年史】AI时代炙手可热的香饽饽，科技巨头都在抢的HBM到底是什么？

YIHAN 编辑：陈奕翰发布于：2023-08-28 17:32 PConline原创

写在开头

就在老黄说现在是“AI的iPhone时刻”之后，AI似乎开始爆炸增长，越来越多的行业都搭上了AI的快车。AI不再是虚幻不可见的东西，它在芯片生产、医疗、文化创作等各个领域发挥着巨大的作用，给世界带来天翻地覆的变化。像ChatGPT、AI绘画，甚至连我们手机上的Siri都能接入大模型，变成一个更智能的人工智能。

图源：NVIDIA官网

不过，随着AI火的不止这些我们看得到、摸得着的应用，还有一个硬件，它借着AI的东风热度大幅上升，从原来的“小透明”变成了“网红”，它就是HBM。红到最近，三星电子、SK海力士等韩国存储半导体企业巨头都在推动HBM产线的扩张！期望将产能继续增加，以应对日下火热的AI需求。

什么是HBM

说了那么多，那什么是HBM呢，HBM的全称是High Bandwidth Memory，即一款新型的CPU/GPU 内存芯片，说得再简单一点就是“RAM”。主要还是用在显卡上作为显卡显存，而说到显卡显存，还有另一种就是GDDR显存，就是我们在游戏显卡上经常听到的GDDR6或GDDR6X显存，目前已经来到了第六代，第七代应该很快就能与我们见面。

先来简单了解一下HBM，相对于GDDR显存来说，HBM是一种3D堆叠方式，可以允许纵向布局，就是将很多个DDR芯片堆叠在一起后和GPU封装在一起，实现大容量，高位宽的DDR组合阵列。

图源：太平洋科技网

从实际图中可以看到，中间硕大的就是GPU核心，而左右两边小小的Die则是HBM显存。

图源：NVIDIA官网

放大来看就知道HBM显存使用堆叠的形式封装了多层DRAM在GPU核心四周的，每个Die之间都是用TSV(硅通孔)和microbump的方式进行连接，除了堆叠的DRAM Die以外，下层还会有个HBM控制器逻辑Die，而GPU与HBM显存则是通过uBump和Interposer（起互联功能的硅片）进行连通。

图源：AMD官网

为什么要HBM

上面说了那么多，都是介绍HBM，那为什么要用HBM呢？它与我们熟悉的GDDR显存又有什么不同之处？

图源：SK海力士官网

更高速

从上面展示的结构图我们就知道了，HBM显存是通过硅中介层与GPU或CPU核心进行连接，因此可以显著加快内存和处理器之间的数据移动。

更高带宽

其次HBM显存的带宽也比传统GDDR6和GDDR6X显存高出许多，可以达到几十GB/s甚至上百GB/s的水平。这意味着HBM显存可以更快地传输数据，提高了GPU的性能。

图源：太平洋科技网

更高位宽

由于HBM显存是通过TSV堆栈的方式，因此HBM能实现更高的I/O数量，显存位宽也显著提升，能够达到1024位。并且因为堆叠的原因，HBM可以轻易实现更大的显存容量，像NVIDIA的H100，就可以轻松做到96GB的超大显存。

更低功耗

而HBM显存上广泛应用的TSV和微凸块技术还有一个优势，由于DRAM裸片与处理器间实现了较短的信号传输路径以及较低的单引脚I/O速度和I/O电压，这也使得HBM显存具备更好的内存功耗能效。

图源：AMD官网

更加可靠

并且HBM显存远比GDDR显存更加可靠，虽然网上常有人说，HBM显存坏一个就要将核心全换才能解决问题，不过实际情况中， GDDR显存使用的是GBA封装，这可能导致显存不稳定，一般由高温，撞击，磕碰引起的连锡，空焊，PCB损坏等，而HBM显存是和核心封装在一起，这种封装方式比GBA封装要稳定的多，且与核心的物理距离也比GDDR要短，延迟和干扰也要更低。

图源：太平洋科技网

更小尺寸

除了性能和功耗外，HBM 在节省产品空间方面也独具匠心。由于HBM显存采用3D堆叠的形式，并且能够与CPU或GPU封装在一起，其可以有效降低占用面积，为寸土寸金的PCB腾出更多的位置，让专业显卡能够堆更多料，实现更强的性能输出。

图源：AMD官网

HBM的应用

HBM的优点大家都了解了，那市面上有没有实际的产品可以体验看看？这还真有！HBM显存其实已经诞生很久了。

图源：AMD官网

AMD自2009年开始，就已经着手HBM的研发工作，在长达7年的时间里，终于整出了第一款使用HBM的显卡——2015年发布的R9 Fury X，其采用28nm制程GPU核心，4GB HBM堆叠显存，拥有64个计算单元（CU）、4096个GCN架构流处理器（SP)，核心频率为1050MHz，单精度浮点性能达到了8.6TFlops，而HBM显存拥有4096 bit带宽，等效频率1Ghz，显存总带宽达到了512GB/s，这在当时都是妥妥的旗舰配置。

图源：SK海力士官网

图源：太平洋科技网

后来，AMD又陆续推出了使用HBM显存的镭7，Vega64，Vega56等，这些卡凭借超高的带宽与位宽，在挖矿时代备受矿老板的欢迎。它们采用的都是第二代HBM显存，也就是HBM2，带宽高达1TB/s。

图源：SK海力士官网

图源：太平洋科技网

而HBM2的迭代产品HBM2e则更进一步，传输带宽相比HBM2提升了大约50%，不过从这时起，HBM显存开始多见于专业显卡领域或一些服务器处理器上。

图源：SK海力士官网

从第一次推出HBM显存的游戏显卡开始，8年时间了，AMD的官网上挂着清一色GDDR6显存的RX 7000系显卡与RX 6000系显卡，当年与海力士辛辛苦苦研发的HBM显存早已不见踪影，而接手HBM显存的就是时下热门的AI计算加速卡。

图源：AMD官网

不过用上HBM显存的也不止AMD，隔壁老黄的A100、H100专业显卡的显存正是AMD辛苦研发的HBM显存。英伟达的H100 GPU更是全球首款采用了HBM3显存的显卡，显存大小为80GB，1024bit位宽，提供高达 819 GB/s总带宽。

图源：SK海力士官网

AMD的东西自然也不能只给对手用，自家的Instinct MI300X也是用了192GB的HBM3显存，内存带宽达到5.2TB/s，Infinity Fabric带宽达到896GB/s。而基于MI300X的AMD Instinct计算平台，更是由8个MI300X组成，足足1.5TB的HBM3显存，堪称恐怖。

图源：AMD官网

HBM3才刚刚应用不久，HBM3E也在路上了，SK海力士8月21日才宣布，已经成功开发出面向AI的超高性能DRAM新产品HBM3E显存，并开始向客户提供样品进行性能验证。而这个HBM3E正是HBM3的扩展（Extended）版本。在速度方面，HBM3E 每秒可处理高达 1.15 TB 的数据，相当于每秒处理 230 多部 5GB 大小的全高清电影。

图源：SK海力士官网

HBM的瓶颈

HBM虽说优点很多，但也是有弱项的。要说限制HBM显存发展的一大原因就是较高的工艺而大幅度提升了成本。最早的HBM1的成本已不可考，不过以后续的8GB HBM2为例，它的成本约150美元，硅中介层成本约25美元，总计175美元，而同时期的8GB GDDR5仅需52美元，在没有考虑封测的情况下，HBM成本已经是GDDR的三倍左右，当时搭载HBM2显存的RX Vega 56零售价仅400美元，约等于一半的成本都花在了显存之上，因此后续AMD也很少在消费级的游戏显卡上用HBM显存，而是转投GDDR显存的怀抱。

图源：太平洋科技网

1万块的游戏显卡对玩家来说那就是高端，但是在专业计算领域，1万块钱的显卡就是很入门了，所以HBM显存在专业计算卡上有了舞台，对比普通游戏卡而言，采用HBM显存最大的好处可能就是可以给PCB板省一些空间，减小显卡长度，其次就是我们上面讲到的，HBM的诸多优势，例如更高的带宽、更高的位宽以及更低的功耗等，都是专业卡所青睐的原因。

HBM显存的另一个缺点就是发热高，由于HBM 的 2.5D 结构会产生热量，而靠近 CPU 和 GPU 的布局又会加剧这种情况。因此它的热量不容小觑，不过现在HBM显存大多用于AI领域的显卡上，这类显卡本身就有更高规格的散热措施，因此影响不大。

图源：NVIDIA官网

CoWoS的出现

HBM的最后一个瓶颈则是封装技术，将HBM显存与GPU核心封装在一起则需要用到台积电的CoWoS（Chip-on-Wafer-on-Substrate），它是一项2.5D封装技术，可以将多个小芯片封装到一个基板上，最早发布于2012年。这项技术有许多优点，但主要优势是节约空间、增强芯片之间的互联性和降低功耗。

经过多年的发展，已经成长为半导体业巨头的台积电，在部署先进芯片封装技术方面也有了快速发展。在十年的时间里，CoWoS封装已经经过了五代的发展，目前采用CoWoS封装的产品分布在消费领域和服务器领域。在AIGC引发的浪潮下，CoWoS更是直接被腿上了风口浪尖处，毕竟AI及高性能计算等芯片对先进封装技术的需求日益提升，而CoWoS就是诸多AI服务器芯片厂商主要采用的封装。

图源：EETimes

究其原因还是因为HBM显存的高焊盘数与短走线长度要求都需要先进的2.5D封装技术，而这一方面CoWoS就能实现，它既能够提供最高的互连密度和最大的封装尺寸，同时成本也比较合理。不过CoWoS封装终归是有容量限制的，因此提升封装容量就成了HBM的发展瓶颈，目前最新的是第五代CoWoS封装解决方案，其晶体管数量将是第三代CoWoS封装的二十倍。

你可能会问，那我用更高级的封装技术不就好了吗？台积电也确实有更高级的封装工艺，像SoIC等3D封装确实可以将更好的将显存堆叠到芯片之上，就像AMD的3D V-Cache处理器就是用到了这种工艺，不过大家都知道X3D处理器最大的问题就是发热，还有良率以及成本等因素，这并不适用于HBM显存。

图源：TEXAL

按照台积电的路线图可以看到，台积电一直致力于提升CoWoS的硅中介层面积，使之能承载更大的逻辑芯片和更多的HBM堆栈，这恰恰适应了AI芯片设计厂商的需求。目前来看，台积电的CoWoS封装技术具备容纳12个HBM堆栈的能力。

图源：EETimes

上面提到的硅中介层，在提升时需要用到“reticle stitching”的技术。由于光刻工具slit/scan支持芯片的最大尺寸通常为26mm x 33mm 。而现在的GPU芯片越做越大，已经越来越逼近这一极限，加上AI厂商还要在其周围安装HBM显存，因此只有中介层更大，才有可能做到让更大面积的芯片与HBM显存封装在一起。

目前台积电正在开发的第六代CoWoS封装解决方案，试图集成更多的小芯片和DRAM芯片，预计可以在同一封装内容纳两个计算芯片和八个或以上的HBM3 DRAM芯片，并且台积电还会提供新的散热解决方案，应用新材料使热阻降低至此前的0.15倍，会更有利于散热。

图源：EDNTAIWAN

值得一提的是，CoWoS也衍生出了很多变体技术，像CoWoS-R、CoWoS-L等，前者将硅中介层换做有机RDL，能够降低成本，不过劣势是牺牲了I/O密度。后者，是台积电专门针对人工智能训练芯片设计的，结合了台积电CoWoS-S和信息技术的优点，预计今年晚些时候才能应用。

图源：TSMC官网

当然，其他厂商当然也看到了CoWoS封装的优势，所以像三星、Intel这种大厂都在发力先进封装，在今年6月底召开的三星晶圆代工论坛上，三星就搬出了2nm工艺，并称其将在2026年量产，随后又宣布与内存、基板封装、测试等领域的合作伙伴成立“MDI（多芯片集成）联盟”，构建2.5D和3D异构集成的封装技术生态，以此对抗台积电的3D Fabric 联盟。

并且这些大厂也确实开发出了替代方案，诸如三星的I-Cube/H-Cube、日月光的FOCoS-Bridge、英特尔的EMIB等。并且也有实际应用案例，百度2018年推出的第一代百度昆仑AI芯片就是基于三星14nm工艺及I-Cube封装解决方案。

图源：cadence

不过有一说一，台积电在这块的优势还是很明显的，3D Fabric 联盟是台积电在去年10月发起的，主要用于分享台积电 2.5D 和 3D 封装技术（InFO、CoWoS 和 SoIC）的优势，并推动生态系统协同工作。

图源：TECHPOWERUP

加上台积电作为专业的Foundry，更能适应众多客户的需求，台积电的CoWoS本身就有技术优势，既满足追求性价比的客户需求，也符合追求高性能的客户需求，从目前台积电的CoWoS客户就可以知道，目前三大客户分别是英伟达、博通和赛灵思，AMD也排进了前五的队列。

图源：semianalysis

总结

总的来说，自从ChatGPT爆火以后，越来越多的AI大模型诞生，而动辄万亿的参数使HBM显存成为了时下AI的标配，HBM又与CoWoS封装息息相关。HBM和CoWoS技术的结合，可以为现阶段的专业显卡提供更高的带宽和更快的访问速度，从而提高大模型的性能和效率。