首页 > DIY外设 > 显卡 > 应用> 正文

【硬件编年史】AI时代炙手可热的香饽饽,科技巨头都在抢的HBM到底是什么?

YIHAN 编辑: 陈奕翰 发布于:2023-08-28 17:32 PConline原创

写在开头

就在老黄说现在是“AI的iPhone时刻”之后,AI似乎开始爆炸增长,越来越多的行业都搭上了AI的快车。AI不再是虚幻不可见的东西,它在芯片生产、医疗、文化创作等各个领域发挥着巨大的作用,给世界带来天翻地覆的变化。像ChatGPT、AI绘画,甚至连我们手机上的Siri都能接入大模型,变成一个更智能的人工智能。

图源:NVIDIA官网

不过,随着AI火的不止这些我们看得到、摸得着的应用,还有一个硬件,它借着AI的东风热度大幅上升,从原来的“小透明”变成了“网红”,它就是HBM。红到最近,三星电子、SK海力士等韩国存储半导体企业巨头都在推动HBM产线的扩张!期望将产能继续增加,以应对日下火热的AI需求。

什么是HBM

说了那么多,那什么是HBM呢,HBM的全称是High Bandwidth Memory,即一款新型的CPU/GPU 内存芯片,说得再简单一点就是“RAM”。主要还是用在显卡上作为显卡显存,而说到显卡显存,还有另一种就是GDDR显存,就是我们在游戏显卡上经常听到的GDDR6或GDDR6X显存,目前已经来到了第六代,第七代应该很快就能与我们见面。

先来简单了解一下HBM,相对于GDDR显存来说,HBM是一种3D堆叠方式,可以允许纵向布局,就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。

图源:太平洋科技网

从实际图中可以看到,中间硕大的就是GPU核心,而左右两边小小的Die则是HBM显存。

图源:NVIDIA官网

放大来看就知道HBM显存使用堆叠的形式封装了多层DRAM在GPU核心四周的,每个Die之间都是用TSV(硅通孔)和microbump的方式进行连接,除了堆叠的DRAM Die以外,下层还会有个HBM控制器逻辑Die,而GPU与HBM显存则是通过uBump和Interposer(起互联功能的硅片)进行连通。

图源:AMD官网

为什么要HBM

上面说了那么多,都是介绍HBM,那为什么要用HBM呢?它与我们熟悉的GDDR显存又有什么不同之处?

图源:SK海力士官网

更高速

从上面展示的结构图我们就知道了,HBM显存是通过硅中介层与GPU或CPU核心进行连接,因此可以显著加快内存和处理器之间的数据移动。

更高带宽

其次HBM显存的带宽也比传统GDDR6和GDDR6X显存高出许多,可以达到几十GB/s甚至上百GB/s的水平。这意味着HBM显存可以更快地传输数据,提高了GPU的性能。

图源:太平洋科技网

更高位宽

由于HBM显存是通过TSV堆栈的方式,因此HBM能实现更高的I/O数量,显存位宽也显著提升,能够达到1024位。并且因为堆叠的原因,HBM可以轻易实现更大的显存容量,像NVIDIA的H100,就可以轻松做到96GB的超大显存。

更低功耗

而HBM显存上广泛应用的TSV和微凸块技术还有一个优势,由于DRAM裸片与处理器间实现了较短的信号传输路径以及较低的单引脚I/O速度和I/O电压,这也使得HBM显存具备更好的内存功耗能效。

图源:AMD官网

更加可靠

并且HBM显存远比GDDR显存更加可靠,虽然网上常有人说,HBM显存坏一个就要将核心全换才能解决问题,不过实际情况中, GDDR显存使用的是GBA封装,这可能导致显存不稳定,一般由高温,撞击,磕碰引起的连锡,空焊,PCB损坏等,而HBM显存是和核心封装在一起,这种封装方式比GBA封装要稳定的多,且与核心的物理距离也比GDDR要短,延迟和干扰也要更低。

图源:太平洋科技网

更小尺寸

除了性能和功耗外,HBM 在节省产品空间方面也独具匠心。由于HBM显存采用3D堆叠的形式,并且能够与CPU或GPU封装在一起,其可以有效降低占用面积,为寸土寸金的PCB腾出更多的位置,让专业显卡能够堆更多料,实现更强的性能输出。

图源:AMD官网

HBM的应用

HBM的优点大家都了解了,那市面上有没有实际的产品可以体验看看?这还真有!HBM显存其实已经诞生很久了。

图源:AMD官网

AMD自2009年开始,就已经着手HBM的研发工作,在长达7年的时间里,终于整出了第一款使用HBM的显卡——2015年发布的R9 Fury X,其采用28nm制程GPU核心,4GB HBM堆叠显存,拥有64个计算单元(CU)、4096个GCN架构流处理器(SP),核心频率为1050MHz,单精度浮点性能达到了8.6TFlops,而HBM显存拥有4096 bit带宽,等效频率1Ghz,显存总带宽达到了512GB/s,这在当时都是妥妥的旗舰配置。

图源:SK海力士官网

图源:太平洋科技网

后来,AMD又陆续推出了使用HBM显存的镭7,Vega64,Vega56等,这些卡凭借超高的带宽与位宽,在挖矿时代备受矿老板的欢迎。它们采用的都是第二代HBM显存,也就是HBM2,带宽高达1TB/s。

图源:SK海力士官网

图源:太平洋科技网

而HBM2的迭代产品HBM2e则更进一步,传输带宽相比HBM2提升了大约50%,不过从这时起,HBM显存开始多见于专业显卡领域或一些服务器处理器上。

图源:SK海力士官网

从第一次推出HBM显存的游戏显卡开始,8年时间了,AMD的官网上挂着清一色GDDR6显存的RX 7000系显卡与RX 6000系显卡,当年与海力士辛辛苦苦研发的HBM显存早已不见踪影,而接手HBM显存的就是时下热门的AI计算加速卡。

图源:AMD官网

不过用上HBM显存的也不止AMD,隔壁老黄的A100、H100专业显卡的显存正是AMD辛苦研发的HBM显存。英伟达的H100 GPU更是全球首款采用了HBM3显存的显卡,显存大小为80GB,1024bit位宽,提供高达 819 GB/s总带宽。

图源:SK海力士官网

AMD的东西自然也不能只给对手用,自家的Instinct MI300X也是用了192GB的HBM3显存,内存带宽达到5.2TB/s,Infinity Fabric带宽达到896GB/s。而基于MI300X的AMD Instinct计算平台,更是由8个MI300X组成,足足1.5TB的HBM3显存,堪称恐怖。

图源:AMD官网

HBM3才刚刚应用不久,HBM3E也在路上了,SK海力士8月21日才宣布,已经成功开发出面向AI的超高性能DRAM新产品HBM3E显存,并开始向客户提供样品进行性能验证。而这个HBM3E正是HBM3的扩展(Extended)版本。在速度方面,HBM3E 每秒可处理高达 1.15 TB 的数据,相当于每秒处理 230 多部 5GB 大小的全高清电影。

图源:SK海力士官网

HBM的瓶颈

HBM虽说优点很多,但也是有弱项的。要说限制HBM显存发展的一大原因就是较高的工艺而大幅度提升了成本。最早的HBM1的成本已不可考,不过以后续的8GB HBM2为例,它的成本约150美元,硅中介层成本约25美元,总计175美元,而同时期的8GB GDDR5仅需52美元,在没有考虑封测的情况下,HBM成本已经是GDDR的三倍左右,当时搭载HBM2显存的RX Vega 56零售价仅400美元,约等于一半的成本都花在了显存之上,因此后续AMD也很少在消费级的游戏显卡上用HBM显存,而是转投GDDR显存的怀抱。

图源:太平洋科技网

1万块的游戏显卡对玩家来说那就是高端,但是在专业计算领域,1万块钱的显卡就是很入门了,所以HBM显存在专业计算卡上有了舞台,对比普通游戏卡而言,采用HBM显存最大的好处可能就是可以给PCB板省一些空间,减小显卡长度,其次就是我们上面讲到的,HBM的诸多优势,例如更高的带宽、更高的位宽以及更低的功耗等,都是专业卡所青睐的原因。

HBM显存的另一个缺点就是发热高,由于HBM 的 2.5D 结构会产生热量,而靠近 CPU 和 GPU 的布局又会加剧这种情况。因此它的热量不容小觑,不过现在HBM显存大多用于AI领域的显卡上,这类显卡本身就有更高规格的散热措施,因此影响不大。

图源:NVIDIA官网

CoWoS的出现

HBM的最后一个瓶颈则是封装技术,将HBM显存与GPU核心封装在一起则需要用到台积电的CoWoS(Chip-on-Wafer-on-Substrate),它是一项2.5D封装技术,可以将多个小芯片封装到一个基板上,最早发布于2012年。这项技术有许多优点,但主要优势是节约空间、增强芯片之间的互联性和降低功耗。

经过多年的发展,已经成长为半导体业巨头的台积电,在部署先进芯片封装技术方面也有了快速发展。在十年的时间里,CoWoS封装已经经过了五代的发展,目前采用CoWoS封装的产品分布在消费领域和服务器领域。在AIGC引发的浪潮下,CoWoS更是直接被腿上了风口浪尖处,毕竟AI及高性能计算等芯片对先进封装技术的需求日益提升,而CoWoS就是诸多AI服务器芯片厂商主要采用的封装。

图源:EETimes

究其原因还是因为HBM显存的高焊盘数与短走线长度要求都需要先进的2.5D封装技术,而这一方面CoWoS就能实现,它既能够提供最高的互连密度和最大的封装尺寸,同时成本也比较合理。不过CoWoS封装终归是有容量限制的,因此提升封装容量就成了HBM的发展瓶颈,目前最新的是第五代CoWoS封装解决方案,其晶体管数量将是第三代CoWoS封装的二十倍。

你可能会问,那我用更高级的封装技术不就好了吗?台积电也确实有更高级的封装工艺,像SoIC等3D封装确实可以将更好的将显存堆叠到芯片之上,就像AMD的3D V-Cache处理器就是用到了这种工艺,不过大家都知道X3D处理器最大的问题就是发热,还有良率以及成本等因素,这并不适用于HBM显存。

图源:TEXAL

按照台积电的路线图可以看到,台积电一直致力于提升CoWoS的硅中介层面积,使之能承载更大的逻辑芯片和更多的HBM堆栈,这恰恰适应了AI芯片设计厂商的需求。目前来看,台积电的CoWoS封装技术具备容纳12个HBM堆栈的能力。

图源:EETimes

上面提到的硅中介层,在提升时需要用到“reticle stitching”的技术。由于光刻工具slit/scan支持芯片的最大尺寸通常为26mm x 33mm 。而现在的GPU芯片越做越大,已经越来越逼近这一极限,加上AI厂商还要在其周围安装HBM显存,因此只有中介层更大,才有可能做到让更大面积的芯片与HBM显存封装在一起。

目前台积电正在开发的第六代CoWoS封装解决方案,试图集成更多的小芯片和DRAM芯片,预计可以在同一封装内容纳两个计算芯片和八个或以上的HBM3 DRAM芯片,并且台积电还会提供新的散热解决方案,应用新材料使热阻降低至此前的0.15倍,会更有利于散热。

图源:EDNTAIWAN

图源:EDNTAIWAN

值得一提的是,CoWoS也衍生出了很多变体技术,像CoWoS-R、CoWoS-L等,前者将硅中介层换做有机RDL,能够降低成本,不过劣势是牺牲了I/O密度。后者,是台积电专门针对人工智能训练芯片设计的,结合了台积电CoWoS-S和信息技术的优点,预计今年晚些时候才能应用。

图源:TSMC官网

图源:TSMC官网

当然,其他厂商当然也看到了CoWoS封装的优势,所以像三星、Intel这种大厂都在发力先进封装,在今年6月底召开的三星晶圆代工论坛上,三星就搬出了2nm工艺,并称其将在2026年量产,随后又宣布与内存、基板封装、测试等领域的合作伙伴成立“MDI(多芯片集成)联盟”,构建2.5D和3D异构集成的封装技术生态,以此对抗台积电的3D Fabric 联盟。

并且这些大厂也确实开发出了替代方案,诸如三星的I-Cube/H-Cube、日月光的FOCoS-Bridge、英特尔的EMIB等。并且也有实际应用案例,百度2018年推出的第一代百度昆仑AI芯片就是基于三星14nm工艺及I-Cube封装解决方案。

图源:cadence

不过有一说一,台积电在这块的优势还是很明显的,3D Fabric 联盟是台积电在去年10月发起的,主要用于分享台积电 2.5D 和 3D 封装技术(InFO、CoWoS 和 SoIC)的优势,并推动生态系统协同工作。

图源:TECHPOWERUP

加上台积电作为专业的Foundry,更能适应众多客户的需求,台积电的CoWoS本身就有技术优势,既满足追求性价比的客户需求,也符合追求高性能的客户需求,从目前台积电的CoWoS客户就可以知道,目前三大客户分别是英伟达、博通和赛灵思,AMD也排进了前五的队列。

图源:semianalysis

总结

总的来说,自从ChatGPT爆火以后,越来越多的AI大模型诞生,而动辄万亿的参数使HBM显存成为了时下AI的标配,HBM又与CoWoS封装息息相关。HBM和CoWoS技术的结合,可以为现阶段的专业显卡提供更高的带宽和更快的访问速度,从而提高大模型的性能和效率。

HBM   CoWoS   TSMC   NVIDIA   AMD
YIHAN

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部