於本周举行的2025年IEEE国际电子会议(IEDM)上,比利时微电子研究中心(imec)发表了首篇针对3D 高频宽记忆体(HBM)与图形处理器(GPU)堆叠元件(HBM-on-GPU)的系统技术协同优化(STCO)热学研究,这种元件是下一代人工智慧(AI)应用的潜力运算架构。透过整合技术和系统级调节策略,在现实AI训练工作负荷下,GPU的最高温度可能从140.7。C降到70.8。C相当於目前的2.5D整合技术。这项研究结果展示结合跨层优化(也就是协同优化在所有不同抽象层上的开关)与广泛技术专业所带来的优势imec特有的组合。
 |
| 整合方法(a)目前的2.5D方案与(b)HBM与GPU堆叠的3D提案。 |
直接在GPU上方整合HBM堆叠提供一套具吸引力的方法来建立新一代运算架构,以满足资料密集型的AI工作负荷。相较於在矽中介层上将HBM堆叠置於(单颗或两颗)GPU附近的现行2.5D整合技术,这种HBM与GPU堆叠的3D元件可??在运算密度(每封装包含四颗GPU)、每颗GPU的记忆体容量及GPU记忆体频宽方面跨出一大步。然而,积极的3D整合方法因为具备更高的局部功率密度及垂直方向的热阻,因而容易产生散热问题。
在2025年IEEE国际电子会议,imec发表首篇针对立体HBM与GPU堆叠元件整合的完整热模拟研究,不仅辨别散热瓶颈,也提出策略来提升该架构散热可行性。imec研究人员展示协同优化技术和系统级热调节方法如何在现实的AI训练工作负荷下,将GPU最高温度从141.7。C降到70.8。C。
这套模型假设四个HBM堆叠每堆叠包含12颗异质接合的DRAM晶粒,利用凸块直接放在GPU上方。散热位在这些HBM的上方。透过取自产业相关功率曲线的功率图来识别局部热点,并与2.5D基线进行比对。不采用热调节策略时,3D模型产生141.7。C的GPU峰值温度远高於GPU和HBM的运作温度,而在相同的散热条件下,2.5整合的基准测试最高温度落在可维持运作的69.1。C。我们运用这些资料来着手评估技术和系统级热调节策略两者所产生的共同影响。系统级策略包含HBM堆叠合并与矽材散热优化等等。系统级方面,我们评估了双面降温与GPU频率调整的影响。
imec系统技术协同优化(STCO)研究计画主持人James Myers表示:「将GPU核心频率减半成功把峰值温度从120。C降到100。C以下,达到记忆体运作的目标。虽然这一步会增加28%的工作负荷,也就是放缓AI训练步骤,但整体封装的表现胜过2.5D基线测试,这归功於3D设置所提供的更高通量密度。我们正在利用这套方法来研究其他GPU/HBM配置,例如把GPU放在HBM上方,以预料未来的热学限制。」
imec逻辑晶片技术研发??总Julien Ryckaert表示:「这也是我们第一次展示imec跨技术协同优化(XTCO)研究计画在建立更具备热稳健度之运算系统的能力。XTCO计画於2025年展开,目标是促使imec的技术发展途径与关键的业界系统升级挑战能够高效密切配合,该计画也奠基於四大系统级支柱:运算密度、供电、散热,以及记忆体密度和频宽。结合了我们的系统技术协同优化(STCO)/设计技术协同优化(DTCO)思维与imec广泛的技术专业,这种独特整合在应对运算系统需求的成长及多样化方面提供宝贵价值。我们邀请整个半导体生态系内的企业加入我们的跨技术协同优化计画,包含无晶圆厂与系统厂商,并携手克服关键的系统升级瓶颈。」