随想229 漫谈智算中心的冷却

用户头像
三石而立orz
 · 广东  

用过电脑的朋友都知道,CPU会发热,一发热就有个小风扇呜呜呜地开始转,这就是过去冷却最主流的方式——风冷。风冷利用风扇和空调系统,通过空气循环带走热量,它的优点是技术成熟、成本低、部署和维护简便,缺点也很明显,散热能力有限、功耗高、噪音大。

而AI智算中心,特别是训练GPT这类大模型,本质上是在进行海量的矩阵运算,目前的主流方式是靠GPU来完成的,这带来两个结果:

一是单芯片功耗飙升,传统CPU的功耗通常在150W-300W。而一块顶级的AI GPU,如NVIDIA的H100,功耗可达700W。这相当于在指甲盖大小的芯片上,集成一个电热水壶的发热量。

二是机柜密度剧增,为了组成强大的算力集群,智算中心会把成千上万的GPU密集地塞在一起。英伟达发布的NVL72机柜,单机柜功率就高达120kW,这相当于100多个三口之家的同时用电量。

这就意味着,热源不再是过去的"小火炉",而是变成

点击查看全文