用户头像
忘忧岛岛主
 · 浙江  

AI驱动液冷需求放量、英伟达全面转向液冷

算力增长带来芯片TDP增加

全球AI发展推动算力需求提升,预计2030年全球算力规模超16ZFlops,CAGR超50%。2023年全球计算设备算力总规模达到1397 EFlops,增速达54%,其中基础算力规模为497 EFlops,智能算力规模为875 EFlops,超算算力规模为25 EFlops。随着垂直行业模型和端侧大模型的应用和推广,预计未来五年全球算力规模仍将以超过50%的速度增长,至2030年全球算力将超过16ZFlops,其中智能算力占比将超过90%。

国内智能算力规模保持高速增长。2024年中国智能算力规模达725.3EFLOPS,2025年将达到1037.3 EFLOPS,预计到2028年将达到2781.9EFLOPS(基于FP16计算)。2023-2028年期间,中国智能算力规模年复合增长率达46.2%。2024年中国通用算力规模达71.5 EFLOP5,2025年将达到85.8 EFLOPS,预计到2028年通用算力规模将达到140.1EFLOPS(基于FP64计算)。2023-2028年期间,中国通用算力规模年复合增长率为18.8%。

算力增长带来芯片TDP增加

算力飞速增长带来TDP迅速增加,传统风冷逐渐无法满足需求,逐步转向液冷。随芯片性能的持续提升,其TDP也在不断上涨,以英伟达为例,其GPU的TDP从V100 SXM2 32GB的300W提升至H100 SXM 80GB 的700W,而当TDP逐步超过350W,传统风冷散热效果已无法满足需求。因此芯片TDP的增长促使散热方式从风冷向液冷加速转变。

PUE监管趋严推动液冷发展

数据中心PUE相关政策相继出台,监管逐步趋严。政策明确要求到2023年底新建大型及以上数据中心PUE降低到1.3以下;到 2025 年全国新建大型、超大型数据中心平均电能利用效率降到1.3以下,国家枢纽节点进一步降到1.25以下,绿色低碳等级达到4A级以上;“东数西算”工程的10个数据中心集群与北京、上海、深圳等地也出台相关政策收紧要求。

液冷时代的到来势在必行。目前,国内传统风冷数据中心PUE约为1.5,温控系统能耗占总能耗约40%,在国家严格的PUE考核标准下,风冷系统已无法满足国家政策需求,数据中心急需降低温控系统能耗以满足国家政策。从PUE指标来看,液冷技术可以将PUE指标降至1.2以下,满足当前国家政策对绿色数据中心的要求,达到减低耗能的目标。

国内运营商加大液冷建设,互联网大厂加大资本开支推进AI建设

电信运营商提出液冷三年愿景,2025年50%项目采用液冷方案,同时国内大厂逐步加大资本开支。《电信运营商液冷技术白皮书》指出了电信运营商在液冷方面的三年愿景,2023年,开展技术验证,充分验证液冷技术性能,储备规划、建设与维护等技术能力;2024年,开展规模测试,新建项目10%试点液冷技术;2025年,保证50%以上项目规模应用,推进形成标准统一、生态完善、成本最优、规模应用的高质量发展格局。同时国内大厂阿里字节腾讯等纷纷加大资本开支推进Ai相关建设,年度资本开支均有望超千亿人民币,将充分拉动液冷需求提升。

NVIDIA GB300转向全面液冷

英伟达在2025 GTC AI大会上发布了新一代数据中心GPU GB300,相比上一代GB200的120kW,热设计功耗提高到140kW,已经超过一般服务器与气冷散热极限,只有液冷方案才能有效解决散热问题。

GB200初期以风冷为主,GB300则全面采用液冷,并在组件上全面转向液冷。相比GB200,GB300的主要变化集中在内部冷板(coldplate)的设计上,而其他组件如manifold、CDU以及cartridge等均沿用GB200的原有设计,无需额外调整。目前switchtray大部分采用风冷方案,仅主芯片使用液冷,未来将转向液冷,包括前端transceiver连接器也将采用液冷设计。

GB300从原来GB200的大面积冷板覆盖设计,转为每个GPU芯片配备独立的“一进一出”液冷板,增加了冷却硬件用量。以NVL72系统为例,单个计算托盘(compute tray)的快接头数量从GB200的6对激增至14对,系统总量从126对翻倍至252对。

全球液冷市场2032年预计超190亿美元

预计2032年全球液冷市场规模超190亿美元。根据Skyquest数据显示,2023/2024年全球液冷市场规模为29/36亿美元,预计2025以及2032年市场规模将分别达到45/194亿美元,2025年-2032年CAGR达23%。

$英维克(SZ002837)$ $淳中科技(SH603516)$ $欧陆通(SZ300870)$