近期随着TikTok出海以及算力需求从训练走向推理的演进,全球数据中心加速建设成为市场最火热的主题,二级市场对液冷产业的关注度也在持续升温。今天我们非常荣幸地邀请到了一位资深的液冷技术专家,专家多年深耕数据中心液冷系统领域。首先感谢专家的时间,请专家就英伟达Vera Rubin方案的更新做一个简单介绍。
专家:
好的。首先简单更新一下英伟达最新的Vera Rubin在今年三月GTC大会上的信息。今年GTC大会展示了更详细的Rubin整机柜配置方案,包括液冷的NVL72机柜,预计今年下半年正式上市发货。除了常规的NVL72升级,英伟达还推出了x86或Grace CPU的机柜来配合原有的NVL72整机柜,产品线在今年有较大的组合性升级,补足了非常多细分领域的应用方案。
在Rubin的整体方案上,冷却系统今年有比较大的提升。最大的变化在于整机柜容量。原来的GB200和B200整机柜容量分别为120千瓦和145千瓦,已经算是业界单机柜容量非常大的机型。而今年的机型,无论是x86 CPU还是Grace CPU,在前一代水平上都有明显升级,CPU从原来的1.3-1.4千瓦升级到了2.3-2.5千瓦。因此,整机柜容量几乎翻倍,达到了220-225千瓦,在Boost运算时可能还会有进一步的容量提升。目前来看,最大的变化就是整体容量的升级。
从液冷系统来看,Rubin这一代依然保留了上一代的拓扑设计,采用单相冷板液冷系统的二次侧循环来对整机柜进行散热。虽然整体拓扑没有变化,但因为机柜容量基本倍增,关键设备的容量也相应发生了变化。
具体来看,比如CDU的容量。英伟达的标准配置指导中包含多种类型的CDU,如工业型和一体型,安装方式也有不同。最新的整机柜容量已达220-225千瓦,随之而来的是CDU功率要求的提升。之前GB200和B200采用1.3兆瓦CDU的一加一组合带8个整机柜的Pod,而Rubin升级到225千瓦后,同样带8台机柜就需要两兆瓦以上的CDU。因此,整体容量会做线性升级,冷板方面也会有明显的线性升级。传统的GB200和B200冷板整体容量在3000瓦左右,而Rubin机型会升级到5000瓦以上。冷板和CDU的容量线性升级以匹配流量的变化。
另外,在Compute Tray和Switch Tray里,英伟达做了全模块化设计,大大降低了内部安装复杂度。随着部署和生产速度加快,液冷管路和供电电缆都有明显的简化和精简。
还有一个容易被忽视的点,这一代机型整体功耗非常大,整机柜后侧垂直母线已经达到5000安培,这已经是普通低压电力垂直母线的极限。即便采用自然通风,也很难满足5000安培的散热需求。因此,英伟达甚至在垂直母线上也增加了进水和出水的液冷管路进行制冷。目前只有英伟达和少数厂家在机柜上采用了这种Busbar液冷散热方案。
在Compute Tray和Switch Tray里,采用了全液冷配置。无论是CPU、GPU,还是电源模块、网络芯片,全部覆盖了冷板,实现了百分之百的液冷配置。而前一代GB200和B200主要在CPU和GPU芯片上覆盖冷板,其他发热芯片采用10%-15%的风冷。虽然PCIe部分仍采用部分风冷,但PSU发热量占比很小,基本实现了全液冷机柜。未来机柜的PSU部分可能也会通上液冷冷板,做成真正的百分之百液冷设备。
英伟达去年向行业宣布,为了降低能耗和制冷容量需求,推荐用户抬升进水温度。传统液冷进水温度没有明确说法,用户为保险起见常采用较低温度。英伟达这次正式宣布支持45度的进水温度。这将明显提升二次侧循环水温,在全球大部分地区,只要不是湿度或温度特别高,完全可以去掉一次侧冷机,采用纯粹的冷却塔或干冷器进行冷却水循环制冷。这对整体数据中心的PUE和空调电费都有明显降低,无论是电费支出还是一次侧制冷设备成本。这是针对未来AIDC整体功耗做的必要更新。
主持人:
明白。刚才提到CDU和冷板的复杂度提升,我理解液冷系统的价格占比也会提升。还有哪些配件价格会提升,哪些占比会下降?
专家:
整体来讲,这一代系统仍采用单相冷板系统。如果按机柜数统计,因机柜容量增加,冷板和CDU这两大件容量提升,整体系统报价会提升。但系统设计复杂度保持与前代一致。如果看单瓦价值,提升其实并不特别明显,大概在10%-15%左右,基本保持在前代平均水平。
主持人:
现在GB200的单机柜液冷造价大概是多少?
专家:
整体GB200和B200的单位液冷系统大概在4.5万到5万美金左右。
主持人:
您感觉Vera Rubin方案大概能提升多少?
专家:
差不多,我认为在15%到25%之间,目前还给不出明确数值,20%作为中位数水平应该是差不多的。
主持人:
面对不同芯片,每千瓦带来的液冷造价会有变化吗?
专家:
从液冷角度看,主要看液冷拓扑。今年散热原理跟之前一样,还是单相冷板液冷系统。如果不同芯片采用同样的单相冷板系统,整体单瓦成本区别不大。整体系统成本取决于芯片容量的增加,基本是线性增加。但对于整体系统,不同用户配置液冷机柜和系统的配置是不一样的。
举个例子,大家熟悉的英伟达和谷歌。英伟达不算最终用户,但会提供液冷系统的设计指南给最终用户,影响较大。英伟达采用通用型设计,为了系统安全有较大的冗余设计。比如GB200和B200,采用两台1.3兆瓦容量的CDU做一主一备。正常情况下两套CDU都带载,当一台故障或维修时,关闭阀门,另一台即可带载。
而谷歌作为最终用户,数据中心高度一致且定制化,对自己技术非常熟悉。谷歌方案属于低成本方案,采用一台CDU(如V4版本一兆瓦,V5版本两兆瓦)进行带载,内部关键部分如泵、控制系统、变频器做成一加一。因为CDU价值量占比大,不同配置下差异较大,即便单瓦成本也会有较大波动。所以,不同容量的芯片只会带来价值量的线性升级,而不同的系统会带来单瓦价值量的波动和变化。
主持人:
目前给客户提供系统架构时,是以客户为主导修改架构,还是以我们为主导?
专家:
肯定是和客户一起沟通方案。客户和设计方会有自己的基本方案,厂家会和最终用户在项目前进行沟通,对关键方案做指导或引导。液冷市场目前还算新兴,绝大部分用户对液冷应用还比较初期,方案没有发生大的收敛,存在明显差异。在具体实施或设计过程中,厂家、咨询方、设计方或集成商都会参考相应意见,大家共同把方案进行收敛和落实。
主持人:
英伟达有自己的方案,国内大厂有自研芯片,他们是否也有相应的全套完整方案?
专家:
没错,各家方案其实不完全一致。英伟达比较特殊,想做整体解决方案。但在市场初期,用户没那么专业,非规模型Hyperscale数据中心用户往往会直接参考英伟达的设计参考。而像Meta、Google这种专业CSP,他们会有自己的定制化方案,专业人员对液冷系统认知非常深入。
国内也是同样的逻辑。像字节、BAT等头部大厂,虽然液冷应用量没有北美CSP那么高,但这几年也开始部分采用液冷设施。国内情况相对复杂,既有国内芯片,也会采购英伟达芯片。所以在这些大厂的数据中心里,我们会看到不同的方案。各家针对自己的数据中心都有定制化的液冷方案,无论是液冷系统方案,还是选择的液冷组件、GPU或ASIC芯片,都存在比较明显的差异。
主持人:
Vera Rubin算是常规升级。您感觉单机柜发展到超过多少千瓦,目前的液冷技术会发生比较大的变化?
专家:
去年年底大家一直在观望这一代VR机型,当时认为芯片功耗在2到2.3千瓦之间,这已经快顶到普通单相冷板的极限了。所以当时大家认为这一代很有可能会上真正的微通道冷板方案,以获得更大的接触面和散热提升。但据我们现在了解,微通道冷板目前还存在工艺、良率和实际性能方面的问题。
而且采用微通道冷板对二次侧水质要求大大提升。二次侧水温在30度或更高,容易滋生杂质或藻类,可能会堵塞微通道,造成安全性问题。所以这一代大概率会采用优化流道的冷板,严格意义上不算真正的微通道冷板,来满足2.3千瓦的要求。
对于液冷系统的发展,主要看芯片功耗密度,而不是单机柜功耗密度。单机柜功耗密度可以通过增加CDU容量解决,但芯片功耗密度增大无法线性增大冷板面积。下一代会不会发生变化?我认为大概率会。首先可能性较高的是采用微通道冷板,大概需要一年的技术准备期,让工艺达到可落地状态,增大接触面积,使散热能力达到3千瓦或以上。下一代Rubin Ultra机型大概率会有20%到30%的容量提升,微通道冷板技术很有可能会真正落地。
另外,主流头部厂商也在研发两相液冷系统。两相液冷在车载制冷系统已有成熟应用。两相冷板从理论上能解决4千瓦以上的散热需求。两相冷板内部的制冷剂也会发生变化,从去离子水或PG25、PG35溶液提升到完全的制冷剂,如R515B或R134a等。这些制冷剂在二次侧管路里大大提升了清洁性和散热性能,更适合微通道冷板设计。微通道冷板通道较细,会增加泵的扬程要求和功率。而两相冷板利用潜热散热,制冷能力远大于显热,且相变过程体积膨胀会产生更大管路压力,降低对泵功率的设计要求。理论上是一个更好更节能的设计。所以未来从微通道、冷板提升,以及CDU或二次侧泵的升级,都会考虑对应更大芯片的设计。
业界一直有讨论全浸没方案,但目前全浸没在成本、维护性和占地面积方面,与单相冷板系统相比还有明显差异。所以未来2到3年或2到3代系统内,大概率保持目前的冷板设计。但究竟是单相冷板还是相变冷板,要看英伟达或各厂家的技术落地和测试情况。
主持人:
如果发展到两相冷板方向,能否给配件升级需求排个序?
专家:
两相冷板情况下,二次侧管路内制冷剂发生变化,从去离子水提升到制冷剂,对管路和冷板密封性有进一步要求。相变冷板进液口是液态,出液口是气液混合物,对密封性要求更高。传统水系统封堵常用橡胶制品,而制冷剂对普通胶圈有一定腐蚀性,所以下一代管路或冷板在密封性方面需要提升,以匹配制冷剂循环。
CDU方面,目前单相系统主要采用机械泵加变频器控制。采用两相液冷,循环泵会提升到氟泵,很少用离心泵,会采用容积泵、齿轮泵。泵类会有明显变化。目前业界CDU容量越做越大,GB200机型已做到2兆瓦以上,今年初已有厂家开发出3兆瓦、4兆瓦以上的CDU。而两相液冷泵目前各厂家还在研发中,现有的两相机型CDU容量基本在500千瓦以内,与主流单相冷板CDU容量差异巨大,这方面会有明显提升。
另外,CDU控制系统逻辑也会有变化。机柜里的冷板方面,两相冷板天然会用到微通道冷板,两者比较匹配。未来变化方面,各厂家正积极开发顶盖和冷板合二为一的All in One设计,进一步降低芯片热阻。如果升级到两相冷板,无论是CDU、管路、快接头还是冷板都会有相应升级。
主持人:
之前听说GB200机柜BOM成本拆分,CDU和冷板分别占30%,Manifold和UQD加软管分别占15%,剩下10%是传感器和冷却液。这个拆分准确吗?
专家:
差不多。差异较大的是冷却液,不同用户采用不同冷却液,单相冷板用的PG25、PG35或去离子水成本较低。整体比例大概是这样,但冷却液成本差异很高。
主持人:
如果发展到两相阶段,整体造价会高多少?
专家:
很难给出确切数字,但觉得至少会有30%的提升。
主持人:
BOM成本分配会有变化吗?
专家:
基本是线性提升,占比最高的还是CDU。具体占比很难估计,但CDU占比应该还是最高的。
主持人:
有说法称单芯片功耗达到一定程度,传感器和冷却剂的壁垒会更高,其他部件技术突破壁垒没那么高,您怎么看?
专家:
传感器目前还在正常范围内。芯片功耗密度基本两年提升两到三倍,部件会进行部分优化,从系统看传感器还没有特别大的技术壁垒。
制冷剂的变化方面,单相和两相制冷剂有明显区别。单相冷板循环走去离子水或丙二醇溶液;两相冷板变成氟化制冷剂,如R134a或R515B。浸没式制冷剂则有氟化液或绝缘油。双相浸没式基本采用电子氟化液。不同制冷剂在造价方面区别较大。目前这些制冷剂在制冷行业或矿物油行业还算传统产品,没有特别特殊的产品,方案比较成熟。
主持人:
国产化方面,国产产品和海外产品差距大吗?
专家:
从液冷整体行业看,国内和海外应用在拓扑上保持一致,大部分场景采用单相冷板制冷。北美市场和国内市场的主要玩家和设备有一定区别。海外玩家如维谛、财达、CoolIT、保德等,在CSP或英伟达系统中,元器件选择多为欧美及台系品牌。国产厂家在北美市场有部分渗透,如英力酷在谷歌白名单中,但整体以欧美和台系厂家为主。
国内市场国产化率非常高。Manifold、快接头甚至冷板(台系冷板较多,国产也有部分)等部件有大量国产替代。国内液冷竞争虽然时间不长,但很快达到白热化。CDU方面,国内主要玩家以国产品牌为主,如浪潮、曙光、英力酷、申菱、科华等。北美头部厂家在国内占有率远不如国内厂家。国内系统厂家生产的器件也有非常多国产替代,甚至进口品牌在国内推出的设备也逐渐开始国产化替代。海外CDU价格基本是国内的2到3倍,为了竞争,关键器件如泵、变频器、板换、阀门等都逐渐有国产替代。
CDU作为液冷系统占比最高、最重要的设备,其核心器件如泵,在北美设备中主要是格兰富、威乐、赛莱默、斯特克等欧美品牌,基本没有国内厂家进入头部白名单。但在国内,从去年开始,飞龙的泵、德昌电机的泵等国产泵类已进入国内系统。变频器方面,海外白名单是ABB、日立等,国内则大量采用汇川等国产器件。所以从元器件和市场占比看,国内和海外有明显区别。国内市场盘子明显小于北美,但竞争激烈程度远超北美。
主持人:
如果同样给谷歌云供CDU,国内厂家还是会以一半的价格供货吗?还是因为出口,价格不会特别低?
专家:
给谷歌供货有非常多的测试、审核和验证需求,前期费用不低。海外项目元器件选择必须严格遵守谷歌的白名单要求,不能随意选择,因此各家的成本差异实际上不大。另外,生产方面,虽然国内人力成本低,但受地缘政治、关税和供货周期(4到6周)要求,国内厂家往往需要在海外或东南亚建厂。这样算下来,元器件、人力成本和认证要求使得成本提升较高。当然,国内厂家对成本的控制肯定优于海外厂家,成本会有差异,但没有大家想象的那么高。
主持人:
目前全球液冷及配件有产能紧缺吗?
专家:
液冷设备要区分不同组件。Manifold、快接头和冷板属于比较成熟的产业,目前没有听到非常多周期延长的情况(微通道冷板除外)。CDU部分确实看到从去年开始直到现在都有产能紧缺情况,交期很难满足绝大部分用户需求。去年头部厂家CDU交期甚至去到了六个月以上,这对头部数据中心建设很难接受。CDU部分目前仍有一些产能紧缺,可能会延展到今年,但目前认为会有一些缓解。因为去年开始很多厂家看到了增量,进行了新增工厂或扩产。越来越多液冷厂家进入行业,未来竞争会激烈,产能扩充也会缓解相应情况。但同时,今年上半年AI服务器采用液冷配置的增长比较明显,所以CDU部分可能仍会有紧缺,但目前应该有逐渐缓解的趋势。
问答环节
提问者:
专家好。今年B200的Compute Tray冷板是一整块大的设计方式吗?
专家:
我们看到基本上是两块大冷板的设计。每块冷板覆盖两颗GPU和一颗CPU。在Compute Tray下方,VRM和网络芯片也有相应的冷板覆盖。主要芯片的冷板价值量,两块大冷板按人民币算大概在8000到9000元左右。
提问者:
今年在导热界面材料(TIM)环节有加一些液态金属的说法,您了解吗?
专家:
我们不做TIM材料,但了解到的消息确实是在导热材料里引入了液态金属。这块可能需要再详细整理一下。
提问者:
下一代技术是盖板微通道,还是冷板本身微通道?
专家:
这两个技术完全不同。微通道冷板(MCCP)是通过导热界面材料贴在盖板上,下一代大概率是这种情况。微通道盖板(MCLP)是将冷板和盖板合二为一,直接通过导热界面材料贴在硅芯片上,这是微通道冷板的下一代产品。微通道盖板在下一代可能还看不到,可能要到下下代才会有应用。
提问者:
CDU里面的电子泵跟机械泵,产业趋势怎么看?将来会慢慢替代机械泵吗?
专家:
目前英伟达或谷歌机柜冷量发展最快、最大。CDU与机柜发展呈线性关系,现在基本采用列间级CDU,制冷容量越做越大。从产业角度看,北美数据中心因容量越来越大,绝大部分用户还是采用泵和控制系统分离的状态(机械泵+变频器+主控模块),控制精度更高。大功率机械化产品在安全性、耐久性、扬程和工艺上都能满足未来需求。
电子水泵最早多用于汽车行业,汽车对体积非常敏感,需要控制系统和泵结合的紧凑型设计。国内有些厂家做小功率CDU会采用电子泵。虽然电子泵容量也在越做越大,但在全球产业上,大趋势还是以机械泵和控制系统分离为主。谷歌或英伟达的白名单里列出的都是机械泵,还没看到电子泵。国内产品则大量用到电子泵,从小容量逐渐往大做。后期可能会有行业交叉,但电子泵最终占比能否大幅提升,还需看数据中心行业和各厂家的接受程度。电子泵有明显增长趋势,但目前市场上还不属于主流。
主持人:
因为今天时间有限,聊得也比较充分,今天的会议先到这里。如果后续投资者对液冷行业有更多关心,可以直接联系我们。感谢专家。
专家:
谢谢。