8月最新调研纪要:
摘要重点增量信息:问:对于下一代Rubin技术方案,其散热方式有何不同?答:下一代Rubin技术方案中,采用的是冷板加浸没式液冷方案。在45U或47U的机柜内,仍分布有switch tree和computer tree以及托盘结构,但所有托盘会做成密闭壳体,类似鱼缸。GPU上会贴附液冷板进行散热,同时,机柜内部形成一进一回的两个回路:一是通过微通道冷板换热,二是氟化液在密闭壳体内循环带走热量,从而构成第二个回路。这种设计使得服务器托盘拥有两套独立的回路,而EB的服务器托盘中使用的冷却介质为电子氟化液,相较于B300的丙二醇,用量将大幅提升,一个机柜可达到上千升的规模。
A股唯一正宗标的:$东阳光(SH600673)$ 液冷氟化液: 3月1日,公司与中际旭创成立合资公司进军液冷。早期公司已具备产业链基础(铝冷板、氟化液)。通过配套其它核心部件,公司将成为拥有一体化产业链的解决方案商。中际旭创跟英伟达的业务关系,不用再说。
以下为全文:
专家深入解析了英伟达最新液冷服务器(NVLink)的技术特点与制造工艺,将服务器比喻为大衣柜,内部通过抽屉状托盘与冷板系统区分组件。B200与B300代产品在冷却方案上有所差异,B200采用大冷板设计,B300每块芯片配备独立液冷板,显著提升了散热效率。l供应方面,大冷板由AVC、双红和cood master等供应商提供。展望未来,液冷系统复杂度与成本料将进一步增加,特别是纯浸没式冷却方案的应用将对数据中心布局产生深远影响。此外,液冷技术在ASIC卡等其他领域亦展现出应用潜力,成本考量成为关键因素。对于投资者,建议紧密追踪NVIDIA及其液冷技术的发展动态。
回顾问:B200服务器托盘中的大冷板方案是如何设计的?答:在B200中,服务器托盘采用了大冷板方案,其中每个服务器托盘会贴上一块大冷板,这块大冷板覆盖一块CPU和两块GPU。因此,18个服务器托盘总计包含36块大冷板。同时,九个switch托盘每两个 ASIC 卡共用一块大冷板,但与GPU和CPU的大冷板不同,这些冷板数量较少。
问:大冷板的主要供应商有哪些?答:大冷板的主要供应商是AVC、双红以及good master这三家台企。
问:B200每张大冷板的单体价值量是多少?答:每张用于GPU和CPU的大冷板在B200中的单体价值量大致是650美金。
问:B300服务器托盘中的液冷板数量及其供应商情况如何?答:B300服务器托盘中,由于发热量提升至1.4千瓦,每块芯片都有独立的一块液冷板,所以CPU和GPU的液冷板总数分别是36张和72张,总计108张。相较于B200,B300液冷板数量大幅度增加,且主要由库伦master和AVC供应,其中库伦master在B300上的供应量占据60%以上,而双红的市场份额显著减少。
问:B300的液冷板和相关配件(如快速插头、软管)的价值量有何变化?答:在B300维度上,液冷板的数量增加到117张,单体价值量降低至240美金。此外,由于每块液冷板都有独立的进出水管路,导致管路和快速插头的数量大幅增加,快速插头的数量从B200的126个翻番至270个,单体价值也从45美金提升至55美金。同时,尽管软管单体价值便宜,但在B300中的价值量会提升到约2000美金左右,整体价值量相比B200有明显增长。
问:在B300中,液冷板是如何集成和分发的?答:在B300时,库拉master或ABC等厂商会先做一个小的集成。他们会连接液冷板上的裸露进水口和回水口,并将软管与快接头相连,完成整体密闭性测试后,将这个小集成的液冷板作为模组提供给广达和鸿海进行最后封装。
问:B300中液冷板和快插头供应商发生了哪些变化?答:在B300中,液冷板的供应商包括库伦marter自身生产的液冷板、英维克的液冷板以及穿环的液冷板等。而快插头方面,D200时代主要由欧美企业如CPC、小比尔及Parker提供标准的UQD03、UQD04方案,但在B300升级到了NVUQD03方案,此时主要供应商变为库拉master、ABC、利敏达、富士达四家。
问:分集水器在B200和B300中的变化情况如何?答:整体来看,B200和B300中分集水器的价值量基本在28000到3万之间,虽然不是特别大,但四家厂商——库尔master、ABC、台达和富士康,在柜内冷这一侧的变化不是特别明显。而在柜外冷方面,CDU的变化较大。
问:对于下一代Rubin技术方案,其散热方式有何不同?答:下一代Rubin技术方案中,采用的是冷板加浸没式液冷方案。在45U或47U的机柜内,仍分布有switch tree和computer tree以及托盘结构,但所有托盘会做成密闭壳体,类似鱼缸。GPU上会贴附液冷板进行散热,同时,机柜内部形成一进一回的两个回路:一是通过微通道冷板换热,二是氟化液在密闭壳体内循环带走热量,从而构成第二个回路。这种设计使得服务器托盘拥有两套独立的回路,而EB的服务器托盘中使用的冷却介质为电子氟化液,相较于B300的丙二醇,用量将大幅提升,一个机柜可达到上千升的规模。
问:在新的方案中,为什么CPU散热不再需要快速插头,而GPU仍需要液冷板?明年的RUIN变化中,关于液冷部分的主要变化有哪些?答:因为新的方案中,CPU散热直接通过浸泡在氟化液中实现,所以不再需要快速插头。但GPU部分由于288或144张GPU仍需要液冷板进行散热,因此液冷板的价值量会因使用数量的增加而提升。主要变化包括快插数量减少,整体氟化液用量大幅提升。CPU不再需要液冷板,但GPU部分依然需要,并且液冷板的价值量会增加。
问:厂商导入新方案的时间周期大概需要多久?答:对于明年下半年要上量的产品,导入测试和配合工作已经在进行中,预计在GTC大会之前,即2026年四月份以前完成。
问:当前整体板子(包括组件和集成率)的毛利率情况如何?答:整体板子的毛利率大致能维持在40%,而专注于液冷板和快插部分的毛利率可能在30%到35%之间,主要利润空间在CDU部分,其毛利率大约在50%到55%。
问:Ruby方案后是否还有升级可能性,以及全用七模式与液冷板加固化液组合的效果提升幅度?答:Ruby方案目前是冷板加浸没方案,同时也在研发整体浸没模式方案,两者会从成本和性能提升角度进行综合考量来决定最终采用方案。目前浸没加冷版方案优势更明显,但如果单柜功率密度继续提高,可能需要考虑采用纯金默方式以实现更好的换热效果和更高的功率承载能力。
问:纯浸没方案相较于冷板加进墨方案的优势体现在哪里?答:纯浸没方案对于机房布局影响较小,更易于部署,且随着功率密度增大,支持更高密度,单柜容量可迭代至700-800千瓦,并且只需一套CPU即可实现换热,降低了对赛卡成本的需求。而冷板加浸没方案需要两组CPU分别处理不同介质,增加了成本。因此,随着技术迭代和功率需求增加,未来可能更多采用纯浸没方案。
问:从前期投资和后期使用成本角度看,哪种方案更为经济?答:前期投资来看,纯新模式的投资比例低于冷板加浸没方案,但从后期使用成本考虑,由于纯净模式需要定期更换氟化液,这将增加后期使用成本。
问:电子氟化液的价格大概是多少?答:电子氟化液每升的价格大约在400到450人民币之间,相比乙二醇和丙二醇溶剂的价格翻了至少三倍以上。
问:对于 ASIC 卡和英伟达卡的使用情况,谷歌和Meta有什么规划?答:谷歌和Meta都在购买大量英伟达卡的同时自研ASIC卡,并且两者都会继续采用。在短期内,他们不会完全弃用英伟达的卡,即使在26年规划中也会大量应用英伟达卡。而从长远来看,ASIC卡和英伟达高性能算力的应用比例可能会接近一半对一半。
问:在冷板液冷方面,Meta将如何选择和应用?答:Meta在未来的规划中,针对不同的应用场景会坚持使用冷板液冷。如果算力需求不高或者对紧密度要求不那么高时,部分场景可能会采用风冷方式。对于高功率密度需求,冷板液冷仍然是性价比较高的解决方案,预计未来将坚持使用冷板,并且随着技术发展,可能会逐渐转向更先进的冷板技术如冷板加浸没或纯浸没式液冷方案。
问:随着新技术的发展,供应链格局会有怎样的变化?答:若未来采用冷板加静默等新型液冷技术,可能会将更多价值转移到液冷设备供应商身上,例如设备供应商(如Verty、泰达等)。芯片初步组装后,可能会由液冷厂家负责封装和密封性封装,形成独立的组装环节,这将催生新的供应商出现,并改变原有供应链流程。
问:相变冷板技术目前的渗透率及应用现状如何?答:相变冷板技术目前在英伟达的产品线中并未得到广泛应用,其应用场景主要局限于北美几家CST厂商自研服务器的定制化算力卡领域,但渗透率极低,可能连1%都不到。相变冷板之前被认为是解决高功率需求的一个潜在方案,但英伟达产品的实际功率并未达到预期水平,因此采用单向冷板技术。