从TPU和GPU之争说起Rubin架构800VDC的进展

用户头像
一江烟雨倾城
 · 上海  

目前来看,TPU在单位总成本同样的情况下,性能表现是优于GPU的,Ironwood相对于Blackwell存在着一定优势。

但是由于Google内部希望把利润留在公司,所以在和博通合作设计下一代 TPU v8时,包括带宽等性能全面大幅度落后于Vera Rubin。如此考虑到英伟达为了维护自己在市场的领导地位,可能会提速Rubin进入市场的节奏。这是对下一代Rubin核心供应商的关键催化,但同时对整体供应链能否保证出货增加了不确定性。

在电源方面,Rubin是肯定要进入800 VDC架构的,甚至按照原先的路线,在GB300的出货的最后四分之一周期就会开始用800 VDC的供电方案。

这对于英伟达的电源供应商的压力其实不小,因为从Hopper到Blackwell,再到Rubin,伴随着电源价值量的上升(台达和光宝预计2025年AI Power合计收入高达300亿人民币左右)的同时,整个电源技术迭代升级也是飞跃式的。从Hopper的3.3kw电源的价值量低到无人关注,到Blackwell的5.5kw PSU,整柜功率也到了120kw以上,当单柜超过50kw,整个机柜的电源和热管理就上升到一个新的难度级别。

再到Rubin的Kyber机架,直接到了mw级别,因此英伟达专门联合整个电源供应链编写了《800 VDC Architecture for Next-Generation AI Infrastucture 》,伴随着Rubin出货,也宣告了数据中心电源系统即将正式进入到了800 VDC时代。

如图所示,《白皮书》划分了数据中心电源架构的过去、现在和未来。800 VDC现阶段的方案就是以Power Rack为供电核心,GB300周期可能还可以使用UPS作为备电,但是到了Rubin,考虑到整个Rubin的功率对备电的考验,就是从UPS往BESS转换的过程,UPS的备电方案无法满足800 VDC时代超级数据中心的负载波动。而机柜侧的BBU和PCS也是为了应对负载波动。

白皮书提到:100ms以下,电解电容是理想解决方案,对于100ms - 10s之间,有多种解决方案,>10s电池是更好的解决方案。

而图片中长短时结合的储能系统(BESS)可以通过快速实时功率补偿,实现用电负荷稳定、功率变化率控制及大幅阶跃波动缓解。这和大家熟悉的传统储能方案的设计和用途都是不一样的。

从电源供应商的角度,Blackwell使用的电源产品主要是33kw Powershelf(ACDC)、16.5kw BBU shelf和15kw PCS;

到了Rubin时代升级为 AC to 800 VDC(Megmeet是144kw 2RU,Delta是106kw 2RU)、90kw Power Shelf(DCDC)(Delta是108kw)、40kw BBU Shelf(30kw)、40kw PCS(25kw)、High-Voltage Bus Converter(800 VDC to 50VDC)(Delta 12kw PDB)。

整个Rubin架构从英伟达的白皮书和供应链的产品研发都已经宣告了即将进入到800 VDC的时代,电源供应链目前观察已经完成从过去400 VAC to 50 VDC到 400 VAC to 800 VDC to 50 VDC的全线产品升级。目前看来这个升级对于后续50 VDC到芯片的供电方案是没有变化的。

预期差最大的环节就是Power Rack的方案,再来看看2025 OCP Global Summit上的核心供应商的产品展示:

台达的Power Rack是将PDU、BBU、PCS和Power shelf (800V ACDC 26.5kw*4=106kw 2RU;800V to 50V DCDC 6*18kw=108kw 1OU)集成在Power Rack里(除DCDC Power shelf)。

而光宝的Rack虽然功率到了1.2MW,但是只集成了PDU(14RU)和Power shelves(800V ACDC 25kw*4=100kw 2RU;800V to 50V DCDC 4*22.5kw=90kw 1RU)。这里可以看到光宝方案的ACDC Power Shelf 是有3+1的冗余的。

这是麦格米特的Power Rack方案,也是集成了PDU、BBU(40kw 1RU)、PCS(40kw 1RU)和Powershelf(800V ACDC 36kw*4=144kw 2RU;800V to 50V DCDC 6*15kw=90kw 1RU(DCDC Shelf在 IT Rack))。

由此可见,Rubin的800 VDC方案就是以Power Rack(Sidecar)为核心,此方案可以直接在现有数据中心的基础上进行升级,目前来看该方案所需要用到的电源产品就是前面提到的Power Rack(Sidecar)中的PDU(AC和DC),BBU,PCS以及用来将400 VAC升压到800 VDC的ACDC Power Shelf,另外还有在 IT Rack里将800 VDC降压到50 VDC的DCDC Power Shelf。

因此之前的Power Shelf上限是2N,那么800 VDC的Power Shelf下限将是2N。

考虑到Rubin可能提前出货,目前800 VDC Power Rack(Sidecar)方案相关的所有产品核心电源供应商都已经在行业展会展示或官网发布,但是并没有任何SST方案相关产品的出现,所以SST方案至少目前来看还遥遥无期,全都是某些卖方的意淫。

通过对《白皮书》的深入研究,英伟达针对于800 VDC架构专门编写是存在足够的理由的,如果说Blackwell时代的电源还是CSP能独自解决的方案,那么Rubin时代的800 VDC是系统性工程,需要深入到整个数据中心的建设中,甚至需要依靠国家机器去协调解决。

Vera Rubin 的NVL 144可能四大CSP还能用,但是到了NVL 576就不是单一CSP能负担的,大概率是要为主权AI服务了,所以从英伟达的800 VDC看到的不仅仅是开启800 VDC的时代,更是下一阶段主权AI替代现有CSP走到AI基建台前的大幕缓缓拉开的序章。

$麦格米特(SZ002851)$