用户头像
BILL088
 · 江苏  

$光迅科技(SZ002281)$ $华工科技(SZ000988)$ $中际旭创(SZ300308)$
阿里磐久超节点及其供应链

一、GPU数量

阿里的这个磐久超节点,是采用两个64个GPU超节点的方式,每个计算节点上有4颗阿里的自研GPU,因此上下各有16个计算节点,总共是16 x 4(4颗GPU) x 2(上下) = 128个GPU。其中64个GPU是一组的scale up。
华为的CM384是包括384颗昇腾910C,英伟达的GB200/GB300 NVL72,是包含72颗GPU。

二、互联

英伟达的NVL72中,采用的CabelTray的互联方式,即Compute tray和Switch Tray是通过线缆进行连接,走的是NVLink的私有协议。华为的CM384中,由于是采用了多个Rack作为一个超节点,昇腾服务器和交换机之间也是通过线缆进行互联。
阿里的超节点采用的是无背板的正交互联,计算节点在前面,都是横着放的,Switch节点在后面,是竖着放的。
他们都是直接插在一起的,中间并没有通过PCB。
这种方式的优点显而易见,没有了“中间商”,信号传输的损耗会小很多。

三、电和光

在英伟达的NVL72里面的scale up,都是使用的铜来连接,这些我们之前的文章都分析过,用光的话,成本和功耗都会增加非常多。
华为的CM384里面,采用的是全光互联,但这里的光互联,其实指的也是第一层的UB Switch和第二层UB Switch之间是光互联。如果只算scale up,CM384中,NPU:光模块=1:14,如果再加上scale out,那么一个CM384中,就需要6912个400G的光模块,所以功耗和成本都居高不下。在NPU和第一层UB Switch,CPU和第一层UB Switch之间的互联,也都是电互联。
在阿里的超节点中,一组64个GPU内部是scale up,采用的是电互联,有的是PCB直接连接,有的是铜缆,这一层并没有光。
在连接两个ALink Switch之间,使用了光互联,但目前还不清楚光的用量是多少。

四、参数对比

在所有参数中,大家最关心的是算力,但阿里目前并没有给出算力参数。下面这个图是SemiAnalysis给出的英伟达GB200 NVL72和华为昇腾CM384的参数对比。
目前阿里给出的参数其实不多,我们列举一下:
内置 CIPU 2.0 + EIC/MOC 网卡,Scale-Up 带宽 Pb/s 级,延迟百 ns,存储网 800 Gbps,GPU 直联 6.4 Tbps。
关于功耗,并没有查到阿里的官网参数,但有报告中给出的是超过300kW,CM384是559kW,GB200 NVL72是145kW。

五、生态兼容性

按照阿里官方的描述,说是可以兼容多家GPU/ASIC,但前提是要支持ALink协议。这一点是比较难的,目前国内外的大厂们,都不想去兼容别家的私有协议。
而阿里的GPU是可以兼容cuda的,在目前这个阶段,算是一个不错的优势。

六、GPU和CPU的互联

华为CM384的GPU和CPU互联可以参考我们上面给出的图,GPU和CPU都连到了UB Switch上。
英伟达的Bianc板卡中,GB200和Grace CPU是通过NVLink-C2C互联。
英伟达和华为的方案中,GPU/NPU都是和CPU在一起的,而阿里的方案中,GPU和CPU是两个独立计算节点,中间通过PCIe进行互联的。

七、阿里的服务器供应链

结合业内的一些信息,讲一下大家最关心的供应链,仅供大家参考,不构成投资建议。
1、AI及通用服务器集成:
浪潮占据 33% - 35% 的份额;华勤的份额为 23%;另有企业并列第三,所占份额为 18%。若单看通用服务器细分领域,浪潮的份额为 30%,中兴通讯占比 27%,华勤以 18% 的份额紧随其后,新华三则占据 15% 的市场份额。从合作动态来看,阿里今年的相关招标工作已全部完成,市场份额的变动预计要到明年年中才会显现。中兴通讯设定了明确目标,计划从浪潮手中夺取市场份额第一的位置。
2、液冷:
高澜和英维克是主要参与者,其中高澜占据 30% 的份额,英维克的份额区间在 30% - 40%;申菱环境的市场份额处于 20% - 30% 之间;剩余的市场份额则由其他企业瓜分。在企业动态方面,科华数据刚刚成功进入液冷白名单,按照发展预期,到 2026 年其在液冷领域的业务规模有望快速扩大,这一增长态势可能会对目前占据头部位置的三家企业(高澜、英维克、申菱环境)的市场份额产生稀释作用。
3、光模块: 华工科技是阿里云光模块业务的核心供应商,其在该合作中的份额超过 25% - 30%;光迅科技在阿里云 400G 光模块市场中表现突出,市占率位居第一,达到 30% - 40%,同时,其 800G 光模块已实现批量供货,并且与阿里云采用 “联合开发”(JDM)的模式开展合作;中际旭创航锦科技及其他企业则占据了剩余的市场份额。
4、PCB: 从技术与价值层面来看,超节点主板的层数已提升至 24 - 30 层,其中超低损耗材料的占比超过 60%,这一技术升级使得单卡 PCB 的价值量从原先的 900 元上升至 1900 元。在企业竞争方面,沪电股份是阿里云服务器主板及加速卡的主力供应商,2024 年其 AI 服务器 PCB 业务收入占比已提升至 35%,随着磐久 128 产品的放量,沪电股份的产品结构有望得到进一步优化,且其高端板的毛利率超过 35%,显著高于传统通信板的毛利率水平。深南电路与沪电股份在订单方面存在共享情况,二者在相关市场的供给份额合计超过 50% - 60%;剩余的市场供给则由国内其他几家主流 PCB 厂商承担。
5、服务器电源: 当前,中恒电气欧陆通是该领域的核心电源设备供应商,二者的产品几乎覆盖了当下服务器电源的主要供应量。在合作方面,它们为阿里云数据中心提供高效的供电系统,同时也供应应用于磐久服务器的浸没式液冷集中式供电电源。近期市场动态显示,科华数据刚刚进入阿里 UPS 白名单,从发展趋势来看,科华数据后续有望成为阿里服务器电源领域的第三大供应商,目前科华已经在腾讯服务器电源中占了比较大的份额,后续看他们如何争取在阿里的份额了。

图片

图片

图片

图片

图片