AI 大模型集群实际上涉及三个独立网络,包括 Scale-Up、Backend 和 Frontend 网络。UEC 联盟(UltraEthernet Consortium)将这三个网络分别命名为 Type 3、Type 2 和 Type 1 网络。
Type 3:Local(Scale-Up)网络
Scale-Up 是机内互连网络。Nvidia H100 使用 NVLink协 议, 支 持 8P 互 连, 带 宽 为 900 GBps/GPU;G200 支持 72P 互 连, 未 来 NVLink 域有望扩大为 576P 互 连。AMD 的 8P 互连使用 Infinity Fabric 协议。有公开消息称,Broadcom的144L Switch支持AMD的Scale-Up互连标准,该交换机使用 112G 速率的 Atlas 4 芯。理论上 Scale-Up 网络也可以扩展,使用交换机和光模块实现 256P 甚至更多处理器的互连。但在当前各大厂家的实际组网案例中,Scale–Up 网络都使用机框内总线,背板上部署电缆,扩展范围不出机框。最常见的是 8P 小机箱,也有像 AWS 使用 NVL32 机框的情况。由于整个机框内使用电缆互连,虽然带宽挺大,但是成本并不高。
Type 2:Backend(Scale-Out)网络
目前大多数 Scale-Up 网络的互连范围并不大。但随着模型规模的增加,现在的 AI 训练业务所要求的计算集群规模已经扩展到万卡甚至十万卡。例如,GPT-4 整个训练集群的规模达到了 25K A100。因此,还是需要将更多的计算卡链接起来。在当前的组网方案中,这张大规模互连的网络叫做参数面网络,对应 Backend 网络(即 UEC 定义的 Type 2 网络)。该网络与 Type 3 网络配合,共同承担AI 训练任务。在单一任务下,二者之间的带宽和规模有一定关系。Google 给出了二者之间的定量关系 [2],指出如Type 3 的规模越大,Type 2 所需的带宽就越小。Nvidia 是通过 CX7 网 卡(Network Interface Card,NIC), 出 400G IB(InfiniBand) 接 口, 外 面 再 用 三 级IB 组成一个大网。华为昇腾 910B 芯片是直接出RoCEv2(RDMA over Converged Ethernet v2)接口,不需要外接 NIC,这样成本更低。外面用三级以太网交换机构成一个大网。华为提供的网络方案包括框框方案、框盒方案和盒盒方案,适配不同的应用场景。
Type 1:Frontend 网络(DCN 网络)
还有一个 Frontend 网 络, 它 的 用 途 是 样 本 面, 用于 上 载 训 练 样 本 文 件; 或 者 用 于 连 接 存 储 系 统, 包 括Checkpoint 存 储 等。 对 于 OTT(Over-the-Top) 客 户,还有 VPC(Virtual Private Cloud,虚拟私有云)多租户网络,该网络与传统上基于 VXLAN(Virtual Extensible Local Area Network,虚拟扩展局域网)的 DCN 网 络(Data Communication Network,数据通信网)是同一套网络。
DCN 网络的交换互连是通过挂接 DPU(DataProcessing Unit, 数 据 处 理 单 元) 实 现 的。DPU 的好处在于,每家公司可以适配自己的DCQCN(Data Center Quantized Congestion Notification,数据中心量化拥塞通知)或其他拥塞控制算法。同时,VXLAN 网络、VPC 多租户隔离、安全加密措施等也在 DPU 上实现