
如果置身于一个规划容纳数十万张加速卡的超大规模智算园区,人们会对“云端算力”这个词产生一种全新的认知。
在这个由数以万计机柜堆叠而成的算力集群中,设备之间的物理互联跨度可能长达数公里。
这种大规模算力集群不仅消耗着相当于一座中型城市的电力,还面临着一个更为具体且棘手的工程难题,如何在有限的物理空间内,塞进海量的连接线缆,并确保数据在如此长距离的传输中实现微秒级的同步。
在传统的认知中,数据中心是算力的容器,但在这种超大规模的集群里,物理层的“连接”或许正在成为制约效率的天花板。
当加速卡的数量从一千张增加到十万张甚至几十万张时,布线的复杂度并不是线性增长,而是指数级爆发。同时面对AI智算中心单机柜功耗的不断上升,高密度布线解决方案在Scale-out和Scale-up中将起到积极的作用。
除此之外,当一个大模型需要调用成千上万张加速卡进行训练时,决定运算效率的,就不仅仅是单张加速卡的性能,同时也包