被市场轻视的灵衢总线

林三岁七七

2025-09-20 20:15 · 广东

周四H的发布会，市场关注点在于昇腾路标、在于超节点的规模。很明确的一点：由于长期工艺制程落后，无法在单卡上匹敌算力，必须要在集群算力对标上努力。利用国内更充沛的电力供应、更迅速划算的基建、相对没有算力落后的甚至部分领先的通信技术（如果不考虑工艺限制导致的224G Serdes进度落后），去弥补工艺制程上的差距。

集群算力对标，需要解决的问题是集群内部的高速通信，不论是scale up还是scale out域。scale up域由于是各家XPU定制，有很多协议版本，比如NVLINK、UALINK、SUE、ETH-X等，而H使用的是发布的UB（灵衢总线），能力强的走自定义，讲求兼容性的就魔改以太。scale out方面，可以将各个scale up域（狭义超节点）互联起来，讲求更多的兼容性，有IB、UEC、RoCE、ETH+等，H使用的还是灵衢UB，和以太互通时使用UBoE。

讲到这里，要先重新看一下超节点的定义。简单理解，超节点被认为是可以当作一张卡的计算节点，为了实现多卡如一张卡，则必须要在通信上做到大带宽、低时延、高可靠（如片上总线一样）。除了H之外，市面上的超节点定义都是一个柜内最多2个柜间。这是为什么？实际上是因为高可靠这个要求。众所周知，NV说能用铜时尽量用铜，背后代表的是铜比光搞2～3个数量级的可靠性（链路闪断概率）。铜的通信上限就是两个柜了（即使用上AEC）。而H通过灵衢总线搞定了光路的高可靠性（当然还有大带宽和低延时），提升了光路100倍可靠性，达到铜的能力，是业界首次实现这一特性。这才是超大规模超节点能发布的最关键的一点，是H家人无我有的特性。

灵衢总线如何搞定光路可靠性？根据发布会的消息和《超节点发展报告》中的内容，主要是两点：一是光模块散热提升1倍可靠性（温度越高，激光器可靠性越差），那还有50倍呢？来源于通信备份、瞬时链路故障检测、包级分发控制，而这一切要归功于H领先的交换机技术（目前地表唯一能抗衡博通的）。因此，灵衢交换机、光模块散热才是实现柜间组网（即全光联接）超节点的关键所在。（当然柜内还是尽量用背板或者铜缆。）

灵衢总线还有一个好处是对等通信，也是H家人无我有的，业界首次实现CPU去中心化，或者叫全域资源池化，在白皮书里有详细解释，篇幅关系就不详细说了。

综上，灵衢总线作为H家领先通信技术的解决方案，以其高可靠、对等通信为最为突出的两大特点，把超大规模超节点的实现变成可能。利好H链上的交换机、光模块（含散热）、电互联、液冷、电源等。

预期差最大的：

菲菱科思 H交换机代工，从园区交换机已逐步升级到数据中心交换机，预期差后续参与灵衢交换机代工。（尤其考虑灵衢开源后，OTT对于白牌代工的需求。）

富信科技 H光模块散热Micro TEC供应。

电互联方面还是老面孔：华丰科技、意华股份等

参考资料：

灵衢社区官网

《基于灵衢的超节点参考架构白皮书》

《超节点发展报告》