被市场轻视的灵衢总线

用户头像
林三岁七七
 · 广东  

周四H的发布会,市场关注点在于昇腾路标、在于超节点的规模。很明确的一点:由于长期工艺制程落后,无法在单卡上匹敌算力,必须要在集群算力对标上努力。利用国内更充沛的电力供应、更迅速划算的基建、相对没有算力落后的甚至部分领先的通信技术(如果不考虑工艺限制导致的224G Serdes进度落后),去弥补工艺制程上的差距。

集群算力对标,需要解决的问题是集群内部的高速通信,不论是scale up还是scale out域。scale up域由于是各家XPU定制,有很多协议版本,比如NVLINK、UALINK、SUE、ETH-X等,而H使用的是发布的UB(灵衢总线),能力强的走自定义,讲求兼容性的就魔改以太。scale out方面,可以将各个scale up域(狭义超节点)互联起来,讲求更多的兼容性,有IB、UEC、RoCE、ETH+等,H使用的还是灵衢UB,和以太互通时使用UBoE。

讲到这里,要先重新看一下超节点的定义。简单理解,超节点被认为是可以当作一张卡的计算节点,为了实现多卡如一张卡,则必须要在通信上做到大带宽、低时延、高可靠(如片上总线一样)。除了H之外,市面上的超节点定义都是一个柜内最多2个柜间。这是为什么?实际上是因为高可靠这个要求。众所周知,NV说能用铜时尽量用铜,背后代表的是铜比光搞2~3个数量级的可靠性(链路闪断概率)。铜的通信上限就是两个柜了(即使用上AEC)。而H通过灵衢总线搞定了光路的高可靠性(当然还有大带宽和低延时),提升了光路100倍可靠性,达到铜的能力,是业界首次实现这一特性。这才是超大规模超节点能发布的最关键的一点,是H家人无我有的特性。

灵衢总线如何搞定光路可靠性?根据发布会的消息和《超节点发展报告》中的内容,主要是两点:一是光模块散热提升1倍可靠性(温度越高,激光器可靠性越差),那还有50倍呢?来源于通信备份、瞬时链路故障检测、包级分发控制,而这一切要归功于H领先的交换机技术(目前地表唯一能抗衡博通的)。因此,灵衢交换机、光模块散热才是实现柜间组网(即全光联接)超节点的关键所在。(当然柜内还是尽量用背板或者铜缆。)

灵衢总线还有一个好处是对等通信,也是H家人无我有的,业界首次实现CPU去中心化,或者叫全域资源池化,在白皮书里有详细解释,篇幅关系就不详细说了。

综上,灵衢总线作为H家领先通信技术的解决方案,以其高可靠、对等通信为最为突出的两大特点,把超大规模超节点的实现变成可能。利好H链上的交换机、光模块(含散热)、电互联、液冷、电源等。

预期差最大的:

菲菱科思 H交换机代工,从园区交换机已逐步升级到数据中心交换机,预期差后续参与灵衢交换机代工。(尤其考虑灵衢开源后,OTT对于白牌代工的需求。)

富信科技 H光模块散热Micro TEC供应。

电互联方面还是老面孔: 华丰科技意华股份

参考资料:

灵衢社区官网

《基于灵衢的 超节点参考架构白皮书》

《超节点发展报告》