XPO?

用户头像
春秋几何对酒当歌
 · 北京  

今天早上被大洋彼岸的XPO刷了一下屏,以为出来个什么新的东西了,结果就是推出来个12.8T的大号光模块箱子,号称“光互连行业的 “叙事拐点””,“宣称可插拔路线的生命周期被大幅延长、CPO 替代逻辑被颠覆”,简直是笑掉了大牙。此为熊文:

一 、Arista是谁?

文中极尽吹捧的Arista是谁?我觉得可以把他理解为家里的TP-Link——一家交换机整机厂商,却被无限夸大其在光互连产业链的话语权,优化包装成 “行业标准重构”,完全忽视了其核心业务的底层约束。光模块的电气接口、功耗预算、信号完整性规范,根本上由高端交换芯片与光电 DSP 芯片决定,而非交换机整机厂商。Arista 自成立以来,其核心的高端数据中心交换机芯片 100% 依赖 Broadcom 的 Tomahawk 系列,无任何自研的 51.2T 及以上高端交换芯片能力,甚至连主流的光电 DSP 都没有布局。脱离了交换芯片与 DSP 的底层定义权,Arista 对 XPO 的所有设计,本质上只是 “外壳形态与散热方案的局部优化”,无法触及光互连的底层技术架构。它既不能决定交换芯片的通道数与电气参数,也不能主导 DSP 的性能迭代,根本不具备定义下一代光互连标准的核心能力。Arista 在全球以太网交换机市场的份额常年不足 10%,远低于思科、华为;在 AI 交换机领域,其也面临白牌交换机的持续冲击,无法代表 AWS、Azure、MetaGoogle 等占据全球 80% 以上 AI 基础设施开支的头部云厂商的技术路线选择。该文提及的 “超过 40 家公司的 MSA 支持”,既无核心交换芯片厂商(Broadcom)、头部云厂商、主流 DSP 厂商的创始成员背书,也未披露具体厂商名单,本质上是一个松散的产业联盟,而非具备产业链主导权的标准组织。Arista 推动 XPO 的本质,是通过差异化的可插拔形态,规避自身在芯片封装、底层架构上的短板,抢占细分市场,而非为行业定义最优技术路线。将厂商的商业竞争行为包装成 “行业拐点”,是对产业逻辑的根本误解。

二、12.8T XPO 光模块无法突破的物理硬伤

文中刻意放大了 12.8T XPO 的带宽与密度指标,却完全回避了该方案在商用落地中无法解决的物理极限与工程灾难。该文宣称 XPO 支持单模块最高 400W 冷板散热,却忽视了可插拔形态与液冷管路的天然矛盾。商用数据中心对液冷的核心要求,是 “运维安全与故障隔离”,而 XPO 将液冷管路集成到可插拔模块上,意味着每一次模块更换都需要断开、重连液冷接头,带来三大不可逆的风险:

1、 漏液风险指数级上升:单模块液冷接头的密封失效,会直接导致冷却液泄漏至交换机主板,造成整个机架的设备烧毁,对于动辄数万机柜的 AI 集群而言,这种单点故障可能引发亿级的业务损失,是头部云厂商绝对无法接受的;

2、 散热密度突破物理极限:400W 功耗在 XPO 的小型化模块内,局部热流密度将突破 250W/cm²,远超当前商用冷板散热的工程上限(200W/cm²)。光器件的核心工作温度上限为 85℃,超过该温度会导致激光器波长漂移、信噪比骤降、使用寿命缩短 50% 以上,根本无法满足 7×24 小时的商用要求;

3、运维成本彻底失控:液冷可插拔模块的更换,需要专业运维人员操作,停机时间远超传统可插拔模块,完全违背了可插拔形态 “快速维护、降低停机损失” 的核心优势。

另外,可插拔形态的核心瓶颈,从来不是带宽堆叠,而是高速电信号的传输损耗。12.8T XPO 需要 64 路 200G/lane 的高速电信号,从交换芯片通过 PCB 走线、连接器传输至模块内的 DSP,而传统可插拔模块的电气通道长度超过 5 英寸,200G/lane 信号在 PCB 上的传输损耗每英寸超过 3dB,信号完整性根本无法保证。为了弥补损耗,必须在链路中额外增加重定时器(Retimer),每一路 Retimer 将带来额外的功耗增量,最终单模块的实际功耗将突破 450W,远超该文宣称的 400W。与之相对,CPO 方案将光引擎与交换芯片封装在同一基板上,电气通道长度从英寸级缩短至亚微米级,链路损耗降低 90% 以上,相同带宽下功耗直接降低 50%,这是可插拔形态无论如何优化都无法逾越的物理定律。

文中提到 XPO 实现 204.8Tbps/OCP rack unit 的前面板密度,却回避了对应的供电与制冷要求。单 RU 204.8T 的带宽,对应单 RU 功耗超过 6400W,整机柜功耗将突破 50kW。不知道这个机柜的供电跟不跟得上啊!

三、对CPO的故意误读

文中提到“ CPO 为 “彻底不可维护、封闭的极端封装方案”,用早期的 CPO 概念否定当前成熟的技术路线,是典型的稻草人谬误。

功耗与密度的降维打击。CPO(共封装光学)的核心逻辑,是从底层重构光互连架构,将光引擎与交换芯片封装在同一基板上,从根本上解决高速电信号的长距离传输损耗问题。根据 OIF(光互联论坛)官方数据,相同带宽下,CPO 方案的功耗比传统可插拔模块低 40%-60%,带宽密度提升 3-5 倍。以 51.2T 交换芯片为例,采用可插拔方案需要 32 个 1.6T OSFP 模块,总功耗超过 1200W;而采用 CPO 方案,仅需 8 个可插拔光引擎,总功耗不到 500W,差距是数量级的。在 AI 集群带宽需求每 12 个月翻倍的背景下,功耗已经成为制约集群规模的核心瓶颈,CPO 的低功耗优势,是可插拔路线永远无法替代的核心竞争力。至于是否属于“遥远的未来概念”,那是看不见英伟达博通的交换机都发布了吗?还是一厢情愿英伟达?CPO的不可维护性就更搞笑了,如果一个东西故障率非常低,那还需要维护吗?相反,这个可插拔是方便维护了,为什么要维护,不就是故障率高吗?

技术发展史反复证明:旧技术即便持续线性迭代,只要底层架构的核心方向出现错误,最终必然被底层重构的新技术彻底替代,最典型的案例就是诺基亚塞班功能机被 iOS / 安卓智能手机全面替代。2007 年第一代 iPhone 发布后,诺基亚并未停止塞班系统的迭代,反而持续进行硬件堆料与功能优化:从塞班 S60 V3 升级到 V5,新增了触摸屏、3G 网络、高分辨率屏幕、高像素摄像头、多任务处理,推出了 N97 等旗舰机型,硬件参数持续对标 iPhone,就像当前可插拔模块从 1.6T 到 3.2T、再到 12.8T XPO 的带宽堆叠。但塞班系统的底层逻辑,是围绕 “键盘操作 + 功能机场景” 设计的,即便新增触摸屏,也无法适配移动互联网时代 “触控交互、海量应用、全场景联网” 的核心需求,所有的升级都只是在旧架构上的线性优化,没有触及底层架构的重构。这与可插拔路线完全一致:无论怎么堆叠带宽、增加液冷,都无法突破 “长距离电互连的损耗与功耗” 的底层物理极限,核心方向从一开始就已偏离最优解。即便诺基亚在塞班系统上投入了百亿级的研发费用,持续推出硬件升级的机型,也无法挽回市场份额的持续下滑。2013 年诺基亚手机业务被微软收购,塞班系统彻底退出主流市场。回到光互连行业,XPO 本质上就是可插拔路线在生命周期末期的 “线性升级补丁”,它无法突破底层架构的物理极限,也无法逆转 CPO 成为主流的产业趋势。可插拔路线会在中低速场景长期存在,但在 AI 数据中心的高端高速场景,其被 CPO 替代的终局不会发生任何改变。$罗博特科(SZ300757)$