$罗博特科(SZ300757)$
META对博通CPO交换机的实测,感觉各种数据效果很好啊!
ECOC 2025:Meta实测博通Bailly 51.2T CPO交换机,超百万小时可靠性验证支撑超大规模AI数据中心PIC Worker
光芯
2025年09月27日 08:02广东在2025年欧洲光通信会议(ECOC)上,Meta团队发布了题为《超大规模数据中心结构交换机的共封装光学技术评估》的研究成果,针对
Broadcom Bailly 51.2Tbps CPO交换机系统,从功耗、光学性能、链路可靠性等维度开展大规模实测验证,为共封装光学(CPO)技术在超大规模数据中心的部署提供关键技术支撑。
一、研究背景:数据中心网络的能效与带宽双重挑战
随着大语言模型(LLMs)和人工智能训练集群的爆炸式发展,数据中心网络面临双重压力:一方面,图形处理单元(GPU)节点数量与网络带宽同步增长,推动数据中心网络向“横向扩展+纵向扩展”模式演进,电力消耗显著攀升;另一方面,传统数据中心网络依赖可插拔光模块实现设备互联,存在电通道损耗大、集成度低的固有缺陷。
共封装光学(CPO)技术将光学IO与交换机芯片紧密集成,可减少电损耗、支持更高通道数,成为突破能效瓶颈的潜在解决方案。但该技术的可靠性、可用性与可服务性(RAS)尚未经大规模场景验证,这是本次研究的核心聚焦点。
二、系统概述:Bailly 51.2Tbps CPO交换机架构
Meta评估的Bailly CPO交换机基于Broadcom系统设计,具备51.2Tbps交换容量。硬件架构上,集成8个6.4Tbps硅光子光学引擎(OEs)至Tomahawk5交换基板,提供128个400Gbps FR4端口,采用标准单模光纤即可实现总交换容量51.2Tbps。
物理设计方面,CPO封装与交换机主板(SMB)直接互联,SMB承担供电与控制功能;整机集成于4U机架,前面板配备128个LC双工光纤连接器。特别设计可现场更换激光源(PLSs),每个PLS支持8个400Gbps端口,解决光模块核心故障点;激光器结温在最坏情况下低于50℃,远低于传统可插拔模块的约80℃,提升激光可靠性。散热通过后部8个风扇空冷实现,风扇转速由软件根据温度自动调节。
三、功耗评估:显著的能效优势
CPO技术通过光学与电子元件的紧密集成,减少ASIC与光学接口间的电通道损耗,实现功耗优化。Meta在40℃环境下,对15台CPO交换机(含120个OEs、240个PLSs)与传统可插拔光模块(48个2×400Gbps FR4模块)的功耗进行对比测试。
结果显示,CPO技术相比传统可插拔方案功耗降低65%(5.4W vs 15W),全配置系统可节省超500W。即便在40℃的应力温度条件下,OE芯片温度升高对功耗的影响可忽略不计,验证了CPO在高温环境下的功耗稳定性。
四、光学性能:符合行业标准规范
由于CPO将大量光学与电子元件集成共封装,其光发射机、接收机性能需与现有生态保持互操作性。Meta对关键光学指标开展严格测试:
在发射机侧,测试消光比ER、发射机TDECQ、光调制幅度OMA等指标,结果表明在标称温度(NT)和高温(HT)环境下,这些指标均满足400GBASE-FR4标准规范。图3(a)展示了随机选取的CPO设备2个端口的所有通道上,误码率(BER)与接收OMA的关系。测试选用一款400Gbps FR4可插拔光模块作为参考发射机,4个通道的TDECQ约为2dB,ER约为5dB。图3(b)展示了CPO设备512个通道在BER为2.4×10⁻⁴时的接收OMA灵敏度统计分布。需说明的是,所有通道的BER均低于5×10⁻⁸,性能一致性良好,充分验证了CPO与现有光模块生态的互操作性。
五、链路可靠性:超百万小时无故障验证
传统可插拔光模块故障可现场更换,但CPO
中光学部件不可现场更换,因此长期可靠性至关重要。Meta搭建大规模CPO交换机测试基础设施,在40℃应力环境下持续监测设备运行情况。图4(a)、(b)、(c)分别展示了随机选取的一台CPO设备的一个端口,在15天运行期间的每通道发射激光偏置电流、发射与接收功率,以及信噪比(SNR)数据。链路参数随时间变化的稳定性,是大规模减少链路故障的必要条件。
测试结果显示,在超过100万小时的400Gbps端口运行中,未出现不可纠正的码字(UCWs);75%的端口在运行105万小时后,最大非零前向纠错(FEC) bin小于7,实验期间仅出现1次FEC bin>10的情况。这一实测表明,光链路平均无故障时间(MTBF)的下限,足以支撑24k GPU AI集群实现>90%的训练效率,且不会因互联故障成为瓶颈,证明CPO技术可满足超大规模数据中心的长期可靠运行需求。
六、结论:CPO技术为超大规模数据中心赋能
随着交换机带宽代际提升,IO密度、功耗与散热挑战日益凸显。Meta在ECOC 2025发布的研究表明,共封装光学(CPO)技术凭借显著的功耗、带宽与延迟优势,成为超大规模数据中心的关键使能技术。
Broadcom Bailly 51.2Tbps CPO交换机在功耗上相比传统可插拔光模块降低65%;光学性能严格符合400GBASE-FR4行业标准,支持与现有生态无缝互操作;超百万小时无故障运行验证了其卓越的链路可靠性。综上,CPO技术为下一代超大规模数据中心网络的能效与性能突破提供了可行路径,有力支撑LLM训练、AI推理等超大规模算力场景的落地。