先介绍本人,首先我不是雪球某些大v靠吹票谋生的,因为看见太多不太专业和理性的声音唱空光模块,吹嘘某cpo的概念股票,我觉得还是有必要给某些散户科普一些专业的知识。我目前是台积电的先进封装方向的博后,虽然我不是光通信方向的,但我有问负责推进cpo交换机的同学,对cpo和光模块有一定的了解。
目前有一些大v认为cpo首先是替代scale up中的铜缆,这是绝对错误,cpo交换机目前主要的应用方向还是50m以内的scale out,等这个场景应用成熟后,会在2028年逐步进入scale up替代铜缆。因此,现在不管是博通和英伟达的cpo交换机,都是不会减少可插拔光模块和铜缆数量,3年后确实会取代铜缆,那么cpo交换机会取代光模块吗。答案是不会的,cpo交换机是一个全新的应用场景介于scale out和scale up之间,中长距离sclale out仍然会使用可插拔光模块,引用于lightcounting的报告:Our model configuration assumes 1,024-GPU row-size scale-up clusters interconnected with CPO. If each GPU has eight 3.2T NVLink ports, such a cluster would consume 16,384 of 3.2T CPO ports (or 3.2T-equivalent transceivers). If one million of these GPUs are interconnected into such clusters, it will require more than 15 million CPO ports. Please note that this calculation does not include InfiniBand and Ethernet connectivity in scale-out and front-end networks, which still use pluggable transceivers.
Deployments of 50m reach CPO do not reduce the market opportunity for pluggable transceivers or any of the high-speed cables. It extends NVLink connections from on-board or copper backplanes to a multi-rack configuration. It is really a new market for optical interconnects. 链接原文网址:网页链接。
下一代AI数据中心网络架构演进的核心,即使大规模使用了CPO交换机,AI算力集群不仅仍然需要光模块,而且是大量需要传统的可插拔光模块(Pluggable Optical Modules)。
这两者并非“你死我活”的替代关系,而是“分工明确、相互补充”的协作关系。它们在AI集群网络的不同层级和场景中各自扮演着不可或-缺的角色。
可以用一个简单的比喻来理解:
CPO交换机 就像一个城市内部的高密度、高效率的立体交通枢纽。
传统光模块 就像连接不同城市、不同区域的标准化高速公路系统。
一个国家的交通系统,既需要城市内的立交桥,也需要城际间的高速公路。AI数据中心也是如此。
CPO技术的核心目标是解决交换芯片到光纤接口“最后一英寸”的电信号传输瓶颈。
传统方式:交换芯片产生的电信号,需要经过一段几十厘米的PCB铜箔电路,传输到交换机面板上的光模块插槽,再由光模块转换成光信号。随着速率提升到800G、1.6T甚至更高,这段铜箔电路的信号衰减、功耗和延迟问题变得极其严重,成为了整个系统的性能天花板。
CPO的解决方案:直接将负责光电转换的光学引擎(Optical Engine)和交换芯片封装在同一个基板上。电信号的传输距离从几十厘米缩短到几厘米甚至几毫米。
因此,CPO的主要应用场景是:
机柜内部或邻近机柜(Pod内部)的高密度互联。
它将光纤接口直接从交换芯片引出,用来连接同一个机柜或同一个计算集群(Pod)内的大量GPU服务器。
优势:极低的功耗、极低的延迟、超高的带宽密度。非常适合AI训练中GPU之间需要海量、高速、低延迟通信的“Scale-out”网络。
当CPO交换机高效地将一个机柜或一个Pod内部的算力紧密连接起来之后,新的问题出现了:如何将成百上千个这样的“CPO算力单元”连接成一个巨大的、跨越整个数据中心的网络?
这就是传统可插拔光模块的舞台。
灵活性和可维护性:光模块是可插拔的。如果一个模块坏了,或者需要升级到更高速率、更长距离的模块,运维人员可以轻松地在交换机前面板上更换,而无需更换整个昂贵的CPO交换机。这是CPO无法比拟的巨大优势。
标准化和互操作性:光模块(如QSFP-DD, OSFP)有非常成熟的国际标准(MSA协议)。你可以把A厂商的交换机和B厂商的光模块配合使用,只要它们遵循同样的标准。CPO目前还是各家厂商的私有方案,缺乏统一标准。
连接距离:光模块提供了从几米到几十公里的各种距离选择,可以轻松实现机柜之间、机列之间、甚至不同数据中心大楼之间的连接。CPO本质上是为短距离(米级)设计的。
因此,传统光模块在CPO时代的主要应用场景是:
构建数据中心的脊叶(Spine-Leaf)网络架构。
连接Leaf交换机(CPO交换机)到Spine交换机。
连接不同AI集群(Pods)的Spine交换机。
实现数据中心之间的互联。
结论:
在未来的超大规模AI数据中心里,我们会看到一个混合架构:
在每一个AI计算集群(Pod)内部,CPO交换机作为核心,以其超高密度和超低功耗,将数百个GPU紧密地连接在一起。
而在这些pod之间,大量的、高速的可插拔光模块则负责构建起连接所有pod的、灵活且可扩展的骨干网络。
所以,CPO的崛起非但不会消灭光模块市场,反而因为它极大地提升了单个计算单元的算力密度,从而创造了对更高速、更大带宽的光模块的更强劲需求。两者将共同推动整个光通信产业向前发展。
CPO交换机的应用场景之所以有限,是因为它是一种为了追求极致性能而做出巨大妥协的“偏科生”技术。它的设计理念——将光学和电子紧密集成——在带来巨大好处的同时,也牺牲了传统网络设备赖以生存的三大基石:灵活性、可维护性 和 经济性。
我们可以用一个简单的比喻来理解:
传统可插拔光模块交换机:就像一台丰田凯美瑞。它性能足够好,极其可靠,任何修理工都能轻松更换它的轮胎、刹车片(光模块),你可以开着它去上班、买菜、长途旅行,非常全能。
CPO交换机:就像一台F1赛车。它拥有地表最强的性能,但你只能在特定的赛道上开。它的任何一个零件(光学引擎)坏了,都需要整个车队(原厂)花几天时间来维修,成本高昂,而且你绝不会开着它去超市买菜。
下面是导致CPO应用场景受限的四大核心原因:
这是数据中心运营商最关心的问题,也是CPO最大的硬伤。
故障处理:在一个拥有数万个端口的数据中心,端口故障是家常便饭。
传统方案:一个光模块坏了,运维人员花1分钟拔插更换即可,业务中断极小。
CPO方案:一个光学引擎坏了,由于它和交换芯片封装在一起,你无法单独更换。唯一能做的就是将整台昂贵的交换机下架返厂维修。这意味着长时间的业务中断和极高的维修成本。
连接灵活性:大型网络需要连接不同距离的设备。
传统方案:我可以在同一个交换机上,根据需要插入100米的短距模块、10公里的长距模块、40公里的超长距模块,实现“按需配置”。
CPO方案:所有端口在出厂时就已固化,是一种“一刀切”的设计。你无法混合搭配不同距离和类型的接口,这在复杂的网络环境中几乎不可行。
升级路径:网络技术迭代飞快,从800G到1.6T再到3.2T。
传统方案:升级时,我可以先保留交换机,只更换更高速率的光模块。
CPO方案:任何升级都意味着对整个交换机的“推倒重来”。
这是CPO不适用于中长距离的根本物理原因。
“热战”:CPO的设计将对温度极其敏感的光学引擎,紧贴着功耗几百瓦、发热巨大的交换芯片ASIC。这是一场持续的“热战”。
激光器选择:不同距离需要不同类型的激光器。长距离激光器(如EML)本身功率大、发热严重,且对温度极为敏感。将这种“火炉”再放到交换芯片这个更大的“火炉”旁边,会导致性能急剧下降,寿命严重缩短。
结果:CPO为了生存,只能选择功耗和发热都小得多的短距离激光器(如VCSEL)或采用复杂昂贵的外置光源(ELS)方案,这天然地将其应用场景限制在了短距离。
研发成本 (NRE):CPO是一个高度集成的复杂系统,其非经常性工程(NRE)费用极高。只有在需求量巨大且场景固定的情况下(如超大规模AI集群),这种高昂的初期投入才有可能被摊薄。
缺乏标准与厂商锁定:目前CPO技术缺乏统一的行业标准,各家厂商(Nvidia, Intel, Broadcom等)的方案互不兼容。一旦数据中心采用了A厂商的CPO方案,就意味着其整个生态系统(服务器网卡、交换机、光缆)都可能被A厂商绑定,这是大型云厂商极力避免的。
综合以上所有限制,CPO的应用场景被精确地锁定在了一个非常狭窄但价值极高的“甜蜜点”:
在超大规模、高密度的AI/HPC计算集群中,用于机柜内部或相邻机柜的、固定的、统一的、超短距离的服务器到交换机的连接。
在这个场景下:
运维灵活性可以被牺牲,因为拓扑固定,追求的是极致性能。
热问题可以通过短距离方案和先进散热技术来管理。
高成本可以被巨大的业务价值和节省的电费所抵消。
因此,CPO并非要取代传统交换机和光模块,而是作为一种专用的“特种装备”,去解决传统方案无法应对的AI集群内部的极致互联挑战。而在更广阔的数据中心网络世界里,传统的可插拔方案仍将在很长一段时间内占据主导地位。 $英伟达(NVDA)$ $新易盛(SZ300502)$ $中际旭创(SZ300308)$