AI 这个时代的核心
AI行业的大浪潮下,AI硬件是目前收益涨幅最大的核心板块,而光模块则是核心中的核心,最直接原因就是AI产业带动下行业的营收利润的暴涨,也带来一大批十几倍涨幅的公司,可以说A股这几年最收益且持续的行业板块,应该是没有之一。
因此也人红是非多,光模块在23年开始逐渐市场就关注到了CPO技术的发展,并展开的持续不断,绵绵不绝的辩论争吵,去年光模块的大回调很大程度上也有CPO技术推动带来的市场反馈。但是今年光模块又重新崛起并创出新高,目前也没有看到明显的结束,同时市场上CPO支持和反对的声音都很多,如果过早的坚定CPO,认为光模块会完,那肯定错过了年中光模块的大行情,但是技术也不断在推进,英伟达博通时不时又出产业进步的新闻出来,所有做光模块的总感觉有个达摩克利斯之剑在头上。因此自己一直很想能系统性的了解技术产业的变化和市场之间的关系,加上最近也去了光博会,自己跟踪的个股也在CPO上在持续推进,也就希望能梳理出一篇客观的逻辑文章,能对未来产业的理解和市场的操作有所帮助。
自己作为一个普通的投资者,并没有专业的技术背景,很多技术产业细节很难挖的很深,更多希望能把握住大的核心逻辑和关键变量,文章难免会有些疏漏和错误,也可以多多客观交流讨论学习。
那么,开始CPO和光模块的AI之路!
今天内容主要希望能回应一个核心问题:
首先,还是需要简单的说明下CPO技术和光模块的技术,这部分内容差异网上也很容易找到,我只做个简单说明。
CPO中文叫共封装光学,其实一种技术,是将光引擎与计算芯片集成封装的“一体化”先进工艺。
光模块是可插拔的独立“光电转换器”,是一个设备,光模块的核心作用是完成光电转换,从而实现设备间的数据传输,在数据中心中主要用于服务器和交换机之间的连接,以及交换机之间的互相连接,。
其实从定性逻辑上,光模块和CPO一个指得是设备,一个值得是工艺。只是市场大家方便也就这样叫,至于把光模块当成CPO的,那就是还没真正了解。
下面是用AI梳理的CPO的正常分类,中间重点的再补充下,因为这些因素会是技术的关键点。
1. CPO技术的分类
A. 按激光光源的集成方式分类:
全集成式(On-Chip Laser):
描述: 将激光器(Laser Diode)通过异构集成等技术直接封装在硅光芯片(PIC)上。优势: 集成度最高,理论上体积最小。技术难度极大,激光器是系统中最怕热且可靠性最差的部件,与ASIC高热环境共封装会严重影响寿命和稳定性,失效后无法更换,无法更换,损失就很大。目前并非主流。
外置光源式(External Laser Source, ELS):
描述: 将激光器从计算芯片附近移开,做成一个独立的、可插拔的模块(如ELSFP),通过偏振维持光纤(PMF)将激光传输到光引擎中进行调制。就是把最容易坏的激光器移出来,坏了可替换。可靠性高: 激光器可独立散热,寿命更长,失效后可热插拔更换,这是数据中心运维的刚性需求。当前及可见未来的绝对主流方案。博通、英伟达、英特尔等巨头均采用此路径。
B. 按应用场景分类:
交换机侧CPO: 目前发展最快,最接近商业化的领域。用于AI数据中心的核心交换节点,解决超高带宽和功耗问题。英伟达Spectrum-X和Quantum-X交换机即是此类,这也是市场最担心快速取代的部分,一台CPO交换机会取代144~512个高速光模块。
GPU/XPU侧CPO(也称OIO): 技术难度更高,将光引擎直接与GPU/CPU等计算芯片共封装,用光互连替代NVLink等电互连,实现芯片间极低功耗、超高带宽的互联。这是更未来的方向,博通、英伟达已在研发。
一个CPO交换机系统可以拆解为以下几个核心部分,其价值量和技术难度各不相同,这个很重要,大A公司能参与的主要就是2~4:
1.这部分要回答的就是为什么长期看技术优势上CPO会取代光模块,原因是什么?就像为什么可控核聚变未来会取代传统能源一样,技术上方向一定是正确的,这是科技和市场需求的客观发展规律。
技术上的2个核心问题:功耗墙 密度墙。
1.功耗墙:数据显示,可插拔光模块功耗高达15-20 pJ/bit,而CPO可降至5-10 pJ/bit,功耗降低50%~70%以上。
功耗墙对应的是电力成本问题,大型AI数据中心,电力成本的消耗是惊人了,在AI数据中心中,光通信(含光模块)的功耗约占数据中心总电耗的 20%,而且数据中心70%的日常运营成本来自电费支出,这个数据是很夸张的,算力会极大消耗电力。老美为什么最近在大力发展核电,也是明白为什么算力背后的支撑底座是电力,这块也是他们的弱势部分。目前CPO因为良率和技术问题,功耗也没达到预期的目标,前面讨论的功耗是建立在真正达成的情况。
2.密度墙: 一台51.2T的交换机可能需要32~64个800G光模块,交换机前面板的物理空间已经无法容纳更多光纤接口。CPO将光引擎直接封装在交换机主板背面,彻底解放了前面板空间,实现了数量级的端口密度提升。
密度墙对应的是空间问题,带来的直接效益是,单芯片端口数翻倍,交换机端口密度提升,密度是传统交换机的2-4倍。接着带来的就是可以用更少的交换机层级构建同样规模的网络,大幅降低网络延迟。可以构建更大规模的单层网络(如超大规模Fabric),支持更多GPU的直接互联,极大提升训练效率。当然还有整体数据中心的物理空间减少,土地建设成本减少。
2.接着就是最关键的第二个问题,为什么技术市场上CPO又没那么快取代光模块?
CPO的技术困难是一个系统性难题,而非单一技术瓶颈。其核心矛盾在于:为了追求极致的性能和功耗,牺牲了可制造性、可测试性、可维护性和生态灵活性。这些底层技术挑战的解决需要整个产业链的协同创新和漫长的时间积累,这正是CPO无法在短期内快速取代传统可插拔光模块的根本原因。
高端制造业有着其自然的行业规律,从供应链上下游,再到制造交付运维等,任何一个环节良率低一点,累积起来就是成本和交付的不可控,一个全新的技术能完全的商用,需要的条件和时间是相当长的。
下面有段博通的CEO在之前交流会上的沟通,阐述的很直白且清晰,很大产业逻辑也表达出来了,重点在于后面的故障率的描述:
“我最喜欢给你们吹捧新概念了。最新热点是共封装光学。说白了不就是光学器件嘛?搞不懂为啥非要叫共封装光学,除非是指硅光子技术。现在全球对硅光子技术都还没完全准备好。主要原因就像我之前说的,当你因为集群规模越来越大而不断扩展时——毕竟你们是 LLM 玩家嘛,自然要这么干。 如果你不是 LLM 玩家,只是一个小型企业,只运行一个机架或不超过 36 块 GPU,根本不需要这些。直接用铜缆直连就搞定了。但那些大型 LLM 厂商要运行 10 万、20 万甚至 50 万块 XPU 或 GPU 时——就像我之前说的——要在机架内扩展规模,就必须采用光连接。因为光连接能直接让 512 个计算节点(XPU 或 GPU)相互通信,效果远超其他方案。 更进一步,在带宽方面——【直接】电源交换机上——你甚至可以扩展到 1024 个连接,但这需要彻底摆脱现有铜缆技术转向光学方案。到 2026 年铜缆仍将占主流,但 2027 年全面转向光学已是大势所趋。这时候人们开始讨论需要哪种光学方案?有人提出:硅光子学是个方向;。其具体实现形式之一就是共封装光学(Co-Packaged Optics),即将光纤互连中的有源器件集成到硅基板中——无论是 GPU 芯片还是交换机芯片,两者都适用。这就是所谓的共封装方案,堪称理想状态。
这确实是个美好的愿景,因为你们成功将功耗降低了 40%。这一切都很棒。而我们博通早在三年前就已掌握这项技术。关键在于光器件——通常指光互连组件,由于涉及大量机械结构,其故障率往往在 5%到 8%之间。所以当你们听说可插拔光模块时,如果发生故障,只需拔出旧模块换上新模块即可。 但若采用共封装光学或硅光技术,将价值 4 万美元的昂贵 GPU 与故障率 5%-8%的光器件集成,就会产生严重问题。我们持续研究的核心在于:硅光技术创造的集成方案,其故障特性究竟会接近硅基的 0.1%极低故障率,还是维持光器件的 5%-8%故障率?相关数据我们仍在收集中,过去两三年一直在进行这项工作。我个人倾向于认为它会呈现硅基特性而非光学特性,但最终结论仍需通过测试验证。”
(一个144入口的交换机,就是对应144个光引擎,只要坏了一个光引擎,整个交换机就要维修更换,传统热插拔光模块只要之间换一个新的,很多大厂坏了一个光模块,修都不修,直接拿一个新的插上,光模块变成一次性消耗品)说到这里做个简单的总结,技术上CPO长期看会取代大部分光模块,全光互联是市场的终局目标,这个没问题,但是中短期技术上CPO取代不了光模块,综合良率成本可靠性等,目前都不足以完全做到。
以上CPO的技术信息其实网上也比较多,也还比较清晰,是大部分人看到的一部分,接下来其实是更加重要的需要增加多一些视角,站在真实市场的角度看CPO和光模块的问题,而不是之站在技术上,因为技术也是要服务市场需求。
市场方向需要增加2个关键思考
1.总持有成本TOC
2.产业间的生态关系
总持有成本TCO:这是一个很重要的概念,特别是对最终的各大CSP厂商而已,算的是总体的综合持有成本。
决策核心:不算“单价”,要算“总账” (TCO)
初期对比:CPO整机 采购价格 >> “交换机+可插拔光模块”。
终极考量:TCO (总拥有成本) = 采购成本 + 运营成本(电费+冷却费)+ 维护成本 + 空间成本。
CPO的价值:功耗降低50%-70% → 为大型数据中心每年节省巨额电费,数年省下的钱就能覆盖其高出的采购成本。对于谷歌、微软,甲骨文,腾讯等云巨头,TCO更低才是最终的长期决策核心因素。
深入分析CPO(共封装光学)和传统可插拔光模块的价格对比及其趋势变化。这是一个动态发展的过程,核心是 “初始成本” 与 “总拥有成本(TCO)” 之间的博弈。
当前价格:CPO >> 可插拔光模块。CPO的初始采购成本远高于可插拔方案,是其大规模普及的最大障碍。
TCO(总拥有成本)虽然CPO交换机更贵,但其带来的功耗大幅节省(电费)和空间密度提升(机房租赁费)将在数据中心全生命周期内抵消甚至超越其初始投资。
因此二者之间量化完会有一个单成本的曲线趋势变化:
总持有成本其实是需求购买方的一个高度浓缩的核心指标,几乎所有因素都可以用成本收益来恒量,就像所有东西都有价格一样,采购成本,运营,维护,空间等等都可以用成本来衡量。
在当下25年,对CSP厂商来说,光模块的成本就是最划算的,在图中交会的27年,这就是建立在27年乐观技术预期的情况下,市场的乐观预期交叉点,那个时候CPO的TCO成本超过光模块。但是如果未来CPO的各种因素没办法提升其TCO,那么这个交叉点就会延后。站在当下,从市场已经各大厂家的乐观预估下,27年可能是最积极的年份,不少可能都看到28,29年。
光模块和CPO的产业关系是不同的,这个很多人可能没意识到,但是确实非常重要,光模块到CPO,上下游的关系在未来会发生巨变,各方的生态位会产生变化,价值竞争壁垒也随之变化。
1.在目前的光模块时代:产业链是横向分工的,芯片、组件、模块、设备各个层级分工明确,通过标准接口(MSA)耦合。这使得中游的模块集成商(如中际旭创、新易盛)成为核心枢纽,它们整合上游资源,为下游多个客户服务,市场相对开放和竞争
2.CPO:产业链是纵向整合的,由系统巨头(NVIDIA, Broadcom) 强势主导。它们定义架构、设计芯片、选择合作伙伴(如台积电封装),最终将完整的系统(如交换机、GPU服务器)直接交付给终端云巨头。传统光模块厂商被边缘化,需要向上游核心元件(如FAU、光学引擎代工,源杰科技,天孚通信,太辰光,仕佳光子,光库科技等)转型才能切入.
技术演进背后是产业链权力和价值的重新分配。CPO的崛起意味着行业从分散竞争走向巨头垄断,游戏规则被彻底改写。这就为什么生态变化非常重要的原因,当然这个时间大概率会在27年之后,但是这对一些公司来说可能就是生死大事,但是对另外一些公司来说,你在CPO的什么位置,做在什么船上,也是决定生死天花板。
最后结合市场和技术,做个行业逻辑的总结,光模块到CPO在未来25到30年决定其变化的底层模型就是需求牵引,技术推动,很大因子的本质也是围绕这2个逻辑,这2个底层逻辑每一个都背后的一系列因子做驱动,也会互相影响,技术突破会带来需求提升,需求强化也会倒闭技术推动,可能需求衰退也会让技术延迟,变量因子会各个方面影响这个双轮驱动模型的不断推进。
前面说了那么多,其实还是主要在解释最基本的逻辑因素,很大技术细节和需求其实也没办法展开,想一篇写完是不可能的,只能去展开一些基本的大逻辑,在了解完大的逻辑基础上,去不断补充小的逻辑分支,在出现小逻辑变量因子开始逆转大逻辑的时候,就是所谓的拐点。我们要做的即使理解大逻辑,观察和等待逻辑拐点的出现,相应做出策略变化。
(可能今晚最重要的一张图吧)
我这里几天在收集整理CPO技术和市场信息的时候,没想到内容会这么多,而且篇幅实在太大,很多细节内容都还没加进来,也有很多东西要再最后系统性做个梳理,同时还有好些内容没整好,比如:
1.如何变化拐点要怎么确认,如何跟踪
2.拐点不出现或者延迟光模块市场的变化和空间
3.比如CPO会从从那些方面开始取代,SCALE OUT/UP的变化,
4.还有CPO技术下大A的各个公司的参与细分公司调整和机遇
此外,还有一个很想补充聊的重点重点话题,产业技术发展和大A趋势炒作的关系。
这个就是思考怎么在大A这个错综复杂的市场下在跟踪技术发展的同时,把握住机会同时规避大的回调风险,怎么思考各种市场作文情绪叙事变化等的影响。
当然还有一个关于目前持股的思考和分析,我希望了解CPO和光模块的发展关系,就是因为自己重仓剑桥科技,同时也拿着罗博特科,我希望能了解到公司和行业的本质变化。
也为后面埋个坑,剑桥科技会再分析一篇CPO下的变化发展,目前至少这个达摩克利斯之剑大概率可能不会在它身上出现,反而还会有些未来好的预期可能。
至于罗博深入了解挖掘的人很多,罗博的未来位置和上限是非常高的,如果你认同AI发展下光互联技术,那萝卜是怎么样的避不开,同时萝卜作为设备股,其设备业绩的放量也是前面提到的观察技术市场拐点非常重要的标志。
那剩下的只能等到下篇在整理了。
最后如果看到这里对你有所帮助,希望多多点赞关注转发,有信息渠道交流也欢迎私信沟通。此外,文章中难免有些遗漏和错误,也欢迎大家指导修改。
$罗博特科(SZ300757)$ $剑桥科技(SH603083)$ $中际旭创(SZ300308)$ #今日话题#
剑桥科技-0907近期信息总结
网页链接{剑桥科技- 0825交流纪要分析-成王之路}