用户头像
灵云611
 · 北京  

$中际旭创(SZ300308)$ $新易盛(SZ300502)$ $英伟达(NVDA)$ CPO最近的鬼故事和混淆视听的fen坑领主太多了。关于cpo/类cpo/npo、scale up/scale out、芯片厂/csp厂商的区别和关系,该知道的应该都知道得差不多了,基哥他们都解读得非常清楚了。
这篇直接再梳理一些相关的问题和逻辑,看懂了就应该完全没有问题了,再有问题的你也别问了,不是蠢就是坏,还是那句话,我也一样不想沾shi。
CPO相关问题再度梳理补充
核心问题:
英伟达为何在明知道CSP厂商抵触的情况下,仍然要努力推进CPO?
一句话先给结论(核心判断)
英伟达推动 CPO,本质不是为了“马上卖 CPO”,而是为了:
锁定网络架构定义权 + 把“算力系统”的天花板继续往上抬,防止 GPU 价值被网络瓶颈反噬。
这是一个战略性、系统级、极度“英伟达风格”的动作,而不是一条短期商业最优路径。

一、为什么“明明很难”,英伟达还非推 CPO 不可?
你可以从三个层级理解:物理极限、系统控制权、长期护城河。

① 第一性原理:GPU 正在撞上“网络物理极限”
先把一句话摆在桌面上:
未来 AI 算力系统的瓶颈,不在算力芯片,而在“芯片之间怎么连”。
具体表现为三点:
• 带宽继续暴涨(800G → 1.6T → 3.2T → 6.4T)
• 铜缆在功耗、距离、串扰上已经不可救药
• 可插拔光模块在 功耗 / SerDes / I/O 距离 上迟早吃不消
👉 对英伟达来说,这是一个系统级“达摩克利斯之剑”:
如果网络跟不上,GPU 再强,scale-out 也会塌掉。
CPO 是目前物理上最“干净”的解法——
• I/O 距离最短
• 功耗最低
• 时钟、信号完整性最好
所以:
CPO 是“物理极限解”,不是“商业友好解”。

② 第二层:英伟达真正要的不是 CPO,而是「网络定义权」
这点极其关键。
英伟达真正害怕的是什么?
不是 CPO 难,
而是——
未来的 AI 集群,被 CSP 用“开放以太网 + 白盒交换机 + 自研 ASIC”掏空价值。
你注意一个事实:
• CSP 已经在算力芯片上反英伟达(自研 TPU / ASIC)
• 下一步,一定会在 网络层继续去英伟达化
而 CPO 的天然属性 是什么?
• 与交换芯片深度绑定
• 与封装、功耗、系统设计强耦合
• 不可插拔、不可替换、不可白盒
👉 只要 CPO 成为主流,英伟达就重新站回“系统架构中心”。
你可以把 CPO 理解为:
英伟达试图把“网络”重新变成 GPU 的一个“不可拆模块”。

③ 第三层:不是给 CSP 用,是给“亲儿子体系”兜底
你同步的信息里有一句其实已经把真相说得很直白了:
CSP 尚未给出规模化承诺,但不排除测试。
那英伟达为什么还干?
答案是:
它从来没指望第一波是 AWS / Google / Azure。
它的真实路径是:
1. 先在自己控制的体系里跑通
• CoreWeave
• Lambda
• 自建 / 深度绑定的 Neo-cloud
2. 证明在“极端算力密度场景”下,CPO 是唯一解
3. 把这条路线“留在桌面上”,作为未来 3–5 年的选项
这是一种典型的英伟达式战略压迫:
我不逼你用,但我必须保证——你最终绕不开我。

二、那为什么 Google / AWS 反而态度这么克制?
你贴的这些点非常重要,而且完全符合产业真实情况:
Google
• 明确:不做 CPO
• 长期首选:可插拔
• NPO 仅测试,不作为主路
👉 本质原因只有一句话:
Google 要的是“可控、可维护、可规模化运维”的系统,而不是极致物理性能。
AWS
• 强偏硅光
• 400G → 800G → 1.6T 全硅光
• 对非硅光 EML 厂商态度非常明确
👉 AWS 的逻辑是:
我宁可多耗一点点功,也不要被你锁死系统形态。
这也恰恰解释了为什么:
CPO = 英伟达的最优解
可插拔 = CSP 的最优解
这不是技术分歧,是利益结构分歧。

三、那英伟达推动 CPO,对产业链意味着什么?
这里要非常清醒,别被市场带节奏。
1️⃣ CPO ≠ 马上放量
你同步的节奏已经写得很清楚了:
• 2026:送样 / 验证
• 2027:小规模部署,象征性收入
• 真正体系化:可能要到 3.2T / 6.4T 以后
👉 所以:
拿 CPO 去证伪 2025–2027 的光模块主业,是典型的“时间错配”。

2️⃣ 对中际旭创 / 新易盛的真实影响
一句话总结:
CPO 不是它们的威胁,而是“上限解锁器”,只是时间很远。
原因你其实都知道:
• 它们有硅光自研
• 有 NPO / 类 CPO 的全栈能力
• 真正被挤出的,是没有系统能力、只卖单点器件的玩家

四、把所有点放在一起的“终极结论”
我给你一个高度凝练的判断,你可以直接拿去用:
英伟达推动 CPO,不是因为它现在好,而是因为如果它不提前布局,未来 AI 系统的“网络主导权”会彻底旁落到 CSP 手里。
所以它哪怕:
• 客户不积极
• 商业化极慢
• 技术极其困难
也必须把 CPO 这条线“钉在路线图上”。
这是防守型进攻,不是激进扩张。
其他一些关键点问题的分析:
这五个问题其实是一整套递进逻辑,我按第一性原理 + 系统工程视角,一个一个给你拆,而且我会在关键地方给你明确 Yes / No 的判断,不和稀泥。

问题一
“如果只是物理瓶颈,那我把机柜内(scale-up)解决掉,用 CPO / NPO,把铜缆换掉;机柜间(scale-out)继续用可插拔,是否就够了?”
结论先行:
对 2026–2028 年:是的,基本够用。
对英伟达的长期目标:不够。
为什么“短期够、长期不够”?
1️⃣ 机柜内解决的是最急迫、最确定的瓶颈
• scale-up(柜内):
• NVLink / NVSwitch
• 超短距、高并发、功耗密度极高
• 铜缆必死
• 所以:
• NPO / 类 CPO 是“必须上”的
• 这一点你、我、英伟达、CSP 完全一致
👉 这一步,确实可以把系统性能“救回来”。
2️⃣ 但 scale-out 是“系统上限”的真正天花板
你要注意一个隐蔽但关键的点:
scale-up 决定“单节点强度”,
scale-out 决定“集群可扩展性上限”。
哪怕:
• 柜内做到极致
• 单机柜算力爆炸
但如果:
• 机柜间仍然被
• SerDes 功耗
• 光模块 I/O 距离
• Switch 端口密度
• 总功耗预算
限死
那么:
整个 AI 超级集群,仍然会在规模化时“塌顶”。
👉 所以英伟达的真实焦虑是:
“我不允许 scale-out 成为我 GPU 的长期上限。”

问题二
“那 CSP 在什么条件下,才可能接受 scale-out 场景的 CPO?”
结论非常明确:
只有在“可插拔 + NPO + 硅光”全部同时撞墙时。
不是偏好问题,是被迫问题。
需要满足 4 个“极端条件”(缺一不可):
条件一:速率维度
• 3.2T → 6.4T 以上
• 单端口功耗 不可接受
• SerDes 能耗比失控
👉 如果 6.4T 可插拔还能稳态跑,CPO 永远上不了桌。
条件二:网络拓扑发生根本变化
• 超大规模 All-to-All
• 低延迟同步训练
• 类 NVLink 的跨柜需求
👉 传统以太网架构不够用。
条件三:运维模型被“系统级抽象”取代
• 整柜 / 整 pod 级维护
• 不再追求“坏一个换一个”
👉 这是 CSP 文化层面的巨大改变,非常难。
条件四(最重要):
英伟达以外,也给出“非锁定”的 CPO 方案
只要 CPO = 英伟达专属
CSP 就会天然抵触

问题三
“如果不用 CPO,用 NPO,是否也能解决物理瓶颈,达成英伟达的目标?”
结论一句话:
NPO ≈ 80% 的物理问题 + 20% 的战略问题
CPO = 100% 的物理问题 + 100% 的控制问题
技术层面(物理极限)
• NPO:
• 光靠近芯片
• I/O 距离极短
• 功耗、信号完整性大幅改善
• 在 3.2T 之前:
• NPO 完全够用
• 而且工程可行性、良率、维护性都更好
👉 所以你看到现实是:
NPO 在 scale-up 场景会先成为“主流解”。
战略层面(英伟达真正关心的)
• NPO:
• 可拆
• 可换
• 可由第三方做
• CPO:
• 强绑定
• 强系统化
• 天然利于“架构锁定”
👉 所以:
NPO 能解决“性能”,
但不能完全解决英伟达的“控制焦虑”。

问题四
“如果 CSP 接受了 CPO,能不能绕开英伟达,自己做生态?”
结论:
理论上可以,工程上极难,但长期一定会尝试。
分两步看:
短中期(3–5 年)
• CPO 必然:
• 与交换芯片
• 与封装
• 与功耗管理
强耦合
• 英伟达仍然最有系统经验
👉 初期 CPO,英伟达仍占主导。
长期(5–10 年)
一旦:
• 硅光工艺成熟
• 光引擎模块化
• 封装标准化
那么 CSP 一定会:
• 自研交换 ASIC
• 指定 CPO 接口
• 把:
• 光引擎
• ELS / FA
• PIC
交给 中际旭创 / 新易盛这种“系统级供应商”
👉 这是必然趋势,只是时间问题。

问题五(你这个问题非常关键)
“现在英伟达自己干 CPO,是不是因为生态不成熟?等真推起来,它反而不想干了?”
结论非常干脆:
是的,你这个判断是对的,而且非常‘英伟达’。
现在为什么“自己干”?
不是因为它想赚这个钱,而是因为:
• 量太小
• 风险太高
• 工程复杂
• 没人愿意先踩坑
👉 这叫“战略样板工程”。
未来如果真成了,英伟达会干什么?
一定是:
• 自己保留:
• 架构定义权
• 接口标准
• 验证体系
• 把:
• 光引擎
• 光子器件
• 模块化部分
逐步外包
而且:
英伟达最不喜欢干“重资产 + 低毛利 + 制造型”的事。
这和你说的**“占产能、不挣钱”**完全一致。

最后,把五个问题合成一个“总判断”
你现在可以这样理解英伟达:
它并不是要“逼死可插拔”,
而是要确保:
当可插拔真的不行的时候,
整个产业只有“我准备好的那条路”。
而在这条路上:
• NPO 是现实主线
• 可插拔是长期并行
• CPO 是极限方案、战略威慑
最后一个问题:
英伟达毕竟在柜内的话语权很强,是否有可能强行让CSP必须用CPO ?CSP厂商是只能被迫接受,还是会进行制衡,或是提出意见要求?
这个问题,其实已经触到**英伟达—CSP 博弈的“权力边界”**了。结论可以说得很明确,而且不是模糊判断。

先给一句话结论
英伟达在“柜内”话语权极强,但并不具备“强行用 CPO、CSP 只能被迫接受”的现实条件;
真实结果几乎一定是:英伟达想推 CPO,但 CSP 会把它“压回到 NPO”。
不是对抗,而是结构性制衡。

一、英伟达“看起来”是不是有能力强推 CPO?
从表面看,确实有三个“看起来很强”的筹码:
1. 算力不可替代性
• 现实世界里,高端 AI 训练仍然离不开它
2. 整柜 / 整机交付权
• CSP 买的是系统,不是单卡
3. 柜内网络(NVLink / NVSwitch)完全由它定义
所以你问这个问题是完全合理的:
“那我直接说不用 CPO 就别买我系统,行不行?”

二、但现实是:英伟达“不能”这么干,而不是“不想”
这里是关键点。
1️⃣ 技术上:CPO 还不具备“强制性基础条件”
如果英伟达强推 CPO,CSP 可以非常理直气壮地说一句话:
“NPO 在同代速率下,性能已经够用,
你凭什么让我接受更高风险、更难维护、更高 TCO 的方案?”
注意,这不是情绪,而是工程事实:
• NPO 已经:
• 解决铜缆瓶颈
• 功耗、信号完整性大幅改善
• 在 800G / 1.6T / 甚至早期 3.2T:
• CPO 并非“唯一解”
👉 只要不是“非 CPO 不可”,英伟达就失去了强推的正当性。

2️⃣ 商业上:CSP 不是“单一买家”,而是“系统级甲方”
这是很多人低估的一点。
CSP 在谈判桌上掌握的不是“嘴硬”,而是真实杠杆:
• 可以:
• 延后采购节奏
• 拆分订单
• 要求多方案并行
• 甚至:
• 用自研 ASIC / 非 NV 集群作为边际制衡
他们未必真能立刻不用英伟达,
但可以让英伟达“很难受”。
👉 对英伟达来说,“卖慢”比“卖少”更致命。

3️⃣ 运维与责任风险,英伟达不可能一肩扛
如果英伟达强推 CPO,意味着:
• 故障不可插拔
• 运维复杂度上升
• MTTR 拉长
一旦出问题,CSP 一定会说:
“这是你指定的方案,
系统级稳定性责任你全背。”
而你要知道一件事:
英伟达的商业模式,从来不是“背系统运维风险”的模式。

三、那真实世界里,会发生什么?
不是“硬刚”,而是协商 + 技术折中。
👉 真实最可能的结果是三点:
✅ 1)英伟达会“推”,但不是“强推”
• 提供 CPO 作为:
• roadmap 选项
• 极限场景方案
• 但不会:
• 设为唯一可选项

✅ 2)CSP 会明确提出:优先 NPO,而非 CPO
而且理由非常充分:
• 性能差距有限
• 风险显著更低
• 维护与 TCO 更优
👉 NPO 就是 CSP 用来“制衡 CPO”的现实武器。

✅ 3)最终形态是“分层使用”,而不是“一刀切”
你会看到的更可能是:
• 柜内极短距 / 特殊拓扑
→ CPO / 类 CPO(小规模)
• 主流柜内互联
→ NPO
• 柜外 / scale-out
→ 可插拔继续用
这不是妥协,这是系统工程最优解。

四、一个非常重要但常被忽略的判断
英伟达真正想“锁”的不是 CPO,
而是“当 NPO 不够用时,只有我有下一步方案”。
只要这点成立,它没必要也不敢现在就硬压 CSP。

五、给你一个“最终定锚结论”
你可以把这件事这样理解,而且非常稳:
• ❌ 英伟达 没有能力 也 没有条件 强制 CSP 用 CPO
• ❌ CSP 不会被迫无条件接受 高风险方案
• ✅ CSP 会用 NPO 作为现实制衡工具
• ✅ CPO 会被保留为:
• 极限解
• 未来选项
• 战略威慑
这是一场“谁都不掀桌子”的博弈,而不是单边胁迫。