$中际旭创(SZ300308)$ $新易盛(SZ300502)$ $英伟达(NVDA)$ CPO最近的鬼故事和混淆视听的...

灵云611

2026-02-06 17:36 · 北京

$中际旭创(SZ300308)$ $新易盛(SZ300502)$ $英伟达(NVDA)$ CPO最近的鬼故事和混淆视听的fen坑领主太多了。关于cpo/类cpo/npo、scale up/scale out、芯片厂/csp厂商的区别和关系，该知道的应该都知道得差不多了，基哥他们都解读得非常清楚了。
这篇直接再梳理一些相关的问题和逻辑，看懂了就应该完全没有问题了，再有问题的你也别问了，不是蠢就是坏，还是那句话，我也一样不想沾shi。
CPO相关问题再度梳理补充
核心问题：
英伟达为何在明知道CSP厂商抵触的情况下，仍然要努力推进CPO？
一句话先给结论（核心判断）
英伟达推动 CPO，本质不是为了“马上卖 CPO”，而是为了：
锁定网络架构定义权 + 把“算力系统”的天花板继续往上抬，防止 GPU 价值被网络瓶颈反噬。
这是一个战略性、系统级、极度“英伟达风格”的动作，而不是一条短期商业最优路径。
⸻
一、为什么“明明很难”，英伟达还非推 CPO 不可？
你可以从三个层级理解：物理极限、系统控制权、长期护城河。
⸻
① 第一性原理：GPU 正在撞上“网络物理极限”
先把一句话摆在桌面上：
未来 AI 算力系统的瓶颈，不在算力芯片，而在“芯片之间怎么连”。
具体表现为三点：
• 带宽继续暴涨（800G → 1.6T → 3.2T → 6.4T）
• 铜缆在功耗、距离、串扰上已经不可救药
• 可插拔光模块在功耗 / SerDes / I/O 距离上迟早吃不消
👉 对英伟达来说，这是一个系统级“达摩克利斯之剑”：
如果网络跟不上，GPU 再强，scale-out 也会塌掉。
CPO 是目前物理上最“干净”的解法——
• I/O 距离最短
• 功耗最低
• 时钟、信号完整性最好
所以：
CPO 是“物理极限解”，不是“商业友好解”。
⸻
② 第二层：英伟达真正要的不是 CPO，而是「网络定义权」
这点极其关键。
英伟达真正害怕的是什么？
不是 CPO 难，
而是——
未来的 AI 集群，被 CSP 用“开放以太网 + 白盒交换机 + 自研 ASIC”掏空价值。
你注意一个事实：
• CSP 已经在算力芯片上反英伟达（自研 TPU / ASIC）
• 下一步，一定会在网络层继续去英伟达化
而 CPO 的天然属性是什么？
• 与交换芯片深度绑定
• 与封装、功耗、系统设计强耦合
• 不可插拔、不可替换、不可白盒
👉 只要 CPO 成为主流，英伟达就重新站回“系统架构中心”。
你可以把 CPO 理解为：
英伟达试图把“网络”重新变成 GPU 的一个“不可拆模块”。
⸻
③ 第三层：不是给 CSP 用，是给“亲儿子体系”兜底
你同步的信息里有一句其实已经把真相说得很直白了：
CSP 尚未给出规模化承诺，但不排除测试。
那英伟达为什么还干？
答案是：
它从来没指望第一波是 AWS / Google / Azure。
它的真实路径是：
1. 先在自己控制的体系里跑通
• CoreWeave
• Lambda
• 自建 / 深度绑定的 Neo-cloud
2. 证明在“极端算力密度场景”下，CPO 是唯一解
3. 把这条路线“留在桌面上”，作为未来 3–5 年的选项
这是一种典型的英伟达式战略压迫：
我不逼你用，但我必须保证——你最终绕不开我。
⸻
二、那为什么 Google / AWS 反而态度这么克制？
你贴的这些点非常重要，而且完全符合产业真实情况：
Google
• 明确：不做 CPO
• 长期首选：可插拔
• NPO 仅测试，不作为主路
👉 本质原因只有一句话：
Google 要的是“可控、可维护、可规模化运维”的系统，而不是极致物理性能。
AWS
• 强偏硅光
• 400G → 800G → 1.6T 全硅光
• 对非硅光 EML 厂商态度非常明确
👉 AWS 的逻辑是：
我宁可多耗一点点功，也不要被你锁死系统形态。
这也恰恰解释了为什么：
CPO = 英伟达的最优解
可插拔 = CSP 的最优解
这不是技术分歧，是利益结构分歧。
⸻
三、那英伟达推动 CPO，对产业链意味着什么？
这里要非常清醒，别被市场带节奏。
1️⃣ CPO ≠ 马上放量
你同步的节奏已经写得很清楚了：
• 2026：送样 / 验证
• 2027：小规模部署，象征性收入
• 真正体系化：可能要到 3.2T / 6.4T 以后
👉 所以：
拿 CPO 去证伪 2025–2027 的光模块主业，是典型的“时间错配”。
⸻
2️⃣ 对中际旭创 / 新易盛的真实影响
一句话总结：
CPO 不是它们的威胁，而是“上限解锁器”，只是时间很远。
原因你其实都知道：
• 它们有硅光自研
• 有 NPO / 类 CPO 的全栈能力
• 真正被挤出的，是没有系统能力、只卖单点器件的玩家
⸻
四、把所有点放在一起的“终极结论”
我给你一个高度凝练的判断，你可以直接拿去用：
英伟达推动 CPO，不是因为它现在好，而是因为如果它不提前布局，未来 AI 系统的“网络主导权”会彻底旁落到 CSP 手里。
所以它哪怕：
• 客户不积极
• 商业化极慢
• 技术极其困难
也必须把 CPO 这条线“钉在路线图上”。
这是防守型进攻，不是激进扩张。
其他一些关键点问题的分析：
这五个问题其实是一整套递进逻辑，我按第一性原理 + 系统工程视角，一个一个给你拆，而且我会在关键地方给你明确 Yes / No 的判断，不和稀泥。
⸻
问题一
“如果只是物理瓶颈，那我把机柜内（scale-up）解决掉，用 CPO / NPO，把铜缆换掉；机柜间（scale-out）继续用可插拔，是否就够了？”
结论先行：
对 2026–2028 年：是的，基本够用。
对英伟达的长期目标：不够。
为什么“短期够、长期不够”？
1️⃣ 机柜内解决的是最急迫、最确定的瓶颈
• scale-up（柜内）：
• NVLink / NVSwitch
• 超短距、高并发、功耗密度极高
• 铜缆必死
• 所以：
• NPO / 类 CPO 是“必须上”的
• 这一点你、我、英伟达、CSP 完全一致
👉 这一步，确实可以把系统性能“救回来”。
2️⃣ 但 scale-out 是“系统上限”的真正天花板
你要注意一个隐蔽但关键的点：
scale-up 决定“单节点强度”，
scale-out 决定“集群可扩展性上限”。
哪怕：
• 柜内做到极致
• 单机柜算力爆炸
但如果：
• 机柜间仍然被
• SerDes 功耗
• 光模块 I/O 距离
• Switch 端口密度
• 总功耗预算
限死
那么：
整个 AI 超级集群，仍然会在规模化时“塌顶”。
👉 所以英伟达的真实焦虑是：
“我不允许 scale-out 成为我 GPU 的长期上限。”
⸻
问题二
“那 CSP 在什么条件下，才可能接受 scale-out 场景的 CPO？”
结论非常明确：
只有在“可插拔 + NPO + 硅光”全部同时撞墙时。
不是偏好问题，是被迫问题。
需要满足 4 个“极端条件”（缺一不可）：
条件一：速率维度
• 3.2T → 6.4T 以上
• 单端口功耗不可接受
• SerDes 能耗比失控
👉 如果 6.4T 可插拔还能稳态跑，CPO 永远上不了桌。
条件二：网络拓扑发生根本变化
• 超大规模 All-to-All
• 低延迟同步训练
• 类 NVLink 的跨柜需求
👉 传统以太网架构不够用。
条件三：运维模型被“系统级抽象”取代
• 整柜 / 整 pod 级维护
• 不再追求“坏一个换一个”
👉 这是 CSP 文化层面的巨大改变，非常难。
条件四（最重要）：
英伟达以外，也给出“非锁定”的 CPO 方案
只要 CPO = 英伟达专属
CSP 就会天然抵触
⸻
问题三
“如果不用 CPO，用 NPO，是否也能解决物理瓶颈，达成英伟达的目标？”
结论一句话：
NPO ≈ 80% 的物理问题 + 20% 的战略问题
CPO = 100% 的物理问题 + 100% 的控制问题
技术层面（物理极限）
• NPO：
• 光靠近芯片
• I/O 距离极短
• 功耗、信号完整性大幅改善
• 在 3.2T 之前：
• NPO 完全够用
• 而且工程可行性、良率、维护性都更好
👉 所以你看到现实是：
NPO 在 scale-up 场景会先成为“主流解”。
战略层面（英伟达真正关心的）
• NPO：
• 可拆
• 可换
• 可由第三方做
• CPO：
• 强绑定
• 强系统化
• 天然利于“架构锁定”
👉 所以：
NPO 能解决“性能”，
但不能完全解决英伟达的“控制焦虑”。
⸻
问题四
“如果 CSP 接受了 CPO，能不能绕开英伟达，自己做生态？”
结论：
理论上可以，工程上极难，但长期一定会尝试。
分两步看：
短中期（3–5 年）
• CPO 必然：
• 与交换芯片
• 与封装
• 与功耗管理
强耦合
• 英伟达仍然最有系统经验
👉 初期 CPO，英伟达仍占主导。
长期（5–10 年）
一旦：
• 硅光工艺成熟
• 光引擎模块化
• 封装标准化
那么 CSP 一定会：
• 自研交换 ASIC
• 指定 CPO 接口
• 把：
• 光引擎
• ELS / FA
• PIC
交给中际旭创 / 新易盛这种“系统级供应商”
👉 这是必然趋势，只是时间问题。
⸻
问题五（你这个问题非常关键）
“现在英伟达自己干 CPO，是不是因为生态不成熟？等真推起来，它反而不想干了？”
结论非常干脆：
是的，你这个判断是对的，而且非常‘英伟达’。
现在为什么“自己干”？
不是因为它想赚这个钱，而是因为：
• 量太小
• 风险太高
• 工程复杂
• 没人愿意先踩坑
👉 这叫“战略样板工程”。
未来如果真成了，英伟达会干什么？
一定是：
• 自己保留：
• 架构定义权
• 接口标准
• 验证体系
• 把：
• 光引擎
• 光子器件
• 模块化部分
逐步外包
而且：
英伟达最不喜欢干“重资产 + 低毛利 + 制造型”的事。
这和你说的**“占产能、不挣钱”**完全一致。
⸻
最后，把五个问题合成一个“总判断”
你现在可以这样理解英伟达：
它并不是要“逼死可插拔”，
而是要确保：
当可插拔真的不行的时候，
整个产业只有“我准备好的那条路”。
而在这条路上：
• NPO 是现实主线
• 可插拔是长期并行
• CPO 是极限方案、战略威慑
最后一个问题：
英伟达毕竟在柜内的话语权很强，是否有可能强行让CSP必须用CPO ？CSP厂商是只能被迫接受，还是会进行制衡，或是提出意见要求？
这个问题，其实已经触到**英伟达—CSP 博弈的“权力边界”**了。结论可以说得很明确，而且不是模糊判断。
⸻
先给一句话结论
英伟达在“柜内”话语权极强，但并不具备“强行用 CPO、CSP 只能被迫接受”的现实条件；
真实结果几乎一定是：英伟达想推 CPO，但 CSP 会把它“压回到 NPO”。
不是对抗，而是结构性制衡。
⸻
一、英伟达“看起来”是不是有能力强推 CPO？
从表面看，确实有三个“看起来很强”的筹码：
1. 算力不可替代性
• 现实世界里，高端 AI 训练仍然离不开它
2. 整柜 / 整机交付权
• CSP 买的是系统，不是单卡
3. 柜内网络（NVLink / NVSwitch）完全由它定义
所以你问这个问题是完全合理的：
“那我直接说不用 CPO 就别买我系统，行不行？”
⸻
二、但现实是：英伟达“不能”这么干，而不是“不想”
这里是关键点。
1️⃣ 技术上：CPO 还不具备“强制性基础条件”
如果英伟达强推 CPO，CSP 可以非常理直气壮地说一句话：
“NPO 在同代速率下，性能已经够用，
你凭什么让我接受更高风险、更难维护、更高 TCO 的方案？”
注意，这不是情绪，而是工程事实：
• NPO 已经：
• 解决铜缆瓶颈
• 功耗、信号完整性大幅改善
• 在 800G / 1.6T / 甚至早期 3.2T：
• CPO 并非“唯一解”
👉 只要不是“非 CPO 不可”，英伟达就失去了强推的正当性。
⸻
2️⃣ 商业上：CSP 不是“单一买家”，而是“系统级甲方”
这是很多人低估的一点。
CSP 在谈判桌上掌握的不是“嘴硬”，而是真实杠杆：
• 可以：
• 延后采购节奏
• 拆分订单
• 要求多方案并行
• 甚至：
• 用自研 ASIC / 非 NV 集群作为边际制衡
他们未必真能立刻不用英伟达，
但可以让英伟达“很难受”。
👉 对英伟达来说，“卖慢”比“卖少”更致命。
⸻
3️⃣ 运维与责任风险，英伟达不可能一肩扛
如果英伟达强推 CPO，意味着：
• 故障不可插拔
• 运维复杂度上升
• MTTR 拉长
一旦出问题，CSP 一定会说：
“这是你指定的方案，
系统级稳定性责任你全背。”
而你要知道一件事：
英伟达的商业模式，从来不是“背系统运维风险”的模式。
⸻
三、那真实世界里，会发生什么？
不是“硬刚”，而是协商 + 技术折中。
👉 真实最可能的结果是三点：
✅ 1）英伟达会“推”，但不是“强推”
• 提供 CPO 作为：
• roadmap 选项
• 极限场景方案
• 但不会：
• 设为唯一可选项
⸻
✅ 2）CSP 会明确提出：优先 NPO，而非 CPO
而且理由非常充分：
• 性能差距有限
• 风险显著更低
• 维护与 TCO 更优
👉 NPO 就是 CSP 用来“制衡 CPO”的现实武器。
⸻
✅ 3）最终形态是“分层使用”，而不是“一刀切”
你会看到的更可能是：
• 柜内极短距 / 特殊拓扑
→ CPO / 类 CPO（小规模）
• 主流柜内互联
→ NPO
• 柜外 / scale-out
→ 可插拔继续用
这不是妥协，这是系统工程最优解。
⸻
四、一个非常重要但常被忽略的判断
英伟达真正想“锁”的不是 CPO，
而是“当 NPO 不够用时，只有我有下一步方案”。
只要这点成立，它没必要也不敢现在就硬压 CSP。
⸻
五、给你一个“最终定锚结论”
你可以把这件事这样理解，而且非常稳：
• ❌ 英伟达没有能力也没有条件强制 CSP 用 CPO
• ❌ CSP 不会被迫无条件接受高风险方案
• ✅ CSP 会用 NPO 作为现实制衡工具
• ✅ CPO 会被保留为：
• 极限解
• 未来选项
• 战略威慑
这是一场“谁都不掀桌子”的博弈，而不是单边胁迫。