用户头像
韭菜钱多多
 · 上海  

转发的,我只是搬运工[笑][笑][笑]
英伟达 CPO 会议问答环节
1. CPO 的部署时间表
提问([00:25:09]):
“我们何时能看到 CPO 的大规模部署?”
回答(Gilad):
• 共封装光学器件(CPO)将于今年启动部署。
NVIDIA 已宣布三家首批部署 Quantum-X InfiniBand + CPO 的合作伙伴:
◦ CoreWeave
◦ Lambda
◦ 德克萨斯高级计算中心(TACC)
• 随着 Spectrum-X 系统开始出货,将出现更多采用 CPO 的 AI 及超级计算部署案例。
2. CPO 的可靠性问题
提问([00:26:21]):
“CPO 的可靠性问题现已解决吗?主要的可靠性隐患是什么,又是如何解决的?”
回答(Gilad):
• 可插拔光模块的可靠性问题多源于人为操作:
◦ 模块外置,安装前需清洁;
◦ 安装/更换单个模块可能物理干扰其他模块;
◦ 暴露于灰尘及频繁插拔会降低系统韧性。
• 共封装光学(CPO)的优化设计:
◦ 光引擎集成于交换机封装内部,与交换 ASIC 一体化;
◦ 采用液冷密封设计,数据中心内无需人工接触;
◦ NVIDIA 及合作伙伴打造全系统制造测试流程,确保部署前整机 100% 验证(非单一组件)。
• 结果:CPO 可靠性与韧性远超可插拔方案,相关顾虑已完全解决。
3. 与台积电(TSMC)的合作及新需求
提问([00:28:20]):
“针对 CPO 这项新技术,你们与台积电合作时提出了哪些新要求?”
回答(Gilad):
合作核心创新点如下:
• 封装/共封装工艺:
◦ 需满足大规模量产的可靠、全可测试封装流程;
◦ 早期 CPO 尝试未能实现系统级验证与可靠性保障。
• 光引擎设计:
◦ 摒弃传统大型 MCM 架构光引擎(无法扩展至大端口数交换机);
◦ 采用基于微环调制技术的小型化光引擎,适配高密度大端口 AI 网络。
• 其他关键创新:
◦ 交换机内部光纤对准与光纤阵列设计;
◦ 集成高功率激光源:满足性能需求,同时减少密集光网络的激光器用量。
综上,封装、光引擎、光纤耦合及激光设计均实现突破,台积电工艺为核心支撑。
4. 与可插拔光模块的灵活性对比(短距 vs 长距)
提问([00:31:57]):
(意译)可插拔光模块支持按端口构建网络,可根据成本和距离选择多模光纤(MMF)短距或单模光纤(SMF)长距模块。“CPO 是否具备同等灵活性?能否定制长距或短距的 CPO 交换机?”
回答(Gilad):
• 可插拔模块的灵活性:支持按端口/应用场景选择多模/单模光纤、DR/FR/更长传输距离等。
• CPO 的灵活性逻辑:需在交换机设计初期选定光学技术,灵活性体现在选择适配的 CPO 型号(而非逐端口更换模块)。
• NVIDIA Spectrum-X 光子 CPO 核心优势:
◦ 覆盖数据中心内部全距离及园区楼宇互联;
◦ 单一技术替代多种可插拔模块,无需额外适配;
◦ 超远距离(跨数据中心)场景可外接收发器;
◦ 功耗较可插拔方案降低约 5 倍。
5. 超大规模云服务商对 CPO 持谨慎态度的原因
提问([00:35:19]):
“尽管 CPO 在带宽、密度和能效上优势显著,但哪些关键因素可能导致超大规模云服务商延缓或谨慎采用?”
回答(Gilad):
• CPO 核心优势:
◦ 更低功耗→相同电力预算下支持更多算力;
◦ 更高韧性、更少链路闪断→提升系统可用性及“首次中断时间”;
◦ 更高密度与 AI 性能。
• 谨慎因素及 NVIDIA 应对方案:
1. 担忧交换机更换频率增加
◦ 顾虑:光模块集成后,故障需整机更换?
◦ 回应:可插拔故障多因人为操作/环境暴露;CPO 光引擎密封且经系统级测试,可靠性优于传统无光模块交换机。
2. 失去端口级灵活性
◦ 顾虑:无法混合使用 MMF/SMF、短距/长距模块?
◦ 回应:CPO 已覆盖数据中心及园区全场景,单一技术替代多类收发器,同时降功耗、提韧性。
• 结论:预计超大规模云服务商会积极采用CPO。
6. CPO 与“按需付费”模式的权衡
提问([00:40:29]):
“可插拔光模块的核心优势是‘按需付费’——仅订购所需模块,无需一次性付清全款。CPO 是否会导致初始采购成本直接达到满配水平?”
回答(Gilad):
• 按需付费模式的适用场景:传统数据中心(交换机多未满配,初期仅启用部分端口)。
• AI 超级计算机的特殊性:
◦ 网络拓扑高度优化,交换机设计为满配使用(full radix);
◦ 参考架构默认所有链路服务于大规模 GPU 集群。
• CPO 在 AI 场景的成本优势:
◦ 用户最终仍需采购全套光模块,CPO 集成方案资本支出(CapEx)更低;
◦ 大幅节能降低运营支出(OpEx);
◦ 兼具更高可靠性与更长“首次中断时间”。
• 结论:AI 网络架构中,CPO 在成本、功耗、可靠性上均占优,虽不支持传统“按需付费”,但综合价值更高。
7. 下一代产品的创新与工艺改进方向
提问([00:42:59]):
“下一代产品的创新与工艺改进将聚焦哪些方向?其核心作用是什么?”
回答(Gilad):
• 行业迭代节奏:GPU、CPU、交换机、SuperNIC 及数据中心架构均遵循年度更新周期。
• 当前 CPO 核心指标:200G/通道(200G SerDes)、最大化节能、高可靠性、支持 AI 工厂大端口数交换机。
• 下一代创新重点:
◦ 更大端口数交换机→单设备支持更多端口;
◦ 更高光连接密度与数据吞吐量;
◦ 新型光纤-交换机连接技术;
◦ 更高密度全液冷机架→GPU 与网络协同节能扩展;
◦ 整体目标:持续提升交换机、机架及数据中心的代际密度。
8. 液冷方案与 DGX/BGX 机架的兼容性
提问([00:46:31]):
“所述液冷方案是否兼容 BGX/DGX 机架?”
回答(Gilad):
• NVIDIA 一体化设计理念:数据中心为整体系统,DGX(计算单元)与网络设备(Spectrum-X、Quantum-X)共享同一机架及冷却模型。
• 兼容性优势:
◦ 计算服务器的机架级液冷方案直接适配交换机/网络基础设施,简化部署、安装与管理;
• 灵活适配能力:
◦ Spectrum-X 以太网为开放平台,可联合制造合作伙伴为不同云服务商/客户定制机架及冷却适配变体;
◦ 支持多操作系统,适配多样化数据中心环境。
$天孚通信(SZ300394)$ $英维克(SZ002837)$ $仕佳光子(SH688313)$