【长江通信于海宁团队】AI光通信随笔:聊聊OCS,为什么要重视?
先讲大叙事,OCS交换机是我们认为#和CPO/OIO并行的终局技术方案选择,可能会呈现双分天下的格局。大客户偏好,谷歌坚定站队OCS,Meta有倒向OCS的趋势,AWS和微软可能对CPO方向兴趣更大(考虑到NV有送样);方案商,NV对CPO和OCS都有布局。
产业进度上,目前CPO方向已进入送样测试阶段;#OCS仍有方案之争,3个方案(3D MEMS、数字液晶DLC、直接光束偏转 DLBS)在并行研发,#但部署已经在加速。
部署场景比较复杂,欢迎私聊,概括来讲:1)当前架构(三层架构):TPU→核心交换池→TOR交换机→OCS,#OCS承担远距离互联作用; 2)后续演进方向(两层架构):TPU→核心交换池→OCS;3)终局目标:TPU→OCS,最终替代现有电交换机;目前谷歌的集群OCS覆盖率快速提升,但是以第一种方式为主。
竞争格局,我们认为做电信光学系统级产品的公司在OCS上有更大的先发优势,例如海外Lumentum、Coherent,国内的华为、dkl、gxkj。
供应链指引,Lumentum在25Q2首次实现收入,2家大客户出货,还有1家即将出货,公司在增加产能,26H1开始看到显著收入。Coherent主推数字液晶DLC方案,25Q1就首次实现收入,预计26年有更显著收入贡献。#两家的口径都比较乐观。
作为远期会推进的技术方案,#可类比24年CPO/OIO发酵的行情。产业链环节:整机设计,目前看#光学系统能力及硅光子能力会有帮助 (dkl、zjxc、gxkj);光无源器件,主要包括准直透镜、波分复用器、环形器、光纤连接器等(tjkj、tftx、cxbc等);光源(yjkj、sjgz、cghx等);MEMS阵列(swdz);代工(gkkj)。
【MSAI】谷歌OCS光交换机更新
领导好,最近我们组织了谷歌OCS光交换机专家交流,同时Lumentum、Coherent也在业绩会上披露了OCS的进展,为您更新如下:
#OCS光交换机性能优异
➠OCS光交换机采用纯光反射/折射原理实现信号路由与交换,理论速率上限达到电交换机的1000倍;
➠从性能来看,OCS光交换机除了数据传输速度快,还具备低功耗、稳定性可靠性强、易维护等优点。
#伴随TPU快速放量
➠OCS光交换机用于谷歌TU服务器Spine层交换,替代传统Spine层电交换机+光模块的组合方案;
➠谷歌TPU快速增长,预计2025/2026年分别出货200万/300万颗;
➠从finisar订单节奏来看,目前月产1200台,2024-2026年每年维持翻倍需求增长。
产业链相关公司
【finisar】此前OCS光交换系统独供;
【Lumentum】已送样并于2Q25开始批量交付OCS产品;
【腾景科技】finisar钒酸钇核心外协,已有订单;
【赛微电子】MEMS-OCS晶圆启动小批量试生产。
OCS光交换机原理
OCS(光电路交换)光交换机的核心原理是通过纯光路切换实现信号路由,避免光电转换环节。其技术本质与电话交换机类似,但通过光学器件实现自动化控制。
OCS光交换机有什么优势
1.显著降低功耗(核心优势)
传统电交换机的瓶颈:电交换机中光电转换(O-E-O)消耗总功耗的40%-50%(如51.2T电交换机功耗约3000W,其中光模块占1.5kW)。
OCS的解决方案:数据全程在光域传输,省去光电转换环节,功耗降低40%-65%。
案例:谷歌TPU集群采用OCS后,10万GPU规模下功耗比传统InfiniBand方案降低65%(《野村-OFC回顾》)。
2. 超低传输延迟
传统架构延迟:电交换机需多次光电转换,延迟在微秒级(μs)。
OCS的优势:光信号直通,延迟降至纳秒级(ns),提升AI训练效率。
场景:适用于GPU/TPU间高带宽互联(如谷歌TPU集群内OCS延迟仅光传输时间+微镜调节时间)。
3. 高带宽与协议无关性
带宽优势:单端口支持1.6T速率,总交换容量可达数百Tbps(如Coherent 300×300端口OCS达480Tbps),远超电交换机(当前最高102.4T)。
协议无关性:仅提供物理光通道,不解析数据协议,兼容不同速率(800G/1.6T)和网络标准(以太网/InfiniBand),无需随服务器升级更换设备(《谷歌OCS架构解析》)。
4. 长期成本效益
降低升级成本:谷歌实践表明,一代OCS设备可支持三代电交换机升级周期,减少硬件迭代开支(《OCS光交换技术调研》)。
减少配线复杂度:替代机柜内铜缆,简化布线(如英伟达GB200机柜内用OCS替代5000根铜缆),降低维护成本。
5. 高可靠性与故障恢复
可靠性提升:减少光电转换环节(传统光模块故障率较高),系统稳定性增强。
快速冗余切换:支持毫秒级故障切换(如英伟达通过OCS实现冗余路径),避免AI训练中断(小时级损失降低至秒级),保障算力连续性(《OCS在AI集群的应用场景》)。
补充:
组网灵活性动态重构拓扑:通过软件定义光路,快速切换网络架构(如从胖树结构切换到3D Torus),适配不同AI负载(如训练/推理流量模式差异)。
案例:曦智科技联合中兴通讯搭建的千卡OCS超节点网络,实现灵活组网(《OCS产业链机会》)。
局限性(需客观说明)
切换延迟较高:光路重配置需毫秒级时间(MEMS微镜调节),不适合高频微流(bursty traffic)。
初期成本高:单台OCS售价约5万美金(电交换机约2万美金),规模量产后方可降低成本。
生态成熟度:需配套定制光模块(如带环形器/WDM),软件定义网络(SDN)控制层尚未标准化。
OCS光交换机预计何时可以量产
1. 当前阶段(2025年)
样品测试与小批量生产:Coherent、Lumentum等公司的OCS产品处于样品验证阶段,已向北美云厂商(如Oracle、微软)及同级别客户交付试验设备(《COHR菲尼萨业绩电话会纪要》《OCS全光交换调研》)。
谷歌自研的OCS已规模化应用于TPU集群,2024年采购量约1.2万台,2025年计划采购量提升至约2万台(《详解OCS交换机技术、趋势与空间》)。
国产厂商(如赛微电子)的MEMS-OCS晶圆启动小批量试产,预计2025年下半年出货(《光通信MEMS-OCS赛微电子积极布局》)。
2. 量产时间点
2025年下半年:谷歌、Coherent等头部厂商的OCS将进入规模化量产阶段。谷歌TPU V6集群计划采用OCS组网,预计2025年下半年批量部署(《OCS光交换技术调研》《天风电新×通信×计算机:硬核分享AI投资观点》)。
开放计算联盟(OCP)推动OCS标准化,加速产业链成熟,Lumentum R300 OCS计划2025年下半年量产(《OCS光交换技术调研》)。
2026年:微软、Meta等云厂商结束评估期,预计2026年启动批量采购(《详解OCS交换机技术、趋势与空间》)。
国内厂商(如光迅科技、德科立)的OCS产品计划2026年量产,配套华为、字节跳动等客户(《天风通信》报告)。
3. 长期规划(2028-2030年)
LightCounting预测,数据中心OCS市场规模2028年达每年4-5万台,2030年超20亿美金(《详解OCS交换机技术、趋势与空间》《花旗:CPO大报告》)。
技术路线以MEMS(谷歌、Lumentum)和硅基液晶(Coherent)为主,压电陶瓷方案因高成本尚未成熟。
关键制约因素
技术成熟度:OCS需适配新型网络拓扑(如3D Torus),软件定义网络(SDN)优化尚未完成(《OCS光交换技术调研》)。
供应链产能:核心器件(如MEMS微镜、光环形器)依赖腾景科技等供应商,产能爬坡需时间(《详解OCS交换机技术、趋势与空间》)。