用户头像
Doloresy
 · 江苏  

$赛微电子(SZ300456)$ $Lumentum控股(LITE)$ $Ciena科技(CIEN)$

每天学一点,稳定亏一点[狗头]

“可以,咱们直接把这个事儿“拍扁”成:一颗光子在 AI 数据中心里的出差旅行

你就记住一张心智图:

“我是一个 bit,坐在光子这辆车上,从 GPU A → 光模块 → 光纤 → OCS/交换 → 光模块 → GPU B。”
一路上遇到的各种黑话(OCS、EML、PAM4、coherent-lite…)其实就是不同的“路段、十字路口和高速入口”。

0. 先画一张“光子的旅行地图”

非常粗略地分 3 段路:

机架内 / 短距离(几十厘米 ~ 几米)

多数还是 铜线(DAC / ACC),光子还没出场,电子在跑。

NVIDIA NVL72 之所以不用大量光模块,就是这里大量用铜。

数据中心内部 / 园区内(几十米 ~ 几公里)

GPU → Top-of-Rack 交换机(TOR) → Spine → Core…

这里开始大量用 800G / 1.6T 光模块,光子登场,开始跑在光纤上。

有两种主流路数:

传统·以太网交换机:电子域做交换,光只是“搬运电信号”。

OCS(光路交换):直接在光里用 MEMS 小镜子把线路“改道”。

数据中心之间(DCI)(几公里 ~ 几百公里)

典型就是双子数据中心 / 跨城双活之类。

这里大多用 coherent 光传输系统(400ZR/800ZR 一类),光子要跑得远,不能只靠“亮/不亮”,要靠 相位/偏振,配上很聪明的 DSP(数字信号处理)。

Ciena 主打第 2、3 段(尤其是 2.5 段:园区 + 城域 / DCI),
Lumentum / Coherent 更偏第 2 段里:给所有人供应光模块、激光器、芯片。

下面我们从光子的视角,把你列的几个关键词,一路串起来。

1. 光模块是什么鬼?800G、1.6T、200G PAM4 怎么连起来

先从最容易乱掉的地方讲起:“800G 模块、200G per lane、PAM4”

1.1 一个 800G 光模块,长什么样?

想象一下:
机柜上的交换机/服务器,有个小插槽,里面插了一块“小U盘形状”的东西,那就是光模块(optical transceiver)

它负责两件事:

电 — 光

交换机/加速卡吐出来的是 电信号(高速差分线)

模块用芯片把它转换成光,丢到光纤里;

光 — 电

对端模块从光纤收到光信号,再换回电信号给对端 GPU/交换机。

里面大概有:

SerDes(高速串行器)

驱动电路

激光器 + 调制器(比如 EML)

接收端光探测器

DSP(做 PAM4 解码 / 坏信号纠错)

800G 模块:指的是总容量 800 Gbit/s,通常是:

8 条光通道(8 lanes)× 每条 100G

将来 1.6T 模块,典型是 8×200G 或 16×100G。

所以,“200G per lane + 8 lanes = 1.6T 模块”,故事就这么来的。

1.2 PAM4 是什么?跟 200G 有啥关系?

PAM4(4 电平幅度调制)= 把“电平”从 2 档升级成 4 档。

传统 NRZ:

只有“高 / 低”两档 → 每个符号只能表示 1 bit

PAM4:

有 4 个不同电平 → 每个符号可以表示 2 bits

好处:在同样的“符号速率”(例如 50 Gbaud)下,

NRZ ≈ 50 Gbit/s

PAM4 ≈ 100 Gbit/s(2 bit 每符号)

所以:

早期:50G PAM4 per lane → 400G 模块(8×50G)

现在主流:100G PAM4 per lane → 800G 模块(8×100G)

下一代:200G PAM4 per lane → 1.6T 模块(8×200G)

你看到任何“200G PAM4 per lane”的说法,脑子里就自动翻译成:

“单条光通道的极限变成 200G 了,所以一块模块可以堆到 1.6T。”

Lumentum / Coherent 在这里干的是:

给行业提供 200G/lane 能跑得动的激光器 + 调制芯片(EML)+ 驱动器

模块厂(包括他们自己、Innolight、Eoptolink 等)把这些元件拼在一起,做成 800G/1.6T 模块。

2. EML:高速“车库门”的高级版本

现在光子要上路了,它需要一扇“车库门”来把 bit 装进光里。

2.1 简单版:DML(直接调制激光)

你可以简单理解为:
直接给激光器“拧电流”,亮 = 1,暗 = 0,就像直接拿开关控制灯泡闪。

优点:便宜,结构简单。
缺点:速度、高码率、距离上来了,就容易失真、带宽不够,抖成一团。

2.2 高级版:EML(Externally Modulated Laser)

EML 的思路是:

把“光源” & “开关”拆开:

激光器持续发一个比较稳定的光;

旁边放一个“外部调制器”(通常是 EAM 或 MZ 调制器),用电信号控制这扇“门”的开合,来改变光强度。

对光子来说:

“我在高速公路收费站排队,前面是一个非常快的自动闸机(调制器),这闸机可以 200 次/秒(类比)地升降。”

为什么 200G per lane 都在谈 EML?

当你想把单通道从 50G → 100G → 200G 提速时,

直接拿 DML 开关灯,灯丝已经受不了;

必须用 EML 这种更专业的“高速闸机”,开关干净、波形边缘陡、可控性更好,才能在 200G 的速率下还保持眼图干净、误码率可收敛。

商业连接:

Lumentum / Coherent / Sumitomo 在 EML 上都是核心供应商;

谁能先搞定 200G/lane EML + 量产 + 良率,谁在 1.6T 时代就多了一块筹码。

你在研读 LITE/COHR 时,看到“EML / 200G per lane / 1.6T 模块”这些词,就知道:这是在讲 AI 集群每条光通道加速 的 story。

3. IMDD vs Coherent vs Coherent-lite:

——“光子是闭着眼开车,还是戴着 AR 眼镜开车?”

再来解决一个大词:coherent(相干)

3.1 IMDD:只看“亮不亮”的笨办法

IMDD = Intensity-Modulation / Direct-Detection
字面意思:

调制的是“强度”,接收端只看“有多亮”

比如 PAM4:4 个不同亮度 → 代表 4 种符号。

它的特点是:

电路相对简单,模块功耗低;

但当距离变长、速率变高时,噪声 + 色散会把亮度搞得模糊,眼图闭合,误码率上天。

所以 IMDD 更适合 DC 内(几十米 ~ 几公里)的短距场景
——大部分 400G / 800G / 1.6T 数据中心模块都是 IMDD + PAM4。

3.2 Coherent:把“相位、偏振、频率”都用上

相干的核心 idea:

光子不光有“亮不亮”,还有“波的相位(什么时候起波)、偏振(上下/左右摆)、频率”等维度。
相干接收会在接收端用一个本振激光 + 很聪明的 DSP,把这些信息全部“读”出来。

好处:

能在相同信噪比下,传更多 bit / 更远距离

可以做很高级的调制(QPSK、16QAM…),“每个波形符号承载好几 bit”;

可以很好地对抗光纤色散等物理问题。

代价:

模块里有大块 DSP,功耗高、成本高。

接收端电路复杂很多。

因此,coherent 的传统主战场是 DCI / 城域 / 长途,比如 80 km、几百 km 甚至上千 km。
这就是 Ciena 老本行。

3.3 Coherent-lite:减肥版“聪明光模块”

那 coherent-lite 是啥?你可以把它想成:

“我还是相干,但我只跑 1–40 km,速率适中,
DSP 和模拟电路都瘦身,功耗比传统 coherent 低很多。”

应用场景:

园区内多楼宇之间;

数据中心集群之间(几十公里);

配合 OCS 做大规模、可重构的 AI fabric。

Ciena 的 1.6T Coherent-lite 就是一种典型产品:

仍然是相干技术,所以有更高的 “损耗裕度(loss budget)”——可以支撑更多接口、更多 OCS 级联;

功耗压到和 IMDD 差不多的水平,适合在 DC 环境争地盘。

你看到“Coherent-lite / 1.6T coherent DCI for data center / in and around the datacenter”这一类字眼,就可以自动翻译成:

“有人打算把传统电信的高端玩具(相干)迷你化,搬进 AI 园区,这块多半跟 Ciena / Nokia / Infinera 有直接关系。”

4. OCS(Optical Circuit Switch):光子的“巨型立交桥”

现在光子在数据中心内部跑,它可能会遇到两种“十字路口”:

电子交换机(Ethernet switch)

光 → 电 → ASIC 芯片里决定转发路径 → 电 → 光

好处:灵活、按包转发;

坏处:每一跳都要电 ↔ 光转换,耗功耗、模块数量多。

OCS:光路交换机(Optical Circuit Switch)

本质是一个大号 NxN 光学矩阵,里面全是小镜子(MEMS)。

光子进来之后,不变成电,直接在光里被“一块微型反光镜”弹到另一根光纤上。

相当于给光纤做“物理重接线”,但软件可以动态 reconfig。

对光子来说:

“走 OCS 这条路,我一路都是光 → 光 → 光,只在最两端进/出机架时才变成电。”

好处:

大幅减少中间的光模块数量(因为不用每一跳都 O/E/E/O);

功耗/成本在一定规模以上会非常有优势;

拓扑可以重构(例如今天连 A-B,明天连 A-C)。

难点:

OCS 本身是大设备,要高可靠性 MEMS 制造和封装;

控制软件、调度系统要复杂;

适合“粗粒度连接”,不适合像以太网那样 per-packet 转发。

Lumentum 的 R300 / R64 OCS 就是这一块的代表,
Google 的 TPU v4/v5 系统论文里谈过 用 OCS 做可重构 AI fabric
这就是你看到“LITE + Google TPU + OCS”那条故事线的技术基础。

Ciena 的 Coherent-lite 在这里的角色是:

“如果你用 OCS 做大规模光路网,你的每条光路损耗会更大,需要更高的 loss budget,coherent-lite 比 IMDD 更撑得住。”

5. 把公司塞回这张“光子的旅程图”

现在我们把刚才那张旅行图,再写一遍,这次标上公司:

GPU A(NVIDIA/TPU) → 交换 ASIC(Broadcom/Marvell) → 光模块 → 光纤 → OCS / 以太网交换 → 光模块 → 交换 ASIC → GPU B

光模块 & 里面的器件:

Coherent:大体量光模块 + 激光器 + 调制器 + WSS + coherent 模块

Lumentum:EML 芯片 + 部分模块 + 电信光器件

中系:Innolight、Eoptolink、Accelink 是纯模块放量大头

相干系统 / DCI:

Ciena:WaveLogic 5/6 coherent、Coherent-lite、DCI 解决方案

Nokia / Infinera / Cisco 等是直接对手

OCS:

Lumentum R300/R64

HUBER+SUHNER/Polatis、Calient 等

交换 ASIC / CPO:

BroadcomMarvellNVIDIA 自研;

CPO 合作里,Lumentum / Coherent 都作为激光 & 光芯片伙伴。

你以后看到一段话,只要先问一句:

“这里是在讲光子的哪一段路程?”

再对照:

在讲 跨城 / DCI / coherent / 400ZR/800ZR → 主要想 Ciena & 同行;

在讲 800G/1.6T 模块、200G per lane、PAM4 → 想到 Coherent + Lumentum + 中系模块厂;

在讲 OCS、Project Apollo、可重构拓扑 → 想到 Lumentum + Ciena coherent-lite;

在讲 CPO / co-packaged optics → 两家都在生态里,但目前还偏未来选票。

6. 给你一个“学习路线图”:三层 + 五个关键词

为了以后不再被术语淹没,你可以用一个很克制的学习顺序:

第一步:只分清楚三段路

每篇材料,先给自己一个标签:

机架内 / very short(多铜少光)

数据中心内部 / 园区(800G/1.6T、PAM4、OCS)

数据中心之间 / DCIcoherent

先搞清他在讲哪一段,再看下面的细节,不然极容易乱。

第二步:五个“核心单词”吃透,其他一律先忽略

你刚才点的那几个,其实可以浓缩成 5 个:

PAM4:多一级档位 → 同样频率下多一倍 bit→ 决定“单 lane 能跑多快”。

200G per lane:PAM4 + 更高工艺 → 单 lane 200G → 支撑 1.6T 模块。

EML:高速“闸机”,是让 100G/200G lane 跑得稳定的关键光器件。

Coherent / Coherent-lite:带脑子的光模块,用相位/偏振 + DSP 换“更远、更抗噪”,DCI 和园区内高端线路的主力。

OCS:纯光立交桥,让光子中途不必变回电子,适合 AI fabric 的粗粒度重构。

你可以先只认这 5 个关键词,其它先当背景噪音。
每当看到新词,先问:

“它属于这 5 个里的哪一类?是调制方式、光器件、路由方式,还是系统级玩具?”

搞定了这 5 个,你再回头看 CIEN / LITE / COHR 的卖点,其实就成了:

CIEN:卖有脑子的长途 & 园区光路(coherent-lite / DCI)

LITE:卖高速闸机(EML)+ 光立交(OCS)+ 一点 CPO 原材料

COHR:卖整车(光模块)+ 很多零件(器件),量大摊薄成本

从这个角度再看“TPU vs GPU”叙事,你就能更快判断:
对谁来说,这是“总车流量增加”(三家都吃),
对谁来说,这是“特定路段(OCS/coherent-lite)的车流变得更密”(LITE/CIEN 弹性更高),

而不是被那些看上去很酷的技术词堆起来的段子绕进去。”