2025年ACM顶会SIGCOMM将在9月8-11日期间举办,目前已经公布了接收的文章。其中,微软研究院团队发表了一篇题为《MOSAIC: Breaking the Optics versus Copper Trade-off with a Wide-and-Slow Architecture and MicroLEDs》的研究论文,该论文提出了一种基于MicroLED技术的光学链路技术。该技术通过架构重构和组件创新,有望打破数据中心网络中铜缆与光学链路的固有权衡,为下一代高带宽、低功耗、高可靠的网络连接提供了可行方案。
一、数据中心网络的链路困境:铜与光的固有矛盾
当前数据中心网络的链路技术始终面临“传输距离、功耗、可靠性”的三元难题。铜缆链路虽具备功率效率高、可靠性强的优势,但传输距离极短(仅<2米),只能用于单个机架内部连接;而主流光学链路(如有源光缆AOC)虽能支持数十米传输,却存在功耗高、故障率高的问题——其功耗是铜缆的数倍,故障率更是铜缆的100倍以上。
随着网络速度向800Gbps及以上升级,这一矛盾愈发尖锐:铜缆的传输距离随速度提升持续缩短(下一代1.6Tbps铜缆预计仅支持<1米),而光学链路的功耗随速度增长显著上升(800Gbps AOC单端功耗达9.8-12W),且高速传输会加剧光学组件的老化和故障风险,形成“网络墙”隐患,可能导致数据中心部署成本增加、功耗失控、可靠性下降。
以AI集群为例,NVIDIA NVL72 pod为连接72个B200 GPU,因光学链路功耗过高(每机架增加20kW)和故障率问题(10万GPU集群每6-12小时发生一次链路故障),不得不采用铜缆连接,导致72个GPU被迫集中在单个机架,功率密度高达120kW/机架,需复杂液冷方案且面临部署延迟。这种困境凸显了对新型链路技术的迫切需求。
二、MOSAIC技术核心:宽而慢架构打破权衡
MOSAIC(“宽而慢”架构光链路技术)的核心创新在于颠覆传统链路的“窄而快(NaF)”模式,采用“宽而慢(WaS)”架构,通过数百个并行低速光学通道替代少数高速通道,实现长距离、低功耗、高可靠的传输目标。
1. 架构革新:从“少而快”到“多而慢”
传统链路(铜缆和光学)均依赖“窄而快”架构,例如800Gbps链路通常采用8个100Gbps高速通道。这种设计在铜缆中因高速信号完整性问题限制距离,在光学中因高功耗组件(激光驱动器、ADC/DAC、DSP)和复杂纠错机制导致功耗高、可靠性低。
MOSAIC转向“宽而慢”架构:将少量高速通道替换为数百个并行低速光学通道。例如,以2Gbps/通道计算,400个通道即可实现800Gbps总速率。这种设计借鉴了内存和芯片总线的并行低速思路,具备低功耗、高可靠、设计简单的天然优势。
事实上,内存和芯片互连通常采用“宽而慢”架构,通过多个低速并行通道降低功耗。图2展示了不同芯片互连技术中通道速度与能量效率(pJ/bit,相当于W/Tbps)的关系,对比了传统高速串行链路(XSR )与宽而慢方案(UCIe、BoW、OpenHBI )。结果表明,单通道数据速率越低,整体能量效率越高。除功耗节省外,如前所述,更低的速度还能降低铜缆链路的通道损耗和提高光学链路的可靠性。
鉴于这些优势,人们可能会疑惑:为什么网络链路技术偏离了内存和芯间互连的路线,转而采用“窄而快”设计?
原因在于基本物理限制。与板级走线可通过细间距布线实现高密度路由不同,米级铜缆在多通道紧密排列时会遭遇电磁干扰(EMI)和串扰问题。因此,铜缆中通道数量的增加超过一定限度后便不切实际,迫使通过更少通道的高速串行传输来最大化带宽。 另一方面,虽然光学技术消除了EMI,但激光器功耗随通道数量增加的扩展性不佳。单个通信激光器通常功耗为数十至数百毫瓦,扩展到数百个激光器会导致功耗过高。此外,大规模封装多个激光器和光纤会带来严重的可靠性和制造限制。最后,由于激光器本身的可靠性问题,增加激光器数量会成比例增加故障率。
通过采用microLEDs作为光源,MOSAIC克服了这些限制,为光学“宽而慢”方案提供了实用途径。首先,与铜缆不同,microLEDs采用光学传输,消除了EMI,使通道可高密度排列而无干扰。其次,单个microLED功耗仅数百微瓦,比传统激光器低几个数量级,因此可扩展至数百个通道而不会导致功耗过高。第三,单片集成的microLED阵列可在1 mm²内容纳400多个通道,结合MOSAIC紧凑的多芯成像光纤,实现超高密度解决方案和简单封装设计。最后,与需要温度控制和主动波长稳定的激光器不同,microLEDs本质上更坚固,且因其阵列特性,易于添加冗余通道以进一步提高可靠性。
2. 核心组件:三大技术突破支撑架构落地
- 直接调制microLEDs:
摒弃传统激光器,采用原本用于显示器的microLEDs作为光源。microLEDs尺寸仅几到几十微米,可通过简单ON-OFF模式调制至数Gbps;其制造采用阵列形式,单个芯片可集成数十至数百个,满足高聚合速率需求(如20×20阵列即可实现800Gbps)。与激光器相比,microLEDs功耗仅数百微瓦(为激光器的1/100-1/1000),结构简单且温度不敏感,可靠性显著提升。
- 多芯成像光纤:
采用医疗内窥镜等领域常用的多芯成像光纤,单根光纤可支持数千个纤芯,解决了数百通道需大量光纤的难题。同一光纤内各纤芯传输特性(损耗、色散)高度均匀,长度差异极小(即使1cm差异仅导致50ps延迟,仅为2Gbps信号比特周期的10%),可忽略通道间 skew。
- 低功耗模拟电子后端
利用低速通道特性简化设计,采用NRZ编码(仅ON/OFF两电平),无需复杂DSP、ADC/DAC和CDR电路。通过基础模拟均衡补偿传输损伤,大幅降低功耗——800Gbps链路单端功耗仅3.1-5.3W,较传统光学链路降低56-68%。
3. 性能优势:全面超越传统链路
MOSAIC实现了铜缆与光学链路的优势融合:传输距离达50米(为铜缆的10倍以上),功耗降低高达68%,可靠性是现有光学链路的100倍;支持800Gbps及以上速率,且可通过增加通道数量或提升单通道速度(至4-8Gbps)扩展至1.6Tbps、3.2Tbps。同时,其兼容现有QSFP/OSFP封装和PCIe等电气接口,可直接替换现有链路,无需修改服务器或交换机。
三、技术细节:解决“宽而慢”架构的工程挑战
1. microLEDs的光学难题与解决方案
microLEDs存在光束发散(难耦合进光纤)和光谱宽(易受色散影响)的问题,MOSAIC通过针对性设计解决:
- TIR微透镜设计:
microLEDs为朗伯发射器,光束发散角达±90°,传统微透镜耦合效率低。MOSAIC开发定制全内反射(TIR)微透镜,将光束准直为±12°锥形,耦合效率提升2倍以上,同时抑制通道间串扰。
- 低功耗模拟均衡补偿色散
microLEDs光谱宽度达数十纳米(远宽于激光器的亚皮米级),易导致色散。MOSAIC利用低速传输特性,通过简单模拟均衡电路补偿色散,无需复杂DSP,在2Gbps速率下可实现稳定传输。
2. 多芯成像光纤的通道复用设计
为避免数百通道需数百根光纤的复杂布线,MOSAIC采用“单microLED映射多纤芯”策略:利用成像光纤的大量纤芯(数千个),将单个microLED的光信号映射到多个纤芯,大幅降低对准精度要求,简化封装复杂度。同一光纤的制造工艺确保各纤芯传输特性一致,为并行传输提供稳定基础。
3. 电子设备的简化与优化
MOSAIC电子后端设计充分利用低速优势:
- 编码与纠错简化:采用NRZ编码(两电平),较传统PAM-4编码降低信噪比要求,无需昂贵ADC/DAC;因误码率低,无需额外FEC逻辑,仅依赖链路层FEC即可满足要求。
- 无CDR电路:通过额外控制通道直接传输时钟信号,接收端无需CDR电路,降低功耗和面积成本。例如,400通道中增加1个时钟通道,成本仅增加0.25%。
4. 通道超额配置:提升可靠性与效率
“宽而慢”架构的低成本冗余通道为优化提供可能:
- 故障容错机制
采用“ECC+热备用”双层设计。通过汉明码等轻量ECC对数据通道编码(如400数据通道+60校验通道,15%开销),可掩盖单通道故障;同时维持热备用通道,故障时快速切换,实现无宕机,确保链路误码率始终低于FEC阈值(2×10⁻⁴)。
- 带内控制平面
利用冗余通道支持链路训练、协商和遥测,不占用数据带宽。时钟信号通过控制通道传输,替代传统CDR电路,节省功耗。
- 功耗均衡
通过FIFO队列监控数据量,空闲时逐步关闭通道,负载增加时重新激活,使功耗与实际传输需求匹配。在AI推理等读写不对称场景中,可显著降低空闲功耗。
四、原型验证与规模化评估
1. 100通道原型系统性能
团队构建了端到端原型,核心配置包括: 10×10阵列microLEDs和CMOS传感器芯片,定制TIR微透镜阵列,多芯成像光纤,以及HTG-940 FPGA模拟电子后端。实验结果显示:
- 基础传输性能
20米距离下,每通道2Gbps传输的误码率(BER)中位数<2×10⁻⁸,所有通道均低于以太网FEC阈值(2×10⁻⁴);30米距离下,降至1.6Gbps可满足FEC要求。
- 容错能力验证
在10Gbps以太网实验中(6数据通道+5校验通道),人为关闭2个通道后,“ECC+热备用”机制可维持BER稳定,无链路中断;仅用ECC则在第二次故障后失效。
- 微透镜效果:TIR透镜将microLED光束从±90°压缩至±12°,耦合效率提升2倍,通道间串扰显著抑制。
2. 规模化模拟与扩展能力
研究团队通过仿真验证了MOSAIC的规模化潜力:
- 800Gbps可插拔模块:
采用460通道(含15%冗余),模拟显示50米距离内可实现2Gbps/通道传输,BER<10⁻⁶;10米内支持8Gbps/通道。
- 可靠性模拟:
配置100个冗余通道后,即使单通道故障率(FIT)为1,整体链路FIT可降至<20,达到铜缆可靠性水平(传统光学链路FIT为数百)。
- 耦合与串扰
Zemax光学仿真显示,460通道在多芯光纤中传输时,光束分离清晰,串扰可忽略,接收光功率与原型一致。
-工程化实现分析:
该测试样机由于若干原型制作限制(如绑线、 分立透镜和电子设备),不得不对通道数量和性能做出妥协。对于量产模块,研究团队利用小型化和集成设想了一款模块设计如图10所示,其可行性已得到供应商确认。与原型相比,该设计具有多项优势,可实现更好的性能和效率:第一,集成透镜和定制光纤耦合器显著提高耦合效率和发射条件,减少模式色散;第二,所有驱动器和TIAs都集成在单个CMOS芯片中。microLEDs和CMOS传感器阵列都可垂直键合在该芯片顶部。这种配置通过①大幅缩短电气走线长度和②避免引线键合的间距限制,使用更小间距的更小microLEDs,提高了整体性能。
五、功耗与成本分析
1. 功耗优势显著
与传统800Gbps AOC相比,MOSAIC功耗大幅降低:
- 传统光学链路:单端功耗9.8-12W(含DSP/CDR 3.5W、激光及驱动4.7W、主机接口0.2-2.4W、MCU及DC/DC 1.4W)。
- MOSAIC链路:单端功耗3.1-5.3W(数字后端0.4W、microLED及驱动1.2W、主机接口0.2-2.4W、MCU及DC/DC 1.3W),降低56-68%。
- 未来扩展:1.6Tbps MOSAIC链路预计功耗10.6W,远低于传统方案的23-25W。
2. 成本控制潜力
MOSAIC通过技术选择降低成本:无需先进制程芯片(无复杂DSP),利用成熟microLED和CMOS sensor生态,多芯成像光纤简化布线,超额配置通道提升良率,综合成本有望低于传统光学链路。
六、应用前景:重构数据中心技术生态
1. 网络架构优化
铜缆的有限传输距离严重限制了网络架构和拓扑。例如,通常部署机架顶部(ToR)交换机,因为铜缆无法跨越更长距离。同样,尽管3D torus拓扑在二分带宽方面并非最优,但由于与短铜缆互连兼容,它们常被用于高性能计算(HPC)集群(如Google TPU集群或Amazon Trainium)。
而MOSAIC的50米传输能力打破了铜缆距离限制,使网络设计更灵活。例如,省去ToR交换机变得切实可行,服务器可直接连接到行交换机或行尾交换机。这降低了网络延迟和硬件成本,同时通过移除ToR这一单点故障提高了可靠性。传统光学链路因更高的功耗、成本和可靠性开销,无法实现这些收益。此外,MOSAIC使全非阻塞拓扑更具可行性,可能简化拥塞控制协议。更长距离的链路还使多维torus、dragonfly和超立方体等先进拓扑变得实用,因为设计者不再受限于短铜缆或当前光学解决方案的高成本和复杂性。总体而言,MOSAIC扩展了定制化、应用优化网络的设计空间。
2. GPU与内存设计革新
- GPU解聚:可将大型多芯片GPU(如NVIDIA Rubin Ultra的4芯片封装)拆分为小型“LiteGPU”,通过低功耗光学链路互连,降低制造复杂度和功率密度。
- 内存解聚:低延迟特性(无需FEC和DSP,仅数ns延迟)支持内存与计算分离,减少对昂贵3D堆叠HBM的依赖,增加GPU可用内存容量。
3. AI集群效率提升
MOSAIC支持更大规模GPU集群的高速互连,提升集体通信效率,加速训练和推理;结合资源动态聚合,实现“弹性计算”,提高资源利用率。
七、 相关工作- 硅光子学 硅光子学凭借其高集成度和CMOS兼容优势,近年来引起了CMOS生态系统的公司(如GlobalFoundries或台积电)的极大兴趣。尽管该技术因CMOS生态系统可实现一定成本节约,但总体而言,它仍依赖“窄而快”架构,因此仍面临功耗、扩展性和可靠性问题。-共封装光学(CPO) 本工作重点关注可插拔收发器,因为它们是行业采用的主流解决方案。可插拔模块提供高度灵活性,可独立于NIC/交换机供应商选择,实现不同供应商间的横向集成。但不利的是,它们需要长电气走线将信号从主机芯片(如NIC或GPU)传输到前面板。这消耗的功耗越来越大。
CPO通过将光学收发器直接集成到与主机芯片相同的封装中,可规避这一问题,根据最近的行业估计,可节省高达25-30%的功耗。MOSAIC完全兼容这种配置。事实上,如图8所示,若采用CPO,MOSAIC的优势应更加明显,因为它可利用芯间互连的低数据速率直接调制microLEDs,而无需像现有技术那样进行高速转换。-microLED基通信 虽然microLEDs主要为显示应用开发,但文献中已有一些提案探索其在自由空间通信和短距离芯间链路中的应用。相比之下,MOSAIC的目标是通过光纤实现更长距离(达50米)传输,以支持数据中心的机架间连接。这需要解决与光纤损伤(如色散和模式色散)和耦合损耗相关的一系列不同挑战,而这反过来又需要新型microLED优化和系统设计选择。
MOSAIC还引入了高可靠性机制、改进的对准容差,以及用于高效光纤耦合的新型微透镜设计。最后,虽然先前的工作主要关注自由空间或极短波导上的单通道演示器,但本工作通过100通道原型在长达30米的光纤上评估了MOSAIC。
八、结论
微软研究院提出的MOSAIC技术,通过“宽而慢”架构结合microLED技术等创新,力图打破数据中心光与铜链路的固有权衡。其长距离(50米)、低功耗(降68%)、高可靠(100倍提升)的特性,以及与现有基础设施的兼容性,为下一代数据中心网络提供了一种潜在的实用解决方案。$华灿光电(SZ300323)$