用户头像
研投笔记
 · 广东  

$聚灿光电(SZ300708)$ $华灿光电(SZ300323)$ $歌尔股份(SZ002241)$ 转发一个个人觉得非常值得继续深挖的报告。
天风电子] MicroLED光模块技术专家纪要
镀银铜线为导体的技术实现了其传输距离能够持续维持在1米左右。但我们看往下一代的448,或者再往后的896,遇到的困难点是逐步加大的。另外,光模块技术是目前主流的一个方案。光模块的好处是传输的信号损失基本预期可以为零,所以它的传输距离其实是可以实现很远的。但现在能看到的是,随着速率提升,整体光模块的功耗/功率在提升,带来了一些问题,我们后面会具体讲到。
首先我们会讲铜的一个困境。在去年3月份GTC大会之后,大家看到了NV(英伟达)的机柜方案,那时铜连接(铜线)的传输技术又被放到了AI的前线。这里我们从最底层的基础原理讲一下铜线应用场景的由来。首先是一个规范(HE),在1.6T也就是单通道224G的数据上,有一个传输预算,即芯片到芯片之间的传输预算不超过40dB,并且要求铜线传输距离必须达到1米。
在这40dB的传输损耗预算里,需考虑几个方面。一个是芯片封装的损耗,基本在12到18dB之间,这包含了两个芯片:GPU和交换芯片。因此,实际上留给PCB、铜线(及光传输)三个传输互联技术的预算就在22到28dB之间。
去看英伟达去年的机柜方案,是一种框式机柜结构:交换托盘在中间,计算托盘分布在上下两边。从其优势及单个服务器高度看,当时我们做了一个测算,托盘到托盘的最长距离(即最远连接距离)差不多是19个U的高度(约八十多厘米)。然后因为table tree(table catered)铜线传输方案,第一层需要先连接托盘之间的互联。到了交换托盘,还要再实现一段从连接器到交换芯片的互联。所以这里总的传输距离大约在120厘米左右。
当时一个印象深刻的点是,去年推铜连接时出现较多分歧是在PG和overpass方案之间。所以我们做了一个测算,讲在哪些场景选择铜线,哪些选择PTP(这里可能指基于PCB的互联)。这是一个框式机柜四种方案的分布图:可以选择纯PCB方案;或者一部分table cage(或table cable tree)方案加两端PCB;或者加overpass、cable tree和一段PCB方案;最后是全部使用铜线的方案(方案四)。
第四方案基本可以忽略,我们后面做了一个测算图(这个图是我们去年国庆期间画的,和其他测算来源不同,是我们自己的)。这个测算根据链路长度(如之前提到的芯片间80厘米,托盘内约30厘米),统一换算成英寸单位进行测算(采用马8材料的损耗约1.06dB/英寸,铜线损耗低很多)。
三种方案测算结果:纯PCB方案损耗在~58dB左右;带两端PCB的方案损耗在~26dB左右;方案三(加了overpass)能实现约18dB的总损耗。回到总预算,芯片到芯片40dB,扣除封装损耗(取中值~15dB),实际要求传输系统损耗必须小于25dB才能保证信号完整性。因此overpass方案当时成为必然选择,而非可规避项。
后续我们看到overpass也发生了变化。最早的overpass方案(如右图)带了铜线。但后来戴尔的优化方案更改了交换部分,比如调整交换芯片位置或托盘布局上移。物理优化后连接距离控制在1米以内,这段就可以不用overpass了。
这里想讲的是:铜线的优势在于传输距离比PCB更远。但未来向448或sky 2阶段延伸时,随着带宽迭代,其传输距离受限的困境会越来越突出。这就是铜的困境。
光的部分
光部分的逻辑图与铜相似:随着AI芯片迭代,其互连需求上升,整体带宽从400G/800G到1.6T增长较快。但光的问题在于光模块的散热问题。
光模块散热问题会带来可靠性风险。最近华为的一篇文章列出了数据:光模块每月会有一定闪断率,而这其实是由于散热问题导致的。这也印证了我们去年推荐的标的(如顶通)。顶通现在主要在交换机内部的端口面板(液冷page)上做冷盘,间接为光模块散热。
我们今天也发表了观点:PH6(预计是800G)光模块,在800G交换机上也上了液冷page(冷板)。主要原因首先是1.6T光模块功耗必然大于800G。考虑散热问题不仅要看单个模块,更要看系统整体——TH6这款800G交换机交换容量从51.2T提升到了102.4T,其SerDes接口数量也翻倍,导致系统整体功耗提升显著。这也是新华三等交换机厂商采用冷板方案的原因。这些厂商的应对措施都是为了解决当前基于激光方案的光模块,因功耗散热导致每月闪断带来的可靠性问题。
前沿新技术:Micro LED光传输技术
接着,我们讲一个前沿新技术:Micro LED光传输技术。标题用的是“Micro LED光模块”,但其实我更愿意称其为光传输技术。因为Micro LED仅作为光源,它可用于现有LPO光模块、未来的CPO,以及OIO、OCS等其他技术。
Micro LED方案的优点是:相比现有激光方案,可降低68%功耗;传输距离可达50米(满足AI服务器机架内的需求);它解决了光的可靠性问题,又解决了铜线传输距离过短的问题。——本质上是位于光与铜之间的一个折中而高效的方案。
下面具体介绍方案。下图对比了激光(laser)和Micro两种方案的功耗:激光方案约9.8到12W,Micro方案在3.1到5.3W,功耗下降明显。
目前做出的原型不需要对现有生态做很大变更,无需更改交换机或接口。因为Micro LED可直接替换现有OSFP、QSFP等接口模块内部的器件实现。这让技术能适应生态,而非要求生态适应它。
Micro LED设计的关键图展示了功耗大幅下降的架构基础:现有激光方案以800G光模块(8通道 x 100G)为例,其功耗难以有效降低。而Micro LED方案采用多通道低速(如每通道2Gb/s,共400通道实现800G)。第一,因为通道数大,且每通道功耗较低,所以整体功耗可控。第二,Micro LED尺寸可做得很小(10,5甚至2微米)。因此在一个800G光模块内,可以设计20%的冗余(例如用500颗Micro LED芯片保证800G有效传输)。长时间使用中,即使10%的光源失效,系统仍能维持800G传输。所以当冗余足够高(如10%-20%)时,其可靠性能逼近铜线(参照华为文章数据,铜连接每月无闪断,可靠性最高)。
另一张图展示了Micro LED技术的当前能力:Micro LED可分光色(蓝/绿/红光),红光效率偏低,成熟的方案是蓝光和绿光。现单通道数据率最高可达6Gb/s。因此,实现800G模块仅需每通道2G是绰绰有余的。该技术可向1.6T、3.2T迭代,方法可以是提升单通道速率或增加通道数。关于带宽,224G单通道频率是53.4GHz。但Micro方案每通道只需传输2Gb/s数据(对应信号带宽约1GHz多点),在当前频率资源下完全可以满足传输需求。
这里有个关键点:以前的LED无法实现如此高速传输。Micro LED的优势在于其微小尺寸带来了更小的串联电阻(电学性能更好),使其在光通信中表现优越。
这张PPT展示了一个国外龙头公司(Everything(应为初创公司或笔误)),它与台积电合作。目前微软开发的800G Micro LED光模块原型也使用了其方案。该公司已公布其产品路线图。这表明该技术不是十年远期概念,可能于今明两年逐步落地。
Micro LED光传输技术零部件增量
最后介绍Micro光传输技术带来的零部件增量变化。首先,光源发生变化:从激光变为Micro LED光芯片。假设每通道2Gb/s,要实现800G传输至少需400颗芯片。为提高可靠性(避免单颗或多颗失效影响),需设计ECC冗余或热备通道。做到500颗左右,可靠性即接近铜线。同样,升到1.6T或3.2T只需单通道速率或通道数量翻倍。当前技术卡点仍在稳定性方面(Micro LED芯片)。
需注意,Micro LED最初核心目标并非光通信,而是显示。近年Meta、Rokid等的AR眼镜开始使用Micro LED(单色)作为显示源。这部分反映蓝光和绿光Micro LED技术逐步成熟。但在消费级未能大规模商用的原因有三:一是红光效率低(影响全彩显示)。二是成本高:去年镜片模组高达600元左右,今年约300元,对于千元级眼镜而言过贵。然而,在AI光通信中这些问题不存在:第一,无需彩色,用成熟的蓝/绿单色即可;第二,AI领域(尤其光模块)价格敏感度较低。相比激光方案,Micro方案直接调制,所需外围器件减少,综合成本预期低于当前多模模块。
我们主要看好的Micro LED公司包括聚灿(应为聚灿光电)、三安三安光电)、华灿华灿光电),它们将受益于Micro LED光传输的发展。第二个增量环节是透镜。相比激光的直射特性,Micro-LED光线是发散的。而光传输需直线光路,因此需增加透镜(如MLA或TIR透镜:MLA聚焦效果欠佳,TIR透镜可实现直射10米光路)。透镜用量大:每颗 Micro LED芯片需一颗透镜。同时,光模块有发射端(Micro LED)和接收端(采用CMOS传感器接收可见光),两端都需要透镜完成聚焦。因此透镜总数量等于通道数 x 2(发射端每个Micro LED一颗,接收端每个感光点一颗)。
透镜增量可观。潜在受益公司如聚飞聚飞光电)、消费级透镜厂商如蓝特光学(蓝色水晶)、水晶光电(美彩)。第三个增量在CMOS传感器:用于接收端,采用类似手机摄像头的光敏元件。与通道数是一比一的关系(只在接收端使用),因此800G模块至少需要400-500个CMOS,增量为大。第四个增量是Micro光传输专用光纤:非传统光纤,而是多芯成像光纤(类似医用内窥镜光纤)。目前已量产用于医疗领域。这种光纤与Micro光模块的对应关系大致是:一条多芯成像光纤(如达上万根纤芯)可服务于多个光模块。按最低800G模块(400通道)算,一条光纤可支持约25个模块(10000芯/400)。冗余要求高时,约支持18个模块(10000/550)。目前找到主要受益公司是长飞光纤长飞光纤光缆)。