近期,CPO(共封装光学)与光模块板块在二级市场持续走强,成为 AI 算力产业链中最受瞩目的明星赛道。这轮行情背后,既有 800G/1.6T 光模块需求放量的现实支撑,也反映了市场对算力中心高速互连需求的高度期待。然而,在追逐热点的同时,我们更需要穿透技术表象,看清 AI 算力芯片的核心发展逻辑:当单芯片性能逼近物理极限、先进制程遭遇瓶颈,Scale-up(芯片级横向扩展)才是中短期内支撑 AI 算力持续增长的底层支柱。
光模块与 CPO 的爆发本质上是 Scale-up 趋势的衍生需求:随着多芯片集成度提升,芯片间数据传输速率从 TB 级向 PB 级跨越,传统电互连的带宽与能耗瓶颈日益凸显,光互连技术成为必然选择。但如果将视角从 “传输环节” 拉回 “算力生成的核心载体”,就会发现光模块只是 Scale-up 体系中的 “毛细血管”,而真正决定算力密度与效率的,是多芯片如何通过先进封装技术实现逻辑上的 “虚拟单芯片” 运行。因此,在 CPO 与光模块热度高企的当下,重申 Scale-up 的核心价值,既是对技术发展主线的锚定,也是对产业链投资逻辑的理性回归。只有抓住算力生成的 “主干”,才能更清晰地把握传输、散热等 “枝叶” 的成长脉络,持续发现这一主线下隐藏的更多投资机会。
当前,海外 AI 大模型的参数规模增长迅猛,从 14 B到 72B再到 235B,同时模型的使用量和应用场景在快速爆发。在 AI 算力中心爆发式增长的背后,模型对低延迟的需求和单块芯片性能不足之间的矛盾越来越突出。解决这一矛盾主要有 “节流” 和 “开源” 两种思路,从产业化的可行性来看,Scale-up(横向扩展)是更合适的中短期选择。
“节流” 主要是通过降低模型精度(比如从 FP16 到 FP8 再到 FP4)来提高硬件使用效率,核心逻辑是在满足 80% 核心需求的前提下,牺牲一点精度来提升算力密度。像 DeepSeek 的动态量化技术,能让相同面积的芯片上计算单元数量翻倍,还能节省内存、带宽和能耗。但这种方案有明显缺点:会使模型准确率下降、训练稳定性降低,而且需要额外做好软硬件的协同适配,在医疗影像分析、自动驾驶等对精度要求高的场景中不适用。实践证明,FP8 是目前平衡效率和精度的最佳选择,再降低精度就会明显影响使用效果,所以 “节流” 只能作为特定场景的补充方案。
在 “开源” 方面,提升单块芯片的算力受到摩尔定律放缓、功耗散热难题、内存速度跟不上计算速度以及高端产能不足等问题的限制,短期内很难有大的突破。相比之下,通过多芯片协同来扩展算力成为切实可行的办法,这一方向包含两种技术路线:一是 Scale-up(芯片级横向扩展),通过先进封装技术将多块芯片整合为逻辑上的单芯片;二是 Scale-out(系统级横向扩展,即多芯片集群),通过网络互连实现多芯片分布式协同计算。
Scale-out 通过标准化网络协议(如以太网、InfiniBand)将成百上千的芯片组成集群,优势是灵活度高、扩展成本低,适合大规模分布式训练场景,但受限于网络延迟,在需要超低延迟的实时推理场景中表现较弱。而 Scale-up 的技术路线主要有 2.5D 封装和 3D 封装两种:
2.5D 封装是通过增强连接能力,把多块芯片平铺连接起来使用,它散热简单、技术成熟(良率超过 90%)、产业链配套齐全,虽然受中介层面积限制且成本较高,但能快速满足大规模使用的需求。
3D 封装是把多块芯片堆叠起来,能实现更高的性能密度,信号传输延迟也最低,但散热难度大、工艺复杂(良率不足 70%),尤其是硅通孔(TSV)工艺要求很高,短期内很难大规模生产。
因此,2.5D 封装成为当前硬件层面最成熟、最容易大规模应用的 Scale-up 技术路线,它的推广带来了三个需求增长点:一是混合键合、光模块 / CPO 等连接传输技术;二是液冷等散热方案;三是电化学沉积(ECD)等先进制造工艺。而 Scale-out 作为重要补充,其发展推动了高速网络芯片、分布式存储等领域的需求增长。
国内 AI 算力芯片发展面临先进制程被 “卡脖子” 的困境:7nm 以下的先进制程还没完全突破,导致中介层制造精度不够。比如 2.5D 封装所需的硅中介层,其线路间距需达到微米级,而国内部分厂商受限于光刻设备精度,仅能做到 5 微米以上,远高于国际头部厂商 2 微米以下的水平,直接影响多芯片互联的信号完整性;关键设备与材料依赖进口,像用于混合键合的高精度键合机、用于中介层制造的特种光刻胶,国内国产化率不足 10%,供应链稳定性存在风险;同时,国内还缺乏支持 2.5D 设计的全流程 EDA 工具,目前主流工具仍依赖 Synopsys、Cadence 等海外厂商,且未形成统一的 2.5D 接口标准,不同厂商的芯片难以实现高效互联,这些都直接限制了 2.5D 封装的大规模应用。
在这种情况下,国内产业链的突围路径呈现梯度特征:
短期:通过降低精度(比如 FP8)、在软件层面进行优化(如稀疏注意力机制、混合专家模型 MoE、内存管理优化等)实现曲线救国。例如,国内部分 AI 企业通过 MoE 技术,将大模型拆分为多个 “专家子模型”,仅激活部分子模型参与计算,在硬件算力有限的情况下提升模型处理效率,但这种方案需在软件层进行大量定制化开发,且对模型通用性有一定影响,仅能作为过渡手段。
中期:必须以硅光集成和先进封装(尤其是 2.5D)为核心突破方向,通过在 Scale-up 领域的技术追赶实现国产替代。硅光集成可借助光子传输速度快、能耗低的优势,弥补电互连在高频场景下的损耗问题,国内中科大、华为等机构已在硅光芯片领域取得阶段性成果;而 2.5D 封装则可绕开先进制程限制,通过多芯片集成快速提升算力,长电科技、通富微电等企业已具备 2.5D 封装量产能力,正在逐步突破中介层制造精度瓶颈。
长期:目标是突破先进制程的技术封锁,建立全产业链自主可控的能力,从根本上解决算力芯片的底层技术依赖问题。
从实际情况来看,在短期内无法突破先进制程的情况下,Scale-up 是国内实现算力追赶的最佳途径,其产业化进展将直接决定国产 AI 芯片的竞争力。但需要警惕的是,当前市场中存在部分看似与 Scale-up 相关、实则缺乏核心价值的伪机会,这些方向不仅难以推动国产替代进程,还可能误导投资决策:
其一,低水平重复的先进封装尝试。部分中小型封装企业看到 2.5D 封装的市场热度后,盲目跟风采购基础封装设备,宣称具备 2.5D 封装能力,但实际仅能完成简单的芯片贴装,无法解决中介层高精度制造、多芯片信号同步等核心问题。例如,某企业推出的 2.5D 封装产品,其芯片间互连带宽仅能达到 100GB/s,远低于长电科技等龙头企业 500GB/s 以上的水平,且良率波动较大,在批量生产中良率常低于 60%,远无法满足 AI 算力中心对稳定性和性能的要求。这类企业缺乏核心技术积累,仅靠 “蹭热点” 吸引关注,在行业竞争加剧后极易被淘汰,不具备长期投资价值。
其二,性能短板的 SerDes 国产化尝试。SerDes 作为 Scale-up 互连的核心技术,其传输速率和稳定性直接影响多芯片协同效率。当前海外厂商已实现 224G SerDes 量产,而国内部分企业推出的 112G SerDes 产品,在实际测试中存在明显性能缺陷:一是信号抖动值超过 0.5UI(国际主流标准为 0.3UI 以下),导致数据传输过程中丢包率高达 10^-6,远高于 AI 算力中心要求的 10^-12 级别;二是功耗控制不佳,每通道功耗超过 200mW,是海外同类产品的 1.5 倍以上,不符合数据中心节能需求。这类产品即便凭借低价获得少量订单,也难以在核心算力场景中应用,相关企业若无法突破技术瓶颈,成长空间将十分有限。
其三,缺乏协同的热管理方案。随着 Scale-up 多芯片集成度提升,芯片功耗密度从传统的 100W/cm² 提升至 300W/cm² 以上,对热管理的要求大幅提高。但国内部分液冷厂商仅关注冷板或浸没式设备的单一性能,忽视与芯片、服务器的协同设计:例如,某厂商推出的冷板式液冷方案,虽能将局部温度控制在 50℃ 以下,但未考虑芯片不同区域的发热差异,导致 GPU 核心区域与边缘区域温差超过 15℃,加速芯片老化;同时,其接口设计与主流服务器不兼容,需额外改造机柜结构,增加了部署成本。相比之下,中科曙光、英维克等企业通过与华为、阿里等头部云厂商深度合作,根据芯片发热特性定制散热流道,实现温差控制在 5℃ 以内,且接口兼容主流服务器,这类具备系统协同能力的方案才是真正的核心机会,而缺乏协同的热管理产品终将被市场淘汰。
在 AI 芯片 Scale-up 领域,英伟达凭借 NVLink 技术及 CUDA 生态,处于绝对领先地位。其 NVLink 技术能支持 576 个 GPU 实现每秒 1.8TB 的通信速度,远高于基于 PCIe 5.0 协议(16 通道 128GB/s)的方案 。CUDA 作为英伟达推出的并行计算平台和编程模型,极大地释放了 GPU 的并行计算潜力。开发者借助 CUDA,能用熟悉的 C、C++ 等语言编写高效的并行计算代码,让 GPU 参与到通用计算任务中,尤其在 AI 领域的矩阵运算、深度学习模型训练等场景中发挥关键作用。众多深度学习框架如 TensorFlow、PyTorch 等都深度集成了 CUDA,使得开发者能够便捷地利用英伟达 GPU 的强大算力,加速模型训练与推理。这一软硬件结合的优势,让英伟达在面对复杂 AI 计算任务时,表现远超同行。虽然 AMD、AWS 等九家企业组成的 UALink 联盟想通过开放生态挑战英伟达,但两者技术差距明显(NVLink 1.0 在 2016 年就应用于 Pascal 架构 GPU,而 UALink V1.0 在 2025 年第一季度才发布),短期内难以动摇英伟达的地位 。
英伟达的技术发展路径清楚地展示了 Scale-up 的核心方向:从 Grace Hopper 引入 NVLink-C2C 实现 CPU 与 GPU 直接连接,到 GB200 通过 NVSwitch 支持 576 个 GPU 互联,再到 Rubin 架构计划将互连带宽提升至 3.6TB/s,SerDes(串行器 / 解串器)作为底层核心技术,其速度向 224G 升级成为关键动力。目前,海外厂商(如 Cadence、Alphawave、博通等)已经主导了 224G SerDes 市场,国内企业(如芯动科技、晟联科等)最高只能达到 112G 的速度,存在明显的技术差距和进口替代空间。
如果认同这种判断,AI 算力芯片 Scale-up 领域,以下几个方向的投资机会可以关注:
1. 先进封装及配套设备
2.5D 封装核心企业:长电科技(国内先进封装的龙头企业,具备 2.5D SiP 封装能力,中介层制造精度已达到 2.5 微米,良率稳定在 90% 以上)、通富微电(与 AMD 合作密切,掌握多芯片封装技术,已为国内部分 AI 芯片厂商提供 2.5D 封装服务);
封装材料与设备:华海清科(提供用于中介层平整化的 CMP 设备,抛光精度可达纳米级,适配 2.5D 封装中介层制造需求)、安集科技(抛光液领域的龙头,推出针对 2.5D 封装中介层的特种抛光液,国产化率逐步提升)。
2. 高速互连与 SerDes
光模块 / CPO:中际旭创(全球光模块的龙头,100G/400G 产品市占率高,800G 产品已批量交付,适配 Scale-up 高速互连需求)、天孚通信(光器件的核心供应商,在 CPO 封装技术上有深厚储备,推出的 CPO 光引擎已通过客户验证);
SerDes 国产化:芯动科技(国内少数能实现 112G SerDes 量产的企业,正在研发 224G 产品,计划 IPO 募集资金用于技术升级)、紫光国微(依托 FPGA 布局高速接口 IP,其 SerDes IP 已应用于自研 FPGA 芯片,性能接近海外中端水平)。
3. 热管理解决方案
液冷技术:中科曙光(浸没式液冷的龙头,数据中心级的液冷方案成熟,已在国家超算中心落地应用,散热效率达 95% 以上)、英维克(冷板式液冷的核心供应商,与头部云厂商合作开发定制化方案,适配高密度 AI 服务器需求)。
4. 英伟达产业链配套
NVLink 生态:中科创达(为英伟达 GPU 提供软件适配服务,开发的 AI 训练框架优化工具可提升 GPU 利用率 10%-15%)、鸿博股份(与英伟达合作建设 AI 算力中心,采购的 GB200 服务器支持 NVLink 5.0 互连,直接受益于 Scale-up 设备采购)。
这些企业都处于 Scale-up 技术落地的核心环节,它们的业绩增长与 AI 算力中心建设进度、国产替代进程密切相关,具有中短期投资价值。