Rubin传闻

用户头像
闻西策市
 · 湖北  

1月6日 CES 206 Nvidia再次介绍 Rubin vera 机柜方案,命名方式由原来的die命名重新改为GPU数量,Rubin vera 144 改为 Rubin vera 72;

Compute tray 有三大变化:No Cables、No Fans、No Hoses。其中,有媒体宣传柜内完全无铜缆,实际为虚假信息,tray to tray互联,仍为cable tray方案(带宽翻一倍,由130TB增长至260TB)。

其中Compute tray No cables为25年10月 GTC已经提及,实际指的是compute tray系列增加了midplane的设计,将mcio连接CPU和网卡的设计,改为pcb(CPU) to pcb(网卡)的连接方案,使用背板连接器连接Midplane和CPU board。

今天外网有段子传Rubin的几块板子要降规:

1)CX9一直是M7+LDK,不存在降规的问题,网卡本来规格就不会很高,说网卡一开始是M9的人属于不懂这个产业;

2)CPX板卡暂没明确,第一代用的M9 Q做小批量,批量没这么早出所以还没定,backup有M8的产品;

3)Midplane 测试的是M9 Q方案,backup有M9 K2和M8 K2的版本,第一批(26年2月)大概率先出M9Q,后续会根据性能、材料供应能力看是否启动backup方案,但目前看即使启动backup方案,也会是双线并行,不会直接降规。

总体来说,海外大客户为了保证自己的供应稳定性,每个高端板子都做了backup方案,是否启动要看供应情况。但无论哪种方案,核心覆铜板厂商都是全面配合的,对覆铜板厂商的影响没有那么大,我们认为覆铜板仍然是胜率最高环节。

Rubin确定会用vpd方案,美股vicor最为受益:

此次大会黄仁勋确认Rubin架构进入全面量产阶段,相对Blackwell(GB200)的1200W,Rubin的单片TDP飙升至2300w。这种情况下,传统侧向供电会压降失控,只有通过VPD让电流从芯片下方直达核心,才能将损耗降低。

这个方案引入意味着散热量不再只集中在芯片正面,PCB 背面的电源组件也需要极高的散热效率,英伟达这次展示了两相冷板液冷技术,以应对这种垂直分布电源。

最后一个Rubin架构将搭载更宽、更多的HBM4显存,HBM因为已经占据了GPU封装周围所有空间,物理位置已经没有给横向供电(lpd),因此vpd(垂直供电)是确定性方案。

Vpd方案里vicor布局了大量专利,基本上所有公司如台达,mps要做vpd都要给vicor付授权费,我们预计26年光各种授权费就要收取2亿美金(相当于纯利润),公司预计后续每年授权费有50%增速。

高功耗环境下,aidc电力电子最大趋势就是sst方案+vpd,sst大家是各凭本事,vpd是各家都绕不开vicor一定要给他付钱。25年vicor打赢了致胜的专利战,业绩即将迎来收获和爆发。

智驾方面,英伟达开源智驾大模型,商业化落地加速:

CES 2026英伟达发布了面向自动驾驶的开源视觉-语言-行动模型 Alpamayo 1,参数量100亿,与此前相比突破点在于:

①开放度:此次不止源代码,而是开源从数据到部署的完整开发资源。

②模型:推理型VLA,可在决策前推理出因果关系,预测他方意图、处理多步决策,主要能够提高长尾场景中性能,规划精度提升12%,推理行动一致性提升37%,距离碰撞率减少25%。

目前,英伟达DRIVE系统进入量产,首个搭载车型为奔驰全新CLA,2026年计划于美国上路;2027年与合作合伴共同测试Robotaxi服务。

另外,黄仁勋在CES 2026大会讲话上提出“存储必须被重构”:

存储瓶颈影响AI推理速度。AI会产生大量上下文数据(KV Cache),传统架构将其放入昂贵且容量有限的GPU内存或者普通存储里(访问太慢)。NV专门推出新存储层级解决瓶颈问题单GPU可额外获得16T存储容量。NV推出BlueField-4 与 Context Memory 平台,用 BlueField-4来管理机架内的“KV 缓存上下文内存存储”。在 Vera Rubin MVLink 72 机架中,每个节点都配备了四个 BlueField-4,每个 DPU 后端接有150TB 的上下文内存。通过这种设计,每个 GPU 除了自身的 HBM,还能额外获得16TB 的分布式上下文存储。

1)AI存储墙的两大技术破局路径(融合而非对立)

路径1: 高IOPS直连SSD架构:通过提升SSD的IOPS性能(如英伟达+SK海力士合作AI SSD,IOPS达1亿次),降低GPU数据读取延迟,代表厂商:群联(主控)、铠侠(闪存)

路径2:HPF/HBF高带宽闪存路径:以高带宽、大容量闪存实现SSD内存化,解决KV Cache容量膨胀问题,代表厂商:SK海力士、闪迪、铠侠

2)上述路径2的技术落地的核心瓶颈

- 软件生态:CUDA生态适配、GPU直连数据库的系统级优化难度大

- 硬件稳定性:HPF/HBF闪存与DPU/KV Cache管理器的协同兼容性待验证

3)202512进展

市场预期:英伟达或与韩国半导体巨头 SK 海力士合作打造全新的“人工智能固态硬盘”(AI SSD)。IOPS或 1 亿次,效能比AI服务器搭载普通企业级 SSD 高出约十倍

4)NVIDIA的架构升级动作(202601)

- 痛点:KV Cache线性膨胀(QKV算法问题欢迎联系我们)导致HBM成本/容量受限NVLink-C2C、南北向网络方案存在容量/延迟缺陷

- 解决方案:推出Context Memory Storage Platform,由BlueField-4 DPU管理机架级直连存储,每个GPU扩展16TB存储,适配HPF/HBF闪存与向量数据库

关于近期光模块的下跌,主要是一些小作文和北美光模块公司下跌拖累:

1)Q4及全年业绩:根据产业独家信息,目前龙头光模块厂商泰国子公司数据尚未汇总,市场假消息较多。公司预计下周年度总结汇总出货及销售数据,我们会保持跟踪;

2)产能情况:目前旭创泰国产能占公司总产能80%,产能持续增长截止年底已达到40万只/周,无需担心光模块的季度成长性。

3)部分客户采购执行情况:Q4海外光模块行业环比增速约为15-20%,海外Cohr、Lumentum光模块环比增长可观。A股市场由于大家对Meta/Oracle等大厂AIDC建设节奏有一定分歧,但截止25Q4Meta已经开启新一年采购计划,环比Q3翻倍增长;Oralce增长趋势持续景气度较高,目前尚未出现采购放缓迹象。头部公司优势突然,份额有望稳中有升。

4)谷歌网络架构: 有传谷歌 V9 将采用交换机托盘(Switch Tray),导致光学依赖性可能减弱。实际是谷歌的OCS和光模块场景是scale.up内的,而所传的V9描述是scale out侧可能变化,不影响原来光使用场景,反而可能会在scale out侧带来光互联增量。

5)NVDA网络架构: 未来scale out侧有多种光互联演进方案,NPO/CPO/OBO/CPC等技术路径多元化加速了商业化进程,且scale up侧渗透光的趋势已来,整体方案、FAU、设备、外置光源、连接器等环节变化明显。