聊聊GB300芯片模组的测试

陶嘚

2025-09-01 23:32 · 上海

思想阵地，真理不去占领，就会杂草丛生；

舆论导向，你不去主导，就会被别人掌控。

我们先来看一下GB300模组组装完成后一般要经过哪些测试。

GB300 属于全新一代 Grace-Blackwell 超级芯片模组，其组装完成后需要通过一系列严格的测试，才能出厂或进入整机集成。这些测试大致可以分为 功能性、可靠性、热-功耗验证、互连与信号完整性 四大类。结合目前 NVIDIA 在 GB200/NVL72 的流程，可以推测 GB300 模组完成后会经历以下测试环节：

1. 基础电气与功能测试

上电自检（Power-On Test）：确认电源轨电压、电流稳定，电源时序符合要求。

JTAG/边界扫描（Boundary Scan）：检查BGA/倒装芯片的焊点是否有虚焊或短路。

基本功能测试（Functional Test）：确认 CPU、GPU、HBM、NVLink-C2C 通道均可被识别并正常工作。

内存测试（HBM Stress Test）：验证 HBM3e 的容量、带宽、延迟与错误率。

2. 高速互连与信号完整性

NVLink-C2C 通道测试：验证 GPU↔CPU、GPU↔GPU 的超高带宽互连是否稳定，误码率是否满足要求。

PCIe Gen6/5 测试：确认外部 I/O 接口速率、链路稳定性。

SI/PI 验证（Signal/Power Integrity）：检查高速信号眼图、抖动、串扰，确认电源噪声是否在设计范围内。

3. 热与功耗相关测试

功耗验证（Power Validation）：在不同负载下测试模组功耗曲线，确认是否符合 TDP 设计。

热特性验证（Thermal Validation）：在风冷/液冷条件下运行长时间高负载，监控温度分布、热阻与冷板接触情况。

热循环测试（Thermal Cycling）：在高低温交替下运行，测试焊点与封装可靠性。

4. 系统级与可靠性测试

Burn-in Test（老化测试）：长时间高温高负载运行，筛除早期失效（类似 GB200 模组在富士康等厂商进行的 Burn-in）。

压力测试（Stress Test）：同时满载 GPU、CPU、内存与互连，确认无掉速、掉链或死机。

长期稳定性验证（Soak Test / Endurance Test）：连续运行数十到数百小时，模拟数据中心 24/7 负载环境。

故障注入测试（Fault Injection）：模拟单链路错误或内存错误，检查容错与恢复机制。

5. 最终系统级验证（出厂前）

固件/驱动兼容性测试：确认 BMC、GPU 驱动、Grace CPU 固件均能正常工作。

与机柜/托盘集成验证：在 HGX/DGX/ODMs 的托盘上进行系统级上电，测试冷却接口、电源分配是否正常。

量产一致性抽检：对随机批次模组进行更严格的全套测试，确保良率与一致性。

📌 总结：
GB300 模组在组装完成后，通常会依次经历 电气功能 → 高速互连 → 热-功耗验证 → 可靠性与老化 → 系统级集成 这五大测试阶段。相较 GB200，预计 GB300 在 PCIe Gen6、HBM3e 更高带宽、液冷适配性 上会有更严格的验证环节。

问题来了，狗子的测试设备到底负责的是哪一部分？

以上直贴式散热器件的专利原文明确指出有三项：高低温测试，功耗测试和老化测试，大致对应的是前文中3和4所述的部分。而且，不排除有新的测试项目。

在后续的芯片测试装置专利中，给出了外接客户设备的说明。

那么，是不是可以理解为，狗子的设备在提供芯片正常运行环境的同时，可以外接其他设备做其他相关的测试？当然，我们也知道这是针对GB200的设备，升级到300后大概率是有新的测试项目的。

狗子中报里也提到显控技术在生产智能化行业落地。而这个测试设备除了提供液冷平台以外，我认为还有非常重要一点是提高生产效率和良率。

我们知道，HH的毛利其实不高，个位数吧。那么，如果能提高一个百分点的良率也会对总体的利润率带来显著的改善。因此，HH会非常有动力上线新的自动化测试设备，老的设备也会逐步进行升级。在不久前的法说会上，其实也提到了“良率提升、測試自動化提高效率”。我们并不能确认具体指的是哪方面的测试，但是大方向上看狗子的设备是完全符合的。