思想阵地,真理不去占领,就会杂草丛生;
舆论导向,你不去主导,就会被别人掌控。
我们先来看一下GB300模组组装完成后一般要经过哪些测试。
GB300 属于全新一代 Grace-Blackwell 超级芯片模组,其组装完成后需要通过一系列严格的测试,才能出厂或进入整机集成。这些测试大致可以分为 功能性、可靠性、热-功耗验证、互连与信号完整性 四大类。结合目前 NVIDIA 在 GB200/NVL72 的流程,可以推测 GB300 模组完成后会经历以下测试环节:
上电自检(Power-On Test):确认电源轨电压、电流稳定,电源时序符合要求。
JTAG/边界扫描(Boundary Scan):检查BGA/倒装芯片的焊点是否有虚焊或短路。
基本功能测试(Functional Test):确认 CPU、GPU、HBM、NVLink-C2C 通道均可被识别并正常工作。
内存测试(HBM Stress Test):验证 HBM3e 的容量、带宽、延迟与错误率。
NVLink-C2C 通道测试:验证 GPU↔CPU、GPU↔GPU 的超高带宽互连是否稳定,误码率是否满足要求。
PCIe Gen6/5 测试:确认外部 I/O 接口速率、链路稳定性。
SI/PI 验证(Signal/Power Integrity):检查高速信号眼图、抖动、串扰,确认电源噪声是否在设计范围内。
功耗验证(Power Validation):在不同负载下测试模组功耗曲线,确认是否符合 TDP 设计。
热特性验证(Thermal Validation):在风冷/液冷条件下运行长时间高负载,监控温度分布、热阻与冷板接触情况。
热循环测试(Thermal Cycling):在高低温交替下运行,测试焊点与封装可靠性。
Burn-in Test(老化测试):长时间高温高负载运行,筛除早期失效(类似 GB200 模组在富士康等厂商进行的 Burn-in)。
压力测试(Stress Test):同时满载 GPU、CPU、内存与互连,确认无掉速、掉链或死机。
长期稳定性验证(Soak Test / Endurance Test):连续运行数十到数百小时,模拟数据中心 24/7 负载环境。
故障注入测试(Fault Injection):模拟单链路错误或内存错误,检查容错与恢复机制。
固件/驱动兼容性测试:确认 BMC、GPU 驱动、Grace CPU 固件均能正常工作。
与机柜/托盘集成验证:在 HGX/DGX/ODMs 的托盘上进行系统级上电,测试冷却接口、电源分配是否正常。
量产一致性抽检:对随机批次模组进行更严格的全套测试,确保良率与一致性。
📌 总结:
GB300 模组在组装完成后,通常会依次经历 电气功能 → 高速互连 → 热-功耗验证 → 可靠性与老化 → 系统级集成 这五大测试阶段。相较 GB200,预计 GB300 在 PCIe Gen6、HBM3e 更高带宽、液冷适配性 上会有更严格的验证环节。
问题来了,狗子的测试设备到底负责的是哪一部分?
以上直贴式散热器件的专利原文明确指出有三项:高低温测试,功耗测试和老化测试,大致对应的是前文中3和4所述的部分。而且,不排除有新的测试项目。
在后续的芯片测试装置专利中,给出了外接客户设备的说明。
那么,是不是可以理解为,狗子的设备在提供芯片正常运行环境的同时,可以外接其他设备做其他相关的测试?当然,我们也知道这是针对GB200的设备,升级到300后大概率是有新的测试项目的。
狗子中报里也提到显控技术在生产智能化行业落地。而这个测试设备除了提供液冷平台以外,我认为还有非常重要一点是提高生产效率和良率。
我们知道,HH的毛利其实不高,个位数吧。那么,如果能提高一个百分点的良率也会对总体的利润率带来显著的改善。因此,HH会非常有动力上线新的自动化测试设备,老的设备也会逐步进行升级。在不久前的法说会上,其实也提到了“良率提升、測試自動化提高效率”。我们并不能确认具体指的是哪方面的测试,但是大方向上看狗子的设备是完全符合的。
另外,晚上看到有人在发bjgf也给N客户提供芯片测试,仔细看了下,是电学测试和功能测试设备,对应的应该是第1项。