Gavin Baker之前评论英伟达收购Groq• Decode阶段（逐token生成、autoregressive...

妙新银BoomBust周期

2026-02-28 12:53 · 美国

Gavin Baker之前评论英伟达收购Groq
• Decode阶段（逐token生成、autoregressive）是内存带宽受限（memory-bandwidth bound）：每个token都需要快速从内存拉权重/激活，传统GPU靠外部HBM，带宽/延迟瓶颈严重，导致P99延迟高、tokens/s低。
• Groq的LPU/SRAM把权重主要放在on-chip SRAM（而非cache），带宽高几个数量级 + 确定性编译器（static scheduling），极大绕过/缓解这个瓶颈，尤其适合低延迟、agentic reasoning（如实时聊天、语音代理、机器人）。
• 结果：NVIDIA必须“split the silicon”（拆分硅片/架构），用Groq-derived SRAM变体补decode短板，否则在推理主导的时代会丢份额。他甚至预测这会让很多独立AI ASIC startup“cancel”（除了Google TPU、Tesla AI5、AWS Trainium）。
原文