用户头像
妙新银BoomBust周期
 · 美国  

Gavin Baker之前评论英伟达收购Groq
• Decode阶段(逐token生成、autoregressive)是内存带宽受限(memory-bandwidth bound):每个token都需要快速从内存拉权重/激活,传统GPU靠外部HBM,带宽/延迟瓶颈严重,导致P99延迟高、tokens/s低。
• Groq的LPU/SRAM把权重主要放在on-chip SRAM(而非cache),带宽高几个数量级 + 确定性编译器(static scheduling),极大绕过/缓解这个瓶颈,尤其适合低延迟、agentic reasoning(如实时聊天、语音代理、机器人)。
• 结果:NVIDIA必须“split the silicon”(拆分硅片/架构),用Groq-derived SRAM变体补decode短板,否则在推理主导的时代会丢份额。他甚至预测这会让很多独立AI ASIC startup“cancel”(除了Google TPU、Tesla AI5、AWS Trainium)。
原文

图片

图片

图片

图片