注:作为近期小节,本文主旨大抵来源于雪球网友们讨论,并启发收束于一篇雄文(评论附链接)。
现实背景:chatgpt引爆gen-AI,LLM成为通向AGI的可能。越早摘得AGI果实的玩家获得越大奖励,军备竞赛开始。根据scaling law,玩家们无止境渴求加速计算算力。易得:
1、更大的角度上,持续而规模巨大的加速计算算力需求,让训练LLM的主战场只能集中于数据中心/云端,换言之,这是一场关乎【数据中心】的军备竞赛。
2、稍具体的角度上,加速计算需求猛增,而芯片摩尔定律失速,二者之间矛盾凸显。单芯片加速算力不足,又鉴于LLM对存算带宽的迫切要求,GPU厂已在通过chiplet/增大带宽等各种办法来应对需求,下一步如何系统级规划集群架构成为关键。
有鉴于此,先看英伟达的解。水会往压力更小的那个方向流,技术也如此。即不同于PC时代开启的芯片摩尔定律,由于工艺制程更难产,这一轮对算力单元的规模化落脚点