注:作为近期小节,本文主旨大抵来源于雪球网友们讨论,并启发收束于一篇雄文(评论附链接)。
现实背景:chatgpt引爆gen-AI,LLM成为通向AGI的可能。越早摘得AGI果实的玩家获得越大奖励,军备竞赛开始。根据scaling law,玩家们无止境渴求加速计算算力。易得:
1、更大的角度上,持续而规模巨大的加速计算算力需求,让训练LLM的主战场只能集中于数据中心/云端,换言之,这是一场关乎【数据中心】的军备竞赛。
2、稍具体的角度上,加速计算需求猛增,而芯片摩尔定律失速,二者之间矛盾凸显。单芯片加速算力不足,又鉴于LLM对存算带宽的迫切要求,GPU厂已在通过chiplet/增大带宽等各种办法来应对需求,下一步如何系统级规划集群架构成为关键。
有鉴于此,先看英伟达的解。水会往压力更小的那个方向流,技术也如此。即不同于PC时代开启的芯片摩尔定律,由于工艺制程更难产,这一轮对算力单元的规模化落脚点就是机柜,在这次GTC上,NVL72是变化开始也是未来方向;该尺度上将在系统级延续摩尔定律。机柜这个粒度就是将计算单元的空间缩放控制在IB/以太网之前(对于英伟达就是nvlink能到哪里),最大化带宽性价比,背后的规律就是计算单元离得越近数据传输速度越快,且通信成本也越小。
芯片以上,机柜以下,将成为数据中心算力规模化的核心战场。为了在狭小的空间塞进更多的计算,除了芯片上要卷先进封装,卷chiplet,卷更多hbm(hbm很贵但单位带宽价格趋近于0),NVL72中的18个服务器机箱36张板72块B200已完全延申到背板nvlink通信,并采用了更廉价的铜连接,单位空间功率内卷也使得液冷等散热模式不可或缺。
结论部分。可据以上分析来寻找投资机会。
1、比如解决方案提供商视角上的启发,英伟达大概率会领导这条系统级摩尔定律路线,建立行标形成标准/技术护城河,护城河的壁垒程度决定了替代方案的空间(英伟达方案里存在大量私有技术,AMD的开放产业联盟/网络合作商,以及国内自主可控的潜在独立生态,去跟英伟达这条路线可能性很大,能不能跟上就看替代方案的效率)。英伟达更像x86规模化时期的英特尔,而不像互联网泡沫前后的思科(因为思科的产品即网络设备在技术纵深向上的规模化空间不够大,所以能被竞争者如hw轻松吃掉市场份额)。需要注意的是,英伟达系统级规模化虽刚刚上路,但已如此市值,后续还有多少空间?类比英特尔始于上世纪90年代终至2015年左右的tick-tock,即便在规模化后期即tick-tock时期(10nm制程受阻以前,约2007-2017年间),英特尔规模化联盟(英特尔/微软等标的)仍能跑赢市场(纳指),但同期x86软硬件基础设施之上的应用级或替代线的谷歌和苹果均远远跑赢市场。类比结果就是,现在gen-AI不存在如同x86时期互联网/移动互联网等下游明确的应用级标的,英伟达很可能尚处于前段规模化时期,此阶段是规模化议价强势方,而在市场培育到一定阶段时,可再寻找更佳标的以获得超越市场的投资收益。
2、供应商/合作方视角,如果英伟达系统级摩尔定律能够持续数代,这里有许多价值流向的机会(注意,在当前阶段下述都是量的机会,毛利也在被英伟达吸血)。从芯片到机柜逐级来看: (1)hbm不嫌多,单位带宽零成本可谓堆得越多越合适; (2)先进封装将大有可为,这是晶圆厂的蓝海; (3)光通信失宠,铜缆重装上阵,计算都挨得这么近了,以后会更密更近,铜连接忽然顺眼了,便宜又好用,这是反直觉的增量; (4)散热技术如液冷时代到来,机柜单位功率只会继续增加,系统级的散热工程无比重要; (5)还有一个潜在的问题领域,即IB/以太网这块恐怕并不是好选择,亦即此级的网络设备,还有资本重点关注的光通信/光芯片/光模块很可能并不是此轮规模化的外延部。
3、其他视角,主要是数据中心的买方,比如CSP等,由于它们还往往附着推动gen-AI应用突破的交叉业务,与本文逻辑关系不够直接,不赘述。
风险/免责:当前通向AGI路线证伪则以上逻辑恐将失效,规模化进程中如有关键技术突破另当别论。