英伟达的竞争盘、TPU 的挑战,以及 AI 基础设施的终局

用户头像
翻番
 · 天津  

简单聊聊英伟达的竞争盘、竞争对手。结合此前有小伙伴让我聊TPU,那么不妨一次性把这个问题说清楚。并尽我所能,解答以下问题:

TPU会挑战英伟达吗? 大厂自研潮会演进到什么程度,ASIC会挑战GPU吗? 英伟达未来毛利率会下降吗? 产业终局是什么样,英伟达市占率会降低吗? 英伟达的真正竞争对手是谁?

本质都指向一件事:AI 基础设施正处在扩张期,而非稳态期。只有把 TPU 放回全局图景里,才能真正看清英伟达的竞争盘。

一、TPU 与 GPU 的路线正在收敛,TPU 不再是早期那条“差异化路线”

早期的 TPU 通过系统优化与超大规模一致化吞吐来区别于 GPU,而非堆单芯片性能。但这种路线在 TPU v6/v7 迭代时已不复存在。Google 同样在卷单芯片性能、卷先进工艺、卷 2.5d 封装(CoWoS)、卷 HBM,也越来越像 GPU 的架构形态。更重要的是,TPU 也开始面临与 GPU 相同的工程现实——只要追求极限性能,就绕不开封装、内存、互联、电力这些物理约束。这意味着 TPU 不再是一条“替代性技术路线”,而是与英伟达走上同一条赛道(当然英伟达也在融合 Google 的技术,在网络上高歌猛进,本质上还是在趋同、收敛),只是 TPU 体量尚小,尚未撞到 GPU 所面对的全部天花板。

二、大厂自研的核心推力之一,不是因为英伟达不够好,而是英伟达产能未出清,大家“买不到”

当前竞争热闹,并不是 GPU 不行,而是 GPU 产能不够。英伟达的供给速度追不上需求的超预期爆发,大厂急需算力,只能被迫选择 AMD、被迫自研 ASIC。真正推动自研潮的是无奈与缺货。而英伟达之所以缺货,是因为它正被三个产业级“卡脖子点”限制:

CoWoS 封装产能有限、HBM 供应极度集中并且扩产缓慢、数据中心基础设施(供电/散热/网络)跟不上 GPU 功耗的飞升。任何未来挑战者,只要想做到与英伟达相同的性能等级,也会撞上这三大瓶颈。

给一张图:

除了眼下的瓶颈,未来还会有先进工艺、2.5d 向 3d 封装升级、CPO、更精细化的散热工程难题在远方等待。

三、最终决定胜负的是规模:规模 → 最低 TCO → 供应链锁定 → 更大规模

英伟达的优势不仅来自性能,而是来自规模,规模解决一切问题。它能用最大规模拿到最低单位成本(token)。它最早大规模下单 CoWoS、HBM,使得供应链天然站在它这边,并让供应商优先为它优化工艺路线。CUDA 锁死开发者、锁死云厂商,形成软件路径依赖。而大量客户买股押宝英伟达,又进一步强化客户路径依赖。结果就是典型的产业路径依赖三连锁:供应链路径依赖 + 软件路径依赖 + 客户路径依赖,赢家越赢越大,后来者连“赌的资格”都没有。未来当产能真正出清时,规模效应会彻底压死竞争者,尤其在算力终局只剩 TCO 一个指标的情况下,最大规模者会自然成为终极赢家。

四、AI 的产业终局可能比手机更单极:TCO 将推动行业走向高度收敛

手机终局是 iOS/Android 二元格局,但利润几乎全被苹果攫取。而 AI 是更极端的产业,因为它不是消费市场,不需要审美、品牌、渠道这些维度,最终只剩一个绝对指标:TCO(单位 token 成本)。当产业以 TCO 为唯一评价体系时,公式会自然收敛为:规模最大 → 成本最低 → 供应链最稳 → 系统效率最高。因此 AI 的终局不仅会出现像手机一样的收敛,甚至可能比手机更“单极”。

历史早就给了我们例子:上世纪 90 年代有七八十家 GPU 公司,最终只活下来两家;而苹果在双平台时代的利润不仅没下降,反而因为规模与供应链控制力持续制霸。AI 的经济逻辑与前 AI 时代的 GPU、智能手机的逻辑高度一致 —— 规模决定毛利,毛利反过来强化规模,从而形成极强的路径依赖。

唯一阻止英伟达此刻就进入稳态统治的,是供应链还没出清,尤其是 CoWoS/HBM 在 2027 年前仍将长期紧平衡。也就是说,距离“终局”还有数年的窗口期。在 2027-2030 年左右的这个周期里,瓶颈缓解、供应链趋于稳定,英伟达仅凭一轮有策略的降价,就足以让很多小玩家难以为继(不一定会这么简单,年限时点也是现在的一致预期,供需变化随时可变。至于英伟达的价格战,只做头脑实验,我的意思是小玩家根本没有实力抵御市场风险,理解即可)。

在这样的结构里,英伟达的毛利率未必像许多人笃定的那样会掉下来,甚至可能像苹果一样,随着规模扩张而进一步稳固,或逐渐进入一个良性区间,促成规模、利润最大化,实现单位体积算力最大,单位 token 成本最低。

五、英伟达确实强大,但诸如 OpenAI 等实体是可能改变游戏规则的变量

证据和推演指向英伟达的最终稳态统治,但整个产业链中仍然存在一个不从供应链路径竞争、而是从需求侧改变计算结构的特殊变量:OpenAI。它不是英伟达的替代者,却有能力重新定义 AI 模型对硬件的需求——2022 年的 ChatGPT 打开“大模型时代”,而 2024–2025 的多模态、视频模型与 Agent,又推动整个基础设施被迫重构。OpenAI 的优势不在于制造芯片,而在于它能够改变行业需要什么样的芯片。这意味着它可能绕开英伟达最强的供应链与规模护城河,直接推动新型计算范式出现。如果未来真的有人能让硬件体系不再围绕传统 GPU 架构构建,那家机构更可能来自“定义需求”的一侧,而不是“争夺供应链”的一侧。OpenAI 正是这个产业里最具颠覆性的潜在变量。