分享系列5—Dwarkesh访谈SemiAnalysis Dylan Patel,关于算力、芯片

用户头像
奇蒂
 · 北京  

前言:文章来自上周Dwarkesh访谈SemiAnalysis Dylan Patel的播客,全长2.5小时,我只是做了我觉得有意思的点的总结,顺便分享出来,没有特意为阅读友好再精简一次,原播客有更多完整的信息,如果感兴趣可以听一下。我没有总结其中探讨硬件细节、太空数据中心等部分,另外在我总结的部分中关于硬件技术细节的部分也借助了AI来理解,写的未必都正确。欢迎拷打。

——————

正文:

算力:

1.Capex和算力租用成本:

-2026年AMZNMETAGOOGLMSFT的Capex到6000亿,预计2026年实际新增会有20GW(大部分来自大厂,也有小部分不是,其中有不少是去年xcapex花出去的),同样今年有很多Capex不是用在今年,比如GOOGL的1800亿很大一部分用于 2028、2029 年的涡轮机定金,还有一部分用于2027 年的数据中心建设,还有一部分用于长期购电协议、预付款

-OpenAI和Anthropic的租赁成本大概是1GW每年 100 亿到 130 亿美元

-目前Anthropic 和 OpenAI大概用2-2.5GW算力,如果Anthropic未来10个月要增加600亿收入,对应推理支出大概需要400亿,意味着需要4GW算力,这对Anthropic很难,不过最后依然认为今年Anthropic通过各种途径会有5GW的算力

2.算力供给紧缺:

-Hyperscaler手里有容量。并不是所有算力合同都是 5 年期的长期协议。有些是 2023、2024 年的算力,或是 2025 年到期的 H100,签的是短期合约

-当这些合同到期时,因为市场是供给受限的,所以已经看到 H100 价格大幅上涨。有人甚至愿意以超过 2 美元的价格签长期合同,比如某些AI Lab会用2.4美元的价格签2-3年的H100合同

-按5年折旧期,造Hopper的成本在1.4美元(算了数据中心、网络、运维、芯片、服务器),现在过去2年了,依然能卖到2.4美元,溢价很大

-Neo Cloud整体上持有更高比例的 Hopper 芯片,因为它们当初更激进。它们也更倾向于签短期合同

-像甲骨文、CoreWeave 这类厂商,大部分 Blackwell 算力已经签了长期合同,本季度上线的算力也已经全部卖完。有些情况下,它们甚至完不成承诺的销量,因为数据中心建设出现延迟

-部分超大规模厂商正在建设但尚未售出的算力,或是原本打算用于内部、并非聚焦于 AGI 的算力,现在都可以转过来对外出售

3.Anthropic和OpenAI签算力策略很不同OpenAI签长约锁定算力价格,Anthropic更保守

-前者很保守,后者疯狂签合同,Anthropic如果一定要算力只能去找之前不会考虑的、质量更低的服务商

-OpenAI 绝大部分算力都是签的 5 年长约,但还有很多其他客户签的是 1 年、2 年、3 年,甚至 6 个月的

-所以矛盾的点是Dario认为距离建成 “天才级数据中心” 只剩2年,最多不超过5年,但他们在算力投入上还很保守

-在算力攻击紧缺的情况下,Anthropic要付出更多的溢价来买算力(根据之前The Information的报道,的确Anthropic下调了毛利率)

4.在当前的受限环境中,如果签下五年算力长约的公司,已经锁定了巨大的利润率优势:

-以两三年、甚至五年前的成交价格,锁定了未来五年的算力

-反观如果五年合约已经执行三年,或是两三年的合约到期,现在要按当前市场价采购算力,而当前价格已经对标模型价值来定价,价格会高出非常多

-另一方面,拿 CoreWeave 来说,现在的平均合约期限超过三年,超过 98% 的算力合约都是三年以上。这就导致一个困境:它们没法随意涨价,不过因为新增的算力规模,又远大于往年存量,而这部分可以用新的价格成交

-所有新增成本都体现在增量算力上,而不是已有的长期合约上。所以掌握定价权、赚取利润的,就是基础设施提供商

-AI 实验室身处高度竞争的环境,因此利润率不可能无限增长,但今年会看到模型厂商的利润率大幅上升,因为它们算力极度紧缺,不得不主动压制需求

5.芯片经济性的测算视角:

-视角1:有些人的逻辑是每过两年,英伟达的芯片性能就会翻 3~4 倍,而价格只涨 2 倍,对应现有的芯片价格就要对应持续下跌

-视角2:这块芯片你到底能产生多少实际价值?比如GPT‑5.4 运行成本比 GPT‑4 低得多,激活参数也更少,因为是更稀疏的MOE,再加上其他一系列进步,用一块H100跑,GPT‑5.4,能跑出的 token 数量

6.另一个经济学原理:

-假设口感更好的苹果卖 2 美元,劣质苹果卖 1 美元。现在对它们加征进口关税,好苹果变成 3 美元,普通苹果变成 2 美元,关键就在于两者都固定增加了 1 美元。整个效应的逻辑是:如果对两种商品都施加一笔固定成本,那么它们之间的价差、价格比例反而变小了,从心理上人们会觉得不如买那个更贵的

-同样的道理,如果GPU涨价,也许人们会更倾向于买更贵的模型token

————————

逻辑和存储芯片:

1.英伟达锁定大量的逻辑芯片和存储芯片产能:到 2027 年,英伟达将拿下台积电3nm 晶圆 70% 以上的产能,核心原因在于更相信AI的爆发,一直在加单

-刻意拆分配套产业链,把芯片配额分给各类Neo Cloud,避免一家独大,Anthropic和OpenAI也会担心云厂商一家独大被绑定

-3nm产能:

去年3nm 产能绝大多数都给了苹果。现在苹果正在转向 2nm:存储价格上涨后,苹果的出货量可能会缩减,虽然因为长约存在会有一定滞后,但苹果很可能会降低需求,或是更快转向 2nm——目前 2nm 还只能用于移动芯片。未来 AI 芯片也会迁移到 2nm。

台积电在高性能计算(HPC)——包括 AI 芯片等领域的利润率,要远高于移动芯片,因为在 HPC 领域的优势比移动端更大。

也给做 CPU 的公司分配了相当不错的产能。比如亚马逊有 Trainium AI 芯片和 Graviton CPU,两者都用 3nm 工艺,台积电更愿意把产能分给 Graviton,而不是 Trainium,因为它认为CPU 业务更稳定、增长更长期

作为一家风格保守、不想过度追逐周期式增长的公司,台积电会优先把产能分配给增速更低但更稳定的市场,再把增量产能投向高速增长市场。

-即便如此,英伟达还是拿到了绝大多数供给:

一部分原因是市场层面,台积电等厂商会通过多种方式预测需求,但更关键的是市场信号——需求的爆发让英伟达能签不可取消、甚至交定金的合约,英伟达行动也比谷歌亚马逊更快

谷歌亚马逊在某些节点上还遇到了阻碍,比如部分芯片延期了几个季度,Trainium 等项目就出现过这种情况。于是就出现一个局面:“这些人还在延期,但英伟达却在不断加单,因为英伟达对AGI信念更强(不过依然弱于Dario或者Sam)

2.Google也得大量采购GPU,因为TPU产能不足:

-因为 TPU 产能根本不够填满他们的数据中心,芯片造不出来

-但在这种情况下还把TPU对外出售给了Anthropic,Deepmind的人肯定不满意因为自己的卡都不够用,但当时谷歌云团队的考量不同

-Anthropic在谷歌反应过来这个事之前就拿到了这批算力,Semianalysis的追踪情况是去年第三季度初,短短六周内,TPU 可用产能出现了大幅跃升,期间多次上调配额,申请接连不断。谷歌甚至不得不去找台积电,解释为何突然需要大幅增加产能。这部分新增产能,很大一部分就是为了卖给 Anthropic。因为Anthropic更早看清了形式

-之后Gemini用户暴增,但谷歌再去找台积电的时候已经没有产能了,2026 年或许能多挤出 5% 到 10%,但主要产能已经排到 2027 年了

-从那之后Google开始变得激进

3.供给瓶颈会转向ASML,不过会发生在2030前的后半段:

- 瓶颈会从电力和数据中心,重新回到芯片本身

-而在芯片供应链中,又存在多个不同的瓶颈环节:存储芯片、台积电的逻辑晶圆、晶圆厂本身

-建造一座晶圆厂需要两到三年时间,而数据中心耗时还不到一年(亚马逊最快八个月就建成一座数据中心)

-认为最终瓶颈会卡在ASML,EUV 光刻机单台售价 3 亿到 4 亿美元。目前年产量约 70 台,明年能到 80 台。即便供应链以非常激进的速度扩张2030年,年产量也只能略超 100 台。

-1GW算力需要200 万次 EUV 曝光,大约需要3.5 台 EUV 光刻机(尽管1GW AI数据中心需要500亿而3.5台光刻机只要12亿美元)

-台积电及整个生态目前已经拥有大约 250 到 300 台 EUV 光刻机,到2030年末总共会有700台EUV,每GW 3.5台(且不可能全给AI用),理论上能支持200GW,Sam的愿景是50GW是有机会的,意味着25%的份额,和OpenAI现在拿到的Blackwell的份额类似

4.聊ASML

-即使这种情况, ASML 也没有疯狂涨价、攫取超高利润,在所有人都在赚暴利的时候,ASML 的涨价幅度,从来没有超过设备性能的提升幅度

-没有选择不顾一切激进扩产,因为经历过周期的半导体产业链没有人对AGI觉得近在眼前(有点像供应链管理里的经典效应,OpenAI和Anthropic最相信,先给出一个很高的数,英伟达次相信,所以会减少一点,再往上游相信度再低一些,所以会再减少一点)

-另一方面,产能不可能说扩就扩。哪怕是电力这种看似简单的东西也是如此。美国电力增速从 0% 提升到 2% 都异常艰难,ASML、蔡司这种公司员工都很少,没办法不可能临时培训、速成上岗

5.能不能退回7nm工艺?——很大程度上不现实,性能差的比想象中大:

-理论上,可能被逼到这一步,因为迫切需要增量算力,而这些芯片即便成本更高、功耗更大,依然具备足够价值

-但很大程度上并不现实,因为性能差比想象中大,简单用每瓦 FLOPS或每美元 FLOPS衡量,但并不客观,每代芯片的设计目标完全不同

-比如Kimi K2.5 和 DeepSeek 这两个模型,在经过高度优化的软件下,分别跑在 Hopper 和 Blackwell 上,性能差异极其巨大。背后的原因大多不是 FLOPS 或精度,因为这些模型实际都是eight-bit,这么大的差异是因为两者的实际性能差距本身就大得多

-同时这些模型不是跑在单颗芯片上的,而是同时在成百上千颗芯片上并行运行, 每当数据跨越芯片边界时,就会产生效率损耗,即使用一整个机柜的芯片做同样任务,Hopper 也要比Blackwell慢得多,DeepSeek 和 Kimi K2.5 在每秒 100token 的推理场景下,Hopper 和 Blackwell 的性能差距接近20 倍,而不是算力数值显示的 2 倍或 3 倍

-哪怕它们用的是同一代制程节点。差距主要来自互联技术和架构优化。很多设计就算你在 7nm 上重新流片,也根本实现不了。有些架构改进可以移植,有些则完全不行

——————

模型参数规模扩张之所以这么慢 ——直到现在 OpenAI、Anthropic 才做出更大模型,原因是硬件的memory限制以及用小模型快速迭代形成复利更划算:

1.初代 GPT‑4 就已经超过一万亿参数,直到最近才有模型重新接近这个水平

2.有一种说法是,问题出在英伟达的 scale-up 内存容量一直不够大,比如你跑一个 5T 参数的模型,用 FP8 精度,那就是 5TB。再加上 KV 缓存,假设单批次就需要一样大的缓存。那跑一次前向传播就需要10 万亿TB

3.只有到 GB200 和 NVL72 这一代,英伟达的 scale-up 域才终于有 20 TB,在这之前都小得多

4.模型扩大化的“陷阱”:

-开发环节里,又分为预训练和强化学习。现实情况是:研究带来的算力效率提升幅度极大,所以应该把大部分算力投给研究,而不是开发

-同等规模模型的训练成本每年会下降 10 倍甚至更多

-在开发这个环节。如果预训练一个 5 万亿参数的模型,在强化学习阶段要做的推演(rollout)是 1 万亿模型的 5 倍。就算大模型的样本效率高一倍,也需要2.5 倍的强化学习时间才能让模型变得更聪明

-所以如果去开发小模型,能更快拿到可用模型,做更多轮强化学习,再用这个模型去支撑下一代研发、辅助工程师训练、验证各种研究思路,反而可以实现飞轮效应

-所以无论硬件条件如何,几乎总是偏向小模型,而Gemini Pro比同期竞品的参数量大很多,是因为TPU而不是异构的算力架构,谷歌这样统一的算力集群,才能专门为超大模型做深度优化,缩短强化学习时间,加强飞轮

——————

内存:

1.没人想跑的慢,价值最高的任务通常也有时间敏感性

2.预计2026年科技巨头的Capex 30%要花在内存上,紧缺会持续加剧,价格会继续上涨

3.对手机的影响:

-智能手机、PC 每年不仅不会变得更好,反而会变得更差、更贵;比如iPhone的成本可能会比原来贵150美元,苹果不太可能大幅压缩利润,顶多承担一小部分,最终结果就是消费者多花 250 美元买 iPhone(苹果反应会慢一点,因为它们通常签 3 个月到 1 年的长期内存合约)

-不过苹果年销量只有2-3亿台,而全年市场上要卖出14亿部手机,以低端机为主,现在全球智能手机出货量已经降到11 亿部左右。SemiAnalysis预测今年可能进一步跌至8 亿部,明年甚至会到5-6 亿部

-已经发现小米、OPPO 都把中低端机型的出货量砍半,因为对于低端机来说,内存和存储占BOM比例显著高于苹果,无法消化成本上涨

4.当前的约束仍然是晶圆厂(因为2023年还在亏钱,所以没有人扩产),更远才到EUV,而晶圆厂建设周期需要两年。所以要到2027 年底或 2028 年,才会有真正能投产的新厂来安放这些设备(不光是EUV,比如在逻辑芯片的 3nm 工艺中,EUV 约占最终晶圆成本的 28%。而在 DRAM 里,这个比例只有百分之十几)

——————

其他:

1. 2nm制程:

-今年,苹果会占据绝大部分 2nm 量产产能,只有少量给了 AMD,它们在早期尝试做一些 AI 芯片和 CPU,份额很小,基本还是苹果一家。

-到明年,随着其他厂商爬坡上量,苹果仍接近一半,但之后会大幅下滑,就像当年 3nm 初期苹果占一半,后来迅速被稀释

-这里说的2nm 也包括 A16 工艺,它是 2nm 的衍生版

2.光刻:

-长期来看,光刻成本占晶圆总成本的比例一直在上升。2014 年前后约占 17%,过去十五年一路涨到 30%。DRAM 以前是 10%~15%,现在接近 20%,在进入 3D DRAM 前,很可能突破 20%。但真到 3D DRAM 落地,EUV 占总成本的比例又会大幅下降。

-不过相比成本占比,更关心对产能的瓶颈效应

3.电力:

-服务器直接吃掉的电力≠电站总装机:中间还有输电、转换、散热等损耗,所以实际电站容量要在这个数字上再放大20%~30%。

-同时还有容量系数问题,轮机不可能 100% 满负荷运转。美国最大电网 PJM(覆盖中西部和东北部部分地区)的模型里,会预留约 20% 的备用容量。在这 20% 备用里,轮机实际以 90% 负荷运行,留出可靠性、维护等降额空间

-目前,数据中心仅占美国电网用电量的 3%~4%,到 2028 年将达到 10%

-不过就算电价翻倍,Hopper 成本也只从 1.40 涨到 1.50 美元

4.中国:DUV和EUV认为5-10年DUV肯定可以完全自主且上量,EUV有样机但无法量产;量产很重要,ASML 早在 2010s初就做出了能运行的 EUV,但精度不够,不适合高量产,可靠性也不行,又花了5-7年才规模化

5.追赶:

-如果技术迭代速度足够慢、时间线拉得足够长,中国完全有可能实现大幅追赶

-但如果模型后台大量思考过程开始对你不可见 ——这时再想从美国模型中蒸馏知识迁移,难度会大幅上升

-另一方面是算力规模现在差距太大

但如果美国大规模的Capex被证明是回报率低的,那中国的垂直整合的供应链会显示出优势

$英伟达(NVDA)$ $台积电(TSM)$ $谷歌A(GOOGL)$

@icemelon_