
小总结:
1.以自研Trainium2芯片的数据中心为例,单点能“不亏钱”是比较容易的事,只需要20%的EBITDA Margin大致就能打平,而AWS整体的EBITDA Margin为50%,所以从各种角度看,自研芯片都有很强的动力和价值
2.长期非常看好AI的大机会,但是用中期的视角看扰动因素太多(多到我觉得对我来说已经有点难),从我的水平出发我觉得需要一定的估值折价来反馈风险因素,光去看“产能扩张拉动多么夸张的收入增速”是没有意义的,而要看利润,我的基准情形是未来4年AWS的利润绝对值有High teens的CAGR
3.这个领域我的水平不成熟,欢迎球友们狠狠拷打!
————————————————
一、以自研Trainium2为例的芯片经济性——每GW:
1.收入公式:a.每GW Trn2芯片数*b.每小时收入*c.使用率
a.每GW Trn2芯片数:印第安纳州的Project Rainier全部部署Trn2芯片,UBS在2025年9月进行过航拍,园区一共规划2.2GW,30栋建筑中完工7座,而在Q3 25财报会上表示已经运行了50万Trn2芯片,假设7座运营建筑等效5座满产——对应366MW产能(5/30*2.2GW),则意味着1GW运营136万颗Trn2芯片(交叉验证:估算Trn2功耗500W,136万颗对应680MW,按1GW计算对应冗余电量300MW)
b.每小时收入:26年1月的时候美国东部和墨尔本的Trn2的EC2实例(trn2.48xlarge)对应的单个芯片的定价2.24美元/小时(最新在官网上已经查不到On-Demand的供给了,假设给Anthropic这样大客户能打7折,对应每小时价格大概1.6美元/小时
c.利用率:假设90%
对应的1GW Trn2芯片年收入大约为136万颗芯片*1.6美元/小时*1年8760小时*90%利用率=170亿美元(交叉验证:Q3 25财报会表示50万颗的Trn2成为数十亿的业务( become a multibillion-dollar business),如果1GW=170亿收入,50万片大概对应62亿 run rate,数量级对得上)
————
2.折旧成本公式:a.每GW Capex/b.折旧期限
a.每GW Capex:Q4 25财报会提到2025年全年增加3.9GW,2025年全年AWS Capex 900亿左右(占AMZN总Capex70%),尽管Capex到GW的提升有时间差,但另一个好的交叉验证是公司表示到2027年底要把产能翻倍,按照当前大约16GW的总Capacity看,未来2年还要新增15GW,而2026年已经给出整个公司2000亿Capex,假设80%投在AWS就是1600亿,假设未来2年投3000亿对应增产15GW,也大致对应1GW的Capex在200亿。
所以暂且估算AWS作为整体每GW Capex为 230亿左右,这里保守一点假设一个最新芯片的AI数据中心需要300亿(需要注意的是这是整体而不是针对Trn2的数据中心,但业界公认的AI数据中心Capex大概是每GW 500亿美元,很大一部分原因在于买NVDA的卡要给75%毛利的老黄上税)
c.折旧期限:亚马逊服务器折旧期限5年,但建筑是40年,其他heavy equiptment是13年,保守点平均用8年来折旧(现在实际的AWS折旧年限推算平均在11年左右)
所以1GW的年折旧成本大约为300亿/8年=38亿
————
3.打平点:所以打平点在如果完成22%左右(38亿折旧成本/170亿年收入)的EBITDA Margin即可,而这个目标看起来并没有那么难完成
a.AWS整体的EBITDA Margin可以做到50%。不过需要注意的是这是整体,显然是靠上层的高利润率软件撑起来的,而IaaS本身利润率做不到这么高

b.最新的微软表态是AI业务利润为正(Low but positive),不过语焉不详、口径不清
————————————————
二、从财务数据看AWS的投入产出数据:
1.首先要了解,上面对Trainium的分析只是一个“点状数据”,实际上Trainium的占比并不高,例如Yipit Data根据有限的采样点统计的AWS GPU Spend中依然很低,不过这个数字显得过低,可能和Yipit Data本身采样相关,AWS整体Run rate 1400亿,根据财报Trainium芯片整体的run rate是数十亿级别,大概占整体AWS都有低个位数占比

2.看一下AWS的Top down投入产出数据:其实相对比较健康,AI浪潮发生后,在2025年效率指标略有下降,但依然上1年的1美元Capex能为下1年带来额外的0.3美元EBITDA(对应3年多收回Capex)

3.情景测试——按照现状进行线性推演:假设每1美元Capex对下1年收入增量驱动效率保持不变,整体AWS EBITDA利润率维持在 50%,2026年-2028年一共投入6000亿左右的Capex,新增Capex按照8年折旧,结果是虽然利润率会掉,但总的EBIT在2029年相对于2025年依然增长80%(830亿vs.460亿),对应16%的4年CAGR

————————————————
三、线性外推的问题是什么?
最大的问题来源于【价格】和【EBITDA Margin】的典型外推,这两者稳得住吗?我能想到的几个重要的因素有以下几个:
1.【价格】价格主要匹配的是供需,除了对未来行业需求的预测比较难(肯定会很大,但有多大?),另一个比较难的地方在于对未来模型训练的预测,举个例子:
根据The Information的数据源,可以推算出:OpenAI 2025年收入130亿,推理大概花了70亿(54%的COGS占比),但现金EBIT亏了100亿左右,所以对应训练的支出在100亿级别;Anthropic 2025年收入45亿,推理大概花了27亿(60%的COGS占比),EBITDA亏损52亿,训练支出估计也在50亿级别
也就是说大概率现在大模型公司的训练的支出是比推理多的。
我觉得这里的难处在于,如果未来几年内某个节点训练的边际效益太低或者训练效果触顶,模型公司的盈利性可以迅速打正,但也意味着对云厂商来说很容易变成供给过剩?但如果训练要一直烧下去,云厂商的供给会被所谓fully subscribed,如果模型巨兽的现金流一直打不正,短期内AI的叙事驱动市场情绪何去何从?
————
2.【EBITDA Margin】现在肯定是不怎么赚钱的,达不到很好的水准,这个叙事和云时代有些像,从低利润的IaaS转向高利润的PaaS与SaaS,但问题在于这一次最上层的蛋糕上有2个大玩家,Anthropic、OpenAI,目前看在应用上压MSFT一头,更压AMZN一头,未来利润率能做到多少呢?
————
3.另一个是【高客户集中度】,用我之前计算过的一组Q4 25的backlog数字,对于AWS和Azure而言,Anthropic和OpenAI还是举足轻重的
a.AWS:2440亿,同比38%,环比22%;但包含了380亿Q4新签的OpenAI Commitment,去掉后同比16%,环比3%(不过可能不需要把380亿全去掉,因为也未必把380亿都计入了Backlog)
b.Azure:6310亿,同比108%,环比59%,去掉OpenAI为3470亿,同比28%;但其实Q4 Anthropic也承诺了300亿给Azure,也去掉之后是3170亿,同比17%
c.Google Cloud:2400亿,同比163%,环比55%,但Q4其实Anthropic也承诺了“几百亿”,按300亿算,去掉Anthropic为2100亿,同比131%,环比35%

————
4.所以好像问题都回到了“AI市场是不是无敌大”,如果答案是肯定的,那么上面的问题都是短期扰动,经过对Claude Code等产品的体验,我觉得这个答案是肯定的,最后依然是一个“利润率降低但市场显著扩大,最终better off”的情景,只是我个人觉得这里边的变量(moving parts)太多了,需要一些估值的折让来补偿
————
5.最后简单用【AWS收入增加/上一年Capex】、【EBITDA Margin】两个变量看一下【29年AWS相比25年 EBIT总增长幅度】的敏感性分析:具体参考下图,举例来说,如果相比当前EBITDA Margin下降5ppts(从当前53%下降到48%),Capex对下1年收入增量驱动下降20%(从当前的0.4下降到0.32左右),还能维持相对Decent的增长

————————————————
最后附上一张YipitData采样的三朵云计算价格,目前为止很坚挺!

声明:作者和文中提到的部分公司利益相关,不构成投资建议