谷歌自研芯片(TPU)代工产业链深度交流会议纪要

用户头像
歌唱大A
 · 湖南  

核心嘉宾:谷歌TPU代工环节资深专家

一、谷歌自研芯片生态与发展历程

1. 研发起源:谷歌自研芯片(TPU)研发始于约10年前。

2. 代工变迁:

早期代工厂为鸿海(工业富联),但因电源散热设计问题导致数据中心PUE不佳。

当前专家所在代工厂于2020年左右通过招标进入,凭借电源散热IP助力谷歌PUE降低约25%,并于2024年前成为独家代工。

随着谷歌生态扩大,代工格局演变:2024年1月引入伟创力,形成天弘(80%)+ 伟创力(20%) 格局;2025年鸿海将回归成为第三家代工厂。

3. 芯片设计模式:

历史上主要由博通提供技术支持,谷歌贡献微代码。

从第8代TPU (v81) 开始,谷歌转向自主设计,并与联发科 联合开发推理芯片。

当前芯片设计格局:谷歌自主主导+ 博通(专注训练芯片) + 联发科(联合开发推理芯片)。

二、2025年及未来代工格局

总体格局:天弘、伟创力、鸿海三家分占。

份额预测:天弘约65%,伟创力约20%,鸿海约15%。

分工特点:

天弘:聚焦新产品制造。

伟创力:主要负责成熟产品代工。

鸿海:凭借其在英伟达生态的经验及液冷解决方案能力回归。

三、关键供应链生态详析

1. PCB(印制电路板)

主要供应商:

天弘体系:沪电股份(70%,计算与交换板卡第一供应商)、方正(20%)、TTM(10%)。生态稳定,保持三家。

伟创力/鸿海体系:供应商较多,包括深南电路生益电子等。

技术趋势:

V7/V8:普遍采用高层数技术(如44层以上),但层数增加带来成本与散热挑战。

V8及未来:引入HDI技术路线,与高层数并存。预计2026年进行试验局测试,若效果良好,2027年可能大规模切换。

材料:V8确定不会使用“M8”级别材料,将采用更高级别物料。

成本与战略:谷歌通过提前锁定长期(如两年)产能(如与生益电子合作HDI),以规模化降低未来成本。

2. 光模块与线缆

现状:旭创是核心供应商,新易盛份额不足10%。

未来趋势:计划从传统光模块切换至AOC + LPO 组合,预计可降低相关成本约30%。

供应链影响:传统线缆供应商(如Molex、Amphenol、立讯精密)面临AOC供应商(如长飞光博创、菲尼萨)的份额挑战。

3. 液冷解决方案

背景:英伟达标准件集成方案漏液问题频发,促使谷歌Meta等业主转变供应商选择策略,要求供应商具备全栈解决方案能力。

供应商模式:

通用部件(如冷板):由谷歌直接招标定价,代工厂按指定价格采购。

项目制:采用“6+2”供应商模式,主攻两家,其余备选。

主要竞争者:英维克维谛技术、CoolIT、台达、克莱玛特等。

英维克优势:方案完整性最强,已获Meta量产订单,并积极参与谷歌所有液冷环节,有望成为谷歌主力供应商之一。

4. 电源生态

主要供应商:台达、光宝。

其他进入者:欧陆通麦格米特通过伟创力、鸿海生态进入。

未来趋势:数据中心电源架构将转向以HVDC 为主,传统PSU/UPS形态将逐渐淡出。

5. 二次能源(光储)

驱动因素:预计2027年算力需求爆发,北美电价可能上涨30-40%,推动CSP(云服务提供商)部署二次能源。

技术路线:光伏+储能 被视为主力方向,因其原料免费、一次性投入后可长期使用。

进展:谷歌、AWS、Meta已与 阳光电源 接触,预计2026-2027年在美国有产出。

四、谷歌vs. 英伟达:生态与商业模式深度对比

1. 性能与成本定位

性能:同代际谷歌TPU性能约为英伟达GPU的90%-93%。

成本:谷歌解决方案的总体拥有成本比英伟达低约40%-45%。

结论:以约20%-25%的硬件投资,获得英伟达90%的性能,性价比突出。

2. 产品设计哲学与商业模式根源

3. 集群能力与技术路线

谷歌万卡集群:基于OCS技术,已将9216颗芯片在逻辑上虚拟成单一资源池,共享算力、显存(达1.7PB)、CPU和存储。下一代OCS(300x300端口)已就绪,支持未来更大规模集群。

英伟达:依赖NVLink等电交换技术,在超大规模分布式集群能力上落后于谷歌

五、未来规划与竞争展望

1. 商业化进程:

2026年:启动硬件租赁服务(SaaS模式)。

2027年:启动硬件直接销售,并计划在Google Cloud上禁止新客户使用英伟达硬件,强制转向TPU。

2. 产能挑战与应对:

需求:谷歌目标2026年600万颗,2027年800万颗。

供应:台积电CoWoS封装产能是瓶颈,2026年预计仅能供应约420万颗。

应对:谷歌正积极与英特尔洽谈,利用其EMIB等技术以弥补产能缺口。预计最晚2026年上半年将决定是否引入第三家CCL(如生益科技)供应商。

3. 对竞争对手使用谷歌芯片的看法:

短期看,竞争对手(如Meta)使用谷歌TPU可快速提升其算力,反哺其自研芯片。

长期看,谷歌通过硬件绑定生态,在软硬一体化上占据优势。这是一个动态的竞争过程。

---

核心结论:谷歌凭借其云厂商本质、软硬一体化的技术架构和扁平的供应链,构建了一个与英伟达OEM模式截然不同的、高效率、低TCO的自研芯片生态。其分布式架构和集群能力领先,并正加速推进商业化,未来将与英伟达在核心CSP市场展开正面竞争。