标题党了,这个题目是BERNSTEIN取的,这周末最热就立讯了,当然我不持有它,立讯股东赢麻了。又是OpenAI合作,又是iPhone17加单,现在网上确认买到也得10月底了,又是Nv的背板预期,打怪buff叠满。
这个报告推了立讯的CPC,确实它进Nv了,后面用不用它的Cpc方案还不确定,至于能不能抢Aph的背板我感觉还是挺难的,Rubin下一代Aph也参与的很深了,但是有这个预期总归是好事。立讯的铜缆和连接器在国内最强之一了,其实大概率是第一。它有自己的铜缆子公司,好在都是用的恒丰的镀银线。其实,我想说的是国内机构一直说光进铜退,而国外的Aph和credo天天新高,现在国外的机构也看好Cpc,有点迷,不知道谁对谁错,让时间来证明吧。
昨晚3点半才睡,压力好大,主要看好的公司大多都起飞了,不知道还能不能一直赚,看了一晚上Nv的moat,强行洗脑,最后的结论是Nv不倒,我不撤退,一直AI下去。如果哪天Nv被颠覆了,别问我还能不能拿,因为那时候我已经跑了。
最近国内海外看好Google的声音多了起来,确实靠AI强化后的搜索广告这一现金牛提供稳定基本盘,同时由谷歌云作为第二增长极驱动营收增长(加自由TPU芯片);中长期来看,大模型+Waymo自动驾驶、Verily的数字健康等创新业务则有望成为新的重要增长引擎。有成为新王的可能,但是想跨过Nv没那么容易的,nv现在除了GPU,自动驾驶+机器人的赛道布局也很牛逼。
其实都以为Nv的硬件强,其实它的隐形护城河是CUDA+网络。
先发优势与成熟度:CUDA 于 2007 年推出,经过近 20 年的发展,已成为 GPU 计算的行业标准。它积累了超过 400 万开发者,形成了庞大的社区和网络效应。
全栈优化与工具链:CUDA 提供了从编译器(NVCC)、调试器(Nsight)到高度优化的核心库(如 cuDNN、cuBLAS、TensorRT)的全套工具。这些库经过英伟达的深度优化,能充分发挥其硬件性能,开发者无需编写底层代码即可获得顶尖性能。
开发习惯与迁移成本:CUDA 被广泛纳入大学课程和培训项目,工程师们从小白阶段就开始接触它。企业积累了大量的 CUDA 代码和专业知识,切换到其他平台(如 AMD 的 ROCm)需要重写代码、重新培训员工,并面临性能不确定的风险,这种切换成本高得难以想象。
CUDA的关键优势之一是,随着时间的推移,它通过新的软件更新不断改进硬件。刚刚对在H100和新的Blackwell GB200 NVL72上运行training进行了基准比较,结果表明了为什么CUDA及其软件随着时间的推移的改进如此重要。最新,CoreWeave 给出的数据,对 NVIDIA GB300 NVL72 ,进行了基准测试,其每 4x的GPU 的吞吐量比 16x的H100 高 6 倍,最初可不是这个比值,通过CUDA的不断优化,最后达到了这个高性能。
其实一直有用CUDA转换器的,然而,用过转换器的,他们以大约80%的速度转换CUDA代码,而剩下的20%必须由内核工程师手动完成,这样成本并不便宜。同样有趣的是,虽然其他公司正在结成联盟,为Nv的全栈部分建立替代方案,但是目前没有一个与CUDA竞争的联盟出现。现在每家GPU都在根据自己的堆栈进行开发。AMD有ROCm,谷歌的TPU在XLA上运行(由TensorFlow和JAX编程),Amazon Trainium有Neuron SDK,Meta MTIA有PyTorch/XLA后端…
接着是网络的moat。
关于网络,通常说两个部分scale up和scale out,最近火的scale across先不提了。scale up指的rack中的GPU能够相互连接,形成单个GPU服务器/节点,并使其尽可能强大。然后,横向扩展网络使这些GPU节点能够连接到其他GPU节点,并共同形成一个大型GPU集群,使用其专有的NVLink和NVswitches。scale out,他们使用InfiniBand(他们从Mellanox收购中获得)或以太网(使用RDMA over Converged Ethernet)作为次要“足够好”选项。nv的其他对手一起搞了个UAlink,它的成员包含了能想到其他公司。
UALink有AMD、亚马逊(AWS)、谷歌、英特尔、Meta、微软、思科、苹果、Astera Labs等公司组成。但它对AMD来说很重要,因为与Nv相比,其最大的缺点之一是网络。网络不仅对培训人工智能工作负载很重要,而且对推理也很重要。随着推理模型的推论变得更加复杂,拥有良好的放大和缩小是关键。AMD从MI300X上部署比NVLink差得多的Infinity Fabric的错误中吸取了教训,他们缺乏在NVSwitch等效产品上执行的硬件人才。同时,为了解决这一挑战,他们希望支持所有可用的替代方案。这就是为什么他们有灵活的I/O通道。这些灵活的I/O通道使AMD能够支持不同的标准(Infinity Fabric、PCIe、UAlink等)。
虽然UALink还很年轻,但它已经遇到了很大的挫折。起初,Broadcom是参与的关键公司之一,但后来退了,因为他们决定开发自己的专有替代品,称为SUE。这是一个重大的挫折,因为AMD现在必须依靠Astera Labs和Marvell来生产UALink交换机,而UALink交换机要到2027年才能准备就绪。这就是为什么我们可以看到,虽然AMD的MI400x有UALink Serdes,但它不是一个完整的UALink扩展网络;相反,AMD不得不使用Broadcom的Tomahawk 6以太网交换机,这就是为什么它被命名为“UALink over Ethernet”。尽管在规模扩大方面存在这种挫折,但根据AMD的规格,MI400x看起来非常有竞争力。
不过,Nv不仅仅是在关注这一发展,因为在UALink 1.0发布一个月后(4月8日),他们宣布了NVLink Fusion,从纸面上看,它打开了NVLink生态系统。这对Nv来说是一大步,因为一位前Nv高级员工解释说,在内部实施这一步骤是多么具有挑战性,因为Meta想在他在那里工作时将NVLinks用于他们的MTIA,而Nvidia的回答是坚定的“不”。
NVLink IP以专有方式与芯片通信,其中一部分仍然是Nv的专有。有了它,Nv迫使你使用他们的C2C。客户现在意识到了这一点,正如前Nv员工提到的那样,他们担心这将进一步巩固他们在Nv生态系统中,即使有他们的定制ASIC,所以UALink仍然是替代方案。
Nv和UALink的一个关键点是Astera Labs的作用,现在Broadcom已经走了自己的路线。该组织现在依靠Astera Labs提供交换机。Nv知道Astera Labs现在是该组织的关键部分,可能会激励他们订购更多的NVLink Fusion,在那里他们限制了为UALink服务的能力,时间会为Nv证明。
在scale out,Nv的InfiniBand的替代方案是带有RDMA(RoCE)的以太网。Nv也支持这种替代方案,但作为其专有的InfiniBand解决方案的次要、性能较低的选项。Nv甚至有一个Spectrum X以太网平台,因为他们拥有来自Mellanox收购的Spectrum交换机。除了带有RDMA的以太网外,还成立了一个名为超以太网联盟(UEC)的组织。它由AMD、Broadcom、Arista Networks、Cisco、Intel、Meta、Microsoft、Oracle等公司组成。目标再次扩展以太网,并减少其与InfiniBand的弱势。许多超大规模公司也支持以太网,因为它具有成本效益,已经广泛部署在数据中心,并且有多个供应商(Broadcom、Cisco、Arista、Marvell)。带有RDMA的以太网获得了显著的牵引力,因为超大规模公司和Meta等公司都愿意采用它来减少Nv的控制力。虽然以太网网络仍然落后于InfiniBand,但许多业内人士都认为,近年来性能差距已经大大缩小。Seminanalysis最近在一份报告中证实了这一点,称“即使是Nv也认识到以太网的主导地位,随着Blackwell一代的推出,Spectrum-X以太网的Quantum InfiniBand也大量发货了”。
虽然我们确实用CUDA和网络涵盖了两个最关键的层,但似乎还有一个刚刚开始形成,那就是HBM。HBM是人工智能加速器的关键部分之一。它的重要性只会随着更大、更复杂的模型而增长。SK Hynix和Micron主要供应HBM3,尽管三星预计将完成其认证流程并加入其中。随着我们过渡到HBM4内存,一个关键的变化即将到来。在这里,基础模具将转向现代逻辑工艺,这意味着SK Hynix和Micron无法在内部制造,但必须将其外包给台积电。内存提供商还必须与逻辑设计公司或IP供应商合作,以帮助这些设计。
这打开了一个窗口,在那里将进行自定义HBM实现。这意味着HBM4不得不加入台积电一起分钱,HBM4的复杂度远超HBM3,需结合存储器厂商的堆叠技术和代工厂的先进制程,所以对Nv更有利了,nv之前要自己设计HBM4的3nm裸片。
其实我不担心ASIC的抢占份额,大多数CSP自己搞芯片,还是因为Nv垄断和产能不足,自己不得不,加快拿卡,所以自己搞。这次Nv发布Rubin的CPX就是为了增强上下文推理能力,真正的推理之王我认为不是ASIC的TPU,还是nv自己。客户可用于数据中心的能源数量有限,特别在北美你不得不考虑的是能源,为什么XAI用122天就建立起最大的算力中心,第一老马有全球最大的工程能力,更重要的是它的供电能力,全球也是最强的。当你有一个数据中心或建造一个数据中心时,你与一家电力公司合作,你有电力足迹,这种电力足迹是有限的,你不能只是打电话说,我还需要10%。如果我们比较当前几代和下一代Nv服务器,其数据中心功率限制为100兆瓦,对比H100和GB300,你要看产生相同的token,能源节省了多少,Nv的更新就一直在做这件事。
较低延迟(即图表中X轴数值更小)最直接的好处是能带来更快的响应速度,从而显著提升用户体验,所以看看B200 TRT的能力。
今年Deepseek那波不止是因为害怕新的大模型少用GPU,另一个主要原因是一季度各大厂资本开支环比下降了,各有各的原因。而二季度,又都拉回来了,所以股价也都回来了。
下面是各自的原因
后面的故事就是各家资本开支猛的上调,以至于上周甲骨文都调到了2030年…
所以,我想说的是Nv的手里牌很多,老黄这个人能力强的可怕,就算现在出来ASIC和其他GPU竞争对手,以AMD和谷歌的TPU还有我们的菊花为代表,都是更多跟随和模仿,对所有在supplier chain做硬件的公司都是利好,因为总的需求变多了,可以说遍地开花。
先写这些,太累了。