
GTC 2026 今天就开了。之前我在别的地方分析过,CUDA护城河在失效。那英伟达的护城河到底在哪?
这个问题我没有马上动笔。
不是因为不想写,是因为我自己也花了很长时间才想清楚这件事。说出来不怕丢人——老黄在不同场合讲过至少两三次同一个理念,我才真正注意到他在说什么。而真正把这个理念和我的持仓逻辑挂上钩,又花了更长时间。
所以这篇文章与其说是分析,不如说是我自己想明白这件事的过程。
先说一件事。Stanley Druckenmiller——全球最顶尖的宏观对冲基金经理之一——在和 Morgan Stanley 的那次访谈里提到,他建仓英伟达之后大约三个月,在一次电话会上承认:"三个月前我连 NVIDIA 怎么拼都不知道。"但这时候他已经买入并且加了两次仓了。
他不懂 GPU 架构,不懂 CUDA,不懂芯片工艺。但他抓住了本质。
而我呢?技术全懂,盯了老黄好几年,但从"看懂技术"到"转化成投资判断"这一步,我走得比他慢得多。这个差距本身就值得聊聊。
一、我是怎么一步步注意到这件事的
两年前的 GTC 2024,老黄发布 Blackwell 的时候,说了一句话:数据中心就是新的计算单元。
说实话,我当时没太当回事。觉得这就是老黄的惯用修辞——把东西说得很大、很宏观。
然后他展示了机架后面的网络骨架——英伟达叫它 NVLink spine。5000 根铜缆,总共 2 英里长,带宽超过整个互联网的总和。他管这个叫"电子机械奇迹"。
我当时觉得这确实厉害——它解决了 GPU 互联的问题,让一整个机架里的 GPU 能真正高效地协同工作。但我的思考停在了机架这一层。最多想到机架和机架之间也需要高速互联。至于"整个数据中心当作一个 GPU"这件事,我当时完全没往那个方向想。
真正让我开始认真想这件事的,是同一年 Computex 上他第二次展示那个 spine 实物的时候。他说了一句大意是:一块 GPU 是一个 GPU,一个机架也是一个 GPU,一个 Pod 也是一个 GPU,整个数据中心就是一个巨大的 GPU。
这句话第二次听到的时候,突然 click 了。
我是学计算机出身,做了多年软件架构。在系统设计里有一个常识:一个复杂系统的性能瓶颈,几乎从来不在单个组件上,而在组件之间的通信和协调上。你做过任何大型分布式系统,都会有这个直觉——网络延迟、数据同步、接口协议不匹配,这些"中间地带"的损耗往往比任何单一模块的性能差距都致命。
如果老黄真的在把整个数据中心当作一个 GPU 来设计,那他解决的就不是"单块芯片快不快"的问题,而是"成千上万块芯片之间怎么高效协作"的问题。
这才是真正的瓶颈所在。
二、瓶颈不在芯片,在"中间"
打个比方。你叫了一个外卖。餐厅 3 分钟出餐——快得很。但骑手要 40 分钟才能送到你手上。你从下单到吃上饭的等待时间,取决于什么?不是取决于餐厅出餐有多快,而是取决于配送有多快。
AI 数据中心就是这个局面。GPU 算得越来越快,但数据从内存搬到 GPU 的速度、从一块 GPU 传到另一块 GPU 的速度,并没有按同样的速率提升。GPU 算完了在等数据,数据传过来了 GPU 已经空转了半天。
GPU 是那个出餐极快的餐厅。存储和通信,是那个还在路上的骑手。
这个道理其实很简单。但我在这里犯了一个很蠢的错误,而且是不应该犯的。
学过计算机的人都知道,系统瓶颈的排查顺序是:CPU、内存、存储、网络。按这个顺序,我本来应该先想到存储是瓶颈,再想到通信。但我当时的注意力完全被老黄讲的那些网络互联技术吸引了——InfiniBand、NVLink spine、那 5000 根铜缆——结果反而把存储这个更基础的环节给漏掉了。
具体来说,我忽略了 HBM(高带宽内存)。GPU 旁边那些堆叠的存储芯片,数据吞吐量直接决定了 GPU 能不能跑满——这本来应该是我最先想到的瓶颈环节。但我没太当回事,整个存储方向的布局基本都错过了。
事后复盘,如果我两年前就想到存储也是瓶颈,应该很早就关注 Micron 这类存储芯片公司。等到我后来意识到这一点的时候,价格已经跑上去一大截了。
这时候如果是 Druckenmiller,他会怎么做?他大概率会追进去。因为他的投资直觉告诉他,趋势确立了,价格涨了一截不代表机会没了。但我没有。我看到价格跑了,第一反应是"已经涨了这么多了",然后就没有然后了。
不过关于存储,我倒是做对了一件事:当 Micron 涨到高位的时候,我忍住了冲动没有追进去。存储行业的周期性非常强,涨得猛往往也跌得狠。现在回头看,韩国那几家存储巨头的股价也在随宏观环境大幅波动。有球友问怎么看存储,我的看法是:存储的长期需求没问题,但你必须尊重它的周期——在这个行业里,买对方向和买对时点,是两件完全不同的事。
通信这边更惨。我确实比大多数人更早想到通信会是瓶颈,也研究过光通信方向的几个标的——Coherent、Lumentum 我都看过。但同样的问题:研究了,没下手。
两个方向都看到了,一个都没有转化成行动。
这就是我最想跟大家说的一件事:看懂趋势和从趋势中赚到钱,中间隔着一道巨大的鸿沟。那道鸿沟叫执行力。技术出身的人特别容易掉进去——你总觉得"我还需要再研究研究",结果研究完了,机会也过了。
三、老黄在做一件没人做过的事
想通了瓶颈在"中间"之后,再回头看老黄这几年的操作,逻辑就清晰了。
他不是在做一块更强的芯片。他是在做一个系统——从芯片到电路板、从电路板到机架、从单个机架到多个机架组成的 Pod、从 Pod 到整个数据中心——全部当作一个统一的整体来设计。
今年 CES 上 Vera Rubin 平台发布的时候,老黄终于给这个理念起了一个正式的名字:Extreme Co-Design,极端协同设计。
他原话说得很直白:摩尔定律已经大幅放缓,每一代晶体管增长也就 1.6 倍左右。如果不在所有芯片、整个技术栈上同时做极端创新,根本不可能满足 AI 行业的增长需求。
Vera Rubin 就是这个理念的产物。六块核心芯片分别覆盖计算、调度、机架内互联、机架间通信、数据处理和网络骨干——全部英伟达自研,这在英伟达历史上是第一次。
但关键不在于每块芯片有多厉害。关键是这六块芯片从设计的第一天起就互相定义彼此的规格——GPU 需要什么样的内存带宽,直接决定了 CPU 怎么设计;GPU 之间需要多高的通信速度,直接决定了网络芯片的拓扑结构;网络芯片的参数又反过来约束 GPU 的数据通路。
六块芯片互相咬合着设计,追求的不是单项最优,是系统全局最优。
而且这个"系统"不止于芯片层面。一整个 72 块 GPU 的机架——加上 CPU、所有网络芯片和散热模块——是作为一个完整产品一起设计、一起交付的。英伟达投入了庞大的工程团队同步推进这件事,结果是什么呢?单个机架安装时间从上一代的两小时降到五分钟。一个大型数据中心有上万个机架,每个省一个多小时,整个部署周期可能缩短几个月。
推理性能相比上一代提升约 5 倍,Token 成本降到十分之一。
Token 成本降到十分之一意味着什么?以前成本太高做不了的 AI 应用,突然都变得可行了。
四、为什么竞争对手追不上
上篇文章我说 CUDA 的锁定效应在减弱,理论上你砸钱砸时间是可以追的。
但 Extreme Co-Design 是另一回事。
你可以用更好的编程工具绕过 CUDA。但你绕不过硬件之间的物理接口和协同设计。要追英伟达,你得同时追六块芯片,还要让它们之间的协同达到同等水平,还要有能力把芯片、板卡、机架、数据中心作为一个整体来交付。
看 $AMD(AMD)$ ,GPU 不错但没有自己的高速网络芯片,得找博通买。Google 的 TPU 是个值得认真看的对手——自研芯片加自研软件框架,Anthropic 已经签了百万颗 TPU 的大单,Meta 也在谈 2026 年先租后买的合作。但 TPU 目前的扩张路径是"Google Cloud 优先",本质上还是绑在 Google 的云生态里。它正在尝试向外部客户开放,甚至开始做 on-premise 部署,但离英伟达那种"任何客户买回去直接搭自己的数据中心"的开放平台模式,差距还很大。而且 TPU 的软件生态主要基于 JAX/XLA,Meta 试过 PyTorch on TPU,体验并不好,Google 正在为此专门开发原生 PyTorch 后端——这说明生态兼容性仍然是个实打实的门槛。博通能给大客户做定制芯片,但没有通用 GPU 和系统级软件栈。至于英特尔,情况比较特殊——去年9月老黄花50亿美金入股了 $英特尔(INTC)$ ,拿了大约4%的股份,两家宣布合作开发用 NVLink 连接的定制 x86 CPU,Intel 未来可能成为英伟达 Extreme Co-Design 体系里的一个供应商,而不是竞争者。
每家都有自己的长板,但没有任何一家能在六个维度上同时自研,并且让它们从芯片到数据中心一体化协同。
CUDA 是一个维度的护城河。Extreme Co-Design 是六个维度同时形成的壁垒,而且这六个维度互相增强。难度不是线性增长,是指数级的。
五、老黄每一笔收购的真正逻辑
想明白 Extreme Co-Design 之后,再看老黄这几年的收购,逻辑链就完全串起来了。
以前我看收购,就看价格合不合理、标的好不好。但现在重新审视:GPU、CPU 早就自研了。2020 年花69亿拿下 Mellanox,网络芯片收进来了。去年底花200亿美金拿下 Groq 的推理技术授权和核心团队。两周前又分别向 Lumentum 和 Coherent 各投了20亿美金,锁定下一代光通信的关键供应——每一步都在把系统里的关键零件从别人手里拿回自己手里。
他不是在买"好公司"。他是在一步步把 Extreme Co-Design 体系里对外部供应商的每一个关键依赖,都消灭掉。
我以前觉得这只是"供应链整合",但其实供应链不是独立的护城河,它是 Extreme Co-Design 的物理延伸。Co-Design 越复杂,对供应链的控制要求就越高。这两者是一体的。
说起来容易。但我花了多长时间才真正把这些点串起来?老实说,太长了。从两年前 GTC 2024 第一次听老黄讲"数据中心是新的计算单元",到今年 CES 看到 Extreme Co-Design 正式成型,中间这两年我一直在"觉得有道理但没完全想透"的状态里。
Druckenmiller 三个月就建仓了,我花了两年才在自己的文章里写清楚这个逻辑。这就是技术思维和投资思维之间的差距——看懂技术不等于看懂投资机会。
六、GTC 2026:推理时代让 Co-Design 更值钱
今天,老黄会在 San Jose 做 Keynote。
今年 GTC 对我来说有特殊意义。所有信号都在指向一个方向:英伟达正在从一家"训练公司"变成一家"推理公司"。
Vera Rubin 的核心指标全部围绕推理。专门为百万 Token 级长上下文推理设计的新品类,花200亿美金拿下 Groq 的低延迟推理技术,面向 AI Agent 场景的实时推理机架——每一个新产品都在说同一件事:推理才是未来。
底层逻辑很清楚:AI 行业正在从"训练大模型"进入"大规模使用大模型"的阶段。训练是一次性的大额投入,推理是持续性消费——你每跟 AI 对话一句、每让 AI Agent 执行一个任务,都在消耗推理算力。推理的市场规模可能是训练的十倍以上。
而推理对延迟和每 Token 成本极其敏感。你不能像训练那样粗暴堆 GPU,必须在系统层面做到极致优化——这恰恰是 Extreme Co-Design 的价值所在。
另外老黄暗示会在 GTC 上展示"世人从未见过"的技术。有分析认为可能是 Feynman 架构的早期样品——Vera Rubin 的下一代,预计 2028 年量产。如果属实,英伟达的产品路线图已经排到了 2030 年。
对长期持有者来说,这种确定性本身就是最大的利好。
七、回到最初的问题
英伟达的护城河到底在哪里?
我的答案是三层叠在一起。
第一层是 CUDA 软件生态。正在被侵蚀,但短期不会消失——几百万开发者十几年的积累不是一夜之间能替代的。
然后是 Extreme Co-Design。这一层我花了最长时间才看懂。六块芯片从设计阶段就协同优化,从芯片到机架到数据中心作为一个整体来设计和交付。目前没有任何竞争者接近这个水平。
第三层是供应链的垂直整合——不是简单的"买买买",而是通过每一笔收购和战略合作,把 Co-Design 体系里对外部供应商的关键依赖一个个拔掉。这一层和第二层是一体的,Co-Design 越深,供应链整合的必要性就越强。
三层叠在一起——软件、硬件系统集成、供应链——形成了竞争对手在可预见的未来几乎无法复制的壁垒。
这才是我拿了八年不卖的原因。不是因为"GPU 最强",是因为我看到一家公司在系统复杂度上不断加深壁垒——而这种系统复杂度本身,就是最深的护城河。
高估值永远是风险。英伟达不便宜,我之前也说过会逢高卖一些。但只要 Extreme Co-Design 的逻辑没有被证伪,只要没有竞争对手能在六个维度同时追上来,核心仓位我不会动。
GTC 2026,今天开始。我会盯老黄的 Keynote,然后写第二篇 GTC 文章,复盘实际发布和我预判之间的偏差。
拭目以待。
你觉得英伟达最深的护城河到底是哪一层?CUDA、硬件系统集成、还是供应链?GTC 你最想听老黄聊什么?欢迎在评论区交流。
利益相关声明: 本人持有 $英伟达(NVDA)$ 多头仓位,持有时间超过八年。本文所有观点基于个人研究和持仓经历,可能存在偏见。
免责声明: 本文仅为个人投资思考记录,不构成任何投资建议。投资有风险,决策需独立判断。