持有英伟达八年，我花了两年才看懂老黄真正在建什么

张师傅的退休实验室

2026-03-16 18:13 · 上海

GTC 2026 今天就开了。之前我在别的地方分析过，CUDA护城河在失效。那英伟达的护城河到底在哪？

这个问题我没有马上动笔。

不是因为不想写，是因为我自己也花了很长时间才想清楚这件事。说出来不怕丢人——老黄在不同场合讲过至少两三次同一个理念，我才真正注意到他在说什么。而真正把这个理念和我的持仓逻辑挂上钩，又花了更长时间。

所以这篇文章与其说是分析，不如说是我自己想明白这件事的过程。

先说一件事。Stanley Druckenmiller——全球最顶尖的宏观对冲基金经理之一——在和 Morgan Stanley 的那次访谈里提到，他建仓英伟达之后大约三个月，在一次电话会上承认："三个月前我连 NVIDIA 怎么拼都不知道。"但这时候他已经买入并且加了两次仓了。

他不懂 GPU 架构，不懂 CUDA，不懂芯片工艺。但他抓住了本质。

而我呢？技术全懂，盯了老黄好几年，但从"看懂技术"到"转化成投资判断"这一步，我走得比他慢得多。这个差距本身就值得聊聊。

一、我是怎么一步步注意到这件事的

两年前的 GTC 2024，老黄发布 Blackwell 的时候，说了一句话：数据中心就是新的计算单元。

说实话，我当时没太当回事。觉得这就是老黄的惯用修辞——把东西说得很大、很宏观。

然后他展示了机架后面的网络骨架——英伟达叫它 NVLink spine。5000 根铜缆，总共 2 英里长，带宽超过整个互联网的总和。他管这个叫"电子机械奇迹"。

我当时觉得这确实厉害——它解决了 GPU 互联的问题，让一整个机架里的 GPU 能真正高效地协同工作。但我的思考停在了机架这一层。最多想到机架和机架之间也需要高速互联。至于"整个数据中心当作一个 GPU"这件事，我当时完全没往那个方向想。

真正让我开始认真想这件事的，是同一年 Computex 上他第二次展示那个 spine 实物的时候。他说了一句大意是：一块 GPU 是一个 GPU，一个机架也是一个 GPU，一个 Pod 也是一个 GPU，整个数据中心就是一个巨大的 GPU。

这句话第二次听到的时候，突然 click 了。

我是学计算机出身，做了多年软件架构。在系统设计里有一个常识：一个复杂系统的性能瓶颈，几乎从来不在单个组件上，而在组件之间的通信和协调上。你做过任何大型分布式系统，都会有这个直觉——网络延迟、数据同步、接口协议不匹配，这些"中间地带"的损耗往往比任何单一模块的性能差距都致命。

如果老黄真的在把整个数据中心当作一个 GPU 来设计，那他解决的就不是"单块芯片快不快"的问题，而是"成千上万块芯片之间怎么高效协作"的问题。

这才是真正的瓶颈所在。

二、瓶颈不在芯片，在"中间"

打个比方。你叫了一个外卖。餐厅 3 分钟出餐——快得很。但骑手要 40 分钟才能送到你手上。你从下单到吃上饭的等待时间，取决于什么？不是取决于餐厅出餐有多快，而是取决于配送有多快。

AI 数据中心就是这个局面。GPU 算得越来越快，但数据从内存搬到 GPU 的速度、从一块 GPU 传到另一块 GPU 的速度，并没有按同样的速率提升。GPU 算完了在等数据，数据传过来了 GPU 已经空转了半天。

GPU 是那个出餐极快的餐厅。存储和通信，是那个还在路上的骑手。

这个道理其实很简单。但我在这里犯了一个很蠢的错误，而且是不应该犯的。

学过计算机的人都知道，系统瓶颈的排查顺序是：CPU、内存、存储、网络。按这个顺序，我本来应该先想到存储是瓶颈，再想到通信。但我当时的注意力完全被老黄讲的那些网络互联技术吸引了——InfiniBand、NVLink spine、那 5000 根铜缆——结果反而把存储这个更基础的环节给漏掉了。

具体来说，我忽略了 HBM（高带宽内存）。GPU 旁边那些堆叠的存储芯片，数据吞吐量直接决定了 GPU 能不能跑满——这本来应该是我最先想到的瓶颈环节。但我没太当回事，整个存储方向的布局基本都错过了。

事后复盘，如果我两年前就想到存储也是瓶颈，应该很早就关注 Micron 这类存储芯片公司。等到我后来意识到这一点的时候，价格已经跑上去一大截了。

这时候如果是 Druckenmiller，他会怎么做？他大概率会追进去。因为他的投资直觉告诉他，趋势确立了，价格涨了一截不代表机会没了。但我没有。我看到价格跑了，第一反应是"已经涨了这么多了"，然后就没有然后了。

不过关于存储，我倒是做对了一件事：当 Micron 涨到高位的时候，我忍住了冲动没有追进去。存储行业的周期性非常强，涨得猛往往也跌得狠。现在回头看，韩国那几家存储巨头的股价也在随宏观环境大幅波动。有球友问怎么看存储，我的看法是：存储的长期需求没问题，但你必须尊重它的周期——在这个行业里，买对方向和买对时点，是两件完全不同的事。

通信这边更惨。我确实比大多数人更早想到通信会是瓶颈，也研究过光通信方向的几个标的——Coherent、Lumentum 我都看过。但同样的问题：研究了，没下手。

两个方向都看到了，一个都没有转化成行动。

这就是我最想跟大家说的一件事：看懂趋势和从趋势中赚到钱，中间隔着一道巨大的鸿沟。那道鸿沟叫执行力。技术出身的人特别容易掉进去——你总觉得"我还需要再研究研究"，结果研究完了，机会也过了。

三、老黄在做一件没人做过的事

想通了瓶颈在"中间"之后，再回头看老黄这几年的操作，逻辑就清晰了。

他不是在做一块更强的芯片。他是在做一个系统——从芯片到电路板、从电路板到机架、从单个机架到多个机架组成的 Pod、从 Pod 到整个数据中心——全部当作一个统一的整体来设计。

今年 CES 上 Vera Rubin 平台发布的时候，老黄终于给这个理念起了一个正式的名字：Extreme Co-Design，极端协同设计。

他原话说得很直白：摩尔定律已经大幅放缓，每一代晶体管增长也就 1.6 倍左右。如果不在所有芯片、整个技术栈上同时做极端创新，根本不可能满足 AI 行业的增长需求。

Vera Rubin 就是这个理念的产物。六块核心芯片分别覆盖计算、调度、机架内互联、机架间通信、数据处理和网络骨干——全部英伟达自研，这在英伟达历史上是第一次。

但关键不在于每块芯片有多厉害。关键是这六块芯片从设计的第一天起就互相定义彼此的规格——GPU 需要什么样的内存带宽，直接决定了 CPU 怎么设计；GPU 之间需要多高的通信速度，直接决定了网络芯片的拓扑结构；网络芯片的参数又反过来约束 GPU 的数据通路。

六块芯片互相咬合着设计，追求的不是单项最优，是系统全局最优。

而且这个"系统"不止于芯片层面。一整个 72 块 GPU 的机架——加上 CPU、所有网络芯片和散热模块——是作为一个完整产品一起设计、一起交付的。英伟达投入了庞大的工程团队同步推进这件事，结果是什么呢？单个机架安装时间从上一代的两小时降到五分钟。一个大型数据中心有上万个机架，每个省一个多小时，整个部署周期可能缩短几个月。

推理性能相比上一代提升约 5 倍，Token 成本降到十分之一。

Token 成本降到十分之一意味着什么？以前成本太高做不了的 AI 应用，突然都变得可行了。

四、为什么竞争对手追不上

上篇文章我说 CUDA 的锁定效应在减弱，理论上你砸钱砸时间是可以追的。

但 Extreme Co-Design 是另一回事。

你可以用更好的编程工具绕过 CUDA。但你绕不过硬件之间的物理接口和协同设计。要追英伟达，你得同时追六块芯片，还要让它们之间的协同达到同等水平，还要有能力把芯片、板卡、机架、数据中心作为一个整体来交付。

看 $AMD(AMD)$ ，GPU 不错但没有自己的高速网络芯片，得找博通买。Google 的 TPU 是个值得认真看的对手——自研芯片加自研软件框架，Anthropic 已经签了百万颗 TPU 的大单，Meta 也在谈 2026 年先租后买的合作。但 TPU 目前的扩张路径是"Google Cloud 优先"，本质上还是绑在 Google 的云生态里。它正在尝试向外部客户开放，甚至开始做 on-premise 部署，但离英伟达那种"任何客户买回去直接搭自己的数据中心"的开放平台模式，差距还很大。而且 TPU 的软件生态主要基于 JAX/XLA，Meta 试过 PyTorch on TPU，体验并不好，Google 正在为此专门开发原生 PyTorch 后端——这说明生态兼容性仍然是个实打实的门槛。博通能给大客户做定制芯片，但没有通用 GPU 和系统级软件栈。至于英特尔，情况比较特殊——去年9月老黄花50亿美金入股了 $英特尔(INTC)$ ，拿了大约4%的股份，两家宣布合作开发用 NVLink 连接的定制 x86 CPU，Intel 未来可能成为英伟达 Extreme Co-Design 体系里的一个供应商，而不是竞争者。

每家都有自己的长板，但没有任何一家能在六个维度上同时自研，并且让它们从芯片到数据中心一体化协同。

CUDA 是一个维度的护城河。Extreme Co-Design 是六个维度同时形成的壁垒，而且这六个维度互相增强。难度不是线性增长，是指数级的。

五、老黄每一笔收购的真正逻辑

想明白 Extreme Co-Design 之后，再看老黄这几年的收购，逻辑链就完全串起来了。

以前我看收购，就看价格合不合理、标的好不好。但现在重新审视：GPU、CPU 早就自研了。2020 年花69亿拿下 Mellanox，网络芯片收进来了。去年底花200亿美金拿下 Groq 的推理技术授权和核心团队。两周前又分别向 Lumentum 和 Coherent 各投了20亿美金，锁定下一代光通信的关键供应——每一步都在把系统里的关键零件从别人手里拿回自己手里。

他不是在买"好公司"。他是在一步步把 Extreme Co-Design 体系里对外部供应商的每一个关键依赖，都消灭掉。

我以前觉得这只是"供应链整合"，但其实供应链不是独立的护城河，它是 Extreme Co-Design 的物理延伸。Co-Design 越复杂，对供应链的控制要求就越高。这两者是一体的。

说起来容易。但我花了多长时间才真正把这些点串起来？老实说，太长了。从两年前 GTC 2024 第一次听老黄讲"数据中心是新的计算单元"，到今年 CES 看到 Extreme Co-Design 正式成型，中间这两年我一直在"觉得有道理但没完全想透"的状态里。

Druckenmiller 三个月就建仓了，我花了两年才在自己的文章里写清楚这个逻辑。这就是技术思维和投资思维之间的差距——看懂技术不等于看懂投资机会。

六、GTC 2026：推理时代让 Co-Design 更值钱

今天，老黄会在 San Jose 做 Keynote。

今年 GTC 对我来说有特殊意义。所有信号都在指向一个方向：英伟达正在从一家"训练公司"变成一家"推理公司"。

Vera Rubin 的核心指标全部围绕推理。专门为百万 Token 级长上下文推理设计的新品类，花200亿美金拿下 Groq 的低延迟推理技术，面向 AI Agent 场景的实时推理机架——每一个新产品都在说同一件事：推理才是未来。

底层逻辑很清楚：AI 行业正在从"训练大模型"进入"大规模使用大模型"的阶段。训练是一次性的大额投入，推理是持续性消费——你每跟 AI 对话一句、每让 AI Agent 执行一个任务，都在消耗推理算力。推理的市场规模可能是训练的十倍以上。

而推理对延迟和每 Token 成本极其敏感。你不能像训练那样粗暴堆 GPU，必须在系统层面做到极致优化——这恰恰是 Extreme Co-Design 的价值所在。

另外老黄暗示会在 GTC 上展示"世人从未见过"的技术。有分析认为可能是 Feynman 架构的早期样品——Vera Rubin 的下一代，预计 2028 年量产。如果属实，英伟达的产品路线图已经排到了 2030 年。

对长期持有者来说，这种确定性本身就是最大的利好。

七、回到最初的问题

英伟达的护城河到底在哪里？

我的答案是三层叠在一起。

第一层是 CUDA 软件生态。正在被侵蚀，但短期不会消失——几百万开发者十几年的积累不是一夜之间能替代的。

然后是 Extreme Co-Design。这一层我花了最长时间才看懂。六块芯片从设计阶段就协同优化，从芯片到机架到数据中心作为一个整体来设计和交付。目前没有任何竞争者接近这个水平。

第三层是供应链的垂直整合——不是简单的"买买买"，而是通过每一笔收购和战略合作，把 Co-Design 体系里对外部供应商的关键依赖一个个拔掉。这一层和第二层是一体的，Co-Design 越深，供应链整合的必要性就越强。

三层叠在一起——软件、硬件系统集成、供应链——形成了竞争对手在可预见的未来几乎无法复制的壁垒。

这才是我拿了八年不卖的原因。不是因为"GPU 最强"，是因为我看到一家公司在系统复杂度上不断加深壁垒——而这种系统复杂度本身，就是最深的护城河。

高估值永远是风险。英伟达不便宜，我之前也说过会逢高卖一些。但只要 Extreme Co-Design 的逻辑没有被证伪，只要没有竞争对手能在六个维度同时追上来，核心仓位我不会动。

GTC 2026，今天开始。我会盯老黄的 Keynote，然后写第二篇 GTC 文章，复盘实际发布和我预判之间的偏差。

拭目以待。

你觉得英伟达最深的护城河到底是哪一层？CUDA、硬件系统集成、还是供应链？GTC 你最想听老黄聊什么？欢迎在评论区交流。

利益相关声明： 本人持有 $英伟达(NVDA)$ 多头仓位，持有时间超过八年。本文所有观点基于个人研究和持仓经历，可能存在偏见。

免责声明： 本文仅为个人投资思考记录，不构成任何投资建议。投资有风险，决策需独立判断。

@今日话题 @雪球创作者中心

#英伟达# #英伟达GTC2026 # #美股#