$Nebius Group(NBIS)$ 和NVDA专家聊天他对于NBIS的看法。我今天去翻了一下他们的技术栈。跟AWS...

不疾而速H-宁波

2026-03-12 13:28 · 浙江

和NVDA专家聊天他对于NBIS的看法。

我今天去翻了一下他们的技术栈。跟AWS Azure GCP比全面性，Nebius肯定不是一个量级的，但它只做AI这一个方向，在这个垂直领域里做得确实深。
技术团队很扎实。他们CTO Danila Shtan去年开源了一个叫Soperator的项目，业界第一个把Slurm跑在K8s上的完整方案，做infra的人一看就知道这帮人是真干过大规模分布式系统的。他们还有个内部AI R&D团队自己dogfooding自己的平台，跟早期AWS给Amazon电商用一个思路。

Token Factory我试了下，体验确实不错。推理性能MLPerf跑分行业顶级，价格还比大厂便宜。核心原因是他们用自研ODM机箱，成本结构天然不一样。Meta 微软也自研硬件，但它们是给自己用的，优化的是我的模型跑最快。Nebius的自研从一开始就围绕多租户，GPU利用率，每token成本来设计。我看了下他们调度这块，做了topology-aware的scheduling，知道哪些GPU在同一个InfiniBand域里，调度的时候尽量把任务放在拓扑最近的节点上，GPU和网卡直通不做虚拟化所以性能零损耗，加上自动健康检查坏卡秒drain。这些东西单个不难，但全栈串起来做好，集群利用率能比通用云高出一截。我自己做YuniKorn调度的，知道这套东西要做到production-ready有多少坑，他们能做到这个程度确实不是一般团队。

卖算力这件事上它天然有优势。英伟达自己不碰这层，所以投Nebius本质上是找一个能把自己芯片以最低成本铺出去。

至于差距在哪呢，我感觉还是生态。我们平时自己在多云环境搭东西，对云的其他服务依赖很重，比如AWS的S3 Lambda数据库这些用上了就很难走，Nebius还没有这层粘性。所以它必须靠Token Factory把客户锁住，这就回到你说的核心问题，能不能从AIDC进化成平台。
不过有意思的是，微软自己跟Nebius签了170亿买算力，同时微软自己也有Azure🤦。说明在AI infra这个方向上，微软都觉得自己不够用，不过他们那帮工程师的尿性也能理解，因为太多政治斗争，迭代速度缓慢。