用户头像
不疾而速H-宁波
 · 浙江  

$Nebius Group(NBIS)$

和NVDA专家聊天他对于NBIS的看法。

我今天去翻了一下他们的技术栈。跟AWS Azure GCP比全面性,Nebius肯定不是一个量级的,但它只做AI这一个方向,在这个垂直领域里做得确实深。
技术团队很扎实。他们CTO Danila Shtan去年开源了一个叫Soperator的项目,业界第一个把Slurm跑在K8s上的完整方案,做infra的人一看就知道这帮人是真干过大规模分布式系统的。他们还有个内部AI R&D团队自己dogfooding自己的平台,跟早期AWS给Amazon电商用一个思路。

Token Factory我试了下,体验确实不错。推理性能MLPerf跑分行业顶级,价格还比大厂便宜。核心原因是他们用自研ODM机箱,成本结构天然不一样。Meta微软也自研硬件,但它们是给自己用的,优化的是我的模型跑最快。Nebius的自研从一开始就围绕多租户,GPU利用率,每token成本来设计。我看了下他们调度这块,做了topology-aware的scheduling,知道哪些GPU在同一个InfiniBand域里,调度的时候尽量把任务放在拓扑最近的节点上,GPU和网卡直通不做虚拟化所以性能零损耗,加上自动健康检查坏卡秒drain。这些东西单个不难,但全栈串起来做好,集群利用率能比通用云高出一截。我自己做YuniKorn调度的,知道这套东西要做到production-ready有多少坑,他们能做到这个程度确实不是一般团队。

卖算力这件事上它天然有优势。英伟达自己不碰这层,所以投Nebius本质上是找一个能把自己芯片以最低成本铺出去。

至于差距在哪呢,我感觉还是生态。我们平时自己在多云环境搭东西,对云的其他服务依赖很重,比如AWS的S3 Lambda数据库这些用上了就很难走,Nebius还没有这层粘性。所以它必须靠Token Factory把客户锁住,这就回到你说的核心问题,能不能从AIDC进化成平台。
不过有意思的是,微软自己跟Nebius签了170亿买算力,同时微软自己也有Azure🤦。说明在AI infra这个方向上,微软都觉得自己不够用,不过他们那帮工程师的尿性也能理解,因为太多政治斗争,迭代速度缓慢。