$Datadog(DDOG)$ 26年投资者会前 20 家 AI 原生公司中有 14 家在使用 Datadog ，其中很...

慢就是快5555

2026-02-28 21:45 · 加拿大

$Datadog(DDOG)$ 26年投资者会
前 20 家 AI 原生公司中有 14 家在使用 Datadog，其中很多每年在我们这里花费超过 100 万美元。整个群体规模也很大：有 650+ 家 AI 原生公司在使用 Datadog。我们一直被市场广泛信任，尤其是最技术前沿的公司——我们就是在这群公司里“打出名声”的。过去十年，云原生公司几乎都标准化选择 Datadog。他们在技术上推动我们，他们采用最新技术、最新架构，这最终让所有客户受益。而现在我们在 AI 群体里看到的是同样的事情：他们信任我们能在他们的阶段满足需求，并在他们的领域持续演进时快速创新。这些创新最终也会让所有客户受益，因为他们也会持续、深入地采用 AI。
Aleksandr Zukin
Wolfe Research, LLC
我是 Wolfe Research 的 Alex Zukin。非常感谢今天的分享。我特别想问 Bits SRE agent。考虑到环境正在变得越来越异构，这会增加规模与复杂性——当你们思考从 Datadog 边界之外读取其他数据源、并基于这些信息完成更完整任务的能力时，你能谈谈你们的工具在这种背景下如何差异化、相较于其他在做类似事情的公司你们优势在哪里？另外也想听听一些定价思路，以及一个客户示例：有哪些“最前沿（frontier）”客户在展示这类能力？
Yanbing Li
首席产品官
很好的问题。我们在启动 Bits AI SRE 时，最初确实聚焦于 Datadog 平台内部的数据与遥测，因为对 AI 代理来说，最重要的是证明它“能做对”，这样才能向客户体现价值。在平台内部，我们拥有实时、丰富、干净的数据，能够很好地向客户展示这种价值。
当然，很多客户确实有异构环境。所以我们现在正在扩展遥测覆盖，把平台外部的数据源也纳入进来。
同时我们也看到市场上有不少 SRE 初创公司或其他公司，它们可能采取一种“从外部观察”的方法。我们独特之处在于：既能用 Datadog 平台内的强大能力，又能和外部数据源集成。实践表明，这会让我们输出更好的结果与更好的效果。
Olivier Pomel
联合创始人、CEO 兼董事
我们用自己拥有的数据会“更正确”，因为我们对这些数据有更高分辨率、更深覆盖、更广触达等等。这也是我们从这里起步的原因：在整套技术栈上，我们能更“对”。
不过我也想说，就今天的市场而言，市场很活跃。现在很多场景是：你遇到一个问题，然后你把问题描述出来。坦白讲，如果你让 Cloud Code（他指一种“云端代码/工具”能力）去做，它可以去问好几个不同系统，你确实能拿到不错的结果。所以对于这种“事后解释问题”的需求，我认为还可以。
但市场要走向的方向是：你希望“提前（preemptive）”“主动（proactive）”，并且要“预防问题发生”。在这种方向上，那种方式就完全不行了，因为数据并不会流经 Cloud Code 或所有不同系统。
用自动驾驶来类比：车祸发生后，你把照片发给 ChatGPT，它也许能帮你判断谁对谁错——但车祸已经发生了。ChatGPT 并不会去开车。自动驾驶需要独立的一整套系统、独立的传感、独立的所有东西。
我认为可观测性也会发生同样的事情：当我们拥有所有数据、控制数据平面，并且能在这些数据上实时开发和运行模型时，我们才会有能力走到问题前面，把问题预防掉。
Yanbing Li
首席产品官
是的。至于客户采用情况，正如我提到的，我们现在有 2,000 个客户。产品在 GA（正式可用）后时间还不长，所以我们还在推进让客户授权我们使用他们的名字。
但我可以分享的是：这 2,000 个客户覆盖非常广泛——跨不同规模、不同垂直行业、不同地理区域，从最大的《财富》100 强到最创新的 AI 初创公司，采用非常普遍、没有明显偏向。
这也是我个人非常兴奋的原因：SRE 真的非常适合 AI，因为结果是即时且可验证的。这也是为什么我们看到采用在如此快速地增长。
Yuka Broderick
投资者关系
最后补充一点：我们定价是完全透明的。你可以直接去我们官网查看。我记得 Bits AI SRE 的价格是每 20 次调查 500 美元，对吧，Kai？不过具体细节你们都可以自己随时去查。
Ittai Kidron
Oppenheimer
我是 Oppenheimer 的 Ittai Kidron。Alexis，你的演讲非常有意思，谢谢你对“小模型 vs 前沿模型”做出的论证。
如果我们反过来思考：你们用 75 万美元就训练了一个高准确率的小模型。那么从第三方的角度来看，进入门槛在哪里？换句话说，AI 对你们业务的风险是什么？机会显而易见，收入潜力也明显，但风险在哪里？
⸻
Alexis Le-Quoc
联合创始人 & CTO
我认为，真正的护城河在于数据优势。
以我们的时间序列模型为例，我们拥有的是真实、合法、海量、非公开的数据。这是第一层优势。
第二层优势在于：我们构建 eval（评估集）的体量与质量。训练代理不仅仅是模型本身，而是大量真实场景验证。
确实，理论上没有明显的“资本门槛”。别人也可以做小模型。但数据质量才是关键护城河。
比如，在我们这个领域生成高质量合成数据并不容易。它不像文本生成图像那样简单采样、重混。软件系统的结构与运行行为之间关系极其复杂。你不能简单对某个大模型说：“给我一堆合成数据。”
此外，我们天然处在数据流的中心。客户日常使用 Datadog 产生的数据，本身就成为训练素材。这是别人无法轻易获得的。
这会形成一个正向飞轮：
更多客户 → 更多真实数据 → 更好的模型 → 更有价值 → 更多客户。
所以我更把 AI 看成“增益飞轮”，而不是威胁。
⸻
Olivier Pomel
补充一点：我们去年在研发上花了 10 亿美元。前年 7~8 亿美元，再往前 5 亿美元。
正因为长期投入巨大，我们才能用 75 万美元训练出这样的模型。
Sanjit Singh
Morgan Stanley
我是 Morgan Stanley 的 Sanjit Singh。
我想问一下，你们距离“自主运维”愿景还有多远？一年后是什么样？三年后是什么样？
此外，要实现这个愿景，Datadog 是否需要拥有更多技术栈部分？比如是否必须拥有软件交付流水线？这涉及 build vs buy 的问题。
Olivier Pomel
很难预测。AI 的进展节奏非常令人意外——会突然大跃进，然后看似停滞，接着又跳跃。
比如两个月前，我们在编码代理能力上看到一次明显跃升，这对我们内部使用和客户体验都产生了显著影响。
所以很难判断是一年还是三年。但可以确定的是：我们会到达那个目标。技术路径正在逐步解决问题。
至于是否需要扩展栈：
我们已经识别了一些需要加速的领域。
例如：Feature flag 和实验（experimentation）。
几年前我们并不太关注这个领域，认为它偏商品化。但现在我们意识到，它是自动化发布与快速迭代的关键。
另一个例子是：数据可观测性（data observability）。
以前我们认为它是一个相对边缘市场。但现在数据质量与实时性成为 AI 模型部署的核心瓶颈，因此它被提升为优先事项。
还有其他领域我们也在思考，不过今天不会全部透露。
Yanbing Li
我补充一点。
自主运维不是一个“0 到 1”的跳跃。这和自动驾驶卡车不同——自动驾驶是完全 0 或 1。
DevOps 自主化是一个渐进过程。
一开始客户不信任 AI 调查结果，他们会验证。但随着使用增多，信任逐渐建立。
同样，自动代码修复目前仍然需要人工在环。但随着技术成熟与信任增加，客户会逐步放手。
真正的“圣杯”是主动、预防、预测式检测——在问题发生前修复问题。
自主化会通过技术进步与客户信任的共同演化逐步实现，而不是突然到来。
Fatima Boolani（花旗，研究部）
我是 Citi 的 Fatima Boolani。我的问题是关于 Bits AI 套件的。我能理解它可以说是通往“自主化愿景”的“gateway drug”（入门/引子）。但我想退一步，问一个更尖锐的问题。你们都很兴奋，因为你们的代码安全（code security）可以从一开始就直接注入进去。但 Opus 4.6 以及 Codex-5.3 的迭代——我的意思是，它们在代码安全能力上正在不断、强势地增强，而且这些能力是内生的。
所以我想问：你们如何为自己给客户提供的价值建立“保护壁垒”（protection barrier）？你们的竞争优势在哪里——相对于通用 LLM（general purpose LLMs）而言，后者可能在代码安全方面覆盖更广；而你们的优势则是在平台上下文（context）加持下提供代码安全、卫生（hygiene）和严谨性（rigor）。因为按你们的观察，编码助手正在“parabolic”（指数级/加速）发展？
Michael Whetten
我觉得这对我们反而是优势——我不认为这是“我们对他们”的关系。LLM 在创造性思考、构思这些东西上做得很好，这是很棒的。但我们代码安全的一个优势是：我们能看到这些代码在生产环境（production）里是如何被部署的。比如 SCA（Software Composition Analysis，软件成分分析）可能会发现某些恶意包或者有漏洞的依赖包，但你并不知道这个包是否真的在生产环境里被部署了。所以你可能拉响“火警”，把所有人都叫醒，结果发现那个版本其实根本没在生产环境里跑，对吧？它并不是真正的漏洞暴露。
所以我认为这些东西是可以协同工作的。就像我们说的，我们会用这些技术在合适的地方相互补充、相互提供信息。但我也认为我们仍然有独特价值可以带给客户——这是我的看法。
Tim Knudsen
是的，我不认为我们会不需要“纵深防御”（defense in depth）。但显然，我们应该思考并理解：在“把能力向左移”（shift left）这件事上，随着编码代理（coding agents）的发展，我们到底能把多少安全问题在更早期解决。正如 Michael 说的，生产运行时环境（production runtime environments）非常复杂——这些复杂性不会消失。并且始终会有这样的需求：对于一个已经被发现的东西，比如某个漏洞，它不仅仅是被加载（loaded）了没有，它是否真的在被执行（executed）？这会是我们即便在编码代理呈现爆发式（parabolic）采用的情况下，也会继续重点关注的领域。
Olivier Pomel（联合创始人、CEO & 董事）
这不是“is or are”（不是非此即彼），而是“and”（两者都要）。而且，这里面有几个典型会“失效/破局”的例子。比如代码在你写下来的那一刻是安全的，并不意味着两周之后它仍然安全。所以有些东西需要被持续、永久地重新评估。还有一些东西，云端可能认为是安全的，但你作为一家公司可能认为不安全。所以你可能有自己的规则、自己的技术栈等等。
所以总体来说，会有很大的空间留给很多专门化工具（specialized tooling），去补充通用的编码代理。而且，第一，这些工具可能会使用和这些代理相同的一些模型；第二，这些代理会长期存在，并且会做得越来越多。所以关键是与它们协作并互补，而不是试图去替代它们。
Tim Knudsen
而且我们还能不能做出一个好产品，对吧？我敢肯定以前有人也跟你说过：你们为什么要为云软件做一家监控公司？云厂商自己大概就会做，对吧？
Olivier Pomel（联合创始人、CEO & 董事）
是的。
Tim Knudsen
这不就来了。
@慢就是快5555: Ryan MacWilliams（Wells Fargo Securities, LLC，研究部）
我是 Wells Fargo 的 Ryan MacWilliams。可能现在还早，但我很想听听：监控 AI agent 的工作流（AI agent workflow）与监控普通 SaaS 应用相比，有哪些差异？AI agent 的工作流是否需要更强的数据密度（data intensity）以及更多需要监控的日志？以及是否需要在更广的表面面积（surface area）上做更多可观测性？很想听听你们目前看到的情况。
Tim Knudsen
递归（recursion）和不确定性（uncertainty）非常多——首先在于代理到底在做什么。它变化非常快。即便在内部，我们也一直在用不同的方法做实验。所以这是一个非常“易变”（volatile）的领域，因此确实需要一些专门化工具。另外，质量保证（quality assurance）的两大基本测试维度——验证（verification）它是否好，以及确认/验证（validation）它是否按预期工作、是不是一个好的产品——在你不知道它到底在做什么、然后把它放到生产里看用户怎么用、它怎么行为的时候，会更难。它需要一种不同的反馈方式，而不是你写确定性软件（deterministic software）时那种相对可预测的测试方式。
所以我认为确实需要一些新东西。这也是为什么我们有 playgrounds（演练场/试验场）、sandboxes（沙盒）、experimentation（实验/试验）；也正因为如此，实验对于主要研究实验室和基础模型提供商变得如此重要。他们全都是重度实验用户，因为他们并不知道它在生产里到底会做什么。
Olivier Pomel（联合创始人、CEO & 董事）
但现在真的非常早期。所以我预计我们会——在一年、两年、三年后，对这个领域会有更清晰的认识。现在太早了，以至于当下正在构建 agents 的公司都站在最前沿。所以我们是在一起学习。
@慢就是快5555: Arti Vula（摩根大通，研究部，代 Mark Murphy）
我是 JPMorgan 的 Arti Vula，替 Mark Murphy 提问。Olivier，以及任何想补充的人。几天前你们提到，最大的 AI 基础模型公司之一采用了 Datadog，并且把开源、自建以及 hyperscaler 的方案做了整合/收敛。我们也跟另一家 AI 公司聊过，他们说你们的平台是关键的，即使他们想复制，也复制不了。
所以你能不能帮我们理解一下：这些非常有创新能力的公司，是怎么走到“意识到自己做不了/不想自己做”这一步的？是能力的广度？还是即便有开发者，也会比他们想象中占用更多资源？是否存在某个“aha moment”（顿悟时刻）？
Olivier Pomel（联合创始人、CEO & 董事）
我的意思是，这其实从公司第一天起就是我们的故事。现在这些 AI 公司并不比我们最初服务的云原生客户、或者我们后来开始卖给的大型企业更特殊。他们都会有一些自研的东西，也会有过去买过的各种工具的组合。它总是——从来都不够好用。它总是一个“时间黑洞”（time sock）。它总会在某个时刻变成一个大问题，因为让系统保持稳定、正确、安全，并且持续发布软件，是绝对业务关键的需求，你必须把它彻底搞定；而它会出问题，然后就会引发对“我们在用什么工具”的反思。人们会意识到：为了保持竞争力，他们还有别的问题要解决，而不是去重新发明一个他们可以直接买到的东西，于是他们通常就会买我们做的。
所以问题不是说——看，如果世界上最大的公司把这当作唯一重点来做，他们能不能做出来？也许不能。但关键在于他们在做别的事情。他们必须做别的事情，没必要去自己构建监控、自己构建可观测性，以及自己构建自主化能力。
@慢就是快5555: Howard Ma
Guggenheim Securities, LLC，研究部
我是 Guggenheim 的 Howard Ma。我想问一下大家对 OpenTelemetry 以及其他开源可观测性工具所带来的潜在威胁怎么看——或者说 OpenTelemetry 更像是一种标准化协议。那么在拥抱这些开源标准的同时，Datadog 的竞争护城河是什么？具体到后端，我很好奇：你们拥有 1,000+ 集成，以及像 Datadog 这样把很多不同数据源做关联的能力，到底有多可防御？这与其他公司有什么不同？
另外从覆盖角度看，你们有一页幻灯片展示了一端是监控虚拟化环境（更偏向本地部署 on-prem 的方向），另一端是 GPU 监控（往另一个方向）。是不是可以这样理解：你们想要“开箱即用”地满足高度定制化的企业需求，而这才是真正的护城河？
Olivier Pomel
联合创始人、CEO 兼董事
数据采集从来都不是护城河，对吧？我们在用 Galaxy 创办公司时，我们当时做了一个判断：服务器端的一切、SaaS 会是“聪明的部分”。而客户环境里运行的东西，比如 agents 以及其他采集、集成这些，会是开源的。我们的 agent 以及随之配套的一切都是开源的。实际上它的许可是 Apache，对吧？现在还是 Apache 吗？
Michael Whetten
我想是的。
Olivier Pomel
联合创始人、CEO 兼董事
是的，（某个）许可。但至少我们没有改。顺便说一下，早期我们的竞争对手还在用我们的 agent、用我们的集成以及其他东西。今天我们非常高兴看到 OpenTelemetry 的兴起。我们是原生支持 OpenTelemetry 的。这很好，它是把更多数据导入系统、让它更快运作、减少摩擦的一种很好的方式。我认为这会让所有人都更开心。这从来不是差异化所在。
当你谈“紧密集成”时，问题不是你能不能把数据接进系统再导出来。问题是：你理解得有多好？你能把它用得有多好？它如何与其他东西整合在一起？不管你用的是 OpenTelemetry 还是它之前的一些标准（在此之前也有过几个不同标准），这一部分才是我们独特之处——我们做得比其他任何人都好得多。
Yrieix Garnier
我再补充一点，从 OpenTelemetry 的角度看，这并不算竞争，因为我们是 OpenTelemetry 的重要贡献者之一。如果你看 Datadog，我们是（OpenTelemetry 的）顶级贡献者之一。我们现在也已经完全支持 OpenTelemetry，并且无论数据是通过 OpenTelemetry 还是通过我们自己的 agent 进来，我们都支持。对我们来说，正如 Olivier 所说，关键不在于数据怎么进来，而在于我们在内部如何使用这些数据，这才更重要。
@慢就是快5555: 接下来我想进一步说明：为什么 Datadog 在利用 AI 实现这一愿景方面具有独特优势。
Datadog 的独特之处在于我们获取的数据规模、数据体量，以及我们对现实世界中运行的基础设施、应用程序和系统的理解程度。我们以极大的规模摄取数据——数万亿个数据点、数十亿条追踪记录、EB 级别的日志数据。
同时，我们拥有高度多样化的数据类型。用户向我们发送的关于其系统的数据，包括指标、追踪、日志、用户会话、数据作业、数据血缘、LLM 和代理追踪、团队结构、服务名称以及大量其他信息。这些数据来自我们的 SDK、代理程序以及集成爬虫。
这些数据不仅支撑着当今 Datadog 的可观测性能力，也构成了实现完全自主化运维所需 AI 的基础。
几年前，我们成立了一个 AI 研究实验室，因为我们坚信：凭借我们拥有的数据规模以及研发能力，我们可以在为可观测性和安全构建 AI 方面成为领导者。
我们是如何开始的？
我们想证明：拥有大量领域专属数据会带来优势。因此，我们开发了第一个时间序列基础模型，名为 Toto。
如果你寻找公开可用的最大时间序列数据集，大约是 3000 亿个数据点，涵盖金融、医疗、能源、交通、网络流量等领域。
而我们用 3 倍于这个规模的数据训练 Toto。并且其中绝大多数数据是 Datadog 独有的，与应用程序、基础设施和软件系统直接相关。
结果是，当我们将 Toto 与其他时间序列模型在预测能力上进行对比时，它表现远优于其他模型。我们达到了当前最先进水平。
随后，我们将其作为开放权重模型发布在 Hugging Face 上——大约是去年 5 月。至今已有约 900 万次下载。
你可能会问，为什么要开放权重？
原因有三：
第一，我们希望为这一新兴领域做出贡献。
第二，我们希望确立我们作为 AI 实验室的可信度。
第三，下载量可以反映这些模型的重要性。
但更重要的是成本差异。2025 年，我们训练该模型的成本约为 75 万美元——相比同一时期的前沿模型（Frontier model），成本低 3 到 4 个数量级。
当然，前沿模型能力更强，可以处理多语言、法律合同、医学影像等。但在可观测性场景下，这些能力并不重要。
Toto 证明了一点：利用大量专有数据和小模型，可以取得优秀成果。
接下来谈训练。
在从零构建模型时，预训练阶段通常是最耗费时间和成本的环节。预训练与训练都至关重要，才能产生在现实场景中可用的模型与代理。
以 Bits AI SRE Agent 为例。
如果你不熟悉，它本质上是一个“站点可靠性工程师”。它的任务是从某个软件系统中的症状出发，构建可能的因果链，找出问题根源。
当系统发出警报时，Bits AI SRE 会提出假设，分析所有可用数据，识别根本原因并帮助消除问题。
它之所以受欢迎，是因为全球软件系统始终存在问题。
要训练这样一个代理，我们需要大量真实的历史事故和正确的根因数据。
我们是如何做到的？
像任何复杂系统一样，我们自己的平台也在不断演进和维护。就像城市一样，需要持续清理、维护、对抗熵增。
每天，我们的工程师都会调查并修复问题。他们会记录调查过程以及所有相关可观测数据，并将其整理为评估样本（eval）。
这些 eval 来自专家的真实分析，并成功用于问题排查，因此可信度极高。
每当我们修改模型或指令时，都会在这些 eval 上进行测试，评估性能提升或下降。
这些 eval 无法外包给非专家完成。必须覆盖尽可能多的用例。为此，你需要大规模基础设施——而我们拥有这样的规模。
随着 eval 数量增加，Bits AI SRE 的准确率也随之提升。虽然不是直线上升，但整体趋势明显向上。
我们还构建了生成合成数据的系统，以扩大训练规模。
同时，客户使用后的反馈也成为新的 eval 数据，进一步丰富环境与问题类型。
训练没有捷径。你需要大量高质量数据与专业知识。这是我们的强大差异化优势。
总结我们的优势：
第一，我们持续获取大量干净、结构化的数据，可用于预训练和训练。
第二，我们自主构建模型。
第三，不仅数据量重要，多样性同样关键。
第四，我们具备深厚领域知识。
我们相信，在 AI 驱动的可观测性领域，我们拥有无可匹敌的能力。
你可能会问：为什么不直接把数据交给前沿模型？
我们也做过内部测试。前沿模型擅长总结，但极其昂贵。
训练一个前沿模型起步成本约 10 亿美元。而小模型在单位成本下能实现数量级更高的准确率。
因为我们无需为与可观测性无关的能力买单。
即使雇佣大量工程师进行微调，成本结构也无法匹配。因为你仍在承担前沿模型庞大的预训练、推理硬件成本。

寻找AI浪潮下的SaaS赢家@慢就是快5555 : 寻找AI浪潮下的SaaS赢家 $Figma(FIG)$ $Salesforce(CRM)$ $多邻国(DUOL)$
好吧，只能说我是太闲了。投资不需要解难题，但学习投资就是不断地尝试解难题。
首先声明，本人绝对是技术老白，用一窍不通描述一点不过分；本人没有任何实地调研的渠道甚至调研的能力。所有的想法来自大量阅读上市公司的电话会议或者访谈...