$Datadog(DDOG)$ 26年投资者会
前 20 家 AI 原生公司中有 14 家在使用 Datadog,其中很多每年在我们这里花费超过 100 万美元。整个群体规模也很大:有 650+ 家 AI 原生公司在使用 Datadog。我们一直被市场广泛信任,尤其是最技术前沿的公司——我们就是在这群公司里“打出名声”的。过去十年,云原生公司几乎都标准化选择 Datadog。他们在技术上推动我们,他们采用最新技术、最新架构,这最终让所有客户受益。而现在我们在 AI 群体里看到的是同样的事情:他们信任我们能在他们的阶段满足需求,并在他们的领域持续演进时快速创新。这些创新最终也会让所有客户受益,因为他们也会持续、深入地采用 AI。
Aleksandr Zukin
Wolfe Research, LLC
我是 Wolfe Research 的 Alex Zukin。非常感谢今天的分享。我特别想问 Bits SRE agent。考虑到环境正在变得越来越异构,这会增加规模与复杂性——当你们思考从 Datadog 边界之外读取其他数据源、并基于这些信息完成更完整任务的能力时,你能谈谈你们的工具在这种背景下如何差异化、相较于其他在做类似事情的公司你们优势在哪里?另外也想听听一些定价思路,以及一个客户示例:有哪些“最前沿(frontier)”客户在展示这类能力?
Yanbing Li
首席产品官
很好的问题。我们在启动 Bits AI SRE 时,最初确实聚焦于 Datadog 平台内部的数据与遥测,因为对 AI 代理来说,最重要的是证明它“能做对”,这样才能向客户体现价值。在平台内部,我们拥有实时、丰富、干净的数据,能够很好地向客户展示这种价值。
当然,很多客户确实有异构环境。所以我们现在正在扩展遥测覆盖,把平台外部的数据源也纳入进来。
同时我们也看到市场上有不少 SRE 初创公司或其他公司,它们可能采取一种“从外部观察”的方法。我们独特之处在于:既能用 Datadog 平台内的强大能力,又能和外部数据源集成。实践表明,这会让我们输出更好的结果与更好的效果。
Olivier Pomel
联合创始人、CEO 兼董事
我们用自己拥有的数据会“更正确”,因为我们对这些数据有更高分辨率、更深覆盖、更广触达等等。这也是我们从这里起步的原因:在整套技术栈上,我们能更“对”。
不过我也想说,就今天的市场而言,市场很活跃。现在很多场景是:你遇到一个问题,然后你把问题描述出来。坦白讲,如果你让 Cloud Code(他指一种“云端代码/工具”能力)去做,它可以去问好几个不同系统,你确实能拿到不错的结果。所以对于这种“事后解释问题”的需求,我认为还可以。
但市场要走向的方向是:你希望“提前(preemptive)”“主动(proactive)”,并且要“预防问题发生”。在这种方向上,那种方式就完全不行了,因为数据并不会流经 Cloud Code 或所有不同系统。
用自动驾驶来类比:车祸发生后,你把照片发给 ChatGPT,它也许能帮你判断谁对谁错——但车祸已经发生了。ChatGPT 并不会去开车。自动驾驶需要独立的一整套系统、独立的传感、独立的所有东西。
我认为可观测性也会发生同样的事情:当我们拥有所有数据、控制数据平面,并且能在这些数据上实时开发和运行模型时,我们才会有能力走到问题前面,把问题预防掉。
Yanbing Li
首席产品官
是的。至于客户采用情况,正如我提到的,我们现在有 2,000 个客户。产品在 GA(正式可用)后时间还不长,所以我们还在推进让客户授权我们使用他们的名字。
但我可以分享的是:这 2,000 个客户覆盖非常广泛——跨不同规模、不同垂直行业、不同地理区域,从最大的《财富》100 强到最创新的 AI 初创公司,采用非常普遍、没有明显偏向。
这也是我个人非常兴奋的原因:SRE 真的非常适合 AI,因为结果是即时且可验证的。这也是为什么我们看到采用在如此快速地增长。
Yuka Broderick
投资者关系
最后补充一点:我们定价是完全透明的。你可以直接去我们官网查看。我记得 Bits AI SRE 的价格是 每 20 次调查 500 美元,对吧,Kai?不过具体细节你们都可以自己随时去查。
Ittai Kidron
Oppenheimer
我是 Oppenheimer 的 Ittai Kidron。Alexis,你的演讲非常有意思,谢谢你对“小模型 vs 前沿模型”做出的论证。
如果我们反过来思考:你们用 75 万美元就训练了一个高准确率的小模型。那么从第三方的角度来看,进入门槛在哪里?换句话说,AI 对你们业务的风险是什么?机会显而易见,收入潜力也明显,但风险在哪里?
⸻
Alexis Le-Quoc
联合创始人 & CTO
我认为,真正的护城河在于数据优势。
以我们的时间序列模型为例,我们拥有的是真实、合法、海量、非公开的数据。这是第一层优势。
第二层优势在于:我们构建 eval(评估集)的体量与质量。训练代理不仅仅是模型本身,而是大量真实场景验证。
确实,理论上没有明显的“资本门槛”。别人也可以做小模型。但数据质量才是关键护城河。
比如,在我们这个领域生成高质量合成数据并不容易。它不像文本生成图像那样简单采样、重混。软件系统的结构与运行行为之间关系极其复杂。你不能简单对某个大模型说:“给我一堆合成数据。”
此外,我们天然处在数据流的中心。客户日常使用 Datadog 产生的数据,本身就成为训练素材。这是别人无法轻易获得的。
这会形成一个正向飞轮:
更多客户 → 更多真实数据 → 更好的模型 → 更有价值 → 更多客户。
所以我更把 AI 看成“增益飞轮”,而不是威胁。
⸻
Olivier Pomel
补充一点:我们去年在研发上花了 10 亿美元。前年 7~8 亿美元,再往前 5 亿美元。
正因为长期投入巨大,我们才能用 75 万美元训练出这样的模型。
Sanjit Singh
Morgan Stanley
我是 Morgan Stanley 的 Sanjit Singh。
我想问一下,你们距离“自主运维”愿景还有多远?一年后是什么样?三年后是什么样?
此外,要实现这个愿景,Datadog 是否需要拥有更多技术栈部分?比如是否必须拥有软件交付流水线?这涉及 build vs buy 的问题。
Olivier Pomel
很难预测。AI 的进展节奏非常令人意外——会突然大跃进,然后看似停滞,接着又跳跃。
比如两个月前,我们在编码代理能力上看到一次明显跃升,这对我们内部使用和客户体验都产生了显著影响。
所以很难判断是一年还是三年。但可以确定的是:我们会到达那个目标。技术路径正在逐步解决问题。
至于是否需要扩展栈:
我们已经识别了一些需要加速的领域。
例如:Feature flag 和实验(experimentation)。
几年前我们并不太关注这个领域,认为它偏商品化。但现在我们意识到,它是自动化发布与快速迭代的关键。
另一个例子是:数据可观测性(data observability)。
以前我们认为它是一个相对边缘市场。但现在数据质量与实时性成为 AI 模型部署的核心瓶颈,因此它被提升为优先事项。
还有其他领域我们也在思考,不过今天不会全部透露。
Yanbing Li
我补充一点。
自主运维不是一个“0 到 1”的跳跃。这和自动驾驶卡车不同——自动驾驶是完全 0 或 1。
DevOps 自主化是一个渐进过程。
一开始客户不信任 AI 调查结果,他们会验证。但随着使用增多,信任逐渐建立。
同样,自动代码修复目前仍然需要人工在环。但随着技术成熟与信任增加,客户会逐步放手。
真正的“圣杯”是主动、预防、预测式检测——在问题发生前修复问题。
自主化会通过技术进步与客户信任的共同演化逐步实现,而不是突然到来。
Fatima Boolani(花旗,研究部)
我是 Citi 的 Fatima Boolani。我的问题是关于 Bits AI 套件的。我能理解它可以说是通往“自主化愿景”的“gateway drug”(入门/引子)。但我想退一步,问一个更尖锐的问题。你们都很兴奋,因为你们的代码安全(code security)可以从一开始就直接注入进去。但 Opus 4.6 以及 Codex-5.3 的迭代——我的意思是,它们在代码安全能力上正在不断、强势地增强,而且这些能力是内生的。
所以我想问:你们如何为自己给客户提供的价值建立“保护壁垒”(protection barrier)?你们的竞争优势在哪里——相对于通用 LLM(general purpose LLMs)而言,后者可能在代码安全方面覆盖更广;而你们的优势则是在平台上下文(context)加持下提供代码安全、卫生(hygiene)和严谨性(rigor)。因为按你们的观察,编码助手正在“parabolic”(指数级/加速)发展?
Michael Whetten
我觉得这对我们反而是优势——我不认为这是“我们对他们”的关系。LLM 在创造性思考、构思这些东西上做得很好,这是很棒的。但我们代码安全的一个优势是:我们能看到这些代码在生产环境(production)里是如何被部署的。比如 SCA(Software Composition Analysis,软件成分分析)可能会发现某些恶意包或者有漏洞的依赖包,但你并不知道这个包是否真的在生产环境里被部署了。所以你可能拉响“火警”,把所有人都叫醒,结果发现那个版本其实根本没在生产环境里跑,对吧?它并不是真正的漏洞暴露。
所以我认为这些东西是可以协同工作的。就像我们说的,我们会用这些技术在合适的地方相互补充、相互提供信息。但我也认为我们仍然有独特价值可以带给客户——这是我的看法。
Tim Knudsen
是的,我不认为我们会不需要“纵深防御”(defense in depth)。但显然,我们应该思考并理解:在“把能力向左移”(shift left)这件事上,随着编码代理(coding agents)的发展,我们到底能把多少安全问题在更早期解决。正如 Michael 说的,生产运行时环境(production runtime environments)非常复杂——这些复杂性不会消失。并且始终会有这样的需求:对于一个已经被发现的东西,比如某个漏洞,它不仅仅是被加载(loaded)了没有,它是否真的在被执行(executed)?这会是我们即便在编码代理呈现爆发式(parabolic)采用的情况下,也会继续重点关注的领域。
Olivier Pomel(联合创始人、CEO & 董事)
这不是“is or are”(不是非此即彼),而是“and”(两者都要)。而且,这里面有几个典型会“失效/破局”的例子。比如代码在你写下来的那一刻是安全的,并不意味着两周之后它仍然安全。所以有些东西需要被持续、永久地重新评估。还有一些东西,云端可能认为是安全的,但你作为一家公司可能认为不安全。所以你可能有自己的规则、自己的技术栈等等。
所以总体来说,会有很大的空间留给很多专门化工具(specialized tooling),去补充通用的编码代理。而且,第一,这些工具可能会使用和这些代理相同的一些模型;第二,这些代理会长期存在,并且会做得越来越多。所以关键是与它们协作并互补,而不是试图去替代它们。
Tim Knudsen
而且我们还能不能做出一个好产品,对吧?我敢肯定以前有人也跟你说过:你们为什么要为云软件做一家监控公司?云厂商自己大概就会做,对吧?
Olivier Pomel(联合创始人、CEO & 董事)
是的。
Tim Knudsen
这不就来了。
@慢就是快5555: Ryan MacWilliams(Wells Fargo Securities, LLC,研究部)
我是 Wells Fargo 的 Ryan MacWilliams。可能现在还早,但我很想听听:监控 AI agent 的工作流(AI agent workflow)与监控普通 SaaS 应用相比,有哪些差异?AI agent 的工作流是否需要更强的数据密度(data intensity)以及更多需要监控的日志?以及是否需要在更广的表面面积(surface area)上做更多可观测性?很想听听你们目前看到的情况。
Tim Knudsen
递归(recursion)和不确定性(uncertainty)非常多——首先在于代理到底在做什么。它变化非常快。即便在内部,我们也一直在用不同的方法做实验。所以这是一个非常“易变”(volatile)的领域,因此确实需要一些专门化工具。另外,质量保证(quality assurance)的两大基本测试维度——验证(verification)它是否好,以及确认/验证(validation)它是否按预期工作、是不是一个好的产品——在你不知道它到底在做什么、然后把它放到生产里看用户怎么用、它怎么行为的时候,会更难。它需要一种不同的反馈方式,而不是你写确定性软件(deterministic software)时那种相对可预测的测试方式。
所以我认为确实需要一些新东西。这也是为什么我们有 playgrounds(演练场/试验场)、sandboxes(沙盒)、experimentation(实验/试验);也正因为如此,实验对于主要研究实验室和基础模型提供商变得如此重要。他们全都是重度实验用户,因为他们并不知道它在生产里到底会做什么。
Olivier Pomel(联合创始人、CEO & 董事)
但现在真的非常早期。所以我预计我们会——在一年、两年、三年后,对这个领域会有更清晰的认识。现在太早了,以至于当下正在构建 agents 的公司都站在最前沿。所以我们是在一起学习。
@慢就是快5555: Arti Vula(摩根大通,研究部,代 Mark Murphy)
我是 JPMorgan 的 Arti Vula,替 Mark Murphy 提问。Olivier,以及任何想补充的人。几天前你们提到,最大的 AI 基础模型公司之一采用了 Datadog,并且把开源、自建以及 hyperscaler 的方案做了整合/收敛。我们也跟另一家 AI 公司聊过,他们说你们的平台是关键的,即使他们想复制,也复制不了。
所以你能不能帮我们理解一下:这些非常有创新能力的公司,是怎么走到“意识到自己做不了/不想自己做”这一步的?是能力的广度?还是即便有开发者,也会比他们想象中占用更多资源?是否存在某个“aha moment”(顿悟时刻)?
Olivier Pomel(联合创始人、CEO & 董事)
我的意思是,这其实从公司第一天起就是我们的故事。现在这些 AI 公司并不比我们最初服务的云原生客户、或者我们后来开始卖给的大型企业更特殊。他们都会有一些自研的东西,也会有过去买过的各种工具的组合。它总是——从来都不够好用。它总是一个“时间黑洞”(time sock)。它总会在某个时刻变成一个大问题,因为让系统保持稳定、正确、安全,并且持续发布软件,是绝对业务关键的需求,你必须把它彻底搞定;而它会出问题,然后就会引发对“我们在用什么工具”的反思。人们会意识到:为了保持竞争力,他们还有别的问题要解决,而不是去重新发明一个他们可以直接买到的东西,于是他们通常就会买我们做的。
所以问题不是说——看,如果世界上最大的公司把这当作唯一重点来做,他们能不能做出来?也许不能。但关键在于他们在做别的事情。他们必须做别的事情,没必要去自己构建监控、自己构建可观测性,以及自己构建自主化能力。
@慢就是快5555: Howard Ma
Guggenheim Securities, LLC,研究部
我是 Guggenheim 的 Howard Ma。我想问一下大家对 OpenTelemetry 以及其他开源可观测性工具所带来的潜在威胁怎么看——或者说 OpenTelemetry 更像是一种标准化协议。那么在拥抱这些开源标准的同时,Datadog 的竞争护城河是什么?具体到后端,我很好奇:你们拥有 1,000+ 集成,以及像 Datadog 这样把很多不同数据源做关联的能力,到底有多可防御?这与其他公司有什么不同?
另外从覆盖角度看,你们有一页幻灯片展示了一端是监控虚拟化环境(更偏向本地部署 on-prem 的方向),另一端是 GPU 监控(往另一个方向)。是不是可以这样理解:你们想要“开箱即用”地满足高度定制化的企业需求,而这才是真正的护城河?
Olivier Pomel
联合创始人、CEO 兼董事
数据采集从来都不是护城河,对吧?我们在用 Galaxy 创办公司时,我们当时做了一个判断:服务器端的一切、SaaS 会是“聪明的部分”。而客户环境里运行的东西,比如 agents 以及其他采集、集成这些,会是开源的。我们的 agent 以及随之配套的一切都是开源的。实际上它的许可是 Apache,对吧?现在还是 Apache 吗?
Michael Whetten
我想是的。
Olivier Pomel
联合创始人、CEO 兼董事
是的,(某个)许可。但至少我们没有改。顺便说一下,早期我们的竞争对手还在用我们的 agent、用我们的集成以及其他东西。今天我们非常高兴看到 OpenTelemetry 的兴起。我们是原生支持 OpenTelemetry 的。这很好,它是把更多数据导入系统、让它更快运作、减少摩擦的一种很好的方式。我认为这会让所有人都更开心。这从来不是差异化所在。
当你谈“紧密集成”时,问题不是你能不能把数据接进系统再导出来。问题是:你理解得有多好?你能把它用得有多好?它如何与其他东西整合在一起?不管你用的是 OpenTelemetry 还是它之前的一些标准(在此之前也有过几个不同标准),这一部分才是我们独特之处——我们做得比其他任何人都好得多。
Yrieix Garnier
我再补充一点,从 OpenTelemetry 的角度看,这并不算竞争,因为我们是 OpenTelemetry 的重要贡献者之一。如果你看 Datadog,我们是(OpenTelemetry 的)顶级贡献者之一。我们现在也已经完全支持 OpenTelemetry,并且无论数据是通过 OpenTelemetry 还是通过我们自己的 agent 进来,我们都支持。对我们来说,正如 Olivier 所说,关键不在于数据怎么进来,而在于我们在内部如何使用这些数据,这才更重要。
@慢就是快5555: 接下来我想进一步说明:为什么 Datadog 在利用 AI 实现这一愿景方面具有独特优势。
Datadog 的独特之处在于我们获取的数据规模、数据体量,以及我们对现实世界中运行的基础设施、应用程序和系统的理解程度。我们以极大的规模摄取数据——数万亿个数据点、数十亿条追踪记录、EB 级别的日志数据。
同时,我们拥有高度多样化的数据类型。用户向我们发送的关于其系统的数据,包括指标、追踪、日志、用户会话、数据作业、数据血缘、LLM 和代理追踪、团队结构、服务名称以及大量其他信息。这些数据来自我们的 SDK、代理程序以及集成爬虫。
这些数据不仅支撑着当今 Datadog 的可观测性能力,也构成了实现完全自主化运维所需 AI 的基础。
几年前,我们成立了一个 AI 研究实验室,因为我们坚信:凭借我们拥有的数据规模以及研发能力,我们可以在为可观测性和安全构建 AI 方面成为领导者。
我们是如何开始的?
我们想证明:拥有大量领域专属数据会带来优势。因此,我们开发了第一个时间序列基础模型,名为 Toto。
如果你寻找公开可用的最大时间序列数据集,大约是 3000 亿个数据点,涵盖金融、医疗、能源、交通、网络流量等领域。
而我们用 3 倍于这个规模的数据训练 Toto。并且其中绝大多数数据是 Datadog 独有的,与应用程序、基础设施和软件系统直接相关。
结果是,当我们将 Toto 与其他时间序列模型在预测能力上进行对比时,它表现远优于其他模型。我们达到了当前最先进水平。
随后,我们将其作为开放权重模型发布在 Hugging Face 上——大约是去年 5 月。至今已有约 900 万次下载。
你可能会问,为什么要开放权重?
原因有三:
第一,我们希望为这一新兴领域做出贡献。
第二,我们希望确立我们作为 AI 实验室的可信度。
第三,下载量可以反映这些模型的重要性。
但更重要的是成本差异。2025 年,我们训练该模型的成本约为 75 万美元——相比同一时期的前沿模型(Frontier model),成本低 3 到 4 个数量级。
当然,前沿模型能力更强,可以处理多语言、法律合同、医学影像等。但在可观测性场景下,这些能力并不重要。
Toto 证明了一点:利用大量专有数据和小模型,可以取得优秀成果。
接下来谈训练。
在从零构建模型时,预训练阶段通常是最耗费时间和成本的环节。预训练与训练都至关重要,才能产生在现实场景中可用的模型与代理。
以 Bits AI SRE Agent 为例。
如果你不熟悉,它本质上是一个“站点可靠性工程师”。它的任务是从某个软件系统中的症状出发,构建可能的因果链,找出问题根源。
当系统发出警报时,Bits AI SRE 会提出假设,分析所有可用数据,识别根本原因并帮助消除问题。
它之所以受欢迎,是因为全球软件系统始终存在问题。
要训练这样一个代理,我们需要大量真实的历史事故和正确的根因数据。
我们是如何做到的?
像任何复杂系统一样,我们自己的平台也在不断演进和维护。就像城市一样,需要持续清理、维护、对抗熵增。
每天,我们的工程师都会调查并修复问题。他们会记录调查过程以及所有相关可观测数据,并将其整理为评估样本(eval)。
这些 eval 来自专家的真实分析,并成功用于问题排查,因此可信度极高。
每当我们修改模型或指令时,都会在这些 eval 上进行测试,评估性能提升或下降。
这些 eval 无法外包给非专家完成。必须覆盖尽可能多的用例。为此,你需要大规模基础设施——而我们拥有这样的规模。
随着 eval 数量增加,Bits AI SRE 的准确率也随之提升。虽然不是直线上升,但整体趋势明显向上。
我们还构建了生成合成数据的系统,以扩大训练规模。
同时,客户使用后的反馈也成为新的 eval 数据,进一步丰富环境与问题类型。
训练没有捷径。你需要大量高质量数据与专业知识。这是我们的强大差异化优势。
总结我们的优势:
第一,我们持续获取大量干净、结构化的数据,可用于预训练和训练。
第二,我们自主构建模型。
第三,不仅数据量重要,多样性同样关键。
第四,我们具备深厚领域知识。
我们相信,在 AI 驱动的可观测性领域,我们拥有无可匹敌的能力。
你可能会问:为什么不直接把数据交给前沿模型?
我们也做过内部测试。前沿模型擅长总结,但极其昂贵。
训练一个前沿模型起步成本约 10 亿美元。而小模型在单位成本下能实现数量级更高的准确率。
因为我们无需为与可观测性无关的能力买单。
即使雇佣大量工程师进行微调,成本结构也无法匹配。因为你仍在承担前沿模型庞大的预训练、推理硬件成本。