回复@慢就是快5555: $Datadog(DDOG)$ 25年Q4
Sanjit Singh(Morgan Stanley,研究部)
祝贺你们在年末强劲收官,2025年也非常成功。Olivier,我想听听你对“可观测性(observability)未来走向”的最新看法。考虑到最近在智能体框架、智能体部署方面有很多进展——比如我们看到Anthropic的进展,以及OpenAI的新前沿模型——这些变化对可观测性这个赛道意味着什么?从“可防御性(defensibility)”角度看,客户会不会利用这些工具自己搭建可观测性的自研方案?能否谈谈你对这个赛道护城河的最新评论,以及在这个新的“智能体时代”里Datadog可能需要如何演进?
Olivier Pomel(联合创始人、CEO兼董事)
是的。你看,这个问题可以从几个角度来看。第一,会出现比以前多得多的应用。人们构建的东西更多、构建速度也更快。我们在之前的电话里也谈过这一点,但我们认为,这本质上就是开发者生产力的进一步加速,因此你可以更快地构建更多东西。结果就是复杂性显著上升,因为你构建出来的东西会多到你在任何时点都无法完全理解。价值会从“写代码”这个行为(现在你可能都不再亲自写了)转移到“验证、测试、确保生产环境可用、确保安全、确保与外部世界及终端用户交互良好、确保它为业务实现应有结果”等等——而这正是可观测性要做的事情。所以我们会看到更大的“量”,我们认为这正是可观测性发挥作用的地方。
另一个有意思的部分是:这些智能体和应用内部发生的事情会更多。而我们人类现在做的很多事情,本质上也越来越像“可观测性”。说到底,我们在努力理解机器在做什么;我们要确保它与我们的意图一致;确保输出符合预期;确保没有破坏任何东西。因此我们认为,可观测性会扩展到更多过去未必覆盖的领域。
所以我们认为这些变化是加速器。当然我们在这件事上是有立场的,但我们认为:可观测性——也就是代码、应用与现实世界、生产环境、真实用户以及真实业务之间的连接点——是当今整个AI开发生命周期里最有意思、也最重要的一环。
Sanjit Singh(Morgan Stanley,研究部)
沿着这个思路再追问一下:当人类SRE和“智能体SRE”的混合比例更高时,在可观测性的UI或工作流层面,你认为会有什么演进?Datadog要怎么去对齐未来一两年可能发生的这种演进?
Olivier Pomel(联合创始人、CEO兼董事)
是的,一定会演进。自动化会更多。我们今天已经看到了,各种迹象都指向:一切在加速——更多数据、更多交互、更多系统、更多发布、更多故障、更多故障修复、更多bug、更多漏洞,所有这些都在加速。
最终,人类仍然需要某种UI来与这一切交互;同时,很多交互会由智能体自动完成。因此我们在构建产品时要同时满足这两类需求。
我们会提供大量UI,向人类呈现世界如何运作、他们有哪些选项,给他们熟悉的方式去处理问题并建模世界;同时我们也把大量功能直接暴露给智能体。我们在电话里提到过,我们有一个MCP服务器目前处于预览阶段,客户使用量出现爆发式增长。所以非常可能的未来是:一部分功能通过MCP服务器等方式交付给智能体;一部分功能由我们自己的智能体直接实现;另一部分功能通过UI交付给人类。
接线员(Operator)
下一个问题来自巴克莱的Raimo Lenschow。
Raimo Lenschow(Barclays,研究部)
我也表示祝贺。继续围绕AI主题问一下:那个与模型公司签下的八位数交易非常令人兴奋。我猜他们之前可能尝试用一些开源工具等等来做——也就是说,从“几乎不怎么付钱”到“付给你们更多钱”。是什么驱动了他们的这种转变?他们看到了什么,从而被说服做出这个决定?而且这已经是继另一个非常大的模型提供商之后的第二个案例了。所以市场上那种“这东西可以很便宜地自己搞定”的争论,显然不完全成立。能否谈谈你的看法?
Olivier Pomel(联合创始人、CEO兼董事)
情况其实和我们拿下的每一个客户都非常类似。我们拿下的每个客户,或多或少都曾经做过一些自研方案;他们会用一些开源工具;他们可能现在也还在跑一些开源工具——这基本是我们到处都能看到的情况。
“自己做更便宜”通常并不成立。因为这些公司里最大的开销通常就是工程师,而工程师通常薪酬很高;他们的交付速度是决定业务能做成多少事情的关键瓶颈。通常当我们介入、客户开始跟我们接触时,我们可以很快从这个角度证明价值。所以这和我们在其他客户那里看到的并没有区别。
而且在AI客户群体里也不是什么新鲜事——AI客户群体基本就是一群增长非常快、正在塑造AI世界的公司,他们因为同样的原因采用我们的产品。规模不同所以量可能不同,但逻辑是一样的。
接线员(Operator)
下一个问题来自高盛的Gabriela Borges。
Gabriela Borges(Goldman Sachs,研究部)
祝贺本季度表现。Oli,我想跟进Sanjit关于“LLM长期能做什么”以及“你们在可观测性上的领域经验”之间边界的问题。比如Anthropic最近的一些发布提到:LLM可以作为更广泛的异常检测工具,例如在安全漏洞管理方面。你如何看待把LLM当作异常检测工具的限制因素?这种工具是否可能随着时间推移在某些方面从可观测性手里夺取份额?以及你如何看待Datadog的护城河——相较于LLM长期路线图可能走到的能力,你们能给客户提供更好的解决方案?
Olivier Pomel(联合创始人、CEO兼董事)
是的,这是个非常好的问题。我们确实看到LLM越来越强,而且从过去两年的趋势看,我们愿意押注它们每隔几个月就会显著变强。因此它们很擅长处理大范围的数据集:如果你把大量数据喂给LLM并要求分析,你很可能得到一个非常好的结果,而且它会越来越好。
那么我们真正的护城河在哪里?我认为有两部分。第一部分是:我们如何把“接触点(contact)”组装起来,从而把数据喂给这些智能引擎。这包括我们如何聚合数据、解析依赖关系、理解各部分如何拼接,然后把这些输入给LLM。这正是我们做的一部分工作,比如我们现在通过MCP服务器暴露这类能力,让客户可以用不同的智能工具以不同方式重新组合。
第二部分是我们认为可观测性的未来方向:当前软件开发生命周期(SDLC)虽然在加速,但整体仍然有一定“慢”的属性,所以你还可以容忍发生事故后再做事后分析,甚至用一些外部工具。
但未来会有更多变更、更多事情发生,你无法承受“每件事都等事故发生再去看”。你需要主动式的能力:在数据流动的过程中(in stream)做分析;在停机或故障真正发生之前就完成检测与处置。为此,你需要嵌入到数据平面(data plane)之中——这正是我们在运行的东西;你还需要能够运行专用模型去作用于这些数据,而不是把一切都拿来事后总结、十五分钟后再输出结论。这个能力是我们独特的优势所在。
我们正在构建这些能力。我们还没完全做到,但我们认为几年之后世界会按这种方式运转,这也会让我们在异常检测、智能化与预防性解决方面形成显著差异。
Gabriela Borges(Goldman Sachs,研究部)
这很有道理。我接下来……
Olivier Pomel(联合创始人、CEO兼董事)
顺带说一句,我们谈的这些数据点是非常实时的,而且数据流量、数据体量的数量级远大于你通常会喂给LLM的数据。所以这是个有点不同的问题。
Gabriela Borges(Goldman Sachs,研究部)
是的,非常有意思。我的追问是给你和David:你们多次提到和客户讨论Datadog平台“创造价值”的对话。能否谈谈这些对话是怎么演进的?当客户看到为了支撑更多AI使用、做更多可观测性时,Datadog账单可能会上升。你们有哪些措施能确保客户仍然觉得在Datadog平台上获得了巨大价值?
Olivier Pomel(联合创始人、CEO兼董事)
这里有几件事。首先,软件行业的基本规律永远成立:客户买你的产品只有两个原因——要么帮他们赚更多钱,要么帮他们省更多钱。所以无论你做什么,客户使用新产品时,要么要看到某处成本下降,要么要看到他们能触达原本无法触达的客户与业务。我们必须证明这一点,我们也一直在证明。客户每次购买产品,背后发生的就是这件事。
总体而言,当客户在我们平台上新增能力,而不是再引入另一个供应商或另一个产品时,他们通常花得更少——因为在我们平台上做整合,成本更低。
Thomas Ingham(CIBC Capital Markets,研究部)
我想问一下竞争格局,以及LLM崛起如何影响市场份额变化。能否谈谈这些,以及Datadog会受到怎样的影响?
Olivier Pomel(联合创始人、CEO兼董事)
是的。从客户市场层面来看,我们并没有看到竞争出现什么特别变化:我们看到的还是同一批对手,格局也相对类似。而我们正在拉开差距——我们在从所有有规模的对手那里夺取份额。我知道市场上有一些噪音:有几笔并购出现,引发了一些问题。但那些公司并不是特别“赢”的公司,我们在具体交易里没怎么遇到,市场影响也不大。所以我们不认为这些会在短期内改变我们的竞争动态。
我们也知道,在可观测性领域竞争是一份非常、非常全职的工作。这是一个高度创新的市场。我们很清楚自己需要做什么、并且一直在做什么,才能继续像现在这样拉开差距。所以我们对自己的方法很有信心,也会继续这么做。
随着LLM崛起,显然会有更多功能需要构建,也会有新的服务客户方式。我们提到了LLM Observability产品,市场上还有一些其他产品。我认为这一块仍很早期,产品形态相对同质化,但未来会逐步分化。我们认为,最终没有理由让“LLM的可观测性”与系统其他部分的可观测性割裂开来,因为LLM不是孤立运作的——它要通过工具来实现能力,而这些工具作用于你的应用、你现有的应用或为此构建的新应用。所以你需要在生产环境中把一切集成起来,我们在这里具备很强的基础。
接线员(Operator)
下一个问题来自摩根大通的Mark Murphy。
Mark Murphy(JPMorgan,研究部)
Olivier,亚马逊今年计划投入2000亿美元CapEx,如果加上微软和谷歌,这三大云厂商今年CapEx会超过5000亿美元,同比增速40%到60%。我想问:你们是否从过去两年的CapEx趋势中收集到了足够信号,能够估算其中多少用于训练,以及何时会转化为推理(inferencing)——也就是Datadog可能会被需要的阶段?换句话说,你们能否看着这波CapEx说:它会推动你们LLM可观测性收入出现可预测的爬坡?这大概在第几幕/第几“局”(inning)?我还有个追问。
Olivier Pomel(联合创始人、CEO兼董事)
我觉得把这件事直接归结到LLM可观测性有点过度简化。它更指向:未来会有更多应用、更多智能、更多一切。要把这些公司的CapEx直接映射到“未来两三四年哪部分基础设施会用来产生价值”,其实很难,所以我们还得看最终的转化率。但可以肯定的是:系统复杂性、系统数量以及系统在经济中的覆盖范围都会大幅增加。所以我们认为,这会对我们的业务非常有帮助——可以这么说。
Mark Murphy(JPMorgan,研究部)
好的,“非常有帮助”。那快速追问一下:市场上越来越认为OpenAI将面临强劲竞争对手——Anthropic正在缩小差距,未来1到2年可能收入接近OpenAI。你们提到与一家AI模型公司签了八位数“落地”合同。如果我们退一步看,你们是否看到机会去分散AI客户集中度?有时可能是直接客户关系;也可能是像Claude Code这种产品全球采用,从而增加触达面、为Datadog带来更多业务。你能否评论一下在更大AI提供商之间发生了什么,或者你们能否进一步分散这种集中度?
Olivier Pomel(联合创始人、CEO兼董事)
是的。你看,我们从来不是把公司构建成“依赖少数几个大客户”的模式。我们过去成功不是靠这个,未来长期也大概率不会靠这个。所以答案是:是的。归根到底,对于AI客户群体中的所有客户来说,不使用我们的产品应该是不理性的。我们在现有这批客户上取得了很大成功,我们也看到会有更多。顺便说一句,我们也有更多来自更大规模——甚至从超大规模云厂商级别的AI实验室——的主动联系与沟通。我们预计未来会在那里推动更多业务,这一点毫无疑问。
David Obstler(CFO)
你也能从我们披露的一些指标里看到这一点,比如AI原生客户数量、其中一些客户的规模。呼应Oli的话,我们基本是在向很多最大玩家销售,这会带来更大的客户群体规模以及更高的分散度。
Peter Weed(Bernstein,研究部)
抱歉上次出了点问题。季度表现很棒。展望未来,我认为你们最有趣、最令人兴奋的机会之一是Bits AI。我很想听听你怎么看这个机会的形态:你们如何为给SRE和更广泛运维团队带来的生产力提升,收取“公平价值”的费用?以及你们如何看待这个领域的竞争——我们看到初创公司进入,也有人提到Anthropic未来想往哪里走。Datadog如何捕获这部分价值,并为业务守住它?
Olivier Pomel(联合创始人、CEO兼董事)
是的。你看,我们现在卖这类产品的方式,很多时候就是展示“时间差”的价值。当替代方案是:客户自己尝试解决问题,出现故障后开一个应急会议(bridge),20个人在电话里找3小时根因,半夜把人叫醒……这非常昂贵,耗时巨大;同时对客户影响也大,因为故障持续更久。
而如果替代方案是:5分钟内得到答案,只需要3个合适的人去看,10分钟内就有修复方案——对客户影响更短、内部牵扯的人更少、成本更低——那么这个价值证明其实很容易。这就是我们现在售卖价值的方式。
更长期来看,正如我刚才说的,现在事故处理的最先进方式仍是“事后”(post-hoc):先发生事故,再调查、诊断、解决。你可以把客户影响从1小时缩短到15分钟,但仍然有事故、仍然有影响、仍然会打断团队、仍然需要人去处理。
我认为更长期会发生的是:系统会走到问题前面——自动诊断问题,提前缓解或提前修复潜在问题。要做到这一点,分析必须在数据流中(in stream)完成,这是完全不同的事情。你可以把数据加工后喂给LLM做事后分析,价值很大一部分在于数据收集;同时也有相当一部分价值来自LLM在后端做的智能处理——这部分目前主要由Anthropic、OpenAI等通用AI平台提供。
但当你把视角转向“流式”——实时看3、4、5个数量级更大的数据,实时判断什么正常、什么异常、什么可能出问题,并且每秒做数百、数千、数百万次判断——我认为这将是我们的优势所在,也是其他人(尤其是通用AI平台)更难竞争的地方。//@慢就是快5555:回复@慢就是快5555:$Datadog(DDOG)$ 26年投资者会
前 20 家 AI 原生公司中有 14 家在使用 Datadog,其中很多每年在我们这里花费超过 100 万美元。整个群体规模也很大:有 650+ 家 AI 原生公司在使用 Datadog。我们一直被市场广泛信任,尤其是最技术前沿的公司——我们就是在这群公司里“打出名声”的。过去十年,云原生公司几乎都标准化选择 Datadog。他们在技术上推动我们,他们采用最新技术、最新架构,这最终让所有客户受益。而现在我们在 AI 群体里看到的是同样的事情:他们信任我们能在他们的阶段满足需求,并在他们的领域持续演进时快速创新。这些创新最终也会让所有客户受益,因为他们也会持续、深入地采用 AI。
Aleksandr Zukin
Wolfe Research, LLC
我是 Wolfe Research 的 Alex Zukin。非常感谢今天的分享。我特别想问 Bits SRE agent。考虑到环境正在变得越来越异构,这会增加规模与复杂性——当你们思考从 Datadog 边界之外读取其他数据源、并基于这些信息完成更完整任务的能力时,你能谈谈你们的工具在这种背景下如何差异化、相较于其他在做类似事情的公司你们优势在哪里?另外也想听听一些定价思路,以及一个客户示例:有哪些“最前沿(frontier)”客户在展示这类能力?
Yanbing Li
首席产品官
很好的问题。我们在启动 Bits AI SRE 时,最初确实聚焦于 Datadog 平台内部的数据与遥测,因为对 AI 代理来说,最重要的是证明它“能做对”,这样才能向客户体现价值。在平台内部,我们拥有实时、丰富、干净的数据,能够很好地向客户展示这种价值。
当然,很多客户确实有异构环境。所以我们现在正在扩展遥测覆盖,把平台外部的数据源也纳入进来。
同时我们也看到市场上有不少 SRE 初创公司或其他公司,它们可能采取一种“从外部观察”的方法。我们独特之处在于:既能用 Datadog 平台内的强大能力,又能和外部数据源集成。实践表明,这会让我们输出更好的结果与更好的效果。
Olivier Pomel
联合创始人、CEO 兼董事
我们用自己拥有的数据会“更正确”,因为我们对这些数据有更高分辨率、更深覆盖、更广触达等等。这也是我们从这里起步的原因:在整套技术栈上,我们能更“对”。
不过我也想说,就今天的市场而言,市场很活跃。现在很多场景是:你遇到一个问题,然后你把问题描述出来。坦白讲,如果你让 Cloud Code(他指一种“云端代码/工具”能力)去做,它可以去问好几个不同系统,你确实能拿到不错的结果。所以对于这种“事后解释问题”的需求,我认为还可以。
但市场要走向的方向是:你希望“提前(preemptive)”“主动(proactive)”,并且要“预防问题发生”。在这种方向上,那种方式就完全不行了,因为数据并不会流经 Cloud Code 或所有不同系统。
用自动驾驶来类比:车祸发生后,你把照片发给 ChatGPT,它也许能帮你判断谁对谁错——但车祸已经发生了。ChatGPT 并不会去开车。自动驾驶需要独立的一整套系统、独立的传感、独立的所有东西。
我认为可观测性也会发生同样的事情:当我们拥有所有数据、控制数据平面,并且能在这些数据上实时开发和运行模型时,我们才会有能力走到问题前面,把问题预防掉。
Yanbing Li
首席产品官
是的。至于客户采用情况,正如我提到的,我们现在有 2,000 个客户。产品在 GA(正式可用)后时间还不长,所以我们还在推进让客户授权我们使用他们的名字。
但我可以分享的是:这 2,000 个客户覆盖非常广泛——跨不同规模、不同垂直行业、不同地理区域,从最大的《财富》100 强到最创新的 AI 初创公司,采用非常普遍、没有明显偏向。
这也是我个人非常兴奋的原因:SRE 真的非常适合 AI,因为结果是即时且可验证的。这也是为什么我们看到采用在如此快速地增长。
Yuka Broderick
投资者关系
最后补充一点:我们定价是完全透明的。你可以直接去我们官网查看。我记得 Bits AI SRE 的价格是 每 20 次调查 500 美元,对吧,Kai?不过具体细节你们都可以自己随时去查。
Ittai Kidron
Oppenheimer
我是 Oppenheimer 的 Ittai Kidron。Alexis,你的演讲非常有意思,谢谢你对“小模型 vs 前沿模型”做出的论证。
如果我们反过来思考:你们用 75 万美元就训练了一个高准确率的小模型。那么从第三方的角度来看,进入门槛在哪里?换句话说,AI 对你们业务的风险是什么?机会显而易见,收入潜力也明显,但风险在哪里?
⸻
Alexis Le-Quoc
联合创始人 & CTO
我认为,真正的护城河在于数据优势。
以我们的时间序列模型为例,我们拥有的是真实、合法、海量、非公开的数据。这是第一层优势。
第二层优势在于:我们构建 eval(评估集)的体量与质量。训练代理不仅仅是模型本身,而是大量真实场景验证。
确实,理论上没有明显的“资本门槛”。别人也可以做小模型。但数据质量才是关键护城河。
比如,在我们这个领域生成高质量合成数据并不容易。它不像文本生成图像那样简单采样、重混。软件系统的结构与运行行为之间关系极其复杂。你不能简单对某个大模型说:“给我一堆合成数据。”
此外,我们天然处在数据流的中心。客户日常使用 Datadog 产生的数据,本身就成为训练素材。这是别人无法轻易获得的。
这会形成一个正向飞轮:
更多客户 → 更多真实数据 → 更好的模型 → 更有价值 → 更多客户。
所以我更把 AI 看成“增益飞轮”,而不是威胁。
⸻
Olivier Pomel
补充一点:我们去年在研发上花了 10 亿美元。前年 7~8 亿美元,再往前 5 亿美元。
正因为长期投入巨大,我们才能用 75 万美元训练出这样的模型。
Sanjit Singh
Morgan Stanley
我是 Morgan Stanley 的 Sanjit Singh。
我想问一下,你们距离“自主运维”愿景还有多远?一年后是什么样?三年后是什么样?
此外,要实现这个愿景,Datadog 是否需要拥有更多技术栈部分?比如是否必须拥有软件交付流水线?这涉及 build vs buy 的问题。
Olivier Pomel
很难预测。AI 的进展节奏非常令人意外——会突然大跃进,然后看似停滞,接着又跳跃。
比如两个月前,我们在编码代理能力上看到一次明显跃升,这对我们内部使用和客户体验都产生了显著影响。
所以很难判断是一年还是三年。但可以确定的是:我们会到达那个目标。技术路径正在逐步解决问题。
至于是否需要扩展栈:
我们已经识别了一些需要加速的领域。
例如:Feature flag 和实验(experimentation)。
几年前我们并不太关注这个领域,认为它偏商品化。但现在我们意识到,它是自动化发布与快速迭代的关键。
另一个例子是:数据可观测性(data observability)。
以前我们认为它是一个相对边缘市场。但现在数据质量与实时性成为 AI 模型部署的核心瓶颈,因此它被提升为优先事项。
还有其他领域我们也在思考,不过今天不会全部透露。
Yanbing Li
我补充一点。
自主运维不是一个“0 到 1”的跳跃。这和自动驾驶卡车不同——自动驾驶是完全 0 或 1。
DevOps 自主化是一个渐进过程。
一开始客户不信任 AI 调查结果,他们会验证。但随着使用增多,信任逐渐建立。
同样,自动代码修复目前仍然需要人工在环。但随着技术成熟与信任增加,客户会逐步放手。
真正的“圣杯”是主动、预防、预测式检测——在问题发生前修复问题。
自主化会通过技术进步与客户信任的共同演化逐步实现,而不是突然到来。
Fatima Boolani(花旗,研究部)
我是 Citi 的 Fatima Boolani。我的问题是关于 Bits AI 套件的。我能理解它可以说是通往“自主化愿景”的“gateway drug”(入门/引子)。但我想退一步,问一个更尖锐的问题。你们都很兴奋,因为你们的代码安全(code security)可以从一开始就直接注入进去。但 Opus 4.6 以及 Codex-5.3 的迭代——我的意思是,它们在代码安全能力上正在不断、强势地增强,而且这些能力是内生的。
所以我想问:你们如何为自己给客户提供的价值建立“保护壁垒”(protection barrier)?你们的竞争优势在哪里——相对于通用 LLM(general purpose LLMs)而言,后者可能在代码安全方面覆盖更广;而你们的优势则是在平台上下文(context)加持下提供代码安全、卫生(hygiene)和严谨性(rigor)。因为按你们的观察,编码助手正在“parabolic”(指数级/加速)发展?
Michael Whetten
我觉得这对我们反而是优势——我不认为这是“我们对他们”的关系。LLM 在创造性思考、构思这些东西上做得很好,这是很棒的。但我们代码安全的一个优势是:我们能看到这些代码在生产环境(production)里是如何被部署的。比如 SCA(Software Composition Analysis,软件成分分析)可能会发现某些恶意包或者有漏洞的依赖包,但你并不知道这个包是否真的在生产环境里被部署了。所以你可能拉响“火警”,把所有人都叫醒,结果发现那个版本其实根本没在生产环境里跑,对吧?它并不是真正的漏洞暴露。
所以我认为这些东西是可以协同工作的。就像我们说的,我们会用这些技术在合适的地方相互补充、相互提供信息。但我也认为我们仍然有独特价值可以带给客户——这是我的看法。
Tim Knudsen
是的,我不认为我们会不需要“纵深防御”(defense in depth)。但显然,我们应该思考并理解:在“把能力向左移”(shift left)这件事上,随着编码代理(coding agents)的发展,我们到底能把多少安全问题在更早期解决。正如 Michael 说的,生产运行时环境(production runtime environments)非常复杂——这些复杂性不会消失。并且始终会有这样的需求:对于一个已经被发现的东西,比如某个漏洞,它不仅仅是被加载(loaded)了没有,它是否真的在被执行(executed)?这会是我们即便在编码代理呈现爆发式(parabolic)采用的情况下,也会继续重点关注的领域。
Olivier Pomel(联合创始人、CEO & 董事)
这不是“is or are”(不是非此即彼),而是“and”(两者都要)。而且,这里面有几个典型会“失效/破局”的例子。比如代码在你写下来的那一刻是安全的,并不意味着两周之后它仍然安全。所以有些东西需要被持续、永久地重新评估。还有一些东西,云端可能认为是安全的,但你作为一家公司可能认为不安全。所以你可能有自己的规则、自己的技术栈等等。
所以总体来说,会有很大的空间留给很多专门化工具(specialized tooling),去补充通用的编码代理。而且,第一,这些工具可能会使用和这些代理相同的一些模型;第二,这些代理会长期存在,并且会做得越来越多。所以关键是与它们协作并互补,而不是试图去替代它们。
Tim Knudsen
而且我们还能不能做出一个好产品,对吧?我敢肯定以前有人也跟你说过:你们为什么要为云软件做一家监控公司?云厂商自己大概就会做,对吧?
Olivier Pomel(联合创始人、CEO & 董事)
是的。
Tim Knudsen
这不就来了。
@慢就是快5555: Ryan MacWilliams(Wells Fargo Securities, LLC,研究部)
我是 Wells Fargo 的 Ryan MacWilliams。可能现在还早,但我很想听听:监控 AI agent 的工作流(AI agent workflow)与监控普通 SaaS 应用相比,有哪些差异?AI agent 的工作流是否需要更强的数据密度(data intensity)以及更多需要监控的日志?以及是否需要在更广的表面面积(surface area)上做更多可观测性?很想听听你们目前看到的情况。
Tim Knudsen
递归(recursion)和不确定性(uncertainty)非常多——首先在于代理到底在做什么。它变化非常快。即便在内部,我们也一直在用不同的方法做实验。所以这是一个非常“易变”(volatile)的领域,因此确实需要一些专门化工具。另外,质量保证(quality assurance)的两大基本测试维度——验证(verification)它是否好,以及确认/验证(validation)它是否按预期工作、是不是一个好的产品——在你不知道它到底在做什么、然后把它放到生产里看用户怎么用、它怎么行为的时候,会更难。它需要一种不同的反馈方式,而不是你写确定性软件(deterministic software)时那种相对可预测的测试方式。
所以我认为确实需要一些新东西。这也是为什么我们有 playgrounds(演练场/试验场)、sandboxes(沙盒)、experimentation(实验/试验);也正因为如此,实验对于主要研究实验室和基础模型提供商变得如此重要。他们全都是重度实验用户,因为他们并不知道它在生产里到底会做什么。
Olivier Pomel(联合创始人、CEO & 董事)
但现在真的非常早期。所以我预计我们会——在一年、两年、三年后,对这个领域会有更清晰的认识。现在太早了,以至于当下正在构建 agents 的公司都站在最前沿。所以我们是在一起学习。
@慢就是快5555: Arti Vula(摩根大通,研究部,代 Mark Murphy)
我是 JPMorgan 的 Arti Vula,替 Mark Murphy 提问。Olivier,以及任何想补充的人。几天前你们提到,最大的 AI 基础模型公司之一采用了 Datadog,并且把开源、自建以及 hyperscaler 的方案做了整合/收敛。我们也跟另一家 AI 公司聊过,他们说你们的平台是关键的,即使他们想复制,也复制不了。
所以你能不能帮我们理解一下:这些非常有创新能力的公司,是怎么走到“意识到自己做不了/不想自己做”这一步的?是能力的广度?还是即便有开发者,也会比他们想象中占用更多资源?是否存在某个“aha moment”(顿悟时刻)?
Olivier Pomel(联合创始人、CEO & 董事)
我的意思是,这其实从公司第一天起就是我们的故事。现在这些 AI 公司并不比我们最初服务的云原生客户、或者我们后来开始卖给的大型企业更特殊。他们都会有一些自研的东西,也会有过去买过的各种工具的组合。它总是——从来都不够好用。它总是一个“时间黑洞”(time sock)。它总会在某个时刻变成一个大问题,因为让系统保持稳定、正确、安全,并且持续发布软件,是绝对业务关键的需求,你必须把它彻底搞定;而它会出问题,然后就会引发对“我们在用什么工具”的反思。人们会意识到:为了保持竞争力,他们还有别的问题要解决,而不是去重新发明一个他们可以直接买到的东西,于是他们通常就会买我们做的。
所以问题不是说——看,如果世界上最大的公司把这当作唯一重点来做,他们能不能做出来?也许不能。但关键在于他们在做别的事情。他们必须做别的事情,没必要去自己构建监控、自己构建可观测性,以及自己构建自主化能力。
@慢就是快5555: Howard Ma
Guggenheim Securities, LLC,研究部
我是 Guggenheim 的 Howard Ma。我想问一下大家对 OpenTelemetry 以及其他开源可观测性工具所带来的潜在威胁怎么看——或者说 OpenTelemetry 更像是一种标准化协议。那么在拥抱这些开源标准的同时,Datadog 的竞争护城河是什么?具体到后端,我很好奇:你们拥有 1,000+ 集成,以及像 Datadog 这样把很多不同数据源做关联的能力,到底有多可防御?这与其他公司有什么不同?
另外从覆盖角度看,你们有一页幻灯片展示了一端是监控虚拟化环境(更偏向本地部署 on-prem 的方向),另一端是 GPU 监控(往另一个方向)。是不是可以这样理解:你们想要“开箱即用”地满足高度定制化的企业需求,而这才是真正的护城河?
Olivier Pomel
联合创始人、CEO 兼董事
数据采集从来都不是护城河,对吧?我们在用 Galaxy 创办公司时,我们当时做了一个判断:服务器端的一切、SaaS 会是“聪明的部分”。而客户环境里运行的东西,比如 agents 以及其他采集、集成这些,会是开源的。我们的 agent 以及随之配套的一切都是开源的。实际上它的许可是 Apache,对吧?现在还是 Apache 吗?
Michael Whetten
我想是的。
Olivier Pomel
联合创始人、CEO 兼董事
是的,(某个)许可。但至少我们没有改。顺便说一下,早期我们的竞争对手还在用我们的 agent、用我们的集成以及其他东西。今天我们非常高兴看到 OpenTelemetry 的兴起。我们是原生支持 OpenTelemetry 的。这很好,它是把更多数据导入系统、让它更快运作、减少摩擦的一种很好的方式。我认为这会让所有人都更开心。这从来不是差异化所在。
当你谈“紧密集成”时,问题不是你能不能把数据接进系统再导出来。问题是:你理解得有多好?你能把它用得有多好?它如何与其他东西整合在一起?不管你用的是 OpenTelemetry 还是它之前的一些标准(在此之前也有过几个不同标准),这一部分才是我们独特之处——我们做得比其他任何人都好得多。
Yrieix Garnier
我再补充一点,从 OpenTelemetry 的角度看,这并不算竞争,因为我们是 OpenTelemetry 的重要贡献者之一。如果你看 Datadog,我们是(OpenTelemetry 的)顶级贡献者之一。我们现在也已经完全支持 OpenTelemetry,并且无论数据是通过 OpenTelemetry 还是通过我们自己的 agent 进来,我们都支持。对我们来说,正如 Olivier 所说,关键不在于数据怎么进来,而在于我们在内部如何使用这些数据,这才更重要。
@慢就是快5555: 接下来我想进一步说明:为什么 Datadog 在利用 AI 实现这一愿景方面具有独特优势。
Datadog 的独特之处在于我们获取的数据规模、数据体量,以及我们对现实世界中运行的基础设施、应用程序和系统的理解程度。我们以极大的规模摄取数据——数万亿个数据点、数十亿条追踪记录、EB 级别的日志数据。
同时,我们拥有高度多样化的数据类型。用户向我们发送的关于其系统的数据,包括指标、追踪、日志、用户会话、数据作业、数据血缘、LLM 和代理追踪、团队结构、服务名称以及大量其他信息。这些数据来自我们的 SDK、代理程序以及集成爬虫。
这些数据不仅支撑着当今 Datadog 的可观测性能力,也构成了实现完全自主化运维所需 AI 的基础。
几年前,我们成立了一个 AI 研究实验室,因为我们坚信:凭借我们拥有的数据规模以及研发能力,我们可以在为可观测性和安全构建 AI 方面成为领导者。
我们是如何开始的?
我们想证明:拥有大量领域专属数据会带来优势。因此,我们开发了第一个时间序列基础模型,名为 Toto。
如果你寻找公开可用的最大时间序列数据集,大约是 3000 亿个数据点,涵盖金融、医疗、能源、交通、网络流量等领域。
而我们用 3 倍于这个规模的数据训练 Toto。并且其中绝大多数数据是 Datadog 独有的,与应用程序、基础设施和软件系统直接相关。
结果是,当我们将 Toto 与其他时间序列模型在预测能力上进行对比时,它表现远优于其他模型。我们达到了当前最先进水平。
随后,我们将其作为开放权重模型发布在 Hugging Face 上——大约是去年 5 月。至今已有约 900 万次下载。
你可能会问,为什么要开放权重?
原因有三:
第一,我们希望为这一新兴领域做出贡献。
第二,我们希望确立我们作为 AI 实验室的可信度。
第三,下载量可以反映这些模型的重要性。
但更重要的是成本差异。2025 年,我们训练该模型的成本约为 75 万美元——相比同一时期的前沿模型(Frontier model),成本低 3 到 4 个数量级。
当然,前沿模型能力更强,可以处理多语言、法律合同、医学影像等。但在可观测性场景下,这些能力并不重要。
Toto 证明了一点:利用大量专有数据和小模型,可以取得优秀成果。
接下来谈训练。
在从零构建模型时,预训练阶段通常是最耗费时间和成本的环节。预训练与训练都至关重要,才能产生在现实场景中可用的模型与代理。
以 Bits AI SRE Agent 为例。
如果你不熟悉,它本质上是一个“站点可靠性工程师”。它的任务是从某个软件系统中的症状出发,构建可能的因果链,找出问题根源。
当系统发出警报时,Bits AI SRE 会提出假设,分析所有可用数据,识别根本原因并帮助消除问题。
它之所以受欢迎,是因为全球软件系统始终存在问题。
要训练这样一个代理,我们需要大量真实的历史事故和正确的根因数据。
我们是如何做到的?
像任何复杂系统一样,我们自己的平台也在不断演进和维护。就像城市一样,需要持续清理、维护、对抗熵增。
每天,我们的工程师都会调查并修复问题。他们会记录调查过程以及所有相关可观测数据,并将其整理为评估样本(eval)。
这些 eval 来自专家的真实分析,并成功用于问题排查,因此可信度极高。
每当我们修改模型或指令时,都会在这些 eval 上进行测试,评估性能提升或下降。
这些 eval 无法外包给非专家完成。必须覆盖尽可能多的用例。为此,你需要大规模基础设施——而我们拥有这样的规模。
随着 eval 数量增加,Bits AI SRE 的准确率也随之提升。虽然不是直线上升,但整体趋势明显向上。
我们还构建了生成合成数据的系统,以扩大训练规模。
同时,客户使用后的反馈也成为新的 eval 数据,进一步丰富环境与问题类型。
训练没有捷径。你需要大量高质量数据与专业知识。这是我们的强大差异化优势。
总结我们的优势:
第一,我们持续获取大量干净、结构化的数据,可用于预训练和训练。
第二,我们自主构建模型。
第三,不仅数据量重要,多样性同样关键。
第四,我们具备深厚领域知识。
我们相信,在 AI 驱动的可观测性领域,我们拥有无可匹敌的能力。
你可能会问:为什么不直接把数据交给前沿模型?
我们也做过内部测试。前沿模型擅长总结,但极其昂贵。
训练一个前沿模型起步成本约 10 亿美元。而小模型在单位成本下能实现数量级更高的准确率。
因为我们无需为与可观测性无关的能力买单。
即使雇佣大量工程师进行微调,成本结构也无法匹配。因为你仍在承担前沿模型庞大的预训练、推理硬件成本。