Datadog基准测试显示：AI仍难替代值班工程师

cwx1994 · 发表于 2026-5-19 06:30

Datadog与卡内基梅隆大学联合推出一项真实故障基准，专门测试AI能否在生产事故中接手值班工程师的工作。结果显示，当前领先模型仍未超过人类专家，尤其是在跨指标判断和故障归因上差距明显。

真实故障做成基准

ARFBench全称为 Anomaly Reasoning Framework Benchmark。它基于 63 起真实生产事故整理而成，题目来自工程师在紧急排障时的 Slack 讨论。整个数据集包含 750 道选择题，覆盖 142 项监控指标和 538 万个数据点，且全部经过人工核验。

研究团队表示，这类问题正是事故响应中的核心环节。基准题目分为三层：先判断图表里是否存在异常，再识别异常何时开始、严重程度如何，最后进入最难的跨指标推理，判断一个指标是否在驱动另一个指标的异常。

顶级模型仍落后于人类

在这项测试中，GPT-5 的总准确率为 62.7%，Gemini 3 Pro 为 58.1%，Claude Opus 4.6 为 54.8%，Claude Sonnet 4.5 为 47.2%。其中，Tier III 题目最难，GPT-5 的 F1 只有 47.5%。

人类表现仍然更好。领域专家的准确率达到 72.7%，没有深度运维经验的 Datadog 时间序列研究人员也有 69.7%。这意味着，没有任何 AI 模型跑赢两组人类基线。

人机协作上限更高

榜单第一名并不是通用大模型，而是 Datadog 的内部时间序列模型 Toto 与 Qwen3-VL 32B 的组合。实验版本 Toto-1.0-QA-Experimental 准确率为 63.9%，略高于 GPT-5。它在异常识别任务上的 F1 也领先其他模型至少 8.8 个百分点。

研究团队还指出，模型和人类的错误类型并不相同。AI 更容易出现幻觉、遗漏元数据、丢失上下文；人类则更容易看错时间戳，或在复杂指令上出错。若把两者结合，理论上的“Model-Expert Oracle”可把准确率提升到 87.2%，F1 提升到 82.8%。

剑啸弑无痕 · 发表于 2026-5-19 07:01

虚拟币信息也是了解了啊

why · 发表于 2026-5-19 07:29

这测试整得挺实在，AI在跨指标推理上还得练，人类专家72.7%的准确率确实硬核

why · 发表于 2026-5-19 07:29

剑啸弑无痕发表于 2026-5-19 07:01
虚拟币信息也是了解了啊

虚拟币这块水挺深的，光靠AI还真摸不透

山区奥特曼 · 发表于 2026-5-19 11:03

虚拟币资讯还是有必要学习的

山区奥特曼 · 发表于 2026-5-19 11:03

why 发表于 2026-5-19 07:29
虚拟币这块水挺深的，光靠AI还真摸不透

说的还是非常有道理的了啊

点灯 · 发表于 2026-5-19 11:54

人机协同可能才是未来，纯AI还差口气

点灯 · 发表于 2026-5-19 11:54

山区奥特曼发表于 2026-5-19 11:03
说的还是非常有道理的了啊

确实是，自动化再强，关键时候还得人来兜底

点灯 · 发表于 2026-5-19 11:54

剑啸弑无痕发表于 2026-5-19 07:01
虚拟币信息也是了解了啊

感觉这些技术分析挺绕的，实际落地还是看应用场景吧

点灯 · 发表于 2026-5-19 11:55

why 发表于 2026-5-19 07:29
虚拟币这块水挺深的，光靠AI还真摸不透

确实，币圈这潭水，光靠技术分析可能还不够，经验判断还得靠人

		自动登录	找回密码
密码			立即注册

[虚拟币资讯] Datadog基准测试显示：AI仍难替代值班工程师

浏览过的版块

最佳新人

活跃会员

热心会员

推广达人

宣传达人

灌水之王