找回密码
 立即注册
金木棉
瑞丰国际
通宝
HH
迪拜皇宫
优博
澳门银河
金沙
亚洲
U18
搜索
查看: 129|回复: 30

[虚拟币资讯] Datadog基准测试显示:AI仍难替代值班工程师

[复制链接]

3142

主题

7万

回帖

2万

活跃

论坛元老

积分
317180

最佳新人活跃会员热心会员推广达人宣传达人灌水之王

发表于 2026-5-19 06:30 | 显示全部楼层 |阅读模式
Datadog与卡内基梅隆大学联合推出一项真实故障基准,专门测试AI能否在生产事故中接手值班工程师的工作。结果显示,当前领先模型仍未超过人类专家,尤其是在跨指标判断和故障归因上差距明显。

真实故障做成基准

ARFBench全称为 Anomaly Reasoning Framework Benchmark。它基于 63 起真实生产事故整理而成,题目来自工程师在紧急排障时的 Slack 讨论。整个数据集包含 750 道选择题,覆盖 142 项监控指标和 538 万个数据点,且全部经过人工核验。

研究团队表示,这类问题正是事故响应中的核心环节。基准题目分为三层:先判断图表里是否存在异常,再识别异常何时开始、严重程度如何,最后进入最难的跨指标推理,判断一个指标是否在驱动另一个指标的异常。

顶级模型仍落后于人类

在这项测试中,GPT-5 的总准确率为 62.7%,Gemini 3 Pro 为 58.1%,Claude Opus 4.6 为 54.8%,Claude Sonnet 4.5 为 47.2%。其中,Tier III 题目最难,GPT-5 的 F1 只有 47.5%。

人类表现仍然更好。领域专家的准确率达到 72.7%,没有深度运维经验的 Datadog 时间序列研究人员也有 69.7%。这意味着,没有任何 AI 模型跑赢两组人类基线。

人机协作上限更高

榜单第一名并不是通用大模型,而是 Datadog 的内部时间序列模型 Toto 与 Qwen3-VL 32B 的组合。实验版本 Toto-1.0-QA-Experimental 准确率为 63.9%,略高于 GPT-5。它在异常识别任务上的 F1 也领先其他模型至少 8.8 个百分点。

研究团队还指出,模型和人类的错误类型并不相同。AI 更容易出现幻觉、遗漏元数据、丢失上下文;人类则更容易看错时间戳,或在复杂指令上出错。若把两者结合,理论上的“Model-Expert Oracle”可把准确率提升到 87.2%,F1 提升到 82.8%。


倾我所能,给你我有

4274

主题

4万

回帖

3万

活跃

论坛元老

积分
215543

最佳新人热心会员推广达人宣传达人灌水之王活跃会员

发表于 2026-5-19 07:01 来自手机 | 显示全部楼层
虚拟币信息也是了解了啊

2

主题

9340

回帖

9403

活跃

论坛元老

积分
26590
发表于 2026-5-19 07:29 | 显示全部楼层
这测试整得挺实在,AI在跨指标推理上还得练,人类专家72.7%的准确率确实硬核

2

主题

9340

回帖

9403

活跃

论坛元老

积分
26590
发表于 2026-5-19 07:29 | 显示全部楼层
剑啸弑无痕 发表于 2026-5-19 07:01
虚拟币信息也是了解了啊

虚拟币这块水挺深的,光靠AI还真摸不透

725

主题

2万

回帖

5万

活跃

论坛元老

积分
68479
发表于 2026-5-19 11:03 | 显示全部楼层
虚拟币资讯还是有必要学习的

725

主题

2万

回帖

5万

活跃

论坛元老

积分
68479
发表于 2026-5-19 11:03 | 显示全部楼层
why 发表于 2026-5-19 07:29
虚拟币这块水挺深的,光靠AI还真摸不透

说的还是非常有道理的了啊

0

主题

3471

回帖

3504

活跃

论坛元老

积分
9931
发表于 2026-5-19 11:54 | 显示全部楼层
人机协同可能才是未来,纯AI还差口气

0

主题

3471

回帖

3504

活跃

论坛元老

积分
9931
发表于 2026-5-19 11:54 | 显示全部楼层
山区奥特曼 发表于 2026-5-19 11:03
说的还是非常有道理的了啊

确实是,自动化再强,关键时候还得人来兜底

0

主题

3471

回帖

3504

活跃

论坛元老

积分
9931
发表于 2026-5-19 11:54 | 显示全部楼层
剑啸弑无痕 发表于 2026-5-19 07:01
虚拟币信息也是了解了啊

感觉这些技术分析挺绕的,实际落地还是看应用场景吧

0

主题

3471

回帖

3504

活跃

论坛元老

积分
9931
发表于 2026-5-19 11:55 | 显示全部楼层
why 发表于 2026-5-19 07:29
虚拟币这块水挺深的,光靠AI还真摸不透

确实,币圈这潭水,光靠技术分析可能还不够,经验判断还得靠人
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|多博社区

GMT+8, 2026-5-20 14:41 , Processed in 0.050031 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.