Open Agent Leaderboard：评估 Agent 不能只看模型分数

摘要

IBM Research 与 Hugging Face 推出开放 Agent 评测后，团队应把工具、记忆和恢复策略纳入评分卡。

栏目: 研究解读
发布时间: 2026-06-01
来源: Hugging Face Blog / The Open Agent Leaderboard / 2026-05-18 https://huggingface.co/blog/ibm-research/open-agent-leaderboard

这篇解决什么

Agent 成败不只取决于底层模型。工具选择、记忆机制、计划方式和错误恢复会让同一个模型表现出完全不同的成本和可靠性。

适合正在采购、搭建或比较多个 Agent 框架的开发者、管理者和技术运营团队。

任务类型：
模型：
工具：
记忆：
恢复策略：
完成率：
人工接管：
成本：

前 5 分钟写清输入、目标和风险边界；中间 15 分钟按步骤跑一个低风险样本；最后 10 分钟记录输出、失败点、人工修改量和下一次复用条件。样本不通过时，只修失败点，不扩大范围。

第一次执行时把它当成个人操作卡；第二次复用时沉淀为团队模板；第三次仍然稳定后，再升级为固定 SOP、Skill 或工具导航页。涉及账号、发布、删除、付费、生产代码和客户数据的动作，必须保留人工确认点。