教程|

Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完

IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。

Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完

现在 AI 圈看 benchmark,越来越容易有一种既熟悉又麻木的感觉。

  • 新榜单来了
  • 又多几个分数
  • 某模型第一
  • 大家转发一圈,然后继续该翻车翻车

原因也不复杂。很多基准测的是能力切片:

  • 会不会读
  • 会不会写
  • 会不会推理
  • 会不会选工具

但真实世界里的 Agent,很少按这种切片方式工作。

真正折磨人的,是它得把一串事连起来:

  • 找对工具
  • 理清顺序
  • 拿到中间结果
  • 继续下一跳
  • 遵守限制
  • 最后别跑偏

IBM 这次推出的 VAKRA,我觉得最值得看的地方就在这儿。它不是又搞了一个“模型像不像聪明人”的考试,而是更像在问:

你的 Agent 到底能不能在企业那种又长、又脏、又带约束的流程里,把事情真的做完?

VAKRA 为什么比普通 benchmark 更扎心

按官方介绍,VAKRA 提供的是一个可执行环境,不只是给你题目和标准答案。里面塞了:

  • 8000 多个本地托管 API
  • 背后连着真实数据库
  • 62 个业务领域
  • 还配了相应文档集合

任务不是简单一问一答,而是要在 API 和文档之间来回跳,做 3 到 7 步,甚至更复杂的链路。

这里最关键的一点是:它不只看你最后答得像不像,还看你中间的工具调用轨迹到底对不对。

这就很重要了。

因为很多 Agent 的老毛病不是最后一句话完全离谱,而是过程里已经开始歪:

  • 工具选错了
  • 顺序乱了
  • 中间结果没接住
  • 不该用的来源用了
  • 该遵守的约束没遵守

普通 benchmark 只看最终答案时,这些翻车有时会被掩盖;VAKRA 这种看完整执行轨迹的,就比较不留情面。

它测的,不只是会不会调工具,而是会不会在复杂环境里活下来

VAKRA 把任务大致拆成四类能力,我觉得这个设计很有代表性。

第一类:API chaining

你得连续调用多个工具,从数据里一步步筛出正确结果。

这听着像小题,但现实里很多 Agent 就栽在这种“每步都不难,连起来就乱”的地方。单步它能做,连环做就开始掉链子。

第二类:tool selection

工具很多,你得先挑对。

这点特别贴近企业环境。真实公司系统里的问题,很少是“有没有工具”,更多是“工具一堆,你到底知道该先碰哪个吗”。更麻烦的是,有些接口还很多、很细、很像,选错一步后面都白跑。

第三类:multi-hop reasoning

不是拿到一条信息就能回答,而是得从多个证据点之间来回拼。

这正是很多“看起来很会说”的模型最容易露馅的地方。它可能在语言表面上极其流畅,但真要跨几跳把逻辑拼严,味儿就开始不对。

第四类:multi-source + policy adherence

这部分我尤其在意。因为它不只要求 Agent 在 API 和文档之间混合找证据,还要求它遵守工具使用政策。

比如某类问题只准查文档,不准碰别的工具。

这听着像 benchmark 细节,实际上特别贴近企业落地。真实世界里,Agent 最大的难题之一从来不只是“会不会做”,而是 会不会在边界里做

这条新闻真正刺痛人的地方:很多 Agent 还是更像会聊,不像会干

IBM 在文里自己也说得很直:模型在 VAKRA 上整体表现并不好。

我一点也不意外。

因为这几年很多 Agent 演示都特别容易让人产生一种错觉:

  • 它能自己想
  • 它能自己调工具
  • 它能自己走流程
  • 所以它离“数字员工”已经不远了

但只要你把环境稍微搞真实一点,问题立刻就冒出来:

  • 工具太多,它开始乱选
  • 上下文一长,它开始漏条件
  • 一旦需要多跳,它中间步骤容易偷懒
  • 加上策略限制后,它更容易一边道歉一边越线

说难听点,很多 Agent 现在依然处在一种很尴尬的阶段:

看着像会做事,实际上更像一个特别会描述自己正在做事的人。

VAKRA 的价值,就是把这层窗户纸又狠狠干开了一次。

为什么这对企业比对 AI 圈更重要

这类 benchmark 对企业特别有参考意义,不是因为企业爱看榜,而是因为企业最怕两种错觉。

第一种错觉:模型会调用工具 = 可以接业务流程

不是的。

会调一个工具,只能说明它学会了一招;会在一堆工具、数据源和规则中稳定完成任务,才接近真正可用。中间差着一整层工程现实。

第二种错觉:最终答案看着对 = 过程可信

也不是。

企业里很多任务不是“答对就行”,而是必须能说清:

  • 用了哪些系统
  • 为什么这么调用
  • 有没有越权
  • 中间有没有碰不该碰的数据

VAKRA 这种看执行轨迹的方法,才更接近企业真正会在意的风险点。

它还顺手暴露了另一个现实:工具太多,本身就是 Agent 的敌人

文里有个细节我觉得很值得抄下来。某些任务域里,工具数量会非常多,而有的 API 接口规范本身对工具列表长度还有限制,于是基线 Agent 还得先做 shortlist。

这个细节非常真实。

很多人总以为给 Agent 更多工具,它就会更强;现实经常相反:工具一多,选择成本和误用概率也一起飙升。

这对做 MCP、企业集成、内部平台的人都很有启发。以后竞争点可能不只是“接了多少工具”,而是:

  • 能不能帮 Agent 快速缩小候选范围
  • 能不能把能力边界讲清楚
  • 能不能让错误调用更难发生

工具生态越大,编排层越重要。这条规律以后只会更明显。

对开发者和团队来说,最值得抄走什么

如果你最近也在看 Agent 落地,我觉得这条新闻至少提醒了四件事。

1. 别太迷信最终答案

一个 Agent 最后说对了,不代表它中间过程就可靠。尤其在生产场景里,轨迹可验证性往往比单个输出更重要。

2. 真正难的是多步编排,不是单步聪明

很多 demo 展示的都是单次能力;而真实任务经常败在第 3 步、第 4 步、第 5 步的衔接上。

3. policy adherence 会越来越关键

以后企业不会只问“它能不能做”,还会问“它是不是只在允许的边界内做”。能遵守规则的 Agent,价值会比会硬闯的 Agent 高得多。

4. benchmark 应该更像流程压测,而不是语言竞赛

真正能帮团队做技术选型的,不是那些只看语言输出的榜单,而是更接近部署现场的执行型评测。

我的判断

我会把 VAKRA 看成一个挺重要的行业信号:

AI Agent 的下一轮成熟,不只是把推理做得更像人,而是把执行做得更像系统。

这两者差别很大。

会解释,不等于会完成;
会调用,不等于会编排;
会回答,不等于会守规矩。

VAKRA 之所以值得看,不是因为它又把谁排到了第一,而是因为它把一个越来越真实的问题摆到了台面上:

当 Agent 真要进入企业流程时,我们到底该相信它的哪一部分?

现在看来,答案还远远不是“全部”。

但这也未必是坏事。至少这种更苛刻、也更接近现实的 benchmark,能逼行业少一点自嗨,多一点正经补课。

说白了,Agent 时代最需要的,可能不是再来一场漂亮的榜单狂欢,而是更多这种会把人问沉默的照妖镜。


延伸阅读

准备好了吗?

免费注册,立即体验全部功能