Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完
现在 AI 圈看 benchmark,越来越容易有一种既熟悉又麻木的感觉。
- 新榜单来了
- 又多几个分数
- 某模型第一
- 大家转发一圈,然后继续该翻车翻车
原因也不复杂。很多基准测的是能力切片:
- 会不会读
- 会不会写
- 会不会推理
- 会不会选工具
但真实世界里的 Agent,很少按这种切片方式工作。
真正折磨人的,是它得把一串事连起来:
- 找对工具
- 理清顺序
- 拿到中间结果
- 继续下一跳
- 遵守限制
- 最后别跑偏
IBM 这次推出的 VAKRA,我觉得最值得看的地方就在这儿。它不是又搞了一个“模型像不像聪明人”的考试,而是更像在问:
你的 Agent 到底能不能在企业那种又长、又脏、又带约束的流程里,把事情真的做完?
VAKRA 为什么比普通 benchmark 更扎心
按官方介绍,VAKRA 提供的是一个可执行环境,不只是给你题目和标准答案。里面塞了:
- 8000 多个本地托管 API
- 背后连着真实数据库
- 62 个业务领域
- 还配了相应文档集合
任务不是简单一问一答,而是要在 API 和文档之间来回跳,做 3 到 7 步,甚至更复杂的链路。
这里最关键的一点是:它不只看你最后答得像不像,还看你中间的工具调用轨迹到底对不对。
这就很重要了。
因为很多 Agent 的老毛病不是最后一句话完全离谱,而是过程里已经开始歪:
- 工具选错了
- 顺序乱了
- 中间结果没接住
- 不该用的来源用了
- 该遵守的约束没遵守
普通 benchmark 只看最终答案时,这些翻车有时会被掩盖;VAKRA 这种看完整执行轨迹的,就比较不留情面。
它测的,不只是会不会调工具,而是会不会在复杂环境里活下来
VAKRA 把任务大致拆成四类能力,我觉得这个设计很有代表性。
第一类:API chaining
你得连续调用多个工具,从数据里一步步筛出正确结果。
这听着像小题,但现实里很多 Agent 就栽在这种“每步都不难,连起来就乱”的地方。单步它能做,连环做就开始掉链子。
第二类:tool selection
工具很多,你得先挑对。
这点特别贴近企业环境。真实公司系统里的问题,很少是“有没有工具”,更多是“工具一堆,你到底知道该先碰哪个吗”。更麻烦的是,有些接口还很多、很细、很像,选错一步后面都白跑。
第三类:multi-hop reasoning
不是拿到一条信息就能回答,而是得从多个证据点之间来回拼。
这正是很多“看起来很会说”的模型最容易露馅的地方。它可能在语言表面上极其流畅,但真要跨几跳把逻辑拼严,味儿就开始不对。
第四类:multi-source + policy adherence
这部分我尤其在意。因为它不只要求 Agent 在 API 和文档之间混合找证据,还要求它遵守工具使用政策。
比如某类问题只准查文档,不准碰别的工具。
这听着像 benchmark 细节,实际上特别贴近企业落地。真实世界里,Agent 最大的难题之一从来不只是“会不会做”,而是 会不会在边界里做。
这条新闻真正刺痛人的地方:很多 Agent 还是更像会聊,不像会干
IBM 在文里自己也说得很直:模型在 VAKRA 上整体表现并不好。
我一点也不意外。
因为这几年很多 Agent 演示都特别容易让人产生一种错觉:
- 它能自己想
- 它能自己调工具
- 它能自己走流程
- 所以它离“数字员工”已经不远了
但只要你把环境稍微搞真实一点,问题立刻就冒出来:
- 工具太多,它开始乱选
- 上下文一长,它开始漏条件
- 一旦需要多跳,它中间步骤容易偷懒
- 加上策略限制后,它更容易一边道歉一边越线
说难听点,很多 Agent 现在依然处在一种很尴尬的阶段:
看着像会做事,实际上更像一个特别会描述自己正在做事的人。
VAKRA 的价值,就是把这层窗户纸又狠狠干开了一次。
为什么这对企业比对 AI 圈更重要
这类 benchmark 对企业特别有参考意义,不是因为企业爱看榜,而是因为企业最怕两种错觉。
第一种错觉:模型会调用工具 = 可以接业务流程
不是的。
会调一个工具,只能说明它学会了一招;会在一堆工具、数据源和规则中稳定完成任务,才接近真正可用。中间差着一整层工程现实。
第二种错觉:最终答案看着对 = 过程可信
也不是。
企业里很多任务不是“答对就行”,而是必须能说清:
- 用了哪些系统
- 为什么这么调用
- 有没有越权
- 中间有没有碰不该碰的数据
VAKRA 这种看执行轨迹的方法,才更接近企业真正会在意的风险点。
它还顺手暴露了另一个现实:工具太多,本身就是 Agent 的敌人
文里有个细节我觉得很值得抄下来。某些任务域里,工具数量会非常多,而有的 API 接口规范本身对工具列表长度还有限制,于是基线 Agent 还得先做 shortlist。
这个细节非常真实。
很多人总以为给 Agent 更多工具,它就会更强;现实经常相反:工具一多,选择成本和误用概率也一起飙升。
这对做 MCP、企业集成、内部平台的人都很有启发。以后竞争点可能不只是“接了多少工具”,而是:
- 能不能帮 Agent 快速缩小候选范围
- 能不能把能力边界讲清楚
- 能不能让错误调用更难发生
工具生态越大,编排层越重要。这条规律以后只会更明显。
对开发者和团队来说,最值得抄走什么
如果你最近也在看 Agent 落地,我觉得这条新闻至少提醒了四件事。
1. 别太迷信最终答案
一个 Agent 最后说对了,不代表它中间过程就可靠。尤其在生产场景里,轨迹可验证性往往比单个输出更重要。
2. 真正难的是多步编排,不是单步聪明
很多 demo 展示的都是单次能力;而真实任务经常败在第 3 步、第 4 步、第 5 步的衔接上。
3. policy adherence 会越来越关键
以后企业不会只问“它能不能做”,还会问“它是不是只在允许的边界内做”。能遵守规则的 Agent,价值会比会硬闯的 Agent 高得多。
4. benchmark 应该更像流程压测,而不是语言竞赛
真正能帮团队做技术选型的,不是那些只看语言输出的榜单,而是更接近部署现场的执行型评测。
我的判断
我会把 VAKRA 看成一个挺重要的行业信号:
AI Agent 的下一轮成熟,不只是把推理做得更像人,而是把执行做得更像系统。
这两者差别很大。
会解释,不等于会完成;
会调用,不等于会编排;
会回答,不等于会守规矩。
VAKRA 之所以值得看,不是因为它又把谁排到了第一,而是因为它把一个越来越真实的问题摆到了台面上:
当 Agent 真要进入企业流程时,我们到底该相信它的哪一部分?
现在看来,答案还远远不是“全部”。
但这也未必是坏事。至少这种更苛刻、也更接近现实的 benchmark,能逼行业少一点自嗨,多一点正经补课。
说白了,Agent 时代最需要的,可能不是再来一场漂亮的榜单狂欢,而是更多这种会把人问沉默的照妖镜。