Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。
标签
1 篇文章
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。