Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。
标签
2 篇文章
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。
Cloudflare 给 Access 加上 Managed OAuth,看起来像个权限小更新,实际上是在解决企业上 Agent 时最别扭的一件事:人能进的内网系统,Agent 往往进不去;真让它进,又很容易退回 service account 和静态密钥那套老路。