Agent 基准又来了一块照妖镜:IBM 这次不是测模型会不会答题,而是敢不敢把流程真跑完
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。
Tag
13 articles
IBM 推出的 VAKRA 不只是另一个 Agent 榜单。它把模型丢进带有 8000 多个本地 API、真实数据库和文档检索的可执行环境里,看它能不能把多步企业流程真正跑通。最扎心的是:很多模型看起来会说,真正做事时却明显不太行。
HCompany 推出 HoloTab,把电脑操作型 AI 直接塞进 Chrome 扩展里。它最值得看的,不是又一个会点网页的 Agent,而是‘录一次、反复跑’这件事终于开始像普通人也能用的产品,而不是只给极客看的自动化玩具。
Cloudflare 给 Access 加上 Managed OAuth,看起来像个权限小更新,实际上是在解决企业上 Agent 时最别扭的一件事:人能进的内网系统,Agent 往往进不去;真让它进,又很容易退回 service account 和静态密钥那套老路。
Vercel 提出 Agentic Infrastructure,不只是换了个新词,而是公开承认:下一代云平台的默认用户,已经不只是开发者本人,还包括替他们写代码、发部署、看日志的 AI Agent。
Vercel 提出 Agentic Infrastructure,不只是换了个新词,而是公开承认:下一代云平台的默认用户,已经不只是开发者本人,还包括替他们写代码、发部署、看日志的 AI Agent。
Cloudflare 在 Agents Week 开场文里讲得很直白:今天的互联网和云,骨子里还是给人类 App 设计的,不是给一人一个、按任务运行的 Agent 设计的。真正值得关注的,不是又多一个 Agent 平台,而是基础设施开始被迫重写。
Vercel 提出 Agentic Infrastructure,真正值得关注的不是新词,而是一个越来越现实的变化:当 coding agent 开始写代码、触发部署、参与排障,云基础设施也必须从服务人类开发者,转向服务持续行动的机器执行者。
GitHub 给 Copilot CLI 加了一个很有意思的新能力:让来自另一模型家族的‘Rubber Duck’在关键节点复查主 Agent 的计划、实现和测试。它真正提醒开发者的,不是 AI 又会多写几行代码,而是 AI 编程里最值钱的能力,开始从生成转向怀疑和复核。
AI 生成的 PR 越像资深工程师写的,团队越容易放松警惕。Vercel 提醒了一件很扎心的事:通过 CI 不等于能安全上线,Agent 时代真正稀缺的不是写代码速度,而是判断哪些代码值得发到生产环境。
Claude Code 帮 Anthropic 研究员找出一个藏了 23 年的 Linux 内核漏洞,这件事真正可怕的,不是 AI 更会写代码了,而是 AI 编程工具已经开始从生产代码,转向批量挖掘高价值安全问题。
Cursor 3 这次最值得看的,不是 UI 变新了,而是它终于把 AI 编程工具最别扭的一层捅开了:开发者不该继续在一堆本地会话、云端任务、终端窗口和 PR 之间来回救火。真正的升级,是它开始把 agent 协作当成产品主战场。
GitHub Copilot Applied Science 团队分享了一套很有意思的实践:他们不是单纯让 Agent 帮忙写代码,而是先把文档、测试、重构和 review 流程补起来,再让 Agent 成为主力贡献者。真正的变化不是‘AI 更会写了’,而是软件团队终于开始认真经营一个适合 Agent 干活的代码库。
Anthropic 给 Claude Code 加了一个很关键的新能力:不是单纯放权,也不是继续让人类一下一下点确认,而是让 AI 先判断这步操作值不值得打扰你。对开发者来说,这可能比再提一点模型分数更重要。