资讯|

GPT-5.4 来了:OpenAI 终于把「干活」当成了卖点

OpenAI 发布 GPT-5.4,主打专业工作场景:原生 Computer Use、100万 token 上下文、投行建模任务 87 分。从「看我多聪明」到「看我能干多少活」,方向变了。

OpenAI 昨天发了 GPT-5.4。

说实话,看完公告我第一反应是:这次他们终于不吹「智力」了,开始吹「干活」了。

不是更聪明,是更能干

GPT-5.4 的定位很明确——专业工作模型。不是让你写诗更好听,不是让你数学考更高分,而是:

  • 做 Excel 表格
  • 做 PPT
  • 写文档
  • 操作电脑完成工作流

没错,OpenAI 给 GPT-5.4 加了原生 Computer Use。就是那个 Anthropic 之前搞过的「AI 操作你的电脑」功能。而且这次不是实验性质,是直接集成在 API 和 Codex 里的。

支持 100 万 token 上下文。意味着这个模型可以接手一个很长的工作流,从头到尾执行,不会中途忘了自己在干嘛。

数据说话

几个关键跑分:

  • GDPval(模拟 44 种职业的真实工作任务):83%,比 GPT-5.2 的 70.9% 提升了 12 个百分点
  • SWE-Bench Pro:57.7%,小幅领先
  • OSWorld(操作系统任务):75%,比 GPT-5.2 的 47.3% 暴涨
  • 投行建模任务:87.3% vs GPT-5.2 的 68.4%

最后那个数字很有意思。投行初级分析师做的 Excel 建模,GPT-5.4 能拿到 87 分。这个分数放在真实面试里,已经足够拿到 offer 了。

真正的变化:从「聊天」到「工作」

GPT-5.4 有一个新功能让我眼前一亮:Thinking Plan

在 ChatGPT 里用 GPT-5.4 Thinking 模式时,它会先给你一个工作计划,你可以在它执行过程中调整方向。不用等它写完一大段然后说「不是这样的,重来」。

这听起来是个小改进,但实际用起来意味着:

你终于可以像管理一个实习生一样管理 AI 了——先看计划,觉得不对就喊停。

另外就是 Tool Search。GPT-5.4 可以在一大堆工具/插件里自动找到最合适的来用,不需要你手动指定。这对做 Agent 开发的人来说是个大利好。

但是

翻了一圈社区讨论,画风其实挺分裂的。

不少人在讨论一个很有意思的现象:OpenAI 官网底部有个「Ask ChatGPT」按钮,你点进去让它总结这篇博文——结果它告诉你「我没法访问外部链接,请把内容粘贴给我」。

也有人提到,最近切到 Claude 之后反而觉得体验更好。Claude 更简洁、不废话、先确认关键信息再给方案。

这说明什么?模型能力的领先已经不能自动转化为产品体验的领先了。GPT-5.4 的跑分确实好看,但用户在乎的是「用起来爽不爽」,不是「跑分高不高」。

定价和可用性

GPT-5.4 已经在 ChatGPT(作为 GPT-5.4 Thinking)、API 和 Codex 中可用。还有一个 GPT-5.4 Pro 版本,给需要极致性能的用户。

关于 token 效率,OpenAI 说 GPT-5.4 是他们「token 效率最高的推理模型」,解决同样问题用的 token 比 GPT-5.2 少很多。这直接意味着更便宜、更快。

我的看法

这次更新最重要的信号不是任何一个具体功能,而是方向的转变:从「看我多聪明」到「看我能帮你干多少活」。

AI 公司终于开始意识到,用户不需要一个会做奥数题的聊天机器人,需要的是一个能打开 Excel、改几个公式、然后把结果发给老板的数字员工。

至于它到底好不好用?等我实际测过再说。跑分这东西,看看就好。

准备好了吗?

免费注册,立即体验全部功能