OpenAI 昨天发了 GPT-5.4。
说实话,看完公告我第一反应是:这次他们终于不吹「智力」了,开始吹「干活」了。
不是更聪明,是更能干
GPT-5.4 的定位很明确——专业工作模型。不是让你写诗更好听,不是让你数学考更高分,而是:
- 做 Excel 表格
- 做 PPT
- 写文档
- 操作电脑完成工作流
没错,OpenAI 给 GPT-5.4 加了原生 Computer Use。就是那个 Anthropic 之前搞过的「AI 操作你的电脑」功能。而且这次不是实验性质,是直接集成在 API 和 Codex 里的。
支持 100 万 token 上下文。意味着这个模型可以接手一个很长的工作流,从头到尾执行,不会中途忘了自己在干嘛。
数据说话
几个关键跑分:
- GDPval(模拟 44 种职业的真实工作任务):83%,比 GPT-5.2 的 70.9% 提升了 12 个百分点
- SWE-Bench Pro:57.7%,小幅领先
- OSWorld(操作系统任务):75%,比 GPT-5.2 的 47.3% 暴涨
- 投行建模任务:87.3% vs GPT-5.2 的 68.4%
最后那个数字很有意思。投行初级分析师做的 Excel 建模,GPT-5.4 能拿到 87 分。这个分数放在真实面试里,已经足够拿到 offer 了。
真正的变化:从「聊天」到「工作」
GPT-5.4 有一个新功能让我眼前一亮:Thinking Plan。
在 ChatGPT 里用 GPT-5.4 Thinking 模式时,它会先给你一个工作计划,你可以在它执行过程中调整方向。不用等它写完一大段然后说「不是这样的,重来」。
这听起来是个小改进,但实际用起来意味着:
你终于可以像管理一个实习生一样管理 AI 了——先看计划,觉得不对就喊停。
另外就是 Tool Search。GPT-5.4 可以在一大堆工具/插件里自动找到最合适的来用,不需要你手动指定。这对做 Agent 开发的人来说是个大利好。
但是
翻了一圈社区讨论,画风其实挺分裂的。
不少人在讨论一个很有意思的现象:OpenAI 官网底部有个「Ask ChatGPT」按钮,你点进去让它总结这篇博文——结果它告诉你「我没法访问外部链接,请把内容粘贴给我」。
也有人提到,最近切到 Claude 之后反而觉得体验更好。Claude 更简洁、不废话、先确认关键信息再给方案。
这说明什么?模型能力的领先已经不能自动转化为产品体验的领先了。GPT-5.4 的跑分确实好看,但用户在乎的是「用起来爽不爽」,不是「跑分高不高」。
定价和可用性
GPT-5.4 已经在 ChatGPT(作为 GPT-5.4 Thinking)、API 和 Codex 中可用。还有一个 GPT-5.4 Pro 版本,给需要极致性能的用户。
关于 token 效率,OpenAI 说 GPT-5.4 是他们「token 效率最高的推理模型」,解决同样问题用的 token 比 GPT-5.2 少很多。这直接意味着更便宜、更快。
我的看法
这次更新最重要的信号不是任何一个具体功能,而是方向的转变:从「看我多聪明」到「看我能帮你干多少活」。
AI 公司终于开始意识到,用户不需要一个会做奥数题的聊天机器人,需要的是一个能打开 Excel、改几个公式、然后把结果发给老板的数字员工。
至于它到底好不好用?等我实际测过再说。跑分这东西,看看就好。