通义千问 Qwen3.5 发布了 122B 和 35B 两个"中型"模型,宣称在多项 benchmark 上达到了 Claude Sonnet 4.5 的水平。
这消息一出,整个开源社区都沸腾了——终于,本地跑的模型也能跟顶级闭源模型掰手腕了?
但 Hacker News 上的讨论画风完全不一样。
一位重度用户直接泼冷水:"我从 Qwen3-Coder-Next 到 Qwen3.5 都第一时间试了,impressive 是 impressive,但说达到 Sonnet 4.5 水平?你用复杂任务一试就知道。"
他观察到一个有意思的现象:这些模型被配置得特别"执着"。给它一个测试用例让它通过,它会反反复复地尝试各种方案。最终确实能"解决"问题,但解决的方式有点像坏掉的钟一天对两次——不是真正理解了问题,而是试得够多总能蒙对。
评论区立刻有人搬出了 Goodhart 定律:"当一个指标变成了目标,它就不再是一个好指标。"
这句话几乎是 AI benchmark 现状的完美注脚。
benchmark 游戏的潜规则
不只是开源模型在玩这个游戏。有人指出,闭源模型甚至可能玩得更狠——因为它们还能控制推理端的配置,这是开源模型做不到的。
问题出在哪?benchmark 是静态的。训练数据可以被优化。竞争压力和融资叙事都在逼着每家公司把 benchmark 数字做上去。
一位评论者分析得很到位:benchmark 测的基本都是有明确答案的封闭问题,而人类的真实任务是开放式的、messy 的、需要反复引导的。这两个场景之间的差距,就是"benchmark 跑分"和"实际好用"之间的鸿沟。
但也别一棍子打死
也有人站出来说,确实有开源模型在实际使用中表现很强。比如 StepFun-3.5-Flash(196B 参数 / 11B 活跃),在复杂 Rust 代码库上表现出色。还有 Kimi 2.5,便宜好用而且不拍马屁——"解决编程问题的时候不会先来一句这是个绝妙的想法!"
所以问题不是"开源模型行不行",而是"别拿 benchmark 当购物指南"。
真正该关注什么
如果你现在考虑本地部署开源模型,几个建议:
- 先想清楚用来干嘛。如果是代码补全、日常对话,很多开源模型已经够好了。如果是复杂推理、长链条任务,还是得实测。
- 量化会损失性能。122B 的模型要跑在消费级硬件上,必须量化。量化多少性能损失?官方 benchmark 不会告诉你。
- 试 vibe coding,别看跑分。找你实际会用的场景跑一遍,看输出质量和一致性。这比任何 benchmark 都靠谱。
- 关注 Kimi 2.5 和 StepFun。HN 社区给这两个的实际评价很高,值得试试。
Qwen3.5 是一个里程碑吗?某种程度上是的。122B 参数量的开源模型能跑在本地,而且确实比上一代强很多。但"本地 Sonnet 4.5"这个说法,更多是一种营销叙事。
真正让人兴奋的不是某个模型"追平"了谁,而是整个开源生态正在快速逼近"够用"的门槛。也许不久的将来,"本地还是云端"不再是一个关于性能的选择,而纯粹是一个关于隐私和成本的选择。
到那一天,benchmark 游戏也就该结束了。