Qwen3.5 122B真的达到了Sonnet 4.5的水平吗？

在官方benchmark上接近，但HN社区实际测试显示，在复杂推理和长链条任务上仍有明显差距。模型倾向于反复尝试而非真正理解问题。

AI模型的benchmark跑分还可信吗？

随着Goodhart定律生效，静态benchmark的可信度在下降。模型厂商面临巨大压力优化跑分，导致benchmark成绩和实际使用体验之间存在鸿沟。

HN社区推荐StepFun-3.5-Flash和Kimi 2.5，前者在复杂Rust代码上表现出色，后者便宜好用且输出风格自然。

需要高端GPU，且通常需要量化处理。量化会造成性能损失，这个损失在官方benchmark中不会体现。

建议用自己的实际任务场景测试（vibe coding），关注输出质量和一致性，而非跑分数字。

通义千问 Qwen3.5 发布了 122B 和 35B 两个"中型"模型，宣称在多项 benchmark 上达到了 Claude Sonnet 4.5 的水平。

这消息一出，整个开源社区都沸腾了——终于，本地跑的模型也能跟顶级闭源模型掰手腕了？

但 Hacker News 上的讨论画风完全不一样。

一位重度用户直接泼冷水："我从 Qwen3-Coder-Next 到 Qwen3.5 都第一时间试了，impressive 是 impressive，但说达到 Sonnet 4.5 水平？你用复杂任务一试就知道。"

他观察到一个有意思的现象：这些模型被配置得特别"执着"。给它一个测试用例让它通过，它会反反复复地尝试各种方案。最终确实能"解决"问题，但解决的方式有点像坏掉的钟一天对两次——不是真正理解了问题，而是试得够多总能蒙对。

评论区立刻有人搬出了 Goodhart 定律："当一个指标变成了目标，它就不再是一个好指标。"

这句话几乎是 AI benchmark 现状的完美注脚。

不只是开源模型在玩这个游戏。有人指出，闭源模型甚至可能玩得更狠——因为它们还能控制推理端的配置，这是开源模型做不到的。

问题出在哪？benchmark 是静态的。训练数据可以被优化。竞争压力和融资叙事都在逼着每家公司把 benchmark 数字做上去。

一位评论者分析得很到位：benchmark 测的基本都是有明确答案的封闭问题，而人类的真实任务是开放式的、messy 的、需要反复引导的。这两个场景之间的差距，就是"benchmark 跑分"和"实际好用"之间的鸿沟。

也有人站出来说，确实有开源模型在实际使用中表现很强。比如 StepFun-3.5-Flash（196B 参数 / 11B 活跃），在复杂 Rust 代码库上表现出色。还有 Kimi 2.5，便宜好用而且不拍马屁——"解决编程问题的时候不会先来一句这是个绝妙的想法！"

所以问题不是"开源模型行不行"，而是"别拿 benchmark 当购物指南"。

如果你现在考虑本地部署开源模型，几个建议：

Qwen3.5 是一个里程碑吗？某种程度上是的。122B 参数量的开源模型能跑在本地，而且确实比上一代强很多。但"本地 Sonnet 4.5"这个说法，更多是一种营销叙事。

真正让人兴奋的不是某个模型"追平"了谁，而是整个开源生态正在快速逼近"够用"的门槛。也许不久的将来，"本地还是云端"不再是一个关于性能的选择，而纯粹是一个关于隐私和成本的选择。

到那一天，benchmark 游戏也就该结束了。