Mercury 2 是什么？

Mercury 2 是 Inception Labs 发布的基于扩散模型的大语言模型，主打超快推理速度，在 NVIDIA Blackwell GPU 上可达每秒 1009 tokens。

Mercury 2 为什么这么快？

传统 LLM 是自回归生成，一个 token 一个 token 输出。Mercury 2 使用扩散模型，可以并行生成多个 token 然后迭代优化，所以速度快 5 倍以上。

输入 $0.25/百万 token，输出 $0.75/百万 token，相比 GPT-4 等模型有明显价格优势。

是的，Mercury 2 完全兼容 OpenAI API，现有使用 OpenAI SDK 的代码只需更换 endpoint 即可迁移。

最近刷 Hacker News 看到一个挺有意思的东西 —— Inception Labs 发布了 Mercury 2，号称是目前最快的推理大模型。

说实话，一开始我是有点怀疑的。毕竟 "最快" 这种词在 AI 圈已经被用烂了。但看完技术细节之后，我觉得这玩意儿确实有点东西。

传统的大模型（GPT、Claude 这些）都是自回归的，说白了就是一个字一个字往外蹦。你问它一个问题，它得从第一个 token 开始，一个接一个地生成，跟打字机似的。

Mercury 2 不一样，它用的是扩散模型（Diffusion）的思路。不是一个字一个字写，而是先搞出一个粗糙的草稿，然后并行地去修改优化。有点像你写文章，不是从第一个字写到最后一个字，而是先把大概意思写出来，然后整体润色。

这个思路带来的好处就是：并行生成，速度起飞。

官方数据是在 NVIDIA Blackwell GPU 上跑到了 1009 tokens/秒。

这是什么概念？目前主流的模型，快的也就 100-200 tokens/秒。Mercury 2 直接快了 5 倍以上。

而且价格还挺便宜：

对比一下 GPT-4 的价格，这个确实有竞争力。

说实话，对于普通的聊天场景，现在的模型速度已经够用了。但有几个场景，速度真的是刚需：

写代码的时候，IDE 里的自动补全如果有延迟，那体验简直灾难。你打了半行代码，等了两秒建议才出来，思路都断了。Mercury 2 这种毫秒级响应，才是真正能用的体验。

Zed 编辑器的联合创始人说了句挺到位的话："建议来得足够快，感觉就像是你自己思维的一部分，而不是你需要等待的东西。"

现在做 AI Agent 的都知道，一个任务可能要调用几十次模型。每次调用省 100ms，整个流程下来就能省好几秒。这不是优化，这是质变。

语音助手对延迟最敏感。人说完话，AI 要是愣两秒才回应，那感觉就很假。Mercury 2 的速度可以让语音交互真正做到自然对话的节奏。

做检索增强生成的都知道，多跳检索、重排序、摘要生成，这些步骤的延迟是叠加的。模型快一点，整个 pipeline 就能快很多。

扩散模型用在语言生成上，这个方向其实之前就有人在探索，但一直没有特别成功的产品出来。Mercury 2 算是第一个真正把这条路走通的。

当然，速度快不代表一切。质量怎么样，还得看实际使用。官方说是 "able to compete with leading speed-optimized models"，这个说法比较保守，没有直接说比 GPT-4 强。

但对于那些对延迟敏感的场景，Mercury 2 确实值得关注。毕竟有些时候，快就是正义。

另外一个有意思的点是，它兼容 OpenAI API。也就是说，你现在用 OpenAI SDK 的代码，换个 endpoint 就能直接用。这个迁移成本几乎为零。

想试试的可以去他们官网看看：inceptionlabs.ai

如果你在做对延迟敏感的 AI 应用，这个模型值得评估一下。