AI技术|

Mercury 2 来了:每秒 1000 token 的扩散式推理模型,这速度有点离谱

Inception Labs 发布 Mercury 2,基于扩散模型的推理 LLM,在 Blackwell GPU 上达到每秒 1009 tokens,比传统自回归模型快 5 倍以上。

最近刷 Hacker News 看到一个挺有意思的东西 —— Inception Labs 发布了 Mercury 2,号称是目前最快的推理大模型。

说实话,一开始我是有点怀疑的。毕竟 "最快" 这种词在 AI 圈已经被用烂了。但看完技术细节之后,我觉得这玩意儿确实有点东西。

为什么它能这么快?

传统的大模型(GPT、Claude 这些)都是自回归的,说白了就是一个字一个字往外蹦。你问它一个问题,它得从第一个 token 开始,一个接一个地生成,跟打字机似的。

Mercury 2 不一样,它用的是扩散模型(Diffusion)的思路。不是一个字一个字写,而是先搞出一个粗糙的草稿,然后并行地去修改优化。有点像你写文章,不是从第一个字写到最后一个字,而是先把大概意思写出来,然后整体润色。

这个思路带来的好处就是:并行生成,速度起飞

具体有多快?

官方数据是在 NVIDIA Blackwell GPU 上跑到了 1009 tokens/秒

这是什么概念?目前主流的模型,快的也就 100-200 tokens/秒。Mercury 2 直接快了 5 倍以上。

而且价格还挺便宜:

  • 输入:$0.25 / 百万 token
  • 输出:$0.75 / 百万 token

对比一下 GPT-4 的价格,这个确实有竞争力。

这速度能干啥?

说实话,对于普通的聊天场景,现在的模型速度已经够用了。但有几个场景,速度真的是刚需:

1. 代码补全

写代码的时候,IDE 里的自动补全如果有延迟,那体验简直灾难。你打了半行代码,等了两秒建议才出来,思路都断了。Mercury 2 这种毫秒级响应,才是真正能用的体验。

Zed 编辑器的联合创始人说了句挺到位的话:"建议来得足够快,感觉就像是你自己思维的一部分,而不是你需要等待的东西。"

2. Agent 工作流

现在做 AI Agent 的都知道,一个任务可能要调用几十次模型。每次调用省 100ms,整个流程下来就能省好几秒。这不是优化,这是质变。

3. 语音交互

语音助手对延迟最敏感。人说完话,AI 要是愣两秒才回应,那感觉就很假。Mercury 2 的速度可以让语音交互真正做到自然对话的节奏。

4. RAG 检索

做检索增强生成的都知道,多跳检索、重排序、摘要生成,这些步骤的延迟是叠加的。模型快一点,整个 pipeline 就能快很多。

我的看法

扩散模型用在语言生成上,这个方向其实之前就有人在探索,但一直没有特别成功的产品出来。Mercury 2 算是第一个真正把这条路走通的。

当然,速度快不代表一切。质量怎么样,还得看实际使用。官方说是 "able to compete with leading speed-optimized models",这个说法比较保守,没有直接说比 GPT-4 强。

但对于那些对延迟敏感的场景,Mercury 2 确实值得关注。毕竟有些时候,快就是正义。

另外一个有意思的点是,它兼容 OpenAI API。也就是说,你现在用 OpenAI SDK 的代码,换个 endpoint 就能直接用。这个迁移成本几乎为零。


想试试的可以去他们官网看看:inceptionlabs.ai

如果你在做对延迟敏感的 AI 应用,这个模型值得评估一下。

准备好了吗?

免费注册,立即体验全部功能