最近刷 Hacker News 看到一个挺有意思的东西 —— Inception Labs 发布了 Mercury 2,号称是目前最快的推理大模型。
说实话,一开始我是有点怀疑的。毕竟 "最快" 这种词在 AI 圈已经被用烂了。但看完技术细节之后,我觉得这玩意儿确实有点东西。
为什么它能这么快?
传统的大模型(GPT、Claude 这些)都是自回归的,说白了就是一个字一个字往外蹦。你问它一个问题,它得从第一个 token 开始,一个接一个地生成,跟打字机似的。
Mercury 2 不一样,它用的是扩散模型(Diffusion)的思路。不是一个字一个字写,而是先搞出一个粗糙的草稿,然后并行地去修改优化。有点像你写文章,不是从第一个字写到最后一个字,而是先把大概意思写出来,然后整体润色。
这个思路带来的好处就是:并行生成,速度起飞。
具体有多快?
官方数据是在 NVIDIA Blackwell GPU 上跑到了 1009 tokens/秒。
这是什么概念?目前主流的模型,快的也就 100-200 tokens/秒。Mercury 2 直接快了 5 倍以上。
而且价格还挺便宜:
- 输入:$0.25 / 百万 token
- 输出:$0.75 / 百万 token
对比一下 GPT-4 的价格,这个确实有竞争力。
这速度能干啥?
说实话,对于普通的聊天场景,现在的模型速度已经够用了。但有几个场景,速度真的是刚需:
1. 代码补全
写代码的时候,IDE 里的自动补全如果有延迟,那体验简直灾难。你打了半行代码,等了两秒建议才出来,思路都断了。Mercury 2 这种毫秒级响应,才是真正能用的体验。
Zed 编辑器的联合创始人说了句挺到位的话:"建议来得足够快,感觉就像是你自己思维的一部分,而不是你需要等待的东西。"
2. Agent 工作流
现在做 AI Agent 的都知道,一个任务可能要调用几十次模型。每次调用省 100ms,整个流程下来就能省好几秒。这不是优化,这是质变。
3. 语音交互
语音助手对延迟最敏感。人说完话,AI 要是愣两秒才回应,那感觉就很假。Mercury 2 的速度可以让语音交互真正做到自然对话的节奏。
4. RAG 检索
做检索增强生成的都知道,多跳检索、重排序、摘要生成,这些步骤的延迟是叠加的。模型快一点,整个 pipeline 就能快很多。
我的看法
扩散模型用在语言生成上,这个方向其实之前就有人在探索,但一直没有特别成功的产品出来。Mercury 2 算是第一个真正把这条路走通的。
当然,速度快不代表一切。质量怎么样,还得看实际使用。官方说是 "able to compete with leading speed-optimized models",这个说法比较保守,没有直接说比 GPT-4 强。
但对于那些对延迟敏感的场景,Mercury 2 确实值得关注。毕竟有些时候,快就是正义。
另外一个有意思的点是,它兼容 OpenAI API。也就是说,你现在用 OpenAI SDK 的代码,换个 endpoint 就能直接用。这个迁移成本几乎为零。
想试试的可以去他们官网看看:inceptionlabs.ai
如果你在做对延迟敏感的 AI 应用,这个模型值得评估一下。