Vercel 这次把什么优化到了 1 秒内？

它把 Vercel Sandbox 的快照恢复时间从 p75 超过 40 秒压到了 1 秒内，重点优化的是下载、解压和缓存这整条恢复链路。

Vercel 是靠什么把恢复速度提上去的？

核心有三步：用 S3 Range 请求做并行下载、把解压流程改成多 goroutine 并行处理，以及在本地 NVMe 磁盘上缓存解压后的镜像文件，命中后直接跳过下载和解压。

为什么这不只是一次普通性能优化？

因为恢复速度一旦足够快，开发环境就更像可暂停、可恢复、可复用的工作单元，而不是每次中断后都要重新拉起的一次性环境。

这对 AI agent 和远程开发有什么影响？

agent、预览环境和本地/云端 handoff 都非常依赖环境状态连续性。恢复越快，任务接力越顺，开发者越不容易被冷启动和重建环境打断。

Vercel 这次优化后还剩哪些挑战？

后续仍要解决冷路径继续提速、缓存热点、调度公平性以及多环境并发下的状态隔离问题。亚秒恢复很关键，但还不是云端开发环境的终局。

Vercel 把沙箱恢复时间从 40 秒砍到 1 秒内：开发者真正该盯的，不只是快，而是‘环境终于能续上了’

现在大家聊 AI 编程、云端开发环境和 agent 工作流，最爱说的一句话往往是：

环境要随叫随到
任务要随时接力
上下文别丢
最好关掉再开还能原地继续

但现实里，很多所谓‘云端开发体验’卡住的地方，并不是什么高深模型能力，而是一个特别朴素、也特别烦人的问题：环境恢复太慢。

你刚把依赖装好、缓存暖好、项目跑起来，结果一暂停、一迁移、一换机器，整个上下文又像被打回新手村。

所以我看 Vercel 这篇 Optimizing Vercel Sandbox snapshots 时，第一反应不是‘哦，又一个性能优化案例’，而是：

云端开发这条路，终于有人开始认真修最影响手感的那块地板了。

这次到底优化了什么

Vercel 讲得很直接：他们之前给 Sandbox 做了文件系统快照功能，方便团队把整个沙箱状态保存下来，再在之后恢复。

问题是，功能先有了，体验却还不够丝滑。

当时的情况是：

p75 恢复时间超过 40 秒
p95 能到 50 秒
快照文件本身可能有几百 MB 到几 GB
下载和解压路径一开始非常串行

这意味着什么？

意味着它不是不能用，而是很难让人产生‘我可以把环境真当工作台来回切’的信心。

Vercel 这次做的优化，核心有三步：

1. 并行下载

过去是把整个 .vhs 快照文件从 S3 一把拉下来，等下载完，再进入下一步。

现在改成了用 Range 请求分块并行拉取，配合 AWS Go SDK 的传输管理能力，把下载速度拉快了 2 到 5 倍。

这个思路其实不神秘，但很典型：

很多系统慢，不是算法多玄学，而是流程里还躺着肉眼可见的串行段。

2. 并行解压

快照格式里本来就有按区域拆分的数据帧，所以他们把原本单线程的解压，改成一个 decoder 喂多个 goroutine 并行解压。

这一步又把恢复速度拉快了 2 到 4 倍。

3. 本地磁盘缓存

这一步我反而觉得最关键。

Vercel 发现自己在 metal 机器上本来就有几 TB 的 NVMe 本地盘，之前却几乎没用来做快照恢复加速。于是他们加了一层按空间大小驱动的 LRU 缓存，而且缓存的不是压缩后的 .vhs，而是已经解压好的 .img。

结果就是：

命中缓存时，连下载和解压都能直接跳过
大量团队反复复用同一个 base snapshot
缓存命中率直接干到了 95%

最后的结果很漂亮：

p75：40 秒以上 → 1 秒内
p95：50 秒 → 5 秒

这当然是性能优化。
但我觉得真正值得写的，不只是这个数字。

真正有含金量的地方，是‘开发环境开始像会续档了’

很多性能新闻都容易陷入一个问题：数据很猛，但离普通开发者很远。

这次不太一样。

因为 Sandbox 快照恢复快下来之后，改变的不是一条 benchmark 曲线，而是一个更接近工作流层面的体验：

环境可以更像游戏存档，而不是一次性消耗品。

以前很多云端开发环境的问题，不是你不能创建它，而是你不太愿意失去它。

为什么？因为重新拉起的代价太高：

依赖要重装
构建缓存要重热
项目状态要重新回忆
调试上下文要重新铺

这会让‘暂停一下’变得不那么像暂停，而更像一次软重装。

Vercel 这波优化真正让人眼前一亮的地方，是它在往另一种体验推：

我停下，不代表我丢掉现场；我回来，也不该重新搭片场。

这件事对接下来一堆东西都会有影响。

为什么这会影响 agent 和远程开发

如果你最近在盯 AI 编程工具，会越来越常见两种需求：

1. agent 跑长任务时，环境不能总是冷启动

agent 会装依赖、拉仓库、生成文件、跑测试、起服务。

这些事最烦的一点是，它们很多都不是纯 CPU 计算，而是高度依赖环境状态。如果每次切回去都得重新暖环境，那 agent 再聪明，也会在最土的地方浪费时间。

所以快照恢复一旦接近亚秒级，agent 的工作台就更像真的工作台，而不是临时工位。

2. 本地 / 云端 handoff 会更自然

现在很多工具都在讲本地和云端接力，但真正别扭的地方往往是：任务可以交过去，环境状态却续不上。

Vercel 这次其实在修这条链路里最不性感、却很关键的一段。

如果环境恢复足够快，handoff 才不只是‘任务转交’，而更像‘现场接班’。

这对预览环境、临时调试环境、CI 前置验证环境，甚至多人共享沙箱，都会慢慢有连锁反应。

这也提醒大家一个老道理：先把慢路径修好，再谈自动化理想

我越来越觉得，现在很多开发基础设施产品都会遇到同一个现实：

大家都想讲‘智能化’、‘agent 化’、‘自动化协作’，但如果底层那些最土的路径还很慢，最后体验依然会垮在机械环节上。

Vercel 这次的优化就很典型。它没有靠一个魔法模型解决问题，而是老老实实把三件工程活做扎实：

找出串行瓶颈
做并行化
用本地缓存把最常见路径直接变快

说白了，这不是‘讲故事型创新’，这是基础设施该有的职业素养。

而这类工作，往往最配得上长期价值。

但我也得泼点冷水：快，不等于一切都解决了

当然，亚秒恢复不代表云端开发环境已经天下太平。

后面依然有几道硬题：

冷路径还能不能继续压缩
热点快照会不会引发缓存倾斜和机器热点
不同团队、不同区域的调度策略怎么平衡命中率和资源公平
缓存命中之外，网络和镜像层还能不能继续提速
多 agent 并发访问同类环境时，状态隔离怎么做得更稳

Vercel 自己也提到了 cache affinity 的想法，但又担心热点机器和 thundering herd。这个判断我觉得挺成熟，说明他们知道‘更快’和‘更稳’不是同一道题。

所以更准确的说法不是：Vercel 一步把问题全解了。

而是：它把一个最烦人的短板，先砍掉了一大截。

对开发者来说，这条新闻最值得抄走什么

如果你不是 Vercel 用户，这条新闻也不是只能看个热闹。

它至少提醒了几件很现实的事：

1. 环境恢复速度，本身就是产品能力

别把它当成‘优化项’，它直接影响你敢不敢把环境当成可切换、可暂停、可复用的工作单元。

2. 并行化经常比“换更强机器”更值

下载、解压、传输这些链路里，只要还有明显串行段，先别急着加资源，先看看是不是架构顺序就不对。

3. 缓存最好加在最能跳步骤的位置

缓存压缩包不如缓存解压后的工作态，这个选择很关键。因为真正省下来的，不只是 I/O，而是整段恢复流程。

4. agent 体验，最终会越来越吃基础设施手感

模型能力继续进步当然重要，但如果环境起不来、续不上、切不顺，人类照样会被打回 babysitting。

我的判断

如果要我用一句话概括这次更新，我会这么说：

Vercel 这次最值得关注的，不是它把恢复时间做得多漂亮，而是它在告诉所有开发基础设施产品一件事——未来真正顺手的云端工作流，不该每次回来都像重新开机，而该像从上一秒继续。

这个变化看起来没那么热血。
没有‘一个 agent 自动写完整个应用’那种 demo 味。

但它很真。

因为真实开发里，最磨人、也最容易把好体验磨没的，往往不是大功能缺席，而是那些你每次都要重新等、重新拉、重新暖的断点。

Vercel 这次干的，恰恰就是把这个断点狠狠干薄了一层。

而在 2026 年，这种看起来不炫、但能让工作流明显变顺的基础设施改进，我会给很高分。