AI 生成的代码可以直接合并吗？

不建议直接合并。AI 写的测试只能验证代码是否符合 AI 的理解，而不是你的真实需求。需要通过验收标准（Acceptance Criteria）来明确定义正确的行为，然后用自动化工具验证。

什么是验收标准驱动开发？

验收标准驱动开发（AC-driven development）是在让 AI 写代码之前，先用人话写下功能应该如何表现。比如登录成功跳转到 /dashboard、密码错误显示提示。然后让 AI 实现，用自动化工具（如 Playwright）验证这些标准是否满足。

验收标准和测试有什么区别？

验收标准是用人话描述的功能行为，由人类编写，代表真实需求。测试是代码实现，可能由 AI 生成。关键区别是：验收标准独立于实现，而 AI 写的测试和 AI 写的代码可能基于同一个（错误的）理解。

这种方法能抓到所有 bug 吗？

不能。它能有效抓到集成问题、渲染 bug、浏览器兼容性问题，但抓不到需求理解错误。如果你的验收标准本身就错了，验证也会通过。所以验收标准的质量很关键。

为什么不直接让 AI 写测试？

因为 AI 写的测试和 AI 写的代码来自同一个理解。这就像学生自己批改自己的作业，无法发现理解上的偏差。测试会通过，但可能从一开始就理解错了需求。需要独立的验证标准。

verify 工具是什么？

verify 是一个配合 Claude Code 使用的验证工具，通过 Playwright 自动化测试来验证验收标准。它会对每个标准截图验证，只让你审查失败的部分，而不是全部代码 diff。

TDD 和验收标准驱动有什么关系？

两者核心思想相同：先定义对是什么样子，再写代码。TDD 是先写测试代码，验收标准驱动是先写人话描述。在 AI 时代，验收标准驱动更实用，因为 AI 能快速写代码，但需要人类明确定义正确的行为。

每周合并 40-50 个 AI PR 现实吗？

已经有团队在这么做了，是传统人工 PR 数量的 4 倍。但前提是有完善的验证机制。没有自动化验证，人工审查根本跟不上这个速度，会成为瓶颈。

写验收标准会不会很慢？

初期会感觉慢，因为它逼着你在写代码前把边界情况想清楚。但长期来看更快：1) 减少返工；2) 自动化验证节省审查时间；3) 文档和测试一体化。就像当年的 TDD，感觉慢但实际更快。

前端和后端都能用这个方法吗？

都可以。前端用浏览器自动化（Playwright、Selenium）验证 UI 行为和交互。后端用 API 测试验证接口响应、数据处理、错误处理。核心都是：先写验收标准，再让 AI 实现，最后自动验证。

AI 写代码时，你睡得着吗？

凌晨三点，你的 AI Agent 还在跑。早上醒来，Git 里多了 5 个 PR，2000 行代码。

你敢合并吗？

这不是科幻。现在已经有团队每周合并 40-50 个 AI 生成的 PR，是以前的 4 倍。问题是：谁在看这些代码？

代码审查已经崩了

传统方案是"多招人审代码"。但你招不过来。而且让资深工程师整天读 AI 生成的代码，这是对人才的浪费。

有人说"让 AI 写测试"。听起来不错，但这是个陷阱：AI 写的测试只能证明代码做了 AI 以为你想要的事，而不是你真正想要的事。

这就像让学生自己批改自己的作业。测试会通过，但可能从一开始就理解错了需求。

TDD 的复仇

还记得 TDD（测试驱动开发）吗？先写测试，再写代码。

大部分团队不这么做，因为"太慢了"。但现在 AI 能秒写代码，速度不再是瓶颈。瓶颈变成了：你怎么知道代码是对的？

TDD 的核心不是测试，是在写代码之前，先想清楚"对"是什么样子。

现在你可以用更简单的方式：用人话写下功能应该怎么表现，让机器去验证。

比如登录功能：

CODE

- 用户输入正确的邮箱和密码，跳转到 /dashboard
- 密码错误时，显示"邮箱或密码错误"
- 5 次失败后，锁定 60 秒

这些你在打开编辑器之前就能写出来。然后让 AI 写代码，另一个系统去检查这些标准是否满足。

实际怎么做？

有人做了个工具叫 verify，配合 Claude Code 用。流程是这样的：

写验收标准（Acceptance Criteria）- 用人话描述功能应该怎么表现
AI 写代码 - 按照标准实现功能
自动验证 - 用 Playwright 跑浏览器测试，每个标准都截图验证
只看失败的 - 通过的不用管，只审查失败的部分

前端用浏览器自动化，后端用 API 测试。每个验收标准要么通过，要么失败，一目了然。

关键是：你审查的是失败项，而不是 2000 行 diff。

这不是银弹

说实话，这套方法有个明显的坑：如果你的需求本身就错了，验证也会通过。

它能抓到的是：集成问题、渲染 bug、浏览器兼容性问题。这些是代码审查经常漏掉的。

但它抓不到的是：你一开始就理解错了需求。这个还是得靠人。

为什么大家不这么做？

因为写验收标准比写 prompt 累。

它逼着你在写代码之前，把边界情况都想清楚。工程师抗拒它，就像当年抗拒 TDD 一样——感觉"慢"。

但如果你不写，你就只能盯着 AI 输出的代码，祈祷它是对的。

凌晨三点，AI 还在跑。你睡得着吗？

相关链接：