Anthropic 的 RSP 政策是什么？

RSP（负责任扩展政策）是 Anthropic 2023 年发布的安全政策，核心承诺是除非能提前保证安全措施到位，否则不训练新模型。

Anthropic 为什么要修改 RSP？

主要原因是竞争压力、监管缺失、以及安全评估比预期更复杂。公司认为在竞争对手都在前进的情况下，单方面停止训练对任何人都没有帮助。

取消了「不能保证安全就不训练」的硬性承诺，改为更透明的风险报告、公开安全路线图、以及承诺至少跟竞争对手做得一样好。

这表明即使是最注重安全的 AI 公司也面临市场压力，AI 安全治理在缺乏强制监管的情况下难以有效执行。

Anthropic 一直是 AI 圈里「安全派」的代表。这家公司从成立之初就强调自己跟 OpenAI 不一样，会把安全放在第一位。他们 2023 年发布的 RSP（负责任扩展政策）里有一条核心承诺：除非能提前保证安全措施到位，否则绝不训练新模型。

但现在，这条承诺被删掉了。

根据 TIME 的独家报道，Anthropic 决定彻底改写他们的 RSP 政策。最核心的变化是：取消了「不能保证安全就不训练」的硬性承诺。

Anthropic 首席科学官 Jared Kaplan 在采访中说得很直白：

「我们觉得停止训练 AI 模型对任何人都没有帮助。在 AI 快速发展的情况下，如果竞争对手都在往前冲，我们单方面做出承诺没有意义。」

翻译一下：别人都在跑，我们不能站着不动。

Anthropic 给出了几个理由：

1. 监管没来

2023 年他们发布 RSP 的时候，期望这套政策能推动行业标准，甚至成为国家法规的蓝本。但三年过去了，美国联邦层面的 AI 法规遥遥无期，特朗普政府甚至在推动放松监管。国际治理框架？更是没影的事。

2. 竞争太激烈

这几年 AI 竞赛越来越疯狂。OpenAI、Google、Meta 都在拼命往前跑。Anthropic 如果真的因为「不能保证安全」就停下来，市场份额会被抢光，到时候连做安全研究的资格都没了。

3. 安全评估比想象中难

原来以为安全评估会有一条清晰的红线，比如「模型能做 X 就危险」。但实际操作下来发现，这条线根本不是非黑即白的，而是一个模糊的灰色地带。2025 年 Anthropic 发现他们的模型可能有生物恐怖主义风险，但又没有确凿证据，很难说服政府和竞争对手一起行动。

虽然删掉了核心承诺，Anthropic 说他们会用其他方式来保证安全：

注意最后一条的措辞：是「延迟」，不是「停止」。而且前提是「Anthropic 是领先者」——如果别人跑在前面，那就不用延迟了。

METR（一个专门评估 AI 风险的非营利组织）的政策主管 Chris Painter 说了一句很扎心的话：

「这说明 Anthropic 认为需要进入'分诊模式'，因为评估和缓解风险的方法跟不上能力发展的速度。这进一步证明，社会还没准备好应对 AI 可能带来的灾难性风险。」

他还担心一个「温水煮青蛙」的问题：以前有明确的红线，现在变成了模糊的灰色地带，危险可能慢慢累积，却没有一个明确的警报时刻。

说实话，我能理解 Anthropic 的处境。

他们面临一个经典的囚徒困境：如果所有公司都遵守安全承诺，大家都好；但如果只有你遵守，别人不遵守，你就出局了。在没有强制监管的情况下，「做好人」的成本太高了。

但这件事还是让人有点唏嘘。Anthropic 一直是 AI 安全领域的标杆，他们的 RSP 被很多人视为行业应该遵循的模板。现在连他们都妥协了，说明整个行业的安全治理确实出了问题。

当「最负责任的公司」都开始说「我们不能单方面承诺」的时候，谁来保证 AI 的安全发展？

这个问题，可能比任何一个模型的能力提升都更值得关注。