Anthropic 一直是 AI 圈里「安全派」的代表。这家公司从成立之初就强调自己跟 OpenAI 不一样,会把安全放在第一位。他们 2023 年发布的 RSP(负责任扩展政策)里有一条核心承诺:除非能提前保证安全措施到位,否则绝不训练新模型。
但现在,这条承诺被删掉了。
发生了什么?
根据 TIME 的独家报道,Anthropic 决定彻底改写他们的 RSP 政策。最核心的变化是:取消了「不能保证安全就不训练」的硬性承诺。
Anthropic 首席科学官 Jared Kaplan 在采访中说得很直白:
「我们觉得停止训练 AI 模型对任何人都没有帮助。在 AI 快速发展的情况下,如果竞争对手都在往前冲,我们单方面做出承诺没有意义。」
翻译一下:别人都在跑,我们不能站着不动。
为什么要改?
Anthropic 给出了几个理由:
1. 监管没来
2023 年他们发布 RSP 的时候,期望这套政策能推动行业标准,甚至成为国家法规的蓝本。但三年过去了,美国联邦层面的 AI 法规遥遥无期,特朗普政府甚至在推动放松监管。国际治理框架?更是没影的事。
2. 竞争太激烈
这几年 AI 竞赛越来越疯狂。OpenAI、Google、Meta 都在拼命往前跑。Anthropic 如果真的因为「不能保证安全」就停下来,市场份额会被抢光,到时候连做安全研究的资格都没了。
3. 安全评估比想象中难
原来以为安全评估会有一条清晰的红线,比如「模型能做 X 就危险」。但实际操作下来发现,这条线根本不是非黑即白的,而是一个模糊的灰色地带。2025 年 Anthropic 发现他们的模型可能有生物恐怖主义风险,但又没有确凿证据,很难说服政府和竞争对手一起行动。
新政策有什么?
虽然删掉了核心承诺,Anthropic 说他们会用其他方式来保证安全:
- 更透明的风险报告(每 3-6 个月发布一次)
- 公开的安全路线图
- 承诺「至少跟竞争对手做得一样好」
- 如果 Anthropic 是行业领先者且风险很高,会「延迟」开发
注意最后一条的措辞:是「延迟」,不是「停止」。而且前提是「Anthropic 是领先者」——如果别人跑在前面,那就不用延迟了。
外界怎么看?
METR(一个专门评估 AI 风险的非营利组织)的政策主管 Chris Painter 说了一句很扎心的话:
「这说明 Anthropic 认为需要进入'分诊模式',因为评估和缓解风险的方法跟不上能力发展的速度。这进一步证明,社会还没准备好应对 AI 可能带来的灾难性风险。」
他还担心一个「温水煮青蛙」的问题:以前有明确的红线,现在变成了模糊的灰色地带,危险可能慢慢累积,却没有一个明确的警报时刻。
我的看法
说实话,我能理解 Anthropic 的处境。
他们面临一个经典的囚徒困境:如果所有公司都遵守安全承诺,大家都好;但如果只有你遵守,别人不遵守,你就出局了。在没有强制监管的情况下,「做好人」的成本太高了。
但这件事还是让人有点唏嘘。Anthropic 一直是 AI 安全领域的标杆,他们的 RSP 被很多人视为行业应该遵循的模板。现在连他们都妥协了,说明整个行业的安全治理确实出了问题。
当「最负责任的公司」都开始说「我们不能单方面承诺」的时候,谁来保证 AI 的安全发展?
这个问题,可能比任何一个模型的能力提升都更值得关注。