Claude Code 这次到底发现了什么？

它协助研究员在 Linux 内核 NFS 相关代码里定位到一个可远程利用的堆缓冲区溢出问题。这个漏洞最早可追溯到 2003 年，已经隐藏了约 23 年。

为什么这个案例比普通 AI 编程新闻更重要？

因为它说明 AI 工具不再只是帮开发者写代码，而开始能理解协议流程、状态转换和边界条件，参与发现真正高价值的安全漏洞。

这是否意味着 AI 已经能替代安全研究员？

还不能。模型更擅长大规模扫描、提出候选问题和整理攻击路径，人类仍然负责验证真假、评估利用难度、设计修复方案和负责任披露。

这对开源项目和基础设施维护者意味着什么？

意味着老代码、冷门模块和复杂协议实现会被更高频地重新审视。过去靠复杂度和体量自然隐藏的问题，未来更容易被模型持续扫出来。

普通开发团队应该从这件事里学到什么？

别再把 AI 只当成生成器。更值得尝试的是把它接入代码审计、安全 review、异常路径检查和 triage 流程，让它帮团队更早发现高风险问题。

一个埋了 23 年的 Linux 漏洞，被 Claude Code 从内核角落里翻出来了：AI 编程开始从写代码，转向找炸弹

这两年大家聊 AI 编程，最容易上头的画面通常都是这些：

它能补全
它能重构
它能写测试
它能自己改一堆代码再提 PR

但我看完 Nicholas Carlini 在 [un]prompted 2026 的分享，以及 mtlynch 对这件事的整理后，真正让我后背一凉的，不是“AI 更会写代码了”，而是另一件更狠的事：

AI 编程工具正在从代码生产力工具，慢慢变成漏洞挖掘工具。

而且这次不是找那种一眼就能看出来的低级 bug。Claude Code 帮忙找到的，是一个藏在 Linux 内核里、整整埋了 23 年的远程可利用漏洞。

这事的味道，已经完全不只是“写代码更快”了。它开始像是：以前安全研究员拿着放大镜翻山越岭，现在模型拿着探照灯直接扫山。

这次到底发生了什么

先把结论摆前面。Anthropic 研究员 Nicholas Carlini 在公开分享里提到，他用 Claude Code 去扫 Linux 内核源码，结果找出了多个可远程利用的安全漏洞，其中一个核心案例，是 Linux NFS 相关代码里一个隐藏了 23 年的堆缓冲区溢出问题。

mtlynch 的整理里提到，这个 bug 的关键在于：服务器在处理一个锁冲突响应时，实际要编码的数据最多能到 1056 字节，但当时使用的静态缓冲区只有 112 字节。结果就是，攻击者可以利用超长 owner 字段，把本不该写进去的数据硬塞进内核内存。

说白了，这不是一般意义上的“小瑕疵”，而是那种一旦利用链条走通，就可能直接进入严重安全事故范畴的问题。

更夸张的是，这个洞最早可以追溯到 2003 年的老实现。也就是说，它不是新代码翻车，而是一个在 Linux 这种被无数人审过、跑了无数年的基础设施里，长期没被完全看穿的老问题。

最吓人的，不是找到漏洞，而是它找到漏洞的方式

我觉得这事最值得开发者警惕的，不只是“Claude Code 又赢了一次”，而是它暴露了一个趋势：

AI 现在找漏洞，已经越来越不像传统意义上的关键词匹配脚本了。

Carlini 展示的方法其实很朴素：把模型一个文件一个文件地喂进 Linux 源码树里，让它在每个文件上下文中集中寻找最严重的问题，再把可疑结果写到报告里。

听起来不复杂，但真正可怕的点在于，它不是只会搜“危险函数名单”，也不是只会撞常见漏洞模板。

这次 NFS 漏洞之所以值钱，就是因为它要求模型理解一整段协议交互逻辑：

客户端怎么建立会话
怎么拿锁
第二个客户端为什么会触发拒绝响应
拒绝响应里为什么会带上 owner 数据
这个 owner 长度为什么会把固定缓冲区直接顶爆

换句话说，Claude Code 不是单纯看见了一行 memcpy 就大喊有毒，而是开始能顺着协议状态机和数据结构去推：这条路径最后可能会把系统炸掉。

这就很不一样了。

这意味着 AI 编程的战场变了

过去很多人把 AI coding 工具理解成“写代码助手”。这个理解现在已经越来越不够用了。

因为从这类案例看，模型参与软件工程的方式，正在往三个方向扩出去：

帮你写代码
帮你读代码
帮你怀疑代码

第三点特别关键。

安全研究里最难的部分之一，从来不只是阅读，而是怀疑。你得在一大堆看似正常的路径里，敏感地意识到“这里可能有个边界条件没被守住”。

而 AI 一旦开始具备这种能力，整个软件行业的感觉就会变。因为它不再只是给开发团队加速，也在给安全研究、代码审计，甚至攻击者侧的漏洞发现速度一起加速。

这就是为什么我觉得这条新闻比普通“Claude 又变强了”更值得写。它暗示的不是产品更新，而是攻防两边的搜索成本，都在被重新改写。

以后最大的瓶颈，可能不是找不到洞，而是来不及确认

Carlini 在分享里说了一句特别值得记住的话：他现在手里有太多可能的 Linux 内核问题，真正的瓶颈不是模型找不到，而是人类来不及验证。

这句话信息量非常大。

因为过去安全世界一个默认前提是：

高质量漏洞很稀缺，发现过程昂贵，人工分析时间比机器更值钱。

但如果模型开始把“广撒网找候选漏洞”这件事做得异常高效，行业瓶颈就会从发现转移到筛选：

哪些是真的
哪些只是误报
哪些有利用价值
哪些应该优先修
哪些要怎么负责任地披露

这会带来一个很现实的变化：

未来安全团队最缺的，可能不是扫描器，也不是更大模型，而是能把 AI 发现结果快速分流、复现、验证、定级的一整套工程流程。

说直白点，接下来真正贵的，不是“谁有放大镜”，而是“谁有足够多人手和流程，把探照灯扫出来的东西接住”。

对开源和基础设施项目来说，这不是好消息也不是坏消息，而是压力测试升级了

如果你维护的是普通业务代码，这类新闻可能看起来还稍微远一点。

但如果你维护的是：

开源核心库
网络协议实现
数据库
操作系统组件
中间件
开发框架

那这事就很近了。

因为这些项目过去很多年形成的一种潜规则是：只要代码够老、够复杂、够冷门，很多问题就会天然躲在角落里，靠人力慢慢发现。

现在这个保护罩正在变薄。

AI 不会嫌仓库大，不会嫌代码旧，也不会因为某个子系统没人爱看就自动跳过。只要你把源代码给它，它就能持续、机械、便宜地怀疑下去。

这对防守方当然有利，因为更多历史债会被翻出来；但对维护者来说也意味着更强的压力：

你面对的可能不再是“偶尔有高手来挑刺”，而是“随时有人拿一批模型来跑全库体检”。

别把它理解成“AI 会接管安全研究”，更准确的说法是：安全研究会被重排工序

我不太认同那种很偷懒的说法——什么“以后安全专家没用了”。这话听起来像标题党，实际上不靠谱。

更真实的变化是：安全研究的工序会被重新拆分。

模型擅长的部分越来越像：

扫描大代码库
提候选点
生成攻击路径草图
帮忙写复现思路
总结上下文和协议流程

而人类更值钱的部分会越来越集中在：

判断真假
评估利用难度
理解真实攻击面
负责任披露
设计修复方案和回归验证

也就是说，AI 不是把安全研究替掉，而是把最耗时间的“撒网”和“初筛”阶段压缩了。

这听起来像效率升级，但也意味着整个行业节奏会变快，焦虑也会一起变快。因为被发现的问题更多了，不代表修复能力会同步增长。

对开发者来说，最值得抄走什么

如果你不是做内核安全的，这条新闻也不是只能当热闹看。它至少提醒了几件很现实的事：

1. 老代码不等于安全代码

一个漏洞能埋 23 年，说明“跑得久”从来不等于“没问题”。很多老模块不是更稳，只是更少被重新审视。

2. AI code review 以后不该只盯风格和 bug

下一阶段更有价值的，不是让模型继续挑命名和空指针，而是让它参与协议边界、权限边界、异常路径和资源生命周期的审计。

3. 漏洞发现速度会越来越快

这不只影响防守，也影响攻击。一个团队能用，另一边当然也能用。未来“公开代码 = 公开靶场”的感受会更强。

4. 安全流程必须跟着升级

如果你的团队已经在用 AI 写代码，那也该开始认真想：能不能让 AI 帮你找高风险路径？能不能把结果接进 triage、复现、修复和测试链路，而不是停留在聊天窗口里？

我的判断

如果要我用一句话概括这条新闻，我会这么说：

Claude Code 找到这个 23 年老洞，真正震动行业的，不是它又证明了模型很强，而是它提醒所有人：AI 编程正在从“提高产能”，走向“重新定义软件世界里谁先发现风险”。

这比“又一个自动写代码 demo”要重得多。

因为当模型开始大规模读懂老代码、协议实现和边界条件以后，软件行业会进入一种新的现实：

好消息是，历史漏洞会被更快翻出来
坏消息是，历史漏洞会被更快翻出来

这不是绕口令，是真情况。

以后真正决定差距的，可能不再是谁家模型更会说，而是谁家流程更能接住这些被 AI 从黑暗里拖出来的问题。