教程|

一个埋了 23 年的 Linux 漏洞,被 Claude Code 从内核角落里翻出来了:AI 编程开始从写代码,转向找炸弹

Claude Code 帮 Anthropic 研究员找出一个藏了 23 年的 Linux 内核漏洞,这件事真正可怕的,不是 AI 更会写代码了,而是 AI 编程工具已经开始从生产代码,转向批量挖掘高价值安全问题。

一个埋了 23 年的 Linux 漏洞,被 Claude Code 从内核角落里翻出来了:AI 编程开始从写代码,转向找炸弹

这两年大家聊 AI 编程,最容易上头的画面通常都是这些:

  • 它能补全
  • 它能重构
  • 它能写测试
  • 它能自己改一堆代码再提 PR

但我看完 Nicholas Carlini 在 [un]prompted 2026 的分享,以及 mtlynch 对这件事的整理后,真正让我后背一凉的,不是“AI 更会写代码了”,而是另一件更狠的事:

AI 编程工具正在从代码生产力工具,慢慢变成漏洞挖掘工具。

而且这次不是找那种一眼就能看出来的低级 bug。Claude Code 帮忙找到的,是一个藏在 Linux 内核里、整整埋了 23 年的远程可利用漏洞。

这事的味道,已经完全不只是“写代码更快”了。它开始像是:以前安全研究员拿着放大镜翻山越岭,现在模型拿着探照灯直接扫山。

这次到底发生了什么

先把结论摆前面。Anthropic 研究员 Nicholas Carlini 在公开分享里提到,他用 Claude Code 去扫 Linux 内核源码,结果找出了多个可远程利用的安全漏洞,其中一个核心案例,是 Linux NFS 相关代码里一个隐藏了 23 年的堆缓冲区溢出问题。

mtlynch 的整理里提到,这个 bug 的关键在于:服务器在处理一个锁冲突响应时,实际要编码的数据最多能到 1056 字节,但当时使用的静态缓冲区只有 112 字节。结果就是,攻击者可以利用超长 owner 字段,把本不该写进去的数据硬塞进内核内存。

说白了,这不是一般意义上的“小瑕疵”,而是那种一旦利用链条走通,就可能直接进入严重安全事故范畴的问题。

更夸张的是,这个洞最早可以追溯到 2003 年的老实现。也就是说,它不是新代码翻车,而是一个在 Linux 这种被无数人审过、跑了无数年的基础设施里,长期没被完全看穿的老问题。

最吓人的,不是找到漏洞,而是它找到漏洞的方式

我觉得这事最值得开发者警惕的,不只是“Claude Code 又赢了一次”,而是它暴露了一个趋势:

AI 现在找漏洞,已经越来越不像传统意义上的关键词匹配脚本了。

Carlini 展示的方法其实很朴素:把模型一个文件一个文件地喂进 Linux 源码树里,让它在每个文件上下文中集中寻找最严重的问题,再把可疑结果写到报告里。

听起来不复杂,但真正可怕的点在于,它不是只会搜“危险函数名单”,也不是只会撞常见漏洞模板。

这次 NFS 漏洞之所以值钱,就是因为它要求模型理解一整段协议交互逻辑:

  • 客户端怎么建立会话
  • 怎么拿锁
  • 第二个客户端为什么会触发拒绝响应
  • 拒绝响应里为什么会带上 owner 数据
  • 这个 owner 长度为什么会把固定缓冲区直接顶爆

换句话说,Claude Code 不是单纯看见了一行 memcpy 就大喊有毒,而是开始能顺着协议状态机和数据结构去推:这条路径最后可能会把系统炸掉。

这就很不一样了。

这意味着 AI 编程的战场变了

过去很多人把 AI coding 工具理解成“写代码助手”。这个理解现在已经越来越不够用了。

因为从这类案例看,模型参与软件工程的方式,正在往三个方向扩出去:

  • 帮你写代码
  • 帮你读代码
  • 帮你怀疑代码

第三点特别关键。

安全研究里最难的部分之一,从来不只是阅读,而是怀疑。你得在一大堆看似正常的路径里,敏感地意识到“这里可能有个边界条件没被守住”。

而 AI 一旦开始具备这种能力,整个软件行业的感觉就会变。因为它不再只是给开发团队加速,也在给安全研究、代码审计,甚至攻击者侧的漏洞发现速度一起加速。

这就是为什么我觉得这条新闻比普通“Claude 又变强了”更值得写。它暗示的不是产品更新,而是攻防两边的搜索成本,都在被重新改写。

以后最大的瓶颈,可能不是找不到洞,而是来不及确认

Carlini 在分享里说了一句特别值得记住的话:他现在手里有太多可能的 Linux 内核问题,真正的瓶颈不是模型找不到,而是人类来不及验证。

这句话信息量非常大。

因为过去安全世界一个默认前提是:

高质量漏洞很稀缺,发现过程昂贵,人工分析时间比机器更值钱。

但如果模型开始把“广撒网找候选漏洞”这件事做得异常高效,行业瓶颈就会从发现转移到筛选:

  • 哪些是真的
  • 哪些只是误报
  • 哪些有利用价值
  • 哪些应该优先修
  • 哪些要怎么负责任地披露

这会带来一个很现实的变化:

未来安全团队最缺的,可能不是扫描器,也不是更大模型,而是能把 AI 发现结果快速分流、复现、验证、定级的一整套工程流程。

说直白点,接下来真正贵的,不是“谁有放大镜”,而是“谁有足够多人手和流程,把探照灯扫出来的东西接住”。

对开源和基础设施项目来说,这不是好消息也不是坏消息,而是压力测试升级了

如果你维护的是普通业务代码,这类新闻可能看起来还稍微远一点。

但如果你维护的是:

  • 开源核心库
  • 网络协议实现
  • 数据库
  • 操作系统组件
  • 中间件
  • 开发框架

那这事就很近了。

因为这些项目过去很多年形成的一种潜规则是:只要代码够老、够复杂、够冷门,很多问题就会天然躲在角落里,靠人力慢慢发现。

现在这个保护罩正在变薄。

AI 不会嫌仓库大,不会嫌代码旧,也不会因为某个子系统没人爱看就自动跳过。只要你把源代码给它,它就能持续、机械、便宜地怀疑下去。

这对防守方当然有利,因为更多历史债会被翻出来;但对维护者来说也意味着更强的压力:

你面对的可能不再是“偶尔有高手来挑刺”,而是“随时有人拿一批模型来跑全库体检”。

别把它理解成“AI 会接管安全研究”,更准确的说法是:安全研究会被重排工序

我不太认同那种很偷懒的说法——什么“以后安全专家没用了”。这话听起来像标题党,实际上不靠谱。

更真实的变化是:安全研究的工序会被重新拆分。

模型擅长的部分越来越像:

  • 扫描大代码库
  • 提候选点
  • 生成攻击路径草图
  • 帮忙写复现思路
  • 总结上下文和协议流程

而人类更值钱的部分会越来越集中在:

  • 判断真假
  • 评估利用难度
  • 理解真实攻击面
  • 负责任披露
  • 设计修复方案和回归验证

也就是说,AI 不是把安全研究替掉,而是把最耗时间的“撒网”和“初筛”阶段压缩了。

这听起来像效率升级,但也意味着整个行业节奏会变快,焦虑也会一起变快。因为被发现的问题更多了,不代表修复能力会同步增长。

对开发者来说,最值得抄走什么

如果你不是做内核安全的,这条新闻也不是只能当热闹看。它至少提醒了几件很现实的事:

1. 老代码不等于安全代码

一个漏洞能埋 23 年,说明“跑得久”从来不等于“没问题”。很多老模块不是更稳,只是更少被重新审视。

2. AI code review 以后不该只盯风格和 bug

下一阶段更有价值的,不是让模型继续挑命名和空指针,而是让它参与协议边界、权限边界、异常路径和资源生命周期的审计。

3. 漏洞发现速度会越来越快

这不只影响防守,也影响攻击。一个团队能用,另一边当然也能用。未来“公开代码 = 公开靶场”的感受会更强。

4. 安全流程必须跟着升级

如果你的团队已经在用 AI 写代码,那也该开始认真想:能不能让 AI 帮你找高风险路径?能不能把结果接进 triage、复现、修复和测试链路,而不是停留在聊天窗口里?

我的判断

如果要我用一句话概括这条新闻,我会这么说:

Claude Code 找到这个 23 年老洞,真正震动行业的,不是它又证明了模型很强,而是它提醒所有人:AI 编程正在从“提高产能”,走向“重新定义软件世界里谁先发现风险”。

这比“又一个自动写代码 demo”要重得多。

因为当模型开始大规模读懂老代码、协议实现和边界条件以后,软件行业会进入一种新的现实:

  • 好消息是,历史漏洞会被更快翻出来
  • 坏消息是,历史漏洞会被更快翻出来

这不是绕口令,是真情况。

以后真正决定差距的,可能不再是谁家模型更会说,而是谁家流程更能接住这些被 AI 从黑暗里拖出来的问题。


延伸阅读

准备好了吗?

免费注册,立即体验全部功能