一个埋了 23 年的 Linux 漏洞,被 Claude Code 从内核角落里翻出来了:AI 编程开始从写代码,转向找炸弹
这两年大家聊 AI 编程,最容易上头的画面通常都是这些:
- 它能补全
- 它能重构
- 它能写测试
- 它能自己改一堆代码再提 PR
但我看完 Nicholas Carlini 在 [un]prompted 2026 的分享,以及 mtlynch 对这件事的整理后,真正让我后背一凉的,不是“AI 更会写代码了”,而是另一件更狠的事:
AI 编程工具正在从代码生产力工具,慢慢变成漏洞挖掘工具。
而且这次不是找那种一眼就能看出来的低级 bug。Claude Code 帮忙找到的,是一个藏在 Linux 内核里、整整埋了 23 年的远程可利用漏洞。
这事的味道,已经完全不只是“写代码更快”了。它开始像是:以前安全研究员拿着放大镜翻山越岭,现在模型拿着探照灯直接扫山。
这次到底发生了什么
先把结论摆前面。Anthropic 研究员 Nicholas Carlini 在公开分享里提到,他用 Claude Code 去扫 Linux 内核源码,结果找出了多个可远程利用的安全漏洞,其中一个核心案例,是 Linux NFS 相关代码里一个隐藏了 23 年的堆缓冲区溢出问题。
mtlynch 的整理里提到,这个 bug 的关键在于:服务器在处理一个锁冲突响应时,实际要编码的数据最多能到 1056 字节,但当时使用的静态缓冲区只有 112 字节。结果就是,攻击者可以利用超长 owner 字段,把本不该写进去的数据硬塞进内核内存。
说白了,这不是一般意义上的“小瑕疵”,而是那种一旦利用链条走通,就可能直接进入严重安全事故范畴的问题。
更夸张的是,这个洞最早可以追溯到 2003 年的老实现。也就是说,它不是新代码翻车,而是一个在 Linux 这种被无数人审过、跑了无数年的基础设施里,长期没被完全看穿的老问题。
最吓人的,不是找到漏洞,而是它找到漏洞的方式
我觉得这事最值得开发者警惕的,不只是“Claude Code 又赢了一次”,而是它暴露了一个趋势:
AI 现在找漏洞,已经越来越不像传统意义上的关键词匹配脚本了。
Carlini 展示的方法其实很朴素:把模型一个文件一个文件地喂进 Linux 源码树里,让它在每个文件上下文中集中寻找最严重的问题,再把可疑结果写到报告里。
听起来不复杂,但真正可怕的点在于,它不是只会搜“危险函数名单”,也不是只会撞常见漏洞模板。
这次 NFS 漏洞之所以值钱,就是因为它要求模型理解一整段协议交互逻辑:
- 客户端怎么建立会话
- 怎么拿锁
- 第二个客户端为什么会触发拒绝响应
- 拒绝响应里为什么会带上 owner 数据
- 这个 owner 长度为什么会把固定缓冲区直接顶爆
换句话说,Claude Code 不是单纯看见了一行 memcpy 就大喊有毒,而是开始能顺着协议状态机和数据结构去推:这条路径最后可能会把系统炸掉。
这就很不一样了。
这意味着 AI 编程的战场变了
过去很多人把 AI coding 工具理解成“写代码助手”。这个理解现在已经越来越不够用了。
因为从这类案例看,模型参与软件工程的方式,正在往三个方向扩出去:
- 帮你写代码
- 帮你读代码
- 帮你怀疑代码
第三点特别关键。
安全研究里最难的部分之一,从来不只是阅读,而是怀疑。你得在一大堆看似正常的路径里,敏感地意识到“这里可能有个边界条件没被守住”。
而 AI 一旦开始具备这种能力,整个软件行业的感觉就会变。因为它不再只是给开发团队加速,也在给安全研究、代码审计,甚至攻击者侧的漏洞发现速度一起加速。
这就是为什么我觉得这条新闻比普通“Claude 又变强了”更值得写。它暗示的不是产品更新,而是攻防两边的搜索成本,都在被重新改写。
以后最大的瓶颈,可能不是找不到洞,而是来不及确认
Carlini 在分享里说了一句特别值得记住的话:他现在手里有太多可能的 Linux 内核问题,真正的瓶颈不是模型找不到,而是人类来不及验证。
这句话信息量非常大。
因为过去安全世界一个默认前提是:
高质量漏洞很稀缺,发现过程昂贵,人工分析时间比机器更值钱。
但如果模型开始把“广撒网找候选漏洞”这件事做得异常高效,行业瓶颈就会从发现转移到筛选:
- 哪些是真的
- 哪些只是误报
- 哪些有利用价值
- 哪些应该优先修
- 哪些要怎么负责任地披露
这会带来一个很现实的变化:
未来安全团队最缺的,可能不是扫描器,也不是更大模型,而是能把 AI 发现结果快速分流、复现、验证、定级的一整套工程流程。
说直白点,接下来真正贵的,不是“谁有放大镜”,而是“谁有足够多人手和流程,把探照灯扫出来的东西接住”。
对开源和基础设施项目来说,这不是好消息也不是坏消息,而是压力测试升级了
如果你维护的是普通业务代码,这类新闻可能看起来还稍微远一点。
但如果你维护的是:
- 开源核心库
- 网络协议实现
- 数据库
- 操作系统组件
- 中间件
- 开发框架
那这事就很近了。
因为这些项目过去很多年形成的一种潜规则是:只要代码够老、够复杂、够冷门,很多问题就会天然躲在角落里,靠人力慢慢发现。
现在这个保护罩正在变薄。
AI 不会嫌仓库大,不会嫌代码旧,也不会因为某个子系统没人爱看就自动跳过。只要你把源代码给它,它就能持续、机械、便宜地怀疑下去。
这对防守方当然有利,因为更多历史债会被翻出来;但对维护者来说也意味着更强的压力:
你面对的可能不再是“偶尔有高手来挑刺”,而是“随时有人拿一批模型来跑全库体检”。
别把它理解成“AI 会接管安全研究”,更准确的说法是:安全研究会被重排工序
我不太认同那种很偷懒的说法——什么“以后安全专家没用了”。这话听起来像标题党,实际上不靠谱。
更真实的变化是:安全研究的工序会被重新拆分。
模型擅长的部分越来越像:
- 扫描大代码库
- 提候选点
- 生成攻击路径草图
- 帮忙写复现思路
- 总结上下文和协议流程
而人类更值钱的部分会越来越集中在:
- 判断真假
- 评估利用难度
- 理解真实攻击面
- 负责任披露
- 设计修复方案和回归验证
也就是说,AI 不是把安全研究替掉,而是把最耗时间的“撒网”和“初筛”阶段压缩了。
这听起来像效率升级,但也意味着整个行业节奏会变快,焦虑也会一起变快。因为被发现的问题更多了,不代表修复能力会同步增长。
对开发者来说,最值得抄走什么
如果你不是做内核安全的,这条新闻也不是只能当热闹看。它至少提醒了几件很现实的事:
1. 老代码不等于安全代码
一个漏洞能埋 23 年,说明“跑得久”从来不等于“没问题”。很多老模块不是更稳,只是更少被重新审视。
2. AI code review 以后不该只盯风格和 bug
下一阶段更有价值的,不是让模型继续挑命名和空指针,而是让它参与协议边界、权限边界、异常路径和资源生命周期的审计。
3. 漏洞发现速度会越来越快
这不只影响防守,也影响攻击。一个团队能用,另一边当然也能用。未来“公开代码 = 公开靶场”的感受会更强。
4. 安全流程必须跟着升级
如果你的团队已经在用 AI 写代码,那也该开始认真想:能不能让 AI 帮你找高风险路径?能不能把结果接进 triage、复现、修复和测试链路,而不是停留在聊天窗口里?
我的判断
如果要我用一句话概括这条新闻,我会这么说:
Claude Code 找到这个 23 年老洞,真正震动行业的,不是它又证明了模型很强,而是它提醒所有人:AI 编程正在从“提高产能”,走向“重新定义软件世界里谁先发现风险”。
这比“又一个自动写代码 demo”要重得多。
因为当模型开始大规模读懂老代码、协议实现和边界条件以后,软件行业会进入一种新的现实:
- 好消息是,历史漏洞会被更快翻出来
- 坏消息是,历史漏洞会被更快翻出来
这不是绕口令,是真情况。
以后真正决定差距的,可能不再是谁家模型更会说,而是谁家流程更能接住这些被 AI 从黑暗里拖出来的问题。