AI技术|

Karpathy 放出了一个会自己做研究的 AI

Andrej Karpathy 又整了个新活——autoresearch 项目。你给它一张显卡,它自己训练模型、自己改代码、自己跑实验。你睡觉的时候,它在工作。一晚上能跑 100 次实验,第二天早上告诉你结果。

Andrej Karpathy 又整了个新活。

这次不是教程,不是论文,是一个叫 autoresearch 的项目——你给它一张显卡,它自己训练模型,自己改代码,自己跑实验,然后第二天早上告诉你结果。

你睡觉的时候,它在工作。

它是怎么运作的?

整个项目只有三个文件:

  • prepare.py — 固定不变,负责下载数据和准备环境
  • train.py — AI Agent 唯一能改的文件,包含模型、优化器、训练循环
  • program.md — 给 Agent 的指令,你可以编辑这个来「编程你的研究团队」

Agent 的工作流程很简单:

  1. 修改 train.py 里的某些东西(架构、超参数、优化器...)
  2. 训练 5 分钟
  3. 看结果有没有变好
  4. 好了就保留,差了就回滚
  5. 重复

一晚上能跑 100 次实验。你早上起来看日志,看它发现了什么。

为什么是 5 分钟?

固定时间预算是个聪明的设计。

不管 Agent 把模型改成什么样——变大、变小、换架构——训练时间都是 5 分钟。这样所有实验都能直接对比,不会因为「这个模型训练得久所以效果好」而产生误导。

另一个好处是,autoresearch 会自动找到「在你的硬件上 5 分钟内能跑出最好结果的模型」。不是理论最优,是实际最优。

这不就是 AutoML 吗?

不完全是。

AutoML 通常是在固定的搜索空间里调参数。autoresearch 是让 AI 直接改代码——它可以重写模型架构,可以换优化器,可以改训练循环的任何部分。

更重要的是,Karpathy 在 README 里写的那段话:

"你不是在编程 Python 文件,你是在编程 program.md 文件——你在编程你的研究组织。"

这是个元层面的东西。你不是在写代码,你是在写「如何让 AI 写代码」的规则。

会翻车吗?

当然会。

Agent 可能陷入局部最优,可能改出 bug,可能浪费一晚上在无意义的方向上。但这不就是人类研究生的日常吗?

区别在于,Agent 不会累,不会分心,不会因为实验失败了 20 次就开始怀疑人生。它就是机械地试,试到天亮。

这意味着什么?

Karpathy 在项目开头写了段反乌托邦式的玩笑:

"曾经,前沿 AI 研究是由肉体计算机完成的,他们需要吃饭、睡觉、开组会。那个时代已经过去了。现在研究完全由自主 AI Agent 集群完成...这个 repo 讲述了一切是如何开始的。"

玩笑归玩笑,但方向是对的。

不是说 AI 会取代研究员,而是研究员的工作会变成「设计能做研究的 AI」。你不再手动调参数,你设计调参数的规则。你不再写实验代码,你写生成实验代码的指令。

这是个递归的过程。最终,最好的研究员可能是那些最会「编程研究组织」的人。

autoresearch 现在还很简陋,只支持单卡,只能改一个文件,只跑 5 分钟。但这是个开始。

你可以想象,如果把时间拉长,把范围扩大,把 Agent 数量增加——会发生什么?

Karpathy 说代码库现在已经到了第 10205 代,没人能看懂了。

他在开玩笑。但也许不完全是。