Karpathy 的 autoresearch：让 AI 自己做研究的实验

Andrej Karpathy 又整了个新活。

这次不是教程，不是论文，是一个叫 autoresearch 的项目——你给它一张显卡，它自己训练模型，自己改代码，自己跑实验，然后第二天早上告诉你结果。

你睡觉的时候，它在工作。

它是怎么运作的？

整个项目只有三个文件：

Agent 的工作流程很简单：

一晚上能跑 100 次实验。你早上起来看日志，看它发现了什么。

固定时间预算是个聪明的设计。

不管 Agent 把模型改成什么样——变大、变小、换架构——训练时间都是 5 分钟。这样所有实验都能直接对比，不会因为「这个模型训练得久所以效果好」而产生误导。

另一个好处是，autoresearch 会自动找到「在你的硬件上 5 分钟内能跑出最好结果的模型」。不是理论最优，是实际最优。

不完全是。

AutoML 通常是在固定的搜索空间里调参数。autoresearch 是让 AI 直接改代码——它可以重写模型架构，可以换优化器，可以改训练循环的任何部分。

更重要的是，Karpathy 在 README 里写的那段话：

"你不是在编程 Python 文件，你是在编程 program.md 文件——你在编程你的研究组织。"

这是个元层面的东西。你不是在写代码，你是在写「如何让 AI 写代码」的规则。

当然会。

Agent 可能陷入局部最优，可能改出 bug，可能浪费一晚上在无意义的方向上。但这不就是人类研究生的日常吗？

区别在于，Agent 不会累，不会分心，不会因为实验失败了 20 次就开始怀疑人生。它就是机械地试，试到天亮。

Karpathy 在项目开头写了段反乌托邦式的玩笑：

"曾经，前沿 AI 研究是由肉体计算机完成的，他们需要吃饭、睡觉、开组会。那个时代已经过去了。现在研究完全由自主 AI Agent 集群完成...这个 repo 讲述了一切是如何开始的。"

玩笑归玩笑，但方向是对的。

不是说 AI 会取代研究员，而是研究员的工作会变成「设计能做研究的 AI」。你不再手动调参数，你设计调参数的规则。你不再写实验代码，你写生成实验代码的指令。

这是个递归的过程。最终，最好的研究员可能是那些最会「编程研究组织」的人。

autoresearch 现在还很简陋，只支持单卡，只能改一个文件，只跑 5 分钟。但这是个开始。

你可以想象，如果把时间拉长，把范围扩大，把 Agent 数量增加——会发生什么？

Karpathy 说代码库现在已经到了第 10205 代，没人能看懂了。

他在开玩笑。但也许不完全是。