Andrej Karpathy 又整了个新活。
这次不是教程,不是论文,是一个叫 autoresearch 的项目——你给它一张显卡,它自己训练模型,自己改代码,自己跑实验,然后第二天早上告诉你结果。
你睡觉的时候,它在工作。
它是怎么运作的?
整个项目只有三个文件:
prepare.py— 固定不变,负责下载数据和准备环境train.py— AI Agent 唯一能改的文件,包含模型、优化器、训练循环program.md— 给 Agent 的指令,你可以编辑这个来「编程你的研究团队」
Agent 的工作流程很简单:
- 修改
train.py里的某些东西(架构、超参数、优化器...) - 训练 5 分钟
- 看结果有没有变好
- 好了就保留,差了就回滚
- 重复
一晚上能跑 100 次实验。你早上起来看日志,看它发现了什么。
为什么是 5 分钟?
固定时间预算是个聪明的设计。
不管 Agent 把模型改成什么样——变大、变小、换架构——训练时间都是 5 分钟。这样所有实验都能直接对比,不会因为「这个模型训练得久所以效果好」而产生误导。
另一个好处是,autoresearch 会自动找到「在你的硬件上 5 分钟内能跑出最好结果的模型」。不是理论最优,是实际最优。
这不就是 AutoML 吗?
不完全是。
AutoML 通常是在固定的搜索空间里调参数。autoresearch 是让 AI 直接改代码——它可以重写模型架构,可以换优化器,可以改训练循环的任何部分。
更重要的是,Karpathy 在 README 里写的那段话:
"你不是在编程 Python 文件,你是在编程 program.md 文件——你在编程你的研究组织。"
这是个元层面的东西。你不是在写代码,你是在写「如何让 AI 写代码」的规则。
会翻车吗?
当然会。
Agent 可能陷入局部最优,可能改出 bug,可能浪费一晚上在无意义的方向上。但这不就是人类研究生的日常吗?
区别在于,Agent 不会累,不会分心,不会因为实验失败了 20 次就开始怀疑人生。它就是机械地试,试到天亮。
这意味着什么?
Karpathy 在项目开头写了段反乌托邦式的玩笑:
"曾经,前沿 AI 研究是由肉体计算机完成的,他们需要吃饭、睡觉、开组会。那个时代已经过去了。现在研究完全由自主 AI Agent 集群完成...这个 repo 讲述了一切是如何开始的。"
玩笑归玩笑,但方向是对的。
不是说 AI 会取代研究员,而是研究员的工作会变成「设计能做研究的 AI」。你不再手动调参数,你设计调参数的规则。你不再写实验代码,你写生成实验代码的指令。
这是个递归的过程。最终,最好的研究员可能是那些最会「编程研究组织」的人。
autoresearch 现在还很简陋,只支持单卡,只能改一个文件,只跑 5 分钟。但这是个开始。
你可以想象,如果把时间拉长,把范围扩大,把 Agent 数量增加——会发生什么?
Karpathy 说代码库现在已经到了第 10205 代,没人能看懂了。
他在开玩笑。但也许不完全是。