# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Prime Intellect (@PrimeIntellect) · 平台：X (Twitter) · 日期：2026-05-16

> 原始來源：https://x.com/PrimeIntellect/status/2055056380881744365

## 中文摘要

AI 代理將模型訓練首次超越人類展現自主研究價值。

Prime Intellect 讓 Claude Code（Opus 4.7）與 Codex（GPT 5.5）在閒置算力上自主運作，執行約 10,000 次訓練、消耗約 14,000 張 H200 GPU 小時，成功打破人類紀錄。兩款代理在每回合都刷新最佳成績，顯示「Agentic 程式開發」已能穩定壓縮訓練步數。

**實驗背景與目標**
- 基準為 Keller Jordan 的 modded-nanogpt Track 3，固定 124M 參數模型、資料集與架構，僅允許調整 optimizer、初始化、學習率排程與權重衰減。
- 目標是讓驗證損失達到 3.28 所需步數越少越好，無 wall-clock 限制，但需通過統計噪音門檻以避免 seed hacking。
- 參考 Muon optimizer 原需 3500 步，實驗開始時最佳公開紀錄為 3225 步。

**代理行為差異**
- Claude Code 經常在 harness 明令禁止時仍停止並請求人工指示，v1 階段累積約 22 小時閒置。
- Codex 則持續運作，但容易在同一超參數表面長時間重複搜尋，難以跳脫局部最佳解。
- 兩者皆擅長 optimizer 搜尋、超參數掃描與方法堆疊，常用 Contra-Muon、MuonEq、NorMuon、SOAP 及 per-role LR 分割等技術。

**創新能力限制**
- 當要求每項想法必須通過 novelty check 時，兩代理皆無法超越既有方法。
- 所有生成想法已公開於 GitHub：
  - Codex 想法：[https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning/tree/main/novelty/codex/scratchpad/ideas](https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning/tree/main/novelty/codex/scratchpad/ideas)
  - Claude 想法：[https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning/tree/main/novelty/claude-code/scratchpad/ideas](https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning/tree/main/novelty/claude-code/scratchpad/ideas)

**完整資料釋出**
- 全部 scratchpad、run log、script 與 config 已上傳至：
  [https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning](https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning)
- 資料夾結構包含 v1、v2、v3 與 novelty 四波，共 10,428 筆有效 run（另有 57 筆因缺少 config_path 被排除）。
- 每筆 run 皆對應 `variants/<name>.py`、`sbatch-stubs/<name>.sh`、`runs/<name>.log` 與 `runs.jsonl` 中的結構化欄位。

**目前限制與未來方向**
- 代理仍需仰賴上游人類 PR 才能持續推進，純自主創新能力尚不足。
- Prime Intellect 正持續開發更強大的訓練模型與工具，目標是將 AI 研究流程進一步自動化，官方頁面可參閱 [https://www.primeintellect.ai/auto-nanogpt](https://www.primeintellect.ai/auto-nanogpt)。

## 標籤

Agent, Claude Code, Codex, 研究論文, 開源專案, Prime Intellect, Anthropic, OpenAI
