# 策展 · X (Twitter) 🔥

> 作者：Sakana AI (@SakanaAILabs) · 平台：X (Twitter) · 日期：2026-03-27

> 原始來源：https://x.com/SakanaAILabs/status/2036840833690071450

## 中文摘要

「The AI Scientist 實現人工智慧端到端自動化科學研究。」

Sakana AI 團隊發表於 Nature 的論文《Towards end-to-end automation of AI research》（2026 年 3 月 25 日，volume 651, pages 914–919），介紹 The AI Scientist 系統，首次讓 foundation models 獨立完成從研究構想到同行審查的完整科學流程，聚焦機器學習領域，並證明生成論文可通過頂級會議 workshop 第一輪審查。

**系統核心架構**

The AI Scientist 涵蓋科學全生命週期：idea generation、literature search、experiment planning/implementation、result analysis、manuscript writing 及 peer review，使用 foundation models 在複雜 Agentic 系統中運作。系統分兩種模式：
- **Focused mode**：使用人類提供的程式碼模板作為 scaffold，針對特定主題。
- **Template-free open-ended mode**：透過 Agentic search 廣泛探索，產生多樣想法並自動測試、報告與評估。

實驗階段採用 Agentic tree search，分四階段推進：
1. Initial investigation。
2. Hyperparameter tuning。
3. Research agenda execution。
4. Ablation studies。

每階段使用前一階段最佳 checkpoint 作為 seed，確保連續性。生成 manuscript 階段細分為：
- Phase 1：迭代產生高階研究方向與假設（含 title、reasoning、experimental plan），透過 [Semantic Scholar API](https://www.semanticscholar.org/product/api) 及 web access 過濾相似現有文獻。
- Phase 2：執行實驗並視覺化結果；Template-based 變體線性執行 plan，Template-free 變體自行生成初始程式碼並用 tree search 優化，記錄 experimental journal notes。
- Phase 3：填寫 blank LaTeX 會議模板，按 section 撰寫，使用 notes/plots；related work 經 20 輪 Semantic Scholar API 查詢，生成引用理由。
- Phase 4：Automated Reviewer 審查。

**Automated Reviewer 效能**

Automated Reviewer 基於 NeurIPS review guidelines，輸出 numerical scores（soundness、presentation、contribution、overall quality、reviewer confidence）、weaknesses/strengths 清單及 binary decision（accept/reject）。Pipeline 為 5 reviews ensemble + meta-review（模型作為 area chair）。

效能與人類相當：
- 對 ICLR OpenReview dataset（2017–2024），balanced decision accuracy 69%，F1 score 匹配 NeurIPS 2021 inter-human agreement。
- 2025 clean dataset 達 66%，數據污染影響最小，仍可比擬人類。

使用 Python 程式碼執行單篇審查：
```python
import openai
from ai_scientist.perform_review import load_paper, perform_review

client = openai.OpenAI()
model = "gpt-4o-2024-05-13"

# Load paper from PDF file (raw text)
paper_txt = load_paper("report.pdf")

# Get the review dictionary
review = perform_review(
    paper_txt,
    model,
    client,
    num_reflections=5,
    num_fs_examples=1,
    num_reviews_ensemble=5,
    temperature=0.1,
)

# Inspect review results
review["Overall"]    # Overall score (1-10)
review["Decision"]   # 'Accept' or 'Reject'
review["Weaknesses"] # List of weaknesses (strings)
```

批次分析 ICLR 基準：
```bash
cd review_iclr_bench
python iclr_analysis.py --num_reviews 500 --batch_size 100 --num_fs_examples 1 --num_reflections 5 --temperature 0.1 --num_reviews_ensemble 5
```

**關鍵發現與 Scaling Law**

論文品質隨 underlying foundation models 改善而明確提升，呈現 scaling law：模型發布日期越新，生成品質越高；近期模型平均產生接近機器學習會議 workshop 可接受邊緣品質論文。品質與每篇論文分配 compute 高度相關，model scale 與推理時投資皆關鍵，預示 compute 成本下降與模型能力上升將大幅強化系統。

AI scientist Turing test：提交 3 篇 template-free 生成稿件至 [ICLR 2025](https://iclr.cc/Conferences/2025) 的 I Can't Believe It's Not Better (ICBINB) workshop（接受率 70%），經 IRB 批准與主辦者配合。提示僅為 broad theme「調查 deep learning 限制」，人工過濾最有前景輸出（全流程無人類修改）。

結果：
- 1 篇平均分數 6.33（個別 6、7、6），高於平均接受門檻，報告 negative result（符 workshop 焦點），meta-review 前排 top 45%；主辦者稱若非預設因 AI 生成撤回，極可能接受。
- 其他 2 篇未達標準；內部人類審查確認 1 篇達 workshop bar，無一達主 ICLR（接受率 32%）更高標準。

這為全 AI 生成論文首次通過頂級會議 workshop peer-review 範例，但僅 1/3 成功率顯示尚未達頂級出版一致性。

**歷史反思與成就**

過去 AI 限於 narrow tasks（如 chemical structures、mathematical proofs、new materials、protein 3D shape、dataset analysis）；LLMs 時代擴展至 hypothesis generation、literature reviews、coding，但端到端自動化至今未實現。The AI Scientist 首度涵蓋機器學習科學全流程（實驗全在電腦上），生成稿件通過 ICLR workshop 第一輪審查（接受率 70%），超越平均人類接受門檻。

示例論文包括：
- [DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models](https://github.com/SakanaAI/AI-Scientist/blob/main/example_papers/adaptive_dual_scale_denoising.pdf)
- [Multi-scale Grid Noise Adaptation: Enhancing Diffusion Models For Low-dimensional Data](https://github.com/SakanaAI/AI-Scientist/blob/main/example_papers/grid_based_noise_adaptation.pdf)
- [GAN-Enhanced Diffusion: Boosting Sample Quality and Diversity](https://github.com/SakanaAI/AI-Scientist/blob/main/example_papers/gan_diffusion.pdf)
- [DualDiff: Enhancing Mode Capture in Low-dimensional Diffusion Models via Dual-expert Denoising](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/dual_expert_denoiser.pdf)
- [StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models](https://github.com/SakanaAI/AI-Scientist/blob/main/example_papers/multi_style_adapter.pdf)
- [Adaptive Learning Rates for Transformers via Q-Learning](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/rl_lr_adaptation.pdf)
- [Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/weight_initialization_grokking.pdf)
- [Grokking Accelerated: Layer-wise Learning Rates for Transformer Generalization](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/layerwise_lr_grokking.pdf)
- [Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/mdl_grokking_correlation.pdf)
- [Accelerating Mathematical Insight: Boosting Grokking Through Strategic Data Augmentation](https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/data_augmentation_grokking.pdf)

所有運行數據於 [Drive Folder](https://drive.google.com/drive/folders/1G7A0wTqfXVa-cpexjk0oaXakaSJwffEt?usp=sharing)，每個 base model 在每個 template 運行約 50 ideas；推薦閱讀 [Claude papers](https://drive.google.com/drive/folders/1Mmpz6M1FK4q8e-SewgZcUzdeD0Q2zC39?usp=sharing)。

**限制與失敗模式**

常見問題包括：
- Naive 或 underdeveloped ideas。
- 主 idea 實作錯誤、實驗實作錯誤。
- 缺乏 deep methodological rigour。
- 主文與 appendix 重複 figures。
- Hallucinations 如 inaccurate citations。

目前限 computational experiments，尚未達主會議標準或 workshop 一致性；AI 弱點如易被愚弄、過度自信錯誤雖有進展，但難根除。ML 中，一旦系統起步，即使有缺陷，透過 scale（compute 與資料）、更好模型及技巧，數年內將驚人超越人類；任務長度每 7 個月倍增，預期近期解決 implementation 與 debugging 瓶頸。

**安裝與執行指南**

**環境需求**：Linux + NVIDIA GPUs + CUDA + PyTorch（其他 GPU 依 [PyTorch guidelines](https://pytorch.org/get-started/locally/)）；CPU-only 不可行。

**V1 安裝**：
```bash
conda create -n ai_scientist python=3.11
conda activate ai_scientist
# Install pdflatex
sudo apt-get install texlive-full
# Install PyPI requirements
pip install -r requirements.txt
```

支援模型：
- OpenAI (GPT-4o 等)：`OPENAI_API_KEY`。
- Anthropic (Claude Sonnet 3.5)：`ANTHROPIC_API_KEY`；Bedrock 版：`pip install anthropic[bedrock]` + AWS 環境變數；Vertex AI：
  ```bash
  pip install google-cloud-aiplatform
  pip install anthropic[vertex]
  export CLOUD_ML_REGION="REGION"
  export ANTHROPIC_VERTEX_PROJECT_ID="PROJECT_ID"
  export VERTEXAI_LOCATION="REGION"
  export VERTEXAI_PROJECT="PROJECT_ID"
  ```
- DeepSeek：`DEEPSEEK_API_KEY`。
- OpenRouter：`OPENROUTER_API_KEY`。
- Gemini：`export GEMINI_API_KEY="YOUR GEMINI API KEY"`。
- Semantic Scholar：`S2_API_KEY`（選用）；OpenAlex 替代：`pip install pyalex; export OPENALEX_MAIL_ADDRESS="YOUR EMAIL ADDRESS"` + `--engine openalex`。

**NanoGPT Template**（transformer-based autoregressive next-token prediction）：
1. ```bash
   python data/enwik8/prepare.py
   python data/shakespeare_char/prepare.py
   python data/text8/prepare.py
   ```
2. ```bash
   cd templates/nanoGPT
   python experiment.py --out_dir run_0
   python plot.py
   ```

**2D Diffusion Template**：
1. ```bash
   git clone https://github.com/gregversteeg/NPEET.git
   cd NPEET
   pip install .
   pip install scikit-learn
   ```
2. ```bash
   cd templates/2d_diffusion
   python experiment.py --out_dir run_0
   python plot.py
   ```

**Grokking Template**：
1. `pip install einops`
2. ```bash
   cd templates/grokking
   python experiment.py --out_dir run_0
   python plot.py
   ```

**運行生成**：
```bash
conda activate ai_scientist
python launch_scientist.py --model "gpt-4o-2024-05-13" --experiment nanoGPT_lite --num-ideas 2
python launch_scientist.py --model "claude-3-5-sonnet-20241022" --experiment nanoGPT_lite --num-ideas 2
```
多 GPU 用 `--parallel`。

**V2 安裝**（AI Scientist-v2，使用 progressive Agentic tree search，移除模板依賴）：
```bash
conda create -n ai_scientist python=3.11
conda activate ai_scientist
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install anaconda::poppler
conda install conda-forge::chktex
pip install -r requirements.txt
```

產生 ideas（準備 `my_research_topic.md`，含 Title、Keywords、TL;DR、Abstract）：
```bash
python ai_scientist/perform_ideation_temp_free.py \
 --workshop-file "ai_scientist/ideas/my_research_topic.md" \
 --model gpt-4o-2024-05-13 \
 --max-num-generations 20 \
 --num-reflections 5
```
輸出 JSON 如 `ai_scientist/ideas/my_research_topic.json`。

主 pipeline（配置 `bfts_config.yaml`，num_workers=3、steps=21 等）：
```bash
python launch_scientist_bfts.py \
 --load_ideas "ai_scientist/ideas/my_research_topic.json" \
 --load_code \
 --add_dataset_ref \
 --model_writeup o1-preview-2024-09-12 \
 --model_citation gpt-4o-2024-11-20 \
 --model_review gpt-4o-2024-11-20 \
 --model_agg_plots o3-mini-2025-01-31 \
 --num_cite_rounds 20
```

**社群模板貢獻**：
- Infectious Disease Modeling (`seir`) - [PR #137](https://github.com/SakanaAI/AI-Scientist/pull/137)
- Image Classification with MobileNetV3 (`mobilenetV3`) - [PR #141](https://github.com/SakanaAI/AI-Scientist/pull/141)
- Sketch RNN (`sketch_rnn`) - [PR #143](https://github.com/SakanaAI/AI-Scientist/pull/143)
- AI in Quantum Chemistry (`MACE`) - [PR#157](https://github.com/SakanaAI/AI-Scientist/pull/157)
- Earthquake Prediction (`earthquake-prediction`) - [PR #167](https://github.com/SakanaAI/AI-Scientist/pull/167)
- Tensorial Radiance Fields (`tensorf`) - [PR #175](https://github.com/SakanaAI/AI-Scientist/pull/175)
- Large Language Model Steering / Probes (`probes`) - [PR #215](https://github.com/SakanaAI/AI-Scientist/pull/215)

Docker 容器化（`experimental/Dockerfile`）：
```bash
docker run -e OPENAI_API_KEY=$OPENAI_API_KEY -v `pwd`/templates:/app/AI-Scientist/templates <AI_SCIENTIST_IMAGE> \
 --model gpt-4o-2024-05-13 \
 --experiment 2d_diffusion \
 --num-ideas 2
```

**風險與倫理立場**

執行 LLM 生成程式碼有風險（如危險套件、web 存取、意外 processes），須 containerize（如 Docker）並限制 web。可能壓垮審查系統、增添科學文獻噪音，但若負責發展，可加速發現，標誌研究範式轉移。

作者（Chris Lu、Cong Lu、Robert Tjarko Lange、Yutaro Yamada、Shengran Hu、Jakob Foerster、David Ha、Jeff Clune）強調一旦起步，scale 將迅速超人類；主動撤回接受稿、IRB 批准、水印論文，薦社區規範 AI-generated research。授權為 The AI Scientist Source Code License（Responsible AI License 衍生），**強制揭露**：稿件須標示「This manuscript was autonomously generated using [The AI Scientist](https://github.com/SakanaAI/AI-Scientist)。」

**資源連結**
- [Nature 論文](https://www.nature.com/articles/s41586-026-10265-5)
- [完整 PDF](https://www.nature.com/articles/s41586-026-10265-5.pdf)
- [Sakana AI 部落格](https://sakana.ai/ai-scientist-nature)
- [GitHub V1](https://github.com/SakanaAI/AI-Scientist)
- [V2 論文](https://pub.sakana.ai/ai-scientist-v2/paper)
- [V2 部落格](https://sakana.ai/ai-scientist-first-publication/)
- [ICLR2025 Workshop Experiment](https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment)
- [arXiv V1](https://arxiv.org/abs/2408.06292)
- [arXiv V2](https://arxiv.org/abs/2504.08066)

## 標籤

AIGC, 研究論文, Agent, The AI Scientist
