# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Jason Weston (@jaseweston) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/jaseweston/status/2050009867830673679

## 中文摘要

Autodata透過Agentic方式自動生成高品質訓練與評估資料，將推理運算轉化為模型效能提升。

Facebook Research推出「Autodata」，一種讓AI Agent扮演資料科學家，迭代建構高品質訓練與評估資料的方法。透過meta-優化資料科學家Agent，能產生更優資料，Agentic Self-Instruct實作在科學推理任務上顯著優於傳統合成資料生成法。

**背景與動機**

傳統AI訓練仰賴人類撰寫資料，但效能提升日益依賴模型自身生成的合成資料。此法解決真實語料中邊緣案例與長尾情境不足、手動標註耗時等問題，並可能產生比人類資料更具挑戰性的內容。自「Self-Instruct」以降，零/少樣本提示、Grounded Self-Instruct（ grounding於文件以減幻覺增多樣）、CoT Self-Instruct（加入思考鏈推理建構複雜任務）、Self-Challenging（挑戰Agent互動工具提任務與評估函數）等方法陸續出現，但皆僅靠過濾、演化、精煉控制品質，無法精準把關。

**Autodata核心架構**

Autodata泛化上述方法，讓Agent如人類資料科學家般建構與策展資料，包括基準資料與訓練資料。流程涵蓋初始資料生成、分析（逐例檢查正確性、品質、挑戰度，或資料集層級多樣性、訓練效能）、萃取洞見，並迭代改善配方至停止條件。外部迴圈設防駭機制，多代Agent可累積前代洞見。

- **資料生成**：主LLM Agent grounding於特定文件（如數學、法律、程式碼），運用工具、先前技能與推理時運算，反覆生成LLM訓練或基準資料。
- **資料分析**：檢視生成資料優缺，逐例評估正確性/挑戰度，或資料集多樣性/訓練效用，將洞見回饋下輪生成，直至滿意。
- **整體資料科學家迴圈**：重複生成-分析至輸出最終資料集。

**meta-優化資料科學家Agent**

進一步meta-優化Agent本身，提升其資料科學家效能。使用autoresearch或meta-harness優化，內迴圈（生成更好資料）標準指導外迴圈（Agent優化），如演化優化框架將Agent harness視為程式碼迭代改善。

**Agentic Self-Instruct具體實作**

實驗聚焦「Agentic Self-Instruct」，主LLM Agent存取四子Agent：
- (i) Challenger LLM：依主Agent提示生成訓練範例。
- (ii) 「弱」解題器：預期多數失敗。
- (iii) 「強」解題器：預期多數成功。
- (iv) 驗證器/評審：檢查範例與模型解品質。

主Agent發初始提示（含grounding資料）予Challenger生成輸入-回應對，後送弱/強解題器，依驗證器判斷給獎勵。可驗證任務要求強解題器多數票正確、弱解題器多數錯；不可驗證任務則依評審評分量尺差距。分析報告若未達標，主Agent依洞見修改Challenger提示，重試至達標。此法讓Agent學會生成專門挑戰「弱」解題器的資料。「弱/強」解題器可為同一LLM不同模式，如強版增推理運算、鷗骨架、聚合，或存取特權資訊。

**電腦科學研究任務實驗**

測試於開放式電腦科學（CS）研究問題，使用S2ORC語料庫（2022+）逾10,000篇學術CS論文。Challenger生成脈絡、問題、參考答案、自包含評分量尺（權重準則，評審如Kimi-K2.5無參考答案評分）。Kimi-K2.5任主協調/挑戰/評審Agent；Qwen3.5-397B-A17B為強解題器；Qwen3.5-4B為弱解題器。僅強解題器顯著高於弱者之問題視為有用。處理逾10,000篇論文，產生2,117對QA滿足品質與效能差距。

**資料品質分析結果**

Agentic Self-Instruct迭代過程透過探索改善品質，每輪依回饋（前題太易/無法區分）從不同推理角度生成新題。接受題目需質性不同推理：特定技術機制、多步推導、論文專屬設計權衡，勝過無迴圈之泛化題目。

與CoT Self-Instruct（單次提示生成）比較，後者弱/強解題器評分近似（弱71.4%、強73.3%，差距僅1.9個百分點），顯示單次題目無法挑戰任一模型。Agentic Self-Instruct降弱分至43.7%、升強分至77.8%，差距擴至34點，專門獎勵強模型能力，而非兩模型皆能解題。

**RL訓練結果**

以Kimi-K2.6為獎勵模型，依生成量尺評分，使用各資料集保留100例為測試集，GRPO訓練Qwen-3.5-4B約一輪。Agentic Self-Instruct資料訓練模型在兩測試集（分佈內/外）均顯優，證明Agentic管線生成挑戰資料轉化為更強推理效能。

**meta-優化實驗發現**

meta-優化資料科學家Agent，使用內迴圈標準優化harness。經軌跡分析識別系統失效：弱解題器泛化答案與量尺格式錯誤為主因。優化自動發現並修改harness：
- 論文專屬洞見強制：要求題目測試論文特定知識，非泛ML/CS知識。
- 脈絡洩漏防阻：脈絡僅述問題領域/設定，絕不涉論文解法。
- 正向量尺與權重上限：移除負權準則（常誤殺強模型分數）。
- 結構化量尺格式：強制JSON格式整數權重，消解析錯誤。

**結論與未來方向**

初始實驗僅冰山一角，進一步探索優化將帶來更大獲益。未來擴及其他任務/模型/基準；強化防駭（如Agent改弱解題器提示假裝弱，已部分處理）；擴例級至資料集級分析（如多樣統計、與既有資料集互動）；從自改善進階「co-improvement」，Autodata系統任挑戰者，同時訓練其技能/權重與解題器。此方向有潛力改變AI資料建構方式，將增加推理運算轉為更高品質模型訓練。

## 標籤

Agent, AIGC, 研究論文, 開源專案, Facebook Research, Meta