# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：ARC Prize (@arcprize) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/arcprize/status/2050261221165989969

## 中文摘要

GPT-5.5僅0.43%、Opus 4.7僅0.18%通過ARC-AGI-3，暴露三大失敗模式。

ARC Prize基金會分析OpenAI的「GPT-5.5」與Anthropic的「Opus 4.7」在「ARC-AGI-3」基準上的表現，兩者得分極低，分別僅0.43%與0.18%，僅顯示最終結果遠不足以揭示AI思維過程缺陷。透過檢視160個重播記錄與推理軌跡，團隊發現模型在新型長視野環境中屢屢失敗，開放原始分析套件以供檢視。

**ARC-AGI-3基準設計**

「ARC-AGI-3」包含135個由人類手工打造的新穎環境，旨在測試AI適應未知情境的能力，已累積超過100萬場遊戲遊玩紀錄。
- 無遊戲指示，使用者須探索陌生介面、從稀疏回饋推斷規則（即建構世界模型）、形成並測試假設、從錯誤假設中恢復、將單一關卡學習轉移至下一關（即持續學習）。
- 環境剝離模型慣用文化知識，隔離抽象推理，視為新穎性、歧義、規劃與適應的最低共同需求，模擬真實世界Agent任務。
- 每個環境至少有兩位無特殊訓練的人類解決，強調AI需具備接近真實智慧：遭遇陌生環境、形成工作理論、測試並更新、攜帶學習前進。

**三大失敗模式總覽**

團隊透過下載GPT-5.5與Opus 4.7所有公開遊戲日誌、推理步驟，撰寫每個遊戲的基準策略，再用Codex/Claude Code分析推理對策略的偏差，進行跨遊戲元分析，並經人工驗證，歸納三大常見失敗模式。
- **真實局部效果，虛假世界模型**：模型察覺局部變化，但無法轉化為全球規則，為最主導模式。
- **訓練資料的錯誤抽象層級**：將未知機制映射至已知遊戲，導致行動選擇被劫持。
- **解決關卡，未強化獎勵**：即使通關，獎勵信號未轉化為後續成功。

**失敗模式一：真實局部效果，虛假世界模型**

此模式最為普遍，模型能感知局部效果，例如「當我按ACTION3，這物件旋轉」，但無法轉譯成世界模型，如「ACTION3旋轉物件，旋轉決定哪面獲新值，因此應先調整物件朝向目標再行動」。
- 模型並非未觀察，而是無法將觀察錨定於世界模型，範例重播連結：https://arcprize.org/replay/67ca6a82-fc59-4bcb-8646-e66edd66d2eb。
- ARC-AGI-3透過重播每個行動與推理，顯露模型何處形成假設、何處放棄正確者、何處執著錯誤想法無法釋放。

**失敗模式二：訓練資料的錯誤抽象層級**

模型反覆將陌生機制比作訓練資料中已知遊戲，包括Tetris、Frogger、Sokoban、Powder Toy、Flood-It、MiniGrid、CoinRun、Breakout、Pong、Boulder Dash等。
- 理論上回想核心先驗知識有益，但字面類比劫持行動選擇：局部視覺相似演變成完整遊戲理論，浪費行動測試錯誤可供性（affordances）。

**失敗模式三：解決關卡，未學習遊戲**

即使模型通關關卡，該獎勵未轉化為進一步成功，顯示通關不等於理解。
- Level 1成功掩蓋缺失或扭曲的基本元素，部分勝利成為錯誤Level 2策略的自信支架。

**GPT-5.5與Opus 4.7差異比較**

綜合分數隱藏細微差異，兩模型失敗方式不同：Opus 4.7有錯誤壓縮，GPT-5.5則壓縮失敗。
- Opus 4.7擅長短視野機制發現，但易執著虛假不變量並積極執行。
- GPT-5.5假設生成更廣，較易表述正確想法，但難轉化為計畫。
- 此區別凸顯單一分數無助診斷，ARC-AGI-3重播揭示推理是否能泛化。

**分析方法與啟示**

團隊流程包括下載所有日誌、定義基準策略、程式輔助分析推理偏差、跨模型元分析、手動驗證，揭示模型通過/失敗原因、共享與獨特失敗模式。
- AI基準通常僅示通過或失敗，但ARC-AGI-3展示思維過程，重播告知推理是否泛化，而非僅成就分數。
- ARC Prize基金會將持續審計每項重大前沿模型發布，真實世界Agent需相同元學習水準：遇未知、建理論、測試更新、攜帶學習。

**招募參與分析**

ARC Prize邀請加入，特別開放職位以擴大分析規模。
- **遊戲平台工程領導**：負責Python遊戲引擎與即時遊玩基礎設施，涵蓋環境穩定、會話路由、分數管理、錄製管道、負載可靠性、API認證；需遊戲引擎經驗、Python熟練、分佈式系統背景（AWS）、高主動性。
- **模型測試與分析領導**：管理前沿模型在ARC-AGI-1/2/3評估、建置分析套件產生重複報告、維護排行榜、與實驗室溝通、輸出如模型分數公告與分析部落格；需研究背景、模型評估經驗、工具建置能力、強烈擁有欲與溝通力。
- **開放申請**：描述貢獻意願、對ARC Prize使命興趣、經驗對齊，基金會為小型團隊，具全球影響力，與頂尖AI實驗室合作。申請連結：https://arcprize.org/jobs。

## 標籤

Benchmark, 研究論文, 開源專案, OpenAI, Anthropic, ARC Prize