最強大的 AI 模型剛剛輸給了一個 4 層神經網路
最強大的 AI 模型剛剛輸給了一個 4 層神經網路
在 ARC-AGI-3 發布的前兩天,Jensen Huang 對 Lex Fridman 說:「我認為我們已經實現了 AGI。」
這個時機點很不湊巧。或者,取決於你的觀點,這是一個完美的時機。
3 月 25 日,ARC Prize Foundation 在舊金山的 Y Combinator 發布了他們的新基準測試。François Chollet 與 Sam Altman 同台。結果當天就出爐了。
Gemini 3.1 Pro 得分 0.37%
GPT-5.4: 0.26%
Claude Opus 4.6: 0.25%
Grok-4.20: 0.00%
人類得分 100%
@d4m1n 的影片貼文在幾小時內瘋傳:「Jensen 說 AGI 已經在現場了……結果 ARC-AGI-3 一發布,SOTA 模型得分分別是 GPT-5.4: 0.26%、Gemini: 0.37%、Grok: 0%。AGI 確實在現場,兄弟,只是它找不到房間在哪。」
我一直有在關注 ARC 基準測試系列,我想談談主流報導一直忽略的那個數字。
這個數字是 12.58%
不是 Gemini 的分數,也不是 GPT 的。
12.58% 是 StochasticGoose 的得分。這是一個由 Tufa Labs 的 Dries Smit 所構建的四層卷積神經網路(CNN),使用了簡單的強化學習。裡面完全沒有使用任何語言模型。它以超過 30 倍的差距擊敗了地球上所有的前沿 AI。
OpenAI 和 Google 花費了數千億美元,訓練出基本上涵蓋整個網際網路的模型。而一個在幾週內構建、帶有結構化圖形搜尋的 CNN,卻擊敗了它們所有人。
Tufa Labs 團隊直言不諱地說明了他們為何避開 LLM:ARC-AGI-3 的環境會產生數百個互動步驟,潛在的 token 數量高達數百萬。LLM 在這種情況下會卡住,因此他們直接使用 CNN 幀,將狀態轉換儲存在雜湊表中以避免冗餘探索,並讓強化學習驅動學習過程。第三名也使用了非 LLM 的方法,即一種無需訓練、基於圖形的探索系統。
兩支獲勝團隊做了同樣的事情:他們探索動作空間,而不是試圖用語言來推理下一步該做什麼。

這個基準測試實際上在做什麼
ARC-AGI-3 將一個 Agent 丟進一個遊戲中。沒有指令、沒有既定規則,也沒有獲勝條件。Agent 會看到一個 64x64 的網格,採取一個動作,觀察發生了什麼變化,然後必須即時從零開始弄清楚它試圖做什麼以及該如何做。
人類覺得這些遊戲很直觀。ARC 團隊在舊金山測試了約 500 名隨機路人,支付了 115-140 美元的出席費。他們特別聘請了失業、就業不足的普通民眾,而不是史丹佛大學的研究生。十名測試者中有 5 名或以上在第一次接觸時就完全通關了大多數遊戲。
評分標準刻意非常嚴苛,公式為 (人類動作 / AI 動作)²。如果你花的時間是人類的兩倍,分數上限就是 25%。如果花的時間是 10 倍,分數就是 1%。這消除了暴力破解的可能性。以前的每一個基準測試都可以透過嘗試所有可能性來作弊。而這一個基準測試讓數學運算對你不利。

批評者有他們的道理。Chollet 也是。
@scaling01 的貼文瘋傳,列出了他所謂的基準測試「明顯缺陷」:基準是第二好的人類(而非平均值)、AI 不能使用超過人類步驟 5 倍的次數、模型接收的是 JSON 而人類看到的是渲染後的網格。
前 OpenAI 遊戲設計師 @FakePsyho 指出,一些戰爭迷霧(fog-of-war)關卡中的方向選擇純屬擲硬幣,這會導致效率得分下降,而這並非 Agent 的過錯。
Chollet 在 Hacker News 上親自回應。他說,基準是可以達到的。大多數 HN 上的使用者都能擊敗它。關於 JSON 與視覺輸入:如果一個模型需要像素才能理解「正方形」的概念,那麼它就還沒有抽象出正方形的概念。
雙方都有道理。評分是懲罰性的,而且是有意為之的懲罰。
但 Duke 的實驗讓事情變得有趣起來。一個自定義的 harness 在一個名為 TR87 的已知環境中,將 Claude Opus 的得分從 0.25% 提升到了 97.1%。然後他們測試了另一個環境,分數掉到了 0%。
這個 harness 解決了它為之構建的一個遊戲,但它並沒有泛化能力。
業界不願說出的真相
LLM 是為了在人類語言語境中預測下一個 token 而構建的。這就是數兆個參數和多年強化學習(RLHF)所優化的目標。它們在這方面非常出色。
ARC-AGI-3 移除了語言支架。沒有指令、沒有描述、沒有關於任務是什麼的先驗語境。當你這樣做時,GPT-5.4 得分 0.26%,而一個四層 CNN 得分 12.58%。
在 YC 的舞台上,Altman 主張 harness 和支架是智慧的一部分,認為設計更好的 Agent 迴圈是前進的方向。Chollet 則稱目前的 Agent 為「凍結大腦周圍脆弱的 harness」。至少目前為止,Duke 的資料支持 Chollet 的觀點多過於 Altman。
Agentica SDK 在公開演示集中達到了 36%,使用了繁重的多 Agent harness——用於探索、理論化、測試、解決問題的子 Agent,加上記憶體和程式碼工具。這些分數不會計入官方排行榜。但 36%(高度工程化)與 0.25%(原生 API)之間的差距告訴你,有多少工作量是來自 harness,又有多少來自模型本身。
為什麼這很重要,以及為什麼現在很重要
ARC-1 於 2019 年推出。神經模型得分接近 0%。到了 2025 年,它已經飽和,我們發現 Gemini 的思維鏈(chain-of-thought)追蹤使用了 ARC 特定的顏色映射,而這些映射模型從未被告知過。基準測試已經被吸收到訓練資料中了。
ARC-2 於 2025 年 3 月推出。一年內:得分 84%,同樣存在污染疑慮。
這兩個基準測試在主流報導注意到之前,都追蹤到了真正的突破。ARC-1 在任何人稱其為階梯式變革之前,就預告了 o3 的推理跳躍。ARC-2 則預告了基於支架的 Agent 的興起。
ARC-AGI-3 是一個重置。前沿模型起步低於 1%。一個 CNN 起步 12%,第一個達到 100% 的 Agent 將獲得 70 萬美元獎金。競賽於 2026 年 11 月結束。
分數會快速攀升。團隊已經在迭代中。問題不在於他們是否會攀升——他們肯定會。問題在於他們攀升是因為有人構建了一個真正具備適應性的推理 Agent,還是因為他們設計出了一台更好的 ARC-AGI-3 機器。這種區別正是重點所在。
我並不是說 AGI 還很遙遠,也不是說它近在咫尺。ARC-AGI-3 所顯示的是,使 GPT-5 和 Claude 變得有用的技能——語言流暢度、程式碼生成、跨領域綜合——在沒有指令的新穎環境中,無法轉化為目標發現能力。
這個差距很窄,它是真實存在的,而且現在可以測量了。
Jensen Huang 的時機點選得很差。但值得問的問題不是「AGI」這個標籤是否適合目前的模型。而是 AI 是否能在沒有人先寫好指令的情況下,自行弄清楚陌生的情況。
目前答案是 0.37%,而一個 12.58% 的 CNN 在這方面做得比有史以來最強大的語言模型還要好。

