最強大的 AI 模型剛剛輸給了一個 4 層神經網路

@everyonebpup

♥335🔁 41

𝕏 (Twitter)🔥🔥2026年4月9日

查看原文 ↗

最強大的 AI 模型剛剛輸給了一個 4 層神經網路

在 ARC-AGI-3 發布的前兩天，Jensen Huang 對 Lex Fridman 說：「我認為我們已經實現了 AGI。」

這個時機點很不湊巧。或者，取決於你的觀點，這是一個完美的時機。

3 月 25 日，ARC Prize Foundation 在舊金山的 Y Combinator 發布了他們的新基準測試。François Chollet 與 Sam Altman 同台。結果當天就出爐了。

Gemini 3.1 Pro 得分 0.37%
GPT-5.4: 0.26%
Claude Opus 4.6: 0.25%
Grok-4.20: 0.00%
人類得分 100%

@d4m1n 的影片貼文在幾小時內瘋傳：「Jensen 說 AGI 已經在現場了……結果 ARC-AGI-3 一發布，SOTA 模型得分分別是 GPT-5.4: 0.26%、Gemini: 0.37%、Grok: 0%。AGI 確實在現場，兄弟，只是它找不到房間在哪。」

我一直有在關注 ARC 基準測試系列，我想談談主流報導一直忽略的那個數字。

這個數字是 12.58%

不是 Gemini 的分數，也不是 GPT 的。

12.58% 是 StochasticGoose 的得分。這是一個由 Tufa Labs 的 Dries Smit 所構建的四層卷積神經網路（CNN），使用了簡單的強化學習。裡面完全沒有使用任何語言模型。它以超過 30 倍的差距擊敗了地球上所有的前沿 AI。

OpenAI 和 Google 花費了數千億美元，訓練出基本上涵蓋整個網際網路的模型。而一個在幾週內構建、帶有結構化圖形搜尋的 CNN，卻擊敗了它們所有人。

Tufa Labs 團隊直言不諱地說明了他們為何避開 LLM：ARC-AGI-3 的環境會產生數百個互動步驟，潛在的 token 數量高達數百萬。LLM 在這種情況下會卡住，因此他們直接使用 CNN 幀，將狀態轉換儲存在雜湊表中以避免冗餘探索，並讓強化學習驅動學習過程。第三名也使用了非 LLM 的方法，即一種無需訓練、基於圖形的探索系統。

兩支獲勝團隊做了同樣的事情：他們探索動作空間，而不是試圖用語言來推理下一步該做什麼。

這個基準測試實際上在做什麼

ARC-AGI-3 將一個 Agent 丟進一個遊戲中。沒有指令、沒有既定規則，也沒有獲勝條件。Agent 會看到一個 64x64 的網格，採取一個動作，觀察發生了什麼變化，然後必須即時從零開始弄清楚它試圖做什麼以及該如何做。

人類覺得這些遊戲很直觀。ARC 團隊在舊金山測試了約 500 名隨機路人，支付了 115-140 美元的出席費。他們特別聘請了失業、就業不足的普通民眾，而不是史丹佛大學的研究生。十名測試者中有 5 名或以上在第一次接觸時就完全通關了大多數遊戲。

評分標準刻意非常嚴苛，公式為 (人類動作 / AI 動作)²。如果你花的時間是人類的兩倍，分數上限就是 25%。如果花的時間是 10 倍，分數就是 1%。這消除了暴力破解的可能性。以前的每一個基準測試都可以透過嘗試所有可能性來作弊。而這一個基準測試讓數學運算對你不利。

批評者有他們的道理。Chollet 也是。

@scaling01 的貼文瘋傳，列出了他所謂的基準測試「明顯缺陷」：基準是第二好的人類（而非平均值）、AI 不能使用超過人類步驟 5 倍的次數、模型接收的是 JSON 而人類看到的是渲染後的網格。

前 OpenAI 遊戲設計師 @FakePsyho 指出，一些戰爭迷霧（fog-of-war）關卡中的方向選擇純屬擲硬幣，這會導致效率得分下降，而這並非 Agent 的過錯。

Chollet 在 Hacker News 上親自回應。他說，基準是可以達到的。大多數 HN 上的使用者都能擊敗它。關於 JSON 與視覺輸入：如果一個模型需要像素才能理解「正方形」的概念，那麼它就還沒有抽象出正方形的概念。

雙方都有道理。評分是懲罰性的，而且是有意為之的懲罰。

但 Duke 的實驗讓事情變得有趣起來。一個自定義的 harness 在一個名為 TR87 的已知環境中，將 Claude Opus 的得分從 0.25% 提升到了 97.1%。然後他們測試了另一個環境，分數掉到了 0%。

這個 harness 解決了它為之構建的一個遊戲，但它並沒有泛化能力。

業界不願說出的真相

LLM 是為了在人類語言語境中預測下一個 token 而構建的。這就是數兆個參數和多年強化學習（RLHF）所優化的目標。它們在這方面非常出色。

ARC-AGI-3 移除了語言支架。沒有指令、沒有描述、沒有關於任務是什麼的先驗語境。當你這樣做時，GPT-5.4 得分 0.26%，而一個四層 CNN 得分 12.58%。

在 YC 的舞台上，Altman 主張 harness 和支架是智慧的一部分，認為設計更好的 Agent 迴圈是前進的方向。Chollet 則稱目前的 Agent 為「凍結大腦周圍脆弱的 harness」。至少目前為止，Duke 的資料支持 Chollet 的觀點多過於 Altman。

Agentica SDK 在公開演示集中達到了 36%，使用了繁重的多 Agent harness——用於探索、理論化、測試、解決問題的子 Agent，加上記憶體和程式碼工具。這些分數不會計入官方排行榜。但 36%（高度工程化）與 0.25%（原生 API）之間的差距告訴你，有多少工作量是來自 harness，又有多少來自模型本身。

為什麼這很重要，以及為什麼現在很重要

ARC-1 於 2019 年推出。神經模型得分接近 0%。到了 2025 年，它已經飽和，我們發現 Gemini 的思維鏈（chain-of-thought）追蹤使用了 ARC 特定的顏色映射，而這些映射模型從未被告知過。基準測試已經被吸收到訓練資料中了。

ARC-2 於 2025 年 3 月推出。一年內：得分 84%，同樣存在污染疑慮。

這兩個基準測試在主流報導注意到之前，都追蹤到了真正的突破。ARC-1 在任何人稱其為階梯式變革之前，就預告了 o3 的推理跳躍。ARC-2 則預告了基於支架的 Agent 的興起。

ARC-AGI-3 是一個重置。前沿模型起步低於 1%。一個 CNN 起步 12%，第一個達到 100% 的 Agent 將獲得 70 萬美元獎金。競賽於 2026 年 11 月結束。

分數會快速攀升。團隊已經在迭代中。問題不在於他們是否會攀升——他們肯定會。問題在於他們攀升是因為有人構建了一個真正具備適應性的推理 Agent，還是因為他們設計出了一台更好的 ARC-AGI-3 機器。這種區別正是重點所在。

我並不是說 AGI 還很遙遠，也不是說它近在咫尺。ARC-AGI-3 所顯示的是，使 GPT-5 和 Claude 變得有用的技能——語言流暢度、程式碼生成、跨領域綜合——在沒有指令的新穎環境中，無法轉化為目標發現能力。

這個差距很窄，它是真實存在的，而且現在可以測量了。

Jensen Huang 的時機點選得很差。但值得問的問題不是「AGI」這個標籤是否適合目前的模型。而是 AI 是否能在沒有人先寫好指令的情況下，自行弄清楚陌生的情況。

目前答案是 0.37%，而一個 12.58% 的 CNN 在這方面做得比有史以來最強大的語言模型還要好。

在 X 上閱讀原文 ↗Gemini 翻譯