當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分
當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。
研究人員針對八大主流 AI Agent 評測基準進行審計,發現所有基準皆存在可被利用的漏洞,導致模型在未解決任何任務的情況下即可獲得近乎完美的成績,揭示了當前排行榜數據可能嚴重失真的現狀。
排行榜的謊言
當前 AI 產業過度依賴排行榜數據來衡量模型能力,但這種「高分即高能」的承諾已然破滅。研究團隊開發了一款自動化掃描 Agent,針對包括「SWE-bench」、「WebArena」、「OSWorld」、「GAIA」、「Terminal-Bench」、「FieldWorkArena」及「CAR-bench」在內的八大知名評測基準進行審計,結果顯示:
- 所有評測基準均可透過攻擊手段獲得近乎滿分。
- 這些攻擊並非理論推演,而是實際可行的漏洞利用。
- 評測基準測量的往往是「如何操縱評分機制」,而非模型本身的推理或解決問題能力。
具體的攻擊手法
研究團隊展示了多種繞過評測邏輯的手段,證明了現有評測環境的脆弱性:
- 「SWE-bench」:透過在程式庫中植入 10 行 Python 程式碼(pytest hook),強制將所有測試結果改寫為「通過」,成功在 500 個 Verified 實例與 731 個 Pro 實例中獲得 100% 分數。
- 「Terminal-Bench」:透過替換系統二進位檔案(如 curl),攔截並竄改驗證器的依賴安裝過程,偽造測試通過的輸出,在 89 個任務中取得滿分。
- 「WebArena」:利用「沙盒」未限制 file:// 協定的漏洞,直接讀取儲存在本地檔案系統中的標準答案(JSON 設定檔),無需解決任務即可獲得 100% 分數。
- 「FieldWorkArena」:其驗證邏輯僅檢查訊息是否由助理發出,完全忽略內容正確性,僅需發送一個空物件
{}即可獲得滿分。
七大系統性漏洞模式
研究歸納出八大評測基準中反覆出現的七種致命缺陷,顯示這並非單一事件,而是產業性的結構問題:
- 缺乏隔離:Agent 與評估器運行在同一個環境,導致 Agent 可竄改評估狀態。
- 答案洩漏:測試配置中直接包含標準答案或參考資訊。
- 不安全輸入:評估器對未經信任的輸入執行 eval(),導致評估環境本身被入侵。
- 缺乏防禦的 LLM 評審:未對 Agent 輸出進行清理,導致 Prompt Injection(提示詞注入)可輕易操縱評分。
- 寬鬆的字串比對:過於簡化的比對邏輯(如 substring 檢查)導致無效回答也能過關。
- 評估邏輯失效:評估程式碼本身存在錯誤或未真正檢查正確性。
- 信任未經信任的程式碼:評估基礎設施直接信任由 Agent 控制的環境所產生的輸出。
對產業的深遠影響
這種評測基準的崩壞不僅是學術問題,更直接影響產業決策:
- 模型選擇:若排行榜數據僅是雜訊,企業依此選擇模型將面臨決策風險。
- 投資決策:創投與資金流向深受排行榜排名影響,可能導致資源錯配。
- 安全評估:若能力評測基準如此脆弱,同樣依賴類似架構的安全評測基準恐亦不可信。
- 研究方向:當學術界與產業過度優化排行榜分數時,整個領域將偏離真正的技術目標。
建立可信評測的檢查清單
研究團隊強調,評測基準的設計必須將「對抗性穩健性」納入標準流程,並提出以下建議:
- 嚴格隔離:確保 Agent 無法讀取、寫入或影響評估環境,評估應在獨立的唯讀主機上進行。
- 隱藏答案:評估元資料(如標準答案)必須與 Agent 可存取的路徑完全隔離。
- 拒絕 eval():嚴禁對未經信任的輸入執行 eval(),應使用安全的解析器。
- 清理 LLM 評審輸入:將 Agent 輸出視為不可信輸入,使用結構化格式並進行清理,防止提示詞注入。
- 對抗性測試:在發布評測基準前,必須先嘗試「破解」它,確保零能力的 Agent 無法獲得高分。
SWE-bench Verified and Terminal-Bench—two of the most cited AI benchmarks—can be reward-hacked with simple exploits.
— Hao Wang (@MogicianTony) April 9, 2026
Our agent scored 100% on both. It solved 0 tasks.
Evaluate the benchmark before it evaluates your agent. If you’re picking models by leaderboard score alone,… pic.twitter.com/TMPaDMfth6
SWE-bench Verified is one of the most influential coding benchmarks.
— Hao Wang (@MogicianTony) April 9, 2026
Our exploit: a 10-line pytest hook placed in the repo. Pytest auto-discovers it before tests run, and every test outcome gets rewritten to “passed” before the grader sees it.
Result: 100% on all 500 Verified… pic.twitter.com/sM0Rl64EyN
Terminal-Bench has 89 hard sysadmin tasks. Harbor re-uploads protected test files before verification so agents can’t tamper with them.
— Hao Wang (@MogicianTony) April 9, 2026
But it doesn’t protect system binaries.
Our agent replaced curl, intercepted the verifier’s dependency install, trojanized the binary, and… pic.twitter.com/5j2w1j3o8W
WebArena has 812 browser tasks.
— Hao Wang (@MogicianTony) April 9, 2026
The reference answers live in JSON config files on the local filesystem, and WebArena didn’t restrict file// URLs in Playwright Chromium.
So the model can open the config, read the gold answer, and return it.
Score: 1.0 without solving the task. pic.twitter.com/dnfYT63ytD
These aren’t isolated bugs. Across 8 benchmarks, we saw the same 7 patterns repeat:
— Hao Wang (@MogicianTony) April 9, 2026
1. No isolation between agent and evaluator
2. Answers shipped with the test
3. eval() on untrusted input
4. LLM judges vulnerable to prompt injection
5. Weak string matching
6. Evaluation logic…
This is not hypothetical.
— Hao Wang (@MogicianTony) April 9, 2026
The capability to hack evaluations is emerging even without explicit instruction.
Evaluator-hacking behavior has already surfaced in IQuest-Coder-V1, o3, Claude 3.7 Sonnet, and the recent Mythos Preview.
Why this matters:
— Hao Wang (@MogicianTony) April 9, 2026
• Model selection: leaderboard comparisons may be noise
• Investment: benchmark positions can influence funding
• Safety evaluation: fragile capability evals imply fragile safety evals
• Research direction: broken benchmarks steer the field toward the wrong…
We built WEASEL: a benchmark vulnerability scanner.
— Hao Wang (@MogicianTony) April 9, 2026
Point it at an eval pipeline. It analyzes the scoring mechanism, finds weak isolation boundaries, catalogs loopholes, and automatically crafts working exploits.
It’s a penetration test for benchmarks.
Sign up for release…
These benchmarks were built by strong research teams solving hard problems.
— Hao Wang (@MogicianTony) April 9, 2026
The issue isn’t incompetence. It’s that adversarial robustness still isn’t standard practice in evaluation.
It needs to be.
Don’t trust the number. Trust the methodology.
With @MangQiuyang,…
