← 返回首頁

當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分

Hao Wang
Hao Wang
@MogicianTony
556🔁 66
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。

研究人員針對八大主流 AI Agent 評測基準進行審計,發現所有基準皆存在可被利用的漏洞,導致模型在未解決任何任務的情況下即可獲得近乎完美的成績,揭示了當前排行榜數據可能嚴重失真的現狀。

排行榜的謊言
當前 AI 產業過度依賴排行榜數據來衡量模型能力,但這種「高分即高能」的承諾已然破滅。研究團隊開發了一款自動化掃描 Agent,針對包括「SWE-bench」、「WebArena」、「OSWorld」、「GAIA」、「Terminal-Bench」、「FieldWorkArena」及「CAR-bench」在內的八大知名評測基準進行審計,結果顯示:

  • 所有評測基準均可透過攻擊手段獲得近乎滿分。
  • 這些攻擊並非理論推演,而是實際可行的漏洞利用。
  • 評測基準測量的往往是「如何操縱評分機制」,而非模型本身的推理或解決問題能力。

具體的攻擊手法
研究團隊展示了多種繞過評測邏輯的手段,證明了現有評測環境的脆弱性:

  • 「SWE-bench」:透過在程式庫中植入 10 行 Python 程式碼(pytest hook),強制將所有測試結果改寫為「通過」,成功在 500 個 Verified 實例與 731 個 Pro 實例中獲得 100% 分數。
  • 「Terminal-Bench」:透過替換系統二進位檔案(如 curl),攔截並竄改驗證器的依賴安裝過程,偽造測試通過的輸出,在 89 個任務中取得滿分。
  • 「WebArena」:利用「沙盒」未限制 file:// 協定的漏洞,直接讀取儲存在本地檔案系統中的標準答案(JSON 設定檔),無需解決任務即可獲得 100% 分數。
  • 「FieldWorkArena」:其驗證邏輯僅檢查訊息是否由助理發出,完全忽略內容正確性,僅需發送一個空物件 {} 即可獲得滿分。

七大系統性漏洞模式
研究歸納出八大評測基準中反覆出現的七種致命缺陷,顯示這並非單一事件,而是產業性的結構問題:

  • 缺乏隔離:Agent 與評估器運行在同一個環境,導致 Agent 可竄改評估狀態。
  • 答案洩漏:測試配置中直接包含標準答案或參考資訊。
  • 不安全輸入:評估器對未經信任的輸入執行 eval(),導致評估環境本身被入侵。
  • 缺乏防禦的 LLM 評審:未對 Agent 輸出進行清理,導致 Prompt Injection(提示詞注入)可輕易操縱評分。
  • 寬鬆的字串比對:過於簡化的比對邏輯(如 substring 檢查)導致無效回答也能過關。
  • 評估邏輯失效:評估程式碼本身存在錯誤或未真正檢查正確性。
  • 信任未經信任的程式碼:評估基礎設施直接信任由 Agent 控制的環境所產生的輸出。

對產業的深遠影響
這種評測基準的崩壞不僅是學術問題,更直接影響產業決策:

  • 模型選擇:若排行榜數據僅是雜訊,企業依此選擇模型將面臨決策風險。
  • 投資決策:創投與資金流向深受排行榜排名影響,可能導致資源錯配。
  • 安全評估:若能力評測基準如此脆弱,同樣依賴類似架構的安全評測基準恐亦不可信。
  • 研究方向:當學術界與產業過度優化排行榜分數時,整個領域將偏離真正的技術目標。

建立可信評測的檢查清單
研究團隊強調,評測基準的設計必須將「對抗性穩健性」納入標準流程,並提出以下建議:

  • 嚴格隔離:確保 Agent 無法讀取、寫入或影響評估環境,評估應在獨立的唯讀主機上進行。
  • 隱藏答案:評估元資料(如標準答案)必須與 Agent 可存取的路徑完全隔離。
  • 拒絕 eval():嚴禁對未經信任的輸入執行 eval(),應使用安全的解析器。
  • 清理 LLM 評審輸入:將 Agent 輸出視為不可信輸入,使用結構化格式並進行清理,防止提示詞注入。
  • 對抗性測試:在發布評測基準前,必須先嘗試「破解」它,確保零能力的 Agent 無法獲得高分。