# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Deedy (@deedydas) · 平台：X (Twitter) · 日期：2026-04-24

> 原始來源：https://x.com/deedydas/status/2047380540664492219

## 中文摘要

GPT-5.5在SWE-Bench Pro落後Opus 4.7，OpenAI棄用SWE-bench Verified。

Deedy批評GPT-5.5在程式碼生成基準SWE-Bench Pro表現不如Opus 4.7，OpenAI僅報內部基準而避談公開分數，凸顯其非程式碼領域最先進模型（SOTA），儘管整體仍優秀尤其在數學。

**Deedy的初始質疑**  
Deedy指出GPT-5.5在SWE-Bench Pro表現遜於Opus 4.7，完全未見公開SWE-Bench分數報告，僅以內部基準搪塞，此腳註明顯試圖掩蓋事實要點。他強調「GPT-5.5不是程式碼SOTA」，語帶諷刺，雖承認模型仍優秀，尤其擅長數學，並預告將分享更多測試發現。

**Tibo的反駁與OpenAI立場**  
Tibo回應Deedy，稱SWE-Bench不具代表真實情境價值，並連結OpenAI於2026年2月23日發表的文章《Why SWE-bench Verified no longer measures frontier coding capabilities》。OpenAI自2024年8月推出SWE-bench Verified後，它成為業界標準，用以追蹤自主軟體工程進展，並納入其「Preparedness Framework」。

**SWE-bench Verified的兩個致命缺陷**  
OpenAI分析顯示，SWE-bench Verified已不適合評估前沿模型的程式碼能力，進展停滯：過去6個月僅從74.9%微升至80.9%。  
- **測試拒絕正確解**：審核模型常失敗的27.6%子集，發現至少59.4%問題有缺陷測試案例，即使提交功能正確解也遭駁回，儘管初創時已盡力修正原SWE-bench問題。  
- **訓練洩漏解法**：前沿模型訓練常使用SWE-bench問題來源的開源程式庫，導致模型能重現人類原始修復（gold patch）或問題細節，形同考前洩題。測試顯示，所有前沿模型均見過部分問題與解法，且曝光越多成功的機率越高，此進展僅反映訓練暴露度，而非真實軟體開發能力提升。

**OpenAI的決策與建議**  
OpenAI因此停止報告SWE-bench Verified分數，並建議其他模型開發者跟進。他們正建置全新、無污染評估來追蹤程式碼能力，呼籲研究社群重視此領域。Deedy認同此觀點，但補充GPT-5.5在SWE-Bench Pro仍落後，僅與Kimi K2.6相當，強化其非SOTA的立場。

**爭議的核心反思**  
此討論凸顯基準測試的困境：SWE-bench Verified初提供強烈進展訊號，卻因資料集固有問題淪為訓練污染指標。OpenAI文章直指剩餘失敗不反映模型限制，而是資料屬性，間接承認業界過度依賴此指標的誤導。Deedy的批判語氣未被淡化，強調OpenAI試圖「埋藏要點」，而Tibo的連結雖辯護，Deedy仍堅持SWE-Bench Pro的客觀落後事實，整體反映AI程式碼評估正急需革新。

## 標籤

Benchmark, LLM, 產業趨勢, OpenAI, GPT, Anthropic