# Cognition 發布 FrontierCode 評測生產級程式碼品質

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Cognition (@cognition) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-06-09

> 原始來源：https://x.com/cognition/status/2064061031912288715

## 中文摘要

Cognition 發布 FrontierCode 評測生產級程式碼品質。

Cognition 團隊指出，現有的程式碼評測基準多僅關注「功能正確性」，導致模型常產出雖然能執行但結構混亂、難以維護的程式碼。FrontierCode 是首個專注於「可合併性」（mergeability）的評測工具，透過與 36 個頂尖開源專案的維護者合作，定義了真實生產環境下的程式碼標準。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972944940-paYAA7Iyojpgnameorig.jpg)
> 根據 Cognition 的評測數據，FrontierCode 展現出更簡潔的提示長度（僅任務描述時中位數為 982），但需要修改更具挑戰性的程式碼行數（中位數 308 行），且在程式語言分布上相較於 SWE-bench Pro 與 DeepSWE 更為多元均衡。

**核心評測標準**
FrontierCode 不僅測試程式碼是否能通過單元測試，更要求模型符合以下維護標準：
- 行為正確性：補丁是否確實解決問題。
- 回歸安全性：是否破壞既有程式庫功能。
- 機械整潔度：是否通過專案的建置、Lint 與風格檢查。
- 測試品質：模型自行撰寫的測試是否有效捕捉預期行為。
- 範疇控制：補丁是否僅更動必要範圍。
- 程式碼品質：是否符合專案慣例、遵循設計模式並具備可讀性。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972930900-K0asAA5hbjpgnameorig.jpg)
> 這是一份顯示程式碼重構任務完成進度的檢查清單，其中有兩項關於多行警告處理的項目尚未通過驗證。

**開發與品質控管**
為了確保評測的嚴謹度，Cognition 採取了高強度的開發流程：
- 專家參與：由 20 多位頂尖開源開發者耗時超過 40 小時打造每個任務，並親自定義其專案的「可合併」標準。
- 嚴格品管：建立包含對抗性測試、校準與多階段審查的品管管線，且每個任務均由 Cognition 研究人員手動審核。
- 錯誤率降低：透過上述機制，FrontierCode 的錯誤分類率較「SWE-Bench Pro」降低了 81%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972936559-H3aYAAH1Ojpgnameorig.jpg)
> FrontierCode 透過嚴格的品質控制，顯著降低了評估軌跡中的偽陽性（6.9%）與偽陰性（4.1%）比例，其分類錯誤率遠低於 SWE-Bench Pro 與 DeepSWE。

**評測結果與現狀**
FrontierCode 包含三個難度等級：Extended（150 個任務）、Main（100 個任務）與 Diamond（50 個最難任務）。目前的測試結果顯示，即使是頂尖模型在面對生產級程式碼需求時仍有巨大進步空間：
- 頂尖模型在 Diamond 難度集中的表現僅獲得 13.4/100 分。
- Claude Opus 4.8 在各級別中表現領先，但在 Diamond 級別仍未達飽和。
- 評測發現 GPT-5.5 雖然得分略低於 Claude Opus 4.8，但在 token 使用量上節省了高達 4 倍，展現了更佳的成本與智慧平衡。
- 開源模型與閉源模型之間仍存在顯著差距，目前表現最佳的開源模型 Kimi K2.6 在 Diamond 級別僅取得 3.8 分。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972955798-fbsAAuqJYpngnameorig.png)
> 在 FrontierCode 程式碼評測基準中，Claude Opus 4.8 在 Extended、Main 與 Diamond 三個子資料集任務中皆取得最高分（分別為 51.8%、34.3% 與 13.4%），顯著領先其他模型如 GPT-5.5 與 Claude Opus 4.7。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972921736-sagAAipOJjpgnameorig.jpg)
> 在 FrontierCode Diamond 基準測試中，Claude Opus 4.8 以 13.4% 的得分位居第一，顯著領先其他模型如 GPT-5.5（6.3%）與 Claude Opus 4.7（5.2%）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972932939-kbkAAnSV2pngnameorig.png)
> Celery 的執行長兼技術負責人 Tomer Nosrati 對 FrontierCode 在 AI 評估領域的專業能力給予高度評價。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972934785-SbIAI5Na4pngnameorig.png)
> Budibase 共同創辦人兼技術長 Martin McKeaveney 對 FrontierCode 基準測試的評價，強調其在評估大型語言模型真實智慧與創造力方面的深度與獨特性。

Cognition 表示，為了避免資料污染，目前暫不公開任務內容，但已開放模型開發者進行評測，詳細技術實作細節可參考 [Cognition 官方部落格](https://cognition.ai/blog/frontier-code) 。

## 媒體內容

**在 FrontierCode Diamond 基準測試中，Claude Opus 4.8 以 13.4% 的得分位居第一，顯著領先其他模型如 GPT-5.5（6.3%）與 Claude Opus 4.7（5.2%）。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Gemini 3.1 Flash Lite | 0.7% |
| Kimi K2.5 | 1.0% |
| MiniMax M2.5 | 1.1% |
| MiniMax M2.7 | 2.4% |
| SWE-1.6 | 2.5% |
| Claude Sonnet 4.6 | 3.5% |
| Kimi K2.6 | 3.8% |
| GPT-5.4-mini | 4.6% |
| Gemini 3.1 Pro | 4.7% |
| Claude Opus 4.7 | 5.2% |
| GPT-5.5 | 6.3% |
| Claude Opus 4.8 | 13.4% |

**FrontierCode 透過嚴格的品質控制，顯著降低了評估軌跡中的偽陽性（6.9%）與偽陰性（4.1%）比例，其分類錯誤率遠低於 SWE-Bench Pro 與 DeepSWE。**

**數據表**

|   | False Negative | False Positive |
| --- | --- | --- |
| SWE-Bench Pro (3 rollouts/task) | 6.8% | 36.0% |
| DeepSWE (5 rollouts/task) | 1.2% | 44.9% |
| FrontierCode (45 rollouts/task) | 4.1% | 6.9% |

**根據 Cognition 的評測數據，FrontierCode 展現出更簡潔的提示長度（僅任務描述時中位數為 982），但需要修改更具挑戰性的程式碼行數（中位數 308 行），且在程式語言分布上相較於 SWE-bench Pro 與 DeepSWE 更為多元均衡。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| 提示長度中位數（Prompt length (median)） |  |
| SWE-bench Pro | 3098 |
| DeepSWE | 1975 |
| FrontierCode (task description + codebase guidelines) | 2056 |
| FrontierCode (task description only) | 982 |
| 修改程式碼行數中位數（Golden-patch size — lines edited (median)） |  |
| SWE-bench Pro | 94 |
| DeepSWE | 642 |
| FrontierCode | 308 |
| 程式語言分布（Language Distribution） |  |
| FrontierCode Extended (150 tasks) | Python 13% · Go 10% · TypeScript 19% · JavaScript 15% · Java 13% · C/C++ 15% |
| DeepSWE (113 tasks) | Python 30% · Go 31% · TypeScript 31% |
| SWE-bench Pro (731 tasks) | Python 36% · Go 38% · TypeScript 19% |

**在 FrontierCode 程式碼評測基準中，Claude Opus 4.8 在 Extended、Main 與 Diamond 三個子資料集任務中皆取得最高分（分別為 51.8%、34.3% 與 13.4%），顯著領先其他模型如 GPT-5.5 與 Claude Opus 4.7。**

**數據表**

|   | Extended (150 tasks) | Main (100 tasks) | Diamond (50 tasks) |
| --- | --- | --- | --- |
| Gemini 3.1 Flash Lite | 14.6 | 4.8 | 0.7 |
| MiniMax M2.5 | 15.8 | 5.3 | 1.1 |
| SWE-1.6 | 18.4 | 5.5 | 2.5 |
| MiniMax M2.7 | 19.9 | 6.0 | 2.4 |
| Kimi K2.5 | 22.7 | 6.9 | 1.0 |
| Claude Sonnet 4.6 | 33.6 | 15.1 | 3.5 |
| Gemini 3.1 Pro | 34.2 | 16.7 | 4.7 |
| GPT-5.4-mini | 36.0 | 17.8 | 4.6 |
| Kimi K2.6 | 37.0 | 16.0 | 3.8 |
| Claude Opus 4.7 | 43.2 | 23.0 | 5.2 |
| GPT-5.5 | 44.8 | 25.5 | 6.3 |
| Claude Opus 4.8 | 51.8 | 34.3 | 13.4 |

## 標籤

Benchmark, 新產品, 開源專案, Cognition, FrontierCode