# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Cognition (@cognition) · 平台：X (Twitter) · 日期：2026-06-09

> 原始來源：https://x.com/cognition/status/2064061031912288715

## 中文摘要

Cognition 推出 FrontierCode 評測生產級程式碼。

這項評測的核心在於將標準從單純的「程式碼正確性」提升至「程式碼品質與可維護性」。Cognition 指出，現有的評測基準（如 SWE-Bench Pro）僅能驗證程式碼是否能執行，卻無法判斷其是否符合真實開發環境的維護標準，導致模型常產出功能正確但品質低劣、難以維護的程式碼。

**核心評測標準**
FrontierCode 是首個衡量「程式碼合併可能性（Mergeability）」的基準，由 36 個指標性開源專案的維護者參與設計，包括 @smilingnosrati（CeleryOrg）與 Martin McKeaveney（Budibase）等專家。每項任務均由維護者投入超過 40 小時進行設計與迭代，確保評測標準與真實專案的合併要求一致。評測維度包含：
- 行為正確性：補丁是否成功解決問題。
- 回歸安全性：是否破壞現有程式庫功能。
- 機械整潔度：是否通過專案的建置、Lint 與風格檢查。
- 測試正確性：Agent 撰寫的測試是否確實捕捉到預期行為。
- 範圍控制：補丁是否僅更動必要部分。
- 程式碼品質：是否符合專案慣例、設計模式與可讀性要求。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972930900-K0asAA5hbjpgnameorig.jpg)
> 這是一份顯示程式碼重構任務完成進度的檢查清單，其中有兩項關於多行警告處理的項目尚未通過驗證。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972932939-kbkAAnSV2pngnameorig.png)
> Celery 的執行長兼技術負責人 Tomer Nosrati 對 FrontierCode 在 AI 評估領域的專業能力給予高度評價。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972934785-SbIAI5Na4pngnameorig.png)
> Budibase 共同創辦人兼技術長 Martin McKeaveney 對 FrontierCode 基準測試的評價，強調其在評估大型語言模型真實智慧與創造力方面的深度與獨特性。

**嚴謹的品質控制**
為了降低評測中的誤判率，Cognition 建立了包含對抗性測試、校準與多階段審查的品質控制流程。每項任務均由 Cognition 研究人員手動審查，這使得 FrontierCode 的錯誤分類率比 SWE-Bench Pro 低 81%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972936559-H3aYAAH1Ojpgnameorig.jpg)
> FrontierCode 透過嚴格的品質控制，顯著降低了評估軌跡中的偽陽性（6.9%）與偽陰性（4.1%）比例，其分類錯誤率遠低於 SWE-Bench Pro 與 DeepSWE。

**評測結果與模型表現**
FrontierCode 包含三個難度等級：Extended（150 項任務）、Main（100 項任務）與 Diamond（50 項任務）。目前的頂尖模型在該基準上仍有極大進步空間：
- 在最困難的 Diamond 測試集中，表現最好的模型（Claude Opus 4.8）得分僅為 13.4/100，其他模型如 GPT-5.5 得分為 6.3%，Gemini 3.1 Pro 為 4.7%。
- 儘管 Claude Opus 4.8 在各項測試中保持領先，但 GPT-5.5 在執行任務時使用的 token 數量比 Opus 4.8 少了 4 倍，展現出更優異的成本與智慧平衡。
- 開源模型與頂尖閉源模型之間仍存在顯著差距，表現最好的開源模型 Kimi K2.6 在 Diamond 測試集僅獲得 3.8 分。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972921736-sagAAipOJjpgnameorig.jpg)
> 在 FrontierCode Diamond 基準測試中，Claude Opus 4.8 以 13.4% 的得分位居第一，顯著領先其他模型如 GPT-5.5（6.3%）與 Claude Opus 4.7（5.2%）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972944940-paYAA7Iyojpgnameorig.jpg)
> 根據 Cognition 的評測數據，FrontierCode 展現出更簡潔的提示長度（僅任務描述時中位數為 982），但需要修改更具挑戰性的程式碼行數（中位數 308 行），且在程式語言分布上相較於 SWE-bench Pro 與 DeepSWE 更為多元均衡。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780972955798-fbsAAuqJYpngnameorig.png)
> 在 FrontierCode 程式碼評測基準中，Claude Opus 4.8 在 Extended、Main 與 Diamond 三個子資料集任務中皆取得最高分（分別為 51.8%、34.3% 與 13.4%），顯著領先其他模型如 GPT-5.5 與 Claude Opus 4.7。

**未來展望**
Cognition 表示，為了避免資料污染，目前暫不公開 FrontierCode 的任務內容，但已開放給所有模型開發者進行評測，期望藉此推動 AI Agent 在軟體工程領域的實質進步。詳細的技術實作細節與模型評測結果可參閱 [Cognition 官方部落格](https://cognition.ai/blog/frontier-code) 。

## 標籤

Benchmark, 新產品, 開源專案, Cognition, FrontierCode
