# 策展 · X (Twitter) 🔥

> 作者：edwin (@edwinarbus) · 平台：X (Twitter) · 日期：2026-04-02

> 原始來源：https://x.com/edwinarbus/status/2033625866350334333

## 中文摘要

規劃基準測試顯示工具選擇與使用模式對 AI 效能影響巨大。

Matt Maher 的最新基準測試顯示，人工智慧模型的規劃能力不僅取決於模型本身，更受限於所使用的工具與工作流程。測試結果表明，工具選擇與使用模式對最終產出的影響，甚至超過了模型間的效能差異。

**基準測試方法論**
該基準測試旨在評估模型在「規劃階段」的表現，而非單純的程式碼撰寫能力。
- 測試內容：將一份包含約 100 項功能需求的「產品需求文件 (PRD)」分佈於 10 個文件中，要求模型制定實施計畫。
- 核心邏輯：若模型在規劃階段遺漏功能，這些功能將永遠無法被建構。此測試旨在揭露系統開發中常見的「隱性功能缺失」問題，避免開發者直到專案後期才發現 30% 的功能未被納入。

**模型與工具效能數據**
測試顯示「Cursor」在所有模型中均能穩定提升效能，平均提升幅度達 11%。
- 具體數據對比（CLI vs. Cursor）：
    - 「Gemini 3.1 Pro」：從 52% 提升至 57%。
    - 「GPT-5.4」：從 82% 提升至 88%。
    - 「Opus」：從 77% 提升至 93%。
- 「GPT-5.4」在「額外高水平」設定下表現最佳，達到 95% 的飽和分數，顯示其在處理長 token 上下文與複雜思考時的優勢。

**關鍵發現與工具反思**
工具的自動化機制至關重要：觀察發現「Cursor」會自動執行驗證步驟，回頭檢查產出是否符合原始需求，這解釋了其為何能超越其他 CLI 工具。
- 工作流程的陷阱：作者強烈建議使用者在「Claude Code」中跳過專用的「規劃模式」。測試發現，直接在執行模式中要求模型規劃，比使用內建規劃模式的分數高出 15 個百分點，顯示不當的約束反而限制了模型的思考自由度。
- 模型競賽與工具競賽並行：目前的 AI 發展不僅是模型能力的競爭，工具的「編排能力」與使用者的「配置方式」同樣決定了專案的成敗。

## 標籤

Benchmark, IDE, CLI, Agent, Cursor, Claude Code, 教學資源