AI 模型規劃能力評測:工具選擇與使用模式影響巨大
AI 模型規劃能力評測:工具選擇與使用模式影響巨大。
Matt Maher 針對 AI 模型在「規劃階段」的表現進行了基準測試,發現模型本身的效能固然重要,但所使用的工具(如 Cursor 與 CLI)以及具體的操作模式(如是否啟用規劃模式),對最終成果的影響甚至超過模型間的差異。
基準測試方法論
Matt Maher 建立了一套專注於「規劃階段」的基準測試,旨在評估模型在處理複雜需求時的完整性。此測試並非評估程式碼品質或單元測試通過率,而是檢視模型能否將一份包含約 100 項功能需求的產品需求文件 (PRD) 完整轉化為實施計畫。作者強調,規劃階段是軟體開發中最關鍵的環節之一,若在此階段遺漏功能,後續開發將無法補救,導致系統功能缺失。
- 測試範圍:涵蓋 10 個文件中的 100 項功能需求。
- 評估指標:計算模型在計畫中實際納入的功能比例。
- 核心邏輯:若模型在規劃階段丟棄了功能,這些功能將永遠不會被構建,導致使用者最終得到的系統僅涵蓋原始需求的 70%,且開發者往往在為時已晚時才發現缺失。
模型與工具的效能表現
測試結果顯示,GPT-5.4 在「額外高水平 (Extra High)」配置下表現最為優異,達到 95% 的基準測試分數。然而,數據中最顯著的發現並非單一模型的勝出,而是「工具」對模型表現的加成作用。無論模型本身為何,使用 Cursor 進行開發的表現均優於使用 CLI 工具。
- GPT-5.4 (Codex CLI):82% 分數。
- GPT-5.4 (Cursor):88.4% 分數。
- Opus (Claude Code):77% (規劃模式) vs. 92.9% (執行模式)。
- Gemini 3.1 Pro (CLI):52% vs. (Cursor):57%。
- Sonnet 4.6 (Claude Code):87.4% vs. (Cursor):92%。
這些數據顯示,當同樣的模式出現在所有測試模型中時,這反映的是工具本身的效能差異,而非模型能力的單一體現。
Cursor 的優勢與自動化驗證
在所有測試模型中,使用 Cursor 進行開發的表現均優於使用 CLI 工具。作者推測,這並非單純因為 Cursor 的模型調用更強,而是因為 Cursor 內建了自動化的驗證機制。
- 自動化驗證:Cursor 在完成計畫後,會自動回頭評估輸出與原始需求之間的差距,並進行補強。這種內置的驗證通過 (Validation pass) 是提升分數的關鍵。
- 規劃編排:Cursor 在處理規劃編排 (Orchestration) 的能力上,顯著優於其他 CLI 工具,能夠更有效地管理複雜的上下文。
操作模式的關鍵影響
測試揭露了一個反直覺的現象:在 Claude Code 中使用專用的「規劃模式 (Planning Mode)」反而會導致分數下降。作者
Matt Maher tested frontier models in Cursor v. other harnesses. Cursor boosted model performance by 11% on average:
— edwin (@edwinarbus) March 16, 2026
Gemini: 52% → 57%
GPT-5.4: 82% → 88%
Opus: 77% → 93%
His benchmark measures how well models implement a 100-feature PRD. @cursor_ai consistently outperformed. pic.twitter.com/hrjCmWMNKN
Full vid: https://t.co/qt1poEaP4l
— edwin (@edwinarbus) March 16, 2026
