單一模型工程時代已經結束
單一模型工程時代已經結束
十三個月前,我寫了一篇文章,主張模型選擇器(model picker)是一種設計上的失敗:工具應該自動選擇模型,開發者應該專注於交付產品。
這個月,我們在 Augment Code 中加入了 Gemini 3.1 Pro,這是繼 Claude 和 GPT-5 之後,我們整合的第三個模型。
市場的發展速度比我們預期的還要快,而且還在持續加速。Vinay 曾寫過身處指數級成長環境中的感受,而這正是最能清楚看見這一點的地方:我們今天運行的模型,是我們今年全年將會使用到的模型中,最差且最昂貴的。每隔幾個月,就會有新的東西達到標準。只挑選一個模型並圍繞它進行開發,是錯誤的策略。以下是我得出這個結論的過程。
單一模型運作良好,直到它不再適用
我在 2025 年 3 月提出的論點很簡單。AI 程式撰寫工具的存在是為了提高開發者的生產力。一個包含八個模型的下拉選單,其複雜性應該存在於系統內部,而不是 UI 中。如果你必須自己選擇,那麼這個工具就沒有盡到它的職責。
當某個模型明顯是最好的時候,這句話是正確的。我們最初從 Anthropic 的 Sonnet 開始。它是當時能用於實際程式撰寫工作的最佳選擇,而且沒有其他模型能與之匹敵。你可以圍繞它進行開發,為它調整 Prompt,並確信自己沒有錯過任何東西。
接著 GPT-5 出現了,它的表現足夠好,以至於人們想要有選擇的權利。於是我們推出了選擇器。
然後 Opus 4.5 的表現超越了其他所有模型。
接著 GPT-5.4 出現了,它具備更強的推理能力和極具競爭力的定價——每則訊息的成本大約比我們之前運行的模型便宜 2.6 倍,且品質好到我們可以毫不猶豫地進行交付。
這些模型之間的差距正在縮小。

模型選擇即是供應商承諾
大多數團隊在決定標準化使用某個模型時,都低估了他們所做的決定。這看起來像是一個技術選擇,但實際上是一個供應商承諾。即使在單一供應商內有多種模型等級,你依然繼承了他們的定價、可用性、發布節奏以及權衡取捨。同時,你也錯過了在他們之外發生的事情。
我們已經見識過市場變動的速度有多快。
OpenAI 縮小差距的速度比任何人預期的都要快。
Google 以具競爭力的效能和截然不同的定價進入市場。
基準測試(Benchmarks)已經收緊到頂尖模型之間的差異越來越難以區分的程度。
團隊也開始更密切關注各供應商在供應鏈風險和安全事件方面的頭條新聞,這並非為了將其排除在外,而是作為一種訊號,提醒我們選擇權(optionality)的重要性。
這裡有一個明顯的反對意見:難道我們不應該全力投入我們最喜歡的模型供應商嗎?當然,你應該為你的工作負載使用最好的模型。這篇文章談論的是接下來會發生的事。在過去的十三個月裡,領先地位已經更換了三次。2025 年 3 月最好的模型,到了 8 月就不是最好的了。8 月最好的模型,到了 11 月也不是最好的。問題在於,你的架構是否讓你能在新模型出現時,順利轉換到下一個。
當你只為一個供應商做好準備時,每次市場變動,你都會手忙腳亂。
為什麼切換模型不代表必須更換一切
大多數團隊認為他們的 AI 工具和模型是同一回事,當工具圍繞單一供應商構建時,這基本上是正確的。Prompt 是為該模型調整的。上下文檢索(context retrieval)是針對其優勢進行優化的。Agent 的行為是圍繞其特性塑造的。切換模型意味著要重構這一切。這就是為什麼它感覺像是一次遷移。
但這些是不同的層級,它們不必被綁定在一起。
可以將其視為三件事:
模型(Model):執行生成的 LLM:Claude、GPT-5、Gemini。
框架(Harness):從你的程式庫中為模型提供上下文的機制:檢索、索引、Prompt 建構。
編排(Orchestration):Agent 如何在工作流程中進行協調:規劃、執行、驗證。
當框架和編排被建構為與供應商無關(provider-agnostic)時,模型就變成了你可以替換的部分。針對特定任務從 Claude 切換到 Gemini,並不意味著要重新調整 Prompt 或重新驗證你的 Agent 管線。這意味著只需切換一個設定。系統的其餘部分保持不變。

當這三個層級都融合到一個供應商時,拔掉任何一個部分都意味著要拔掉一切。當模型是一個變數而不是基礎時,你就擁有了選擇權。
對我們來說,這種架構看起來是這樣的。框架就是 Context Engine:它以程式庫規模進行索引,與即時變更保持同步,並為每個模型提供使其輸出具備使用價值的上下文。這個基礎是我們在 SWE-Bench Pro 中名列前茅的重要原因。編排層則是 Intent:一套在工作流程中協調的 Agent 系統,無論底層使用哪個模型,都能完成實際工作。
這是我們更廣泛建構的方向:一個支援 AI 原生 SDLC 的平台,模型、上下文和編排在此匯聚,以自動化軟體生命週期中具意義的部分,而不僅僅是在其中提供協助。
實驗才是現在的策略
一年前,我認為多模型是一種干擾。現在我們運行三個模型,而且我預計在今年結束前還會增加更多。它們會比我們今天擁有的模型更好、更便宜。
領先地位每隔幾個月就會改變。定價在變動。新的參與者不斷出現。一月份你最好的選擇,到了四月份可能就成了你最昂貴的選項。那些保持領先的團隊,是那些讓嘗試下一個模型變得容易的團隊。
十三個月前,我認為簡單意味著更少的模型。現在我認為簡單意味著你的開發者永遠不必擔心他們是否使用了正確的模型。那是我們的工作。我們測試模型,我們進行整合工作,當有新的東西達到標準時,它就會出現在產品中。
單一模型工程時代已經結束。今天有三個模型達到了標準。到今年年底還會有更多,而且它們會更好、更便宜。我寧願為此做好準備,也不願手忙腳亂地追趕。
作者:Matt Ball
Matt 對賦能開發者充滿熱情。在 Postman,Matt 是第一位解決方案架構師,協助建立了市場進入策略。Matt 先前曾領導 Qubit 的專業服務工程團隊。
