# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Suryansh Tiwari (@Suryanshti777) · 平台：X (Twitter) · 日期：2026-06-03

> 原始來源：https://x.com/Suryanshti777/status/2060672223158116448

## 中文摘要

# Claude Opus 4.8 徹底改變了 AI 程式開發的競賽

經過 24 小時的測試、基準測試分析以及來自開發者的真實回饋，有一點很明確：

Claude Opus 4.8 並非什麼革命性的重大飛躍。

但它帶來了某種或許更重要的東西——當你在建構真實專案時，這款模型顯得可靠得多。

### 最有趣的並非基準測試數據

每一款主流 AI 的發布都遵循著相同的模式：

公司發布基準測試圖表。

社群媒體宣告贏家。

所有人爭論 48 小時。

然後現實才會顯現。

但 Opus 4.8 給人的感覺不同。

它最大的改進並非基準測試分數。

而是「信任感」。

Anthropic 花了驚人的心力去改進大多數 AI 公司鮮少討論的一點：

«讓模型在面對自己不知道的事時，表現得更誠實。»

這聽起來很無聊。

直到你花了好幾個小時在除錯那些 AI 信誓旦旦說「沒問題」的程式碼之後，你就會明白。

大多數開發者需要的不是 AI 的盲目自信。

他們需要的是更多的誠實。

而這正是 Opus 4.8 看起來最強大的地方。

### 當前 AI 程式開發的真正問題

大多數開發者現在對抗的不再是智慧不足的問題。

他們對抗的是「虛假的自信」。

當一個 AI Agent 說：

• Bug 已修復。

• 測試已通過。

• 遷移已成功完成。

然後你去檢查。

結果發現上述內容全是假的。

根據 Anthropic 的說法，Opus 4.8 讓自身程式碼中的缺陷在未被提及的情況下通過測試的機率，大約是 Opus 4.7 的四分之一。

這點比起多出幾個基準測試分數，顯然更有價值。

因為可靠性是會累積的。

而可靠性，正是區分「好用的程式開發助手」與「值得信賴的工程夥伴」的關鍵。

### 基準測試效能

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780465913529-iaHJj4XvvbAAAXggqjpg.jpg)

### 基準測試實際說明了什麼

觀察 Anthropic 公布的結果，情況比單純的「某個模型擊敗另一個模型」要複雜得多。

| 基準測試 | Opus 4.8 | GPT-5.5 |
| :--- | :--- | :--- |
| SWE-Bench Pro | 69.2% | 58.6% |
| Terminal Coding | 74.6% | 78.2% |
| Humanity's Last Exam | 57.9% | 52.2% |
| OSWorld Verified | 83.4% | 78.7% |
| Knowledge Work | 1890 | 1769 |
| Financial Analysis | 53.9% | 51.8% |

### 程式開發不再是單一類別

許多人看了基準測試表格後立刻下結論：

«「Opus 擊敗了 GPT-5.5。」»

並不完全如此。

Opus 在 SWE-Bench 獲勝。

GPT-5.5 在 Terminal-Bench 獲勝。

這些基準測試衡量的是非常不同的 skill。

SWE-Bench 專注於軟體工程的問題解決能力。

Terminal-Bench 專注於開發環境內的實際執行能力。

這就是為什麼我們看到一個新的現實正在浮現：

模型智慧與 Agent 體驗正成為兩場不同的競賽。

最聰明的模型並不自動代表能創造出最好的工作流程。

而最好的工作流程也不一定需要最聰明的模型。

### Agentic 電腦使用正成為新的戰場

整個表格中被低估最多的基準測試，可能就是 OSWorld Verified。

Opus 4.8 的得分：

83.4%

這項基準測試衡量的是模型是否真的能操作軟體環境並完成任務。

不是回答問題。

不是解謎。

不是生成文章。

而是實際執行工作。

這正是產業發展的方向。

從聊天機器人。

到操作員。

從助手。

到自主的隊友。

### 更大的故事：動態工作流程 (Dynamic Workflows)

大多數人關注的是 Opus 4.8 本身。

但我認為「動態工作流程」可能才是更重大的公告。

原因如下。

傳統 AI 程式開發工作流程：

Prompt

↓

模型思考

↓

模型回應

動態工作流程：

問題

↓

規劃 Agent

↓

數百個平行運作的子 Agent

↓

驗證層

↓

最終輸出

這改變了可能性的邊界。

系統不再只是協助編寫程式碼……

而是開始管理專案。

Anthropic 表示 Claude Code 現在可以：

• 規劃遷移

• 啟動平行工作者

• 分析龐大的程式庫

• 驗證輸出

• 協調大規模的程式碼變更

• 完成跨程式庫的轉換

這讓 AI 從「程式開發助手」更進一步成為了「工程隊友」。

而這比起贏得另一個基準測試，是更巨大的轉變。

### 測試後的驚人發現

目前最有趣的事情並非 Opus 與 GPT 的對決。

而是許多進階使用者不再只選擇單一工具。

他們正在將兩者結合。

高階使用者經常回報的一種工作流程如下：

**使用 Claude 進行思考**

Opus 4.8 擅長：

• 規劃

• 架構設計

• 複雜除錯

• 深度推理

• 理解權衡

• 策略決策

**使用 Codex 進行執行**

Codex 通常擅長：

• 自動測試

• 執行環境

• 啟動伺服器

• 工作流程自動化

• 跨裝置連貫性

• 實際執行

在實務上：

Claude 制定策略。

↓

Codex 執行工作。

↓

Claude 審查結果。

這種組合極其強大。

未來可能不屬於單一 AI。

而是屬於多個協同合作的專業 Agent。

### Alignment 是最被低估的改進

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780465913282-iaHJj45hrbYAAW9tcjpg.jpg)

沒人會因為談論 Alignment 而爆紅。

但也許他們應該這麼做。

Anthropic 的內部評估顯示了以下方面的改進：

• 不確定性回報

• 符合使用者意圖的行為

• 誠實度

• 減少無根據的聲明

• 降低欺騙率

這些改進之所以重要，是因為 AI 系統正變得越來越自主。

隨著 Agent 獲得更多控制權，信任變得越來越重要。

一個更聰明的模型很有用。

但一個更聰明、且在可能出錯時會公開告訴你的模型，則有用得多。

這就是為什麼 Opus 4.8 在實務上感覺截然不同的主要原因。

### 新的「努力控制」(Effort Controls) 改變了使用者體驗

另一個值得更多關注的功能是「努力控制」。

使用者現在可以選擇：

• 低努力 (Low Effort)

• 高努力 (High Effort)

• 額外努力 (Extra Effort)

• 最大努力 (Max Effort)

你可以把它想像成分配運算焦點。

簡單的問題？

使用「低努力」。

關鍵的架構決策？

使用「最大努力」。

複雜的遷移？

使用「額外努力」。

這讓使用者能直接控制「品質與速度」之間的權衡。

而不是強迫所有任務都採取同一種行為模式。

### 官方發布影片

### Fast Mode 比聽起來更重要

Anthropic 也推出了 Fast Mode。

主要改進包括：

• 同樣的模型

• 大約快 2.5 倍

• 比先前的快速模式便宜約 3 倍

過去，AI 使用者必須在速度與品質之間做出選擇。

Anthropic 正試圖減少這種權衡。

對於執行大規模 AI 工作流程的組織來說，成本的改善有時比基準測試的提升更重要。

一個稍微便宜一點的工作流程，往往比一個稍微聰明一點的模型更能產生實際影響。

### 這對開發者意味著什麼

AI 技術堆疊正變得層次分明。

**第一層：智慧**

• Opus 4.8

• GPT-5.5

• Gemini

**第二層：Agent 系統**

• Claude Code

• Codex

• Cursor

• Windsurf

**第三層：工作流程**

• 多 Agent 系統

• 動態工作流程

• 驗證迴圈

• 平行執行

• 自主規劃

贏家不一定是最聰明的模型。

贏家將是那個能幫助人類完成最多工作的系統。

而這個系統正越來越多地成為模型、工具、工作流程與 Agent 的組合。

### 更宏觀的視野

一年前，AI 負責生成程式碼。

今天，AI 可以：

• 規劃專案

• 審查程式碼

• 修復 Bug

• 遷移程式庫

• 啟動子 Agent

• 驗證輸出

• 協調工作流程

對話已經改變了。

從：

«「AI 能寫程式嗎？」»

變成了：

«「AI 可以承擔多少工程工作？」»

這是一個本質上完全不同的問題。

而 Opus 4.8 是我們進入下一個階段最明確的訊號之一。

### 總結

Opus 4.8 的重要性不在於它在幾個基準測試中名列前茅。

它的重要性在於它改進了開發者最關心的事情：

「信心」。

對以下事項的信心：

• 模型檢查過自己的工作。

• 模型理解不確定性。

• 模型能更長時間地保持專注於任務。

• 模型能更有效地協作。

• 模型能以更高的可靠性運作。

無論 Opus 4.8 是否成為你的主要模型，有一個趨勢是無法忽視的：

AI 正從「助手 → Agent → 隊友」演進。

而透過動態工作流程、改進的推理能力、更強的 Alignment、努力控制以及更高的誠實度，Anthropic 再次推動了這一轉變。

## 標籤

Claude, 功能更新, Benchmark, 產業趨勢, Anthropic, Claude
