# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Datacurve (@datacurve) · 平台：X (Twitter) · 日期：2026-05-31

> 原始來源：https://x.com/datacurve/status/2060834005998793199

## 中文摘要

Opus 4.8 於 DeepSWE 平台正式上線，在預設高思考模式下，其任務通過率較 Opus 4.7 xhigh 版本提升 6%，並同時降低了平均單項任務成本。

**效能與成本優化**
根據 Datacurve 的測試數據，Opus 4.8 透過減少解決任務所需的步驟數，顯著降低了每個任務所需的平均 input token 數量，進而實現了更高的執行效率。以下為關鍵效能指標對比：

- Opus 4.8 [max]：通過率 58%，平均步驟 108 步，平均成本 12.58 美元，平均 input token 為 15,257,617。
- Opus 4.7 [max]：通過率 54%，平均步驟 203 步，平均成本 18.19 美元，平均 input token 為 28,513,814。
- Opus 4.8 [high]：通過率 51%，平均步驟 66 步，平均成本 3.98 美元，平均 input token 為 4,415,832。

**技術評測分析**
從數據可見，Opus 4.8 在不同模式下均展現出優於前代版本的表現。相較於 Opus 4.7 [xhigh] 的 45% 通過率與 126 步平均任務長度，Opus 4.8 [high] 在通過率提升至 51% 的同時，將平均步驟數大幅縮減至 66 步，且成本從 8.58 美元降至 3.98 美元。

**後續規劃**
Datacurve 表示將針對此次更新發布完整的深度分析報告。使用者可透過 [DeepSWE 基準測試頁面](https://deepswe.datacurve.ai) 查看詳細的評測數據與各模型表現。

## 標籤

功能更新, Benchmark, LLM, Anthropic, Claude, DeepSWE
