# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Serena Ge (Datacurve) (@serenaa_ge) · 平台：X (Twitter) · 日期：2026-05-27

> 原始來源：https://x.com/serenaa_ge/status/2059308218564890875

## 中文摘要

DeepSWE 推出全新基準測試提升程式開發評估準確度。

Serena Ge（Datacurve）近期發布了「DeepSWE」，這是一個針對前沿程式開發 Agent 所設計的長週期軟體工程基準測試。該測試旨在反映開發者在日常工作中面臨的真實挑戰，並揭示目前頂尖模型在實際應用上的能力差距。

**解決現有基準測試的痛點**
現有的基準測試（如 SWE-bench Pro）多半透過抓取 GitHub 的 Issues 與 Pull Requests 來建立任務，這導致了兩個嚴重問題：模型可能在預訓練階段就已經「背誦」過解決方案，且大多數任務過於瑣碎。DeepSWE 採取了不同的策略：
- **完全原創的任務**：所有任務皆從零開始編寫，並未採用現有的提交紀錄或修補程式，確保模型無法透過記憶歷史資料來作弊。
- **任務不進入公開紀錄**：這些任務不會被合併回原始程式庫，因此不會出現在未來的公開訓練資料集中，能更純粹地測試 Agent 的問題解決能力。
- **更高的複雜度**：雖然提示詞（Prompt）長度僅為 SWE-bench Pro 的一半，但解決方案所需的程式碼量卻是其 5.5 倍，輸出的 token 數約為 2 倍。

**嚴謹的驗證機制**
為了確保評估的公平性，Datacurve 開發了一套軌跡分析 Agent 來重現 Agent 的執行過程，並精確標記失敗原因。審計發現，現有的基準測試存在顯著的評估雜訊，例如 SWE-bench Pro 的驗證器在錯誤率方面，偽陽性（false positives）高達 8%，偽陰性（false negatives）則高達 24%。相比之下，DeepSWE 的驗證器是針對任務描述手寫的，專注於軟體行為而非實作細節，在隨機抽樣測試中，其與人類分析師的判斷分歧率僅為 1.4%。

**廣泛的技術覆蓋**
DeepSWE 包含 113 個任務，涵蓋 91 個活躍的開源程式庫，支援 TypeScript、Go、Python、JavaScript 與 Rust 五種語言。這種規模使其成為衡量 Agent 在真實世界中處理不同結構、文件與維護程度程式庫能力的理想指標。

**快速上手指南**
開發者可以使用 `Pier` 框架來執行該基準測試，以下是操作步驟：

1. 克隆程式庫並安裝 `Pier`：
   ```bash
   git clone https://github.com/datacurve-ai/deep-swe
   uv tool install datacurve-pier
   ```

2. 設定環境變數並執行測試（以 Claude Opus 為例）：
   ```bash
   export ANTHROPIC_API_KEY=...
   pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7
   ```

3. 若要執行隨機子集（例如 10 個任務）：
   ```bash
   pier run -p deep-swe/tasks --agent mini-swe-agent --n-tasks 10 --sample-seed 0
   ```

4. 若要執行單一任務：
   ```bash
   pier run -p deep-swe/tasks/<task-id> --agent mini-swe-agent
   ```

**關於 Pier 框架**
`Pier` 是一個相容於 Harbor 的沙盒執行框架，專為隔離環境下的程式開發 Agent 評測而設計。它不僅支援在斷網環境下執行任務，還增加了針對每個 Agent 的網路存取白名單功能，確保環境隔離的同時，也能提供完整的軌跡元資料與分析工具（`pier critique run`），協助開發者深入剖析 Agent 的決策過程。更多詳細資訊可參考 [DeepSWE 官方部落格](http://deepswe.datacurve.ai/blog) 或 [GitHub 專案頁面](https://github.com/datacurve-ai/deep-swe)。

## 標籤

Benchmark, Agent, 研究論文, 新產品, DeepSWE, Datacurve
