# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Ramp Labs (@RampLabs) · 平台：X (Twitter) · 日期：2026-06-13

> 原始來源：https://x.com/RampLabs/status/2065485806605619304

## 中文摘要

Ramp Labs 發布 Ramp SWE-Bench 評估 AI 程式能力。

**核心動機與設計理念**
Ramp Labs 指出，公開的基準測試集容易飽和且存在訓練資料洩漏問題，且無法反映該公司工程師每日處理的實際業務場景。為此，Ramp 開發了「Ramp SWE-Bench」，這是一套基於 Ramp 後端工程任務的私有基準測試工具，旨在評估 AI 模型在金融軟體生態系統中的實際表現。該工具模擬了背景 Agent 的生命週期：由工程師提供 Prompt，Agent 進行非同步作業，最終產出可供審查的 Pull Request。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781346591561-anzv5dyq.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/a1e59aed703628b3.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> Ramp 介紹其用於評估程式編寫任務的私有基準測試工具「Ramp SWE-Bench」。

**任務來源與品質控管**
該基準測試包含 80 項任務，均源自 Ramp 內部已合併至生產環境的真實 Pull Request，涵蓋卡片授權、帳單支付、會計、採購、財務及詐欺檢測等領域。為確保品質，Ramp 建立了一套自動化策展流程：
- 挖掘：收集內部已合併的 Inspect Agent 程式碼變更。
- 篩選與驗證：過濾掉缺乏實作或測試的項目，並在「沙盒」環境中確認測試能從失敗轉為通過。
- 合成：將工程師與 Agent 的原始對話轉化為簡潔的 Prompt。
- 審計：參考「BenchGuard」架構，由 LLM 評審進行交叉檢查，最後由人類工程師進行最終審核，確保任務的公平性與有效性。

**評估機制與執行細節**
Ramp SWE-Bench 採用統一的評估標準，確保模型在相同環境下進行測試：
- 執行環境：所有模型均透過 `mini-swe-agent` harness 在隔離的「沙盒」本地開發環境中執行。
- 評分標準：若 Agent 提交的 Diff 能讓測試從失敗轉為通過且不破壞其他功能，即視為成功。若執行時間超過 45 分鐘，則判定為失敗。
- 評估目標：採用 `pass@1` 嘗試，要求模型在第一次嘗試時即產出正確且可供審查的程式碼變更。

**研究發現與未來展望**
Ramp Labs 強調，在衡量效能與成本時，目前的技術前沿呈現出「權衡（Tradeoff）」而非單一贏家的態勢。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/bb0c64b1fe6fc1c7.jpg)
> 在 Ramp SWE-Bench 基準測試中，Fable 5 解決了更多任務，但 GPT-5.5 運作更精簡、成本更低且速度更快，兩者在效能與成本之間呈現權衡關係。

 由於任務涉及 Ramp 的私有生產環境程式碼，該公司不會公開具體的 Prompt、Patch 或測試檔案，僅透過 [Ramp SWE-Bench 官方網站](http://labs.ramp.com/swebench) 提供聚合指標、模型間的兩兩比較及去識別化後的範例。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/5dce6d22cd03f19e.jpg)
> 在 Ramp SWE-Bench 基準測試中，衡量效果與成本時呈現權衡關係而非單一贏家，其中 Fable 5 達到最高的 88% 解決率但成本最高（約 $2.67），而 GPT-5.4 Nano 成本最低（約 $0.08）但解決率僅 49%。

 未來，Ramp 計畫擴充任務集、評估更複雜的失敗分類，並引入基於 AI 評審的輸出品質評分機制。

## 媒體內容

**Ramp 介紹其用於評估程式編寫任務的私有基準測試工具「Ramp SWE-Bench」。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:15）顯示 Fable 的評測頁面連結
2. （00:17）顯示 GPT 5.5 的評測頁面連結
3. （00:18）顯示 Gemini 的評測頁面連結
4. （00:19）顯示 Kimi 的評測頁面連結
5. （00:20）顯示其他模型的評測頁面連結

**在 Ramp SWE-Bench 基準測試中，Fable 5 解決了更多任務，但 GPT-5.5 運作更精簡、成本更低且速度更快，兩者在效能與成本之間呈現權衡關係。**

**數據表（2）Cost**

|   | 起始 | 峰值 | 結束 |
| --- | --- | --- | --- |
| Claude Fable 5 | $0 | 約$1.5 | 約$3.5 |
| GPT-5.5 | $0 | 約$1.2 | 約$3.5 |

**數據表（3）Time elapsed**

|   | 起始 | 峰值 | 結束 |
| --- | --- | --- | --- |
| Claude Fable 5 | 08:00 | 約13:00 | 22:00 |
| GPT-5.5 | 08:00 | 約11:00 | 22:00 |

**在 Ramp SWE-Bench 基準測試中，衡量效果與成本時呈現權衡關係而非單一贏家，其中 Fable 5 達到最高的 88% 解決率但成本最高（約 $2.67），而 GPT-5.4 Nano 成本最低（約 $0.08）但解決率僅 49%。**

**數據表**

|   | GPT-5.4 Mini | Qwen3.6+ | Haiku 4.5 | GPT-5.4 | Sonnet 4.6 | DeepSeek V4 | Gemini 3.1 Pro | GLM 5.1 | Opus 4.8 | GPT-5.5 | Opus 4.7 | Fable 5 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| GPT-5.4 Nano = ($0.08, 49%) | ($0.22, 59%) | ($0.30, 65%) | ($0.51, 50%) | ($0.68, 72.5%) | ($0.78, 72.5%) | ($0.78, 65%) | ($1.03, 74%) | ($1.05, 72%) | ($1.09, 78%) | ($1.81, 84%) | ($2.25, 84%) | ($2.67, 88%) |

## 標籤

Benchmark, Agent, 新產品, 開源專案, Ramp Labs, SWE-Bench