# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Deyao Zhu (@tikgiau) · 平台：X (Twitter) · 日期：2026-07-03

> 原始來源：https://x.com/tikgiau/status/2072701593829695926

## 中文摘要

Deyao Zhu 發布 EdgeBench 揭示 AI Agent 學習規律。

**核心研究發現**
由 ByteDance Seed 團隊開發的 EdgeBench，是首個專注於評估 AI Agent 在真實環境中「長時間學習能力」的基準測試。該研究分析了超過 38,000 小時的 Agent 互動數據，發現當 Agent 在具備回饋機制的環境中持續運作時，其效能提升並非隨機，而是精確地遵循「對數 S 型曲線」（log-sigmoid function），相關係數 $R^2$ 高達 0.998。此外，研究觀察到 AI Agent 的環境學習速度呈現快速成長趨勢，平均每三個月翻倍。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046127635-heaedaqm.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/0d3374c5e4ba87e6.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> EdgeBench 是一個針對 AI 代理在真實環境中進行長時間學習與效能評估的基準測試平台。

**EdgeBench 基準測試架構**
EdgeBench 包含 134 項真實世界任務，涵蓋科學與機器學習、系統與軟體工程、優化問題、專業知識工作、形式化數學及遊戲等六大類別。其設計核心在於「超長時程」與「真實回饋」：
- **超長時程**：每項任務允許 Agent 進行 12 至 72 小時的連續作業，遠超傳統基準測試的短時評估。
- **專家基準**：每項任務均經過領域專家審核，記錄的人類專家平均操作時間達 57.2 小時，部分複雜任務甚至高達 320 小時。
- **評估機制**：採用名為 `SForge` 的雙容器評估 harness，將工作環境與判斷環境隔離，確保評估過程的真實性與安全性。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046139799-qlfv6l5j.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/5e13db5b71c7b3b6.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這是一系列展示不同領域任務分類與技術應用場景的資訊圖表。

**理論解釋與學習動態**
研究團隊提出了一套基於「圖探索」（graph exploration）的理論，解釋為何學習曲線會呈現對數 S 型：
- 任務被視為隱藏圖中的大量節點，學習過程如同邊界擴張，每解鎖一個節點便能觸發對周邊未知節點的探索。
- 學習速度取決於已解鎖節點（x）與未解鎖節點（1-x）的乘積，當時間尺度轉換為 $u = \log(t)$ 時，該過程的微分方程即解出對數 S 型規律。
- 透過對重力波偵測任務的 12 小時追蹤分析，研究發現 Agent 在過程中經歷了多次關鍵的「問題重構」（reframing），而不僅僅是參數微調，這證實了持續性經驗累積對長期效能的重要性。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046178917-cuk9an36.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/984b6c7142a7a125.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這是一個展示樹狀結構擴散過程與對應累積分布函數（CDF）統計圖表的互動式模擬介面。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/96cccb1e38d36951.jpg)
> 圖表顯示 AI 的任務學習速度大約每 3 個月翻倍，其中 GPT-5.5 與 Claude Opus 4.8 等領先模型在 2026 年中展現出最高的學習速度。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046152273-di9ehudd.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/5a48aefad324174b.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這是一份展示多種模型在不同科學與系統任務中執行時間與效能表現的基準測試比較圖表。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046164951-xsqfyql2.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2ef287552ed8aa71.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這是一系列展示不同 AI 模型在多項技術任務中，隨互動時間增加其效能分數（score S）變化的基準測試比較圖。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1783046201821-yvqpc4gr.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/589001648c00890f.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 一張展示模型在 12 小時內透過學習，將重力波訊號重建效能從 42.8 提升至 67.0 的效能演進圖。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/216bd384d6d1614d.jpg)
> 在 EdgeBench 基準測試中，Claude Opus 4.8 以 51.3 的 12H 分數名列第一，領先 GPT-5.5、GPT-5.4、GLM-5.1 及 DeepSeek V4 Pro 等模型。

**如何使用 EdgeBench**
目前團隊已公開 51 項任務及完整的評估框架，開發者可透過以下步驟進行測試：

1. 安裝 `sforge` 工具：
   ```bash
   pip install sforge
   ```
2. 獲取任務定義並下載 Docker 映像檔：
   ```bash
   sforge fetch-tasks edgebench
   sforge pull --task ad_placement_optimization --registry seededge
   ```
3. 啟動判斷伺服器並執行 Agent：
   ```bash
   sforge serve
   SFORGE_AGENT_API_KEY="sk-xxx" \
     sforge run --task ad_placement_optimization --agent claude-code \
       --model "claude-opus-4-8[1m]" --timeout 43200 --run-id edgebench-001
   ```

更多詳細資訊可參考 [EdgeBench 官方網站](https://edge-bench.org/)、[技術報告](https://edge-bench.org/paper.pdf) 或 [GitHub 專案庫](https://github.com/ByteDance-Seed/EdgeBench)。

## 媒體內容

**這是一份展示多種模型在不同科學與系統任務中執行時間與效能表現的基準測試比較圖表。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）瀏覽第一組任務圖表
2. （00:03）切換至第二組任務圖表

**這是一個展示樹狀結構擴散過程與對應累積分布函數（CDF）統計圖表的互動式模擬介面。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）Re-randomize
2. （00:06）Re-randomize

**圖表顯示 AI 的任務學習速度大約每 3 個月翻倍，其中 GPT-5.5 與 Claude Opus 4.8 等領先模型在 2026 年中展現出最高的學習速度。**

**數據表**

|   | GPT-5.1-Codex | Claude Opus 4.5 | GPT-5.2-Codex | GPT-5.3-Codex | Claude Opus 4.6 | GLM 5.0 | GPT-5.4 | Claude Opus 4.7 | GLM5.1 | GPT-5.5 | DeepSeek V4 Pro | Claude Opus 4.8 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| GPT-5-Codex = (2025-10, 2.6) | (2025-11, 3.2) | (2025-12, 7.8) | (2026-01, 7.5) | (2026-02, 14.0) | (2026-02, 16.5) | (2026-03, 6.2) | (2026-03, 10.5) | (2026-04, 15.0) | (2026-04, 9.5) | (2026-05, 22.0) | (2026-05, 6.2) | (2026-06, 19.0) |

**在 EdgeBench 基準測試中，Claude Opus 4.8 以 51.3 的 12H 分數名列第一，領先 GPT-5.5、GPT-5.4、GLM-5.1 及 DeepSeek V4 Pro 等模型。**

**數據表**

| 模型 | 12H Score |
| --- | --- |
| Claude Opus 4.8 (Anthropic) | 51.3 |
| GPT-5.5 (OpenAI) | 48.4 |
| GPT-5.4 (OpenAI) | 39.3 |
| GLM-5.1 (Z.ai) | 37.4 |
| DeepSeek V4 Pro (DeepSeek) | 31.0 |

## 標籤

Agent, 研究論文, Benchmark, ByteDance
