# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Philippe Laban (@PhilippeLaban) · 平台：X (Twitter) · 日期：2026-04-22

> 原始來源：https://x.com/PhilippeLaban/status/2046615120332124450

## 中文摘要

LLMs委託編輯文件時會腐敗內容。

新論文「LLMs Corrupt Your Documents When You Delegate」透過DELEGATE-52基準測試，模擬52個專業領域的長時程委託工作，揭示即使頂尖LLMs如Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4，在20次互動後仍腐敗25%文件內容，平均模型達50%，證明當前LLMs不適合可靠委託編輯。

**DELEGATE-52基準設計**

DELEGATE-52包含310個工作環境，橫跨52個專業領域，包括結晶學文件、音樂記譜法、會計分類帳、Python原始碼等，每環境有真實文件與5-10個複雜可逆編輯任務。

- 核心評估機制：前向編輯後接反向編輯（round-trip），鏈結10輪模擬20次LLM互動，最終比較恢復文件與原始版本，使用領域特定評估器測量保存度。
- 公開資料集：Hugging Face上的microsoft/delegate52，含234個環境（48領域），剩餘76個因授權限制未公開；每個環境包括種子文件（2-5k token）、1629對編輯指令、干擾文件（distractor context）。
- 程式庫功能：GitHub microsoft/DELEGATE52提供run_relay.py（多輪模擬）、model_agentic.py（含工具的Agent harness）、52個領域解析器與提示模板。

**主要發現一：所有模型隨時間腐敗文件**

測試19個LLMs（來自OpenAI、Anthropic、Google、Mistral、xAI、Moonshot），無一例外地使文件退化。

- 頂尖模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4）在20次互動後腐敗25%內容。
- 所有模型平均損失50%內容，使用Reconstruction Score (RS@k)測量領域特定相似度。
- Python程式領域例外：多數模型可無損操作Python程式碼，但其他領域模型製造稀疏卻關鍵錯誤，導致文件腐敗。

**主要發現二：領域依賴性與「就緒」標準**

退化程度依領域而異，多數領域模型犯下稀疏但致命錯誤，只有Python例外。

- 定義「就緒」為20次互動後98%以上保存度，最佳模型Gemini 3.1 Pro僅在11/52領域達標。
- 領域類別：程式碼與配置（11，如dbschema、docker）、科學工程（11，如crystal、protein）、創意媒體（11，如musicsheet、subtitles）、結構化記錄（11，如accounting、spreadsheet）、日常（8，如chess、recipe）。

**主要發現三：工具與Agent harness惡化問題**

提供工具（檔案讀寫、程式碼執行）的Agent harness非但無助，反而加劇文件腐敗。

- 4個測試模型在使用工具時退化更嚴重，因工具開銷導致輸入token增加2-5倍，提供更多遺失上下文的機會。
- 模型仍偏好手動檔案寫入，顯示透過程式碼執行的計算編輯仍具挑戰性，無法彌補核心缺陷。

**主要發現四：多重因素疊加放大損害**

退化非線性累積，而是多因素乘數效應，短評估嚴重低估真實世界損害。

- 更大文件→更多退化。
- 更長互動→更多退化。
- 干擾文件→更多退化。
- 放大效應：大型文件損害在互動過程中雪球式放大5倍。

**主要發現五：稀疏關鍵失敗主導損失**

非千刀萬剮，而是偶發災難性失敗。

- 模型某些輪次近完美重建，卻在單步驟丟失10%內容，此類稀疏關鍵失敗解釋總退化80%。
- 強模型優勢在於延後災難，而非更好避免小錯誤。

**論文結論與作者立場**

當前LLMs是不可靠委託代理，引入稀疏嚴重錯誤，隨時間複合腐敗工作文件，顛覆知識工作委託範式（如vibe coding）的信任基礎。論文強調DELEGATE-52揭示AI系統尚未準備好長時程委託工作，呼籲研究社群利用此基準推動改進。

**資源釋出與使用指南**

完整資源免費公開，鼓勵擴展與再現。

- GitHub：http://github.com/microsoft/DELEGATE52（MIT授權），包含run_relay.py示例如`python run_relay.py --model_names gpt-5.4 --domains subtitles --num_round_trips 10`。
- Hugging Face：http://hf.co/datasets/microsoft/DELEGATE52（CDLA Permissive 2.0），支援datasets.load_dataset("microsoft/delegate52")。
- 論文：http://arxiv.org/abs/2604.15597（2026年4月17日發表，由Philippe Laban、Tobias Schnabel、Jennifer Neville於Microsoft Research合作）。

**意圖用途與範圍限制**

DELEGATE-52專為評估LLMs忠實編輯專業文件設計，適合再現實驗、測試新模型或新增領域。

- 不適合：模擬人類-LLM真實互動、取代人類研究、高風險決策（如執法、法律、金融、醫療），或商業應用未經進一步測試。
- 限制：僅英文、需自備LLM存取、無系統性防護提示注入攻擊、公開版234/310環境。
- 最佳實踐：小規模實驗、使用--num_workers並行、優先Azure OpenAI等負責任AI服務。

**貢獻與引用指引**

歡迎社群貢獻擴充領域、改善評估器或新增工作環境，參閱論文附錄了解種子文件標準、可逆編輯規則。

- 貢獻流程：閱讀附錄、提交Pull Request，需同意CLA。
- 引用：
```
@article{laban2026delegate52,
  title={LLMs Corrupt Your Documents When You Delegate},
  author={Laban, Philippe and Schnabel, Tobias and Neville, Jennifer},
  journal={arXiv preprint arXiv:2604.15597},
  year={2026},
  url={https://arxiv.org/abs/2604.15597}
}
```

此基準不僅量化LLMs委託編輯的系統性失效，還提供可重現工具，凸顯當前人工智慧在專業文件處理上的根本不穩定，敦促產業與學界正視長時程互動的可靠性危機。論文透過嚴謹模擬與大規模測試，無情揭露即使前沿模型也無法維持文件完整，挑戰委託工作樂觀敘事。DELEGATE-52的52領域廣度確保結果具代表性，從Python的相對成功到會計分類帳的頻繁崩潰，精準捕捉領域差異。工具實驗更證實Agent harness的虛假希望，token開銷放大錯誤機率，強化核心論點：LLMs尚未準備好取代人類監督編輯。隨著文件規模與互動延長，雪球效應與關鍵失敗機制解釋退化軌跡，短評估的誤導性警示研究者重視真實情境。Microsoft Research的釋出策略開放且負責任，排除高風險濫用，同時邀請貢獻，預期驅動下一波改進浪潮。總體而言，此工作不僅是技術貢獻，更是對LLMs委託範式可靠性赤裸批判，迫使領域反思信任邊界。

## 標籤

LLM, 研究論文, Benchmark, Google, Anthropic, OpenAI