LLMs委託編輯文件時會腐敗內容
AI 語音朗讀 · Edge TTS
LLMs委託編輯文件時會腐敗內容。
新論文「LLMs Corrupt Your Documents When You Delegate」透過DELEGATE-52基準測試,模擬52個專業領域的長時程委託工作,揭示即使頂尖LLMs如Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4,在20次互動後仍腐敗25%文件內容,平均模型達50%,證明當前LLMs不適合可靠委託編輯。
DELEGATE-52基準設計
DELEGATE-52包含310個工作環境,橫跨52個專業領域,包括結晶學文件、音樂記譜法、會計分類帳、Python原始碼等,每環境有真實文件與5-10個複雜可逆編輯任務。
- 核心評估機制:前向編輯後接反向編輯(round-trip),鏈結10輪模擬20次LLM互動,最終比較恢復文件與原始版本,使用領域特定評估器測量保存度。
- 公開資料集:Hugging Face上的microsoft/delegate52,含234個環境(48領域),剩餘76個因授權限制未公開;每個環境包括種子文件(2-5k token)、1629對編輯指令、干擾文件(distractor context)。
- 程式庫功能:GitHub microsoft/DELEGATE52提供run_relay.py(多輪模擬)、model_agentic.py(含工具的Agent harness)、52個領域解析器與提示模板。
主要發現一:所有模型隨時間腐敗文件
測試19個LLMs(來自OpenAI、Anthropic、Google、Mistral、xAI、Moonshot),無一例外地使文件退化。
- 頂尖模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4)在20次互動後腐敗25%內容。
- 所有模型平均損失50%內容,使用Reconstruction Score (RS@k)測量領域特定相似度。
- Python程式領域例外:多數模型可無損操作Python程式碼,但其他領域模型製造稀疏卻關鍵錯誤,導致文件腐敗。
主要發現二:領域依賴性與「就緒」標準
退化程度依領域而異,多數領域模型犯下稀疏但致命錯誤,只有Python例外。
- 定義「就緒」為20次互動後98%以上保存度,最佳模型Gemini 3.1 Pro僅在11/52領域達標。
- 領域類別:程式碼與配置(11,如dbschema、docker)、科學工程(11,如crystal、protein)、創意媒體(11,如musicsheet、subtitles)、結構化記錄(11,如accounting、spreadsheet)、日常(8,如chess、recipe)。
主要發現三:工具與Agent harness惡化問題
提供工具(檔案讀寫、程式碼執行)的Agent harness非但無助,反而加劇文件腐敗。
- 4個測試模型在使用工具時退化更嚴重,因工具開銷導致輸入token增加2-5倍,提供更多遺失上下文的機會。
- 模型仍偏好手動檔案寫入,顯示透過程式碼執行的計算編輯仍具挑戰性,無法彌補核心缺陷。
主要發現四:多重因素疊加放大損害
退化非線性累積,而是多因素乘數效應,短評估嚴重低估真實世界損害。
- 更大文件→更多退化。
- 更長互動→更多退化。
- 干擾文件→更多退化。
- 放大效應:大型文件損害在互動過程中雪球式放大5倍。
主要發現五:稀疏關鍵失敗主導損失
非千刀萬剮,而是偶發災難性失敗。
- 模型某些輪次近完美重建,卻在單步驟丟失10%內容,此類稀疏關鍵失敗解釋總退化80%。
- 強模型優勢在於延後災難,而非更好避免小錯誤。
論文結論與作者立場
當前LLMs是不可靠委託代理,引入稀疏嚴重錯誤,隨時間複合腐敗工作文件,顛覆知識工作委託範式(如vibe coding)的信任基礎。論文強調DELEGATE-52揭示AI系統尚未準備好長時程委託工作,呼籲研究社群利用此基準推動改進。
資源釋出與使用指南
完整資源免費公開,鼓勵擴展與再現。
- GitHub:http://github.com/microsoft/DELEGATE52(MIT授權),包含run_relay.py示例如`python run_relay.py --model_names gpt-5.4 --domains subtitles --num_round_trips 10`。
- Hugging Face:http://hf.co/datasets/microsoft/DELEGATE52(CDLA Permissive 2.0),支援datasets.load_dataset("microsoft/delegate52")。
- 論文:http://arxiv.org/abs/2604.15597(2026年4月17日發表,由Philippe Laban、Tobias Schnabel、Jennifer Neville於Microsoft Research合作)。
意圖用途與範圍限制
DELEGATE-52專為評估LLMs忠實編輯專業文件設計,適合再現實驗、測試新模型或新增領域。
- 不適合:模擬人類-LLM真實互動、取代人類研究、高風險決策(如執法、法律、金融、醫療),或商業應用未經進一步測試。
- 限制:僅英文、需自備LLM存取、無系統性防護提示注入攻擊、公開版234/310環境。
- 最佳實踐:小規模實驗、使用--num_workers並行、優先Azure OpenAI等負責任AI服務。
貢獻與引用指引
歡迎社群貢獻擴充領域、改善評估器或新增工作環境,參閱論文附錄了解種子文件標準、可逆編輯規則。
- 貢獻流程:閱讀附錄、提交Pull Request,需同意CLA。
- 引用:
@article{laban2026delegate52,
title={LLMs Corrupt Your Documents When You Delegate},
author={Laban, Philippe and Schnabel, Tobias and Neville, Jennifer},
journal={arXiv preprint arXiv:2604.15597},
year={2026},
url={https://arxiv.org/abs/2604.15597}
}
此基準不僅量化LLMs委託編輯的系統性失效,還提供可重現工具,凸顯當前人工智慧在專業文件處理上的根本不穩定,敦促產業與學界正視長時程互動的可靠性危機。論文透過嚴謹模擬與大規模測試,無情揭露即使前沿模型也無法維持文件完整,挑戰委託工作樂觀敘事。DELEGATE-52的52領域廣度確保結果具代表性,從Python的相對成功到會計分類帳的頻繁崩潰,精準捕捉領域差異。工具實驗更證實Agent harness的虛假希望,token開銷放大錯誤機率,強化核心論點:LLMs尚未準備好取代人類監督編輯。隨著文件規模與互動延長,雪球效應與關鍵失敗機制解釋退化軌跡,短評估的誤導性警示研究者重視真實情境。Microsoft Research的釋出策略開放且負責任,排除高風險濫用,同時邀請貢獻,預期驅動下一波改進浪潮。總體而言,此工作不僅是技術貢獻,更是對LLMs委託範式可靠性赤裸批判,迫使領域反思信任邊界。
New paper! LLMs Corrupt Your Documents When You Delegate
— Philippe Laban (@PhilippeLaban) April 21, 2026
LLMs are enabling a new way of working: delegated work, where users supervise an LLM as it edits documents on their behalf.
Delegation requires trust: does the LLM complete tasks without introducing errors?
We simulate… pic.twitter.com/neeOpXIbJz
We built DELEGATE-52: 310 work environments across 52 professional domains.
— Philippe Laban (@PhilippeLaban) April 21, 2026
Each has real documents + 5-10 complex editing tasks.
Key idea: every edit is reversible.
Apply forward edit → backward edit → compare with original for evaluation.
Chain 10 of these → simulate… pic.twitter.com/MHbvkzMFDo
Finding #1: Every model degrades documents over time.
— Philippe Laban (@PhilippeLaban) April 21, 2026
We tested 19 LLMs.
Even frontier models (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) corrupt 25% of document content after 20 interactions.
Average across all models: 50% content loss. pic.twitter.com/7KDwkTUVGT
Finding #2: Degradation depends on the domain.
— Philippe Laban (@PhilippeLaban) April 21, 2026
In most domains, models make sparse but critical errors that corrupt documents.
Python programming is the exception: most models can manipulate Python code losslessly.
We define "ready" = 98%+ preservation after 20 interactions.… pic.twitter.com/jt4k3GF6Fn
Finding #3: Giving LLMs tools doesn't help — it makes things worse.
— Philippe Laban (@PhilippeLaban) April 21, 2026
We tested LLMs with an agent harness with file read/write + code execution.
The 4 tested models degraded documents *more* with tools than without.
Why? Tool overhead = 2-5x more input tokens is more context to… pic.twitter.com/igQxA47HQG
Finding #4: Everything compounds.
— Philippe Laban (@PhilippeLaban) April 21, 2026
📏 Bigger documents → more degradation
⏳ Longer interaction → more degradation
📎 Distractor files → more degradation
And these multiply: the harm from larger documents snowballs 5x over the course of interaction.
Short evals dramatically… pic.twitter.com/JMFKi39XRB
Finding #5: It's not death by a thousand cuts.
— Philippe Laban (@PhilippeLaban) April 21, 2026
Models maintain near-perfect reconstruction in some rounds, then experience *critical failures* — losing 10% of contents in a single step.
These sparse critical failures explain ~80% of total degradation.
Stronger models don't… pic.twitter.com/9D220se7mm
Conclusion: Current LLMs are unreliable delegates.
— Philippe Laban (@PhilippeLaban) April 21, 2026
They introduce sparse but severe errors that compound and corrupt work documents.
We release DELEGATE-52 to encourage the study of delegated work across knowledge work domains:
💻 https://t.co/ymCmyzNsYG
🤗…
