← 返回首頁

LLMs委託編輯文件時會腐敗內容

Philippe Laban
Philippe Laban
@PhilippeLaban
462🔁 87
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

LLMs委託編輯文件時會腐敗內容。

新論文「LLMs Corrupt Your Documents When You Delegate」透過DELEGATE-52基準測試,模擬52個專業領域的長時程委託工作,揭示即使頂尖LLMs如Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4,在20次互動後仍腐敗25%文件內容,平均模型達50%,證明當前LLMs不適合可靠委託編輯。

DELEGATE-52基準設計

DELEGATE-52包含310個工作環境,橫跨52個專業領域,包括結晶學文件、音樂記譜法、會計分類帳、Python原始碼等,每環境有真實文件與5-10個複雜可逆編輯任務。

  • 核心評估機制:前向編輯後接反向編輯(round-trip),鏈結10輪模擬20次LLM互動,最終比較恢復文件與原始版本,使用領域特定評估器測量保存度。
  • 公開資料集:Hugging Face上的microsoft/delegate52,含234個環境(48領域),剩餘76個因授權限制未公開;每個環境包括種子文件(2-5k token)、1629對編輯指令、干擾文件(distractor context)。
  • 程式庫功能:GitHub microsoft/DELEGATE52提供run_relay.py(多輪模擬)、model_agentic.py(含工具的Agent harness)、52個領域解析器與提示模板。

主要發現一:所有模型隨時間腐敗文件

測試19個LLMs(來自OpenAI、Anthropic、Google、Mistral、xAI、Moonshot),無一例外地使文件退化。

  • 頂尖模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4)在20次互動後腐敗25%內容。
  • 所有模型平均損失50%內容,使用Reconstruction Score (RS@k)測量領域特定相似度。
  • Python程式領域例外:多數模型可無損操作Python程式碼,但其他領域模型製造稀疏卻關鍵錯誤,導致文件腐敗。

主要發現二:領域依賴性與「就緒」標準

退化程度依領域而異,多數領域模型犯下稀疏但致命錯誤,只有Python例外。

  • 定義「就緒」為20次互動後98%以上保存度,最佳模型Gemini 3.1 Pro僅在11/52領域達標。
  • 領域類別:程式碼與配置(11,如dbschema、docker)、科學工程(11,如crystal、protein)、創意媒體(11,如musicsheet、subtitles)、結構化記錄(11,如accounting、spreadsheet)、日常(8,如chess、recipe)。

主要發現三:工具與Agent harness惡化問題

提供工具(檔案讀寫、程式碼執行)的Agent harness非但無助,反而加劇文件腐敗。

  • 4個測試模型在使用工具時退化更嚴重,因工具開銷導致輸入token增加2-5倍,提供更多遺失上下文的機會。
  • 模型仍偏好手動檔案寫入,顯示透過程式碼執行的計算編輯仍具挑戰性,無法彌補核心缺陷。

主要發現四:多重因素疊加放大損害

退化非線性累積,而是多因素乘數效應,短評估嚴重低估真實世界損害。

  • 更大文件→更多退化。
  • 更長互動→更多退化。
  • 干擾文件→更多退化。
  • 放大效應:大型文件損害在互動過程中雪球式放大5倍。

主要發現五:稀疏關鍵失敗主導損失

非千刀萬剮,而是偶發災難性失敗。

  • 模型某些輪次近完美重建,卻在單步驟丟失10%內容,此類稀疏關鍵失敗解釋總退化80%。
  • 強模型優勢在於延後災難,而非更好避免小錯誤。

論文結論與作者立場

當前LLMs是不可靠委託代理,引入稀疏嚴重錯誤,隨時間複合腐敗工作文件,顛覆知識工作委託範式(如vibe coding)的信任基礎。論文強調DELEGATE-52揭示AI系統尚未準備好長時程委託工作,呼籲研究社群利用此基準推動改進。

資源釋出與使用指南

完整資源免費公開,鼓勵擴展與再現。

意圖用途與範圍限制

DELEGATE-52專為評估LLMs忠實編輯專業文件設計,適合再現實驗、測試新模型或新增領域。

  • 不適合:模擬人類-LLM真實互動、取代人類研究、高風險決策(如執法、法律、金融、醫療),或商業應用未經進一步測試。
  • 限制:僅英文、需自備LLM存取、無系統性防護提示注入攻擊、公開版234/310環境。
  • 最佳實踐:小規模實驗、使用--num_workers並行、優先Azure OpenAI等負責任AI服務。

貢獻與引用指引

歡迎社群貢獻擴充領域、改善評估器或新增工作環境,參閱論文附錄了解種子文件標準、可逆編輯規則。

  • 貢獻流程:閱讀附錄、提交Pull Request,需同意CLA。
  • 引用:
@article{laban2026delegate52,
  title={LLMs Corrupt Your Documents When You Delegate},
  author={Laban, Philippe and Schnabel, Tobias and Neville, Jennifer},
  journal={arXiv preprint arXiv:2604.15597},
  year={2026},
  url={https://arxiv.org/abs/2604.15597}
}

此基準不僅量化LLMs委託編輯的系統性失效,還提供可重現工具,凸顯當前人工智慧在專業文件處理上的根本不穩定,敦促產業與學界正視長時程互動的可靠性危機。論文透過嚴謹模擬與大規模測試,無情揭露即使前沿模型也無法維持文件完整,挑戰委託工作樂觀敘事。DELEGATE-52的52領域廣度確保結果具代表性,從Python的相對成功到會計分類帳的頻繁崩潰,精準捕捉領域差異。工具實驗更證實Agent harness的虛假希望,token開銷放大錯誤機率,強化核心論點:LLMs尚未準備好取代人類監督編輯。隨著文件規模與互動延長,雪球效應與關鍵失敗機制解釋退化軌跡,短評估的誤導性警示研究者重視真實情境。Microsoft Research的釋出策略開放且負責任,排除高風險濫用,同時邀請貢獻,預期驅動下一波改進浪潮。總體而言,此工作不僅是技術貢獻,更是對LLMs委託範式可靠性赤裸批判,迫使領域反思信任邊界。