# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI Developers (@OpenAIDevs) · 平台：X (Twitter) · 日期：2026-05-28

> 原始來源：https://x.com/OpenAIDevs/status/2059638868983562640

## 中文摘要

OpenAI 與 Thrive 用 Codex 打造自我改進稅務 Agent。

OpenAI 的技術人員 Aravind Srinivasan、Samay Shamdasani、Arthur Fernandes Araujo 與 John de Wasseige 共同發表文章，詳細說明如何透過「專家回饋」、「生產追蹤（Production Traces）」與「Codex 驅動的迭代迴圈」三大支柱，打造能隨時間自我改進的稅務 Agent。此系統在 Crete 旗下 30 多家會計師事務所進行實測，處理了 7,000 份稅務申報，成功將稅務準備效率提升約 50%，並大幅降低人工修正需求。

**核心問題與挑戰**
在實際生產環境中，系統往往會遇到實驗室階段難以預測的邊緣案例（edge cases）。過去，工程師必須手動介入以修正錯誤，導致回饋迴圈緩慢且缺乏效率。隨著稅務準備工作日益複雜（如處理 K-1 表格、租賃房地產排程等），單純依賴人工修正已無法應對，系統需要具備將生產數據轉化為結構化訊號的能力，以實現自主優化。

**三大支柱的運作機制**
為了建立自我優化系統，團隊設計了以下三個關鍵層面：
- **緊密連結專業人員**：會計師的直覺與專業知識是系統學習的導航，透過他們在日常工作中的修正，系統能精準識別哪些錯誤具備優化價值。
- **建立生產追蹤機制**：系統不僅記錄輸入與輸出，更完整保留從原始文件、欄位提取、來源證明到最終提交與專家修正的完整路徑。
- **Codex 驅動的迭代迴圈**：將生產過程中的錯誤轉化為結構化的「評估目標（eval targets）」。Codex 隨後會自動調查根本原因、提出程式碼修正建議，並在通過回歸測試後提交 PR（Pull Request）供工程師審核。

**實際應用案例：租賃房地產申報**
以「租賃房地產收入（Schedule E）」為例，系統透過以下步驟實現自我優化：
1. **捕捉修正差異**：系統記錄 Agent 預測值與會計師最終申報值的差異，並將其轉化為結構化資料。
2. **分組錯誤類型**：系統會自動將相似的修正進行分組，區分出「重複性的產品錯誤」與「預期的工作流程雜訊」。
3. **Codex 介入修正**：當評估管道（eval pipeline）偵測到特定欄位（如「公平租賃天數」）持續出錯時，Codex 會自動檢查提取架構、映射行為及程式碼路徑，並實作針對性修復，最後執行評估以驗證修正成效。

**技術影響與未來展望**
Tax AI 的成功證明了 Agent 能夠透過生產環境中的真實數據進行持續演進。數據顯示，系統在六週內將 75% 準確率的申報案件比例從 25% 提升至 86%。這種模式不僅節省了會計師的時間（有會計師的準備時間從 180 小時降至 15 小時），更讓專業人員能將精力轉向高價值的客戶服務。目前，Thrive Holdings 正將此三階段設計藍圖推廣至記帳、審計及 IT 技術支援等其他領域，驗證了由人類引導、AI 自主學習的 Agent 發展路徑。

## 標籤

Agent, AIGC, Codex, 研究論文, OpenAI, Thrive, Crete
