# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Yifan Yang (@Yif_Yang) · 平台：X (Twitter) · 日期：2026-05-26

> 原始來源：https://x.com/Yif_Yang/status/2058918317918998795

## 中文摘要

SkillOpt 將skill文件轉化為 AI 參數。

SkillOpt 是一種針對 AI Agent skills的「文字空間優化器」，它將自然語言skill文件視為可訓練的外部參數，而非直接微調模型權重。該系統透過「滾動（Rollout）」收集執行證據，並利用「反思（Reflection）」進行語言層面的反向傳播，確保skill更新的穩定性與可控性。

**核心運作機制**
- **skill定義**：技能被定義為插入 Agent 上下文的自然語言策略，在直接對話中置於系統指令前，在工具使用中則作為程序性記憶。
- **訓練流程**：
    1. 收集包含工具呼叫、驗證回饋與評分的批次資料（Minibatches）。
    2. 由優化器模型提出結構化編輯（Add/Delete/Replace）。
    3. 經由「保留驗證集（Held-out validation gates）」測試後才接受更新，拒絕的編輯會轉化為負向回饋存入緩衝區。
- **優化控制**：引入「有界編輯（Bounded Edits）」作為文字學習率，並透過 epoch-wise 的緩慢更新（Slow update）與元技能（Meta skill）保留長期規律，防止無限制重寫導致的過擬合。

**效能與遷移能力**
- **基準測試表現**：在 6 個基準測試（如 SearchQA、SpreadsheetBench、ALFWorld 等）與 7 種目標模型下，SkillOpt 在 52/52 種測試情境中均達到最佳或並列最佳結果。
- **跨場景遷移**：實驗證明技能具備模型無關性與環境通用性。例如，使用 GPT–5.4 訓練的試算表技能遷移至 Claude Code 時，效能提升了 59.7 點；OlympiadBench 技能在 [Omni-MATH](https://arxiv.org/html/2605.23904#bib.bib38) 上亦表現出正向增益。
- **輕量化部署**：最終產出的 `best_skill.md` 僅需 300 至 2,000 tokens，不僅便於人類審計，且部署時無需額外的優化器呼叫或權重更新。

**開發與使用指引**
開發者可透過以下步驟進行安裝與訓練：
1. 複製程式庫：
   ```bash
   git clone https://github.com/microsoft/SkillOpt.git
   cd SkillOpt
   pip install -e .
   pip install -e ".[alfworld]"
   alfworld-download
   ```
2. 訓練指令範例：
   ```bash
   python scripts/train.py \
       --config configs/searchqa/default.yaml \
       --split_dir /path/to/your/searchqa_split \
       --azure_openai_endpoint https://your-resource.openai.azure.com/ \
       --optimizer_model gpt-5.5 \
       --target_model gpt-5.5
   ```
3. 評估指令範例：
   ```bash
   python scripts/eval_only.py \
     --config configs/searchqa/default.yaml \
     --skill outputs/my_run/best_skill.md \
     --split valid_unseen \
     --split_dir /path/to/searchqa_split \
     --azure_openai_endpoint https://your-resource.openai.azure.com/
   ```

**技術反思**
作者群（Yifan Yang, Ziyang Gong 等人）強調，深度學習的類比在 SkillOpt 中是操作性的，而非僅是裝飾。他們批評現有的手寫或一次性（One-shot）技能在複雜執行環境中過於脆弱，並指出「反饋驅動的技能編輯」與「拒絕編輯記憶」是提升程序性任務表現的關鍵。相關詳細資訊可參考 [專案官網](https://aka.ms/skillopt) 或 [論文連結](https://huggingface.co/papers/2605.23904)。

## 標籤

Skills, Agent, 研究論文, 開源專案, SkillOpt