← 返回首頁
Philipp Schmid
Philipp Schmid
@_philschmid
376🔁 29
𝕏 (Twitter)🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

知識斷層與 Agent Skills 的解決方案

Google DeepMind 團隊針對大型語言模型(LLM)存在的知識斷層問題發布了 Gemini API developer skill。LLM 在特定時間點進行訓練後知識就固定了,而軟體工程領域變化迅速——新程式庫每天都在推出,最佳實踐也在不斷演進。這導致模型對自身的最新版本、SDK 變更和新興最佳實踐的認知出現嚴重落差,單靠模型自身無法解決這個問題。

Skill 的設計與功能

團隊構建的 Gemini API skill 包含以下核心內容:

  • 說明 API 的高階功能集
  • 描述各程式語言的最新模型和 SDK
  • 為每個 SDK 提供基礎範例程式碼
  • 列出文件進入點作為真實資訊來源

這套簡潔的基礎指令旨在引導 Agent 使用最新的模型和 SDK,同時透過指向官方文件來鼓勵取得即時資訊。使用者可透過 npm 指令直接安裝到專案中。

評測結果與效能提升

團隊建立了包含 117 組提示的評測框架,涵蓋 Agent 程式撰寫、聊天機器人、文件處理、串流內容和特定 SDK 功能等多個類別。評測分別在「原始模式」(直接提示模型)和啟用 skill 的模式下進行。

結果表明,Gemini 3.1 Pro 在啟用 skill 後通過率達到 95%,相比未啟用時的 28% 有顯著進步。Gemini 3.0 Pro 和 Flash 則從 6.8% 躍升至大幅提高的水準。較舊的 2.5 系列模型雖也受惠,但改善幅度遠低於新世代。這驗證了具備強大推理能力的現代模型能更有效地利用 skill 提供的知識。

在各個應用領域中,skill 都展現了廣泛的有效性,SDK 使用類別的通過率最低(95%),部分失敗案例涉及明確要求舊版 Gemini 2.0 模型的請求。

已知的侷限與挑戰

儘管初期成果令人鼓舞,但團隊指出了幾個需要改進的地方:

  • Vercel 的研究表明,透過 AGENTS.md 等檔案直接指令可能比使用 skill 更有效
  • 目前缺乏良好的 skill 更新機制,使用者需手動更新,長期可能導致舊資訊在工作區中累積,反而造成負面影響
  • 團隊正探索透過 MCP(Model Context Protocol)等其他方式提供 SDK 即時知識

後續方向

儘管存在這些問題,Google DeepMind 仍計畫在工作流程中採用 skill。Gemini API skill 雖然仍在早期階段,但團隊承諾會隨著模型更新而持續維護,並探索其他改進方案。團隊邀請開發者試用此 skill 並提供回饋意見,推動這項技術的進一步發展。