Announcing skillgrade - the easiest way to evaluate your agent skills
— Minko Gechev (@mgechev) March 16, 2026
All you need is two commands:
skillgrade init # create evals
skillgrade # run them
By default evals run in a safe sandboxed docker containerhttps://t.co/NPVCKSFzNa pic.twitter.com/5PK2DAhTSs
AI 中文摘要Claude 生成
「Skillgrade」是一個用於評估 AI Agent 技能的開源工具,旨在簡化 Agent 能否正確發現和使用特定技能的測試流程。該工具提供了極簡的命令列介面,只需兩個指令就能初始化和執行評估測試。
工具的核心設計強調易用性。使用者只需執行 `skillgrade init` 來建立評估,再執行 `skillgrade` 來執行測試。預設情況下,評估會在安全的沙箱 Docker 容器中執行,保護使用者的本地機器環境。該工具支援多個主流 AI 模型,包括 Gemini、Claude 和 OpenAI 的 Codex,會根據設定的 API 金鑰自動偵測使用的 Agent。使用此工具需要 Node.js 20+ 和 Docker。
評估框架採用
