# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：anita · vellum.ai 👾🦾 (@anitakirkovska) · 平台：X (Twitter) · 日期：2026-06-19

> 原始來源：https://x.com/anitakirkovska/status/2067654220027744623

## 中文摘要

# 我是如何將 MiniMax 變成 Fable 5 的（成本降低 97%）

我一直在打造自己的 MiniMax 設定，它的表現比預期中更接近 Fable 5。

其中的秘訣就在於 SKILLs 和 plugins。🥘

我也試過 Kimi K2，但無論這些基準測試（benchmarks）怎麼說，它的效能表現根本無法相提並論：

![本圖表比較了 Fable 5、Opus 4.8、Kimi K2.6 與 MiniMax M3 在 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench、GPQA Diamond 及 MCP-Atlas 等多項基準測試中的得分表現。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/22edce818f0bb3ba.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Fable 5</th><th>Opus 4.8</th><th>Kimi K2.6</th><th>MiniMax M3</th></tr></thead><tbody><tr><td>SWE-Bench Verified</td><td>~95%</td><td>~88%</td><td>~80%</td><td>~80%</td></tr><tr><td>SWE-Bench Pro</td><td>~80%</td><td>~70%</td><td>~58%</td><td>~58%</td></tr><tr><td>Terminal-Bench</td><td>~84%</td><td>~72%</td><td>~67%</td><td>~66%</td></tr><tr><td>GPQA Diamond</td><td>~94%</td><td>~91%</td><td>~90%</td><td>~93%</td></tr><tr><td>MCP-Atlas</td><td>~83%</td><td>無資料</td><td>無資料</td><td>~74%</td></tr></tbody></table></details>

關於價格，我甚至不想多談。如果這個模型能透過我的一些 SKILLs/plugins 所帶來的 ✨je ne sais quoi✨（獨特魅力）達到我想要的效能，同時成本又比 Fable 低 90% 以上，那我絕對舉雙手贊成：

![MiniMax M3 與 Kimi K2.6 在輸入與輸出價格上顯著低於 Fable 5 與 Opus 4.8，其中 MiniMax M3 的促銷價格最低，而 Fable 5 擁有最大的 128K 最大輸出限制。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/b6ce850f25ad3742.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Input price / 1M tokens</th><th>Output price / 1M tokens</th><th>Context window</th><th>Max output</th></tr></thead><tbody><tr><td>Fable 5</td><td class="rank-bar num bar-w-100"><span class="bar-val">$10</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">$50</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">1M</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">128K</span></td></tr><tr><td>Opus 4.8</td><td class="rank-bar num bar-w-50"><span class="bar-val">$5</span></td><td class="rank-bar num bar-w-50"><span class="bar-val">$25</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">1M</span></td><td class="rank-bar num bar-w-50"><span class="bar-val">64K</span></td></tr><tr><td>Kimi K2.6</td><td class="rank-bar num bar-w-10"><span class="bar-val">$0.95 cache miss / $0.16 cache hit</span></td><td class="rank-bar num bar-w-10"><span class="bar-val">$4.00</span></td><td class="rank-bar num bar-w-30"><span class="bar-val">256K / 262,144</span></td><td class="rank-bar num bar-w-30"><span class="bar-val">32K default max_tokens</span></td></tr><tr><td>MiniMax M3</td><td class="rank-bar num bar-w-0"><span class="bar-val">$0.30 &lt;=512K promo / $0.60 &gt;512K promo</span></td><td class="rank-bar num bar-w-0"><span class="bar-val">$1.20 &lt;=512K promo / $2.40 &gt;512K promo</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">1M</span></td><td class="rank-bar num bar-w-0"><span class="bar-val">官方文件未明確公布</span></td></tr></tbody></table></details>

在本文的其餘部分，我將分享我最終建構的成果、我觀察到的一些現象，以及如何為你自己打造這類系統的建議。

## 我的發現摘要

我對這些測試的解讀是：Fable 能讓你開箱即用，體驗到那種「它就是能運作」的魔法。但只要經過一點工程處理，並搭配精心策劃的 SKILL.md 檔案，MiniMax 也能達到驚人的接近程度。

以下是我觀察到的一些模式：

1. MiniMax 有點囉唆（可以透過系統提示詞 system prompt 來修正）。

1. 只要有合適的 SKILL.md 檔案或 plugins，MiniMax 在程式撰寫上的表現可以跟 Fable 一樣好。

1. MiniMax 需要更多的引導。它傾向於要求確認，而不是直接採取行動。

1. 👍🏻 MiniMax 能夠可靠地使用工具（這對大多數知識型工作任務來說非常重要）。

1. 👎🏻 MiniMax 不擅長撰寫內容，但像這樣的優質 skill 可以提供幫助。

## 我是如何測試 MiniMax 的

在過去的三天裡，我一直使用該模型與我的助理（託管在 Vellum 中）共同建構了一些不同的東西。

Vellum 基本上是一個環境，我可以在其中為 Ava 提供 skills、plugins、工具和管道，讓她更像一個真正的助理，而不僅僅是一個聊天機器人。

以下是我們最終建構出的成果（我從沒想過開源模型能做到這些）：

1) 我讓我的助理監聽我的通話，並在我提到她時啟動 Agent

![這是一段關於協作工具中，使用者與名為「Ava」的 AI 助理進行任務交辦與進度回報的對話紀錄。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/3ec69062161d9fae.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個通訊軟體中的對話串（Thread），內容如下：
- Ava (VIP APP) 於週二下午 3:41 發送：
「Meeting notes on your call: https://app.notion.com/p/Impromptu-Google-Meet-Meeting-06-16-26-3819035c57bd81899344f0e2736aea30
On the tasks for me:
• Create Notion summary re: plugins + best practices; Slack link to Anita
Where should I send this? (Slack / Email / Notion)」

- anita (📅) 於週二下午 3:42 回覆：
「hey @Ava send this in this thread as a Notion link once you're done with it」

- Ava (VIP APP) 於週二下午 3:45 回覆：
「Done — Notion (you'll find it under Ava &gt; Insights and ideas): Plugins &amp; plugin best practices (Jun 16, 2026)」

畫面重點在於展示 AI 助理如何協助整理會議筆記、執行指定任務，並在協作平台中與使用者進行互動與確認進度。</div></details>

運作方式如下：

- Ava 會檢查是否有剛結束的 Fathom 通話。

- 每次通話後，她會掃描逐字稿，看看我是否提到了她。

- 如果有，她會決定是自己處理該任務，還是在 Slack 上 ping 我以獲取更多細節。

- 她還會在她的 workspace 中建立一個 Notion 摘要頁面，列出我需要後續跟進的事項。

基本上，我現在可以在會議中直接口頭提到我的助理，通話結束後她就會接收到指令。

Minimax 透過這個 AI 工程 SKILL，一次就成功建構了這個功能。

這是一個快速演示：

2) 我讓我的助理成為 CLI 工具專家

我最終將 ElevenLabs API 封裝在一個 CLI 工具中。在建構過程中，我的 Agent 還建立了一個 meta-CLI 工具，用來捕捉我未來建構更多 CLI 的流程。

這個 meta-CLI 對 MiniMax 來說非常有用。因為它不需要花費大量時間在「思考 token」上，而是可以遵循 SKILL.md，重複利用該流程，並在未來更可靠地建構更多 CLI。

![Meta-CLI 專案說明文件，旨在為 AI 代理提供標準化的 CLI 工具開發模式。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/83a8415b18b364b0.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">Meta-CLI
🛠️ A skill for shipping CLI tools + their agent-facing SKILL.md the right way.

Most public CLI repos hand you a binary and a half-written README. Meta-CLI is the missing layer above: a meta-skill that another AI agent (Claude, GPT, Vellum, anything) reads before it builds the next kalshi-cli or elevenlabs-cli.

If you're an agent picking up "build me a CLI for service X," start with SKILL.md.

🧭 What's in here

📦 One skill, the entire pattern. The decision tree, the CLI anatomy (subcommands, error model, --local mode), the SKILL.md format, the two-repo hygiene rules, the pre-flight checklist that catches the bugs v1 ships with, and the common-mistakes list distilling what other public CLIs got wrong.

🎯 Built for agents picking up concrete tasks. The skill isn't theory. It's a checklist another agent follows when an external service needs a generic, installable wrapper.

🚀 Generic install, generic look, generic feel. pip install git+https://github.com/AnitaKirkovska/Meta-CLI.git (or any clone path). Zero personal content in this repo. Zero proprietary bits. Strict separation from any private usage.</div></details>

3) 我讓我的助理在 Slack 上變得主動

我開始非常看好 plugins。建構並使用正確的 plugins 來擴展助理的基本能力，是非常強大的做法。

所以我建構的一個 plugin 是 proactive-slacks。目標是讓 Ava 在 Slack 上表現得更像一個真正的隊友，而不是一個在預定時間觸發的基礎 cron job。我希望她能建立一個流程，在需要確認、執行或詢問任何事情時主動聯繫我。

你可以設定頻率、ping 的層級等。以下是預設的路由：

- 靜音（Silent）：儲存起來，不要傳訊息給我。

- 僅供參考（FYI）：發布訊息，不強求採取行動。

- 詢問（Ask）：發布訊息，因為助理需要答案。

- 緊急（Urgent）：發布訊息並催促我採取行動。

Minimax 能夠連接到 Slack 和 Fathom，所以我認為這個模型的工具使用（tool-use）能力非常棒！

為了讓 Slack 上的資訊更有條理，我還為 Ava 建立了特定的頻道來查看並 ping 我：

![這是一張展示某通訊軟體介面中，關於「Ava」應用程式及其相關頻道列表的截圖。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d3acd7b8bd3f9d4f.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面左側為通訊軟體的導覽列，包含以下項目：
- Ava
- Team
- Marketing
- Direct messages
- Priority
- Social
- Customers

畫面中央彈出一個標題為「Read conversations」的視窗，列出了與「Ava APP」相關的頻道列表：
- ava-agent-cup（鎖頭圖示）
- ava-meeting-notes（鎖頭圖示）
- ava-misc（井字號圖示）
- ava-product（井字號圖示）
- ava-signups（鎖頭圖示）
- ava-socials（鎖頭圖示）

右上角可見部分文字內容：「Austria v Jordan: Ava nicks...」以及「more likely land at 10 decads」。該介面呈現了典型的團隊協作通訊工具佈局，透過鎖頭圖示區分私人或受限頻道，井字號則代表公開頻道。</div></details>

## 如何為你自己建構這種能力

在進行所有這些測試之前，我從沒想過開源模型能做到上述所有事情。看來開源模型已經迎頭趕上，而且這次是玩真的。

要讓它像 Fable 一樣可靠且「聰明」，你只需要花點時間在輕量級的 harness 之上搜尋或建構你自己的 SKILLs 和 plugins。

我的流程如下：

1. 我從一個輕量級的 harness 開始，例如 Vellum、OpenClaw 或 Hermes。

2. 我選擇一個我想讓助理處理的任務或流程。

3. 我在 SKILL.md 中撰寫該流程的第一個版本。

4. 我使用強大的程式撰寫模型（如 Claude 4.8）來改進 skill、精簡指令，或者告訴我何時需要一個 plugin 套件來實現新功能，而不僅僅是更好的引導。

5. 在另一個對話中，我切換到 MiniMax，並針對同一個任務測試相同的 skill 或 plugin。

6. 我執行幾次，觀察它在哪裡失敗，並不斷改進，直到它能可靠地運作。

7. 然後我重複這個過程：選擇另一個任務，建構輔助檔案，並不斷擴展助理的能力。

下次你執行該任務時，Minimax 和你的助理就會知道呼叫正確的 skills/plugins，表現得跟 Fable 一樣出色。

總結一下：Fable 在開箱即用方面仍然更好。

但只要將 MiniMax 置於像 Vellum 這樣結構化的助理環境中，再加上優秀的 skills 和 plugins，你就能在實際工作中獲得驚人的接近效果，並節省 90% 的成本！我認為這份努力是值得的！

如果你喜歡這篇文章，請在 X 上追蹤我。我會在 @anitakirkovska 分享更多類似的想法。

## 標籤

Skills, Benchmark, MCP, MiniMax, Fable, Kimi
