# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：SCOTTY BEAM (@ScottyBeamIO) · 平台：X (Twitter) · 日期：2026-06-18

> 原始來源：https://x.com/ScottyBeamIO/status/2066885278451519590

## 中文摘要

# Hermes Agent 完整指南：架構、設定與自我優化迴圈

AI 工具領域正悄悄形成一個新的類別：這些 Agent 不再侷限於你隨開隨關的聊天視窗中，而是持續在雲端運作，並透過通訊軟體與你對話，就像一位永遠不會下線的同事。

Hermes 是這個概念中相當有趣的實作之一。它與 OpenClaw 等同類 Agent 的最大區別在於內建了「自我優化迴圈」（self-improving loop）——這套系統會監控你的對話，從中提取有用的模式，並將這些模式轉化為對自身「記憶」與「skill」的永久性升級。

這篇文章將帶你了解 Hermes 的架構、如何進行設定，以及那個自我優化迴圈在底層是如何運作的。

---

## 什麼是 Hermes，它與 OpenClaw 有何不同？

Hermes 是一個雲端原生（cloud-resident）的 AI Agent，結構上與 OpenClaw 類似：它 24/7 全天候運作，你透過通訊軟體而非終端機或瀏覽器分頁與其互動。

它們之間有三個顯著的差異：

首先，Hermes 開箱即用，內建了規模大得多的 skill 庫，因此你不需要花太多時間自己串接整合。

其次，設定流程簡化許多——透過引導式的 TUI（終端使用者介面）幾乎可以處理所有事務。

第三，也是最重要的一點，Hermes 的設計核心在於持續的自我優化：它不僅僅是執行任務，還會隨著時間推移，累積關於如何更有效率執行任務的程序性知識。

---

## 安裝與初始設定

啟動 Hermes 只需要一行指令。

在 Windows 上，請在 PowerShell 執行：

> iex (irm https://hermes-agent.nousresearch.com/install.ps1)

在 Linux、macOS 或 WSL 上，對應的指令為：

> curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash

安裝完成後，重新啟動終端機並執行 `hermes setup`，即可啟動引導式設定流程，依序完成模型選擇、終端機後端、訊息閘道以及工具設定。

![終端機介面顯示 Hermes Agent 的安裝設定精靈，提供快速設定與完整設定兩種選項。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d429861266dc4279.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面為 Windows PowerShell 終端機視窗，顯示「Hermes Agent Setup Wizard」的設定流程。
文字轉錄如下：
PS C:\Users\Huawei&gt; hermes setup
┌──────────────────────────────────────────────────────────┐
│ ☤Hermes Agent Setup Wizard                              │
├──────────────────────────────────────────────────────────┤
│ Let's configure your Hermes Agent installation.          │
│ Press Ctrl+C at any time to exit.                        │
└──────────────────────────────────────────────────────────┘

How would you like to set up Hermes?
Select by number, Enter to confirm.

(●) 1. Quick Setup (Nous Portal) - free OAuth login, no API keys, model + tools (recommended)
(o) 2. Full setup - configure every provider, tool &amp; option yourself (bring your own keys)

Choice [default 1]:

畫面重點：此為一個命令列介面的安裝程式，使用者可以透過輸入數字選擇安裝模式。選項 1 為「快速設定」，透過 OAuth 登入，無需 API 金鑰；選項 2 為「完整設定」，需使用者自行配置各項服務提供者與金鑰。目前系統預設選擇為選項 1。</div></details>

---

## 模型選擇與路由

![這是一個終端機介面，列出了多種 AI 模型服務供應商供使用者選擇。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d6a84b1d21819b7c.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個文字介面，標題為「Select provider:」，提示使用者「Select by number, Enter to confirm.」。下方列出 32 個選項，每個選項前有圓圈標記，目前第 1 項「Nous Portal」被選中（顯示為綠色圓點）。

選項清單如下：
1. Nous Portal (Everything your agent needs, 300+ models with bundled tool use)
2. OpenRouter (Pay-per-use API aggregator)
3. NovitaAI (Cloud: Model API, Agent Sandbox, GPU Cloud)
4. LM Studio (Local desktop app with built-in model server)
5. Anthropic (Claude models via API key or Claude Code)
6. OpenAI (Codex CLI or direct OpenAI API)
7. Qwen Cloud / DashScope (Qwen + multi-provider)
8. xAI Grok (Direct API or SuperGrok / Premium+ OAuth)
9. Xiaomi MiMo (MiMo-V2.5 and V2 models: pro, omni, flash)
10. Tencent TokenHub (Hy3 Preview via tokenhub.tencentmaas.com)
11. NVIDIA NIM (Nemotron models via build.nvidia.com or local NIM)
12. GitHub Copilot (GitHub token API or copilot --acp process)
13. Hugging Face Inference Providers
14. Google Gemini (AI Studio API or OAuth + Code Assist)
15. DeepSeek (V3, R1, coder, direct API)
16. Z.AI / GLM (Zhipu direct API)
17. Kimi / Moonshot (Coding Plan, Moonshot global &amp; China endpoints)
18. StepFun Step Plan (Agent / coding models via Step Plan API)
19. MiniMax (Global, OAuth Coding Plan &amp; China endpoints)
20. Ollama Cloud (Cloud-hosted open models, ollama.com)
21. Arcee AI (Trinity models, direct API)
22. GMI Cloud (Multi-model direct API)
23. Kilo Code (Kilo Gateway API)
24. OpenCode (Zen pay-as-you-go or Go subscription)
25. AWS Bedrock (Claude, Nova, Llama, DeepSeek; IAM or API key)
26. Azure Foundry (OpenAI-style or Anthropic-style endpoint, your Azure AI deployment)
27. Qwen OAuth (Reuses local Qwen CLI login)
28. Alibaba Cloud Coding Plan (Dedicated coding tier)
29. custom (direct API)
30. Custom endpoint (enter URL manually)
31. Configure auxiliary models...
32. Leave unchanged

最下方顯示「Choice [default 1]: 」供使用者輸入選擇。</div></details>

設定中的第一個關鍵決策是選擇哪個大型語言模型供應商來驅動 Agent 的「大腦」。驗證方式採用 OAuth 而非原始 API key，這意味著你可以透過現有的 Claude Code 或 Codex CLI 工作階段直接登入，而無需另外產生 API key。

Hermes 設計得非常巧妙的一點是，它將用於主要對話的模型與用於背景及輔助任務的模型分開。預設情況下，兩者使用同一個模型，但每個輔助任務都可以獨立指定不同的供應商。

支援此類覆寫（override）的任務包括：

- vision – 影像分析與描述

- web_extract – 總結長篇網頁

- compression – 壓縮過長的對話 context

- title_generation – 產生工作階段標題

- curator – 負責自我優化迴圈的背景 Agent

- kanban_decomposer – 在 Kanban 模式下將大型任務拆解為子任務

- goal_judge – 負責檢查 `/goal` 是否真正達成的 Agent

這些設定直接在 `config.yaml` 中配置，例如：

```yaml
# 用於聊天與複雜推理的主要模型
model:
  provider: "anthropic"
  default: "claude-4-8-sonnet"
  auxiliary:
    vision:
      provider: "gemini"
      model: "gemini-2.5-flash"
    compression:
      provider: "custom"
      base_url: "http://localhost:11434/v1"
      api_key: "none"
      model: "qwen2.5:32b"
```

這種明確的路由機制解決了以 OpenRouter 作為預設選擇時的一個實際問題：同一個名義上的模型往往由許多不同的供應商部署，且經常採用不同的量化版本，OpenRouter 會在背後將每個新請求在約二十個實例間隨機切換。

實際影響是，在同一個工作階段中，你並非與一個穩定的模型對話，而是與一組配置各異的實例輪流對話，其中有些處理 tool call 和 prompt 模板的能力比其他更可靠。在 Hermes 內部進行手動路由可以完全避免這個問題。

![這是一個終端機介面的服務提供者選擇選單。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/de87f78c536b4fb5.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個文字介面的選單，提示使用者選擇服務提供者（Select provider），並說明透過輸入數字後按下 Enter 鍵進行確認。選項列表如下：
1. OpenAI Codex
2. OpenAI API
目前預設選項為 1，並提供一個輸入欄位供使用者輸入選擇（Choice [default 1]:）。</div></details>

值得一提的是，如果你想在不犧牲程式撰寫品質的前提下節省對話模型的費用，Hermes 支援 `/claude_code` 和 `/codex` 指令，將程式撰寫任務直接委派給這些 CLI 工具，而不是由配置的聊天模型處理。

![這是一張顯示「Hermes」命令列介面正在進行設定與模型選擇的終端機畫面。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/6a1217c1e9634688.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面為終端機操作介面，顯示內容如下：
Not logged into OpenAI Codex. Starting login...
Found existing Codex CLI credentials at ~/.codex/auth.json
Hermes will create its own session to avoid conflicts with Codex CLI / VS Code.
Import these credentials? (a separate login is recommended) [y/N]: y
Credentials imported. Note: if Codex CLI refreshes its token,
Hermes will keep working independently with its own session.
Config updated: C:\Users\Huawei\AppData\Local\hermes\config.yaml (model.provider=openai-codex)

Select default model:
Select by number, Enter to confirm.

(●) 1. gpt-5.5
(o) 2. gpt-5.4
(o) 3. gpt-5.4-mini
(o) 4. gpt-5.3-codex-spark
(o) 5. Enter custom model name
(o) 6. Skip (keep current)

Choice [default 1]: 

畫面重點：該工具（Hermes）正在進行登入認證與設定檔更新，目前處於選擇預設模型的選單介面，使用者可透過輸入數字選擇模型版本（包含 gpt-5.5、gpt-5.4 等選項）。</div></details>

---

## 終端機後端

![Hermes 代理程式的終端後端（Terminal Backend）設定選單介面。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2dd78415784d6a21.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個終端機介面，用於設定 Hermes 代理程式執行 Shell 指令與程式碼的後端環境。

文字轉錄如下：
◆ Terminal Backend
Choose where Hermes runs shell commands and code.
This affects tool execution, file access, and isolation.
Guide: https://hermes-agent.nousresearch.com/docs/developer-guide/environments

Select terminal backend:
Select by number, Enter to confirm.

(o) 1. Local - run directly on this machine (default)
(o) 2. Docker - isolated container with configurable resources
(o) 3. Modal - serverless cloud sandbox
(o) 4. SSH - run on a remote machine
(o) 5. Daytona - persistent cloud development environment
(●) 6. Keep current (local)

Choice [default 6]: 

畫面重點：此為一個互動式命令列介面（CLI），使用者可以透過輸入數字來選擇執行環境。目前預設選項為「6. Keep current (local)」，並在該選項前標示了綠色的選取符號。</div></details>

架構的核心部分是「終端機後端環境」（Terminal Backend Environment），它決定了 shell 指令和 Python 腳本實際執行的位置與方式，以及 Agent 如何存取你的檔案系統。Hermes 支援五種後端。

「Local」是預設選項。指令直接在你的電腦上執行，權限與你的使用者帳號相同——沒有隔離。這適合本地開發與受信任的個人使用，當你希望 Agent 直接編輯你的實際專案檔案時，這是正確的選擇。

此處的安全性完全依賴內建的審核系統，它會攔截破壞性指令（如 `rm -rf /` 或 `DROP TABLE`），並在執行前要求明確授權。

「Docker」會在隔離的沙盒中執行 Agent，因此它無法觸及你的主機系統。「SSH」則讓 Agent 透過遠端連線在遠端伺服器上執行指令並操作檔案。「Modal」將所有內容在無伺服器（serverless）的雲端沙盒中執行——你基本上是按秒租用運算資源，僅為程式實際執行的秒數付費。

「Daytona」是一個專為 AI 程式撰寫 Agent 打造的容器管理層；它比直接執行 Docker 更快，並能自動處理環境設定與相依套件安裝。

對於大多數個人使用場景，Local 確實已經足夠——其他選項主要是在你執行不受信任的程式碼或在團隊規模下運作時才顯得重要。

---

## 訊息閘道與工具設定

![這是一個終端機介面的配置選單，列出了多種可供設定的通訊平台選項。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1a542cf406ffae4c.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">該畫面顯示一個命令列介面（CLI）的配置選單，標題為「Select platforms to configure:」，提示使用者透過輸入數字進行切換，並按下 Enter 鍵確認。清單中列出了 23 個通訊平台，每個平台目前狀態皆標示為「(not configured)」。具體清單如下：
1. Telegram
2. Slack
3. Mattermost
4. WhatsApp
5. Signal
6. Email
7. SMS (Twilio)
8. DingTalk
9. Feishu / Lark
10. WeCom (Enterprise WeChat)
11. WeCom Callback (Self-Built App)
12. Weixin / WeChat
13. BlueBubbles (iMessage)
14. QQ Bot
15. Yuanbao
16. Discord
17. Google Chat
18. Home Assistant
19. IRC
20. LINE
21. ntfy
22. SimpleX Chat
23. Microsoft Teams
最下方顯示輸入提示：「Toggle # (or Enter to confirm): |」。</div></details>

設定完終端機後端後，下一步是選擇你與 Agent 對話的管道——Telegram 是目前最完善的選項。選擇它會給你一個直接連結，啟動一個預先配置好的機器人；無需手動設定 bot token。

![這是一個 Telegram 機器人建立流程的終端機介面，提供自動與手動兩種設定方式。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/3e61a423da146f2e.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個終端機介面，詢問使用者建立 Telegram 機器人的方式。文字內容如下：
◆ Telegram
How would you like to create your Telegram bot?

[1] Automatic (recommended)
Scan a QR code → confirm in Telegram → done.
No token copy-paste needed.

[2] Manual
Create a bot via @BotFather yourself and paste the token.

Choice [1/2] [1]:

畫面重點在於提供兩種建立機器人的路徑：選項 [1] 為自動化流程，透過掃描 QR Code 並在 Telegram 應用程式中確認即可完成，無需手動複製貼上 Token；選項 [2] 為手動流程，需自行透過 @BotFather 建立機器人並貼上 Token。目前系統預設選擇為 [1]。</div></details>

![這是一張名為「Hermes Agent PYRO TEST」的聊天機器人初始介面截圖。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/e927eee56761d9e4.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個聊天機器人的歡迎介面，標題為「Hermes Agent PYRO TEST」。介面中央有一個藍色區塊，圖示為程式碼符號「&lt;/&gt;」，背景帶有淡淡的機器人圖案。下方文字說明：「Hermes Agent PYRO TEST готов!」（Hermes Agent PYRO TEST 已準備就緒！）以及「Нажмите на Старт, чтобы протестировать чат-бота. Его поведение определяет NousHostedHermesBot.」（點擊「開始」以測試聊天機器人。其行為由 NousHostedHermesBot 定義。）介面頂部有「Установить фото профиля」（設定個人資料照片）的選項，底部則有一個「СТАРТ」（開始）按鈕。</div></details>

![這是一張顯示 CLI 工具功能選單的終端機介面截圖，列出了多項可啟用的自動化與整合功能。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/4256b27960617a30.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個名為「Tools for CLI」的設定選單，使用者可透過輸入數字來切換各項功能的啟用狀態（以 [✓] 表示啟用，[ ] 表示未啟用）。以下為完整清單：
1. 🔍 Web Search &amp; Scraping (web_search, web_extract) [✓]
2. 🌐 Browser Automation (navigate, click, type, scroll) [✓]
3. 💻 Terminal &amp; Processes (terminal, process) [✓]
4. 📁 File Operations (read, write, patch, search) [✓]
5. ⚡ Code Execution (execute_code) [✓]
6. 👁️ Vision / Image Analysis (vision_analyze) [✓]
7. 🎞️ Video Analysis (video_analyze (requires video-capable model)) [ ]
8. 🎨 Image Generation (image_generate) [✓]
9. 🎬 Video Generation (video_generate (text-to-video + image-to-video)) [ ]
10. 🐦 X (Twitter) Search (x_search (requires xAI OAuth or XAI_API_KEY)) [ ]
11. 🧠 Mixture of Agents (mixture_of_agents) [no API key] [ ]
12. 🔊 Text-to-Speech (text_to_speech) [✓]
13. 🧰 Skills (list, view, manage) [✓]
14. 📝 Task Planning (todo) [✓]
15. 💾 Memory (persistent memory across sessions) [✓]
16. ✳️ Context Engine (runtime tools from the active context engine) [ ]
17. 🔍 Session Search (search past conversations) [✓]
18. ❓ Clarifying Questions (clarify) [✓]
19. 🪢 Task Delegation (delegate_task) [✓]
20. ⏰ Cron Jobs (create/list/update/pause/resume/run, with optional attached skills) [✓]
21. 📧 Cross-Platform Messaging (send_message) [✓]
22. 🏠 Home Assistant (smart home device control) [no API key] [ ]
23. 🎵 Spotify (playback, search, playlists, library) [ ]
24. 🤖 Yuanbao (group info, member queries, DM) [ ]
25. 🖥️ Computer Use (macOS) (background desktop control via cua-driver) [✓]

畫面底部提示「Toggle # (or Enter to confirm):」，顯示該介面為互動式命令列選單。</div></details>

設定的其餘部分會引導你啟用個別工具及其對應的供應商——瀏覽器自動化、影像生成、文字轉語音以及網路搜尋。特別針對網路搜尋，自託管的 Firecrawl 或 Exa 是面向 Agent 的網頁擷取與檢索的強大選擇。

![這是一個瀏覽器自動化工具的設定介面，提供多種瀏覽器服務供應商供使用者選擇。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/8b67f34567f379d9.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個命令列介面（CLI），標題為「Browser Automation - Choose a provider」。系統要求使用者輸入數字以選擇瀏覽器供應商，預設選項為 1。詳細選項如下：
1. Local Browser [★ recommended · free] - Headless Chromium, no API key needed
2. Nous Subscription (Browser Use cloud) [subscription] - Managed Browser Use billed to your subscription ★via Nous Portal (login on select)
3. Camofox [free · local] - Anti-detection browser (Firefox/Camofox)
4. Browser Use [paid] - Cloud browser with remote execution
5. Browserbase [paid] - Cloud browser with stealth and proxies
6. Firecrawl [paid] - Cloud browser with remote execution
7. Skip - keep defaults / configure later

畫面重點在於讓使用者根據需求（免費/付費、本地/雲端、特殊功能）選擇自動化瀏覽器的執行環境。</div></details>

![這是一個終端機介面，提供用戶選擇不同的影像生成服務供應商。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ba983a556891eb87.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個命令列介面，提示用戶「Choose a provider:」（選擇供應商），並說明「Select by number, Enter to confirm.」（輸入數字並按 Enter 確認）。以下為各選項清單：
1. Nous Subscription [subscription] - Managed FAL image generation billed to your subscription ★ via Nous Portal (login on select)
2. FAL.ai [paid] - Pick from flux-2-klein, flux-2-pro, gpt-image, nano-banana, etc.
3. Krea [paid] - Krea 2 foundation model - Medium ($0.03) + Large ($0.06). Strong style transfer + moodboards.
4. OpenAI [paid] - gpt-image-2 at low/medium/high quality tiers
5. OpenAI (Codex auth) [free] - gpt-image-2 via ChatGPT/Codex OAuth - no API key required
6. xAI Grok Imagine (image) [paid] - grok-imagine-image - text-to-image; uses xAI Grok OAuth or XAI_API_KEY
7. Skip - keep defaults / configure later
最下方顯示「Choice [default 1]:」，等待用戶輸入。</div></details>

![這是一個文字介面選單，提供使用者選擇不同的文字轉語音（Text-to-Speech）服務供應商。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d3cae7b91a1c6a1d.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個命令列介面（CLI），標題為「--- Text-to-Speech - Choose a provider ---」。下方提示使用者「Choose a provider: Select by number, Enter to confirm.」。

清單內容如下：
1. Microsoft Edge TTS [★ recommended · free] - Good quality, no API key needed [active]
2. Nous Subscription [subscription] - Managed OpenAI TTS billed to your subscription ★ via Nous Portal (login on select)
3. OpenAI TTS [paid] - High quality voices
4. xAI TTS - Grok voices - uses xAI Grok OAuth or XAI_API_KEY
5. ElevenLabs [paid] - Most natural voices
6. Mistral (Voxtral TTS) [paid] - Multilingual, native Opus
7. Google Gemini TTS [preview] - 30 prebuilt voices, controllable via prompts
8. KittenTTS [local · free] - Lightweight local ONNX TTS (~25MB), no API key
9. Piper [local · free] - Local neural TTS, 44 languages (voices ~20-90MB)
10. Skip - keep defaults / configure later

最下方顯示「Choice [default 1]: 」等待使用者輸入。目前選項 1 已被標記為 active。</div></details>

![這是一個終端機介面的設定選單，用於選擇網路搜尋與資料提取的服務供應商。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/9625631046b68dd1.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個名為「Web Search &amp; Extract - Select Search Provider」的設定選單，提示使用者透過輸入數字來選擇搜尋服務供應商。以下為選項清單：
1. Nous Subscription [subscription] - Managed Firecrawl billed to your subscription ★ via Nous Portal (login on select)
2. Firecrawl Self-Hosted [free · self-hosted] - Run your own Firecrawl instance (Docker)
3. Brave Search (Free) [free] - Free-tier API key - 2k queries/mo, search only.
4. DuckDuckGo (ddgs) [free · no key - search only] - Search via the ddgs Python package - no API key (pair with any extract provider)
5. Exa [paid] - Semantic + neural web search with content extraction.
6. Firecrawl [paid · optional gateway] - Full search + extract; supports direct API and Nous tool-gateway routing.
7. Parallel [paid] - Objective-tuned search + parallel page extraction.
8. SearXNG [free · self-hosted] - Free, privacy-respecting metasearch. Point SEARXNG_URL at your instance.
9. Tavily [paid] - Search + extract in one provider.
10. xAI Web Search (Grok) [paid] - Agentic web search via Grok's web_search tool - uses xAI Grok OAuth or XAI_API_KEY.
11. Skip - keep defaults / configure later

最下方顯示「Choice [default 1]:」，等待使用者輸入。此介面旨在讓使用者根據需求（付費、免費、自架或特定 API）配置搜尋與網頁內容提取工具。</div></details>

X（原 Twitter）搜尋需要訂閱 Grok 才能啟用，在選單中尋找它之前請先留意這點。

![這是一個終端機介面，用於設定 X (Twitter) 搜尋功能的 xAI 憑證來源。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/8c740f4e9045f027.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個名為「X (Twitter) Search - Select xAI Credential Source」的設定選單。文字內容如下：
「Hermes routes X searches through xAI's built-in x_search Responses tool. Both credential sources hit the same https://api.x.ai/v1/responses endpoint - pick whichever you already have. SuperGrok OAuth is preferred when both are set (uses your subscription quota instead of API spend).

Select xAI Credential Source:
Select by number, Enter to confirm.

(●) 1. xAI Grok OAuth (SuperGrok / Premium+) [subscription] - Browser login at accounts.x.ai - no API key required
(o) 2. xAI API key [paid] - Direct xAI API billing via XAI_API_KEY
(o) 3. Skip - keep defaults / configure later

Choice [default 1]: 」

畫面重點：這是一個 CLI（命令列介面）的設定步驟，使用者需在三種憑證來源中選擇一種：使用現有的訂閱帳號 (OAuth)、使用付費 API 金鑰，或是跳過此設定。系統建議優先選擇第一項，以利用既有的訂閱額度。</div></details>

---

## 值得了解的 Slash 指令

Hermes 內建了長長的 slash 指令清單，大多數從名稱就能看出用途，但有幾個特別值得一提：

1. `/background <prompt>`：在背景執行任務，不會中斷你的主要對話。

1. `/goal`：設定一個 Agent 將持續努力實現的長期目標，並包含暫停、恢復、清除或檢查狀態的子指令。

1. `/subgoal`：管理隸屬於活躍目標下的較小目標。

1. `/kanban`：在多個獨立的 Agent 之間協調非同步、長時間運行的工作——運作方式就像真正的 Kanban 看板，任務池會分配給不同的工作 Agent，並在它們之間移轉，經歷「待辦」、「進行中」與「已完成」的狀態。

在開發方面，`/github_pr_workflow` 處理從分支到合併的完整週期（包含 CI），`/github_code_review` 審查 pull request，而 `/codebase_inspection` 則分析儲存庫的語言分佈與程式碼行數。`/dogfood` 是一種專門的 QA 模式，用於尋找網頁應用程式中的 bug 並產生一份有憑有據的報告。`/spike` 執行快速、拋棄式的實驗來驗證想法，避免過早投入全面開發；而 `/systematic_debugging` 則透過四個階段處理 bug，在嘗試修復前先釐清根本原因。

此外還有一組特定整合的指令——`/notion`、`/obsidian`、`/airtable`、`/google_workspace`、`/arxiv`、`/blogwatcher`、`/polymarket`、`/ocr_and_documents`、`/youtube_content`——每個指令都封裝了特定的外部服務或工作流程，加上 `/bundles`，它能透過小型 YAML 設定檔將多個現有的 skill 組合在一個 slash 指令下。

---

## Cron jobs 與 Webhooks

有兩個自動化原語值得特別關注。

- Cron jobs 讓你排程腳本在特定時間執行；如果你在建立時加上 `-no-agent`，Hermes 將執行純 Python 或 bash 腳本，並直接將輸出轉發到你的通訊軟體，完全不會消耗任何 LLM token。

- Webhooks 是更強大的功能：它們讓 Agent 能對外部事件做出反應，而非僅依賴計時器。你可以設定一個 webhook，例如讓新的 GitHub pull request 自動觸發一個帶有特定 prompt 與 skill 的 Agent——這有效地建立了一個無需人工介入的「隨叫隨到」審查 Agent。

---

## Context Engines

Context engine 決定了當對話歷史接近模型的 token 上限時，Hermes 如何壓縮與管理這些歷史紀錄，目前有兩個選項。

- 預設的「Compressor」會對長對話的中間部分進行有損總結（lossy summarization）。

- 另一種「LCM」（Lossless Context Management，無損 context 管理）則採取結構上完全不同的方法：它不產生文字總結，而是建立一個對話關鍵點的「有向無環圖」（DAG），讓 Agent 能從高度壓縮的概覽，向下導航至支援該概覽的原始訊息。

![這是一張展示樹狀結構（Tree Structure）的示意圖，呈現了從根節點延伸至子節點與訊息節點的層級關係。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/f4848001c56e692d.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片顯示了一個簡單的樹狀結構圖表，由上而下分為三個層級：
1. 最頂層為「Root」。
2. 第二層包含兩個節點，分別標示為「Node1」與「Node2」。
3. 第三層為葉節點，在「Node1」下方連接了「msg1」、「msg2」、「msg3」，並以「...」表示後續還有更多節點。
此圖表主要用於說明資料結構或訊息分層的邏輯關係。</div></details>

---

## Memory Engines

外部記憶體供應商與 Hermes 內建的本地記憶體檔案（`MEMORY.md` 與 `USER.md`）並行運作，增加了語意搜尋與知識圖譜等功能。

其中幾種可以直接透過設定 TUI 進行配置：

1. **Honcho**：圍繞著建立詳細的使用者畫像進行建模，利用背景 LLM 呼叫在兩個層面上綜合觀察結果：基礎層（工作階段總結與畫像）以及辯證層（分析使用者當前的需求）。

2. **OpenViking**：一個 context 資料庫，建立檔案系統風格的知識層級，支援分層 context 檢索，並在每個工作階段結束時自動將提取的事實分類為六大類——事件、模式、偏好等。

3. **Mem0**：一個全託管的雲端記憶體服務；事實提取透過 LLM 在伺服器端進行，並包含語意搜尋、結果重新排序與自動去重功能，不過由於是雲端託管，它是此清單中唯一有經常性費用的選項。

4. **Hindsight**：一個基於知識圖譜的進階長期記憶系統，採用 GraphRAG 風格。它從工作階段中提取實體、建立關係，並保留完整的對話輪次（包含 tool call），記憶分為四類：關於世界的知識、Agent 自身的經驗、觀點與觀察。

5. **Holographic**：一個基於 SQLite 的本地事實儲存庫，無外部相依性，包含儲存事實的信任評分系統，並使用「全像縮減表示法」（Holographic Reduced Representations）來支援代數式的組合查詢，且具備自動偵測知識庫內矛盾的能力。

6. **RetainDB**：一個用於團隊記憶的雲端 API，提供跨向量、BM25 與重新排序方法的混合搜尋，記憶分為七種不同類型，並透過增量壓縮保持儲存效率。

7. **ByteRover**：一個透過 CLI 存取的便攜式本地記憶體系統，建立層級化知識樹，並在有損壓縮將事實從 context 中移除前提取重要資訊。

8. **Supermemory**：提供具備圖譜 API 的語意長期記憶：它在對話結束後讀取完整的工作階段日誌以建立知識圖譜，定期清理已回憶的事實以避免當前輪次的污染，並能將記憶隔離在每個 Agent 設定檔的獨立容器中。

對於日常使用，預設的本地記憶體對大多數人來說已經足夠——較重的系統是用真實的資源成本（特別是本地託管選項的記憶體）來換取大多數工作流程尚不需要的功能。

---

## 自我優化迴圈

這是 Hermes 與傳統 Agent 最顯著的區別：一套非同步的背景程序，持續分析你的對話，從中提取有用的模式，並將這些模式寫入長期記憶與程序性記憶（skill）中——然後維護這些累積的知識，使其不會隨時間衰退。整個系統與你的主要聊天視窗並行運作，由三個組件構成：觸發系統、背景審查 Agent 與管理員（Curator）。

- **觸發系統**

Hermes 不會即時分析每一則訊息，因為那樣會徒勞地消耗 token。相反地，它依賴兩個計數器，一旦超過閾值就會觸發反思流程。

「記憶觸發器」每十個使用者 prompt 觸發一次，檢查對話中是否出現了值得儲存的新事實。

「skill 觸發器」在單一輪次中每進行十次 tool call 迭代就會觸發，基於一個理論：如果 Agent 剛花了這麼多步驟透過試錯來解決問題，那麼這些經驗就值得分析，並可能轉化為可重複使用的 skill。

一旦任一計數器達到上限，內部函式就會啟動，將當前對話的快照交給背景審查程序。

- **背景審查 Agent**

這個快照會傳送到一個完全獨立、隔離的 Agent 程序，它在背景並行運作，不會中斷你的主要工作階段。它從兩個方向運作：

1. 在「宣告式」方面，如果它注意到新的使用者偏好或環境細節（例如對 Supabase 的偏好、固定使用 Python 3.12 的專案），它會更新 `MEMORY.md` 或 `USER.md`。

2. 在「程序性」方面，如果它偵測到 Agent 剛解決了一個非瑣碎的問題或完成了一個複雜的流程，它可以建立一個新的 skill、編輯現有的 skill、應用針對性的修補程式，或直接刪除某個 skill。它建立的任何 skill 都會被明確標記為「Agent 生成」，因此其來源始終可追溯。

為了讓管理員（Curator）最終能判斷哪些自生成的 skill 值得保留，Hermes 維護了一個隱藏的使用日誌，追蹤每個 skill 的：載入 prompt 的次數、Agent 讀取它的次數、編輯次數，以及建立、最後使用與最後編輯的時間戳記。

- **管理員（Curator）**

如果放任不管，這個程序最終會產生數百個 skill，其中有些是重複的，有些則已過時。

管理員的存在就是為了防止知識庫退化。它僅在兩個條件同時滿足時啟動：距離上次執行已過足夠長的時間（預設為七天），且主要 Agent 已閒置足夠久（預設為兩小時），確保繁重的維護工作不會干擾活躍的工作。

在進行任何變更前，它會自動備份整個 skill 目錄，因此任何不理想的結果都可以透過單一終端機指令還原。

管理員的工作分為兩個階段：

- 第一階段純粹是機械性的，完全不涉及 LLM 呼叫：它檢查使用指標，將任何超過 30 天未使用的 Agent 生成 skill 標記為「已棄用」（deprecated），並將超過 90 天未使用的內容移至封存資料夾。重要的 skill 可以明確「釘選」以保護它們免受此程序的影響。

- 第二階段是真正的 LLM 審查，透過另一個隔離的 Agent 實例執行，使用為管理員輔助任務配置的模型——預設與主要對話使用同一個模型，但也可以指向更便宜的模型。這裡建議謹慎選擇，因為這些決策的品質對 skill 庫有深遠的影響。

對於每個 skill，管理員會決定：如果它仍然準確且有用，則保持原樣；如果包含錯誤或過時的方法，則進行修正；如果與另一個 skill 內容重疊，則將其合併（過程中會正確遷移相關的腳本、評估程式或參考檔案，並重寫相對路徑）；或者直接封存。

在週期結束時，它會產生一份詳細報告，包含一份重新命名對照表，精確顯示合併後舊 skill 名稱如何對應到新名稱，確保每個決策背後的邏輯皆可審計。

---

## 如何善用 Hermes

像這樣的雲端 Agent 對於任何你可以 24/7 運作的流程都極具價值（程式撰寫工作是個顯著的例外）——前提是你必須謹慎地將該流程數位化，並圍繞它建立紮實的 skill，包括評估機制。

容易產生良好結果的工作流程大致如下：

1. 從詳細記錄自己從頭到尾執行流程的過程開始，最好使用聽寫工具以確保準確捕捉——且此步驟僅在你真正理解該流程或已妥善研究過時才有效。

2. 將該錄音或筆記輸入給使用 skill 建立工具的程式撰寫 Agent，以產生初稿；它還不足以直接交接，特別是對於複雜的任務。

3. 建立評估機制（evals）——代表正確結果的參考解答——因為這才是讓你真正衡量 skill 是否表現良好，而非盲目猜測的依據。

4. 在測試環境中執行 skill，並根據觀察結果優化評估機制與 skill 內容，大部分編輯工作應由人工完成，而非委派給 Agent。

5. 只有當 skill 行為表現一致且具確定性時，才應將其交給全天候運作的 Agent。如果流程依賴某些外部服務，在從零開始建構之前，值得先確認是否已有現成的 MCP server 或 CLI 支援。

更廣泛的觀點是，你可以交給這類 Agent 的任務範圍，主要受限於你定義工作的能力，而非 Agent 本身的原始能力。

三個原則在各種使用場景中似乎都適用：不要將程式撰寫工作外包給無人監管的 24/7 雲端 Agent、保持人類在迴圈中審查 Agent 的產出，並將 skill 優化視為持續性的工作，而非一次性完成就丟在一邊的事。

---

如果這篇文章對你有幫助，請加入書籤。你會想回頭參考它的。

想看更多類似的深度解析，請追蹤 @ScottyBeamIO

沒有廢話，只有真正有效的內容。

## 標籤

Agent, Hermes Agent, 教學資源, 記憶系統, 開源專案, Hermes Agent, OpenClaw