← 返回首頁

HERMES AGENT:NOUS RESEARCH 打造的開源自主 AI 智能體

Mr Panda
Mr Panda
@PandaTalk8
234🔁 51
𝕏 (Twitter)🔥🔥🔥

AI 語音朗讀 · Edge TTS

HERMES AGENT:NOUS RESEARCH 打造的開源自主 AI 智能體

一個能在你的伺服器上 24/7 運行、跨 14+ 平台通訊、自己學會新技能的 AI Agent。

為什麼要關注 HERMES AGENT?

當下的 AI 程式撰寫工具——無論是 Cursor、Claude Code 還是 GitHub Copilot——都有一個共同點:它們依賴你的 IDE 和筆記型電腦。你關上電腦,AI 就停止工作了。

Hermes Agent 要解決的正是這個限制。它由 AI 開源研究組織 Nous Research 開發,是一個可以脫離 IDE 獨立運行的自主 AI Agent。你可以把它部署在 VPS 上、Docker 容器裡、甚至 HPC 集群中,讓它透過 Telegram、Discord、Slack 等平台隨時待命,接受你的指令。

更關鍵的是,它開源免費,你可以接入任何 LLM 提供商——OpenAI、Anthropic、DeepSeek、本地模型,隨時切換,沒有鎖定。

(插入小廣告 )

我會在社群分享各種 AI 程式撰寫技巧和 AI 內容分析,去年搞流量,今年帶大家搞 AI。我認為搞 AI 最一勞永逸的方式就是學會用 AI 程式撰寫,這是一項元技能,學會這個,你就可以用 AI+Coding 理解和去做一切你想做的事。

(廣告結束)

HERMES AGENT 是什麼?

簡單來說,Hermes Agent 是一個基礎設施級的 AI Agent平台,具備以下核心特徵:

  • 多平台通訊:透過統一閘道器連接 14+ 訊息平台

  • 持久記憶:跨會話記憶系統,不會「失憶」

  • 自主學習:能從經驗中生成可複用的技能

  • 靈活部署:本地、Docker、SSH、雲端均可運行

  • 47 個內建工具:檔案操作、網頁搜尋、瀏覽器自動化、語音互動等

  • MCP 協定相容:可對接外部工具伺服器,擴展能力無上限

它的定位不是「一個聊天機器人」,而是一個能 7×24 小時替你幹活的數位員工。

核心能力詳解

1. 跨平台訊息網關——隨時隨地跟 AI 對話

這可能是 Hermes Agent 最實用的特性。你不需要打開終端機或 IDE,直接在日常使用的通訊工具裡就能和它互動:

平台語音圖片檔案多執行緒串流輸出

一個後台行程就能同時連接所有平台,訊息自動路由,會話獨立隔離。你在 Telegram 上讓它跑個腳本,然後切到 Slack 上問它結果,上下文完全保持。

設定也簡單——執行 hermes gateway setup,跟著互動嚮導一步步配置即可。

2. 記憶系統——不會「失憶」的 AI

大多數 AI 工具的記憶僅限於當前對話視窗。Hermes Agent 的記憶系統分為三層:

即時記憶:MEMORY.md 和 USER.md

兩個持久化檔案,分別記錄環境資訊和使用者偏好。每次新會話啟動時自動注入系統提示詞,確保 Agent 始終「認識你」。Agent 會主動記錄:

  • 你的作業系統、專案結構、工具偏好

  • 你的溝通風格和互動習慣

  • 完成任務時發現的技巧和規律

長期回憶:FTS5 全文搜尋

所有歷史對話儲存在 SQLite 資料庫中,支援 FTS5 全文檢索。當 Agent 需要回憶幾週前的討論,它會搜尋歷史記錄並用 Gemini Flash 進行摘要,精準找回相關上下文。

外部記憶擴展

支援 8 個第三方記憶 plugin(Honcho、Mem0、Supermemory 等),提供語意搜尋和知識圖譜能力,進一步增強記憶深度。

3. 技能系統——AI 學會「自我進化」

這是 Hermes Agent 最有想像力的設計。當 Agent 完成一個複雜任務(5 次以上工具呼叫),它會自動將解決過程提煉為一個可複用的技能,保存在本地。下次遇到類似問題,它直接呼叫技能,無需從零開始。

技能採用漸進式載入策略:

  • Level 0:僅載入元資料(~3k token),判斷是否需要這個技能

  • Level 1:載入完整內容,執行具體步驟

  • Level 2:存取特定參考檔案,獲取深度細節

這種設計大幅節省了 token 消耗——不需要的技能完全不佔用上下文空間。

技能還能共享。Hermes 相容 agentskills.io 開放標準,你可以從社群安裝技能,也可以把自己的技能發布出去。技能來源包括:

  • 官方技能庫

  • skills.sh 公共目錄

  • GitHub 程式庫直接安裝

  • LobeHub、ClawHub 等第三方社群

4. 47 個內建工具——開箱即用的能力矩陣

工具按照 toolset 分組,可以按需啟用:

  1. 多種執行後端——安全隔離的運行環境
hermes chat --toolsets "web,terminal,browser"

終端機工具支援 6 種執行後端,滿足從個人電腦到生產環境的不同需求:

  • local:直接在本機運行(預設)

  • docker:容器隔離,丟棄權限、限制行程數

  • ssh:連接遠端伺服器執行

  • daytona:持久化的遠端開發工作區

  • modal:無伺服器雲端執行

  • singularity:HPC 高效能計算集群

容器後端預設啟用安全加固:唯讀檔案系統、最小權限、行程數上限 256、記憶體限制 5GB。

6. 語音互動——和 AI 口語交流

Hermes Agent 支援全鏈路語音互動,覆蓋 CLI 和訊息平台:

  • CLI 模式:按 Ctrl+B 錄音,Agent 自動檢測靜默並回覆

  • Telegram/Discord:自動語音回覆,音訊與文字同步發送

  • Discord 語音頻道:Agent 加入頻道,即時監聽、轉寫、處理、回話

語音轉文字(STT)支援本地 Whisper(免費)、Groq(快速免費層)和 OpenAI。文字轉語音(TTS)支援 Edge TTS(免費)、ElevenLabs(高品質)、OpenAI TTS 等多種引擎。

響應採用逐句串流生成音訊,不用等整段回覆完成就能聽到聲音。系統還內建了幻覺過濾,會自動去除背景噪音產生的「感謝收看」之類的幽靈文字。

7. SOUL.md——定義你的 AI 人格

透過 ~/.hermes/SOUL.md 檔案,你可以定義 Agent 的持久人格:

# Personality
你是一個務實的資深工程師,有自己的品味和主張。
​
## 風格
- 直接但不冷漠
- 重視實質內容,避免廢話
- 如果方案不好,要敢於反駁
​
## 避免
- 諂媚
- 炒作用語

SOUL.md 定義的是跨所有場景的預設人格。除此之外,你還可以用 /personality pirate 臨時切換趣味模式(海盜、莎士比亞、哲學家等),或在專案級別用 AGENTS.md 定義特定工作指令。

8. MCP 協定整合——無限擴展能力邊界

MCP(Model Context Protocol)讓 Hermes 能連接外部工具伺服器——GitHub、資料庫、檔案系統、內部 API,任何實現了 MCP 協定的服務都能接入。

在 ~/.hermes/config.yaml 中配置即可:

mcp_servers:
  github:
    command: "npx"
    args: ["-y", "@modelcontextprotocol/server-github"]
    env:
      GITHUB_TOKEN: "ghp_xxx"

工具自動發現和註冊,使用 mcp_<server>_<tool> 的命名規則避免衝突。

安全機制

Hermes Agent 在安全設計上下了很大功夫,實施了七層防禦體系:

  1. 使用者授權:基於白名單和 DM 配對碼的存取控制

  2. 危險指令審批:預設手動確認,也可使用 LLM 智能評估風險等級

  3. 容器隔離:Docker 模式下丟棄權限、限制資源、唯讀檔案系統

  4. 憑證保護:環境變數過濾,敏感檔案唯讀掛載

  5. 內容掃描:檢測Prompt Injection、資料外洩、Unicode 隱藏字元

  6. URL 驗證:阻止 SSRF 攻擊,攔截對內網和雲端元資料位址的請求

  7. 預執行掃描:檢測同形字欺騙、管道注入等終端機攻擊

配對碼系統特別值得一提——使用 32 字元無歧義字母表生成 8 位隨機碼,1 小時過期,5 次失敗後鎖定。相比手動複製貼上使用者 ID,這種方式更安全也更方便。

快速上手

安裝(< 2 分鐘)

# Linux / macOS / WSL2 一鍵安裝
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

# 重新載入 shell
source ~/.bashrc  # 或 source ~/.zshrc

安裝腳本會自動處理 Python 3.11、Node.js v22、ripgrep、ffmpeg 等依賴,你只需要提前裝好 Git。

配置 LLM

hermes model
# 互動式選擇 LLM 提供商:OpenAI、Anthropic、DeepSeek、OpenRouter...

支援 15+ 提供商,隨時用 hermes model 切換,無需改程式碼。

開始對話

hermes            # 啟動互動式對話
hermes -c         # 繼續上次的會話

常用操作:

  • 輸入 / 查看所有可用斜線指令

  • Alt+Enter 輸入多行內容

  • 輸入新訊息按回車可中斷當前任務

啟動訊息閘道器

hermes gateway setup   # 互動式配置平台
hermes gateway         # 啟動後台服務

架構概覽

Hermes Agent 的架構設計遵循平台無關核心原則:

核心是一個統一的 AIAgent 類,所有入口點(CLI、訊息閘道器、IDE plugin)都透過它處理。這意味著無論你從哪個平台發訊息,獲得的能力完全一致。

與其他 AI 工具的對比

Hermes Agent 的定位更接近一個可程式化的 AI 基礎設施,而非簡單的程式撰寫輔助工具。

適合誰用?

  • 獨立開發者:讓 Agent 在 VPS 上 24 小時待命,隨時透過 Telegram 下達任務

  • 小團隊:透過 Slack/Discord 共享一個 Agent,處理維運、監控、自動化任務

  • AI 研究者:接入本地模型,在 HPC 集群上跑實驗

  • 自動化愛好者:用 cronjob 定時執行任務,用訊息網關接收結果通知

  • 重視隱私的使用者:完全本地部署,資料不離開你的伺服器

總結

Hermes Agent 代表了 AI Agent 發展的一個重要方向:從 IDE plugin 走向獨立基礎設施。它把 AI 智能體從編輯器的束縛中解放出來,讓它真正成為一個可以 7×24 小時工作、跨平台協作、持續學習進化的數位工作夥伴。

開源、靈活、安全——如果你一直在尋找一個「屬於自己的 AI 助手」,Hermes Agent 值得一試。

相關連結: