← 返回首頁

Google Gemma 開放原始碼示範,在本地硬體上同時運行10+個Gemma 4實例

Google Gemma
Google Gemma
@googlegemma
3,403🔁 278
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Google Gemma 開放原始碼示範,在本地硬體上同時運行10+個Gemma 4實例。

Google Gemma團隊發布開源程式庫,讓使用者在本地硬體上輕鬆運行多個Gemma 4模型並行實例,展示高效率的本地部署能力。該示範特別強調在MacBook Pro M4 Max上運行「Gemma 4 26B A4B」模型,能處理10+個並發請求,每請求達18 token/sec速度,挑戰傳統觀點認為大型模型無法高效本地多工。

硬體與效能表現
在MacBook Pro M4 Max上,「Gemma 4 26B A4B-it-UD-Q4_K_M.gguf」模型透過llama-server輕鬆支援10+並發實例,每個請求維持18 token/sec。llama-server啟動指令為:llama-server -m gemma-4-26B-A4B-it-UD-Q4_K_M.gguf -c 70000 -np 10 --metrics --reasoning off,其中-np設定為並發實例數+1(包含orchestrator),每個slot的context長度為-c / -np

快速啟動步驟
示範僅限macOS環境,使用AppleScript管理Terminal視窗,並依賴uv套件管理和llama.cpp的llama-server(運行於localhost:8080)。

  • 安裝依賴:uv sync
  • 啟動llama-server(如上指令)
  • 執行示範:bash run.sh --scenario [情境] --topic "[主題]" --tasks 10

支援情境範例
示範內建多種任務,開啟Terminal視窗呈現網格布局:上方為dashboard,中間orchestrator,下方N個Gemma 4實例即時視覺化運作。

  • SVG生成:bash run.sh --scenario svg --topic "Technology and AI" --tasks 10
  • 文字翻譯:bash run.sh --scenario translate --topic "Gemma 4 is a family of models released by Google DeepMind." --tasks 10
  • 程式碼生成:bash run.sh --scenario code --topic "FizzBuzz" --tasks 10
  • ASCII藝術:bash run.sh --scenario ascii --topic "animals" --tasks 10

自訂新情境
使用者可編輯demo/scenarios.py新增情境,定義Agent清單、規劃提示和結果模板。核心函數make_my_agents(n: int = 10)產生10個Agent,每個帶有name、emoji、color和direct_instruction(如"Process {topic} in style X")。MY_PLAN為系統提示,輸出JSON陣列包含n_agents個物件(name與instruction);MY_SYSTEM定義Agent行為,強調僅輸出特定格式。my_template建構HTML呈現結果。新增後至SCENARIOS字典,並執行bash run.sh --scenario my_scenario --topic "My Topic"。完整程式碼與示範連結:https://goo.gle/concurrent-gemma-4,以及GitHub程式庫https://github.com/google-gemma/cookbook/tree/main/apps/concurrent。

此開源示範不僅證明Gemma 4在消費級硬體上的多工潛力,還提供可擴展框架,讓開發者快速驗證本地AI Agent並行效能,呼應Google DeepMind推動輕量高效模型的趨勢。