# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Patrick Loeber (@patloeber) · 平台：X (Twitter) · 日期：2026-04-27

> 原始來源：https://x.com/patloeber/status/2048715918541558075

## 中文摘要

Pi agent 搭配 Gemma 4 26B A4B 實現全本地程式開發 Agent。

Patrick Loeber 分享如何在本地硬體上運行高效程式開發 Agent，採用 LM Studio 伺服「Gemma 4 26B A4B (Q4_K_M)」模型與 Pi harness，效果出奇良好，提供完整步驟指南。

**硬體與伺服器選擇**  
作者偏好 LM Studio 作為桌面應用，處理模型下載、量化並暴露 OpenAI 相容 API；Ollama 或 llama.cpp 同樣適用，皆提供相容端點，讓 Pi 無需區分伺服器類型。預設伺服器運行於 http://localhost:1234，下載「gemma-4-26b-a4b」GGUF 量化版本（如 Q4_K_M），依 VRAM 選擇量化等級。Mac 使用者可試 MLX 版本，針對 Apple Silicon 優化速度。

**Gemma 4 模型優勢**  
「Gemma 4」為 Google 最新 Apache 2.0 開源模型家族，相較前版在程式開發與 Agentic 程式開發大幅躍進，內建原生函數呼叫、系統提示與思考模式，非常適合本地 Agent。家族包含四種尺寸，推薦 26B A4B（Mixture-of-Experts 架構，總參數 26B 每 token 只啟用 4B），品質媲美更大模型，推論速度接近小型模型，支援文字、圖像理解、函數呼叫與思考模式。儘管每 token 只啟用 4B，VRAM 仍需載入全部 26B 以利快速路由，需求類似稠密 26B 模型；E4B 雖小卻意外強大，但需更多引導與精確提示。

**伺服器與上下文設定**  
在 LM Studio Developer 標籤啟動伺服器後，驗證 curl http://localhost:1234/v1/models。建議上下文大小設 128K（模型最高支援 256K），因程式開發 Agent 會累積檔案內容、工具輸出與對話歷史，過多上下文耗 VRAM，中途用盡極為惱人。GPU Offload 設最大（26B A4B 為 30 層），加速推論；若 VRAM 不足，先降上下文大小，LM Studio 會自動拆分至 CPU，雖慢但仍可運作。Pi 內建會話管理：/compact 壓縮舊訊息、/new 新會話、/tree 導航歷史、/fork 分支會話。

**Pi 安裝與配置**  
Pi 為 Mario Zechner 的極簡終端 harness，核心僅提供四工具（read、write、edit、bash），token 高效、系統提示精簡，便於上下文工程。安裝 npm install -g @mariozechner/pi-coding-agent，編輯 ~/.pi/agent/models.json 指向本地 LM Studio 模型（model id 須精確匹配），執行 pi 後 /model 切換即可全本地運行。

**技能與擴充功能**  
技能為 Markdown 指令檔，遵循 Agent Skills 標準，透過 git 安裝社群技能：  
- liteparse：快速本地解析 PDF、DOCX、PPTX 等文件，轉換成 Gemma 可處理格式（Gemma 僅懂圖像）。  
- frontend-slides：生成 HTML 簡報投影片。  
- pi-skills：Pi 專用技能集合。  
- grill-me：腦storm 想法並迭代。  
- gemini-skills：Gemini API 互動技能。  
使用 /skill:name 呼叫，或讓 Agent 自動發現。  

擴充為 TypeScript 模組，提供自訂工具、命令、UI、權限閘道甚至子 Agent。Pi 預設 YOLO 模式，直接執行 bash（快速但風險高，本地模型易幻覺毀滅指令），建議加 permission-gate 擴充求確認；欲更穩固，可用 cco（容器執行）或 sandbox 擴充，但非完整沙盒。

此設定全依賴自家硬體，工作流強大且可靠，適合本地程式開發愛好者。

## 標籤

Agent, 教學資源, 開源專案, Google, Gemma, LM Studio
