← 返回首頁

Clicky 開源釋出,讓開發者能打造具備螢幕感知與互動能力的 AI 教學夥伴

Farza 🇵🇰🇺🇸
Farza 🇵🇰🇺🇸
@FarzaTV
3,254🔁 216
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Clicky 開源釋出,讓開發者能打造具備螢幕感知與互動能力的 AI 教學夥伴。

開發者 Farza 近期將其開發的 AI 助手「Clicky」正式開源,這是一款能常駐於 macOS 選單列的 AI 教學夥伴,具備螢幕截圖、語音對話及 UI 元素指向功能,旨在為使用者提供如同真人教師般的輔助體驗。

核心功能與應用場景
Clicky 的設計初衷是作為使用者的「AI 夥伴」,其運作機制模擬了真實教學場景:

  • 螢幕感知:透過「ScreenCaptureKit」技術,Clicky 能獲取螢幕畫面並進行分析。
  • 互動機制:支援語音對話,並能透過 Claude 的回應嵌入 [POINT:x,y:label:screenN] 標籤,精準控制游標指向螢幕上的特定 UI 元素。
  • 部署形式:作為 macOS 選單列應用程式(Menu bar app)運行,不佔用 Dock 圖示,透過「NSPanel」提供控制面板與全螢幕透明游標覆蓋層。

技術架構與整合
為了確保 API 金鑰安全並簡化開發流程,Clicky 採用了中介代理架構:

  • Cloudflare Worker:作為後端代理伺服器,負責處理與 Anthropic、AssemblyAI 及 ElevenLabs 的 API 通訊,避免金鑰直接暴露於應用程式二進位檔案中。
  • 非同步處理:利用 WebSocket 進行語音串流(AssemblyAI),並透過 SSE(Server-Sent Events)串流傳輸 Claude 的回應,最後由 ElevenLabs 進行文字轉語音(TTS)播放。
  • 開發者友善:專案附帶完整的 CLAUDE.md 文件,支援開發者利用「Claude Code」工具快速進行環境建置、功能擴充與除錯。

開發與貢獻指引
作者強調了降低技術門檻的重要性,特別是針對非技術背景的使用者,透過 Claude Code 即可自動化完成從 Git 儲存庫複製到 Xcode 建置的完整流程。

  • 硬體需求:需 macOS 14.2+、Xcode 15+ 及 Node.js 18+。
  • 開源目的:作者鼓勵社群基於此專案進行二次開發或功能創新,並要求貢獻者分享學習成果與實作經驗。
  • 現狀:目前該專案已在 GitHub 上開源,開發者可透過 leanring-buddy 專案目錄(作者保留了該目錄名稱中的拼字錯誤)進行程式開發與修改。