# 策展 · X (Twitter) 🔥

> 作者：Xiaoan Liu (@_seanliu) · 平台：X (Twitter) · 日期：2026-03-15

> 原始來源：https://x.com/_seanliu/status/2032587965713756225

## 中文摘要

可穿戴設備上的語音人工智慧一直面臨一個根本性的問題：它們能和你對話，卻無法真正為你做任何事。問你是否有新郵件，得到的往往是尷尬的沉默，然後是一句道歉。Intent Labs 開源了「Matcha」來解決這個矛盾。

**現有方案的落差** 目前的語音 AI 應用（如 ChatGPT Voice、Gemini Live、Sesame）都是對話式的，但不是 Agent 式的。它們能和你交談，卻無法為你執行動作。當它們嘗試進行複雜任務時，比如搜尋、多步驟工作流程或 API 呼叫，就會沉默 10 到 30 秒，導致使用體驗崩壞。另一方面，Agent 框架（如 OpenClaw、Manus、Claude Code）能執行複雜任務，但缺乏實時語音介面。目前沒有消費者產品能真正結合實時語音對話與通用目的 Agent 執行。Matcha 填補了這個空白。

**雙 Agent 架構** Matcha 的核心創新在於雙 Agent 架構。它將實時語音互動與非同步任務執行分離開來，讓兩者能同時運行而不會互相阻擋。「語音 Agent」維持與使用者的實時雙向音訊對話，延遲不超過一秒，永遠保持反應，永遠不會被任務阻擋。由 Gemini Live API 或 OpenAI Realtime API 驅動。「行動 Agent」接收語音 Agent 委派的任務，在背景執行複雜的多步驟工作。透過 OpenClaw 提供超過 56 種技能：
- 網頁搜尋
- 傳訊
- 智慧家居
- 筆記
- 提醒等

當結果準備好時，將其回報給語音 Agent。

**使用流程示例** 使用流程舉例：使用者說「幫我找舊金山最好吃且營業到很晚的拉麵店」，語音 Agent 立刻回應「好的，讓我搜尋一下深夜拉麵店」。行動 Agent 在背景開始網頁搜尋。使用者又說「對了，我還想要有素食選項的地方」，語音 Agent 隨即應答「收到，我會篩選有素食友善選項的餐廳」。等到行動 Agent 回傳結果後，語音 Agent 再用對話方式說出答案。使用者永遠不會陷入令人難受的沉默，Agent 也不會侷限於膚淺的回答。

**設備支援** Matcha 是設備無關的，能連接任何音訊輸入輸出裝置。目前支援的設備包括：
- iPhone 內建麥克風及喇叭
- AirPods 或其他藍牙耳機
- Meta Ray-Ban 智慧眼鏡（透過 DAT SDK 支援視訊）

Sesame 眼鏡、Apple 眼鏡、掛墜式設備等則在計畫中。在語音模型方面，Google Gemini 2.0 Flash Live API 已可用，OpenAI GPT-4o Realtime API 則在計畫中。

**快速開始指南** 專案提供 iOS 和 Android 的快速開始指南。iOS 需要 iOS 17.0 以上、Xcode 15.0 以上和一個免費的 Gemini API 金鑰。使用者只需複製程式庫、設定 API 金鑰、在 iPhone 上編譯執行。可以選擇用 iPhone 相機模式測試，或連接 Meta Ray-Ban 眼鏡進行完整的語音加視覺對話。Android 則需要 Android 14 以上、Android Studio Ladybug 或更新版本，以及 GitHub 個人存取 token（具有 read:packages 範圍）來下載 Meta DAT Android SDK。

**OpenClaw 整合** OpenClaw 是可選的，為 Matcha 提供真實世界的執行能力。沒有它，AI 只能進行語音和視覺對話，無法執行任務。設定 OpenClaw 需要在 Mac 上配置閘道，並在應用程式中設定主機位址、連接埠和身份驗證 token。iOS 應用程式在 Secrets.swift 中配置，Android 則在 Secrets.kt 中配置，兩者都支援在應用程式設定畫面中動態更改這些值。

**專案路線圖** 專案路線圖分為兩個階段。第一階段（目前進行中）涵蓋雙 Agent 架構、模型無關的提供者協議、Gemini Live 提供者和 OpenClaw 整合。OpenAI Realtime 提供者和設備提供者抽象化在計畫中。第二階段專注於視覺 Agent 層，包括基於相機的意圖推論、主動協助（如自動翻譯外文文字）、跨影格記憶和眼球追蹤支援。

**架構分層** Matcha 的架構在 iOS 上明確分層：
- 核心框架包含 Voice Agent、Action Agent 和協調器
- Gemini 基礎設施層處理語音模型和音訊管理
- OpenClaw 層負責任務執行
- WebRTC 層支援實時串流

專案已在 GitHub 上開源，邀請社群貢獻。

## 標籤

Agent, 開源專案, 產業趨勢, OpenClaw, Intent Labs