← 返回首頁
xiaoan
xiaoan
@_seanliu
47🔁 5
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成
可穿戴設備上的語音人工智慧一直面臨一個根本性的問題:它們能和你對話,卻無法真正為你做任何事。問你是否有新郵件,得到的往往是尷尬的沉默,然後是一句道歉。Intent Labs 開源了「Matcha」來解決這個矛盾。 目前的語音 AI 應用(如 ChatGPT Voice、Gemini Live、Sesame)都是對話式的,但不是 Agent 式的。它們能和你交談,卻無法為你執行動作。當它們嘗試進行複雜任務時,比如搜尋、多步驟工作流程或 API 呼叫,就會沉默 10 到 30 秒,導致使用體驗崩壞。另一方面,Agent 框架(如 OpenClaw、Manus、Claude Code)能執行複雜任務,但缺乏實時語音介面。目前沒有消費者產品能真正結合實時語音對話與通用目的 Agent 執行。Matcha 填補了這個空白。 Matcha 的核心創新在於雙 Agent 架構。它將實時語音互動與非同步任務執行分離開來,讓兩者能同時運行而不會互相阻擋。「語音 Agent」維持與使用者的實時雙向音訊對話,延遲不超過一秒,永遠保持反應,永遠不會被任務阻擋。由 Gemini Live API 或 OpenAI Realtime API 驅動。「行動 Agent」接收語音 Agent 委派的任務,在背景執行複雜的多步驟工作。透過 OpenClaw 提供超過 56 種技能:網頁搜尋、傳訊、智慧家居、筆記、提醒等。當結果準備好時,將其回報給語音 Agent。 使用流程舉例:使用者說「幫我找舊金山最好吃且營業到很晚的拉麵店」,語音 Agent 立刻回應「好的,讓我搜尋一下深夜拉麵店」。行動 Agent 在背景開始網頁搜尋。使用者又說「對了,我還想要有素食選項的地方」,語音 Agent 隨即應答「收到,我會篩選有素食友善選項的餐廳」。等到行動 Agent 回傳結果後,語音 Agent 再用對話方式說出答案。使用者永遠不會陷入令人難受的沉默,Agent 也不會侷限於膚淺的回答。 Matcha 是設備無關的,能連接任何音訊輸入輸出裝置。目前支援 iPhone 內建麥克風及喇叭、AirPods 或其他藍牙耳機、Meta Ray-Ban 智慧眼鏡(透過 DAT SDK 支援視訊)。Sesame 眼鏡、Apple 眼鏡、掛墜式設備等則在計畫中。在語音模型方面,Google Gemini 2.0 Flash Live API 已可用,OpenAI GPT-4o Realtime API 則在計畫中。 專案提供 iOS 和 Android 的快速開始指南。iOS 需要 iOS 17.0 以上、Xcode 15.0 以上和一個免費的 Gemini API 金鑰。使用者只需複製程式庫、設定 API 金鑰、在 iPhone 上編譯執行。可以選擇用 iPhone 相機模式測試,或連接 Meta Ray-Ban 眼鏡進行完整的語音加視覺對話。Android 則需要 Android 14 以上、Android Studio Ladybug 或更新版本,以及 GitHub 個人存取 token(具有 read:packages 範圍)來下載 Meta DAT Android SDK。 OpenClaw 是可選的,為 Matcha 提供真實世界的執行能力。沒有它,AI 只能進行語音和視覺對話,無法執行任務。設定 OpenClaw 需要在 Mac 上配置閘道,並在應用程式中設定主機位址、連接埠和身份驗證 token。iOS 應用程式在 Secrets.swift 中配置,Android 則在 Secrets.kt 中配置,兩者都支援在應用程式設定畫面中動態更改這些值。 專案路線圖分為兩個階段。第一階段(目前進行中)涵蓋雙 Agent 架構、模型無關的提供者協議、Gemini Live 提供者和 OpenClaw 整合。OpenAI Realtime 提供者和設備提供者抽象化在計畫中。第二階段專注於視覺 Agent 層,包括基於相機的意圖推論、主動協助(如自動翻譯外文文字)、跨影格記憶和眼球追蹤支援。 Matcha 的架構在 iOS 上明確分層:核心框架包含 Voice Agent、Action Agent 和協調器;Gemini 基礎設施層處理語音模型和音訊管理;OpenClaw 層負責任務執行;WebRTC 層支援實時串流。專案已在 GitHub 上開源,邀請社群貢獻。