← 返回首頁

Pika Labs 推出開源技能模組,讓 AI Agent 能以即時虛擬化身參與視訊會議

Pika
Pika
@pika_labs
4,172🔁 553
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Pika Labs 推出開源技能模組,讓 AI Agent 能以即時虛擬化身參與視訊會議。

Pika Labs 近期發布了「Pika Skills Open」專案,這是一系列針對 AI 程式開發 Agent(如 Claude Code、OpenClaw 等)設計的開源技能模組,旨在透過「Pika Developer API」擴展 Agent 的實作能力。此舉標誌著 AI Agent 從單純的程式撰寫,進一步跨足至即時互動與視訊會議領域。

核心機制與架構
「Skills」被設計為獨立的模組,能夠無縫整合至現有的 Agent 工作空間中,無需繁瑣的手動設定。每個技能模組包含以下關鍵組成:

  • SKILL.md:定義檔案,明確指示 Agent 何時啟用技能、如何使用,並提供詳細的操作步驟。
  • scripts/:包含 Python 或 Bash 等可執行腳本,由 Agent 在工作流程中呼叫。
  • requirements.txt:列出腳本執行所需的 Python 依賴套件。
    當使用者將技能安裝至 Agent 工作空間後,Agent 會自動偵測 SKILL.md 並理解其運作邏輯,實現即插即用的擴充體驗。

首發功能:即時視訊會議
目前該專案推出的首個技能為 pikastream-video-meeting,這是一款能讓 AI 以即時虛擬化身加入 Google Meet 的應用。其技術亮點包括:

  • 即時虛擬化身:透過「PikaStream 1.0」模型,支援生成式或自定義的虛擬化身參與會議。
  • 語音與視覺生成:支援透過短音訊錄音進行語音複製,並可利用 OpenAI 影像模型生成虛擬化身。
  • 情境感知互動:Bot 能將工作空間內的背景資訊(如身分、近期活動、人際關係)整合進系統提示詞(System Prompt),確保會議對話自然且具備相關知識。
  • 自動化流程:具備會議後自動整理並分享會議記錄的功能,並在加入會議前自動檢查餘額,若不足則自動生成支付連結,收費標準為每分鐘 0.5 美元。

開發者使用與整合
開發者若要啟用此功能,需先至 Pika 官網申請 Developer Key,並設定環境變數 PIKA_DEV_KEY。安裝方式相當直觀,僅需在 Agent 中輸入技能資料夾路徑即可安裝。一旦安裝完成,使用者只需在與 Agent 的互動中貼上 Google Meet 連結,Agent 便會自動啟用該技能。此外,該專案採取開放貢獻模式,鼓勵開發者建立新的目錄並遵循 SKILL.md 格式來貢獻更多技能,共同豐富 AI Agent 的生態系統。