← 返回首頁

Pika 推出 PikaStream 1.0,實現單 GPU 驅動的即時 AI 視訊互動

Pika
Pika
@pika_labs
226🔁 40
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Pika 推出 PikaStream 1.0,實現單 GPU 驅動的即時 AI 視訊互動。

Pika 近期發布 PikaStream 1.0,旨在解決 AI 代理在即時互動中缺乏視覺表現的問題,透過單張 H100 GPU 即可實現 24 FPS 的即時視訊生成,讓 AI 代理能以更像人類的方式進行面對面溝通。

核心技術突破
PikaStream 1.0 透過三項關鍵技術,克服了傳統視訊生成模型離線運作、延遲過高的限制,實現了端到端 (End to End) 約 1.5 秒的反應速度:

  • FlashVAE:採用全 Transformer 架構的 VAE,取代傳統 3D 卷積解碼器,實現每秒 441 幀的即時串流解碼,僅需 1.1 GB 記憶體。
  • 9B Diffusion Transformer (DiT):具備 90 億參數的擴散模型,透過因果自回歸蒸餾技術,將雙向模型轉化為可即時串流的生成器,並支援針對音訊進行幀級對齊,確保精準的唇形同步。
  • 多重獎勵 RLHF:利用專有獎勵模型進行強化學習,直接優化身份一致性、唇形同步準確度及動作自然度,而非僅依賴去噪目標。

系統架構與效能
PikaStream 1.0 的設計重點在於將解碼、音訊條件處理與排程整合至單一 GPU 管線中,以達到即時互動所需的低延遲:

  • 參考影像注入 (Reference Injection):透過位置編碼 (RoPE) 將參考影像與生成序列區分,確保 AI 代理在生成過程中維持身份一致性。
  • 端到端 (End to End) 延遲優化:系統採用並行處理管線,語音識別、LLM 推理與文字轉語音同時進行,當第一個音訊區塊就緒時即觸發視訊生成,無需等待完整回應。
  • 效能對比:相較於前代模型 Pikaformance(需 8 張 GPU、4.5 秒延遲),PikaStream 1.0 僅需單張 GPU 即可達到 1.5 秒延遲與 24 FPS 的流暢度,將「語音留言」般的體驗提升至「FaceTime」等級的即時對話。

商業模式與未來展望
Pika 同時宣布將 AI 代理商業化,讓使用者能透過與 AI 代理互動獲利:

  • 獲利機制:使用者可透過其 Pika AI Self 代理賺取 token,這些 token 可兌換為現金。官方強調此舉是為了讓 AI 代理真正為使用者「工作」。
  • 發展現狀:官方坦言該技術尚處於早期階段,仍存在許多待解決的問題,並邀請使用者加入 Discord 社群提供回饋,以提升系統價值。
  • 應用場景:使用者可透過 Google Meet 邀請 Pika AI Self 進行視訊對話,或從 GitHub 下載相關 Skill 以應用於其他代理。