# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Pika (@pika_labs) · 平台：X (Twitter) · 日期：2026-04-10

> 原始來源：https://x.com/pika_labs/status/2042656212685328799

## 中文摘要

Pika 推出 PikaStream 1.0，實現單 GPU 驅動的即時 AI 視訊互動。

Pika 近期發布 PikaStream 1.0，旨在解決 AI 代理在即時互動中缺乏視覺表現的問題，透過單張 H100 GPU 即可實現 24 FPS 的即時視訊生成，讓 AI 代理能以更像人類的方式進行面對面溝通。

**核心技術突破**
PikaStream 1.0 透過三項關鍵技術，克服了傳統視訊生成模型離線運作、延遲過高的限制，實現了端到端 (End to End) 約 1.5 秒的反應速度：
- **FlashVAE**：採用全 Transformer 架構的 VAE，取代傳統 3D 卷積解碼器，實現每秒 441 幀的即時串流解碼，僅需 1.1 GB 記憶。
- **9B Diffusion Transformer (DiT)**：具備 90 億參數的擴散模型，透過因果自回歸蒸餾技術，將雙向模型轉化為可即時串流的生成器，並支援針對音訊進行幀級對齊，確保精準的唇形同步。
- **多重獎勵 RLHF**：利用專有獎勵模型進行強化學習，直接優化身份一致性、唇形同步準確度及動作自然度，而非僅依賴去噪目標。

**系統架構與效能**
PikaStream 1.0 的設計重點在於將解碼、音訊條件處理與排程整合至單一 GPU 管線中，以達到即時互動所需的低延遲：
- **參考影像注入 (Reference Injection)**：透過位置編碼 (RoPE) 將參考影像與生成序列區分，確保 AI 代理在生成過程中維持身份一致性。
- **端到端 (End to End) 延遲優化**：系統採用並行處理管線，語音識別、LLM 推理與文字轉語音同時進行，當第一個音訊區塊就緒時即觸發視訊生成，無需等待完整回應。
- **效能對比**：相較於前代模型 Pikaformance（需 8 張 GPU、4.5 秒延遲），PikaStream 1.0 僅需單張 GPU 即可達到 1.5 秒延遲與 24 FPS 的流暢度，將「語音留言」般的體驗提升至「FaceTime」等級的即時對話。

**商業模式與未來展望**
Pika 同時宣布將 AI 代理商業化，讓使用者能透過與 AI 代理互動獲利：
- **獲利機制**：使用者可透過其 Pika AI Self 代理賺取 token，這些 token 可兌換為現金。官方強調此舉是為了讓 AI 代理真正為使用者「工作」。
- **發展現狀**：官方坦言該技術尚處於早期階段，仍存在許多待解決的問題，並邀請使用者加入 Discord 社群提供回饋，以提升系統價值。
- **應用場景**：使用者可透過 Google Meet 邀請 Pika AI Self 進行視訊對話，或從 GitHub 下載相關 Skill 以應用於其他代理。

## 標籤

新產品, AIGC, Agent, Pika