# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：NVIDIA AI (@NVIDIAAI) · 平台：X (Twitter) · 日期：2026-05-24

> 原始來源：https://x.com/NVIDIAAI/status/2057919769165107314

## 中文摘要

NVIDIA Research 推出 LongLive-2 實現長影片生成。0 透過端到端 NVFP4 架構解決長影片生成的效率瓶頸。

**核心技術挑戰**
長影片生成面臨高昂的訓練成本與部署延遲問題。傳統自回歸（AR）長影片訓練需處理長序列的乾淨歷史與雜訊目標，導致 GPU 記憶體需求、VAE 潛在變數準備以及 DiT GEMM 運算量隨影片長度急劇增加。此外，實際應用不僅依賴擴散模型的幀率，還需在系統層級處理 KV 快取、VAE 解碼及多鏡頭連續生成的延遲。

**系統架構創新**
LongLive-2.0 將演算法與基礎設施視為單一系統，透過以下機制優化效能：
- **Balanced SP（序列並行）**：確保每個序列並行（SP）節點擁有相同時間區塊的乾淨與雜訊潛在變數，不僅匹配教師強制（Teacher-forcing）注意力遮罩，還能平衡各節點的損失權重，並將 VAE 編碼分片處理，而非在每個 GPU 上重複運算。
- **NVFP4 推論基礎設施**：在部署階段採用 W4A4 推論，將 KV 快取壓縮為 NVFP4 格式，並利用平行反量化核心進行重建。
- **非同步 VAE 解碼**：將影片解碼與 DiT 去雜訊過程重疊，顯著降低端到端延遲。

**訓練與推論優化**
該系統透過端到端對齊訓練、蒸餾與 W4A4 推論，在維持基準品質的同時提升速度與記憶體效率：
- **訓練流程**：直接將基礎雙向擴散模型轉化為長時程、互動式、多鏡頭的 AR 模型，並透過獨立的 LoRA 權重實現少步數推論。
- **NVFP4 DMD 與 LoRA**：透過少步數蒸餾（DMD）使生成器與評分模型對齊 W4A4 推論路徑，量化主幹保持固定，僅更新 LoRA 以提升穩定性與遷移能力。
- **多鏡頭注意力匯集（Attention Sink）**：利用固定全域匯集維持全片主體一致性，並在場景切換時重新綁定鏡頭級匯集，以維持局部時間連貫性，支援分鐘級串流生成而無需重新計算歷史資訊。

**關鍵效能數據**
LongLive-2.0 在效能上展現顯著優勢：
- 訓練速度：相較於 BF16 + SP，AR 訓練速度提升 2.1 倍（針對 64 秒影片）。
- 推論表現：在 GB200 上實現 45.7 FPS 的 2 步生成速度。
- 記憶體佔用：使用 NVFP4 KV 快取時，峰值記憶體僅 19.4GB。
- 記憶體效率：NVFP4 + LoRA 的峰值記憶體比率為 0.69x。

欲了解完整專案內容（包含論文、程式碼、模型與演示），請參考 [LongLive-2.0 專案頁面](https://nvda.ws/3RgYAEP) 。

## 標籤

研究論文, AIGC, 新產品, NVIDIA