# 策展 · X (Twitter) 🔥

> 作者：Meituan LongCat (@Meituan_LongCat) · 平台：X (Twitter) · 日期：2026-03-30

> 原始來源：https://x.com/meituan_longcat/status/2036861293140054510

## 中文摘要

LongCat-Next 是美團開源的原生多模態離散自迴歸模型，將文本、視覺和音訊統一在單一框架中處理，突破了傳統多模態建模的架構分割，在理解、生成和語音交互上實現工業級性能。

**核心架構與設計理念**

LongCat-Next 建立在「離散原生自迴歸」(Discrete Native Autoregression, DiNA) 的統一範式上，將傳統語言模型的 Next-Token Prediction（下一 token 預測）延伸到原生多模態場景。模型採用 A3B 規模的 MoE（混合專家）骨幹網路（基於 LongCat-Flash-Lite），將語言、視覺和音訊內部化到共享 token 空間中，最小化語言範式以外的歸納偏差。這意味著所有模態都透過相同的離散 token 機制處理，而非採用不同的子模型架構。

**語義完整性的離散視覺表示**

傳統離散視覺模型面臨表示力受限的問題。LongCat-Next 透過整合「語義對齊編碼器」(Semantic-and-Aligned Encoders, SAE) 與「殘差向量量化」(Residual Vector Quantization, RVQ) 克服此困境，創建分層離散 token，既保留語義抽象，又保持細粒度視覺細節。這項改進使離散視覺建模首次突破長期存在的性能天花板，在視覺理解任務上超越傳統方法。

**離散原生解析度視覺 Transformer (dNaViT)**

LongCat-Next 提出 dNaViT 作為視覺的統一離散介面，類似語言中的分詞器角色。它將視覺特徵提取為「視覺詞彙」，並建構支持動態 tokenization 和 detokenization 的分層表示空間。dNaViT 設計高度靈活，與大型語言模型無縫整合而不損耗性能。

**統一框架下的「看、創、說」能力**

在 DiNA 框架內，視覺理解與生成被優雅地重新表述為同一預測過程的兩種表現形式，無需專用架構：

- **視覺理解**：直接預測視覺 token，識別圖像內容
- **視覺生成**：按相同邏輯自迴歸生成視覺 token，然後透過 detokenizer 轉換為影像，即使在 28 倍壓縮比下仍維持文本渲染品質
- **語音能力**：支援高級語音理解、低延遲語音對話與可客製化的語音克隆

傳統多模態模型通常在視覺理解與生成間存在架構衝突，LongCat-Next 將兩者統一為同一預測範式，避免模態間的干擾，同時保持核心語言能力不退化。

**技術實現與工具支持**

- 使用者可透過「Hugging Face」上的預訓練權重直接載入模型
- 支援文本工具調用（Tool Calling）、圖像理解與生成、音訊轉文本、音訊轉音訊與語音合成
- 部署方面，美團在「SGLang」推理框架中實現了基礎適配，並提供專用推理倉庫「LongCat-Next-inference」
- 推薦硬體需求：3 顆 80GB VRAM GPU（如 H100/A100），Python ≥ 3.10、PyTorch ≥ 2.6、Transformers ≥ 4.57.6

**效能表現與評估**

LongCat-Next 在多項多模態基準測試上展現出業界水準的表現，尤其在離散視覺建模領域創新，證明離散 token 能夠通用地表示多模態訊號，並在單一共享 token 空間內深度內化。文件詳細技術報告提供廣泛的實驗分析與發現。

**開源策略與許可**

模型權重與程式碼皆採 MIT 授權發布，鼓勵社群進一步研發。開發者應自行評估模型在實際應用中的準確性、安全性與公平性，特別是在多語言場景與敏感領域。美團強調這是初步模型卡片，未針對所有下游應用完整評估。

**開發與社群資源**

提供完整的快速上手指南、程式碼範例（包括文本、圖像、音訊的各類使用場景）、採樣參數建議、以及透過微信社群與電子郵件的技術支援管道。

## 標籤

AIGC, 開源專案, 研究論文, LongCat-Next, 美團
