LongCat-Next 是美團開源的原生多模態離散自迴歸模型,將文本、視覺和音訊統一在單一框架中處理,突破了傳統多模態建模的架構分割,在理解、生成和語音交互上實現工業級性能。
核心架構與設計理念
LongCat-Next 建立在「離散原生自迴歸」(Discrete Native Autoregression, DiNA) 的統一範式上,將傳統語言模型的 Next-Token Prediction(下一 token 預測)延伸到原生多模態場景。模型採用 A3B 規模的 MoE(混合專家)骨幹網路(基於 LongCat-Flash-Lite),將語言、視覺和音訊內部化到共享 token 空間中,最小化語言範式以外的歸納偏差。這意味著所有模態都透過相同的離散 token 機制處理,而非採用不同的子模型架構。
語義完整性的離散視覺表示
傳統離散視覺模型面臨表示力受限的問題。LongCat-Next 透過整合「語義對齊編碼器」(Semantic-and-Aligned Encoders, SAE) 與「殘差向量量化」(Residual Vector Quantization, RVQ) 克服此困境,創建分層離散 token,既保留語義抽象,又保持細粒度視覺細節。這項改進使離散視覺建模首次突破長期存在的性能天花板,在視覺理解任務上超越傳統方法。
離散原生解析度視覺 Transformer (dNaViT)
LongCat-Next 提出 dNaViT 作為視覺的統一離散介面,類似語言中的分詞器角色。它將視覺特徵提取為「視覺詞彙」,並建構支持動態 tokenization 和 detokenization 的分層表示空間。dNaViT 設計高度靈活,與大型語言模型無縫整合而不損耗性能。
統一框架下的「看、創、說」能力
在 DiNA 框架內,視覺理解與生成被優雅地重新表述為同一預測過程的兩種表現形式,無需專用架構:
- 視覺理解:直接預測視覺 token,識別圖像內容
- 視覺生成:按相同邏輯自迴歸生成視覺 token,然後透過 detokenizer 轉換為影像,即使在 28 倍壓縮比下仍維持文本渲染品質
- 語音能力:支援高級語音理解、低延遲語音對話與可客製化的語音克隆
傳統多模態模型通常在視覺理解與生成間存在架構衝突,LongCat-Next 將兩者統一為同一預測範式,避免模態間的干擾,同時保持核心語言能力不退化。
技術實現與工具支持
- 使用者可透過「Hugging Face」上的預訓練權重直接載入模型
- 支援文本工具調用(Tool Calling)、圖像理解與生成、音訊轉文本、音訊轉音訊與語音合成
- 部署方面,美團在「SGLang」推理框架中實現了基礎適配,並提供專用推理倉庫「LongCat-Next-inference」
- 推薦硬體需求:3 顆 80GB VRAM GPU(如 H100/A100),Python ≥ 3.10、PyTorch ≥ 2.6、Transformers ≥ 4.57.6
效能表現與評估
LongCat-Next 在多項多模態基準測試上展現出業界水準的表現,尤其在離散視覺建模領域創新,證明離散 token 能夠通用地表示多模態訊號,並在單一共享 token 空間內深度內化。文件詳細技術報告提供廣泛的實驗分析與發現。
開源策略與許可
模型權重與程式碼皆採 MIT 授權發布,鼓勵社群進一步研發。開發者應自行評估模型在實際應用中的準確性、安全性與公平性,特別是在多語言場景與敏感領域。美團強調這是初步模型卡片,未針對所有下游應用完整評估。
開發與社群資源
提供完整的快速上手指南、程式碼範例(包括文本、圖像、音訊的各類使用場景)、採樣參數建議、以及透過微信社群與電子郵件的技術支援管道。
🔥 Introducing LongCat-Next: A Discrete Native Autoregressive Multimodal Model
— Meituan LongCat (@Meituan_LongCat) March 25, 2026
LongCat-Next integrates language, vision, and audio into a unified discrete autoregressive model, extending Next-Token Prediction to native multimodality and delivering industrial-strength performance… pic.twitter.com/2br1SGKcuG
