# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：ModelScope (@ModelScope2022) · 平台：X (Twitter) · 日期：2026-05-31

> 原始來源：https://x.com/ModelScope2022/status/2061008636634394819

## 中文摘要

Keye-VL-2.0-30B-A3B 正式發布，透過 DSA 架構實現 256k 超長視窗並具備多模態 Agent 能力。

Kwai-Keye 團隊於 2026 年 5 月 30 日推出的「Keye-VL-2.0-30B-A3B」，是 Keye 系列首款具備原生 Agent 能力的旗艦級多模態模型。該模型透過引入「DeepSeek Sparse Attention」（DSA）架構，成功解決了長影片理解中的計算效率瓶頸，並在多項基準測試中展現出超越 200B 參數規模模型的效能，同時大幅降低了預填充（prefill）成本。

**核心技術架構**
Keye-VL-2.0-30B-A3B 的技術突破主要歸功於其對長序列處理的優化：
- **DSA 原生架構**：採用稀疏注意力機制與針對性的特徵聚合，支援高達 256k 的 context window，能精確處理長達一小時的影片內容，且不會出現上下文衰減。
- **高效能推論與訓練堆疊**：整合了 `ExtraIO`、異質 ViT-LM 平行化、啟用優化及自定義核心（custom kernels），顯著提升訓練吞吐量並降低長序列的計算開銷。
- **資料中心化預訓練**：透過精選的資料管道、Keye-VL-1.5 視覺編碼器及合成的思維鏈（CoT）資料，強化了模型在感知、OCR、圖表理解及推理連續性上的表現。
- **後訓練優化**：利用 MOPD、Bucket Advantage Scaling、Context-RL 及高訊噪比（SNR）資料過濾，有效減少幻覺並穩定長上下文的決策品質。

**影片理解與基準測試表現**
該模型在細粒度時間定位與長影片理解方面表現優異，甚至在部分指標上超越了閉源模型「Gemini-3-Flash」：
- **時間定位能力**：在「Charades-TimeLens」達到 58.4 mIoU，與頂尖閉源模型持平；在「ActivityNet-TimeLens」以 58.5 mIoU 超越 Gemini-3-Flash（56.95）；在「QVHighlights-TimeLens」以 70.1 mIoU 遙遙領先 Gemini-3-Flash（49.45）。
- **長上下文擴展性**：在「VideoMME V2」測試中，隨著輸入影格從 64 增加至 512，模型準確率從 35.3% 提升至 42.4%，非線性推理分數亦從 18.5 攀升至 24.2，展現出極佳的擴展性。
- **綜合理解能力**：在「LongVideoBench」取得 74.1 分，超越了「Qwen3.5-35B-A3B」及參數規模更大的「Qwen3-VL-235B-A22B」。

**Agent 應用能力**
作為 Keye 系列首個具備 Agent 機制的基礎模型，它支援系統級的排程與協作：
- **內建 Agent 功能**：具備程式撰寫、工具呼叫與網路搜尋能力，能處理程式庫任務、API 風格的工具使用、基於網路的搜尋以及視覺自我修正工作流。
- **實際影響**：該模型不僅在 30B 規模下實現了對 200B+ 參數模型的超越，更透過內建的 Agent 協作機制，在搜尋、工具與程式開發場景中展現了強大的實作潛力。

開發者可透過 ModelScope 平台取得模型權重：[Keye-VL-2.0-30B-A3B 模型頁面](https://modelscope.ai/models/Kwai-Keye/Keye-VL-2.0-30B-A3B)

## 標籤

新產品, Agent, VLM, Benchmark, Kwai, Keye
