# 「MiMo-V2.5」系列模型透過「混合滑動視窗注意力（Hybrid SWA）」架構與全端推論優化，成功將 KVCache 儲存需求降至傳統全注意力機制的 1/7，並透過系統級架構重構實現了顯著的成本效益與效能提升

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Fuli Luo (@_LuoFuli) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-05-31

> 原始來源：https://x.com/_LuoFuli/status/2060672928367497480

## 證據與延伸閱讀

- [MiMo-V2.5降KVCache至1/7](https://mimo.xiaomi.com/blog/mimo-v2-5-inference)

## 中文摘要

「MiMo-V2.5」系列模型透過「混合滑動視窗注意力（Hybrid SWA）」架構與全端推論優化，成功將 KVCache 儲存需求降至傳統全注意力機制的 1/7，並透過系統級架構重構實現了顯著的成本效益與效能提升。

**核心架構與效能優勢**
MiMo-V2.5 與 MiMo-V2.5-Pro 模型採用 Hybrid SWA 架構，將層級分為全注意力層與滑動視窗注意力（SWA）層。這種設計在保持長文本推理能力的同時，大幅降低了計算複雜度與記憶體佔用：
- **計算成本**：由於 6/7 的層級採用 SWA，整體計算量約為全注意力機制的 1/7，在 Prefill 階段表現出顯著的效能優勢。
- **KVCache 儲存**：SWA 層僅需保留視窗內的 KV 資料，使得 KVCache 記憶體佔用同樣縮減至約 1/7，直接降低了長序列推理的解碼成本。

**KVCache 系統重構**
為了解決 Hybrid SWA 在生產環境中的管理挑戰，開發團隊針對 KVCache 進行了深度優化：
- **雙池設計**：將 KVCache 拆分為「全注意力池」與「SWA 池」，分別進行管理。SWA 池嚴格限制在 O(W) 空間複雜度，並支援獨立的視窗淘汰機制，確保資源不被浪費。
- **SWA 感知的前綴快取樹**：傳統 RadixAttention 的匹配規則無法適應 SWA 的視窗特性。團隊引入「視窗安全長度」匹配規則，確保快取節點在邏輯與物理層面均有效，並透過雙索引機制管理快取生命週期，避免因快取失效導致的推理錯誤。
- **分層預取與一致性**：針對裝置端、主機端與儲存後端進行非同步預取優化，並在節點合併與 Prefill 完成時主動修復快取狀態，確保跨層級資料的一致性。

**GCache 分散式儲存架構**
為了支撐大規模推理，團隊開發了高效能通用快取系統「GCache」，作為 L3 KVCache 的儲存後端：
- **架構特性**：採用去中心化元資料管理，支援記憶體與磁碟的多級快取，並透過共享記憶體實現服務重啟後的快取持久化。
- **硬體整合**：GCache 優先部署於 GPU 機器上，利用內建 NVMe SSD 與 GPU 網卡（NIC），在不增加額外儲存成本的前提下，透過 RDMA 技術實現極高的 IO 吞吐量。
- **可靠性設計**：透過一致性雜湊（Consistent Hashing）分佈 Key，並結合硬體故障主動發現與自動遷移機制，在單副本配置下維持高可用性。

**排程與實際影響**
透過「LLM-Router」與負載親和性排程策略，系統進一步提升了快取命中率：
- **負載親和性排程**：路由器會優先將請求分發至已擁有前綴快取的實例，同時兼顧負載平衡，有效減少了 L2 快取未命中的等待時間。
- **實際成效**：在主流生產環境中，這些優化使有效 KVCache 容量提升近 5 倍，伺服器端快取命中率穩定維持在 93% 至 95% 之間。

這些工程實踐不僅解決了 Hybrid SWA 在理論與生產環境間的落差，更成為 MiMo-V2.5 系列 API 能夠大幅降價的關鍵技術支撐。未來團隊將持續與各類 harness 框架進行協同設計，進一步推升快取命中率的上限。

## 標籤

LLM, 研究論文, Benchmark, MiMo