# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Fuli Luo (@_LuoFuli) · 平台：X (Twitter) · 日期：2026-05-28

> 原始來源：https://x.com/_LuoFuli/status/2059618247553745204

## 中文摘要

MiMo API 透過架構優化與推論引擎升級，實現最高 99% 的快取輸入大幅降價。

**核心技術優化**
Fuli Luo 指出，此次價格調整主要歸功於推論架構的重大突破，特別是針對「Input (Cache Hit)」的費用調降了 99%。關鍵技術改進包括：
- 支援「SWA (Sliding Window Attention)」的分層 KV 快取最佳化，經生產環境測試，此舉使快取 token 容量提升 5 倍，相當於快取成本降低 80%。
- 結合混合模型中多個「Full Attention」模組間的「Cache Read Overlap」，進一步壓低實際營運成本。
- 採用 1:7 的「Full:SWA」極致稀疏比例，使得 70 層的「MiMo-V2.5-Pro」模型在預填充（prefill）階段的運算量，僅相當於 10 層的「GQA」模型。

**定價策略與市場觀點**
由於架構優勢，MiMo 原本的推論成本已遠低於業界平均，並保有 2 倍至 3 倍的利潤空間。Fuli Luo 強調，此次將「Input (Cache Miss)」與「Output」價格調降 60% 至 80%，是將結構性的成本效率直接回饋給開發者。他同時對業界提出警示，呼籲 LLM 公司切勿「盲目降價」，因為若缺乏底層架構與推論基礎設施的支撐，API 營運極易陷入虧損。

**產業長遠影響**
Fuli Luo 認為，平價且高效能的模型 API 將成為推動 AI 產業發展的戰略支點：
- 透過 API 帶動的持續性、大規模推論需求，將向上拉動整個 AI 基礎設施供應鏈的發展，涵蓋晶片、伺服器、光收發器、PCB、液冷技術、電力、儲能及資料中心。
- 這種成本結構的優化將形成正向循環，為訓練與推論流程注入更具經濟效益的算力，進而加速全球 AGI 在不同區域與技術路徑上的平行演進。

**後續資訊**
針對此次技術細節，官方將於後續發布詳細的技術部落格文章，讀者可持續關注 [MiMo 官方網站](https://mimo.xiaomi.com/) 以獲取最新資訊。