# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Xiaomi MiMo (@XiaomiMiMo) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/xiaomimimo/status/2046988157888209365

## 中文摘要

小米 MiMo-V2.5 系列推動開源 Agent 前進，效能匹敵 Claude Opus 4.6 與 GPT-5.4。

小米 MiMo 推出 V2.5-Pro 與 V2.5 兩款模型，於 2026 年 4 月 22 日進入公開測試版，帶來代理能力、多模態理解與 token 效率的大幅躍進，專為複雜長程任務設計，並優化 token 計費方案。

**MiMo-V2.5-Pro 的頂尖代理能力**

MiMo-V2.5-Pro 是小米迄今最強模型，相較前代 MiMo-V2-Pro 在通用代理能力、複雜軟體工程與長程任務大幅提升，基準測試匹敵前沿模型如 Claude Opus 4.6 與 GPT-5.4，包括 SWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9。

- 自主完成超過 1,000 次工具呼叫的專業任務，人類專家需花數天。
- 在內部測試中，搭配適當 harness 持續複雜長程任務，展現「harness 意識」：充分利用環境功能、管理記憶，並塑造上下文以達最終目標。
- 指令遵循大幅改善，能可靠遵守上下文中的細微要求，並維持超長上下文的連貫性。

**V2.5-Pro 解決高難度實際任務**

模型針對人類專家需數天至數週的挑戰進行自主執行，展現結構化、自校正紀律。

- **SysY 編譯器實作**：來自北大「編譯原理」課程專案，從零建構 Rust 版完整 SysY 編譯器，包括 lexer、parser、AST、Koopa IR 程式碼產生、RISC-V 組合語言後端與效能優化。學生參考專案需數週，V2.5-Pro 僅 4.3 小時、672 次工具呼叫，完美通過隱藏測試組 233/233 分。第一版即達 59%（137/233），層層建構，先完美 Koopa IR (110/110)、RISC-V 後端 (103/103)、效能 (20/20)；第 512 輪重構時診斷並修復 lv9/riscv 兩項失敗。
- **完整影片編輯器**：僅需簡單提示，即產生 8,192 行程式碼的桌面應用，包含多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混音與匯出管線，歷時 11.5 小時、1,868 次工具呼叫。
- **類比 EDA：FVF-LDO 設計優化**：研究生級任務，在 TSMC 180nm CMOS 製程從零設計 Flipped-Voltage-Follower 低壓差穩壓器，調整功率電晶體尺寸、補償網路與偏壓，使相位邊際、線規、負載規、靜態電流、PSRR、瞬態響應六項指標達標。搭配 ngspice 模擬迴圈與 Claude Code harness，1 小時封閉迴圈迭代後，所有指標達標，四項更優化一個數量級。

**MiMo-V2.5 的多模態代理效能**

MiMo-V2.5 原生支援全模態（omnimodal），以約一半成本提供 Pro 等級代理效能，推論速度 100–150 token/s，涵蓋影像、音訊、影片，具 1M token 上下文視窗。

- 在 Claw-Eval 一般子集達 62.3，處於效能與效率的 Pareto 前沿；在 Claw-Eval 多模態達 23.8，匹敵 Claude Sonnet 4.6，領先 MiMo-V2-Omni 八分，僅落後 Claude Opus 4.6 1 分。
- 影片理解 Video-MME 87.7，與 Gemini 3 Pro (88.4) 持平，遠超 Gemini 3 Flash；支援長程影片理解如場景追蹤、時序推理、多分鐘畫面視覺定位。
- 影像理解 CharXiv RQ 81.0、MMMU-Pro 77.9，逼近 Gemini 3 Pro。
- 內部 MiMo Coding Bench 強勁，日常程式撰寫任務追平前沿模型，與 V2.5-Pro 匹敵但成本減半。

**卓越 token 效率優勢**

MiMo-V2.5 系列專為 token 效率調校，同 ClawEval 分數下大幅省 token，實現高分低成本。

- V2.5-Pro 在 ClawEval 64% Pass^3 僅用 ~70K token/軌跡，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40–60%。
- V2.5-Pro 比 Kimi K2.6 省 42% token；V2.5 比 Muse Spark 省近半 token。
- 透過擴大後訓練運算，提升程式撰寫智慧，涵蓋 repo 理解、專案建置、程式碼審核、結構化產物產生、規劃、SWE 等，適用 Claude Code、OpenCode、Kilo 等 Agent 框架。

**Token 計費方案升級**

伴隨模型強化，小米升級推論基礎設施與 Token Plan，計費更簡化、低廉，已全面部署至 API 平台、AI Studio 等，僅需替換模型標籤如 mimo-v2.5-pro 即可啟用，定價不變。

- MiMo-V2.5：1x (1 token = 1 credit)。
- MiMo-V2.5-Pro：2x (1 token = 2 credits)。
- 4 月 21 日 UTC 14:00 前購買 Token Plan 的使用者，已用 credit 餘額重置。
- 1M token 上下文視窗不再收取倍數費用。
- API 與 Token Plan：https://platform.xiaomimimo.com/token-plan。

**系列模型定位與未來展望**

V2.5-Pro 專攻需深度推理的長複雜 Agent 任務；V2.5 適用多數通用 Agent 情境，兼顧速度與多模態。

- 內部測試推動研究員重新思考與模型合作方式，V2.5-Pro 展現新水準智慧。
- 技術文件：V2.5-Pro https://mimo.xiaomi.com/blog/mimo-v2.5-pro；V2.5 https://mimo.xiaomi.com/blog/mimo-v2.5。
- 即將正式發布並開源，下一代訓練聚焦更深推理、更緊密工具整合與更豐富真實世界 grounding，邀請開發者建構應用。

## 標籤

Agent, AIGC, 新產品, Benchmark, 小米, Claude, GPT
