小米 MiMo-V2.5 系列推動開源 Agent 前進，效能匹敵 Claude Opus 4.6 與 GPT-5.4

Xiaomi MiMo

@XiaomiMiMo

♥1,868🔁 197

𝕏 (Twitter)🔥🔥🔥🔥🔥2026年4月23日

📎 來源文章 ↗查看原文 ↗

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

小米 MiMo-V2.5 系列推動開源 Agent 前進，效能匹敵 Claude Opus 4.6 與 GPT-5.4。

小米 MiMo 推出 V2.5-Pro 與 V2.5 兩款模型，於 2026 年 4 月 22 日進入公開測試版，帶來代理能力、多模態理解與 token 效率的大幅躍進，專為複雜長程任務設計，並優化 token 計費方案。

MiMo-V2.5-Pro 的頂尖代理能力

MiMo-V2.5-Pro 是小米迄今最強模型，相較前代 MiMo-V2-Pro 在通用代理能力、複雜軟體工程與長程任務大幅提升，基準測試匹敵前沿模型如 Claude Opus 4.6 與 GPT-5.4，包括 SWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9。

自主完成超過 1,000 次工具呼叫的專業任務，人類專家需花數天。
在內部測試中，搭配適當 harness 持續複雜長程任務，展現「harness 意識」：充分利用環境功能、管理記憶，並塑造上下文以達最終目標。
指令遵循大幅改善，能可靠遵守上下文中的細微要求，並維持超長上下文的連貫性。

V2.5-Pro 解決高難度實際任務

模型針對人類專家需數天至數週的挑戰進行自主執行，展現結構化、自校正紀律。

SysY 編譯器實作：來自北大「編譯原理」課程專案，從零建構 Rust 版完整 SysY 編譯器，包括 lexer、parser、AST、Koopa IR 程式碼產生、RISC-V 組合語言後端與效能優化。學生參考專案需數週，V2.5-Pro 僅 4.3 小時、672 次工具呼叫，完美通過隱藏測試組 233/233 分。第一版即達 59%（137/233），層層建構，先完美 Koopa IR (110/110)、RISC-V 後端 (103/103)、效能 (20/20)；第 512 輪重構時診斷並修復 lv9/riscv 兩項失敗。
完整影片編輯器：僅需簡單提示，即產生 8,192 行程式碼的桌面應用，包含多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混音與匯出管線，歷時 11.5 小時、1,868 次工具呼叫。
類比 EDA：FVF-LDO 設計優化：研究生級任務，在 TSMC 180nm CMOS 製程從零設計 Flipped-Voltage-Follower 低壓差穩壓器，調整功率電晶體尺寸、補償網路與偏壓，使相位邊際、線規、負載規、靜態電流、PSRR、瞬態響應六項指標達標。搭配 ngspice 模擬迴圈與 Claude Code harness，1 小時封閉迴圈迭代後，所有指標達標，四項更優化一個數量級。

MiMo-V2.5 的多模態代理效能

MiMo-V2.5 原生支援全模態（omnimodal），以約一半成本提供 Pro 等級代理效能，推論速度 100–150 token/s，涵蓋影像、音訊、影片，具 1M token 上下文視窗。

在 Claw-Eval 一般子集達 62.3，處於效能與效率的 Pareto 前沿；在 Claw-Eval 多模態達 23.8，匹敵 Claude Sonnet 4.6，領先 MiMo-V2-Omni 八分，僅落後 Claude Opus 4.6 1 分。
影片理解 Video-MME 87.7，與 Gemini 3 Pro (88.4) 持平，遠超 Gemini 3 Flash；支援長程影片理解如場景追蹤、時序推理、多分鐘畫面視覺定位。
影像理解 CharXiv RQ 81.0、MMMU-Pro 77.9，逼近 Gemini 3 Pro。
內部 MiMo Coding Bench 強勁，日常程式撰寫任務追平前沿模型，與 V2.5-Pro 匹敵但成本減半。

卓越 token 效率優勢

MiMo-V2.5 系列專為 token 效率調校，同 ClawEval 分數下大幅省 token，實現高分低成本。

V2.5-Pro 在 ClawEval 64% Pass^3 僅用 ~70K token/軌跡，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40–60%。
V2.5-Pro 比 Kimi K2.6 省 42% token；V2.5 比 Muse Spark 省近半 token。
透過擴大後訓練運算，提升程式撰寫智慧，涵蓋 repo 理解、專案建置、程式碼審核、結構化產物產生、規劃、SWE 等，適用 Claude Code、OpenCode、Kilo 等 Agent 框架。

Token 計費方案升級

伴隨模型強化，小米升級推論基礎設施與 Token Plan，計費更簡化、低廉，已全面部署至 API 平台、AI Studio 等，僅需替換模型標籤如 mimo-v2.5-pro 即可啟用，定價不變。

MiMo-V2.5：1x (1 token = 1 credit)。
MiMo-V2.5-Pro：2x (1 token = 2 credits)。
4 月 21 日 UTC 14:00 前購買 Token Plan 的使用者，已用 credit 餘額重置。
1M token 上下文視窗不再收取倍數費用。
API 與 Token Plan：https://platform.xiaomimimo.com/token-plan。

系列模型定位與未來展望

V2.5-Pro 專攻需深度推理的長複雜 Agent 任務；V2.5 適用多數通用 Agent 情境，兼顧速度與多模態。

內部測試推動研究員重新思考與模型合作方式，V2.5-Pro 展現新水準智慧。
技術文件：V2.5-Pro https://mimo.xiaomi.com/blog/mimo-v2.5-pro；V2.5 https://mimo.xiaomi.com/blog/mimo-v2.5。
即將正式發布並開源，下一代訓練聚焦更深推理、更緊密工具整合與更豐富真實世界 grounding，邀請開發者建構應用。

Xiaomi MiMo-V2.5 Series: Pushing Open-Source Agents Forward

🔸 MiMo-V2.5-Pro, our strongest model yet.
A major leap from MiMo-V2-Pro in general agentic capabilities, complex software engineering, and long-horizon tasks, now matching frontier models like Claude Opus 4.6 and… pic.twitter.com/PUd8RuxC9n
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026

The MiMo-V2.5 series is tuned for token efficiency.
At the same ClawEval agent benchmark score:
🔸 MiMo-V2.5-Pro uses 42% fewer tokens than Kimi K2.6
🔸 MiMo-V2.5 uses nearly half the tokens of Muse Spark
Same frontier performance, at a fraction of the cost. pic.twitter.com/5qc95c1z46
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026

The MiMo-V2.5 series — how they fit together:
🔸 MiMo-V2.5-Pro: built for long, complex agent tasks that demand deep reasoning.
🔸 MiMo-V2.5: covers most general-purpose agent scenarios at 100–150 tokens/s, with native omni-modal capabilities across image, audio, and video.… pic.twitter.com/dulAChjYY9
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026

Token Plan Update
Alongside stronger models, we've upgraded our inference infrastructure — and your Token Plan gets better too.
Simpler, lower credit rates:
• MiMo-V2.5: 1x (1 token = 1 credit)
• MiMo-V2.5-Pro: 2x (1 token = 2 credits)
From now on, Token Plans… pic.twitter.com/Yiy87Mx1ts
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026

延伸閱讀

MiMo-V2.5效能匹敵Claude與GPT