小米 MiMo-V2.5 系列推動開源 Agent 前進,效能匹敵 Claude Opus 4.6 與 GPT-5.4
AI 語音朗讀 · Edge TTS
小米 MiMo-V2.5 系列推動開源 Agent 前進,效能匹敵 Claude Opus 4.6 與 GPT-5.4。
小米 MiMo 推出 V2.5-Pro 與 V2.5 兩款模型,於 2026 年 4 月 22 日進入公開測試版,帶來代理能力、多模態理解與 token 效率的大幅躍進,專為複雜長程任務設計,並優化 token 計費方案。
MiMo-V2.5-Pro 的頂尖代理能力
MiMo-V2.5-Pro 是小米迄今最強模型,相較前代 MiMo-V2-Pro 在通用代理能力、複雜軟體工程與長程任務大幅提升,基準測試匹敵前沿模型如 Claude Opus 4.6 與 GPT-5.4,包括 SWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9。
- 自主完成超過 1,000 次工具呼叫的專業任務,人類專家需花數天。
- 在內部測試中,搭配適當 harness 持續複雜長程任務,展現「harness 意識」:充分利用環境功能、管理記憶,並塑造上下文以達最終目標。
- 指令遵循大幅改善,能可靠遵守上下文中的細微要求,並維持超長上下文的連貫性。
V2.5-Pro 解決高難度實際任務
模型針對人類專家需數天至數週的挑戰進行自主執行,展現結構化、自校正紀律。
- SysY 編譯器實作:來自北大「編譯原理」課程專案,從零建構 Rust 版完整 SysY 編譯器,包括 lexer、parser、AST、Koopa IR 程式碼產生、RISC-V 組合語言後端與效能優化。學生參考專案需數週,V2.5-Pro 僅 4.3 小時、672 次工具呼叫,完美通過隱藏測試組 233/233 分。第一版即達 59%(137/233),層層建構,先完美 Koopa IR (110/110)、RISC-V 後端 (103/103)、效能 (20/20);第 512 輪重構時診斷並修復 lv9/riscv 兩項失敗。
- 完整影片編輯器:僅需簡單提示,即產生 8,192 行程式碼的桌面應用,包含多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混音與匯出管線,歷時 11.5 小時、1,868 次工具呼叫。
- 類比 EDA:FVF-LDO 設計優化:研究生級任務,在 TSMC 180nm CMOS 製程從零設計 Flipped-Voltage-Follower 低壓差穩壓器,調整功率電晶體尺寸、補償網路與偏壓,使相位邊際、線規、負載規、靜態電流、PSRR、瞬態響應六項指標達標。搭配 ngspice 模擬迴圈與 Claude Code harness,1 小時封閉迴圈迭代後,所有指標達標,四項更優化一個數量級。
MiMo-V2.5 的多模態代理效能
MiMo-V2.5 原生支援全模態(omnimodal),以約一半成本提供 Pro 等級代理效能,推論速度 100–150 token/s,涵蓋影像、音訊、影片,具 1M token 上下文視窗。
- 在 Claw-Eval 一般子集達 62.3,處於效能與效率的 Pareto 前沿;在 Claw-Eval 多模態達 23.8,匹敵 Claude Sonnet 4.6,領先 MiMo-V2-Omni 八分,僅落後 Claude Opus 4.6 1 分。
- 影片理解 Video-MME 87.7,與 Gemini 3 Pro (88.4) 持平,遠超 Gemini 3 Flash;支援長程影片理解如場景追蹤、時序推理、多分鐘畫面視覺定位。
- 影像理解 CharXiv RQ 81.0、MMMU-Pro 77.9,逼近 Gemini 3 Pro。
- 內部 MiMo Coding Bench 強勁,日常程式撰寫任務追平前沿模型,與 V2.5-Pro 匹敵但成本減半。
卓越 token 效率優勢
MiMo-V2.5 系列專為 token 效率調校,同 ClawEval 分數下大幅省 token,實現高分低成本。
- V2.5-Pro 在 ClawEval 64% Pass^3 僅用 ~70K token/軌跡,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40–60%。
- V2.5-Pro 比 Kimi K2.6 省 42% token;V2.5 比 Muse Spark 省近半 token。
- 透過擴大後訓練運算,提升程式撰寫智慧,涵蓋 repo 理解、專案建置、程式碼審核、結構化產物產生、規劃、SWE 等,適用 Claude Code、OpenCode、Kilo 等 Agent 框架。
Token 計費方案升級
伴隨模型強化,小米升級推論基礎設施與 Token Plan,計費更簡化、低廉,已全面部署至 API 平台、AI Studio 等,僅需替換模型標籤如 mimo-v2.5-pro 即可啟用,定價不變。
- MiMo-V2.5:1x (1 token = 1 credit)。
- MiMo-V2.5-Pro:2x (1 token = 2 credits)。
- 4 月 21 日 UTC 14:00 前購買 Token Plan 的使用者,已用 credit 餘額重置。
- 1M token 上下文視窗不再收取倍數費用。
- API 與 Token Plan:https://platform.xiaomimimo.com/token-plan。
系列模型定位與未來展望
V2.5-Pro 專攻需深度推理的長複雜 Agent 任務;V2.5 適用多數通用 Agent 情境,兼顧速度與多模態。
- 內部測試推動研究員重新思考與模型合作方式,V2.5-Pro 展現新水準智慧。
- 技術文件:V2.5-Pro https://mimo.xiaomi.com/blog/mimo-v2.5-pro;V2.5 https://mimo.xiaomi.com/blog/mimo-v2.5。
- 即將正式發布並開源,下一代訓練聚焦更深推理、更緊密工具整合與更豐富真實世界 grounding,邀請開發者建構應用。
Xiaomi MiMo-V2.5 Series: Pushing Open-Source Agents Forward
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026
🔸 MiMo-V2.5-Pro, our strongest model yet.
A major leap from MiMo-V2-Pro in general agentic capabilities, complex software engineering, and long-horizon tasks, now matching frontier models like Claude Opus 4.6 and… pic.twitter.com/PUd8RuxC9n
The MiMo-V2.5 series is tuned for token efficiency.
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026
At the same ClawEval agent benchmark score:
🔸 MiMo-V2.5-Pro uses 42% fewer tokens than Kimi K2.6
🔸 MiMo-V2.5 uses nearly half the tokens of Muse Spark
Same frontier performance, at a fraction of the cost. pic.twitter.com/5qc95c1z46
The MiMo-V2.5 series — how they fit together:
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026
🔸 MiMo-V2.5-Pro: built for long, complex agent tasks that demand deep reasoning.
🔸 MiMo-V2.5: covers most general-purpose agent scenarios at 100–150 tokens/s, with native omni-modal capabilities across image, audio, and video.… pic.twitter.com/dulAChjYY9
Token Plan Update
— Xiaomi MiMo (@XiaomiMiMo) April 22, 2026
Alongside stronger models, we've upgraded our inference infrastructure — and your Token Plan gets better too.
Simpler, lower credit rates:
• MiMo-V2.5: 1x (1 token = 1 credit)
• MiMo-V2.5-Pro: 2x (1 token = 2 credits)
From now on, Token Plans… pic.twitter.com/Yiy87Mx1ts
