← 返回首頁

小米 MiMo-V2.5 系列推動開源 Agent 前進,效能匹敵 Claude Opus 4.6 與 GPT-5.4

Xiaomi MiMo
Xiaomi MiMo
@XiaomiMiMo
1,868🔁 197
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

小米 MiMo-V2.5 系列推動開源 Agent 前進,效能匹敵 Claude Opus 4.6 與 GPT-5.4。

小米 MiMo 推出 V2.5-Pro 與 V2.5 兩款模型,於 2026 年 4 月 22 日進入公開測試版,帶來代理能力、多模態理解與 token 效率的大幅躍進,專為複雜長程任務設計,並優化 token 計費方案。

MiMo-V2.5-Pro 的頂尖代理能力

MiMo-V2.5-Pro 是小米迄今最強模型,相較前代 MiMo-V2-Pro 在通用代理能力、複雜軟體工程與長程任務大幅提升,基準測試匹敵前沿模型如 Claude Opus 4.6 與 GPT-5.4,包括 SWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9。

  • 自主完成超過 1,000 次工具呼叫的專業任務,人類專家需花數天。
  • 在內部測試中,搭配適當 harness 持續複雜長程任務,展現「harness 意識」:充分利用環境功能、管理記憶,並塑造上下文以達最終目標。
  • 指令遵循大幅改善,能可靠遵守上下文中的細微要求,並維持超長上下文的連貫性。

V2.5-Pro 解決高難度實際任務

模型針對人類專家需數天至數週的挑戰進行自主執行,展現結構化、自校正紀律。

  • SysY 編譯器實作:來自北大「編譯原理」課程專案,從零建構 Rust 版完整 SysY 編譯器,包括 lexer、parser、AST、Koopa IR 程式碼產生、RISC-V 組合語言後端與效能優化。學生參考專案需數週,V2.5-Pro 僅 4.3 小時、672 次工具呼叫,完美通過隱藏測試組 233/233 分。第一版即達 59%(137/233),層層建構,先完美 Koopa IR (110/110)、RISC-V 後端 (103/103)、效能 (20/20);第 512 輪重構時診斷並修復 lv9/riscv 兩項失敗。
  • 完整影片編輯器:僅需簡單提示,即產生 8,192 行程式碼的桌面應用,包含多軌時間軸、剪輯修剪、交叉淡入淡出、音訊混音與匯出管線,歷時 11.5 小時、1,868 次工具呼叫。
  • 類比 EDA:FVF-LDO 設計優化:研究生級任務,在 TSMC 180nm CMOS 製程從零設計 Flipped-Voltage-Follower 低壓差穩壓器,調整功率電晶體尺寸、補償網路與偏壓,使相位邊際、線規、負載規、靜態電流、PSRR、瞬態響應六項指標達標。搭配 ngspice 模擬迴圈與 Claude Code harness,1 小時封閉迴圈迭代後,所有指標達標,四項更優化一個數量級。

MiMo-V2.5 的多模態代理效能

MiMo-V2.5 原生支援全模態(omnimodal),以約一半成本提供 Pro 等級代理效能,推論速度 100–150 token/s,涵蓋影像、音訊、影片,具 1M token 上下文視窗。

  • 在 Claw-Eval 一般子集達 62.3,處於效能與效率的 Pareto 前沿;在 Claw-Eval 多模態達 23.8,匹敵 Claude Sonnet 4.6,領先 MiMo-V2-Omni 八分,僅落後 Claude Opus 4.6 1 分。
  • 影片理解 Video-MME 87.7,與 Gemini 3 Pro (88.4) 持平,遠超 Gemini 3 Flash;支援長程影片理解如場景追蹤、時序推理、多分鐘畫面視覺定位。
  • 影像理解 CharXiv RQ 81.0、MMMU-Pro 77.9,逼近 Gemini 3 Pro。
  • 內部 MiMo Coding Bench 強勁,日常程式撰寫任務追平前沿模型,與 V2.5-Pro 匹敵但成本減半。

卓越 token 效率優勢

MiMo-V2.5 系列專為 token 效率調校,同 ClawEval 分數下大幅省 token,實現高分低成本。

  • V2.5-Pro 在 ClawEval 64% Pass^3 僅用 ~70K token/軌跡,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40–60%。
  • V2.5-Pro 比 Kimi K2.6 省 42% token;V2.5 比 Muse Spark 省近半 token。
  • 透過擴大後訓練運算,提升程式撰寫智慧,涵蓋 repo 理解、專案建置、程式碼審核、結構化產物產生、規劃、SWE 等,適用 Claude Code、OpenCode、Kilo 等 Agent 框架。

Token 計費方案升級

伴隨模型強化,小米升級推論基礎設施與 Token Plan,計費更簡化、低廉,已全面部署至 API 平台、AI Studio 等,僅需替換模型標籤如 mimo-v2.5-pro 即可啟用,定價不變。

  • MiMo-V2.5:1x (1 token = 1 credit)。
  • MiMo-V2.5-Pro:2x (1 token = 2 credits)。
  • 4 月 21 日 UTC 14:00 前購買 Token Plan 的使用者,已用 credit 餘額重置。
  • 1M token 上下文視窗不再收取倍數費用。
  • API 與 Token Plan:https://platform.xiaomimimo.com/token-plan。

系列模型定位與未來展望

V2.5-Pro 專攻需深度推理的長複雜 Agent 任務;V2.5 適用多數通用 Agent 情境,兼顧速度與多模態。