Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集
AI 語音朗讀 · Edge TTS
Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。
Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench Pro (58.6)、SWE-bench Multilingual (76.7)、BrowseComp (83.2)、Toolathlon (50.0)、Charxiv w/ python (86.7)、Math Vision w/ python (93.2),並透過kimi.com、Kimi App、API及Kimi Code提供服務,專注長視野編碼、Agent叢集及主動自主運作。
基準成績領先
Kimi K2.6在開源模型中樹立新標竿,涵蓋複雜End to End (端到端)任務的「Kimi Code Bench」內部基準顯示,相較K2.5有顯著進步;在企業beta測試中,表現優異於長視野編碼任務。
- HLE w/ tools:54.0
- SWE-Bench Pro:58.6
- SWE-bench Multilingual:76.7
- BrowseComp:83.2
- Toolathlon:50.0
- Charxiv w/ python:86.7
- Math Vision w/ python:93.2
長視野編碼能力
Kimi K2.6展現強大長視野編碼,支援跨語言(Rust、Go、Python)及任務(前端、DevOps、效能優化)的泛化,處理超過4,000+工具呼叫、持續12小時以上執行。
- 在Mac上自動下載部署Qwen3.5-0.8B模型,使用Zig語言(高度利基語言)實作並優化推理,經14次迭代、4,000+工具呼叫、逾12小時執行,將throughput從
15 token/sec提升至193 token/sec,最終比LM Studio快~20%。 - 自主重構8年老「exchange-core」開源金融匹配引擎,13小時內迭代12種優化策略、逾1,000工具呼叫,修改逾4,000行程式碼;分析CPU與分配flame graphs,重新配置核心執行緒拓撲(從4ME+2RE改為2ME+1RE),儘管引擎已近效能極限,仍將中位throughput提升185%(0.43至1.24 MT/s),效能throughput躍升133%(1.23至2.86 MT/s)。
程式碼驅動設計
基於強大程式碼能力,Kimi K2.6能將簡單提示轉為完整前端介面,產生結構化佈局、美學英雄區塊、互動元素及豐富動畫(如滾動觸發效果),熟練運用圖像與影片生成工具,產生視覺一致的asset。
- 擴展至輕量全端工作流程,涵蓋認證、使用者互動至資料庫操作(如交易記錄或工作階段管理)。
- 內部「Kimi Design Bench」分四類:視覺輸入任務、首頁建構、全端應用開發、一般創意程式撰寫;相較Google AI Studio,Kimi K2.6表現優異。
Agent叢集升級
Kimi K2.6 Agent Swarm從K2.5研究預覽大幅躍進,水平擴展至300個平行子Agent × 4,000步驟(K2.5僅100子Agent × 1,500步),單一提示處理100+檔案,動態分解任務為異質子任務,由領域專精Agent並行執行。
- 協調互補技能:廣泛搜尋疊加深度研究、大規模文件分析融合長文撰寫、多格式內容並行生成。
- 單次自主執行產生End to End (端到端)輸出,如文件、網站、簡報、試算表;將PDF、試算表、簡報、Word文件轉為Skills,保留結構與風格DNA,未來任務可重現相同品質。
- 大幅降低End to End (端到端)延遲,提升輸出品質,擴大Agent Swarm運作邊界。
主動Agent支援
Kimi K2.6驅動OpenClaw、Hermes Agent等主動Agent,實現24/7自主運作,跨應用管理排程、執行程式碼、協調跨平台操作,超越單純聊天互動。
- RL基礎設施團隊使用K2.6後援Agent自主運作5天,處理監控、事件回應及系統操作,展現持續脈絡、多執行緒任務處理及從警示到解決的全週期執行。
- 實測可靠性提升:更精準API解讀、更穩定長時間效能、強化長研究任務的安全意識。
Claw Groups研究預覽
Kimi K2.6擴展主動Agent至「Claw Groups」,作為Agent Swarm新架構,支援自帶Agent、指揮他人Agent、人機混合協作。
- 開放異質生態:多Agent與人類真實合作,使用者可從任何裝置引入任一模型Agent,攜帶專屬工具組、Skills及持續記憶脈絡(本地筆電、行動裝置或雲端皆可)。
- K2.6作為適應性協調器,依技能與工具動態匹配任務;偵測Agent失敗或停滯時,自動重新指派或再生子任務,管理從啟動、驗證到完成的完整生命週期。
- 超越單純提問或指派任務,邁向人機真實夥伴協作,消融「我的Agent」、「你的Agent」與「團隊」界線。
模型架構與部署
Kimi K2.6為原生多模態Agentic模型,採用Mixture-of-Experts (MoE)架構,總參數1T、啟用參數32B。
- 層數(含Dense層):61;Dense層:1;注意力隱藏維度:7168;MoE隱藏維度(每專家):2048;注意力頭數:64;專家人數:384;每token選取專家:8;共享專家:1;詞彙大小:160K;脈絡長度:256K;注意力機制:MLA;啟用函數:SwiGLU;視覺編碼器:MoonViT(參數400M)。
- 原生INT4量化,與Kimi-K2-Thinking相同;推薦推理引擎:vLLM、SGLang、KTransformers;相容OpenAI/Anthropic API;transformers版本需>=4.57.1, <5.0.0。
- 最佳搭配Kimi Code CLI作為Agent harness;官方API支援影片聊天(第三方vLLM/SGLang暫為實驗);推薦溫度:Thinking模式1.0、Instant模式0.6;top_p 0.95;Instant模式傳{'chat_template_kwargs': {"thinking": False}}。
內部評估與外部回饋
CodeBuddy WorkBuddy評估顯示,相較K2.5:程式碼生成準確率增12%、長脈絡穩定性增18%、工具呼叫成功率96.60%;強化推理與輸出一致性,確保可靠使用者體驗。
多位專家肯定K2.6進步:
- Bola Malek(Labs主管):與領先閉源模型匹敵,工具呼叫品質高,適合複雜長視野工程。
- Robert Rizk(共同創辦人兼CEO):穩定長編碼工作階段,揭露深層非明顯bug,樹立可靠程式碼新標準。
- Leo Tchourakov(技術員工):基準+15%,指令遵循更佳、探索推理更徹底、少犯錯或用hack。
- Yun Jin(AI基礎設施主管):長視野可靠性與指令遵循躍進,維持架構完整,SOTA複雜推理。
- Thomas Eastman(Hermes Agent):工具呼叫與Agent迴圈更緊密,程式碼明顯升級,創意範圍驚喜。
- Scott Breitenother(KiloClaw共同創辦人兼CEO):SOTA效能、低成本,長脈絡與日常工作強。
- Michael Chiang(Ollama共同創辦人):長多步驟穩定,與所有整合相容。
- Frank Wang(OpenCode創辦人):任務分解與工具呼叫穩健,減少重複開銷。
- Chen Xin(Qoder資深技術專家):工具呼叫頻率大增,主動性與智慧提升,減少使用者中斷。
- Jerilyn Zheng(Vercel AI PM):Next.js基準+50%,成本效能比佳,適合Agentic程式碼與前端生成。
可用性與許可
Kimi K2.6已上線kimi.com聊天模式與Agent模式;生產級程式碼搭配Kimi Code (kimi.com/code);API:platform.moonshot.ai;技術部落格:kimi.com/blog/kimi-k2-6;權重與程式碼:huggingface.co/moonshotai/Kimi-K2.6。採用Modified MIT License開源程式庫與模型權重。
Meet Kimi K2.6: Advancing Open-Source Coding
— Kimi.ai (@Kimi_Moonshot) April 20, 2026
🔹Open-source SOTA on HLE w/ tools (54.0), SWE-Bench Pro (58.6), SWE-bench Multilingual (76.7), BrowseComp (83.2), Toolathlon (50.0), Charxiv w/ python(86.7), Math Vision w/ python (93.2)
What's new:
🔹Long-horizon coding - 4,000+… pic.twitter.com/wkzsQqKphv
