← 返回首頁

Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集

Kimi.ai
Kimi.ai
@Kimi_Moonshot
13,445🔁 1,710
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。

Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench Pro (58.6)、SWE-bench Multilingual (76.7)、BrowseComp (83.2)、Toolathlon (50.0)、Charxiv w/ python (86.7)、Math Vision w/ python (93.2),並透過kimi.com、Kimi App、API及Kimi Code提供服務,專注長視野編碼、Agent叢集及主動自主運作。

基準成績領先

Kimi K2.6在開源模型中樹立新標竿,涵蓋複雜End to End (端到端)任務的「Kimi Code Bench」內部基準顯示,相較K2.5有顯著進步;在企業beta測試中,表現優異於長視野編碼任務。

  • HLE w/ tools:54.0
  • SWE-Bench Pro:58.6
  • SWE-bench Multilingual:76.7
  • BrowseComp:83.2
  • Toolathlon:50.0
  • Charxiv w/ python:86.7
  • Math Vision w/ python:93.2

長視野編碼能力

Kimi K2.6展現強大長視野編碼,支援跨語言(Rust、Go、Python)及任務(前端、DevOps、效能優化)的泛化,處理超過4,000+工具呼叫、持續12小時以上執行。

  • 在Mac上自動下載部署Qwen3.5-0.8B模型,使用Zig語言(高度利基語言)實作並優化推理,經14次迭代、4,000+工具呼叫、逾12小時執行,將throughput從15 token/sec提升至193 token/sec,最終比LM Studio快~20%。
  • 自主重構8年老「exchange-core」開源金融匹配引擎,13小時內迭代12種優化策略、逾1,000工具呼叫,修改逾4,000行程式碼;分析CPU與分配flame graphs,重新配置核心執行緒拓撲(從4ME+2RE改為2ME+1RE),儘管引擎已近效能極限,仍將中位throughput提升185%(0.43至1.24 MT/s),效能throughput躍升133%(1.23至2.86 MT/s)。

程式碼驅動設計

基於強大程式碼能力,Kimi K2.6能將簡單提示轉為完整前端介面,產生結構化佈局、美學英雄區塊、互動元素及豐富動畫(如滾動觸發效果),熟練運用圖像與影片生成工具,產生視覺一致的asset。

  • 擴展至輕量全端工作流程,涵蓋認證、使用者互動至資料庫操作(如交易記錄或工作階段管理)。
  • 內部「Kimi Design Bench」分四類:視覺輸入任務、首頁建構、全端應用開發、一般創意程式撰寫;相較Google AI Studio,Kimi K2.6表現優異。

Agent叢集升級

Kimi K2.6 Agent Swarm從K2.5研究預覽大幅躍進,水平擴展至300個平行子Agent × 4,000步驟(K2.5僅100子Agent × 1,500步),單一提示處理100+檔案,動態分解任務為異質子任務,由領域專精Agent並行執行。

  • 協調互補技能:廣泛搜尋疊加深度研究、大規模文件分析融合長文撰寫、多格式內容並行生成。
  • 單次自主執行產生End to End (端到端)輸出,如文件、網站、簡報、試算表;將PDF、試算表、簡報、Word文件轉為Skills,保留結構與風格DNA,未來任務可重現相同品質。
  • 大幅降低End to End (端到端)延遲,提升輸出品質,擴大Agent Swarm運作邊界。

主動Agent支援

Kimi K2.6驅動OpenClaw、Hermes Agent等主動Agent,實現24/7自主運作,跨應用管理排程、執行程式碼、協調跨平台操作,超越單純聊天互動。

  • RL基礎設施團隊使用K2.6後援Agent自主運作5天,處理監控、事件回應及系統操作,展現持續脈絡、多執行緒任務處理及從警示到解決的全週期執行。
  • 實測可靠性提升:更精準API解讀、更穩定長時間效能、強化長研究任務的安全意識。

Claw Groups研究預覽

Kimi K2.6擴展主動Agent至「Claw Groups」,作為Agent Swarm新架構,支援自帶Agent、指揮他人Agent、人機混合協作。

  • 開放異質生態:多Agent與人類真實合作,使用者可從任何裝置引入任一模型Agent,攜帶專屬工具組、Skills及持續記憶脈絡(本地筆電、行動裝置或雲端皆可)。
  • K2.6作為適應性協調器,依技能與工具動態匹配任務;偵測Agent失敗或停滯時,自動重新指派或再生子任務,管理從啟動、驗證到完成的完整生命週期。
  • 超越單純提問或指派任務,邁向人機真實夥伴協作,消融「我的Agent」、「你的Agent」與「團隊」界線。

模型架構與部署

Kimi K2.6為原生多模態Agentic模型,採用Mixture-of-Experts (MoE)架構,總參數1T、啟用參數32B。

  • 層數(含Dense層):61;Dense層:1;注意力隱藏維度:7168;MoE隱藏維度(每專家):2048;注意力頭數:64;專家人數:384;每token選取專家:8;共享專家:1;詞彙大小:160K;脈絡長度:256K;注意力機制:MLA;啟用函數:SwiGLU;視覺編碼器:MoonViT(參數400M)。
  • 原生INT4量化,與Kimi-K2-Thinking相同;推薦推理引擎:vLLM、SGLang、KTransformers;相容OpenAI/Anthropic API;transformers版本需>=4.57.1, <5.0.0。
  • 最佳搭配Kimi Code CLI作為Agent harness;官方API支援影片聊天(第三方vLLM/SGLang暫為實驗);推薦溫度:Thinking模式1.0、Instant模式0.6;top_p 0.95;Instant模式傳{'chat_template_kwargs': {"thinking": False}}。

內部評估與外部回饋

CodeBuddy WorkBuddy評估顯示,相較K2.5:程式碼生成準確率增12%、長脈絡穩定性增18%、工具呼叫成功率96.60%;強化推理與輸出一致性,確保可靠使用者體驗。

多位專家肯定K2.6進步:

  • Bola Malek(Labs主管):與領先閉源模型匹敵,工具呼叫品質高,適合複雜長視野工程。
  • Robert Rizk(共同創辦人兼CEO):穩定長編碼工作階段,揭露深層非明顯bug,樹立可靠程式碼新標準。
  • Leo Tchourakov(技術員工):基準+15%,指令遵循更佳、探索推理更徹底、少犯錯或用hack。
  • Yun Jin(AI基礎設施主管):長視野可靠性與指令遵循躍進,維持架構完整,SOTA複雜推理。
  • Thomas Eastman(Hermes Agent):工具呼叫與Agent迴圈更緊密,程式碼明顯升級,創意範圍驚喜。
  • Scott Breitenother(KiloClaw共同創辦人兼CEO):SOTA效能、低成本,長脈絡與日常工作強。
  • Michael Chiang(Ollama共同創辦人):長多步驟穩定,與所有整合相容。
  • Frank Wang(OpenCode創辦人):任務分解與工具呼叫穩健,減少重複開銷。
  • Chen Xin(Qoder資深技術專家):工具呼叫頻率大增,主動性與智慧提升,減少使用者中斷。
  • Jerilyn Zheng(Vercel AI PM):Next.js基準+50%,成本效能比佳,適合Agentic程式碼與前端生成。

可用性與許可

Kimi K2.6已上線kimi.com聊天模式與Agent模式;生產級程式碼搭配Kimi Code (kimi.com/code);API:platform.moonshot.ai;技術部落格:kimi.com/blog/kimi-k2-6;權重與程式碼:huggingface.co/moonshotai/Kimi-K2.6。採用Modified MIT License開源程式庫與模型權重。