# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Kimi.ai (@Kimi_Moonshot) · 平台：X (Twitter) · 日期：2026-04-21

> 原始來源：https://x.com/Kimi_Moonshot/status/2046249571882500354

## 中文摘要

Kimi K2.6開源模型在程式碼基準領先，強化長視野編碼與Agent叢集。 

Kimi K2.6是Moonshot AI最新開源模型，在多項程式碼基準達到SOTA成績，如HLE w/ tools (54.0)、SWE-Bench Pro (58.6)、SWE-bench Multilingual (76.7)、BrowseComp (83.2)、Toolathlon (50.0)、Charxiv w/ python (86.7)、Math Vision w/ python (93.2)，並透過kimi.com、Kimi App、API及Kimi Code提供服務，專注長視野編碼、Agent叢集及主動自主運作。

**基準成績領先**

Kimi K2.6在開源模型中樹立新標竿，涵蓋複雜End to End (端到端)任務的「Kimi Code Bench」內部基準顯示，相較K2.5有顯著進步；在企業beta測試中，表現優異於長視野編碼任務。

- HLE w/ tools：54.0
- SWE-Bench Pro：58.6
- SWE-bench Multilingual：76.7
- BrowseComp：83.2
- Toolathlon：50.0
- Charxiv w/ python：86.7
- Math Vision w/ python：93.2

**長視野編碼能力**

Kimi K2.6展現強大長視野編碼，支援跨語言（Rust、Go、Python）及任務（前端、DevOps、效能優化）的泛化，處理超過4,000+工具呼叫、持續12小時以上執行。

- 在Mac上自動下載部署Qwen3.5-0.8B模型，使用Zig語言（高度利基語言）實作並優化推理，經14次迭代、4,000+工具呼叫、逾12小時執行，將throughput從~15 token/sec提升至~193 token/sec，最終比LM Studio快~20%。
- 自主重構8年老「exchange-core」開源金融匹配引擎，13小時內迭代12種優化策略、逾1,000工具呼叫，修改逾4,000行程式碼；分析CPU與分配flame graphs，重新配置核心執行緒拓撲（從4ME+2RE改為2ME+1RE），儘管引擎已近效能極限，仍將中位throughput提升185%（0.43至1.24 MT/s），效能throughput躍升133%（1.23至2.86 MT/s）。

**程式碼驅動設計**

基於強大程式碼能力，Kimi K2.6能將簡單提示轉為完整前端介面，產生結構化佈局、美學英雄區塊、互動元素及豐富動畫（如滾動觸發效果），熟練運用圖像與影片生成工具，產生視覺一致的asset。

- 擴展至輕量全端工作流程，涵蓋認證、使用者互動至資料庫操作（如交易記錄或工作階段管理）。
- 內部「Kimi Design Bench」分四類：視覺輸入任務、首頁建構、全端應用開發、一般創意程式撰寫；相較Google AI Studio，Kimi K2.6表現優異。

**Agent叢集升級**

Kimi K2.6 Agent Swarm從K2.5研究預覽大幅躍進，水平擴展至300個平行子Agent × 4,000步驟（K2.5僅100子Agent × 1,500步），單一提示處理100+檔案，動態分解任務為異質子任務，由領域專精Agent並行執行。

- 協調互補技能：廣泛搜尋疊加深度研究、大規模文件分析融合長文撰寫、多格式內容並行生成。
- 單次自主執行產生End to End (端到端)輸出，如文件、網站、簡報、試算表；將PDF、試算表、簡報、Word文件轉為Skills，保留結構與風格DNA，未來任務可重現相同品質。
- 大幅降低End to End (端到端)延遲，提升輸出品質，擴大Agent Swarm運作邊界。

**主動Agent支援**

Kimi K2.6驅動OpenClaw、Hermes Agent等主動Agent，實現24/7自主運作，跨應用管理排程、執行程式碼、協調跨平台操作，超越單純聊天互動。

- RL基礎設施團隊使用K2.6後援Agent自主運作5天，處理監控、事件回應及系統操作，展現持續脈絡、多執行緒任務處理及從警示到解決的全週期執行。
- 實測可靠性提升：更精準API解讀、更穩定長時間效能、強化長研究任務的安全意識。

**Claw Groups研究預覽**

Kimi K2.6擴展主動Agent至「Claw Groups」，作為Agent Swarm新架構，支援自帶Agent、指揮他人Agent、人機混合協作。

- 開放異質生態：多Agent與人類真實合作，使用者可從任何裝置引入任一模型Agent，攜帶專屬工具組、Skills及持續記憶脈絡（本地筆電、行動裝置或雲端皆可）。
- K2.6作為適應性協調器，依技能與工具動態匹配任務；偵測Agent失敗或停滯時，自動重新指派或再生子任務，管理從啟動、驗證到完成的完整生命週期。
- 超越單純提問或指派任務，邁向人機真實夥伴協作，消融「我的Agent」、「你的Agent」與「團隊」界線。

**模型架構與部署**

Kimi K2.6為原生多模態Agentic模型，採用Mixture-of-Experts (MoE)架構，總參數1T、啟用參數32B。

- 層數（含Dense層）：61；Dense層：1；注意力隱藏維度：7168；MoE隱藏維度（每專家）：2048；注意力頭數：64；專家人數：384；每token選取專家：8；共享專家：1；詞彙大小：160K；脈絡長度：256K；注意力機制：MLA；啟用函數：SwiGLU；視覺編碼器：MoonViT（參數400M）。
- 原生INT4量化，與Kimi-K2-Thinking相同；推薦推理引擎：vLLM、SGLang、KTransformers；相容OpenAI/Anthropic API；transformers版本需>=4.57.1, <5.0.0。
- 最佳搭配Kimi Code CLI作為Agent harness；官方API支援影片聊天（第三方vLLM/SGLang暫為實驗）；推薦溫度：Thinking模式1.0、Instant模式0.6；top_p 0.95；Instant模式傳{'chat_template_kwargs': {"thinking": False}}。

**內部評估與外部回饋**

CodeBuddy WorkBuddy評估顯示，相較K2.5：程式碼生成準確率增12%、長脈絡穩定性增18%、工具呼叫成功率96.60%；強化推理與輸出一致性，確保可靠使用者體驗。

多位專家肯定K2.6進步：
- Bola Malek（Labs主管）：與領先閉源模型匹敵，工具呼叫品質高，適合複雜長視野工程。
- Robert Rizk（共同創辦人兼CEO）：穩定長編碼工作階段，揭露深層非明顯bug，樹立可靠程式碼新標準。
- Leo Tchourakov（技術員工）：基準+15%，指令遵循更佳、探索推理更徹底、少犯錯或用hack。
- Yun Jin（AI基礎設施主管）：長視野可靠性與指令遵循躍進，維持架構完整，SOTA複雜推理。
- Thomas Eastman（Hermes Agent）：工具呼叫與Agent迴圈更緊密，程式碼明顯升級，創意範圍驚喜。
- Scott Breitenother（KiloClaw共同創辦人兼CEO）：SOTA效能、低成本，長脈絡與日常工作強。
- Michael Chiang（Ollama共同創辦人）：長多步驟穩定，與所有整合相容。
- Frank Wang（OpenCode創辦人）：任務分解與工具呼叫穩健，減少重複開銷。
- Chen Xin（Qoder資深技術專家）：工具呼叫頻率大增，主動性與智慧提升，減少使用者中斷。
- Jerilyn Zheng（Vercel AI PM）：Next.js基準+50%，成本效能比佳，適合Agentic程式碼與前端生成。

**可用性與許可**

Kimi K2.6已上線kimi.com聊天模式與Agent模式；生產級程式碼搭配Kimi Code (kimi.com/code)；API：platform.moonshot.ai；技術部落格：kimi.com/blog/kimi-k2-6；權重與程式碼：huggingface.co/moonshotai/Kimi-K2.6。採用Modified MIT License開源程式庫與模型權重。

## 標籤

LLM, 開源專案, Agent, Benchmark, Moonshot AI, Kimi
