← 返回首頁

Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型

Qwen
Qwen
@Alibaba_Qwen
5,135🔁 774
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型。

Qwen3.6-35B-A3B是稀疏MoE模型,總參數35B、活性參數僅3B,Apache 2.0授權完全開源,於2026/04/15發布,展現高效能Agentic coding與多模態推理能力,超越前代Qwen3.5-35B-A3B並匹敵更大dense模型。

模型架構與規格
Qwen3.6-35B-A3B為因果語言模型整合視覺編碼器,經預訓練與後訓練階段打造。

  • 總參數35B,活性參數3B
  • 隱藏維度2048,token嵌入248320(填充)
  • 層數40,隱藏佈局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
  • Gated DeltaNet:V有32線性注意力頭、QK有16頭,頭維度128
  • Gated Attention:Q有16注意力頭、KV有2頭,頭維度256,旋轉位置嵌入維度64
  • MoE:256專家、8路由激活+1共享專家,專家中間維度512
  • LM輸出248320(填充),MTP多步驟訓練
  • 上下文長度原生262,144 token,可擴展至1,010,000 token

語言模型效能
儘管僅3B活性參數,Qwen3.6-35B-A3B在多項關鍵coding基準超越dense 27B參數的Qwen3.5-27B,尤其在Agentic coding與推理任務大幅超越直接前代Qwen3.5-35B-A3B,匹敵活性大小10倍的模型,強調穩定性與真實世界生產力。

視覺語言效能
Qwen3.6原生多模態,Qwen3.6-35B-A3B展現遠超規模的感知與多模態推理能力,多數視覺語言基準匹敵Claude Sonnet 4.5,甚至在數項任務超越,空間智慧特別突出:RefCOCO達92.0、ODInW13達50.8。

Agentic coding能力
模型具備卓越Agentic coding實力,可處理前端工作流程與程式庫級推理,流暢精準,支援多模態思考與非思考模式,證明稀疏MoE模型能匹敵數倍活性大小的dense模型,設定該規模新標準。

整合與相容性
Qwen3.6-35B-A3B可無縫整合第三方coding助手,簡化開發流程,提供高效脈絡感知coding體驗。

  • OpenClaw(前Moltbot/Clawdbot):自託管開源AI coding Agent,連結Model Studio獲終端全Agentic coding
  • Qwen Code:開源終端AI Agent,針對Qwen系列深度優化
  • Claude Code:透過Anthropic API協議支援,提升coding體驗
    支援preserve_thinking功能,保留先前對話思考內容,適合Agentic任務。

API與部署選項
模型檔與Hugging Face Transformers格式相容,支持vLLM、SGLang、KTransformers等。

Qwen3.6系列亮點
基於社群回饋打造,優先穩定性與實用性,提供直覺回應與生產力coding體驗。

  • Agentic Coding升級:前端工作流程與程式庫級推理更流暢精準
  • Thinking Preservation:保留歷史訊息推理脈絡,簡化迭代開發、降低開銷
    Qwen3.6開源家族持續擴張,未來將推動高效開源模型極限,歡迎社群回饋與建構應用。