Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型
AI 語音朗讀 · Edge TTS
Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型。
Qwen3.6-35B-A3B是稀疏MoE模型,總參數35B、活性參數僅3B,Apache 2.0授權完全開源,於2026/04/15發布,展現高效能Agentic coding與多模態推理能力,超越前代Qwen3.5-35B-A3B並匹敵更大dense模型。
模型架構與規格
Qwen3.6-35B-A3B為因果語言模型整合視覺編碼器,經預訓練與後訓練階段打造。
- 總參數35B,活性參數3B
- 隱藏維度2048,token嵌入248320(填充)
- 層數40,隱藏佈局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- Gated DeltaNet:V有32線性注意力頭、QK有16頭,頭維度128
- Gated Attention:Q有16注意力頭、KV有2頭,頭維度256,旋轉位置嵌入維度64
- MoE:256專家、8路由激活+1共享專家,專家中間維度512
- LM輸出248320(填充),MTP多步驟訓練
- 上下文長度原生262,144 token,可擴展至1,010,000 token
語言模型效能
儘管僅3B活性參數,Qwen3.6-35B-A3B在多項關鍵coding基準超越dense 27B參數的Qwen3.5-27B,尤其在Agentic coding與推理任務大幅超越直接前代Qwen3.5-35B-A3B,匹敵活性大小10倍的模型,強調穩定性與真實世界生產力。
視覺語言效能
Qwen3.6原生多模態,Qwen3.6-35B-A3B展現遠超規模的感知與多模態推理能力,多數視覺語言基準匹敵Claude Sonnet 4.5,甚至在數項任務超越,空間智慧特別突出:RefCOCO達92.0、ODInW13達50.8。
Agentic coding能力
模型具備卓越Agentic coding實力,可處理前端工作流程與程式庫級推理,流暢精準,支援多模態思考與非思考模式,證明稀疏MoE模型能匹敵數倍活性大小的dense模型,設定該規模新標準。
整合與相容性
Qwen3.6-35B-A3B可無縫整合第三方coding助手,簡化開發流程,提供高效脈絡感知coding體驗。
- OpenClaw(前Moltbot/Clawdbot):自託管開源AI coding Agent,連結Model Studio獲終端全Agentic coding
- Qwen Code:開源終端AI Agent,針對Qwen系列深度優化
- Claude Code:透過Anthropic API協議支援,提升coding體驗
支援preserve_thinking功能,保留先前對話思考內容,適合Agentic任務。
API與部署選項
模型檔與Hugging Face Transformers格式相容,支持vLLM、SGLang、KTransformers等。
- Qwen Studio:即時互動聊天
- Hugging Face:https://huggingface.co/Qwen/Qwen3.6-35B-A3B,下載權重自託管
- ModelScope:https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
- Alibaba Cloud Model Studio API:以「Qwen3.6-Flash」形式即將上線,支援OpenAI規格chat completions與responses API,以及Anthropic相容介面
Qwen3.6系列亮點
基於社群回饋打造,優先穩定性與實用性,提供直覺回應與生產力coding體驗。
- Agentic Coding升級:前端工作流程與程式庫級推理更流暢精準
- Thinking Preservation:保留歷史訊息推理脈絡,簡化迭代開發、降低開銷
Qwen3.6開源家族持續擴張,未來將推動高效開源模型極限,歡迎社群回饋與建構應用。
⚡ Meet Qwen3.6-35B-A3B:Now Open-Source!🚀🚀
— Qwen (@Alibaba_Qwen) April 16, 2026
A sparse MoE model, 35B total params, 3B active. Apache 2.0 license.
🔥 Agentic coding on par with models 10x its active size
📷 Strong multimodal perception and reasoning ability
🧠 Multimodal thinking + non-thinking modes… pic.twitter.com/UMiChPaLid
LM Performance:Qwen3.6-35B-A3B outperforms the dense 27B-param Qwen3.5-27B on several key coding benchmarks and dramatically surpasses its direct predecessor Qwen3.5-35B-A3B, especially on agentic coding and reasoning tasks. pic.twitter.com/PyXDNruoy2
— Qwen (@Alibaba_Qwen) April 16, 2026
VLM Performance:Qwen3.6 is natively multimodal, and Qwen3.6-35B-A3B showcases perception and multimodal reasoning capabilities that far exceed what its size would suggest, with only around 3 billion activated parameters. Across most vision-language benchmarks, its performance… pic.twitter.com/nOVBNlVfzW
— Qwen (@Alibaba_Qwen) April 16, 2026
