# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Zyphra (@ZyphraAI) · 平台：X (Twitter) · 日期：2026-05-07

> 原始來源：https://x.com/ZyphraAI/status/2052103618145501459

## 中文摘要

Zyphra 發布 ZAYA1-8B，具 <1B 活躍參數的 MoE 模型，在數學與推理任務超越多倍大小的開源模型。

Zyphra 推出 ZAYA1-8B，這款在 AMD 硬體上端到端訓練的 MoE 模型，擁有 760M 活躍參數與 8.4B 總參數，專注最大化每參數智慧密度，在數學、程式碼與推理基準上大幅超越同級 SLM，並逼近 DeepSeek-V3.2 與 GPT-5-High 等前沿模型，尤其搭配新型 Markovian RSA 測試時計算後表現更優。

**效能亮點**  
ZAYA1-8B 在數學與程式碼任務領先所有同級 SLM，超越 Qwen3.5-4B 與 Gemma-4-E4B，並與 DeepSeek-R1-0528、Gemini-2.5-Pro、Claude 4.5 Sonnet 等第一代前沿推理模型競爭。  
- 在 HMMT'25 基準上，使用 Markovian RSA 達 89.6 分，超越 Claude 4.5 Sonnet 的 88.3 分與 GPT-5-High。  
- 在 APEX-shortlist 基準，使用高計算配置（平均每題 5.5M token）超越 DeepSeek-V3.2 與 GPT OSS 120B (high)。  
- 其他基準如 AIME、LCB（程式碼）、GPQA-Diamond（知識檢索）、IFEval 與 IFBench（指令遵循）均優於 Mistral-Small-4-119B 等多倍大小模型。  
Zyphra 評估框架顯示，其在數學、推理與程式碼領域「遠超體重級」，小尺寸也適合裝置端部署與測試時計算 harness。

**架構創新**  
ZAYA1-8B 相較標準 MoE 導入三項改變，優化效率與效能：  
- Compressed Convolutional Attention (CCA)：在壓縮潛在空間進行序列混合，實現 8× KV-cache 壓縮。  
- ZAYA1 MLP-based router：搭配 PID-controller 偏差平衡，提升路由穩定性，優於線性路由器。  
- Learned residual scaling：以極低參數與 FLOP 成本控制殘差範數成長。  
這些創新構成 Zyphra 的 MoE++ 架構，專為每參數與每 FLOP 智慧最大化設計。

**預訓練策略**  
從預訓練伊始即強調推理，使用「answer-preserving trimming」處理長 CoT 追蹤：在短上下文下截斷推理尾端，但保留最終答案完整。  
- 完整在 AMD Instinct™ MI300X 叢集（1,024 節點）上訓練，使用 AMD Pensando Pollara 網路與 IBMcloud 客製叢集。  
- MI300X 的高 HBM 容量實現長上下文訓練，減少並行需求，證明 AMD 端到端訓練能力。  
此為 Zyphra 首款在 AMD 硬體全程預訓練、中訓練與監督微調的 MoE 模型，詳見先前 [ZAYA1-base 技術報告](http://zyphra.com/zaya1-base-technical-report)。

**後訓練管線**  
後訓練為 4-5 階段 RL 級聯，共享演算法主幹，無 KL-in-reward：async PipelineRL、DPPO Binary-TV 信任區域、Dr-GRPO 損失聚合、MaxRL 優勢。  
階段順序：  
1. SFT 階段：聚焦基本聊天、指令遵循（IF）、程式碼、數學與 TTC 能力，並訓練 Markovian RSA 聚合提示與區塊化行為。  
2. Reasoning warmup：結合數學任務、邏輯與拼圖解謎，加上 TTC 提示訓練自我聚合候選解。  
3. RLVE-Gym 課程：動態調整拼圖難度，訓練核心推理電路。  
4. 大規模數學/程式碼/TTC RL：提升這些領域知識與推理。  
5. 輕量 RLHF/RLAIF：改善聊天行為、指令遵循與寫作風格等非可驗證獎勵。  
RL 階段帶來數學、指令遵循與程式碼大幅提升，知識檢索（MMLU、GPQA）與創意寫作也有小幅進步。

**Markovian RSA 測試時計算**  
Zyphra 首創 Markovian RSA：遞迴候選聚合，具邊界攜帶過（bounded carryover）。每輪僅傳遞各候選最後 τ token，前進上下文永遠有界，不論推理多長。  
流程：  
- 對提示並行產生多條追蹤，從中提取固定長尾段。  
- 子抽樣候選池少數參考，建構新聚合提示作為下一輪並行回應種子。  
- 推論利於批次並行，Markovian 區塊確保上下文視窗固定。  
使用 40k token 中間 CoT 預算、最後 4K token 轉移，即逼近 DeepSeek-V3.2 與 Qwen3-A22B，距 GPT-5-High 僅數分。  
Zyphra 強調模型與 harness 共同設計重要性：施加於 Qwen3-4B-Thinking-2507 時，提升遠低於 ZAYA1-8B，凸顯後訓練與 TTC 整合關鍵。

**模型發布與試用**  
ZAYA1-8B 以 Apache 2.0 開源權重發布，可於 [Zyphra Cloud](http://cloud.zyphra.com) 無伺服器端點免費試用。  
相關資源：  
- [部落格文章](http://zyphra.com/post/zaya1-8b)  
- [技術報告](http://zyphra.com/zaya1-8b-technical-report)  
- [Hugging Face 權重](http://huggingface.co/Zyphra/ZAYA1-8B)  

**快速入門部署**  
先決條件：在全新 Python 3.12 環境安裝：  

```
pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1"
pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"
```

啟動 vLLM 伺服器：  

```
vllm serve Zyphra/ZAYA1-8B --port 8010 \
   --mamba-cache-dtype float32 --dtype bfloat16 \
   --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml
```

查詢範例（curl）：  

```
curl http://localhost:8010/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Zyphra/ZAYA1-8B",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello. How is it going?"}
        ]
    }'
```

**公司願景與影響**  
Zyphra 為舊金山開源超智慧研究與產品公司，致力打造人類對齊 AI，助個人與組織發揮最大潛能。ZAYA1-8B 證明全棧創新（架構、預訓練、RL 與 TTC）潛力，公司將擴大模型規模與領域多樣性，並徵才 [加入團隊](https://jobs.ashbyhq.com/zyphra)。此發布不僅展現 AMD 硬體實力，也挑戰參數效率極限，預示小模型在推理任務崛起趨勢。

## 標籤

新產品, 開源專案, Benchmark, LLM, Zyphra, DeepSeek, Google
