# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Ornith (@ornith_) · 平台：X (Twitter) · 日期：2026-06-26

> 原始來源：https://x.com/ornith_/status/2070148887067963854

## 中文摘要

Ornith-1.0 透過自我優化訓練策略，讓大型語言模型能同時生成程式碼解決方案與執行任務的 scaffold。

這系列開源模型由 DeepReinforce 團隊開發，基於 Gemma 4 與 Qwen 3.5 進行後訓練，專為 Agentic 程式開發任務設計。Ornith-1.0 包含 9B Dense、31B Dense、35B MoE 及 397B MoE 等多種規格，並以 MIT 授權釋出，支援商業與研究用途。

**核心技術創新**
Ornith-1.0 的關鍵在於一套「自我優化」訓練框架。傳統 RL 依賴人工設計的 harness 來引導生成，而 Ornith-1.0 則將 scaffold 視為可學習的物件，與策略共同演化：
- 訓練過程分為兩階段：模型先根據任務與既有 scaffold 提出改良版 scaffold，再根據該 scaffold 生成解決方案。
- 透過聯合優化，模型能自動探索更佳的搜尋軌跡，並在 Agentic 程式開發中產出高品質結果。
- 為防止模型在自我優化過程中出現「獎勵駭客」（reward hacking）行為，團隊導入了三層防禦機制：固定環境與工具介面的信任邊界、透過確定性監控器攔截非法操作，以及使用凍結的 LLM judge 作為獎勵機制的最終否決權。

**效能與部署**
在多項程式開發基準測試中，Ornith-1.0 展現了與同量級模型相比的領先表現：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/778953fba2b965b5.jpg)
> 這張圖表呈現了多款大型語言模型在八項不同基準測試中的效能評估數據比較。

- Ornith-1.0-397B 在 `Terminal-Bench 2.1` 達到 77.5 分，`SWE-Bench Verified` 達到 82.4 分，效能超越 Claude Opus 4.7。
- Ornith-1.0-35B 在 35B 級距中表現優異，甚至在 `Terminal-Bench 2.1` 超過 Qwen 3.5-397B。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/6996ee9106423038.jpg)
> Ornith-1.0-35B 在 35B 級別模型中表現最佳，在多項基準測試中超越 Qwen 3.5-35B、Qwen 3.6-35B 與 Gemma 4-31B，甚至在 Terminal-Bench 2.1 上超越了參數量更大的 Qwen 3.5-397B。

- Ornith-1.0-9B 適合邊緣裝置部署，其效能可匹敵甚至超越 Gemma 4-31B 等大型模型。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/c4375a4c4640aca9.jpg)
> Ornith-1.0-9B 在同尺寸模型中表現最佳，並在多項基準測試中（如 Terminal Bench 2.1 與 NL2Repo）達到或超越了參數量大得多的模型（如 Gemma4-31B 與 Qwen3.5-35B）。

**使用指引**
Ornith-1.0 採用推理模型架構，預設輸出包含 `<think> ... </think>` 區塊。若要部署 OpenAI 相容的伺服器，需確保環境滿足以下版本要求：
- `Transformers` ≥ 5.8.1
- `vLLM` ≥ 0.19.1
- `SGLang` ≥ 0.5.9

使用者可透過設定 `OPENAI_BASE_URL` 與 `OPENAI_API_KEY`，將任何相容 OpenAI 的程式開發 CLI 指向 Ornith-1.0 端點，以進行程式庫分析與自動化任務。此外，團隊亦提供 GGUF 版本，方便使用者在 `atomic.chat`、`Ollama` 及 `Unsloth` 等工具中執行。詳細資訊可參考 [Ornith-1.0 技術部落格](http://deep-reinforce.com/ornith_1_0.html) 或 [HuggingFace 專案集合](http://huggingface.co/collections/deepreinforce-ai/ornith-10)。

## 媒體內容

**Ornith-1.0-35B 在 35B 級別模型中表現最佳，在多項基準測試中超越 Qwen 3.5-35B、Qwen 3.6-35B 與 Gemma 4-31B，甚至在 Terminal-Bench 2.1 上超越了參數量更大的 Qwen 3.5-397B。**

**數據表（1）Terminal Bench 2.1 (Terminus-2)**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=64.2 | 41.4 | 52.5 | 42.1 | 53.5 |

**數據表（2）SWE-bench Verified**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=75.6 | 70 | 73.4 | 52 | 76.4 |

**數據表（3）SWE-bench Pro**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=50.4 | 44.6 | 49.5 | 35.7 | 51.6 |

**數據表（4）SWE-bench Multilingual**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=69.3 | 60.3 | 67.2 | 51.7 | 69.3 |

**數據表（5）NL2Repo**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=34.6 | 20.5 | 29.4 | 15.5 | 36.8 |

**數據表（6）Claw-eval Avg**

|   | Qwen3.5-35B | Qwen3.6-35B | Gemma4-31B | Qwen3.5-397B |
| --- | --- | --- | --- | --- |
| Ornith-1.0-35B=69.8 | 65.4 | 68.7 | 48.5 | 70.7 |

**數據表（7）SWE Atlas - QnA**

|   | Qwen3.5-35B | Qwen3.6-35B | Qwen3.5-397B |
| --- | --- | --- | --- |
| Ornith-1.0-35B=37.1 | 13.2 | 15.5 | 20.4 |

**數據表（8）SWE Atlas - TW**

|   | Qwen3.5-35B | Qwen3.6-35B | Qwen3.5-397B |
| --- | --- | --- | --- |
| Ornith-1.0-35B=27.8 | 9.8 | 13.3 | 18.5 |

**Ornith-1.0-9B 在同尺寸模型中表現最佳，並在多項基準測試中（如 Terminal Bench 2.1 與 NL2Repo）達到或超越了參數量大得多的模型（如 Gemma4-31B 與 Qwen3.5-35B）。**

**數據表**

|   | Ornith-1.0-9B | Qwen3.5-9B | Qwen3.5-35B | Gemma4-12B | Gemma4-31B |
| --- | --- | --- | --- | --- | --- |
| Terminal Bench 2.1 (Terminus-2) | 43.1 | 21.3 | 41.4 | 21 | 42.1 |
| SWE-bench Verified | 69.4 | 53.2 | 70 | 44.2 | 52 |
| SWE-bench Pro | 42.9 | 31.3 | 44.6 | 27.6 | 35.7 |
| SWE-bench Multilingual | 52 | 39.7 | 60.3 | 32.5 | 51.7 |
| NL2Repo | 27.2 | 16.2 | 20.5 | 10.3 | 15.5 |
| Claw-eval Avg | 63.1 | 53.2 | 65.4 | 32.5 | 48.5 |
| SWE Atlas - QnA | 17.9 | 9.2 | 13.2 |  |  |
| SWE Atlas - TW | 15.3 | 4.4 | 9.8 |  |  |

## 標籤

Agent, 開源專案, LLM, Gemma, Qwen
