# 策展 · X (Twitter) 🔥

> 作者：hud (@hud_evals) · 平台：X (Twitter) · 日期：2026-03-15

> 原始來源：https://x.com/hud_evals/status/2032515855490363878

## 中文摘要

Aviro 推出了 Ebla-1，一個用於企業環境的接地推理模型，並同時發佈了 C⁴ 基準測試。C⁴ 是與 HUD 合作開發的長期任務評估工具，針對企業文件集合設計，評估四個維度：正確性、完整性、組合能力和引用準確度。

**基準測試成績** 在現有的最先進模型中，Claude Opus 4.6 在 C⁴ 上的得分為 20.1%，但只有 6.1% 的前沿任務模型組合實現了完全解決。這反映出這些任務對所有測試模型而言仍然困難重重。基礎的 GPT-OSS-120b 初始得分為 7.1%，經過後訓練後躍升至 25.4%，提升了 18.3 個百分點。最大的進步來自完整性維度，因為模型學會了將多部分問題分解為可處理的搜尋任務。

**常見失敗模式** Aviro 在評估中發現了各個前沿模型中持續存在的失敗模式：
- 當語料庫中不包含請求的資訊時，模型仍會自信地生成答案，並引用實際上不包含所聲稱資訊的真實文件。這種危害在合規或法律環境中尤為嚴重，因為錯誤的自信答案比沒有答案更糟糕
- 視覺誤讀：模型會檢索到包含圖表和組織結構圖的文件，但持續誤讀其內容
- 跨文件算術中的虛構中間值：模型在整合多個來源的數值時會發明中間數字，並對編造的輸入進行運算

**Ebla-1 優勢** Ebla-1 不僅性能更好，而且更便宜且更好地校準了。它運行完整的 40 個任務基準測試的總推理成本僅為 1.10 美元，相比之下 Opus 4.6 需要 24.74 美元，成本低 22 倍。更重要的是，Ebla-1 學會了在部分證據下作出答案，而不是編造或拒絕回應。

**訓練方法** 訓練方法上，Aviro 使用強化學習微調 GPT-OSS-120b，以 C⁴ 評分作為獎勵信號。訓練包括 30 個任務、30 個 epoch 和每個 epoch 每個任務 8 個 rollout，總共 7,200 個 rollout，沒有 SFT 預熱、沒有策劃的示例、也沒有人類偏好標籤。虛構懲罰被保留在獎勵信號中，使得虛構比空白回應的獎勵更低，這足以讓早期訓練傾向於安全拒絕。但由於評分標準也獎勵經過驗證的部分進展，持續的強化學習推動模型走向校準承諾：回答有支持的內容，拒絕附近無支持的替代品，只在無法解決的部分才放棄。

**評估環境設計** C⁴ 跨越三個模擬企業環境——一個 SaaS 分析平台、一個金融服務公司和一個化工製造公司——每個都有現實的文件語料庫和平台複製品。領域專家編寫了所有 40 個任務並驗證了每個評分標準，確保任務可解決且標準有根據。結果表明，Ebla-1 在各維度均有顯著提升：
- 完整性增加 18.8 個百分點（基線的 4 倍）
- 正確性增加 14.6 個百分點（2.4 倍）
- 引用準確度增加 14.5 個百分點（2.8 倍）
- 組合能力增加 13.0 個百分點（1.8 倍，因為基線已經較高）

## 標籤

新產品, 研究論文, LLM, Aviro
