← 返回首頁
hud
hud
@hud_evals
299🔁 29
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成
Aviro 推出了 Ebla-1,一個用於企業環境的接地推理模型,並同時發佈了 C⁴ 基準測試。C⁴ 是與 HUD 合作開發的長期任務評估工具,針對企業文件集合設計,評估四個維度:正確性、完整性、組合能力和引用準確度。 在現有的最先進模型中,Claude Opus 4.6 在 C⁴ 上的得分為 20.1%,但只有 6.1% 的前沿任務模型組合實現了完全解決。這反映出這些任務對所有測試模型而言仍然困難重重。基礎的 GPT-OSS-120b 初始得分為 7.1%,經過後訓練後躍升至 25.4%,提升了 18.3 個百分點。最大的進步來自完整性維度,因為模型學會了將多部分問題分解為可處理的搜尋任務。 Aviro 在評估中發現了各個前沿模型中持續存在的失敗模式。第一是當語料庫中不包含請求的資訊時,模型仍會自信地生成答案,並引用實際上不包含所聲稱資訊的真實文件。這種危害在合規或法律環境中尤為嚴重,因為錯誤的自信答案比沒有答案更糟糕。第二是視覺誤讀,模型會檢索到包含圖表和組織結構圖的文件,但持續誤讀其內容。第三是跨文件算術中的虛構中間值,模型在整合多個來源的數值時會發明中間數字,並對編造的輸入進行運算。 Ebla-1 不僅性能更好,而且更便宜且更好地校準了。它運行完整的 40 個任務基準測試的總推理成本僅為 1.10 美元,相比之下 Opus 4.6 需要 24.74 美元,成本低 22 倍。更重要的是,Ebla-1 學會了在部分證據下作出答案,而不是編造或拒絕回應。 訓練方法上,Aviro 使用強化學習微調 GPT-OSS-120b,以 C⁴ 評分作為獎勵信號。訓練包括 30 個任務、30 個 epoch 和每個 epoch 每個任務 8 個 rollout,總共 7,200 個 rollout,沒有 SFT 預熱、沒有策劃的示例、也沒有人類偏好標籤。虛構懲罰被保留在獎勵信號中,使得虛構比空白回應的獎勵更低,這足以讓早期訓練傾向於安全拒絕。但由於評分標準也獎勵經過驗證的部分進展,持續的強化學習推動模型走向校準承諾:回答有支持的內容,拒絕附近無支持的替代品,只在無法解決的部分才放棄。 C⁴ 跨越三個模擬企業環境——一個 SaaS 分析平台、一個金融服務公司和一個化工製造公司——每個都有現實的文件語料庫和平台複製品。領域專家編寫了所有 40 個任務並驗證了每個評分標準,確保任務可解決且標準有根據。結果表明,Ebla-1 在完整性上獲得了最大收益(增加 18.8 個百分點,基線的 4 倍),正確性增加 14.6 個百分點(2.4 倍),引用準確度增加 14.5 個百分點(2.8 倍),組合能力增加 13.0 個百分點(1.8 倍,因為基線已經較高)。