Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌
AI 語音朗讀 · Edge TTS
AI 中文摘要Claude 生成
Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。
根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的表現大幅退步。
效能崩跌數據
- 上週:Claude Opus 4.6 在幻覺基準測試中排名第 2,準確率達 83.3%。
- 本週:重新測試後,其排名跌至第 10,準確率僅剩 68.3%。
- 影響程度:幻覺率出現了 98% 的驚人增長。
核心結論
BridgeBench 的數據明確證實,Claude Opus 4.6 的推理水平已不如前,這種效能的顯著下滑引發了對模型穩定性與更新品質的強烈質疑。
CLAUDE OPUS 4.6 IS NERFED.
— BridgeMind (@bridgemindai) April 12, 2026
BridgeBench just proved it.
Last week Claude Opus 4.6 ranked #2 on the Hallucination benchmark with an accuracy of 83.3%.
Today Claude Opus 4.6 was retested and it fell to #10 on the leaderboard with an accuracy of only 68.3%.
A 98% increase in… pic.twitter.com/bp1ozoeg6j
