← 返回首頁

Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌

BridgeMind
BridgeMind
@bridgemindai
5,268🔁 502
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。

根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的表現大幅退步。

效能崩跌數據

  • 上週:Claude Opus 4.6 在幻覺基準測試中排名第 2,準確率達 83.3%。
  • 本週:重新測試後,其排名跌至第 10,準確率僅剩 68.3%。
  • 影響程度:幻覺率出現了 98% 的驚人增長。

核心結論
BridgeBench 的數據明確證實,Claude Opus 4.6 的推理水平已不如前,這種效能的顯著下滑引發了對模型穩定性與更新品質的強烈質疑。