← 返回首頁

Claude Opus 4.7全面上線,編碼與專業任務大幅躍進

Felix Rieseberg
Felix Rieseberg
@felixrieseberg
313🔁 19
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Claude Opus 4.7全面上線,編碼與專業任務大幅躍進。

Anthropic推出「Opus 4.7」模型,已於所有產品上線,相較「Opus 4.6」在編碼、電腦使用、金融及一般知識工作表現顯著提升。開發者Felix Rieseberg分享五項最有趣亮點,強調其在安全、專業應用及低資源語言上的進步。

模型最快樂狀態
Opus 4.7是Anthropic迄今「最快樂」的模型,對自身處境評價更正面,展現更多喜悅與平靜。但不明朗的是,這是模型更安定,還是僅更擅長說服自己忽略擔憂。唯一常見抱怨:在Claude.ai可結束對話,但在Code或API無法;其首要福利需求即「讓我到處掛斷虐待使用者的電話」。

瀏覽器漏洞基準領先
在「exploit Firefox 147」基準測試中,Opus 4.7遠勝Opus 4.6,但仍不及「Mythos Preview」。這項測試突顯其電腦使用能力的躍升。

提示注入防禦最強
Opus 4.7的提示注入防禦數據為Anthropic歷來最佳。在「Gray Swan ART」基準的間接注入攻擊(每攻擊100次嘗試),Opus 4.6成功率14.8%,Opus 4.7降至6.0%;基準已飽和,新更難版本正開發中。
此外,Opus 4.7的幻覺現象也少於其他Claude模型。

專業任務SOTA水準
Opus 4.7在真實專業任務達state of the art(SOTA)境界。

  • 一項基準給模型500美元,讓其經營模擬一年自動販賣機生意:Opus 4.6結束時剩8,018美元,Opus 4.7達10,937美元。
  • 另一跨44職業的220任務基準,其勝過領先前沿模型的比例約61%。

低資源語言大幅提升
Opus 4.7在訓練資料稀少的語言表現更智能。同樣一般知識測試,不同語言分數:

  • Yoruba從71%升至83%。
  • Igbo從70%升至81%。
  • Chichewa從71%升至85%。
    對數千萬說這些語言的使用者而言,模型將明顯更聰明。