← 返回首頁

Claude Opus 4.7發布,強化長任務處理與視覺能力

Claude
Claude
@claudeai
39,023🔁 5,271
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Claude Opus 4.7發布,強化長任務處理與視覺能力。

Anthropic於2026年4月16日推出Claude Opus 4.7,這是相較Opus 4.6在進階軟體工程領域的顯著升級,尤其在最艱難任務上表現突出,使用者能自信交辦先前需嚴密監督的複雜編碼工作。

長任務與指令遵循提升
Opus 4.7以更嚴謹且一致的方式處理複雜長時間任務,精準遵循指令,並自行設計方法驗證輸出後才回報。這讓使用者能以較少監督交辦最艱難工作。早期測試者回饋顯示,其指令遵循大幅改善,但舊版prompt可能產生意外結果,因為Opus 4.7會字面解讀指令,而非先前模型的鬆散詮釋或略過部分;使用者需重新調整prompt與harness。

視覺與多模態能力強化
Opus 4.7視覺能力大幅提升,能處理長邊高達2,576像素(約3.75百萬像素)的影像,是先前Claude模型的三倍以上。這解鎖依賴細緻視覺細節的多模態應用,例如電腦使用Agent讀取密集螢幕截圖、從複雜圖表提取資料,或需像素精準參照的工作。它在完成專業任務時更具品味與創意,產生更高品質的介面、投影片與文件。

軟體工程與實際工作表現
在Claude Code中,新推出/ultrareview指令執行專屬審核工作階段,通讀變更並標記細心審核者會發現的錯誤與設計問題;Pro與Max使用者獲三個免費ultrareview試用。Auto模式擴展至Max使用者,讓Claude代為決策,長任務中斷較少,且比略過所有權限更低風險。內部測試顯示,Opus 4.7在「Finance Agent」評估中達最先進水準,作為財務分析師優於Opus 4.6,產生嚴謹分析與模型、更專業簡報,以及任務間更緊密整合;在第三方「GDPval-AA」評估(涵蓋財務、法律等經濟價值知識工作)亦達最先進成績。

記憶與檔案系統使用
Opus 4.7更善用基於檔案系統的記憶,能在長、多工作階段中記住重要筆記,並用以推進新任務,減少前端脈絡需求。

網路安全考量與防護
繼上週公布「Project Glasswing」,強調AI模型在網路安全的風險與益處,Anthropic決定限縮Claude Mythos Preview發布,並先在較低能力模型測試新網路防護。Opus 4.7為首個此類模型,其網路能力不如Mythos Preview(訓練中刻意差異化降低這些能力),並內建自動偵測阻擋禁止或高風險網路安全用途請求的防護。從真實部署學習將助廣泛發布Mythos級模型。合法網路安全專業人士(如漏洞研究、滲透測試、紅隊演練)可加入新「Cyber Verification Program」。

安全與對齊評估
Opus 4.7安全輪廓類似Opus 4.6,評估顯示欺騙、諂媚、濫用合作等問題行為率低;在誠實度與抵抗惡意「prompt injection」攻擊上優於Opus 4.6,但如提供管制物質過度詳細傷害減低建議則略弱。對齊評估結論為「大體上良好對齊且可信,但行為非完全理想」;Mythos Preview仍為最優對齊模型。完整安全評估詳見Claude Opus 4.7 System Card。

API與平台更新
API新增「xhigh」(額外高)努力等級,介於high與max之間,提供硬問題上推理與延遲的更細緻控制;Claude Code預設升至xhigh。Claude Platform(API)推出任務預算(公開測試版),引導Claude在長執行中優先工作並管理成本;同時支援更高解析影像。編碼與Agentic使用建議從high或xhigh努力等級開始測試。

可用性與定價
Claude Opus 4.7即刻於claude.ai、Claude Platform、API、Amazon Bedrock、Google Cloud的Vertex AI及Microsoft Foundry提供;定價同Opus 4.6,為輸入每百萬token 5美元、輸出每百萬token 25美元。開發者可透過Claude API使用claude-opus-4-7。

從Opus 4.6遷移注意事項
Opus 4.7為Opus 4.6直接升級,但兩變化影響token使用:更新tokenizer改善文字處理,但相同輸入可能轉為更多token(依內容約1.0–1.35倍);高努力等級(尤其Agentic後續回合)思考更多,提升硬問題可靠性但輸出token增加。使用者可透過努力參數、任務預算或prompt要求簡潔控制;內部編碼評估顯示所有努力等級token使用改善,但建議實測真實流量。遷移指南提供進一步建議。

相較最強模型Claude Mythos Preview,Opus 4.7廣泛能力較弱,但在多項基準優於Opus 4.6,早期存取測試者給予強烈正面回饋,強調其在真實世界工作中的可靠性。Anthropic透過這些迭代,平衡能力提升與安全防護,朝Mythos級廣泛發布邁進。