Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人
AI 語音朗讀 · Edge TTS
Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人。
「Arena.ai」公布最新排行,AnthropicAI 的「Claude Opus 4.7」在「Document Arena」與「Vision Arena」雙雙登頂,展現強大文件推理與視覺處理能力,領先前版與競爭對手達數十至七十點之多。這反映真實使用者工作流程中長脈絡文件分析與視覺輸入推理的重大進展。
Document Arena 霸榜
「Claude Opus 4.7」在「Document Arena」以壓倒性優勢拿下第一,比「Opus 4.6」高出4點,比排名第6的「GPT-5.4」(非Anthropic模型)高出45點,甚至對「Muse Spark」與「Gemini-3.1-Pro」領先約70點。
- 此評測聚焦真實世界研究工作,如文獻回顧、法律分析、臨床筆記與技術報告,這些無法塞進單一提示的長脈絡文件推理。
- 強調使用者真實工作流程,凸顯「Claude Opus 4.7」在處理複雜文件時的卓越表現。
Vision Arena 全方位稱霸
「Claude Opus 4.7 Thinking」在「Vision Arena」總分第一,比「Opus 4.6 Thinking」提升3點,比第4名的「Muse Spark」(非Anthropic模型)高出13點,在視覺輸入推理多子類別橫掃冠軍,對比「Claude Opus 4.6」的最大增幅包括:
- 「Diagram, Thinking」:1339分(+20)
- 「Homework, Non-Thinking」:1352分(+30)
- 「OCR, Non-Thinking」:1319分(+7)
這些子類別涵蓋圖表解析、作業解答與光學字符辨識,彰顯其視覺推理的全面領先。
完整排行榜概覽
「Arena.ai」排行榜(http://arena.ai/leaderboard)涵蓋多項領域,提供高階快照與專屬分頁深入分析,各領域最新更新時間不一:
- 「Text」:領先如「claude-opus-4-7-thinking」、「claude-opus-4-6-thinking」、「muse-spark」(1天前)。
- 「Code」:如「claude-opus-4-7」、「claude-opus-4-6-thinking」、「glm-5.1」(1天前)。
- 「Vision」:頂尖包括「claude-opus-4-7-thinking」、「claude-opus-4-6-thinking」、「muse-spark」(1天前)。
- 「Document」:領先「claude-opus-4-7」、「claude-opus-4-6-thinking」、「claude-sonnet-4-6」(1天前)。
- 「Text-to-Image」:如「gemini-3.1-flash-image-preview (nano-banana-2) [web-search]」、「gpt-image-1.5-high-fidelity」(11天前)。
- 「Image Edit」:如「chatgpt-image-latest-high-fidelity (20251216)」、「gemini-3-pro-image-preview-2k (nano-banana-pro)」(4天前)。
- 「Search」:如「claude-opus-4-6-search」、「gemini-3.1-pro-grounding」(20天前)。
- 「Text-to-Video」:如「dreamina-seedance-2.0-720p」、「happyhorse-1.0」、「veo-3.1-audio-1080p」(1天前)。
- 「Image-to-Video」:如「dreamina-seedance-2.0-720p」、「happyhorse-1.0」、「grok-imagine-video-720p」(1天前)。
- 「Video Edit」:如「happyhorse-1.0」、「grok-imagine-video」、「kling-o3-pro」(1天前)。
「Text Arena」細分指標包括整體、專家提示、困難提示、程式碼、數學、創意寫作、指令遵循與長查詢等。
AnthropicAI 持續領跑
Arena.ai 連續恭賀 AnthropicAI 推動邊界,「Claude Opus 4.7」在文件與視覺領域的巨大躍進,證明其在真實應用場景的壓倒性優勢,值得關注後續「Vision Arena」細節更新。
Claude Opus 4.7 from @AnthropicAI takes #1 in Vision & Document Arena!
— Arena.ai (@arena) April 20, 2026
In Document Arena:
Opus 4.7 lands +4 points over Opus-4.6 and +45 over the next non-Anthropic model, GPT-5.4 (#6). This is huge ~70 pts lead over Muse Spark and Gemini-3.1-Pro.
Real world research work like… https://t.co/HH7y42bfxG pic.twitter.com/pgqDtpz0PA
Claude Opus 4.7 Thinking is now #1 in Vision Arena.
— Arena.ai (@arena) April 20, 2026
This is a +3 point improvement over Opus 4.6 Thinking and +13 points over the next non-Anthropic model, Muse Spark (#4).
The model leads across reasoning over visual inputs, sweeping multiple Vision sub-categories with the… pic.twitter.com/XCK6cYaq4r
Check out the full leaderboard details for Document, Vision and more at https://t.co/PjWOaDEXWR.
— Arena.ai (@arena) April 20, 2026
