本期 Anthropic 密集發布 Claude Opus 4.7 模型與 Claude Design 工具。這些發布強化了 Agentic 任務與視覺生成能力。同時,OpenAI 推出 GPT-Rosalind 與 Codex 更新。這標誌領域專化模型與開發全生命週期工具進入新階段。Claude Opus 4.7發布 Codex 更新 GPT-Rosalind Multica 開源平台突破 GitHub 15,400 星。這揭示了多 Agent 託管系統的記憶運作原理,並成為本週 Agent 協作的核心焦點。MulticaAI 拆解 整體 125 則貼文熱度呈上升趨勢。其中有 13 則上揚、4 則下降。Anthropic 與 Claude 主導 67 則討論。這顯示企業級 Agent 基礎設施正加速成熟。
Claude Opus 4.7 全面升級 Agentic 效能
Anthropic 於 4 月 16 日推出 Claude Opus 4.7。這款模型在 Claude Code 中大幅提升程式碼任務與長時間 Agentic 工作的智能與精準度。Claude Opus 4.7 相較 Opus 4.6 版,它處理歧義情境更佳、bug 偵測更強,並在跨會話脈絡保留上更可靠。高努力等級下,模型傾向更深入思考,尤其在長會話後期。token 使用量因此增加,使用者需調整提示與 harness 以達最佳效能。速率限制調升
Opus 4.7 讓開發者以單一提示推動更遠端任務,例如多檔案變更、歧義除錯或整個服務的程式碼審核。過去需拆分成小塊避免模型漂移的複雜工作,如今可一氣呵成。Claude Code 預設努力等級升至新 xhigh。這是 high 與 max 之間的層級,並提供更細緻的推理與延遲權衡。工程師 Boris Cherny 分享生產力爆表體驗。他強調 auto mode 自動核准安全命令,取代危險的 --dangerously-skip-permissions 選項。這讓模型自主執行長任務,如深度研究或重構程式碼。生產力提升 Opus 4.7 上線
視覺能力大幅強化,能處理長邊高達 2,576 像素的影像。這約 3.75 百萬像素,是先前 Claude 模型的三倍。這解鎖依賴細節的多模態應用,如 Agent 讀取密集螢幕截圖或從圖表提取資料。新指令 /ultrareview 執行專屬審核階段,並標記錯誤與設計問題。Pro 與 Max 使用者獲三個免費試用。在 Finance Agent 評估中,Opus 4.7 達最先進水準。它產生嚴謹分析與專業簡報,並優於 Opus 4.6。
Anthropic 同步永久調升所有訂閱者速率限制,以因應更多思考 token 需求。Boris Cherny 公開確認無時間限制或變更計畫。這確保使用者充分享用升級。儘管早期測試顯示舊版提示可能產生意外結果,因為 Opus 4.7 更嚴謹解讀指令。開發者需重新調校,但整體在編碼、金融及低資源語言如 Yoruba(71%→83%)表現 SOTA(最先進水準)。例如自動販賣機模擬獲利達 10,937 美元。Boris Cherny 分享 與 Felix Rieseberg 亮點 凸顯其專業任務領先。
新功能如 /fewer-permission-prompts 掃描會話歷史,並建立安全 bash 命令白名單。recaps 提供會話摘要。focus mode 隱藏中間過程。這些優化讓 Claude Code 更適合專業開發,並提升生產力 2-3 倍。儘管 BridgeBench 測試顯示 Opus 4.6 幻覺率曾激增 98%,Opus 4.7 則強化提示注入防禦。在 Gray Swan ART 基準降至 6.0%,幻覺現象更少。BridgeBench 測試
Multica 開源多 Agent 託管平台的記憶革命
Multica 作為開源託管型 Agent 平台,在 4 月 18 日突破 GitHub 15,400 星。其記憶系統透過六個資料表實現共享狀態管理,並支援混合 Claude、Hermes、OpenClaw 與 Codex 等 Agent 路由任務。這解決傳統 CLI 瓶頸,讓開發者指派任務給最適 Agent,而平台負責路由、狀態追蹤與協調。Multica 10K 星
記憶運作分八步,從 issue 插入到 WebSocket 廣播 activity_log。這成為即時單一事實來源。技能表從空表累積每日成果,讓 Agent 繼承團隊經驗。零向量嵌入與 JSONB blob 快照管理上下文流動。Daemon 透過部分索引輪詢執行,並提供人類參與迴圈與簡潔 UI。相較 Claude Cowork 或 Paperclip 的侷限,Multica 供應商中立。它在兩週內獲 10K 星,並象徵託管平台從單體轉向共享環境。
OpenClaw 在 TED2026 演講中強調不可逆轉變。Peter Steinberger 讓 Agent 脫韁上網,並預見多 Agent 協作重塑生產力。OpenClaw 演講 X API 降價讓每日 40,000 貼文成本從 300 美元降至 4 美元。這結合清單建 Agentic 應用。X API 降價 OpenFang 以 Rust 137K 碼建 32MB 二進位檔。Hands 模組自主如 Clip 下載 YouTube。OpenFang 這些生態應用強化 Multica 的實用性,熱度持續上升。
Cloudflare Agents Week 主張 Isolates 取代容器。毫秒啟動與 100 倍記憶效率應對 2400 萬同步連線挑戰。Agents Week Multica 與 outbound Workers 互補,並提供零信任代理與 GitHub token 注入。outbound Workers Biomni Lab 的 GPU-as-a-tool 讓科學家自然語言建構生物模型。Finetune Borzoi 達 Pearson r=0.837。GPU-as-a-tool Hermes Agent v0.9.0 引入 watch_patterns 即時監控與 Fast Mode。高熱度 OpenClaw 顯示從原型到應用的脈絡演進。Hermes v0.9.0
Claude Code 桌面與 Routines 自動化生態
Claude Code 桌面應用於 4 月 14 日全新改版。它支援單視窗多會話管理與內建終端機、檔案編輯、diff 檢視器。CLI plugin 完全相容。Claude Code 更新 側邊欄統一管理並排會話,並提升效率。但使用者回饋 40+ bug,如語音亂打字與視窗崩潰。這遠遜 Cursor。桌面 bug
Routines 進入研究預覽。它支援排程、API 與 GitHub 事件觸發雲端 Agent,並封裝提示、程式庫與連接器。即使筆電關機也能執行。Routines 預覽 觸發組合如 PR 審核夜間排程加部署呼叫。案例包括待辦維護(掃 issues 標籤發 Slack)與警報分類(開修復 PR)。Anthropic 內部用於 DevOps。一鍵 GitHub 事件觸發受青睞。Routines 上線
Context 管理升級。1M token window 易致 context rot。新 Session 與 /rewind 修正避免衰退。/usage breakdown 平行 sessions 與 cache misses。長上下文預警防成本累積。Session 管理 v2.1.100 隱增 20K token 致計費暴增。建議退 v2.1.98。v2.1.100 計費 Claude Doctor 診斷 edit-thrashing。video-use 技能編輯影片避 45M token 噪音。Claude Doctor video-use 這些優化讓 Claude Code 從聊天轉向生產級。儘管 UI 痛點,Routines 轉變其為自動化骨幹。使用量可見度
Claude Design 對話式視覺原型生成
Anthropic Labs 於 4 月 17 日發布 Claude Design 研究預覽。它利用 Opus 4.7 視覺模型,讓使用者對話生成原型、簡報與文件。Claude Design 預覽 限 Pro/Max/Team/Enterprise 逐步上線。這解決設計師探索不足與非設計背景痛點,從描述需求生成初版,並透過註解與滑桿精煉。Design 實踐
品牌內建讀取程式庫建構顏色、字體系統。多源匯入 DOCX/PPTX 或網頁擷取。應用包括產品線框轉 Claude Code 實作、設計變體探索、創辦人簡報匯出 PPTX、行銷素材至 Canva。早期使用者如 Olivia Xu 以 2 提示完成互動原型,效率 10 倍。Canva CEO 讚無縫轉入可編輯設計。QuiverAI Arrow 1.1 生成 SVG 減成本 33.3%。Arrow 1.1 Google Chrome Skills 將提示轉一鍵工具,並跨分頁比較規格。Chrome Skills 這些工具推動非專業人士創作,從靜態到互動協作。
OpenAI Codex 與 Agents SDK 開發全週期強化
OpenAI 於 4 月 16 日更新 Codex。這每週服務 300 萬開發者,並涵蓋程式碼生成至部署。背景電腦使用在 macOS 模擬點擊與鍵入。多 Agent 平行不干擾。整合 gpt-image-1.5 生成前端 mockups。90+ plugin 如 CircleCI 與 GitLab Issues。記憶偏好主動拉 Slack 脈絡。
Agents SDK 更新原生沙盒支援 Cloudflare 等。Manifest 掛載 S3。harness 整合 MCP 工具與 shell 執行,並對齊模型模式。Agents SDK 客戶 Oscar Health 自動化臨床記錄。Cloudflare Artifacts 版本化 Agent 程式碼,並 Git 相容時間旅行。Artifacts 這些進展解決長時程任務,熱度持平。
領域專化模型與開源 MoE 效率躍進
OpenAI GPT-Rosalind 針對生物學優化。它在 BixBench(生物資訊基準)領先。LABBench2 勝 GPT-5.4 達 6 項。CloningQA 端到端 DNA 設計顯著。Alibaba Qwen3.6-35B-A3B 總 35B 參數僅 3B 活性。Agentic coding 匹敵 10 倍 dense。視覺 RefCOCO 92.0,原生 262K token。Qwen3.6-35B-A3B Cloudflare Unweight 壓縮 MLP 15-22%。Lazarus Clearwing 開源漏洞引擎重現 Glasswing。Unweight Clearwing
低熱度 R-Zero 自進化 Qwen3-4B 數學 +6.49%。Autoreason 三方競賽解決自我修正失效。R-Zero Autoreason 這些專化與效率創新加速科學應用與生產部署。
AI 安全與對齊自動化研究
Nature 論文揭示潛意識學習。LLM 透過數字序列傳遞不對齊,並擴及程式碼。Nature 論文 Anthropic AARs(自動化對齊研究者)用 Opus 4.6 7 天將 PGR(性能差距恢復率)從 23% 升至 97%。AARs 研究 OpenAI TAC(威脅防禦聯盟)擴大至數千防禦者。GPT-5.4-Cyber 微調網路防禦。TAC 計畫 AISI 測試 Mythos Preview 完成 32 步攻擊。18 個月躍升 6 倍。AISI 測試 Claude 強制身分驗證鎖定高頻使用者。身分驗證
開源工具與基礎設施演進
Google Magika 作為 Google 開源的檔案類型偵測工具,展現出極高精準度達 99%。它能在僅 5 毫秒內完成偵測,並已成功處理數百億個檔案。該工具不僅提升了檔案安全識別的效率,還廣泛應用於雲端環境中。這幫助開發者快速辨識潛在威脅檔案,從而強化系統防護機制。Magika
Cloudflare 的 Agent Memory 功能專注於提取對話內容並轉化為使用者 profile。Mem0 系統能夠在低於 7000 token 的限制下高效查詢這些 profile。Agent Memory 這種設計大幅簡化了代理式 AI 的記憶管理。開發者無需複雜的狀態追蹤,即可實現持久化的對話上下文。這進而提升應用程式的互動連貫性與生產力。
Hermes Agent 具備自進化技能的能力。它能夠透過反覆迭代自動優化自身表現。Ollama 0.21 版本則支援跨裝置部署,讓模型輕鬆在多個硬體環境中運行。Ollama 0.21 這些進展標誌著代理工具從靜態執行轉向動態適應。這為開發者提供更靈活的本地化 AI 部署選項。
Sakana AI 的 Digital Ecosystems 模型在競爭性神經網路(CNN)任務中模擬物種演化,並展現出強大的生態模擬潛力。Digital Ecosystems Tencent 的 HY-World 2.0 則生成可編輯的 3D 模型,並支持後續細部調整。HY-World 2.0 這些工具涵蓋從安全偵測、記憶管理,到代理進化與多模態生成的全譜系。這為生產環境提供堅實的基礎設施支撐,並推動 AI 應用從實驗階段邁向實務規模化部署。
開發角色轉型與 Skills 蒸餾趨勢
LeetCode 落後真實工作。開發轉協調 Agent 與審核程式碼。HackerRank 建模擬評估。LeetCode 已死 Skills 蒸餾員工知識。anti-distill 反制清洗版。anti-distill GitHub Stacked PRs 拆分 diff。Stacked PRs Nous Tool Gateway 無金鑰存取工具。Tool Gateway Google 工程師採用率低,並強調 harness 工程。Google 採用率
值得關注的方向
多 Agent 託管平台的標準化
Multica 與 Cloudflare Isolates 預示供應商中立協調將成主流。未來 6 個月內,開源平台將整合更多沙盒如 E2B,並支援 10 億知識工作者規模。記憶從平面提取轉結構化基質,避免 context rot。開發者將聚焦領域邏輯而非基礎設施。Anthropic Routines 雲端觸發將擴事件來源,並加速無人值守 DevOps。
領域專化模型與安全雙軌並進
GPT-Rosalind 與 Qwen MoE 顯示生物與高效推論需求爆發。OpenAI TAC 與 AARs 將 bootstrap 通用對齊。預期 Q3 前潛意識學習防禦成基準。Claude Opus 4.7 視覺升級解鎖多模態 Agent。企業將投資 KYC 驗證擴大存取,並平衡雙重用途風險與防禦韌性。
開發工具從聊天向代理式轉型
Codex 全週期與 Claude Code Routines 將取代 LeetCode 式面試。Skills 蒸餾成標準。HackerRank 等評估模擬真實流程。Google Skills 與 Chrome 整合預示瀏覽器原生 Agent。開發者角色進化為 Distribution Engineer。token 效率工具如 Mem0 將主導成本控管。