# AI 趨勢週報｜5/18 - 5/24｜Gemini 3.5 Flash  AI 進入AI主動執行時代

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：easyvibecoding · 發佈：2026-05-25

本期概覽：AI 產業正經歷從「模型能力競賽」向「工程化落地」的典範轉移，Agent 系統的穩定性與成本控制成為企業關注的核心。與上期相比，Agent 相關討論熱度顯著升溫，而單純的教學資源與開源專案聲量則有所回落，顯示開發者社群已將重心轉向生產級應用與基礎設施整合。本期最重要的技術事件為 Anthropic Claude Code 的自動模式更新與 Google Gemini 3.5 Flash 的全面部署，兩者皆標誌著 AI 輔助開發正式邁入「主動執行」的新階段 [AI Agent 趨勢分析](https://x.com/AYi_AInotes/status/2058389371955327402)。

**Claude Code 自動模式與工程化實踐**
Claude Code 近期針對「自動模式」（Auto mode）進行了兩項重大更新，該功能現已開放給 Pro 方案使用者，並正式支援「Sonnet 4.6」與「Opus 4.7」模型 [Claude Code 更新](https://x.com/ClaudeDevs/status/2057946803685974482)。使用者只需在 CLI 中按下 `Shift+Tab` 即可切換至自動模式，讓 Claude 在無需頻繁確認的情況下執行任務。自動模式的核心機制在於一個獨立的分類器模型，該模型會在指令執行前進行審查，攔截超出使用者請求範圍、針對未知基礎設施的攻擊，或是由惡意內容驅動的操作 [Claude Code 快速模式](https://x.com/ClaudeDevs/status/2056454359685476491)。

Claude Code 的成功導入策略強調「執行框架」（harness）的建置，而非單純依賴模型能力 [Claude Code 最佳實踐](https://x.com/ClaudeDevs/status/2056403446056784288)。企業規模導入時，建議透過 `CLAUDE.md` 檔案進行上下文分層管理，並利用 Hooks（鉤子）與 Skills（技能）實現自動化改進 [Claude Skill 入門](https://x.com/ai_xiaomu/status/2058360688293331143)。例如，「停止鉤子」可在會話結束後反思並建議更新 `CLAUDE.md`，而「啟動鉤子」則可動態載入團隊專屬的環境設定 [Claude 記憶優化](https://x.com/0xCodez/status/2058156429559636069)。這種將工程規範內化為 Agent 執行框架的模式，遠比單純的提示詞工程更具備生產力價值 [Claude Code 插件應用](https://x.com/Suryanshti777/status/2056022182560665602)。

**Gemini 3.5 Flash 與 Agentic 程式開發**
Google DeepMind 於 5 月 19 日正式推出 Gemini 3.5 系列模型，首發的 3.5 Flash 旨在將頂尖的推理能力與實際執行力結合 [Gemini 3.5 Flash 發布](https://x.com/GoogleDeepMind/status/2056826903957504136)。該模型在「Terminal-Bench 2.1」取得 76.2% 的成績，並在多模態能力測試中表現優異。Gemini 3.5 Flash 不僅具備 1M token 的上下文窗口，更透過「Interactions API」提供更穩定的狀態管理與思考保留功能，成為 Google 生態系統中各項 Agent 服務的核心驅動力 [Gemini 3.5 Flash 指南](https://x.com/GoogleAIStudio/status/2056797490553540756)。

Google 同時發布了 Antigravity 2.0，這是一款從底層重新建構的獨立桌面應用程式，旨在提供完整的 Agent 優先體驗 [Antigravity 2.0 發布](https://x.com/antigravity/status/2056795168326754759)。該平台支援多 Agent 團隊協作、任務排程與原生語音互動，並能與 Google 旗下其他產品進行一鍵整合 [Google 整合平台](https://x.com/geminicli/status/2056796084790304833)。透過 Managed Agents（託管代理）功能，開發者能將基礎設施的複雜性交由 Google 管理，專注於 Agent 的行為邏輯與產品體驗，解決了生產級 Agent 必須自行維護複雜沙盒環境的痛點 [Managed Agents 介紹](https://x.com/GoogleAIStudio/status/2056836824686059616)。

**AI 成本危機與商業模式的結構性重塑**
近期 AI 產業出現顯著的成本反彈，標誌著「AI 補貼時代」正迅速終結 [AI 補貼終結](https://x.com/HedgieMarkets/status/2057531661785628841)。即便擁有龐大雲端資源的 Microsoft，本週也因 token 計費模式導致成本難以負荷，被迫取消內部的「Claude Code」授權。Uber 的技術長亦發出內部備忘錄，警告公司僅在四個月內就耗盡了 2026 年全年的 AI 預算。目前美國 AI 軟體價格已上漲 20% 至 37%，GitHub 也正逐步淘汰固定費率方案，全面轉向依使用量計費 [AI 成本危機](https://x.com/HedgieMarkets/status/2057531661785628841)。

這種財務壓力導致了企業對 AI 使用量的縮減，進而拖累了 AI 實驗室為 IPO 估值所需的營收成長。產業專家分析，目前的財務模型已無法運作，企業必須尋求以 10% 的成本獲取 80% 價值的替代方案 [Auggie 成本優化](https://x.com/augmentcode/status/2056406584700567836)。針對「AI 將在 18 個月內取代所有工作」的觀點，市場已出現強烈質疑，因為要完全取代人類勞動力需要數百兆美元的投入，這遠超全球 GDP 的總和，且目前的推論成本曲線正朝錯誤方向彎曲 [AI 商業模式重塑](https://x.com/dotey/status/2055819034671604048)。

**資安攻防與漏洞挖掘的 AI 轉型**
Anthropic 於 5 月 22 日發布「Project Glasswing」初步更新報告，展示了利用 Claude Mythos Preview 模型主動掃描全球關鍵軟體基礎設施的能力 [Project Glasswing](https://x.com/AnthropicAI/status/2057909102542549503)。合作夥伴在一個月內發現超過一萬個高風險或關鍵漏洞，部分夥伴的漏洞發現率提升超過十倍。Cloudflare 安全團隊亦證實，該模型具備「攻擊鏈建構」與「自動化驗證」能力，能將多個低嚴重性漏洞串聯為具備威脅的攻擊證明（PoC） [Cloudflare 資安驗證](https://x.com/Cloudflare/status/2056360412510060748)。這種從單純問答轉向主動執行的 Agent 轉型，正深刻改變資安攻防的節奏。

然而，AI 大規模產出的漏洞也帶來了嚴峻的修補瓶頸。GitHub 近期證實遭駭客組織「TeamPCP」入侵，駭客利用受污染的 VS Code 擴充功能植入惡意軟體「Mini Shai-Hulud」，成功存取內部環境並外洩資料 [GitHub 遭駭](https://x.com/github/status/2056884788179726685)。此事件凸顯了當前 Agent 系統在工程化部署中的脆弱性，特別是當開發者過度依賴自動化工具，卻缺乏如「黃金資料集」（Golden Dataset）或「金絲雀輸出」（Canary Output）等嚴謹評估框架時，極易導致靜默失敗 [Langfuse 評估框架](https://x.com/lotte_verheyden/status/2056032201259831398)。

面對此類威脅，資安防禦策略必須從「修補漏洞」轉向「架構隔離」與「自動化驗證」。單靠模型內建的防護機制已不足以作為安全邊界，企業應參考前線部署工程師（FDE）的實踐，建立具備防護機制（Guardrails）的自動化 Pipeline [FDE 角色定義](https://x.com/vasuman/status/2057177266984226892)。此外，開發者應採用「混合式 Agent 架構」，利用輕量級本地模型處理瑣碎任務，並透過標準化協議（如 MCP，模型上下文協議）串接工具，以確保在自動化流程中，人類能持續擔任指揮者與審核者的角色，有效應對 AI 時代下日益複雜的資安挑戰 [NVIDIA 安全技能](https://x.com/NVIDIAAI/status/2057496919425900834)。

**Andrej Karpathy 加入 Anthropic 的戰略意義**
前 Tesla AI 總監、OpenAI 創始團隊成員 Andrej Karpathy 正式加入 Anthropic，並將領導一個新團隊，專注於「使用 Claude 本身來加速預訓練研究」 [Karpathy 加入 Anthropic](https://x.com/karpathy/status/2056753169888334312)。預訓練是構建前沿模型最昂貴、最耗算力的階段，這項任命被視為 Anthropic 對「AI 輔助研究」而非「純算力堆疊」的明確押注。此舉顯示 Anthropic 試圖透過 AI 自身的推理能力，優化模型訓練的效率與品質，這在算力資源日益緊張的當下，具有極高的戰略價值。

在當前 AI 產業面臨嚴峻的成本危機與推論成本（Inference Cost）壓力之際，Anthropic 的此項決策顯得尤為關鍵。隨著 Microsoft 與 Uber 等企業因 token 計費模式導致預算失控，市場正從「盲目擴張」轉向「成本效益優先」。Karpathy 的加入，不僅是為了提升研發速度，更是為了在算力資源日益昂貴的環境中，透過 AI 輔助研發來降低模型開發的邊際成本，這與產業追求以 10% 的成本獲取 80% 價值的目標不謀而合。

然而，這種高度依賴 AI 的研發模式也伴隨著「認知債」（Cognitive Debt）的隱憂。根據 MIT 的研究指出，過度依賴大型語言模型（LLM）可能導致工程師在缺乏「掙扎過程」的情況下，獨立解決問題與識別幻覺的能力退化 [AI 依賴風險](https://x.com/addyosmani/status/2056078124346228860)。因此，Anthropic 在推動 AI 輔助研究的同時，亦在探索將人類倫理與哲學智慧融入決策，試圖在提升生產力的同時，確保系統在壓力下仍能保持原則 [Anthropic 倫理探索](https://x.com/AnthropicAI/status/2056880308851708233)。這種將「AI 輔助」與「專業人才控制」深度整合的策略，正成為企業定義「AI-native」人才標準的核心，旨在避免因過度依賴而產生的決策偏差與專業危機。

**OpenAI 在數學推理與個人化 AGI 的進展**
OpenAI 近期宣布，其模型成功解決了由 Paul Erds 於 1946 年提出的著名數學難題——「平面單位距離問題」 [OpenAI 數學突破](https://x.com/OpenAI/status/2057176201782075690)。這是 AI 首次在數學核心領域中，自主解決一項備受關注的公開難題，展現了通用推理模型在維持長且複雜推理鏈條上的能力。Sam Altman 同時公開了 OpenAI 的三個發展方向：AGI 加速科學研究、AGI 加速企業創新，以及個人化 AGI 協助每個人達成目標 [OpenAI 願景](https://x.com/sama/status/2057218997503086888)。其中，如何透過個人化 AGI 賦能每一位使用者，被視為目前最迫切需要加強投入的領域。

**開發者工具的迭代與認知債危機**
OpenAI Codex 近期進行了顯著的產品迭代，引入了名為「Appshots」的創新功能 [Codex Appshots](https://x.com/OpenAIDevs/status/2057530207976989179)。這項功能允許使用者透過快捷鍵，將當前應用程式視窗的截圖以及隱藏的系統資訊，直接附加至 Codex 的執行緒中。此舉大幅提升了 AI 對開發環境的視覺感知能力，使其能更精準地理解使用者的操作情境。此外，備受期待的 `/goal` 功能也已正式啟用，這項更新賦予了 Agent 執行跨越數小時、甚至數天長期任務的能力，標誌著 AI 輔助開發從單點任務處理，正式邁向了複雜專案的自動化管理階段 [Codex 效益最大化](https://x.com/jxnlco/status/2057153744630890620)。

然而，隨著開發工具的快速演進，過度依賴 AI 撰寫程式所引發的「認知債」隱憂也日益浮現。多項研究數據顯示，若開發者缺乏主動學習的意圖，僅將 AI 視為自動化產出的工具，將會對其專業技能的積累造成損害。工程師在長期仰賴 AI 輔助後，一旦脫離該環境，其獨立開發與解決問題的能力正呈現顯著減弱的趨勢。這種現象提醒我們，AI 工具的便利性若未伴隨深度的技術理解，反而可能成為阻礙工程師成長的絆腳石。

面對此一挑戰，企業界已開始重新定義人才標準。例如數據分析平台 PostHog 便率先定義了「AI-native」人才的具體要求，強調專業人員必須具備將 AI 深度整合至工作流程的能力，並能針對 AI 的產出建立嚴謹的流程控制與審核機制 [PostHog 人才標準](https://x.com/posthog/status/2057472149145686276)。這意味著未來的開發者不能僅是單純的「複製貼上」使用者，而必須轉型為具備架構思維與流程管控能力的指揮者。唯有在保持主動學習的前提下，將 AI 視為協作夥伴而非替代品，開發者才能在技術迭代的浪潮中，避免陷入認知債的陷阱，並真正發揮 AI 輔助開發的最大效益。

**硬體基礎設施的垂直整合**
NVIDIA 執行長黃仁勳近期發表的「Vera」CPU，標誌著硬體架構設計正發生典範轉移，正式針對 Agentic（代理式）程式開發環境進行深度優化 [NVIDIA Vera CPU](https://x.com/nvidia/status/2056494241904271780)。這款處理器搭載了 88 個由 NVIDIA 自研的「Olympus」核心，並具備高達 1.2 TB/s 的驚人記憶體頻寬。Vera CPU 的設計初衷，正是為了應對 AI 代理在執行沙盒運算、複雜工具呼叫、多工排程層運作，以及大規模長文本檢索等高負載任務時，對硬體效能的嚴苛要求。透過這種專用架構，NVIDIA 試圖解決傳統通用處理器在處理 AI 代理任務時的瓶頸，為未來的自主運算奠定基礎。

與此同時，SpaceX 也採取了截然不同的策略，將其龐大的運算資源轉化為「AI 運算即服務」（AI Compute-as-a-Service） [SpaceX 運算服務](https://x.com/elonmusk/status/2057228707606196434)。SpaceX 選擇與 AI 巨頭 Anthropic 展開深度合作，意圖透過部署「軌道資料中心」來提供大規模的運算能力。這種將運算基礎設施推向極端環境的佈局，不僅展現了對邊緣運算的極致追求，更顯示出企業正試圖透過物理空間的延伸，來突破地面資料中心的資源限制，以滿足 AI 模型在特殊場景下的即時運算需求。

綜觀上述發展，這些硬體佈局清晰地揭示了當前 AI 產業的競爭邏輯。AI 領域的角逐已不再侷限於單純的模型參數規模競賽，而是全面轉向「模型、硬體與數據」三位一體的垂直整合戰。企業若想在未來的 AI 生態系中佔據主導地位，必須具備將底層硬體架構與上層模型應用深度耦合的能力。這種垂直整合的趨勢，意味著未來的 AI 競爭將是全方位的技術堆疊比拼，誰能更有效地將硬體效能轉化為模型推理的效率，誰就能在下一波 AI 浪潮中取得關鍵優勢。

值得關注的方向
- **Agent 的狀態持久化與連續性**：隨著任務週期拉長，如何確保 Agent 在跨對話、跨環境中維持狀態與記憶，將是解決「金魚記憶」問題的關鍵。開發者應關注如 Antigravity 2.0 與 Managed Agents 等架構，這些工具透過將狀態落盤與環境隔離，為長期運作的 Agent 提供了穩定的基礎 [Agent 狀態持久化](https://x.com/ManusAI/status/2056392345050927447)。
- **AI 輔助研發的效率革命**：Andrej Karpathy 加入 Anthropic 預示了「AI 訓練 AI」時代的來臨，透過模型自身的能力來優化預訓練流程，將成為突破算力瓶頸的核心路徑。未來，能夠將 AI 深度整合至研發流程、並建立嚴謹評估框架（Evals）的企業，將在模型迭代速度上取得決定性優勢 [AI 輔助研發](https://x.com/claudeai/status/2057854403558653983)。

**本期公司動向**
本期 AI 產業由 Google 與 Anthropic 兩大巨頭領軍，透過模型升級與 Agent 策略重塑開發者生態，同時 OpenAI 與 Cursor 則在程式輔助工具與推理能力上持續深化，共同推動 AI 從「對話助理」向「自動化執行 Agent」的典範轉移。

**Google｜Gemini 3.5 Flash 與搜尋 Agent 的全面進化**
Google 在 I/O 前夕發布 Gemini 3.5 Flash 模型，正式將搜尋引擎轉型為「搜尋 Agent」，並透過 Gemini Omni 實現原生多模態深度推理 [Gemini 搜尋 Agent](https://x.com/OfficialLoganK/status/2056802276124328352)。Gemini 3.5 Flash 不僅在程式開發與長跨度任務中展現頂尖效能，更成為 Google 生態系中各項 Agent 服務的核心驅動力 [Gemini 3.5 Flash 開發者指南](https://x.com/GoogleAIStudio/status/2056797490553540756)。此外，Google Flow 亦導入 Gemini Omni，強化了影片編輯的角色一致性與物理邏輯推理能力 [Google Flow 升級 Gemini 強化 AI 開發能力](https://x.com/FlowbyGoogle/status/2056810760056254718)，展現 Google 欲將 AI 深度整合至創作與生產力工具的強烈企圖。

**Anthropic｜Claude Code 自動化與資安防禦雙軌並進**
Anthropic 本期動作頻頻，除 Claude Code 推出支援 Sonnet 4.6 與 Opus 4.7 的「自動模式」以降低提示疲勞外 [Claude Code 推出自動模式更新](https://x.com/ClaudeDevs/status/2057946803685974482)，更透過「Project Glasswing」計畫，利用 Claude Mythos Preview 模型主動掃描全球關鍵軟體漏洞，展現其在資安防禦領域的實戰能力 [Anthropic 利用 Claude 模型高效挖掘軟體漏洞](https://x.com/AnthropicAI/status/2057909102542549503)。此外，前 Tesla AI 總監 Andrej Karpathy 正式加入預訓練團隊，將專注於利用 Claude 本身加速研發，顯示 Anthropic 正押注「AI 輔助研究」以突破算力堆疊的瓶頸 [Andrej Karpathy 加入 Anthropic](https://x.com/karpathy/status/2056753169888334312)。

**OpenAI｜Codex 強化開發體驗與數學推理突破**
OpenAI 持續精進 Codex 的開發輔助能力，推出「Appshots」功能讓模型能精準感知當前開發環境，並正式啟用 `/goal` 模式以支援長週期任務執行 [OpenAI Codex 更新強化程式開發效能](https://x.com/OpenAIDevs/status/2057530207976989179)。在基礎研究方面，OpenAI 模型成功解決了 1946 年提出的「平面單位距離問題」，展現了通用推理模型在數學核心領域的自主探索能力 [OpenAI 模型破解數學難題](https://x.com/OpenAI/status/2057176201782075690)。同時，OpenAI 亦積極推動「OpenAI Deployment Company」，透過派遣工程師協助企業落地 AI，加速 AGI 的商業應用進程 [OpenAI、Anthropic 押注 FDE](https://x.com/kfk_ai/status/2056660897381425590)。

**Cursor｜Composer 2.5 與 SDK 生態系擴張**
Cursor 團隊發布 Composer 2.5 版本，透過「目標導向文字回饋」機制顯著提升了長任務處理的準確度，並預告將與 SpaceXAI 合作，利用 Colossus 2 的百萬級 H100 算力資源進行下一代模型訓練 [Cursor 推出 Composer 2.5](https://x.com/cursor_ai/status/2056415413077233983)。此外，Cursor 亦正式釋出 SDK，允許開發者透過 Python 或 TypeScript 程式碼直接操控 Agent 核心，實現本地端與雲端環境的無縫切換 [Cursor 推出 SDK 支援自訂 Agent](https://x.com/cursor_ai/status/2057913121558413770)，進一步降低了開發者建構專屬 AI 工作流程的門檻。

**GitHub｜供應鏈安全挑戰與成本模式轉型**
GitHub 本期面臨嚴峻的資安挑戰，駭客組織「TeamPCP」透過感染員工裝置的惡意擴充功能，存取並外洩了部分內部專案資料，GitHub 已緊急輪替憑證並強化存取控制 [GitHub 遭駭客入侵](https://x.com/github/status/2056884788179726685)。在商業模式上，隨著 AI 推論成本高漲，GitHub 正逐步淘汰固定費率方案，全面轉向依使用量計費，反映出產業「AI 補貼時代」的終結，企業正被迫重新評估 AI 預算與營運效率的平衡 [AI 補貼時代走向終結](https://x.com/HedgieMarkets/status/2057531661785628841)。