# AI 趨勢週報｜4/27 - 5/3｜Karpathy宣告Agentic Engineering時代、GPT-5.5自辦派對引爆生產力

> 作者：easyvibecoding · 發佈：2026-05-03

本期OpenAI執行長Sam Altman宣布GPT-5.5模型將於5月5日下午5:55自辦派對，由Codex負責篩選來賓。這不僅展現模型自主決策的趣味應用，更象徵Agentic工具從上期抽象概念轉向本期生產力爆發的核心載體。[GPT-5.5派對](https://x.com/sama/status/2049653810558353746)相較上期（4/20-4/26），Agent主題從79則上升至85則，本期熱度峰值達40則。Codex與Claude Code等工具連續處理亞馬遜退款、跨平台安裝等真實任務，這標誌範式從Vibe Coding躍升至Agentic Engineering。[Karpathy訪談](https://x.com/dotey/status/2049617833370202182)OpenAI公司聲量從28則增至40則，Anthropic雖微降至37則，但Claude相關貼文仍達33則。這顯示雙雄爭霸延續上期態勢，產業趨勢整體升溫至49則，並預示AI從輔助工具轉為全新計算範式的延續轉折。

**Karpathy宣告Agentic Engineering時代到來，Software 3.0重塑程式範式**  
Andrej Karpathy在本期多次強調，AI已從去年提出的Vibe Coding演進至Agentic Engineering，這是程式開發的分水嶺時刻。去年12月前，Claude Code等Agent僅能產生小段程式碼並需人類修復；如今最新模型可連續完成大塊工作，几乎無需修正。他坦言「一直讓它繼續做，它就一直做對，我甚至想不起上一次需要我改它是什么時候」[SaitoWu](https://x.com/SaitoWu/status/2050574771994427885)。Karpathy將此定義為Software 3.0框架：相較Software 1.0的手寫規則程式碼與Software 2.0的資料集訓練神經網路，新範式以prompt加context window作為程式本身。LLM不再是工具，而是全新「電腦」，開發者轉為在資訊空間組織輸入指揮計算。[Vibe Coding演進](https://x.com/SaitoWu/status/2050574771994427885)

此轉變在具體案例中顯著。例如，OpenClaw安裝過去需複雜跨平台shell腳本處理環境差異，如今僅複製一段prompt給Agent，它自行理解環境、除錯並完成安裝。[OpenClaw安裝](https://x.com/rohanpaul_ai/status/2049130774407065763)MenuGen應用則從OCR、圖像生成到Vercel部署的痛苦流程，簡化為拍菜單照片丟給Gemini並指令疊加真實菜品圖，直接輸出結果。這些變化凸顯Vibe Coding抬高軟體開發下限，但Agentic Engineering需維持專業品質、安全與責任門檻，避免AI在常識題如「去50公尺外洗車該走路還是開車」上犯錯。

LangChain團隊透過優化harness（如工具調度、脈絡管理、沙盒隔離），將deepagents-cli在Terminal-Bench 2.0從52.8%躍升至66.5%，這證明模型商品化後harness成為競爭力核心。[LangChain優化](https://x.com/code_kartik/status/2050631735529095575)DeepLearning.AI吳恩達指出，Agentic程式開發加速產品建置10-100倍，這迫使工程師角色擴張至產品經理，小團隊通才優勢凸顯。[吳恩達觀點](https://x.com/AndrewYNg/status/2048793852702757151)上期Agent熱度已高，本期延續上升。Karpathy訪談與Sequoia Capital對話強化此敘事，這預示工程師不必再記住API細節，轉向高階指揮。

**Codex即時操作真實世界任務，壓倒人類客服與生產力瓶頸**  
OpenAI的Codex在本期展現Agentic實力巔峰，用戶Chris分享親身經歷：透過「GPT-5.5 via codex」讓AI Agent即時操作電腦，對抗亞馬遜真人客服，5分鐘內拿回415美元訂閱退款，甚至連續處理400美元多筆訂閱。他邊逛X邊看AI「以光速」導航設定頁面、開啟聊天視窗並反駁「subscription active」[chatgpt21](https://x.com/chatgpt21/status/2049341524958151000)。Codex未選電話轉接，而是精準反擊帳單週期權益，無情結束對話無多餘互動，這證明其在客服對抗中的無懈可擊優勢。

Codex進一步整合日常工作，推出角色設定與Slack、Google Workspace、Microsoft 365連結，這加速研究、規劃、文件、簡報與試算表任務，並提供摘要跨應用資料、起草內容與即時監控進度[OpenAI](https://x.com/OpenAI/status/2049928776147230886)。Codex pets功能新增動態伴侶，提升多工體驗，按Cmd+K切換浮動覆蓋顯示執行緒狀態，自訂pet需hatch-pet技能。[Codex pets](https://x.com/OpenAIDevs/status/2050275713824211041)Codex CLI 0.128.0支援/ goal指令實現Ralph loop，這跨多輪維持單一目標，搭配GPT-5.5連續運作數天建OS核心或偵錯程式庫[thsottiaux](https://x.com/thsottiaux/status/2049970070873629026)。

產品負責人Tibo重置付費方案速率限制，慶祝500萬里程碑，這解決註冊暴增瓶頸，並強調14小時自動重置足建新創公司[thsottiaux](https://x.com/thsottiaux/status/2048997818673537399)。Responses API WebSockets優化端到端加速40%，從65 TPS升至近1,000 TPS，記憶快取與消除網路跳躍解決API瓶頸。[Responses API](https://x.com/OpenAIDevs/status/2049595890395152728)NVIDIA GB200 NVL72降低token成本35倍，10,000員工跨部門使用，偵錯從數天縮數小時[NVIDIAAP](https://x.com/NVIDIAAP/status/2048582909045379291)。上期Codex從7則升至10則，本期延續火熱。Symphony規格轉Linear任務為DAG平行推進，這預示Codex從聊天視窗進化多子代理系統。[Symphony規格](https://x.com/OpenAIDevs/status/2048825010371039648)

**Claude Code遠端控制與開發者生態成熟，Apple洩密凸顯企業採用**  
Anthropic的Claude Code新增Remote Control，這允許手機、平板或瀏覽器繼續本地工作階段，長任務推播通知提升跨裝置連續性[ClaudeDevs](https://x.com/claudedevs/status/2049154855143649315)。執行claude remote-control產生URL或QR code，Claude持續本機執行保留檔案系統與MCP，對話同步自動重連。Team/Enterprise需管理員啟用。Claude Code開發者大會下週回歸，這提供新手至進階議程直播[claudeai](https://x.com/claudeai/status/2050252933866930339)。

Apple Support App v5.13意外嵌入Claude.md設定檔，這暴露內部專案架構、開發規則與常用指令，v5.13.1緊急修補。此「新人入職指南」解決重啟遺忘痛點[aaronp613](https://x.com/aaronp613/status/2049986504617820551)。Claude Security公開測試版掃描漏洞、驗證假陽性並建議修補，這新增排程與webhook[claudeai](https://x.com/claudeai/status/2049898739783897537)。BioMysteryBench評測Claude解決人類專家卡住23題中30%，這使用真實生物資料超越專家[AnthropicAI](https://x.com/AnthropicAI/status/2049624600741560340)。

Sam Altman回應民調，這主張依需求選Codex或Claude Code，肯定多元競爭[sama](https://x.com/sama/status/2050274547061129577)。CLAUDE.md最佳實作控制100-150行，這分層全域/專案放置，Subagents技巧用.claude/agents/獨立context。[CLAUDE.md實作](https://x.com/zodchiii/status/2048683276194185640)駭客松金獎MedKit醫學語音模擬器，這展現Opus 4.7長脈絡穩定。[駭客松獲獎](https://x.com/claudeai/status/2049523899918934384)上期Claude從39則降至33則，但功能升級延續生態活力。MCP伺服器如Blender連接器強化開源互通。[MCP伺服器](https://x.com/_philschmid/status/2048781360643375434)

**微軟AI業務年化370億美元，Copilot席位破2000萬引領Agentic轉移**  
微軟執行長Satya Nadella宣布AI業務年化收入達370億美元，年增123%，這專注Agentic運算基礎設施與平台[satyanadella](https://x.com/satyanadella/status/2049622812680409373)。新增1 gigawatt容量，兩年內翻倍，Foundry平台10,000客戶用多模型、5,000用OSS，IQ layers涵蓋M365、Fabric提供脈絡引擎。M365 Copilot席位超20百萬，每週互動與Outlook相當，這成長最快；GitHub Copilot 140,000組織，CLI月增倍數；Security Copilot客戶年增2倍。

Copilot付費用戶破2000萬，使用率媲美電子郵件，季增20%，超5萬席企業成長四倍如Accenture 74萬席[TechCrunch](https://x.com/TechCrunch/status/2049626337724502016)。這支援多模型如Claude，Agent模式預設多步驟文件執行。GitHub Copilot 6/1轉GitHub AI Credits計費，按token消耗因應Agentic高成本，程式碼補全不扣credits[github](https://x.com/github/status/2048794729274278258)。

平台從終端驅動轉Agent共同驅動，這擴大TAM重塑價值創造。此熱度延續上期Microsoft 9則聲量，FY2024 Q4營收647億美元淨利220億美元，這強化企業高價值Agentic系統如生產力、安全領域領導地位。[Copilot調整](https://x.com/aileaksofficial/status/2050114605318582396)

**OpenAI與微軟/AWS協議簡化，多雲彈性挑戰Azure主導**  
OpenAI修訂微軟協議，Microsoft維持首要雲端夥伴，產品優先Azure但可跨雲服務客戶[OpenAINewsroom](https://x.com/OpenAINewsroom/status/2049228769135874295)。IP授權至2032年轉非獨家，Microsoft停營收分成，OpenAI分成至2030年設上限，合作擴建吉瓦資料中心、矽晶與安全[sama](https://x.com/sama/status/2048755148361707946)。

AWS宣布OpenAI模型數週內上Bedrock，這搭配Stateful Runtime Environment選right model for the job，Rip Azure預期[ajassy](https://x.com/ajassy/status/2048806022253609115)。Bedrock Managed Agents限量預覽，每週400萬人用Codex自動化程式碼[amazon](https://x.com/amazon/status/2049178244059169270)。Sam Altman分享argon平台一鍵給全叢集訓練GPT-6，預設5.5 Extra High權限[sama](https://x.com/sama/status/2049241518540808440)。

Baseten CEO Tuhin強調推理層價值低估，一年30倍增長預計10億美元，95% token來自自訂模型，Dedicated inference需求爆發[SaitoWu](https://x.com/SaitoWu/status/2050876766101831918)。中國模型如DeepSeek性價比高，上期雲端熱度延續，本期多雲彈性重組格局。[DeepSeek系統](https://x.com/FireworksAI_HQ/status/2048793033400078809)

**GPT-5.5數學奇蹟與ARC-AGI暴露推理缺陷**  
OpenAI Podcast討論GPT-5.4 Pro解決60年懸案，Sebastien Bubeck與Ernest Ryu證實AI從IMO金牌躍至研究級，Ernest用ChatGPT 12小時解42年Nesterov問題[OpenAI](https://x.com/OpenAI/status/2049182118069358967)。模型掃描文獻連接領域，這壓縮科學時間線，但警告過度依賴致淺層理解。

ARC Prize分析GPT-5.5僅0.43%、Opus 4.7僅0.18%通過ARC-AGI-3，這135新穎環境測試適應未知，三失敗模式：局部效果虛假世界模型、訓練資料錯誤抽象、解決未強化獎勵[arcprize](https://x.com/arcprize/status/2050261221165989969)。GPT-5.5假設廣但難轉計畫，Opus易執著不變量。

GPT-5.5 Prompting Guide強調簡短結果導向提示優於流程重，這定義Personality、Goal、Constraints[TheRealAdamG](https://x.com/TheRealAdamG/status/2049523746910908886)。上期GPT從8則升11則，本期數學突破與基準缺陷對比，這凸顯推理不均勻。

**硬體野心與NVIDIA安全工具，企業Agent治理升級**  
OpenAI計畫2028量產自製手機挑戰iPhone，這與MediaTek、Qualcomm、Luxshare合作，Sam Altman呼籲重思OS、UI與Agent網路協定[9to5mac](https://x.com/9to5mac/status/2048754629240869312)。規格2026年底敲定，這從非手機轉向核心載體。[供應商合作](https://x.com/mingchikuo/status/2048587369394381143)

NVIDIA OpenShell開源沙盒借鏡瀏覽器隔離，這程式化沙盒與細粒度政策引擎控管檔案、網路，Agent約束推理提政策更新[NVIDIAAI](https://x.com/NVIDIAAI/status/2050336285428998202)。Google Cloud Gemini Enterprise Agent Platform進化Vertex AI，ADK建多Agent網路，客戶如PayPal安全支付[GoogleCloudTech](https://x.com/GoogleCloudTech/status/2050289149270229195)。

Cursor SDK TypeScript API存取相同Agent runtime，這支援本地/雲端[cursor_ai](https://x.com/cursor_ai/status/2049499866217185492)。上期硬體傳聞延續，本期安全治理填補企業鴻溝。

**Anthropic與OpenAI法庭對峙，模型蒸餾灰色地帶浮現**  
馬斯克法庭承認xAI用OpenAI模型訓練Grok，這定義蒸餾為「用一模型訓另一模型」，辯稱標準驗證[verge](https://x.com/verge/status/2049917367640309951)。OpenAI指DeepSeek蒸餾，Anthropic名指中國公司，Google視為攻擊。

OpenAI回應Musk訴訟無根據，這將詰問其阻礙AGI使命[OpenAINewsroom](https://x.com/OpenAINewsroom/status/2048776645142872368)。Baseten客戶青睞中國開源便宜80%。

上期訴訟脈絡延續，本期證詞加劇緊張，知識共享邊界模糊。

**Google Gemini文件生成與翻譯20週年，多模態生產力升級**  
Gemini App一鍵生成Docs、Sheets、Slides、PDF等，這全球上線省複製貼上[sundarpichai](https://x.com/sundarpichai/status/2049519281600373159)。這支援.xlsx、.csv、LaTeX等，匯出Drive。

Google Translate 20週年用Gemini即時對話翻譯250語言，這保留聲調，每月10億用戶[sundarpichai](https://x.com/sundarpichai/status/2049156908582617440)。這從統計學習演進神經網路。

Gemini Enterprise Agent Platform客戶如Color Health端到端照護。本期Google聲量持平11則，多模態便利延續生產力趨勢。[Agent Skills](https://x.com/GoogleCloudTech/status/2049156689643864326)

**本期公司動向**

本期「公司動向」由OpenAI主導GPT-5.5與Codex Agent應用熱潮、Anthropic強化Claude Code開發者生態，以及Microsoft推動AI業務年化收入370億美元成長，這共同引領Agentic工程與硬體擴張敘事。

**OpenAI｜GPT-5.5派對與Codex Agent實戰應用**  
OpenAI本期透過GPT-5.5模型主導多項創新節奏，首先宣布模型自選5月5日下午5:55於舊金山總部舉辦派對，由Codex篩選來賓並全額資助全球粉絲交通住宿，這展現AI自主決策融入人類活動的趣味策略。[Sam Altman宣布](https://x.com/sama/status/2049653810558353746)Codex同時在實戰中大放異彩，使用者分享GPT-5.5 via Codex僅5分鐘擊敗亞馬遜真人客服，成功退回415美元訂閱款，這凸顯Agent在真實世界任務的經濟效益與壓倒性優勢。[退款案例分享](https://x.com/chatgpt21/status/2049341524958151000)公司進一步修訂與Microsoft夥伴協議，簡化合約提供跨雲端彈性，Microsoft維持Azure首要地位但IP授權轉非獨家至2032年，同時計畫2028年量產自製Agent核心手機，挑戰iPhone並與MediaTek、Qualcomm合作開發處理器。此波動作強化OpenAI從軟體Agent向硬體生態的全面推進，同時重置Codex付費方案速率限制，鼓勵開發者建構GPT-5.5應用。

**Anthropic｜Claude Code遠端功能與開發者大會**  
Anthropic本期聚焦Claude Code產品迭代與社群擴張，推出「Remote Control」研究預覽功能，這讓使用者從手機或瀏覽器繼續本地工作階段，支援推播通知與自動重連，完整保留檔案系統與工具設定，提升跨裝置程式開發連續性。[功能發布公告](https://x.com/claudedevs/status/2049154855143649315)公司同時宣布下週舉辦「Code with Claude」開發者大會，這提供新手至資深專屬議程與直播，強調實作導向深化Claude Code應用。[大會邀請連結](https://x.com/claudeai/status/2050252933866930339)Apple Support App更新意外洩露Claude.md設定檔後緊急修補，這暴露Apple內部積極採用此專案級「AI大腦」管理開發規則與上下文，間接驗證Claude Code企業滲透力。儘管Opus 4.7在ARC-AGI-3基準僅獲0.18%，Anthropic仍發布BioMysteryBench評測，Claude解決專家卡住的23題中約30%，這超越人類水準。此策略呈現Anthropic在Agentic工程工具與生物領域基準的雙軌強化。[Claude Security](https://x.com/claudeai/status/2049898739783897537)

**Microsoft｜AI收入暴增與Copilot企業擴張**  
Microsoft本期公布AI業務年化收入達370億美元，年成長123%，執行長Satya Nadella強調平台從使用者驅動轉向Agent共同驅動，新增1 gigawatt容量並推IQ layers涵蓋M365與Fabric，服務10,000名多模型客戶。[財報電話會議](https://x.com/satyanadella/status/2049622812680409373)Microsoft 365 Copilot付費用戶破2000萬，每週參與度媲美Outlook，Accenture簽74萬席位史上最大訂單，企業如Bayer與Mercedes各超9萬席位，使用者查詢季增20%。公司修訂與OpenAI協議，維持Azure首要雲端夥伴並延長IP授權至2032年，OpenAI產品優先上架但獲跨雲彈性，財務調整停Microsoft營收分成但設OpenAI分成上限至2030年。此舉回應創新速度，同時GitHub Copilot因Agentic需求轉2026年6月token基計費並暫停新註冊，這承認容量挑戰並承諾30X擴張，反映Microsoft在AI基礎設施與開發工具的企業級節奏轉移。[GitHub擴容](https://x.com/mariorod1/status/2049067078292808139)

**Google｜Gemini企業Agent平台與翻譯進化**  
Google本期推進Gemini生態，Cloud推出「Gemini Enterprise Agent Platform」進化Vertex AI，這支援逾200款模型包括Gemini 3.1與Claude系列，提供Agent建構、治理與優化，客戶如Burns & McDonnell轉專案資料為即時智慧。[平台發布](https://x.com/GoogleCloudTech/status/2050289149270229195)Gemini App新增一鍵生成Docs、Sheets與Slides等文件，這直接匯出Drive或Excel，簡化腦storm至分享流程。[Sundar Pichai宣布](https://x.com/sundarpichai/status/2049519281600373159)「翻譯」工具20週年演進至Gemini即時對話翻譯，這支援250語言保留聲調，服務10億使用者。Google Cloud發布「Agent Skills」程式庫，以Markdown精簡上下文避免bloat，Gemma 4驅動本地瀏覽器Agent擴充如Transformers.js，這實現分頁管理與網頁互動。此波聚焦企業Agent與消費者工具的多模態擴張，強化Google在雲端與邊緣應用的競爭力。[Transformers.js](https://x.com/googlegemma/status/2048805789788413984)

**GitHub｜Copilot Agentic計費轉型與容量擴張**  
GitHub本期因Agentic工作流程爆發調整Copilot策略，所有方案2026年6月1日起轉「GitHub AI Credits」token基計費，這貼合長程開發需求，避免PRUs無法持續吸收高運算成本。[計費公告](https://x.com/github/status/2048794729274278258)個人方案暫停新註冊、收緊限制並限Opus 4.7於Pro+，工程副總承諾10X至30X容量擴張，這回應程式庫建立與API使用指數成長。公司面臨Ghostty開發者Mitchell Hashimoto結束18年忠誠離開，他批評頻繁中斷影響認真工作，EntireHQ開源git-sync則獲CEO推廣，這實現無本地clone的遠端鏡像同步，支援Agent貢獻。[Ghostty離開](https://x.com/mitchellh/status/2049213597419774026)[git-sync](https://x.com/ashtom/status/2049879381187915831)此調整呈現GitHub因AI開發轉型的可靠性挑戰與開源工具補強，優先既有使用者體驗。

**值得關注的方向**  
首先，Agentic harness與安全治理將主導下期競爭，LangChain、OpenShell等框架優化工具調度與沙盒隔離，這解決長程任務中context污染與授權風險。[Flue框架](https://x.com/FredKSchott/status/2050274923852210397)企業如NVIDIA、Google Cloud已部署生產級平台，這預期開源生態爆發，開發者從模型競爭轉向自訂基礎設施，降低供應商鎖定並放大效能10倍以上。

其次，多雲推理與自訂模型供給緊張將重塑基礎設施市場，Baseten 95% token來自後訓練模型，OpenAI跨AWS/Azure彈性呼應NVIDIA GB200成本降35倍。中國開源如DeepSeek性價比高，這預計全球長尾需求驅動Dedicated叢集合約提前，能源創新如Meta太空太陽能解鎖吉瓦容量。[Meta能源](https://x.com/Meta_Engineers/status/2048746828708102421)

最後，基準缺陷與數學奇蹟預示AGI推理瓶頸突破，ARC-AGI-3暴露世界模型虛假，GPT-5.5解開放問題壓縮科學時間線。[World Model](https://x.com/vai_viswanathan/status/2050177504392998932)Anthropic生產失準研究警示獎勵駭客泛化，未來RL優化與持續學習將成焦點，硬體如OpenAI手機整合OS將驗證Agent真實世界適應。[生產失準](https://x.com/AmcTrade89/status/2050620174399623564)
