# 策展 · X (Twitter) 🔥🔥🔥

> 作者：OpenAI Developers (@OpenAIDevs) · 平台：X (Twitter) · 日期：2026-04-30

> 原始來源：https://x.com/OpenAIDevs/status/2049595890395152728

## 中文摘要

OpenAI透過Responses API的WebSockets優化Agentic程式開發工作流程端到端加速40%。

OpenAI開發團隊在「Codex」Agent加速後，識別API呼叫為新瓶頸，推出WebSockets持久連接，讓使用者充分體驗從65 TPS躍升至近1,000 TPS的推理速度。透過快取、消除多餘網路跳躍及安全堆疊優化，他們實現了代理迴圈的重大效能躍進。

**API成為瓶頸的轉變**  
隨著「Codex」模型推理速度提升，先前GPU推理階段的延遲不再是主導，轉而暴露Responses API的累積開銷。過去旗艦模型如「GPT-5」及「GPT-5.2」僅達65 token per second (TPS)，而2025年11月推出的「GPT-5.3-Codex-Spark」目標訂為10倍速、超過1,000 TPS，仰賴專用「Cerebras」硬體優化LLM推理。此時，單一請求的關鍵路徑延遲仍需優化，否則使用者無法感受到模型真實速度。

**2025年11月效能衝刺優化**  
團隊展開性能衝刺，針對單一請求實現近45%首次token時間(TTFT)改善，具體措施包括：  
- 在記憶體中快取渲染token及模型配置，跳過多輪回應的昂貴token化及網路呼叫。  
- 消除中間服務呼叫（如影像處理解析），直接呼叫推理服務，減少網路跳躍延遲。  
- 強化安全堆疊，讓特定分類器更快標記問題對話。  
儘管這些改善讓API更敏捷，但相對於「GPT-5.3-Codex-Spark」的極速，CPU處理API請求的開銷仍過大，導致使用者需等待API後才能利用GPU模型。更深層結構問題在於，每個「Codex」請求視為獨立，無論對話歷史是否變化，都需重複處理完整上下文，長對話時成本更高。

**WebSockets持久連接設計**  
為解決重複處理，團隊重構傳輸協議，從HTTP逐次建立新連接轉為持久WebSockets連接，僅傳送需驗證的新資訊，並在連接生命週期內記憶體快取可重用狀態。這避免了每次跟進請求重傳完整歷史。  
他們評估WebSockets及gRPC雙向串流，最終選WebSockets，因其簡單訊息傳輸協議，不需改變Responses API的輸入輸出形狀，對開發者友善且與既有架構相容。  
首個WebSocket原型模擬單一長運行回應：使用asyncio在工具呼叫後非同步阻塞取樣迴圈，發送「response.done」事件給客戶端；客戶端執行工具後回傳「response.append」事件帶工具結果，解除阻塞繼續取樣。這類比本地工具呼叫如主機工具，將模型工具呼叫經WebSocket傳回客戶端，客戶端回應後融入上下文繼續推理。原型消除代理展開的重複API工作，一次預推理、暫停工具執行、最後一次後推理，效能驚人。

**保留熟悉API形狀的迭代**  
原型雖有效，但API形狀過於陌生，團隊回歸開發者熟悉模式：持續使用「response.create」相同主體，並以「previous_response_id」延續前回應狀態。在WebSocket連接中，伺服器維持連接範圍的記憶體快取，包括：  
- 前回應物件。  
- 先前輸入輸出項目。  
- 工具定義及命名空間。  
- 可重用取樣產物，如已渲染token。  
此快取實現多項優化：  
- 安全分類器及請求驗證器僅處理新輸入，而非每次全歷史。  
- 記憶體快取渲染token追加，跳過不必要token化。  
- 重用模型解析/路由邏輯跨請求。  
- 將非阻塞後推理工作如計費與後續請求重疊。  
此設計逼近原型最小開銷，卻無需開發者重寫整合。

**Alpha測試與正式推出成果**  
經兩個月衝刺後，2026年4月22日推出WebSocket模式，先以alpha版供關鍵程式開發Agent新創整合，alpha使用者回報代理工作流程加速達40%。推出後，「Codex」迅速將多數Responses API流量轉移WebSocket，實現顯著延遲改善。  
對於「GPT-5.3-Codex-Spark」，達成1,000 TPS目標，生產流量中爆發達4,000 TPS，證明Responses API能跟上更快推理。開發社群立即受惠：  
- 「Codex」使用者運行「GPT-5.3-Codex」、「GPT-5.4」等最新模型，全享WebSocket加速。  
- 「Vercel」整合至AI SDK，延遲降幅達40%。  
- 「Cline」多檔案工作流程加速39%。  
- 「Cursor」中OpenAI模型加速達30%。  
此為自2025年3月Responses API推出以來最重大功能，API與「Codex」團隊數週內從概念到生產部署，凸顯隨著模型推理加速，周邊服務須同步提速，方能傳遞獲益給使用者。

## 標籤

功能更新, Agent, AIGC, OpenAI, GPT, Codex