# 策展 · X (Twitter) 🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：AYi (@AYi_AInotes) · 平台：X (Twitter) · 日期：2026-06-16

> 原始來源：https://x.com/AYi_AInotes/status/2066865618104586525

## 中文摘要

# 所有深度使用 AI 程式開發的朋友，這篇 Codex 全景指南值得存好，架構生態橫評與最佳實踐一次講透

有個細節我琢磨了好幾天，OpenAI 給 GPT-5.3-Codex 下的官方定語很有意思，沒有說是最強程式開發模型，而是一句有點耐人尋味的話——第一個對創造自身起到關鍵作用的模型。

我翻譯一下：OpenAI 自己的工程師，已經在用 Codex 來造下一代 Codex 了。

![這張圖表展示了「Codex 模型底座」在一年內進行四次迭代的發展歷程與關鍵技術特性。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/89e5e226097d1088.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖表標題：一年四迭代：Codex 模型底座
副標題：從補全工具到研發底盤，一年裡迭代太密了

時間軸與模型迭代內容：
1. 2025.12 - GPT-5.2-Codex：多 Agent、雲沙箱 + 本地插件生態、異步批量。
2. 2026.2.5 - GPT-5.3-Codex：并行會話、IDE 擴展增強、MCP 工具鏈、審查流水線。
3. 2026.2.12 - GPT-5.3-Codex-Spark：純文本、低延遲小號、首個 Cerebras 生產模型、快 15×。
4. 2026.3.5 - GPT-5.4 for Codex：端到端、深度推理重構、更強監督、更穩集成。

底部說明：Spark 的意義不是更快，是能一邊聊一邊出代碼。
右下角署名：AYI · @AYI_Alnotes</div></details>

我覺得這句話比任何 benchmark 都狠，它告訴我們，除了這個模型有多強，還有就是這個模型已經成了 OpenAI 自己的研發底盤。

也就是說 2021 年那個被棄用的補全工具、去年那個幫你改 bug 的助手——跟現在這個比，根本不是同一個物種。

我決定寫一個系列，這是第一篇。

這篇不講具體操作，先把全景圖鋪開：它的架構到底長什麼樣、核心能力在哪、跟 Claude Code / Cursor / Devin 比誰更能打、官方給的最佳實踐有什麼能直接抄。後面幾篇再一個一個拆——AGENTS.md、Skills、MCP、多 Agent 編排的實操。

> ▸ 五個入口，一套配置——先搞懂這個，後面才不會暈

> ▸ 插件化 + MCP + Skills：這才是它跟別人拉開身位的地方

> ▸ 為什麼我說它是目前最強執行引擎（附一張對比表，也說說它的軟肋）

> ▸ 七條能直接抄的官方最佳實踐

---

## 一、先搞懂架構——一套執行層，長了五張臉

![這張架構圖展示了名為「Codex」的統一執行層與編排中樞，說明其如何連接 App、CLI、IDE 插件、Cloud 及 Web 等五種介面。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/5427b9728ea3676f.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖表標題：「一套執行層，五張臉」，副標題：「Codex 不是 App，是統一執行層 + 編排中樞」。

核心區塊：
- 中心點：Codex 統一執行層・編排中樞

連接的五個介面：
1. App 桌面命令中心
2. CLI 終端深度集成
3. IDE 插件 編輯器內
4. Cloud 云沙箱・異步
5. Web / ChatGPT 統一登錄

底部區塊：
- 共享配置：Skills・MCP・AGENTS.md（一處改，處處生效）
- 說明文字：模型負責干活，App / Cloud 負責調度

右下角署名：AYi・@AYi_Alnotes</div></details>

我第一次把 2026 版 Codex 的所有入口捋了一遍之後，才明白為什麼很多人剛接觸會懵，因為它同時出現在五個地方：App、CLI、IDE 插件、Cloud、Web。

所以這不只是五個產品那麼簡單，更像是一套統一執行層 + 編排中樞，長了五張臉。

**Codex App**：桌面命令中心，macOS 版，今年最大的形態變化。

定位很明確——AI 程式開發的指揮中心，你可以在裡面並行跑活、管長時任務、加 skills 和 automations、審查 diff，全程沙盒保安全。

為什麼今年才出桌面端？OpenAI 自己的解釋我挺認同的——2025 年 4 月 Codex 剛出時，問題還是「Agent 能幹什麼」；

到了今年，模型能端到端處理複雜長時任務了，問題變成了「怎麼同時管好一堆 Agent」。

那問題變了，介面就得跟著變。

**CLI + IDE 插件**：

終端和編輯器裡的深度整合，這裡有一個細節我踩過一次坑才注意到——它們共用同一份配置，在一個表面改了 config，另一個表面立刻生效，不用各配一遍 MCP，很細節的一件事，但挺省心的。

**Cloud Sandbox**：非同步執行的核心。長時任務、並行工作全掛雲端，不佔你本地資源，跑完進審查佇列。

**Web / ChatGPT 整合**：統一登入，所有表面共享 Skills、MCP 配置、AGENTS.md 記憶。

**模型底座**：這條時間線值得看一眼，因為一年裡迭代太密了：

2025 年 12 月 GPT-5.2-Codex → 2026 年 2 月 5 日 GPT-5.3-Codex → 2 月 12 日 GPT-5.3-Codex-Spark（純文字、低延遲小號版） → 3 月 5 日 GPT-5.4 for Codex。其中 Spark 那步我特別想提一嘴——它是 OpenAI 第一個跑在 Cerebras 硬體上的生產模型，比早期 Codex 快 15 倍，專門為即時互動編碼做的。這步棋的意義不是「更快了」，是「可以一邊聊一邊出程式碼了」。

把這五張臉看完，我的理解就一句話：Codex 把「模型」和「編排」分開了。

模型負責幹活，App/Cloud 負責排程。

學 Codex，我理解本質上是在學怎麼當一個管著好幾個 Agent 的專案經理。

---

## 二、插件化 + MCP + Skills——這三層才是真正的分水嶺

![本圖說明了如何透過 Plugins、Skills 與 MCP 三個層次，將 Codex 平台從單純的聊天框轉化為具備擴充能力的系統。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1886f22b701c648f.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖表標題：「拉開身位的，是這三層」，副標題為「讓 Codex 不只是一個聊天框的平台層」。

內容分為三個層次：
1. Plugins：把能力打包成可安裝、可分發的單元。
2. Skills：把重複勞動變成可復用工作流（核心是 SKILL.md）。
3. MCP：把外部世界接進來：GitHub、Figma、Sentry、Context7。

底部總結：「Skills 是創作格式，Plugins 是分發單元」。
右下角署名：AYi · @AYi_Alnotes</div></details>

光看模型能力，Codex 跟別家在同一個量級。

真正讓它跟傳統工具拉開差距的，是它長成了一個可擴充、可複用、可編排的平台層，由三層東西撐起來的。

**MCP：把外部世界接進來**

配置不複雜。每個 MCP 伺服器在設定檔裡一張 `[mcp_servers.<server-name>]` 表，支援兩種傳輸——本地 STDIO 程序，或者遠端 Streamable HTTP（走 HTTP 連遠端，可選 OAuth 和 bearer token 認證）。

CLI 一行加一個。比如接 Context7（免費開發者文件 MCP），跑這個就行：`codex mcp add context7 -- npx -y @upstash/context7-mcp`。設定檔預設 `~/.codex/config.toml`，想限定到某個專案用專案級的 `.codex/config.toml`——但只限受信任專案。

熱門的有 GitHub、Figma、Playwright、Context7、Sentry 這些。

有一點我想強調，官方隱含了一個最佳實踐：高頻痛點優先接，別把線全布上。MCP 接得越多，上下文消耗越大，風險面也越寬。夠用就行，別貪。

**Skills：把重複勞動變成能複用的東西**

一個 skill 就是把指令、資源和可選腳本打包，讓 Codex 可靠地跑一個工作流。Skills 基於開放的 Agent skills 標準。

本質就是一個目錄，核心文件是 `SKILL.md`。可以加 `agents/openai.yaml` 配 UI 元資料、呼叫策略、工具依賴。

Skill 和 AGENTS.md 的分工，官方說得很清楚，這條特別值得記：每次對話都要發給模型的指令，放 `AGENTS.md`；只在特定操作時才需要的指令，放 `SKILL.md`。這個分離能讓上下文更聚焦。

**Plugins：把上面這些打包成一個能分發的包**

今年新出的一層，Codex plugins 是可複用的包，把 skills、app 連接器和 MCP 伺服器捆成一個可安裝單元。

官方的思路是這樣：Skills 是創作格式，Plugins 是安裝分發單元。你先用 skill 設計工作流，穩定後，再打包成 plugin 給別人裝。

Codex CLI v0.117.0（2026 年 3 月 26 日）把 plugins 提成了一等工作流原語，首發了 20 多個一方整合：Slack、Figma、Notion、Gmail、Google Drive、Cloudflare 等。注意是 20+，不是網路上傳的 90+——別被誇大的數字帶偏了。

這三層疊起來，才是 Codex 區別於「一個聊天框」的本質：你能把團隊的最佳實踐固化成標準，一鍵分給所有人。

---

## 三、為什麼我說它是目前最強執行引擎——但也別神化

![本圖表橫向評測了 Codex、Claude Code、Cursor 與 Devin 四款 Agent 工具，指出在執行環境、並行/異步、集成生態、監督/審查及最佳場景等維度下，最關鍵的競爭力在於「實幹」與「並行調度」能力，其中 Codex 在多 Agent 並行與生態集成上表現極強。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/7db62e00b78451e0.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Codex</th><th>Claude Code</th><th>Cursor</th><th>Devin</th></tr></thead><tbody><tr><td>執行環境</td><td>Cloud 沙箱+本地</td><td>主要本地/終端</td><td>IDE+背景雲agent</td><td>全 VM</td></tr><tr><td>並行 / 異步</td><td>極強(多Agent)</td><td>強(並行會話)</td><td>中等</td><td>強(自治)</td></tr><tr><td>集成生態</td><td>Plugins+MCP</td><td>MCP+Skills</td><td>IDE 擴展</td><td>較封閉</td></tr><tr><td>監督 / 審查</td><td>App審查隊列</td><td>強交互式</td><td>IDE 內</td><td>較弱</td></tr><tr><td>最佳場景</td><td>異步批量·長時委託</td><td>深度推理·重構</td><td>日常編碼</td><td>端到端</td></tr></tbody></table></details>

把 Codex 放到 Claude Code / Cursor / Devin 裡橫著看，它的優勢我概括成五個詞：雲端沙盒、非同步委託、並行速度、生產力工具整合、審查執行分離。

![本圖表比較了 Codex、Claude Code、Cursor 與 Devin 四款 AI 輔助編程工具在執行環境、並行/異步能力、集成生態、監督/審查機制及最佳應用場景等維度的差異，顯示各工具在不同應用場景下各有其獨特優勢。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/e8eeccbd722481ab.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Codex</th><th>Claude Code</th><th>Cursor</th><th>Devin</th></tr></thead><tbody><tr><td>執行環境</td><td>Cloud Sandbox + 本地</td><td>主要本地/終端</td><td>IDE + 背景雲 agent</td><td>全 VM</td></tr><tr><td>並行 / 異步</td><td>極強（多 Agent + Worktrees）</td><td>強（並行會話）</td><td>中等</td><td>強（自治）</td></tr><tr><td>集成生態</td><td>Plugins + MCP（生產力工具鏈）</td><td>MCP + Skills</td><td>IDE 擴展</td><td>較封閉</td></tr><tr><td>監督 / 審查</td><td>App 審查隊列 + 即時 steer</td><td>強交互式</td><td>IDE 內</td><td>較弱</td></tr><tr><td>最佳場景</td><td>異步批量、長時委託、企業集成</td><td>深度推理、複雜重構</td><td>日常編碼、專案結構化</td><td>端到端火力全開</td></tr></tbody></table></details>

到這裡你可能覺得我要開始吹 Codex 全面碾壓了。

其實並不會，我得先潑點冷水，因為這篇不是業配，是乾貨。

Codex 還不是全面碾壓，幾件事得說清楚：

第一，**SWE-Bench Pro 上它只是微弱領先**

GPT-5.3-Codex 在 SWE-Bench Pro Public 上 56.8%，對比 5.2 的 56.4%——是守住了頂尖梯隊，不是階躍。真正大漲的是終端任務和電腦操作：新模型在 OSWorld-Verified 上幾乎翻倍，SWE-Bench Pro 和 Terminal-Bench 都刷了新高。OSWorld 上人類水平大約 72%，它跑到 64.7%，已經很接近人了。

第二，**對手沒閒著**

Anthropic 今年 3 月 24 日上了 macOS 桌面控制，OpenAI 三週後的 4 月 16 日才跟進。更值得注意的——4 月 14 日，OpenAI 發布前兩天，Anthropic 搶先發了重新設計的 Claude Code 桌面 app，帶並行會話和能透過 API 或 GitHub 事件觸發的自動化 Routines。Claude Code 在 Opus 4.6 beta 上那 100 萬 token 上下文視窗，在大型程式庫推理和多文件重構上是實打實的優勢。

所以我自己琢磨下來的判斷是：Codex 最強的不是「想」，是「幹」和「並行排程」。它是目前最強的執行與非同步編排引擎，但深度推理和超大上下文重構，Claude Code 仍有一手，最佳實踐其實是混著用的，這點我會放到系列後面專門寫一篇。

---

## 四、能直接抄的七條官方最佳實踐

這部分含金量最高，全部來自 OpenAI 官方 best practices，我挑出七條能立刻上手的。

![這張圖表列出了七項關於如何將 Codex 作為長期協作夥伴而非一次性工具的官方最佳實踐建議。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/409bb2225ed8f113.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片標題為「七條能直接抄的官方最佳實踐」，副標題為「把 Codex 當需要打磨的隊友，不是一次性助手」。內容包含七點建議：
1. Prompt 盯四件事：Goal · Context · Constraints · Done-when
2. 用 AGENTS.md 固化持久指令（支持層級覆蓋）
3. AGENTS.md 保持精簡（改變要重啟才生效）
4. 危險操作別靠 prompt，用 execpolicy + 沙箱鎖死
5. 永遠要求驗證：寫測試 · 跑 lint · 用 /review
6. 推理檔位默認 medium，最難時才 high/xhigh
7. 形成 Kaizen 閉環：Skill → Plugin → 回寫 AGENTS.md
底部註記：「用得久，你的 Codex 越懂你的項目」，以及署名「AYI · @AYI_Alnotes」。</div></details>

官方對 Codex 的定位有一句話，先記住：把 Codex 當成一個需要長期配置和打磨的隊友，不是一個一次性助手。

1. **Prompt 結構盯住四個東西**：
   Goal（目標）+ Context（上下文）+ Constraints（約束）+ Done-when（完成標準）。複雜任務先開 plan mode。

2. **用 AGENTS.md 固化「持久指令」**
   官方的思路很清楚：從正確的任務上下文開始，用 `AGENTS.md` 做持久指引，配 Codex 匹配你的工作流，MCP 連外部系統，重複工作變 skills，穩定工作流自動化。支援層級覆蓋——全域放 `~/.codex/AGENTS.md`，專案從根目錄開始，越靠近當前目錄優先級越高。

3. **AGENTS.md 保持精簡**
   這是新手最容易踩的坑。Codex 會把整個 `AGENTS.md` 載入進會話上下文，多餘資訊既浪費 token，又干擾結果。還有個反直覺的點：運行中改了 `AGENTS.md`，要重啟或開新會話才會生效。

4. **別迷信自然語言約束**
   官方自己也很坦誠：這是自然語言，模型很擅長理解你的要求，但不保證一定遵守。要更硬的控制，用 `config.toml`、rules、sandboxing 和審批設定。社群實測也印證了——光靠 `AGENTS.md` 指令遵守率只有 25-40%，做成運行時 hook 強制執行能到 95%。真正危險的操作——生產部署、刪庫、改憑證——別指望 prompt，用 execpolicy 和沙盒權限從根上鎖死。

5. **永遠要求驗證**
   讓它寫測試、跑 lint、用 `/review`。官方提了一個團隊級的好模式：如果你和團隊有 `code_review.md` 文件，在 `AGENTS.md` 裡引用它，Codex 審查時也能照著那套指引走。

6. **推理檔位別無腦拉滿**
   官方推薦 medium 作為平衡智慧和速度的全能檔。Codex 能自主工作數小時搞最難的任務，最難的時候才用 high 或 xhigh。無腦拉滿只會更慢更貴。

7. **形成閉環**
   把重複工作做成 Skill，穩定後打包成 Plugin 分發，事後復盤回寫 `AGENTS.md`。這是一個 Kaizen 閉環——用得越久，你的 Codex 越懂你的專案。

---

## 寫在最後

最近玩下來，我自己的感受是：2026 年的 Codex，最大的價值不是它又刷了幾個 benchmark，是它真的把 Agentic 程式開發從單點工具變成了可編排的平台層——雲原生並行 + 插件化擴充 + 統一多表面 + 企業級整合。

我覺得它倒不是來取代 Claude Code 或 Cursor 的，

更準的說法是，它成了目前最強的執行與非同步編排引擎。

Claude 的推理深度、Cursor 的 IDE 體驗、Codex 的並行執行，三個其實是互補的。

但平台再強，也得你會用是吧，

所以這個系列接下來一篇一篇拆——下一篇從 `AGENTS.md` 開始，把「怎麼寫一個不浪費 token 又真能管住 Agent 的指令文件」講透。

這一篇先到這，有具體想先看哪塊——MCP 實戰配置、Skills 撰寫、多 Agent 編排、還是混合堆疊怎麼搭——評論告訴我，我調後面順序。

## 標籤

Codex, LLM, 教學資源, 產業趨勢, OpenAI, GPT, Codex
	Codex	Claude Code	Cursor	Devin
執行環境	Cloud 沙箱+本地	主要本地/終端	IDE+背景雲agent	全 VM
並行 / 異步	極強(多Agent)	強(並行會話)	中等	強(自治)
集成生態	Plugins+MCP	MCP+Skills	IDE 擴展	較封閉
監督 / 審查	App審查隊列	強交互式	IDE 內	較弱
最佳場景	異步批量·長時委託	深度推理·重構	日常編碼	端到端
	Codex	Claude Code	Cursor	Devin
執行環境	Cloud Sandbox + 本地	主要本地/終端	IDE + 背景雲 agent	全 VM
並行 / 異步	極強（多 Agent + Worktrees）	強（並行會話）	中等	強（自治）
集成生態	Plugins + MCP（生產力工具鏈）	MCP + Skills	IDE 擴展	較封閉
監督 / 審查	App 審查隊列 + 即時 steer	強交互式	IDE 內	較弱
最佳場景	異步批量、長時委託、企業集成	深度推理、複雜重構	日常編碼、專案結構化	端到端火力全開