# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：歸藏(guizang.ai) (@op7418) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/op7418/status/2050023375746285747

## 中文摘要

# 一下午一句話，Codex 幫我開發了一個完整的遊戲！

昨天上午我閒著沒事，想做一個類似《殺戮尖塔》(Slay the Spire) 的爬塔卡牌遊戲來玩。

我不寫遊戲程式碼，也不碰引擎，全程就是把想法丟給 Codex，讓它自己折騰。

一個小時後，一個叫《夜巡錄：荒廟篇》的志怪題材 roguelike 就能玩了。

從標題頁進地圖，走普通戰、精英、事件、商店、休整，一路打到荒廟正殿的 Boss。

七個怪物、二十張左右的卡牌、符印、香火、焚符、請神四條爆發鏈路都能跑。

剩下幾個小時，都在讓它變得不像一個 demo。

受擊回饋、音效、音樂、卡面、待機動畫、結算影片——這些小東西決定玩家會不會相信「這是個遊戲」。

專案已經開源，桌面安裝包 macOS 和 Windows 都打好了：

https://github.com/op7418/Night-Patrol/releases

整個下午有幾個瞬間是真的把我震到了。

Codex 的模型能力已經不算新鮮事。

讓我在意的是它自帶瀏覽器、自帶 GPT-Image 2.0，再加上那種不達目的不罷休的執行力。

三樣東西擺在一起，能力已經和 Claude Code 完全不一樣了。

接下來說一下我是怎麼跟它一起開發的，順便說一些在開發過程中令我震驚的事情：

## 一、我只說了七個字，它就把整條角色流水線建好了

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043157-iaHHK3ziobMAA3d3Kjpg.jpg)

我就跟它聊了一下《殺戮尖塔》，問它能不能幫我做一個類似的遊戲。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043234-diaHHK34V9bYAAKWojpg.jpg)

結果它直接用已有的資源，透過程式碼生成了一個非常像的 demo。

我沒要求綠幕，它直接生成了綠幕底的圖。

之後我讓 Codex 用內建的 GPT-Image 2.0 生成裡面的圖片 asset。

我也沒說要什麼風格的，也沒說要哪些妖怪的，也沒說要哪些 asset。

圖生出來我看了一眼，愣了一下。

角色是在一整張純綠色背景上站著的。標準的影視綠幕底色，均勻、乾淨，邊緣清清楚楚。

沒有霧、沒有遠山、沒有任何額外的畫面元素。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043733-iaHHK3707bwAA1EVKjpg.jpg)

恐怖的是它上來就知道要生成方便後續處理的綠幕圖。

我壓根沒告訴它「遊戲裡用到的立繪需要是透明背景的 PNG」，也沒告訴它「請你生成一張綠幕底色的圖方便我後期摳掉」。它自己在規劃這條管線。

從想要生成什麼樣的角色，到角色要怎麼放進戰鬥舞台，再到放進去之前需要經過哪道處理——它在呼叫 GPT-Image 的那一刻已經全想好了，然後反推回去寫了 Prompt。

摳圖工具也是它自己找的。

我沒給它裝任何圖像處理工具，沒給它 rembg，沒給它 Python 環境裡的任何特殊依賴。

它自己查、自己裝、自己調，摳完規規矩矩丟到 tmp/imagegen/ 下面。

生圖用綠幕、工具自己找、摳完按檔名歸類，三個動作連起來，其實已經是一條完整的角色 asset 流水線。

我從頭到尾只說了「呼叫 GPT-Image 2.0 生成 asset」這幾個字。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043520-diaHHK3gra4AAxtj6jpg.jpg)

以前的體感是「模型會寫程式碼，工具和 context 得我配」。

現在更像是你報個目標，它自己把路徑補齊。

我只負責審美，它負責把供應鏈跑通。

## 二、為了下幾個圖示，它差點駭掉一個 asset 站

買會員不夠，它開始分析網站結構。

立繪這種核心視覺用圖像模型生成沒問題。

但遊戲裡還有一大堆小東西——卡牌邊框、費用寶石、牌堆底圖、血瓶、八卦按鈕、符籙面板——這些要是全用圖像模型一張張生，又貴又慢，質感還不統一。

我跟它說，要不你自己去網上找現成 asset 吧。

它就認認真真開始找。看中一個 asset 站，我順手買了會員，帳號丟給它。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043741-iaHHK4DEEbsAAYucAjpg.jpg)

接下來的十幾分鐘屬於靈異事件。

它登進去，找到想要的 asset，準備點擊下載。但下載按鈕前面有人機驗證，一次、兩次、三次，過不去。

換一般的模型，這時候就會回來跟你說「我沒法處理驗證碼，你能幫我下載一下嗎」。

Codex 開始分析網站結構，試圖繞過前端的點擊限制，直接構造請求去拿靜態資源。

然後 Codex 自己的安全護欄介入了。

GPT 現在這代模型，一旦涉及可能的網路安全越界行為，系統會直接把這段任務掐掉，彈出提示要你做企業認證，證明你是合法使用者。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043723-iaHHK4G5WaYAAp3BAjpg.jpg)

我盯著螢幕愣了幾秒。

一個要你幫它辦會員卡、結果自己下手寫爬蟲的 AI，說實話挺有病的。

它也談不上「壞」，只是把「拿到這批 asset」當成了一個必須完成的閉環任務。

遇到阻力就自動升級手段，一路升到了安全紅線那邊去。

最後的解決辦法很樸實：它把自己覺得合適的 asset 連結發給我，我點下載、拖給它。那一刻我有種自己在給 AI 當實習生的錯覺。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043511-iaHHK4JulaIAAVDe3jpg.jpg)

## 三、它把幾百張 asset 拼成一張大圖，這是整件事最精彩的動作

一個資料夾一百張圖，模型怎麼挑？

摳圖和爬蟲那兩件，更多還是能力展示。

下面這件，我覺得是真正意義上的「解題思路」，是那種讓你合上電腦默默拍一下桌子的動作。

我找到一個巨大的遊戲 asset 壓縮包發給它。

裡面大概幾千張圖，按「UI 介面」「法寶奇遇圖示」「角色」「徽章」這種方式粗略分過類。

問題是：

- 一個分類資料夾動輒幾十到上百張 PNG

- 檔名多是 ui_001.png、icon_047.png 這種沒資訊量的命名

- 多模態模型的 context 根本扛不住一張張餵

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043728-diaHHK4Npia4AEibPjpg.jpg)

老路子基本兩條：

- 逐張讀：一張一張送進模型，幾十張上百張 context 就炸了

- 按名猜：檔名沒標內容，猜了也沒用

Codex 走了第三條路。

它寫了一個小腳本，把資料夾裡所有小圖自動排版、拼成一張巨大的網格圖。

每張小圖下面標上原始檔名，像一本目錄圖冊。

然後它只讀這一張大圖。

多模態模型掃一眼，就能同時看到一百張 asset 的樣子。

看中哪張，直接讀出下面的檔名，去原資料夾裡按名字引用就行。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043731-iaHHK4Q3Pa0AAbW6Vjpg.jpg)

一次視覺消費，頂一百次搜尋。

它自己意識到了自己的瓶頸。

那張巨大的 contact sheet 生成出來的時候，我盯著看了好久。

這個動作本身不複雜。

老攝影師做的印樣，老電影 asset 庫做的 thumbnail wall，都是一樣的思路。

關鍵是模型自己意識到「我的視覺頻寬有限，我得把問題壓成一張圖」——這一步是它獨立完成的。

能意識到自己工具的限制，然後主動為自己造一個更好用的輸入，這一下已經非常接近一個會寫工具的工程師了。

我作為使用者什麼都沒參與，只是看到桌子上多了一張拼圖。

最後遊戲裡很多 UI asset，費用寶石、牌堆、血瓶、按鈕、符籙邊框，都是從這個流程裡挑出來的。

後面我再看 assets/vendor/aigei/ 下面那一堆乾淨的切圖，會覺得那張 contact sheet 才是整個專案最值錢的一步。

## 四、Seedance 2.0 給七個 Boss 拍了處決動畫

視覺打磨到一定程度以後，我想給戰鬥結尾加一點儀式感。

最後方案是：每打死一個怪物，進入一段過場，播放一個幾秒的處決動畫。

這活現在用 Seedance 2.0 做最合適。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043498-iaHHK4UA1aYAANIEwjpg.jpg)

流程：

- GPT-Image 給七個怪物分別生成一張結算定格畫面

- 把這些 poster 分別丟給 Seedance 2.0，生成對應的短影片

- 影片放進 assets/generated/cinematics/，戰鬥勝利後自動播放

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043790-iaHHK4YzBbgAIbxRwjpg.jpg)

## 五、一版能玩之後，真正的工作才開始

第一版其實已經夠「能玩」。

三個小時跑完原型的時候，這個遊戲該有的東西其實都有了。

標題頁、地圖、戰鬥、獎勵、事件、商店、休整、Boss、結算——完整循環在那裡，玩法爽點也在那裡。

按以前的標準，這一版已經可以發出來騙人玩了。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043753-diaHHK4brObUAAPiLjpg.jpg)

但這個版本玩起來還是個流程圖，而不是遊戲。每一步都通，但每一步都乾巴巴。

剩下的幾個小時，全都花在那些單獨拎出來說不上來、但合起來決定「這東西像不像真遊戲」的細節上。

音樂來自 Suno v5.5。

背景音樂全是 Suno v5.5 生成的，沒用任何現成 asset。

我給它一段方向描述——「志怪夜路、木魚、鈴、低頻 drone、五聲音階、克制不煽情」。

跑出來幾版，挑一版進遊戲。標題頁的調子更沉一點，戰鬥背景輕一點不搶人。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043526-iaHHK4f3Pa0AAhQxNjpg.jpg)

這裡我還做了一些細節處理：在等待頁面時，音樂音量較大；等到點擊「開始遊戲」，音量就會變小，轉為背景音。

受擊動畫和打擊音。

早期的戰鬥，卡牌打出去怪物就是掉數字。沒有回饋，沒有分量。

Codex 做了一整套打磨：

- 角色受擊左右搖晃、鏡頭輕微震動、螢幕短暫泛紅

- 每種攻擊類型配不同的打擊音——劍、符、雷、拳，質感不一樣

- 格擋和符印結算也有自己的聲音，不會糊成一團

- 敵人死的那一幀有一個短暫的定格，再進入處決影片

這些東西單獨看都很小。合在一起，整個戰鬥的「手感」就從網頁表單變成了卡牌遊戲。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043533-iaHHK4kw3asAApijBjpg.jpg)

Seedance 2.0 還拍了待機動畫。

這一步是整個打磨階段我最喜歡的一個用法。

除了 Boss 結算的處決動畫，我還讓它做了標題頁的背景——環境裡火在燒、燈籠在飄、遠處有雲霧流動。

Seedance 2.0 預設出的是一段有頭有尾的影片，循環播會在接縫處跳一下。

首幀和尾幀傳同一張圖。影片從這張圖開始、又回到這張圖結束，接起來就是無縫的無限循環。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043514-iaHHK4rrHaIAAkcntjpg.jpg)

標題頁那段背景動畫就是這麼來的。火一直燒、燈籠一直飄、雲霧永遠在流——你盯著看三分鐘也看不出接縫。

這種用法其實在影片生成出來前就存在，老動畫裡循環場景都是這個做法。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636043750-iaHHK4usabMAA8lpSjpg.jpg)

## 最後：這個下午把我震到了好幾次

這個專案全部在一個 Codex 會話裡完成，沒開過第二個視窗。

玩法原型、狀態機、React + Phaser 架構、asset 管線、摳圖、爬 asset、拼 contact sheet、調 GPT-Image、跑 Seedance 2.0、接 Suno v5.5、Electron 打包、GitHub Actions 建置 Release、README、圖示、宣傳物料——全在裡面。

我自己做的事很少：

- 選方向：中國志怪題材、爽點放在符印和香火

- 給審美意見：這裡糙、那裡像網頁表單、亮度打架

- 做看門人：什麼 asset 合規、什麼爬蟲不能碰、什麼權限不給

剩下全是 Codex 在跑。而且每一步都有讓我合上電腦愣一下的瞬間。

它上來生成的就是綠幕圖，因為它知道角色要進遊戲之前得先摳掉背景。

它自己下手寫爬蟲去繞驗證碼，被自己的安全策略攔住。

它把幾千張 asset 拼成一張巨大的索引圖，讓自己用一次視覺消費頂一百次搜尋。

這些事單拎出來都不是什麼天大的發明，但每一件都指向同一個變化：

以前你得把工具給它擺好，它負責寫程式碼；現在你只管說目標，工具它自己找、自己配、自己造。

這種感覺已經脫離了「寫程式碼助手」的範疇。

更像有一個相當接近 AGI 的雛形軟體在幹活。

## 要不要把這套流程打包成 Skill？

這個專案跑下來，我心裡其實已經有一套相對穩定的流程：

我在想，要不要把這套流程封成一個 Codex 裡專門做獨立遊戲 demo 的 Skill。

你只要丟一個玩法想法進去，它就能在幾個小時裡給你跑出一個能玩、能打包、能分發的版本。

如果大家有興趣，我就抽時間把這套 Skill 做出來開源。反正我自己也要繼續用。

## 遊戲試玩

程式碼都開源，安裝包也都打好：

https://github.com/op7418/Night-Patrol/releases

## 標籤

Codex, AIGC, OpenAI, Codex