← 返回首頁

OpenAI 的 GPT-image2 能帶來一波把帳號養起來的熱潮嗎?

𝟡𝟜 𝚅̷𝙰̷𝙽̷ ᴾᴸᴬʸᶠᴼᴿᴳᴱ
𝟡𝟜 𝚅̷𝙰̷𝙽̷ ᴾᴸᴬʸᶠᴼᴿᴳᴱ
@94vanAI
197🔁 13
𝕏 (Twitter)🔥

OpenAI 的 GPT-image2 能帶來一波把帳號養起來的熱潮嗎?

全網都在吹捧 OpenAI 的新生圖模型 GPT-Image2,但我得潑盆冷水:它來得太遲了!🤷‍♂️ 首先,我不會誇張地說 OpenAI 的新生圖模型(競技場代號:duct-tape)有多麼多麼牛、屌爆了等等謬讚的詞……

我想說的是 GPT-image2 的進步是晚到的「驚蟄之雷」,來得遲了。
但這並不意味著 Image2 不值一提。恰恰相反,在深度測試了一些場景人物生圖提示詞後,我發現它真正恐怖的殺手鐧根本不是畫質。

也許它是一個瞬間瓦解 Gemini 🍌 霸權的遊戲規則改變者。

那為什麼說它是遲來的驚蟄之雷呢?

且聽我淺聊幾個點:


1. 為什麼說靠寫「神仙提示詞」瘋狂漲粉變現的紅利期過了呢?

因為靠寫「神仙提示詞」瘋狂漲粉變現的紅利期,早被 Gemini 的 Nano Banana Pro 吃乾抹淨了,加上 Seedance 2.0。最適當入場的時機就是 3 月。

現在還想靠搬運提示詞入局把帳號養起來?我勸你三思。

主要還是它先前的造勢前搖太久,它真正的對手有且只有 Gemini,過往 Nano Banana 的提示詞很多都是在 ChatGPT 時代過繼而來的。

作為初代 AI 線上生圖大模型,它的素材在最開始就是以優質破圈,但是 25 年 11 月開始,基本上所有的複利都被 Nano Banana Pro 吃得乾乾淨淨,比如許多人靠著 Nano Banana 寫生圖提示詞把帳號養起來進軍 AIGC,這裡就包括了我自己。

試想一下,現在熱度下來了,是因為模型不行,還是內容重複度過多導致的呢?

我想大概是後者吧~
所以認真想一下,ChatGPT 的 Image2 模型想要達到 Nano Banana 那樣的熱度,是不可能的了。出手就應該在 Nano Banana Pro 最火的時候競爭才是正確的,現在嘛,遲了(我說的是想透過寫 AIGC 提示詞把帳號養起來的玩家,為時已晚,勸入圈的朋友三思)。


2. 母語級的中文理解力

它完美接住了中文區的需求,不僅漢字生成錯誤率不易察覺,連人像都擺脫了以往模型的「塑料審美疲勞」。我想不用我過多闡述,一個 AI 大模型好不好,就看它的中文品質,文本方面依舊是 GPT 的強項。
但是在 Image2 出來之前,Gemini 的 Nano Banana Pro 在中文板塊依舊吃痛,表現不夠優良,許多生圖情況下依舊是亂碼,中文漢字一多它就「接不住」。恰好 Image2 在中文上對得起它優秀的中文素材庫,接住了中文區。

僅是中文區,單是漢字能力提升就可以了嗎?人像一樣重要,很多人已經放過類似於下面圖片的直播截圖:

看完圖後是不是覺得 GPT 的新模型很懂你呢?一句簡單的:

「生成一張女主播抖音截圖」提示詞就能給你意外之喜?(也可以說是超乎了自己的預期)。看多了也會審美疲勞(網紅感看什麼不是看呢?😂 當時玩 Uni-1 一樣的感覺)。

本身國產模型在這一塊就是簡單的關鍵詞拼湊生產人像,效果也很驚人;但 Image2 又更像是優化了國產模型(泛指豆包 Seedream)和 Gemini 的相容款,文字方面表現優於其他兩個,顯得更加真實。可能還有一個原因就是 Gemini 的人像讓人審美疲勞。

模型令人驚豔的原因往往是另一個模型(Gemini)困擾使用者許久的痛點被新模型打掉。所以就有了下面的第三點。


3. 模型可控性

一個大模型能夠聽話、聽懂的程度,以及它不再需要繁雜和臭長的提示詞來生圖,是判斷這個模型好不好的重點。我個人認為這才是 Image 2 這次的重點,我做了一組生圖對照;
同樣提示詞,GPT-image2 比 Nano Banana 2/Pro 更聽話。

提示詞:📝 第一人稱仰拍自拍視角,一個 20 歲中國頂級男 cos,五官精緻、妝造 1:1 還原漩渦鳴人(博人傳中當上七代目火影後的寸頭短髮鳴人)真人 cos,左手(纏滿繃帶的手包括手指和手臂)舉透明玻璃瓶仰頭喝伏特加,前景右側手做轉筆/夾筆動作,手持白色 Apple Pencil 電容筆特寫,手部細節清晰,居家室內書桌場景,藍白花紋桌布,背景黑色平板顯示粉色動漫壁紙,環境虛化,動態模糊運動拖影,遊戲 cg 風格,極具藝術感,震撼人心,色彩豐富,暗部疊加,特寫鏡頭,超高清。大量毛筆字碑帖飛濺,飛舞的紙片、前景紙片虛化,動態模糊,背景動態虛化,陽光燦爛,光影交錯,仰拍特寫鏡頭,突出速度感與視覺衝擊力,強透視。原比例模擬手機前置手持拍攝的真實感,暖調柔和自然光,低飽和復古膠片色調,真實人像皮膚質感,發絲清晰,衣物紋理自然,玻璃反光真實,4K 8K 超高清,大光圈虛化,鬆弛感日常隨拍,氛圍感,電影感抓拍,生活感,不擺拍,隨性自然。

提示詞中的重點是什麼呢?

提示詞:📝 第一人稱仰拍自拍視角,一個 20 歲中國頂級混血帥哥男 cos,五官精緻、妝造 1:1 還原漩渦鳴人(博人傳中當上七代目火影後的寸頭短髮鳴人)真人 cos,左手(纏滿繃帶的手包括手指和手臂)舉透明玻璃瓶仰頭喝伏特加,前景右手做轉筆/夾筆動作,手持白色 Apple Pencil 電容筆特寫,手部細節清晰,居家室內書桌場景,藍白花紋桌布,背景黑色平板顯示粉色動漫壁紙,環境虛化,動態模糊運動拖影,遊戲 cg 風格,極具藝術感,震撼人心,色彩豐富,暗部疊加,特寫鏡頭,超高清。大量毛筆字碑帖飛濺,飛舞的紙片、前景紙片虛化,動態模糊,背景動態虛化,陽光燦爛,光影交錯,仰拍特寫鏡頭,突出速度感與視覺衝擊力,強透視。原比例模擬手機前置手持拍攝的真實感,暖調柔和自然光,低飽和復古膠片色調,真實人像皮膚質感,發絲清晰,衣物紋理自然,玻璃反光真實,4K 8K 超高清,大光圈虛化,鬆弛感日常隨拍,氛圍感,電影感抓拍,生活感,不擺拍,隨性自然.

重點是提示詞「動態模糊運動拖影」與「(纏滿繃帶的手包括手指和手臂)」這兩個關鍵資訊,特別是後者重點關鍵資訊,看過這個動漫的都知道主角的手部纏滿繃帶細節。

為全然纏繃帶的,我寫得詳盡就是怕模型不能理解。

目前看,GPT-image2 他做到了滿分💯(相對於其他所有文生圖模型,單這一點足以證明比 Gemini 的控制細節能力強),得益於 OpenAI 豐富的素材庫並且素材庫資訊準確,所以生圖和原著能契合上,Gemini 有種胡編亂猜的感覺。現在輪到 Gemini 任重而道遠。
是因為指令正確還是因為模型素材庫密集程度關係?目前來看,對於中文指令把控毋庸置疑,👍讚的!它很懂我。

看懂了嗎?當 AI 徹底聽懂人話、不再需要又臭又長的廢話提示詞時,意味著「提示詞壁壘」已經徹底崩塌。

未來的 AIGC 下半場,拼的不再是魔法咒語,而是你大腦裡的構圖、創意和審美!工具的迭代只會越來越懂你,但創作者的內卷才剛剛開始。你,準備好拼腦洞了嗎?👇

個人認為準備研究國風可以一試,華流才是最屌的。

說膠片就是膠片,是我想要的那個膠片味道。

簡簡單單的一句話提示詞,不再需要過多定語句於實等複雜關鍵詞內容,是大模型未來的方向。

新的審美步梯需要源源不斷的更替迭代。就和大眾熟知的 Agent 或者一個一個的龍蝦、愛馬仕等。需要的就是不斷迭代更新,不會止步不前。

還沒有 ChatGPT 會員的朋友,需要測試可以去下面連結的競技場(Battle Mode):

抽卡:https://arena.ai/

duct-tape-1/2/3 這三個均是 GPT-image2 的生圖模型。