# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Contra Labs (@contralabs_ai) · 平台：X (Twitter) · 日期：2026-06-18

> 原始來源：https://x.com/contralabs_ai/status/2067642363909144932

## 中文摘要

# 介紹 Design Crit：我們教會 AI 像設計師一樣評斷設計

大家總是在談論「品味」，但如果你無法衡量它，就無法改善它。因此，我們對其進行了量化。Design Crit 是一個包含十位專業設計師的資料集，他們針對四款前沿影像模型在九個維度的真實設計作品進行了排名。這些模型已經能產出設計作品，但市面上卻沒有任何工具能可靠地評斷這些作品。好消息是，它們所缺失的判斷力是可以透過學習獲得的。

文字轉影像（Text-to-image）模型已從研究演示演變為實際部署的設計工具，直接將海報、社群貼文、UI 模型和 Logo 投入生產。然而，用於訓練和評分這些模型的偏好資料，大多是基於攝影風格或場景生成的，在這種情況下，單一的「哪一個比較好？」判斷幾乎涵蓋了所有重點，例如清晰度和與 Prompt 的對齊程度。

然而，設計師並不會僅憑單一特徵來評斷設計，設計的優劣也不會簡化為單一軸向。一個平面設計可能在空間結構上表現完美，卻毀了色彩意圖；另一個可能滿足了需求說明，卻破壞了排版層級。兩者可能因為完全不同的原因獲得相同的總體好評。設計師真正使用的評判訊號，隱藏在單一標籤所平均掉的那些維度之中。

因此，我們建立了這個缺失的層級。Design Crit (Criteria-Resolved Image Taste，標準解析影像品味) 是一個由設計師標註的 AI 生成平面設計偏好資料集。它針對每個設計品質標準記錄一項評分，而不是對每張影像給出單一結論。這讓系統能同時在每個軸向上為設計評分，做出比單一標籤更精確的判斷，並隨時間學習如何像設計師一樣權衡這些軸向。

## 10 位設計師，4 款模型，9 種出錯方式

我們讓四款當前的文字轉影像模型進行正面對決：@bfl_ai 的 FLUX.2 max、@OpenAI 的 @ChatGPTapp Image 1.5、@GoogleDeepMind 的 @GeminiApp Nano Banana 2，以及 @BytePlusGlobal 的 Seedream 5.0 Lite。所有模型在評分者面前都以盲測代號顯示，確保沒人會因為品牌而產生錨定效應。

透過 @contra 的創意專家網路招募了十位專業設計師，分為兩組，每組五人。一組負責評斷「美學」，涵蓋總體偏好、氛圍與語調、視覺層級、色彩和諧度以及排版工藝；另一組負責評斷「描述忠實度」，涵蓋總體偏好、色彩準確度、空間準確度，以及需求說明中要求的文字是否確實被渲染出來。

![本圖展示了 Contra Labs 與 Lica 合作的 Design Crit 項目（發表於 arXiv 的 "TASTE"），對比 NANO BANANA 2、FLUX.2 MAX 、GPT IMAGE 1.5 及 SEEDREAM 5.0 LITE 四種模型在網頁排版與設計生成上的視覺表現，並列出基於 1,600 次評分的各項評估指標。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/617722922cf7f7a4.jpg)

<details class="chart-data"><summary>展開數據表（1）評測模型</summary><table><tbody><tr><td>NANO BANANA 2 · FLUX.2 · GPT IMAGE 1.5 · SEEDREAM 5.0 LITE</td></tr></tbody></table></details><details class="chart-data"><summary>展開數據表（2）評測數據</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>每個標準 1,600 次評分 (1,600 ratings per criterion)</td><td></td></tr></tbody></table></details><details class="chart-data"><summary>展開數據表（3）評估指標組 A</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>mood and tone match, visual hierarchy, color harmony, typography</td><td></td></tr></tbody></table></details><details class="chart-data"><summary>展開數據表（4）評估指標組 B</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>color accuracy, spatial accuracy, typography, hallucination</td><td></td></tr></tbody></table></details>

我們透過試驗研究和訪談，從更長的清單中篩選出這九項標準，並以 Contra Labs 的「人類創造力基準」（Human Creativity Benchmark）為基礎，保留了設計師一致認為應分開看待的軸向。

九項標準，每項 80 個 Prompt，每個 Prompt 由五位設計師針對四款模型進行評分，每個標準共計 1,600 次評分。設計師針對每個 Prompt 執行了所有六種兩兩比較，我們將其匯總為嚴格的四方排名。在兩項總體偏好追蹤中，他們還標記了每張影像是否存在幻覺（hallucination）。

這些評分來自於業界專業人士，它們填補了目前訓練這些模型的人員一直以來盲目摸索的部分。

## 設計是主觀的，但卻是真實且一致的

一個合理的問題是：設計師是否意見不合，導致沒有訊號可供學習？我們直接對此進行了測試，檢查設計師的一致性是否超過隨機評分者，並對照精確的虛無假設分佈。

事實證明他們是有共識的。設計師對「好設計」的共識程度，大約與人們對「最愛電影」的共識相當，雖然低於大眾對「哪張照片更清晰」的共識，但他們產生分歧的方式是健康的。他們對「好」有大致相同的認知，並在此基礎上帶有個人差異。並沒有所謂品味截然相反的敵對陣營，這正是模型可以學習的模式。

![評估 AI 視覺設計的評分者間一致性（+0.13 至 +0.20）介於食物偏好（+0.13）與電影偏好（+0.20）之間，處於主觀與客觀光譜的中間地帶。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/96876226f0758770.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>Random raters</td><td>0.00</td></tr><tr><td>Sushi / food preference</td><td>+0.13</td></tr><tr><td>AI graphic design (CRIT)</td><td>+0.13 至 +0.20</td></tr><tr><td>Movie preference</td><td>+0.20</td></tr><tr><td>Photo image-quality</td><td>+0.27</td></tr></tbody></table></details>

但這種共識在各個維度上並不均勻。我們測量了設計師在每個標準上達成相同結論的頻率，發現差距很大。那些可以對照需求說明進行檢查的軸向（如要求的文字是否渲染、版面是否正確、顏色是否符合要求）共識度最高；而那些純粹取決於「感覺」的軸向共識度最低，其中「色彩和諧度」墊底。

最明顯的解讀來自於配對比較。設計師對於「正確文字是否渲染」的共識，遠高於「排版是否優良」；對於「要求的顏色是否出現」的共識，也高於「顏色搭配是否協調」。每次對比同一主題，可檢查的版本共識度高，感性版本共識度低。訊號在每個軸向上都是真實存在的，只是當判斷越依賴品味時，雜訊就越多。

![圖表顯示在不同評估標準下設計師雙人組之間的一致性（以平均 Kendall tau 值衡量），其中「Typography (Descriptions)」的一致性最高（0.224），而「Color Harmony」的一致性最低（0.103）。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/68e238ca2d0fd1e9.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>類型</th><th>分數</th></tr></thead><tbody><tr><td>Typography (Descriptions)</td><td>Checkable / fidelity</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.224</span></td></tr><tr><td>Spatial Accuracy</td><td>Checkable / fidelity</td><td class="rank-bar num bar-w-80"><span class="bar-val">0.182</span></td></tr><tr><td>Preference (Descriptions)</td><td>Checkable / fidelity</td><td class="rank-bar num bar-w-70"><span class="bar-val">0.163</span></td></tr><tr><td>UI+A Preference</td><td>Aesthetic / felt</td><td class="rank-bar num bar-w-70"><span class="bar-val">0.159</span></td></tr><tr><td>Mood and Tone Match</td><td>Aesthetic / felt</td><td class="rank-bar num bar-w-70"><span class="bar-val">0.147</span></td></tr><tr><td>Color Accuracy</td><td>Checkable / fidelity</td><td class="rank-bar num bar-w-60"><span class="bar-val">0.144</span></td></tr><tr><td>Visual Hierarchy</td><td>Aesthetic / felt</td><td class="rank-bar num bar-w-60"><span class="bar-val">0.128</span></td></tr><tr><td>Typography (Aesthetics)</td><td>Aesthetic / felt</td><td class="rank-bar num bar-w-50"><span class="bar-val">0.119</span></td></tr><tr><td>Color Harmony</td><td>Aesthetic / felt</td><td class="rank-bar num bar-w-50"><span class="bar-val">0.103</span></td></tr></tbody></table></details>

## 沒有現成的評審系統能勝過擲硬幣

所以訊號是真實的，問題在於市面上有沒有系統能讀懂它。我們以九個預訓練系統作為設計評審進行基準測試。其中三個是專門的偏好與美學評分器（HPSv2.1、PickScore-v1、LAION-Aesthetic-V2），另外六個是開放權重的視覺語言模型，並透過 Prompt 要求它們挑選較好的影像。

沒有一個系統能達到與五位設計師多數決一致性超過 55% 的水準。隨機機率是 50%。表現最好的系統 HPSv2.1 是在超過 64 萬次人類影像比較上訓練的，其一致性為 54.3%。LAION-Aesthetic-V2 的得分甚至低於隨機機率。人類設計師與專家小組的一致性為 74.1%。所有的機器評審都處於僅略高於擲硬幣的死亡地帶。

![AI 評判者與人類設計師的意見分歧率接近 50%，其中表現最好的模型 HPSv2.1 與設計師偏好的一致性僅為 0.543，與人類水準（約 0.74）仍有顯著差距。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/40098a1225e7a5b7.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>LAION-Aesthetic-V2</td><td class="rank-bar num bar-w-90"><span class="bar-val">0.499</span></td></tr><tr><td>Kimi-VL-A3B</td><td class="rank-bar num bar-w-90"><span class="bar-val">0.509</span></td></tr><tr><td>PickScore-v1</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.522</span></td></tr><tr><td>InternVL3.5-14B</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.525</span></td></tr><tr><td>Gemma-3-27B</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.528</span></td></tr><tr><td>Qwen3-VL-4B</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.530</span></td></tr><tr><td>Qwen3-VL-32B</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.536</span></td></tr><tr><td>Qwen3-VL-8B</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.539</span></td></tr><tr><td>HPSv2.1</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.543</span></td></tr></tbody></table></details>

## 你無法透過運算獲得品味

擴大模型規模並不能改善數據。Qwen3-VL 在 4B、8B 和 32B 參數下，一致性都落在 51% 到 54% 之間。原因在於一種權衡：較大的模型位置偏差較小，因此當你交換兩張影像的順序時，它們的選擇幾乎不會改變，它們在內部更具一致性。但這種一致性並不能帶來準確性。在它們做出的判斷中，大模型並沒有表現得更好，甚至稍微差一點。較小的模型更依賴位置，但它們做出的判斷反而更精確。模型越依賴位置，在不依賴位置時的判斷就越好（Spearman ρ = +0.94），因此這兩種效應相互抵銷，總體表現從未提升。瓶頸在於資料。

![即使模型參數規模擴大達 10 倍，各開源視覺語言模型在 TASTE 基準測試上的表現依然接近隨機猜測（介於 0.51 至 0.54 之間），顯示提升審美能力的瓶頸在於數據而非參數規模。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/01b2506cea319289.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>Kimi-VL-A3B (3B) = 0.509</td><td></td></tr><tr><td>Qwen3-VL-4B (4B) = 0.530</td><td></td></tr><tr><td>Qwen3-VL-8B (8B) = 0.539</td><td></td></tr><tr><td>InternVL3.5-14B (14B) = 0.525</td><td></td></tr><tr><td>Gemma-3-27B (27B) = 0.528</td><td></td></tr><tr><td>Qwen3-VL-32B (32B) = 0.536</td><td></td></tr><tr><td>基準線</td><td>mean 0.528 · coin flip 0.50</td></tr></tbody></table></details>

## 十分之一的設計會出現 Prompt 未要求的幻覺

讀懂設計並不是模型唯一會出錯的地方。在它們對設計進行排名時，同一批設計師對總體偏好追蹤中的每張影像進行了幻覺標記，意指那些偏離需求說明或與之無關的元素。在每組 1,600 個標記中，約 55% 為乾淨，35% 為輕微幻覺，10% 為嚴重幻覺。十分之一的成品設計帶有嚴重幻覺，即 Prompt 從未要求過的內容。這些是設計師一眼就能發現，但產出它們的模型卻無法察覺的失敗。

![在每組 1,600 次標記的 AI 設計中，有十分之一（10%）出現了提示詞未要求的重大幻覺，而無幻覺與輕微幻覺的比例分別為 55% 與 35%。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ed62a3617917377b.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Minor hallucination</th><th>No hallucination</th></tr></thead><tbody><tr><td>Major hallucination = 10% (160 flags)</td><td>35% (560 flags)</td><td>55% (880 flags)</td></tr></tbody></table></details>

## 使用正確資料訓練，差距將縮小一半

接下來是轉折點。我們在凍結的視覺語言編碼器之上，訓練了一個小型兩兩差異頭（pairwise-difference head），沒有對主幹進行微調，這是一個刻意設計的簡約模型，直接在 Design Crit 上進行訓練。

它達到了與設計師 0.611 的一致性。這縮小了擲硬幣（0.500）與人類天花板（0.741）之間約 46% 的總差距，這是我們測試中第一個突破標準正規化無法撼動的雜訊底線的配置。基準測試的教訓反過來驗證了：訊號一直都在，只是必須在正確的資料上進行訓練，而不是借用攝影偏好的資料。

![在設計評審任務中，經過評審訓練的模型（Trained on crit）得分達 0.611，成功縮短了現成 AI（0.543）與人類設計師（0.741）之間約 46% 的差距。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/69a20d8ff9872085.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>Human designer</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.741</span></td></tr><tr><td>Trained on crit</td><td class="rank-bar num bar-w-80"><span class="bar-val">0.611</span></td></tr><tr><td>Off-the-shelf AI</td><td class="rank-bar num bar-w-70"><span class="bar-val">0.543</span></td></tr><tr><td>Random</td><td class="rank-bar num bar-w-70"><span class="bar-val">0.500</span></td></tr></tbody></table></details>

## 在真正困難的判斷上，它已經能與人類並駕齊驅

大約一半的兩兩比較是 3-2 的分歧結果，即設計師本身意見幾乎均等，即使是完美的預測器也只能部分靠猜測。這些才是真正考驗判斷力的時刻。

在這些案例中，經過 Design Crit (Criteria-Resolved Image Taste) 訓練的模型得分為 0.602，而人類天花板為 0.600。當專家小組意見為三比二時，即使是單一設計師與多數決的一致性也只有五分之三，而模型現在已經達到了這個水準。在設計師認為容易的案例上，與人類的一致性差距仍然很大；但在他們認為最困難的案例上，差距幾乎縮小到零。

![在困難案例中，訓練後的模型得分為 0.602，與人類天花板的 0.600 表現基本持平（僅相差 0.002）。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/cf9bfa8c602766af.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>Trained model</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.602</span></td></tr><tr><td>Human ceiling</td><td class="rank-bar num bar-w-100"><span class="bar-val">0.600</span></td></tr><tr><td>coin flip (基準線)</td><td class="rank-bar num bar-w-80"><span class="bar-val">0.50</span></td></tr></tbody></table></details>

## 為什麼這很重要

Design Crit 讓你能夠為設計生成建立一個決策層。其標準層級的結構意味著你可以根據工作實際需求，在不同的生成器之間進行路由。為 Logo 選擇最強的排版模型，或為版面選擇空間準確度最高的模型，而不是盲目信任單一的聚合分數。相同的結構可以作為訓練偏好評審和獎勵模型的監督訊號，這些模型將針對特定的設計維度進行優化，而不是針對模糊的平均值。

核心結論很直白：AI 可以生成設計，但目前還無法可靠地分辨設計的好壞，僅靠擴大模型規模無法解決這個問題。令人充滿希望的發現是，「品味」這個缺失的訊號是真實存在的，並且可以從專家資料中學習。這正是 @contra 的網路旨在提供的層級。

我們的使命是透過創意人員，為創意人員打造更好的創意 AI。

---

Design Crit (Criteria-Resolved Image Taste)，由 @world_lica 與 @contralabs_ai 共同合作。

我們的第一個 Design Crit 資料集「TASTE」已發佈於 @arxiv：arxiv.org/abs/2605.20731

---

## 限制

樣本數較小。每個 Prompt 由五位設計師評分，這足以衡量一致性並排除雜訊，但不足以對任何單一比較做出絕對定論。每個標準使用各自的 80 個 Prompt，因此沒有任何設計是在兩個標準上同時被評分的。這確保了每次評分的純淨度，但也意味著我們無法觀察同一位設計師如何在同一個設計上權衡色彩與排版，因為沒人對同一個設計進行過多項標準評分。所有 Prompt 均為英文，因此跨語言的品味並未在此捕捉。此外，這九項標準涵蓋範圍很廣，但並非全部。無障礙設計、品牌一致性、動態效果和受眾契合度，都是隨著專案成長可以加入的自然軸向。

## 未來研究

下一個顯而易見的步驟是以更大的規模進行測試，增加每個 Prompt 的設計師人數、支援更多語言，並擴展評分標準。在每個軸向上對相同的設計進行評分，可能會揭示設計師如何權衡色彩與層級，或忠實度與感覺之間的取捨——這些都是單一分數所隱藏的權衡細節。

到目前為止，我們已經證明了這種訊號可以作為評審來學習。未來的開放問題是，這是否能讓模型成為更好的設計師。針對這些維度獎勵來訓練生成器，可以直接推動排版或色彩的進步，進而驗證作品是否真的有所提升。

## 標籤

AIGC, 研究論文, Design Crit
