# 策展 · X (Twitter) 🔥

> 作者：Peter Gostev (@petergostev) · 平台：X (Twitter) · 日期：2026-04-27

> 原始來源：https://x.com/petergostev/status/2048399485890359736

## 中文摘要

Peter Gostev透過Codex測試GPT-5.5在不同推理努力程度下的物理視覺化生成，揭示模型大小對RL週期影響。

Peter Gostev要求Codex為不同規模模型（70b、1t、10t）製作基於物理的RL（強化學習）週期視覺化，旨在展示RL施加量如何隨模型大小而異。他對各推理努力等級的評估結果如下：
- **Low（低）**：產生怪異的垃圾內容（weird slop）。
- **Medium（中）**：有些過熟（kinda cooked）。
- **High（高）**：試圖努力但最終不連貫（sort of tried but ultimately incoherent）。
- **Extra High（極高）**：精英級別，構想出色且執行精良（elite - really nice idea and well executed）。

**推理努力等級差異**  
這僅為單次測試（one shot），但顯示新模型在Medium等級表現優異，對先前多數GPT模型而言則極差。Gostev建議在新模型上嘗試不同推理等級，Medium對GPT-5.5特別有效。

**社群回饋與應用建議**  
Ixel111笑稱Low結果「超級搞笑」（funny as hell），讚Extra High表現出色，並考慮改用xhigh取代high，或搭配fast模式，但預測20x效能不會持續一週（20x won't last the week）。Dousabo（NekkiOnFire）則幽默表示，若要搞笑內容，從Low模型開始試（if I’m asking for something funny I would start trying low model from now lol）。

此測試凸顯GPT-5.5在高推理努力下的潛力，但低等級仍易產出無用輸出，反映模型規模與RL效能的直接關聯，社群傾向依任務選擇等級而非一刀切。

## 標籤

Codex, OpenAI, GPT