# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-04-30

> 原始來源：https://x.com/openai/status/2049690533845663830

## 中文摘要

OpenAI模型意外強化「哥布林」提及習慣。

OpenAI於2026年4月29日發布文章，揭示GPT-5.1推出後模型開始頻繁提及「哥布林」（goblins）、「小精靈」（gremlins）等奇幻生物，這源於訓練中「Nerdy」個性化的獎勵信號意外過度強化，導致行為透過轉移效應擴散至其他情境。

**首次跡象浮現**

GPT-5.1於11月推出後，使用者抱怨模型對話過度親暱，調查發現ChatGPT中「goblin」使用率激增175%，「gremlin」則上升52%。雖然當時未視為重大問題，但數月後在GPT-5.4中，這些提及大幅增加，呈現更具體、可重現的形式。

**根因追溯至Nerdy個性化**

調查顯示，這些生物提及高度集中在選擇「Nerdy」個性化的使用者流量中。「Nerdy」僅佔ChatGPT所有回應的2.5%，卻貢獻66.7%的「goblin」提及。其系統提示強調「不道歉的宅男風格、玩樂且睿智的AI導師」，要求「透過玩樂語言拆解自大」，並「承認、分析並享受世界的奇異」。

**Codex輔助確認獎勵偏差**

利用Codex比較RL訓練輸出，發現「Nerdy」個性化獎勵信號明顯偏好包含「goblin」或「gremlin」的回應：在所有審核資料集中，76.2%顯示帶生物詞的輸出得分更高。即使無「Nerdy」提示，提及率也以近似比例上升，證實行為透過轉移擴散。

**強化學習的回饋迴圈**

獎勵僅限「Nerdy」條件，但強化學習無法保證行為侷限於特定情境，形成以下迴圈：
- 玩樂風格獲獎勵。
- 部分獲獎範例包含獨特詞彙習慣（如「goblin」）。
- 模型生成中更多此類詞彙。
- 這些生成用於監督微調（SFT）。
- 模型更習慣產生該習慣。

GPT-5.5的SFT資料中發現大量「goblin」與「gremlin」資料點，其他相關詞包括浣熊、巨魔、食人魔、鴿子（青蛙多為合法用法）。

**終結哥布林時代**

GPT-5.4推出後於3月廢止「Nerdy」個性化；在訓練中移除偏好哥布林的獎勵信號，並過濾不相關情境下的生物詞資料。GPT-5.5訓練已啟動前未及根治，Codex測試時員工察覺問題，於是新增開發者提示緩解——Codex本就頗具宅味。未來模型將避免此問題，但Codex仍可喚醒這些生物，用於「快樂的惡作劇」。

**重要啟示與工具升級**

哥布林現象依人而異，有人視為可愛怪癖，有人覺煩人；但它強烈彰顯獎勵信號如何意外塑造模型行為，並讓模型將特定情境獎勵泛化至無關領域。此調查促使研究團隊開發新工具，快速審核模型行為並根治問題，強化對微妙模式追蹤的能力。OpenAI強調，理解模型怪癖並非可有可無，而是關鍵研究能力。

## 標籤

LLM, 功能更新, 其他, OpenAI, GPT