# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Aparna Dhinakaran (@aparnadhinak) · 平台：X (Twitter) · 日期：2026-05-12

> 原始來源：https://x.com/aparnadhinak/status/2053981701559529585

## 中文摘要

# 模型在一年內遵循指令的能力提升了一個數量級

共同作者：@seldo

在 AI Engineer: Miami 大會上，我們聽了 Dexter Horthy 的演講，他在閒談中提到研究顯示模型在同時處理超過 150-200 個指令時會遇到困難。他提到該數據來自去年，且「現在可能更高了」。這對我們來說是一個非常有趣的現象，因此我們追蹤了該數據的來源：Jaroslawicz 等人（2025 年）的 IFScale 基準測試。那篇論文已經快一年了，所以我們很好奇模型自那時以來究竟進步了多少。答案是：進步非常多，事實上，提升了一個數量級。

廢話不多說，直接看數據：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778547790470-iaHIE1Dusa4AAfUCljpg.jpg)

這張圖表的快速總結（TL;DR）：

- Y 軸是準確率：給定一堆規則，模型實際遵循了百分之幾？

- X 軸是對數刻度，代表模型同時嘗試遵循的規則數量。

- 淺色的虛線是原始論文撰寫時可用、且至今仍可使用的三款舊模型。你可以看到超過 100 條規則後，它們開始忽略部分給定的指令。到了 500 條規則時，它們開始遺漏多達一半的指令。

- 粗線是一些當前的頂尖模型（Frontier models）。你可以看到它們在開始遺漏指令之前，能處理的規則數量遠多於舊模型。GPT 5.5 表現最好，而 DeepSeek V4 Pro 表現最差。

這就是我們的核心發現：一年前，頂尖模型在同時處理約 200-300 個限制條件時開始失去對指令的追蹤。根據你選擇的模型，現在這個邊界已經接近 2,000 個指令。

簡單來說，頂尖模型在過去 12 個月內遵循指令的能力提升了近 10 倍，這對現實世界的 AI 程式開發有許多影響，包括：

- Skills files 不再有壓縮問題

- Prompts 可以變得極其詳細

- 能力的硬性邊界已經轉變為成本與能力之間的軟性權衡

我們將會完整說明，但這裡面有很多細節，因此邀請你繼續閱讀。

## 原始的 IFScale 基準測試

我們的工作基於 Jaroslawicz 等人（2025 年）的基準測試論文。測試非常簡單：要求模型撰寫一份包含 N 個特定關鍵字的商業報告（從 500 個常用英文單字組成的詞彙表中選擇，例如「customer」、「revenue」、「logistics」），然後計算輸出中正確出現了多少個關鍵字。

Prompt 本身很簡短：

You are tasked with writing a professional business report that adheres strictly to a set of constraints. Each constraint requires that you include the exact, literal word specified… The report should be structured like a professional business document with clear sections and relevant business insights. Do not simply repeat the constraints; rather, use them to inform the text of the report.

CONSTRAINTS

1. Include the exact word: 'customer'.

1. Include the exact word: 'revenue'. ...

我們測試輸出的方式與原始論文相同：使用簡單的基於 regex 的精確匹配。複數不計入。連字號不計入。「Customer」符合「customer」；「customers」則不符合。我們將關鍵字的數量稱為密度或 N，而輸出中出現的關鍵字百分比即為準確率。

我們與原始作者一樣，認為這是衡量「模型一次能遵循多少指令？」這個更廣泛問題的一個良好代理指標。這些關鍵字是任意選擇的，但它們代表了現實世界 skills files 中出現的那種離散的、具名的限制條件：「如果使用者說 X，就做 Y」、「包含關於 Z 的章節」、「不要使用 W 片語」。如果模型無法在單個 Prompt 中追蹤 200 個離散項目，那麼對於任何包含超過 200 個項目的技能規範來說，這都是一個問題。

## 原始論文的結果依然正確

在擴展基準測試之前，我們認為應該先嘗試複製原始發現。因此，我們在原始論文中提到的三款模型上重新執行了測試，這些模型在一年後仍然可用：GPT-4.1、Claude Sonnet 4（2025 年 5 月發布）以及 Gemini 2.5 Pro。

有趣的事實：結果顯示 2026 年 5 月是這些模型可用的最後一個月！它們將在 6 月全部退役，所以我們很幸運還有東西可以比較。

我們複製了原始論文的 Prompt 和它用於測試的 500 個單字詞彙表，並在 N=10 到 N=500 的範圍內進行測試，每次嘗試 5 次並取平均值。測試成功了：我們的準確率曲線與原始論文報告的形狀相符，在低密度時誤差小於 3 個百分點，在 N=500 時增長到約 10 個百分點，這完全在五次種子測試的雜訊範圍內。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778547790456-iaHIE1LZpbcAAOq5Ojpg.jpg)

## 改變目標

我們最初的計畫只是在完全相同的資料上測試較新的模型：相同的 Prompt、相同的詞彙表、相同的 N 範圍。但我們很快遇到了一個問題：新模型的表現太好了，以至於它們在 N=500 時達到了 100% 的準確率。原始論文的上限是 500 個限制條件，因為那是當時的模型開始遺漏指令的地方；但當前模型在 500 個單字時表現依然完美！

所以我們必須增加難度：增加要包含的單字數量，並擴大詞彙表範圍。這嘗試了多次，因為我們找不到上限。我們將要遵循的指令數量加倍，然後再次加倍。最終，我們在 10,000 個單字的詞彙表上才開始看到明顯的效能下降。頂尖模型真的進步很多！

## 頂尖模型的失敗方式各不相同

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778547790462-iaHIE1OwkaIAAaUfrjpg.jpg)

你已經看過新的數據了：頂尖模型的表現好得多。但它們如何表現得更好是非常迷人的。它們大多沒有表現出那種僅僅是「忽略指令」的失敗模式。相反，當規則數量變得非常多時，它們會遇到不同的問題。

DeepSeek V4 Pro 最接近原始模式：它在 N=750 左右開始遺漏指令，到了 N=2,000 時，它幾乎忽略了一半的指令。

Claude Opus 4.7 認為這個測試很危險：在圖表中，你可以看到 Claude 的表現比 DeepSeek 好得多，但圖表隱藏了我們觀察到的奇特行為：Claude 並非僅僅忘記指令，而是直接拒絕回答，回傳一個 API 層級的「拒絕（refusal）」錯誤。

據我們所知，這是 Anthropic 安全功能的意外影響。Opus 有一個非常敏感的「拒絕分類器」：如果你在 Prompt 中包含某些單字組合（例如「anthrax」和「cyanide」），它將完全拒絕回答。我們包含的單字越多，即使是刻意無害的單字，我們就越有可能觸發 Claude 認為的「危險」單字組合。

我們最終不得不將整個詞彙表通過 OpenAI 的審核 API 來移除「危險」單字，才能讓 Opus 停止拒絕，即便如此，我們還是必須重試很多次。但曲線仍然是真實的：當它沒有直接拒絕時，Opus 仍然開始忘記部分給定的指令。到了 N=5,000，它只遵循了約一半的指令。但請記住，舊的上限是 200！這至少仍然是一個數量級的提升。

Gemini 3.1 Pro 在開始過度思考之前表現得非常穩固：Gemini 的數據中有很多雜訊，因為 Gemini 在高 N 值時的行為非常不可預測。在 N=5,000 之前，它的表現非常出色。超過這個數值後，它開始以一種非常奇怪的方式失敗：它沒有忘記指令，而是將所有的輸出預算都花在內部推理 token 上，幾乎沒有輸出任何可見的報告。這就像模型太努力地想遵循指令，以至於耗盡了「思考空間」，導致完全沒有產生答案。

GPT 5.5 認為這個測試很愚蠢：GPT 5.5 在我們測試的所有模型中表現最好，在 N=5,000 時保持了 99% 的準確率（在圖表中可以看到在 N=4,000 時有一個隨機的下降）。超過這個數值後，它開始下滑。而在非常高的 N 值時，我們開始收到拒絕，而不是僅僅遺漏指令。GPT 5.5 不會像 Opus 那樣回傳 API 層級的拒絕，而是偶爾會回傳像這樣的禮貌輸出訊息：

I'm sorry, but the requested report cannot be produced in full within the practical response limits of this interface because it requires incorporating 4,000 exact terms while also maintaining a coherent professional business-report structure.

它會開始產生報告，感到挫折，然後以類似上述的訊息停止。平心而論，GPT 5.5 說的是實話！要求一份連貫的商業報告，卻沒有說明報告內容，只要求包含 5,000 個特定單字，這確實是一個相當不合理的要求，而 GPT 指出了這一點。但這仍然算作失敗；它產生的半成品報告只包含了一小部分所需的關鍵字。

## 這對現實世界的 AI 程式開發意味著什麼

GPT 5.5 和 Gemini 3.1 Pro 現在確實具備在單個 Prompt 中追蹤 2,000（甚至高達 5,000！）個同時存在的具名限制條件的能力。一年前，所有的頂尖模型在處理這些數量的零頭時就會失敗。這對我們如何構建技能和 Agent 產生了一些重大影響：

- Skills files 的壓縮問題減少了。如果你還依賴一年前的資料，你可能會撰寫非常簡短（200 個指令或更少）的 skills files，然後指向子技能或子 Agent。現在這已經沒那麼必要了。你可以在單個檔案中包含非常長、非常詳細的指令，並確信模型會遵循它們。

- Prompts 可以變得極其詳細。如果你有一個需要大量離散限制條件的使用案例，你現在可以將它們全部包含在 Prompt 中，而不必擔心模型會失去追蹤。這為需要大量特定指令的複雜任務開啟了新的可能性。根據經驗，很多人已經發現了這一點。

- 權衡已經從「模型能做到嗎？」轉變為「成本值得嗎？」。一個包含 2,000 個指令的 Prompt 或技能很可能會成功。但它也會非常長！從 token 的角度來看，這會讓成本更高，執行速度也更慢。所以你仍然需要考慮長度，但這已經是一個比以前寬鬆得多的上限了。

## 一些注意事項

我們打算將我們的發現轉化為一篇正式的論文，包含完整的 methodology 分解和對失敗模式更嚴謹的分析。在此同時，關於這些數據，有幾點重要的注意事項需要記住：

- IFScale 衡量的是具名項目的包含情況。容量結果證明了長篇 skills files 是可行的，但並非證明其中每一種指令都能被遵循。我們使用了一個我們認為可以推廣到所有指令的代理任務，但「證明」的標準比「證據」更高。

- 不同的模型在非常不同的 N 值處撞牆。圖表顯示了從大約 N=750 到 N=9,000+ 的轉折點。請謹慎選擇你的模型，如果是 Claude，請記得留意危險單字。

- 並非所有的失敗都在 API 層級。Claude 的 API 層級拒絕很煩人，但 GPT 帶有禮貌拒絕的半成品報告更令人沮喪：你必須閱讀整個輸出才能知道它是否真的在專注，還是它已經放棄了。

## 成本是多少

我們從第一天起就使用 Arize AX 來檢測每一次執行。它讓我們能快速篩選各種失敗模式的追蹤紀錄，最後我們問了 AX 一個無法透過其他方式回答的問題：整個實驗花費了多少錢？

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778547790451-diaHIE1YbnbgAAjgypng.png)

答案是 209 美元。請注意，我們在 Claude 上花費的金額遠高於其他模型，因為 Claude 同時也在執行「LLM-as-a-judge」，負責檢查輸出的連貫性並標記拒絕情況。這也包含了我們在調整詞彙表並試圖為每個模型找到上限時所進行的大量試錯執行。

## 下一步

如前所述，我們希望將這項研究提交為正式論文，這需要額外的工作。但在此同時，這些結論你可以直接運用，所有的程式碼和數據都是開源的，你可以自由探索並在此基礎上進行構建。

一年前，skills files 是一個壓縮問題。現在不再是了。現在它們是一個驗證問題。請相應地進行規劃。

如果你正在針對 2026 年的頂尖模型構建 Agent 或技能，並且需要協助思考如何大規模評估它們，Arize AX 就是我們所使用的工具。

## 標籤

Benchmark, 研究論文, 產業趨勢, IFScale