# 策展 · X (Twitter) 🔥🔥

> 作者：Quarq (@quarqlabs) · 平台：X (Twitter) · 日期：2026-04-25

> 原始來源：https://x.com/quarqlabs/status/2047936241078059067

## 中文摘要

遞迴語言模型（RLMs）透過環境探索方式突破上下文視窗瓶頸，在長上下文任務中顯著優於傳統模型。

過去數月，Recursive Language Models (RLMs) 已浮現討論，但近兩週伴隨 GEPA 等概念，熱議急速升溫。它們針對 Agent 建構時的上下文視窗瓶頸，提供全新視角：不再將輸入視為固定文字塊，而是如環境般可探索，讓根模型配備 REPL，不需預先讀取全部內容，而是決定值得檢查的部分，並視需要進行遞迴子呼叫，從而實現結構化計算而非單一大前向傳遞。

**效能突破關鍵數據**

論文顯示，RLMs 可處理超出上下文視窗兩個數量級的內容。但在簡單檢索任務如「needle in a haystack」上，與標準模型無明顯差異；差異僅在上下文達 16K token 以上顯現，這屬預期。

在 OOLONG 任務（需跨多筆資料聚合，線性複雜度）中，隨著輸入增長，傳統模型穩定衰退，而 RLMs 維持優異表現：在 132K token 規模，基礎 GPT-5 得分 44%，RLM 達 56.5%，改善約 28%。

**高複雜度任務優勢**

OOLONG-Pairs 任務要求成對比較（二次方複雜度），標準模型表現近乎零分，而 RLMs 達約 58% F1 分數。此非意外，因為注意力機制本非為單前向傳遞設計此類任務。

在深度研究任務如瀏覽大型文件集，RLMs 亦展現準確率與 token 效率雙重提升。

**小模型反轉現象**

RLMs 帶來有趣副效應「小模型反轉」：透過適當遞迴設定，小型模型在長上下文推理上超越大型模型。例如，基於 GPT-5-mini 的 RLM 在較難分割上勝過 GPT-5；經微調的小型模型在百萬 token 任務中勝出更大模型。這顯示瓶頸非僅模型規模。

**適用限制與啟示**

RLMs 並非萬能，在短小簡單任務上無額外價值。但隨著上下文長度與推理複雜度增加，其優勢難以忽視。OOLONG-Pairs 的 ~58% 對 <0.1% 結果，為最清晰訊號：一旦任務需結構化計算而非單純模式匹配，讓模型能「作用於」上下文，即徹底改變其能力。

## 標籤

LLM, Agent, 研究論文, Recursive Language Models