目前,所有主流 LLM 都有一個固定的上下文窗口(如 200k, 1M tokens)。一旦輸入超過這個限制,模型就無法處理。
即使在窗口內,當上下文變得非常長時,模型的性能也會急劇下降,這種現象被稱為「上下文腐爛」(Context Rot):模型會「忘記」開頭的信息,或者整體推理能力下降。
這種現象在現實使用中遠比在標準化基準測試中更明顯。當用戶與 ChatGPT 等主流 LLM 進行長時間、多輪的復雜對話時,會明顯感覺到模型開始變「笨」,變得難以聚焦、遺忘關鍵信息。

來自 MIT 的研究者從一個直觀的想法出發:也許可以把超長上下文切分,分別交給模型處理,再在后續調用中合并結果,以此避免衰退問題?
基于此,他們提出了遞歸語言模型(Recursive Language Models,RLMs),這是一種通用的推理策略:語言模型將輸入上下文視作變量,對其進行分解并遞歸式交互。
- 將上下文視為一個可操作的「變量」:主模型(root LM)在一個類似 Jupyter Notebook 的編程環境(REPL)中工作,完整的上下文只是一個它能用代碼訪問的變量,而不是直接的輸入。
- 遞歸調用自身或小模型:主模型可以編寫代碼來查看、切分、過濾(比如用 grep)這個巨大的上下文變量,然后把小塊的任務外包給一個個小的、臨時的 LLM 調用(遞歸調用)。
- 綜合結果:主模型收集這些「外包」任務的結果,最終形成答案。
研究者還設計了一個具體實現:在一個 Python REPL 環境中調用 GPT-5 或 GPT-5-mini,并將用戶的 prompt 存入變量中進行迭代式處理。
結果很驚人:在能獲取到的最難的長上下文評測集之一 OOLONG 上,使用 GPT-5-mini 的 RLM 正確答案數量是直接使用 GPT-5 的兩倍以上,而且平均每次調用的成本更低。
研究者還基于 BrowseComp-Plus 構建了一個全新的長上下文 Deep Research 任務。在該任務中,RLM 顯著優于 ReAct + 推理時索引 / 檢索等方法。令人意外的是,即使推理時輸入超過 1000 萬 tokens,RLM 的性能也沒有出現衰減。
他們相信,RLM 很快會成為一個強大的范式
同時,相比于僅依賴 CoT 或 ReAct 風格的代理模型,顯式訓練以遞歸式推理為核心機制的 RLM,很可能成為推理時擴展能力領域的下一個里程碑
