# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Junyang Lin (@JustinLin610) · 平台：X (Twitter) · 日期：2026-03-26

> 原始來源：https://x.com/JustinLin610/article/2037116325210829168

## 中文摘要

過去兩年中，推理類模型（如 OpenAI 的 o1 和 DeepSeek-R1）重塑了我們評估模型和期望的方式。2025 年上半年的重點仍聚焦於推理思考的優化，但下一波浪潮應是 Agent 思維：即模型在與環境互動的過程中進行思考與行動，並根據世界回饋持續更新計畫。這標誌著從訓練模型向訓練 Agent 的根本轉變。

**推理模型浪潮的真正啟示**

o1 和 R1 的成功證明了強化學習在語言模型上的可行性，但關鍵在於回饋信號必須是確定性、穩定且可擴展的。數學、程式碼、邏輯等可驗證的領域之所以成為中心，是因為這些領域的獎勵遠強於泛用偏好監督，讓 RL 能優化正確性而非相似性。基礎設施變得至關重要——從預訓練擴展到推理的後訓練成為了大規模計算的新瓶頸，涉及批量推出、高吞吐量驗證、穩定的策略更新及高效率採樣。o1 和 R1 同樣都是基礎設施故事，而非單純的模型故事。

**統一思考與指令模式的困難**

2025 年初，業界包括通義千問團隊曾設想理想系統應統一思考和指令模式，支援可調整的推理效力，並由模型自動判斷何時快速回答、何時深入思考、何時耗費大量計算。概念上方向正確，但執行遠比描述困難。真正的瓶頸是資料：

- **指令模型**被獎勵的是直接性、簡潔性、格式遵循，專注於批量重寫、標記、模板化支援等高吞吐量任務
- **思考模型**被獎勵的是在困難問題上花費更多 token、維持連貫的中間結構、探索替代路徑、保留足夠內部計算來有意義地改進最終正確性

這兩種行為目標相互拉扯。若合併資料未經精心策劃，結果通常在兩個方向上都庸碌：思考行為變得嘈雜、臃腫或決策不足，而指令行為則失去清晰度、可靠性，成本高於商業使用者實際需求。實踐中分離仍更具吸引力——通義千問 2507 版本後來推出了獨立的指令和思考更新，包括不同的 30B 和 235B 變體，因為大量客戶仍需要為批量操作提供高吞吐、低成本、高度可控的指令行為。

相反，Anthropic 採取了整合路線，認為推理應為整合能力而非分離模型。Claude 3.7 Sonnet 被引入為混合推理模型，使用者可選擇普通回應或擴展思考，並設定思考預算。GLM-4.5 和 DeepSeek V3.1 也相似地走向了「思考與非思考」混合推理。關鍵問題在於合併是否自然有機——真正成功的合併需要推理效力的平滑頻譜，模型應能表達多個效力水準並理想地自適應選擇。

**Anthropic 方向的修正作用**

Anthropic 對 Claude 3.7 和 Claude 4 的公開論述強調了整合推理、使用者可控的思考預算、實世界任務、程式撰寫品質，以及後來在擴展思考期間使用工具的能力。關鍵洞察是：更長的推理跡象不會自動提升模型智慧。若模型以相同冗長方式推理所有問題，它可能在優先化、壓縮或採取行動上失敗。思考應由目標工作負載塑造——若目標是程式撰寫，思考應幫助程式庫導航、計劃、分解、錯誤恢復和工具編排；若目標是 Agent 工作流，思考應提升長範圍執行品質而非產生吸睛的中間散文。

這指向更大的轉變：從訓練模型時代邁向訓練 Agent 的時代。**Agent 定義為透過閉迴圈互動與世界交互的系統**，能制定計畫、決定何時行動、使用工具、感知環境回饋、修訂策略並長期持續。

**Agent 思維的本質**

推理思維通常以最終答案前的內部審思品質來評判（能否解決定理、撰寫證明、生成正確程式碼）；**Agent 思維則評判模型是否能在與環境互動中持續取得進展**。核心問題從「模型能思考多久？」轉變為「模型能否以維持有效行動的方式思考？」

Agent 思維必須處理純推理模型能迴避的多項問題：

- 決定何時停止思考並採取行動
- 選擇調用哪個工具及順序
- 納入來自環境的嘈雜或部分觀察
- 失敗後修訂計畫
- 跨多個回合和工具呼叫維持連貫性

**Agent RL 基礎設施的複雜性**

當目標從解決基準問題轉向解決互動任務時，RL 堆疊改變。古典推理 RL 中推出可作為相對獨立軌跡處理；而 Agent RL 中策略嵌入更大框架內：工具伺服器、瀏覽器、終端、搜尋引擎、模擬器、執行沙箱、API 層、記憶系統、編排框架。環境不再是靜態驗證器，而是訓練系統的一部分。

這要求訓練和推理更清潔的解耦——否則推出吞吐量會崩潰。考慮必須對活躍測試框架執行生成程式碼的程式撰寫 Agent：推理端在等待執行回饋時停滯，訓練端為完成軌跡挨餓，整條管道遠低於古典推理 RL 預期的 GPU 使用率。工具延遲、部分可觀察性和有狀態環境加劇了這些低效。環境本身成為第一類研究人工物——資料多樣性曾是 SFT 時代的執念，Agent 時代應執念於環境品質：穩定性、真實性、涵蓋範圍、困難度、狀態

## 標籤

Agent, 產業趨勢, LLM