← 返回首頁
Junyang Lin
Junyang Lin
@JustinLin610
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

從「推理思考」邁向「Agent 思維」的轉變

過去兩年中,推理類模型(如 OpenAI 的 o1 和 DeepSeek-R1)重塑了我們評估模型和期望的方式。2025 年上半年的重點仍聚焦於推理思考的優化,但下一波浪潮應是 Agent 思維:即模型在與環境互動的過程中進行思考與行動,並根據世界回饋持續更新計畫。這標誌著從訓練模型向訓練 Agent 的根本轉變。

推理模型浪潮的真正啟示

o1 和 R1 的成功證明了強化學習在語言模型上的可行性,但關鍵在於回饋信號必須是確定性、穩定且可擴展的。數學、程式碼、邏輯等可驗證的領域之所以成為中心,是因為這些領域的獎勵遠強於泛用偏好監督,讓 RL 能優化正確性而非相似性。基礎設施變得至關重要——從預訓練擴展到推理的後訓練成為了大規模計算的新瓶頸,涉及批量推出、高吞吐量驗證、穩定的策略更新及高效率採樣。o1 和 R1 同樣都是基礎設施故事,而非單純的模型故事。

統一思考與指令模式的困難

2025 年初,業界包括通義千問團隊曾設想理想系統應統一思考和指令模式,支援可調整的推理效力,並由模型自動判斷何時快速回答、何時深入思考、何時耗費大量計算。概念上方向正確,但執行遠比描述困難。真正的瓶頸是資料:

  • 指令模型被獎勵的是直接性、簡潔性、格式遵循,專注於批量重寫、標記、模板化支援等高吞吐量任務
  • 思考模型被獎勵的是在困難問題上花費更多 token、維持連貫的中間結構、探索替代路徑、保留足夠內部計算來有意義地改進最終正確性

這兩種行為目標相互拉扯。若合併資料未經精心策劃,結果通常在兩個方向上都庸碌:思考行為變得嘈雜、臃腫或決策不足,而指令行為則失去清晰度、可靠性,成本高於商業使用者實際需求。實踐中分離仍更具吸引力——通義千問 2507 版本後來推出了獨立的指令和思考更新,包括不同的 30B 和 235B 變體,因為大量客戶仍需要為批量操作提供高吞吐、低成本、高度可控的指令行為。

相反,Anthropic 採取了整合路線,認為推理應為整合能力而非分離模型。Claude 3.7 Sonnet 被引入為混合推理模型,使用者可選擇普通回應或擴展思考,並設定思考預算。GLM-4.5 和 DeepSeek V3.1 也相似地走向了「思考與非思考」混合推理。關鍵問題在於合併是否自然有機——真正成功的合併需要推理效力的平滑頻譜,模型應能表達多個效力水準並理想地自適應選擇。

Anthropic 方向的修正作用

Anthropic 對 Claude 3.7 和 Claude 4 的公開論述強調了整合推理、使用者可控的思考預算、實世界任務、程式撰寫品質,以及後來在擴展思考期間使用工具的能力。關鍵洞察是:更長的推理跡象不會自動提升模型智慧。若模型以相同冗長方式推理所有問題,它可能在優先化、壓縮或採取行動上失敗。思考應由目標工作負載塑造——若目標是程式撰寫,思考應幫助程式庫導航、計劃、分解、錯誤恢復和工具編排;若目標是 Agent 工作流,思考應提升長範圍執行品質而非產生吸睛的中間散文。

這指向更大的轉變:從訓練模型時代邁向訓練 Agent 的時代。Agent 定義為透過閉迴圈互動與世界交互的系統,能制定計畫、決定何時行動、使用工具、感知環境回饋、修訂策略並長期持續。

Agent 思維的本質

推理思維通常以最終答案前的內部審思品質來評判(能否解決定理、撰寫證明、生成正確程式碼);Agent 思維則評判模型是否能在與環境互動中持續取得進展。核心問題從「模型能思考多久?」轉變為「模型能否以維持有效行動的方式思考?」

Agent 思維必須處理純推理模型能迴避的多項問題:

  • 決定何時停止思考並採取行動
  • 選擇調用哪個工具及順序
  • 納入來自環境的嘈雜或部分觀察
  • 失敗後修訂計畫
  • 跨多個回合和工具呼叫維持連貫性

Agent RL 基礎設施的複雜性

當目標從解決基準問題轉向解決互動任務時,RL 堆疊改變。古典推理 RL 中推出可作為相對獨立軌跡處理;而 Agent RL 中策略嵌入更大框架內:工具伺服器、瀏覽器、終端、搜尋引擎、模擬器、執行沙箱、API 層、記憶體系統、編排框架。環境不再是靜態驗證器,而是訓練系統的一部分。

這要求訓練和推理更清潔的解耦——否則推出吞吐量會崩潰。考慮必須對活躍測試框架執行生成程式碼的程式撰寫 Agent:推理端在等待執行回饋時停滯,訓練端為完成軌跡挨餓,整條管道遠低於古典推理 RL 預期的 GPU 使用率。工具延遲、部分可觀察性和有狀態環境加劇了這些低效。環境本身成為第一類研究人工物——資料多樣性曾是 SFT 時代的執念,Agent 時代應執念於環境品質:穩定性、真實性、涵蓋範圍、困難度、狀態