GRPO優勢校準解決深度搜尋訓練痛點
GRPO優勢校準解決深度搜尋訓練痛點。
「CalibAdv」方法針對「Group Relative Policy Optimization (GRPO)」在深度搜尋Agent訓練中的問題,透過精細調整負優勢值,提升模型效能與穩定性。另一研究則提出基於遞迴語言模型的線性時間恆定記憶體文字嵌入策略,挑戰Transformer的計算瓶頸。
GRPO在深度搜尋的挑戰
深度搜尋Agent能自主啟動多輪與搜尋引擎的互動,展現強大問答能力,但高度依賴GRPO作為核心訓練演算法。GRPO在深度搜尋情境下卻面臨嚴重問題:中間步驟正確性與獎勵訊號嚴重不匹配,導致最終答案錯誤時許多正確中間步驟被錯誤懲罰;訓練極不穩定,常造成自然語言能力退化甚至災難性崩潰。作者分析歸因於粗粒度優勢分配,以及正負優勢嚴重失衡,負優勢如雙刃劍,過度懲罰正確步驟。
CalibAdv的核心創新
「CalibAdv」專為深度搜尋任務設計的優勢校準方法,精確解決上述痛點:
- 利用中間步驟正確性,在精細粒度下縮減過度負優勢,避免正確步驟遭誤傷。
- 在答案組成部分重新平衡正負優勢,緩解失衡導致的訓練不穩。
此方法圖示顯示,從粗粒度GRPO轉向精細校準,負優勢下調後正向強化更精準。
實驗驗證與效能提升
橫跨三款模型與七個基準測試,大規模實驗證實「CalibAdv」同時改善模型效能與訓練穩定性。GitHub程式庫(https://github.com/wujwyi/CalibAdv)提供完整環境設定,包括「CalibAdv」與檢索器獨立Conda環境(Python 3.9.23與3.10.18,PyTorch 2.4.0,CUDA 12.1,NVIDIA H20 GPU)。本地檢索建置需下載「e5_Flat.index」與「wiki-18.jsonl」,整合「e5-base-v2」檢索器與「ms-marco-MiniLM-L12-v2」重排序器,啟動伺服器後可執行資料前處理(scripts/data_process_search.sh)與訓練(train_grpo.sh)。論文連結:https://arxiv.org/abs/2604.18235(發布於2026年4月20日)。
遞迴模型嵌入的效率突破
另一論文「Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models」批判Transformer嵌入模型的二次方計算與線性記憶體複雜度,限制長序列應用。作者提出垂直分塊推論策略,適用於遞迴架構,讓輸入長度超過垂直分塊大小時,記憶體使用轉為恆定,實現線性時間嵌入生成。
推論策略與模型適用性
策略透過垂直分塊,讓嵌入生成速度飛快,記憶體足跡大幅小於Transformer對手。經微調「Mamba2」模型,證實其作為通用文字嵌入器的可行性,在多項基準上達競爭水準。實證驗證策略相容「Mamba2」、「RWKV」與「xLSTM」,各架構均展現一致的執行時間-記憶體權衡,確立遞迴模型為高效嵌入生成的強力替代方案。Hugging Face收藏:https://huggingface.co/collections/dynatrace-oss/embed-mamba2。論文連結:https://arxiv.org/abs/2604.18199(發布於2026年4月20日)。
兩研究對AI訓練與嵌入趨勢的啟示
「CalibAdv」直指GRPO負優勢的雙刃劍本質,透過精細校準避免訓練崩潰,特別適合深度搜尋Agent的多輪互動情境,強調中間步驟正確性不可忽視。相對地,遞迴嵌入研究挑戰Transformer霸權,證明線性時間恆定記憶體策略能大幅降低長序列成本,為資源受限環境開闢新路。兩者皆於2026年4月20日發表,凸顯強化學習優化與高效推論正成為人工智慧工程熱點,開發者可直接透過開源程式庫快速驗證與部署。這些進展不僅緩解現有方法的結構性缺陷,還為未來Agent與嵌入應用注入穩定性與效率,值得工程團隊密切追蹤。
Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search
— Sumit (@_reachsumit) April 21, 2026
Introduces an advantage calibration method for GRPO that downscales excessive negative advantages at intermediate steps.
📝 https://t.co/noFAPCcsML
👨🏽💻 https://t.co/n7lTbAwmtJ
Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models
— Sumit (@_reachsumit) April 21, 2026
Proposes an inference strategy for recurrent architectures that enables text embedding generation with constant memory in the input length.
📝 https://t.co/Q04733wHeV
🤗 https://t.co/IhZ2faaj0M
