策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 4 篇

Transformer

熱度

排序

GRPO優勢校準解決深度搜尋訓練痛點。「CalibAdv」方法針對「Group Relative Policy Optimization (GRPO)」在深度搜尋Agent訓練中的問題，透過精細調整負優勢值，提升模型效能與穩定性。另...

@_reachsumit

♥13🔁 1

循環Transformer區塊實現測試時運算擴展，證明其收斂至固定點，形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...

@che_shr_cat

♥277🔁 38

Parcae透過穩定循環架構實現參數效率提升，達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型，透過層循環增加FLOPs而不擴大參數，解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現，在...

@hayden_prairie

♥1.3k🔁 171

LLM工程師必讀12篇論文精選。這份清單彙整人工智慧領域12篇奠基性論文，涵蓋從Transformer架構到模型對齊的關鍵進展，每篇皆由作者解讀其核心洞見，強調對現代大型語言模型（LLM）的實務影響。 Transformer革...

@amitiitbhu