策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 59 篇
RLVR低資料環境下提升SLM效能,混合複雜度資料帶來5倍樣本效率。 Snorkel AI最新arXiv論文《Learning from Less: Measuring the Effectiveness of RLVR in Low...
@ArminPCMGRPO優勢校準解決深度搜尋訓練痛點。 「CalibAdv」方法針對「Group Relative Policy Optimization (GRPO)」在深度搜尋Agent訓練中的問題,透過精細調整負優勢值,提升模型效能與穩定性。另...
@_reachsumitLLMs委託編輯文件時會腐敗內容。 新論文「LLMs Corrupt Your Documents When You Delegate」透過DELEGATE-52基準測試,模擬52個專業領域的長時程委託工作,揭示即使頂尖LLMs如Ge...
@PhilippeLabanAI意識判斷需先驗證人類模型。 新論文主張,探討AI是否具意識前,必須先建立經人類驗證的意識理論,否則「AI意識」概念缺乏實證基礎,已獲AAAI Symposium 2026接受。 意識的多重面向 「意識」並非單一現象,而...
@lossfunkAC/DC透過共同演化小規模專家LLM群體,超越單一大型模型如GPT-4o。 AC/DC核心概念 Assessment Coevolving w/ Diverse Capabilities (AC/DC) 是一種持續共同演化的方...
@BorisMeinardusSkill-RAG提出故障感知RAG框架,透過隱藏狀態探測與技能路由診斷查詢-證據錯位。 Skill-RAG是一種故障狀態感知的檢索增強生成(RAG)框架,針對現有方法僅將後檢索故障視為重試訊號、忽略查詢與證據空間結構性錯位的問題,提...
@_reachsumit循環Transformer區塊實現測試時運算擴展,證明其收斂至固定點,形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...
@che_shr_cat克服 TRL 中訓練器與生成器之間的精度不匹配問題 數值精度差異導致的「幻影 PPO 裁剪」阻礙了 RL 收斂。 簡短總結:我們發現當訓練的前向傳遞(FP32)與 vLLM 推論伺服器(BF16)使用不同的數值精度時,非同步 G...
@DirhousssiAmineParcae透過穩定循環架構實現參數效率提升,達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型,透過層循環增加FLOPs而不擴大參數,解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現,在...
@hayden_prairie一篇新論文揭露ChatGPT使用者普遍犯下的「LLM Fallacy」認知錯誤,使用者誤將LLM輔助產出視為自身獨立能力證明。 這篇論文《The LLM Fallacy: Misattribution in AI-Assisted C...
@ihtesham2005深度層通訊從累加升級為檢索,MoDA透過硬體優化實現高效深度注意力。 過去十年,人工智慧模型架構的第一階段專注擴大層內運算規模,但層間通訊機制幾乎停滯於2015年ResNet的「x + F(x)」殘差連接,導致訊號稀釋與許多層「學會沉...
@lianghui_zhuLLM工程師必讀12篇論文精選。 這份清單彙整人工智慧領域12篇奠基性論文,涵蓋從Transformer架構到模型對齊的關鍵進展,每篇皆由作者解讀其核心洞見,強調對現代大型語言模型(LLM)的實務影響。 Transformer革...
@amitiitbhu