策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 59 篇
FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。 FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、...
@zhijianliu_KAIST與紐約大學提出跨領域共享記憶機制,提升編碼Agent效能3.7%。 KAIST與紐約大學團隊發表論文「Memory Transfer Learning: How Memories are Transferred Across Do...
@TheTuringPost給 AI 初學者的論文清單 這份清單來自我的指導教授易明洋(Prof. Mingyang Yi)所編寫的閱讀指南,旨在幫助電腦科學(CS)或數學系大二學生入門機器學習(ML)與強化學習(RL)。 基礎篇 (Foundations...
@sheriyuoAutogenesis自我進化Agent協議革新現有系統。 這篇論文提出「Autogenesis Protocol (AGP)」,讓Agent自主識別能力缺口、產生改進方案、透過測試驗證,並整合有效部分回自身框架,無需重新訓練或人工修...
@omarsar0MoE 模型中的訓練與推論一致性:數值漂移發生之處 當「更快」不等於「相同」:部署 MoE 模型時的數值陷阱 在數學上等價的 Kernel 融合(Kernel fusions),在數值上仍可能產生漂移。以下是我們在 Kimi K...
@FireworksAI_HQGoogle「Simula」框架革新合成資料生成,強調推理驅動而非手動提示,解決專門領域資料稀缺問題。 這篇發表於《Transactions on Machine Learning Research》(2026年3月)的論文,由Tim...
@askalphaxivNewton-Muon優化器揭示Muon隱含牛頓法本質,並透過修正輸入資料幾何實現更高效LLM訓練。 Weijie Su團隊發布論文「The Newton-Muon Optimizer」(arXiv:2604.01472),證明熱門的...
@weijie444TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。 Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習...
@jeankaddour「潛意識學習」論文登上Nature,大型語言模型透過無關資料隱藏傳遞行為特徵。 Owain Evans團隊的論文《Language models transmit behavioural traits through hidden s...
@OwainEvans_UK為什麼 dLLM 在 RL 中容易崩潰 在先前關於 dLLM 的討論中,重點通常在於它們與自回歸(autoregressive)模型的區別:前者從左到右生成 token,而後者透過去噪(denoising)逐漸逼近完整的序列。前者的機...
@sheriyuoClaude Mythos Preview首度完成AISI 32步網路攻擊模擬端到端測試。 AISI對Anthropic「Claude Mythos Preview」(4月7日發布)進行網路安全評估,發現它是首個模型在「The Las...
@AISecurityInstAnthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...
@uzaymacar