策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 29 篇
Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。 根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的...
@bridgemindaiGPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。 儘管市場焦點多集中於 Mythos 的強勢表現,但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力,這預示著 OpenAI...
@chatgpt21研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...
@gu_xiangming「HyperMem」透過超圖架構優化長期記憶,在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...
@evermind當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。 研究人員針對八大主流 AI Agent 評測基準進行審計,發現所有基準皆存在可被利用的漏洞,導致模型在未解決任何任務的...
@MogicianTonyKellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。 「KellyBench」是一個針對長期、非靜態環境設計的評測基準,旨在測試 AI 模型在真實體育博彩市場中的序列決策能力,結果顯示目前所有頂尖模型皆無法穩定獲利。 ...
@GenReasoningThreadWeaver 透過自適應平行推理技術,在維持推理準確度的同時顯著降低大型語言模型的延遲。 ThreadWeaver 是一個開源的平行推理框架,旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應...
@LongTonyLianGym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。 卡內基美隆大學團隊推出的「Gym-Anything」框架,旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動...
@PranjalAggarw16最強大的 AI 模型剛剛輸給了一個 4 層神經網路 在 ARC-AGI-3 發布的前兩天,Jensen Huang 對 Lex Fridman 說:「我認為我們已經實現了 AGI。」 這個時機點很不湊巧。或者,取決於你的觀點,這...
@everyonebpupLiquid AI 發布 LFM2.5-VL-450M 模型,實現邊緣裝置上的即時視覺推理與結構化輸出。 Liquid AI 近期推出 LFM2.5-VL-450M,這是一款專為邊緣裝置設計的視覺語言模型 (VLM),旨在透過單次推論...
@liquidaiMemPalace 推出開源 AI 記憶系統,實現 100% 基準測試分數。 MemPalace 是一個由開發者與 Milla Jovovich (蜜拉·喬娃維琪) 共同開發的開源 AI 記憶系統,透過獨特的「宮殿」架構與「AAAK」...
@bensigSimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出,現有串流影片理解模型過度依賴複雜的記憶機制,透過僅輸入最近 N 個影格的簡單滑動視窗基準,即可達到甚至超越現有 SOTA ...
@liuziwei7