策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 29 篇

Benchmark

熱度

排序

𝕏🔥2026/4/13

Claude Opus 4.6 效能遭大幅削弱，幻覺率激增導致排名暴跌。根據 BridgeBench 的最新測試，Claude Opus 4.6 的推理能力顯著下降，顯示該模型近期已遭到「削弱」（nerfed），導致其在基準測試中的...

LLM Benchmark 功能更新 Anthropic Claude

@bridgemindai

♥6.6k🔁 666

𝕏🔥2026/4/13

GPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。儘管市場焦點多集中於 Mythos 的強勢表現，但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力，這預示著 OpenAI...

LLM Benchmark 產業趨勢 OpenAI GPT Mythos

@chatgpt21

♥1.8k🔁 125

𝕏🔥2026/4/11

研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出，在大型推理模型 (LRMs) 進行數學與程式撰寫任務時，平行採樣的表現通常優於序列採樣，且關鍵原因在於序列採樣缺乏足夠的探索性。研究背...

研究論文 LLM Benchmark Google DeepMind Gemini

@gu_xiangming

♥167🔁 24

𝕏🔥2026/4/10

「HyperMem」透過超圖架構優化長期記憶，在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...

研究論文 RAG Benchmark EverMind ACL

@evermind

♥53🔁 6

𝕏🔥2026/4/10

當前主流 AI Agent 評測基準存在嚴重漏洞，研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。研究人員針對八大主流 AI Agent 評測基準進行審計，發現所有基準皆存在可被利用的漏洞，導致模型在未解決任何任務的...

Agent Benchmark 研究論文產業趨勢 AI Agent

@MogicianTony

♥667🔁 90

𝕏🔥2026/4/9

KellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。「KellyBench」是一個針對長期、非靜態環境設計的評測基準，旨在測試 AI 模型在真實體育博彩市場中的序列決策能力，結果顯示目前所有頂尖模型皆無法穩定獲利。 ...

Benchmark 研究論文 LLM KellyBench

@GenReasoning

♥627🔁 49

𝕏🔥2026/4/9

ThreadWeaver 透過自適應平行推理技術，在維持推理準確度的同時顯著降低大型語言模型的延遲。 ThreadWeaver 是一個開源的平行推理框架，旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應...

LLM 開源專案 Benchmark ThreadWeaver

@LongTonyLian

♥109🔁 20

𝕏🔥2026/4/9

Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。卡內基美隆大學團隊推出的「Gym-Anything」框架，旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動...

Agent 開源專案 Benchmark Gym-Anything 卡內基美隆大學

@PranjalAggarw16

♥416🔁 79

𝕏🔥2026/4/9

最強大的 AI 模型剛剛輸給了一個 4 層神經網路在 ARC-AGI-3 發布的前兩天，Jensen Huang 對 Lex Fridman 說：「我認為我們已經實現了 AGI。」這個時機點很不湊巧。或者，取決於你的觀點，這...

Benchmark 產業趨勢 LLM Google OpenAI Anthropic

@everyonebpup

♥334🔁 41

𝕏🔥2026/4/9

Liquid AI 發布 LFM2.5-VL-450M 模型，實現邊緣裝置上的即時視覺推理與結構化輸出。 Liquid AI 近期推出 LFM2.5-VL-450M，這是一款專為邊緣裝置設計的視覺語言模型 (VLM)，旨在透過單次推論...

VLM 新產品 Benchmark Liquid AI

@liquidai

♥1.1k🔁 132

𝕏🔥2026/4/7

MemPalace 推出開源 AI 記憶系統，實現 100% 基準測試分數。 MemPalace 是一個由開發者與 Milla Jovovich (蜜拉·喬娃維琪) 共同開發的開源 AI 記憶系統，透過獨特的「宮殿」架構與「AAAK」...

開源專案 Benchmark AIGC Codex Cursor Gemini Cli Claude Code MCP MemPalace

@bensig

♥7.8k🔁 792

𝕏🔥2026/4/6

SimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出，現有串流影片理解模型過度依賴複雜的記憶機制，透過僅輸入最近 N 個影格的簡單滑動視窗基準，即可達到甚至超越現有 SOTA ...

研究論文 VLM Benchmark Qwen Alibaba

@liuziwei7

♥284🔁 38