策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。29

Benchmark
熱度
排序
𝕏🔥🔥🔥

MoonshotAI開源FlashKDA,高性能Kimi Delta Attention核心實現,在H20上比flash-linear-attention基準快1.72×–2.22×。 MoonshotAI推出FlashKDA,這是基...

Kimi.ai@Kimi_Moonshot
1.5k🔁 150
𝕏🔥🔥

如何將 Claude Code 的成本降低 3 倍(運用 Karpathy 的 context engineering 原則) 這是一份完整的分析,說明一個開源工具如何在不更動 CLAUDE.md、Prompt 或模型的情況下,將你的...

Avi Chawla@_avichawla
462🔁 60
𝕏🔥🔥🔥🔥🔥

GPT-Image-2橫掃「Image Arena」所有榜首,創下空前領先優勢。 「Arena.ai」公布最新「Image Arena」排行,OpenAI的「GPT-Image-2」以壓倒性優勢奪得所有影像生成類別第一,領先幅度創歷史...

Arena.ai@arena
3.7k🔁 428
𝕏🔥

LLMs委託編輯文件時會腐敗內容。 新論文「LLMs Corrupt Your Documents When You Delegate」透過DELEGATE-52基準測試,模擬52個專業領域的長時程委託工作,揭示即使頂尖LLMs如Ge...

Philippe Laban@PhilippeLaban
506🔁 95
𝕏🔥

Cloudflare 新網站僅驗證 Markdown 回傳,基礎不夠完善。 Cloudflare 推出的新網站作為基準,僅檢查 API 是否回傳 Markdown 格式,但未涵蓋完整標準驗證。相較之下,「acceptmarkdown....

Ben Word@retlehs
958🔁 37
𝕏🔥🔥🔥

Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench P...

Kimi.ai@Kimi_Moonshot
17.4k🔁 2.3k
𝕏🔥🔥🔥

Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人。 「Arena.ai」公布最新排行,AnthropicAI 的「Claude Opus 4.7」在「Document ...

Arena.ai@arena
659🔁 51
𝕏🔥

Simon Willison升級「Claude Token Counter」工具,揭露Claude Opus 4.7 tokenizer變化導致token數暴增,實際成本大幅上漲。 Simon Willison於2026年4月20日發...

Simon Willison@simonw
1.6k🔁 142
𝕏🔥🔥

我們是如何打造高 token 效率的記憶演算法 全新的 @mem0ai 記憶演算法在 LoCoMo、LongMemEval 和 BEAM 測試中達到了極具競爭力的準確度,且每個查詢使用的 token 數不到 7,000 個(約減少了 ...

mem0@mem0ai
125🔁 19
𝕏🔥

EvoForge:擴展演化式 Harness 優化 為什麼只優化一個 harness,而不試著同時優化多個呢?這就是 EvoForge:一個演化式 harness 優化器。 在 TerminalBench 2.0 測試中...

Leonard Tang@leonardtang_
214🔁 24
𝕏🔥

DDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...

Liran Ringel@liranringel
980🔁 132
𝕏🔥

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...

Han Fang@Han_Fang_
430🔁 64