策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 29 篇

Benchmark

熱度

排序

auto-harness：具備自動評估功能的自我優化 Agent 系統（已開源！）連接您的 Agent，讓它在週末期間自行運作。我們剛剛開源了我們的 auto-harness——這是一個自我優化的迴圈，能找出 Agent 的失敗之處...

@gauri__gupta

♥1.1k🔁 125

規劃基準測試顯示工具選擇與使用模式對 AI 效能影響巨大。 Matt Maher 的最新基準測試顯示，人工智慧模型的規劃能力不僅取決於模型本身，更受限於所使用的工具與工作流程。測試結果表明，工具選擇與使用模式對最終產出的影響，甚至超過...

@edwinarbus

♥1.3k🔁 118

Kaggle 正式推出「Standardized Agent Exams (SAE)」實驗性 MVP，旨在為開發者提供一套輕量、無需繁瑣設定的標準化評測機制，以即時評估 AI Agent 的實戰能力並公開排名。此舉意在解決當前評測基準多針對...

@kaggle

「H Company」於 2026 年 3 月 31 日發布了全新「Holo3」系列電腦操作模型，該模型在「OSWorld-Verified」基準測試中取得 78.9% 的高分，以僅十分之一的成本超越了「GPT-5.4」與「Opus 4.6...

@hcompany_ai

♥2.1k🔁 279

whatcanirun 是一個開源專案，旨在幫助使用者找到最適合在本地硬體上執行的人工智慧模型。平台透過社群基準測試資料進行彙整，讓使用者能根據真實數據選擇最優模型。核心運作流程為：使用者在本地執行和提交基準測試、統計資料根據模型和裝置進行...

@fiveoutofnine

♥1.6k🔁 123