策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 29 篇
Benchmark
熱度
排序
𝕏🔥
auto-harness:具備自動評估功能的自我優化 Agent 系統(已開源!) 連接您的 Agent,讓它在週末期間自行運作。我們剛剛開源了我們的 auto-harness——這是一個自我優化的迴圈,能找出 Agent 的失敗之處...
@gauri__gupta♥1.1k🔁 125
𝕏🔥
規劃基準測試顯示工具選擇與使用模式對 AI 效能影響巨大。 Matt Maher 的最新基準測試顯示,人工智慧模型的規劃能力不僅取決於模型本身,更受限於所使用的工具與工作流程。測試結果表明,工具選擇與使用模式對最終產出的影響,甚至超過...
@edwinarbus♥1.3k🔁 118
𝕏🔥
Kaggle 正式推出「Standardized Agent Exams (SAE)」實驗性 MVP,旨在為開發者提供一套輕量、無需繁瑣設定的標準化評測機制,以即時評估 AI Agent 的實戰能力並公開排名。此舉意在解決當前評測基準多針對...
@kaggle𝕏🔥
「H Company」於 2026 年 3 月 31 日發布了全新「Holo3」系列電腦操作模型,該模型在「OSWorld-Verified」基準測試中取得 78.9% 的高分,以僅十分之一的成本超越了「GPT-5.4」與「Opus 4.6...
@hcompany_ai♥2.1k🔁 279
𝕏🔥
whatcanirun 是一個開源專案,旨在幫助使用者找到最適合在本地硬體上執行的人工智慧模型。平台透過社群基準測試資料進行彙整,讓使用者能根據真實數據選擇最優模型。核心運作流程為:使用者在本地執行和提交基準測試、統計資料根據模型和裝置進行...
@fiveoutofnine♥1.6k🔁 123