# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：General Reasoning (@GenReasoning) · 平台：X (Twitter) · 日期：2026-04-09

> 原始來源：https://x.com/GenReasoning/status/2042204629321019537

## 中文摘要

**KellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。**

「KellyBench」是一個針對長期、非靜態環境設計的評測基準，旨在測試 AI 模型在真實體育博彩市場中的序列決策能力，結果顯示目前所有頂尖模型皆無法穩定獲利。

**評測機制與挑戰**
與傳統短週期、任務導向的評測不同，「KellyBench」要求模型在長達一整個賽季（2023-24 英超聯賽）的模擬環境中運作。模型需處理數百萬個 token，並進行 500 至 1,000 次工具呼叫，以完成包含資料分析、機器學習模型開發、風險管理及動態調整策略的複雜任務。這不僅是技術能力的考驗，更是對模型在不確定環境下長期規劃與適應能力的極限測試。

**模型表現與財務結果**
評測結果顯示，目前頂尖模型在該環境中表現慘澹：
- 所有接受測試的頂尖模型在賽季結束時均呈現虧損，多數模型甚至面臨破產。
- 表現最佳的「Claude Opus 4.6」與「GPT-5.4」是唯二未在所有測試中破產的模型，但其平均投資報酬率（ROI）仍分別為 -11% 與 -14%。
- 模型普遍缺乏連貫的長期行為，常出現無法將分析轉化為實際行動，或在環境變化時無法及時調整策略的問題。

**策略複雜度與改進空間**
為了排除回測變異數的影響，研究團隊諮詢量化博彩專家，建立了一套 44 項指標的「複雜度評分」（Sophistication Score）來評估模型策略。結果發現：
- 所有模型的策略複雜度均極低，最高分的「Claude Opus 4.6」僅獲得 32.6% 的分數。
- 數據顯示，複雜度評分與 ROI 呈正相關，且與破產率呈負相關，證明模型仍有極大的優化空間。
- 即使給予模型相關歷史文獻或使用更進階的程式開發工具，也未能顯著改善其虧損狀況，顯示模型在處理長期、開放式目標時存在系統性的能力缺口。

**對 AI 評測趨勢的反思**
研究團隊指出，當前 AI 領域過度聚焦於程序性任務，忽略了真實世界中對長期、不確定性決策的需求。他們呼籲評測文化應從固定的任務集轉向「複雜世界」（Complex Worlds），即透過模擬真實世界中需要持續學習與適應的環境，來測試 Agent 的真實能力。這項研究不僅是針對博彩市場的測試，更是對未來 Agent 系統在真實世界部署能力的一次嚴峻預警。

## 標籤

Benchmark, 研究論文, LLM, KellyBench
