# 策展 · X (Twitter) 🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-07-01

> 原始來源：https://x.com/OpenAI/status/2072004836674167294

## 中文摘要

OpenAI 發布 GeneBench-Pro 評估 AI Agent 生物數據分析能力。

**核心目標與設計**
GeneBench-Pro 專為測試 AI 在計算生物學領域的「研究品味」（research taste）而設計，這不僅是執行預設工作流，更包含在模糊情境下修正假設、判斷數據品質及決定何時進入決策階段的能力。為了避免傳統基準測試中常見的評估偏差，該測試採用合成數據集，確保每個問題都有明確的因果結構，並透過詳細的追蹤分析（trace analysis）排除資訊洩漏或隨機猜測的可能性。

**評估架構與執行**
- 該基準包含 129 個問題，涵蓋基因體學、定量生物學及轉譯醫學。
- 每個問題均為獨立的科學分析任務，Agent 需在隔離的 `workspace` 中，利用標準生物資訊堆疊（如 Python 與 `PLINK 2.0`）進行運算。
- OpenAI 已將 10 個代表性問題開源至 [Hugging Face](https://huggingface.co/)，並計畫提供 50 個問題的子集給 [Artificial Analysis](https://artificialanalysis.ai/) 進行第三方評測。

**效能表現與研究意義**
- OpenAI 的最強模型 `GPT-5.6 Sol` 在啟用 Pro 模式下，於最高推理層級達到 31.5% 的通過率，相較於 `GPT-5` 時期的不到 5% 有顯著提升。
- 測試結果顯示，增加推理時的運算資源（test-time compute）能顯著提升 Agent 解決複雜問題的能力，且 `GPT` 系列模型在科學推理上的表現優於目前的開源模型。
- 儘管目前 AI Agent 尚未能完全取代人類專家，但考慮到每個問題的人類專家執行成本高達數千美元，而 AI 推論成本僅需數美元，GeneBench-Pro 的出現將有助於量化並改善 AI 在科學發現中的自動化潛力，加速從數據生成到決策的迭代週期。

## 標籤

Agent, 研究論文, Benchmark, OpenAI