# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-06-09

> 原始來源：https://x.com/AnthropicAI/status/2064054837294354677

## 中文摘要

Anthropic 指出生物資料庫缺乏 Agent 友善建設。

**核心觀點**
Anthropic 研究團隊指出，AI 在程式開發領域進展神速，是因為軟體工程具備標準化 API、版本控制與可驗證的測試輸出；反觀生物學資料庫如同「汽車發明前的古老城市」，充滿破碎的檔案格式與隱晦的網頁互動邏輯，迫使 Agent 必須像人類一樣透過瀏覽器手動點擊，難以實現自動化與精確檢索。

**研究發現**
研究團隊開發了「VirBench」基準測試，評估 Claude Sonnet 4、Claude Opus 4.7、Biomni OSS、Edison Analysis、GPT-5.2-pro 與 GPT-5.5 等 Agent 在 NCBI Virus 資料庫的檢索能力：
- 即使是最強大的模型，在缺乏輔助工具時，檢索準確率仍不穩定，且同一問題重複詢問會產生不同結果。
- 檢索錯誤會導致嚴重的下游影響，例如在病毒溯源分析中，因資料不全導致推算的病毒起源時間出現數十年的偏差。
- 實驗證實，生物學 Agent 的瓶頸不在於推理能力，而在於缺乏「決定論式（deterministic）的執行層」。

**解決方案**
為了改善此現狀，團隊與 NCBI 合作開發了 `gget virus` 工具，作為 Agent 與複雜資料庫之間的橋樑：
- `gget virus` 整合了 REST、Datasets 與 E-utilities 等多種 API，將原本需要人工點擊的複雜篩選邏輯，轉化為機器可直接呼叫的介面。
- 導入 `gget virus` 後，所有測試模型的準確率均提升至 90% 以上，最高達到 99.7%，且大幅消除了模型間的表現差異。

**未來展望**
Anthropic 強調，若要讓 Agent 有效協助科學發現（如疫情監控、藥物設計），必須將底層的資料檢索邏輯從「依賴模型推理」轉向「依賴可靠的決定論式工具」。這類基礎建設的建置，將是未來 AI 科學研究能否從實驗室走向實務應用的關鍵。

## 標籤

Agent, 研究論文, Benchmark, 產業趨勢, Anthropic, Claude, VirBench
