# Anthropic推出BioMysteryBench評測，Claude最新模型解決專家卡住的23題中約30%，超越人類專家

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Anthropic (@AnthropicAI) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-04-30

> 原始來源：https://x.com/AnthropicAI/status/2049624600741560340

## 證據與延伸閱讀

- [Claude解決專家卡住的23題中約30%](https://x.com/AnthropicAI/status/2049624600741560340)
- [BioMysteryBench由99道問題組成](https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench)

## 中文摘要

Anthropic推出BioMysteryBench評測，Claude最新模型解決專家卡住的23題中約30%，超越人類專家。

Anthropic發布BioMysteryBench生物資訊評測基準，針對Claude在真實生物資料分析上的表現進行嚴格測試。結果顯示，最新Claude世代不僅與專家水準相當，還在人類專家無法解決的23題中解決約30%，並以不同策略攻克多數剩餘問題。

**BioMysteryBench設計理念**

BioMysteryBench由領域專家撰寫的99道生物資訊問題組成，使用真實世界資料集，模擬開放式研究任務。Claude置於容器中，配備基本生物資訊工具、可透過pip與conda安裝額外工具，並能存取NCBI與Ensembl等資料庫下載參考基因組等資源。

**評測挑戰與生物學特性**

生物研究難以標準化評測，因為多種「正確」途徑存在、個人決策主觀且易導致噪音資料不同結論、人類尚未解答許多問題。Anthropic指出，現有基準如MMLU-Pro、GPQA、LAB-Bench測試知識與推理，但忽略論文閱讀、資料庫查詢、實驗執行與程式碼分析等真實工作流程；BLADE、BixBench、SciGym雖進化至代理與工具使用，卻仍未捕捉創造性解決混亂開放問題的能力。以metformin藥物反應為例，GWAS研究或腸道微生物組定序皆合理，但小決策差異（如2011年論文發現變異、2012年Diabetes Prevention Program無效、meta-analysis確認謹慎效應）即翻轉結論。

**BioMysteryBench獨特四特性**

BioMysteryBench克服上述難題，具備四項關鍵特性：
- **方法無關**：Claude享有下載工具與資料庫的相對自由，評分僅依最終答案，而非路徑，擺脫單一研究者主觀偏好。
- **客觀真值**：答案源自資料可控屬性或獨立驗證元資料，如「此晶體結構屬何生物？」或「基於RNA-seq資料，人類患者感染何病毒種？」（經PCR驗證）。
- **超人類問題生成**：問題源自資料屬性，不依賴人類可解，故包含少數人類專家難解或無法獨力解決的題目，儘管具客觀解答。
- **真實資料導向**：使用混亂真實生物系統資料，避免模擬如SciGym的控制噪音，測試模型在噪音環境的創造力。

**Claude表現超越專家**

在99題中，專家小組卡在23題，Claude最新模型解決其中約30%，並攻克多數其餘問題，有時採取與人類迥異策略。Claude世代間能力快速提升，目前不僅可靠解決人類可解多數問題，在人類困難任務上超越五人專家小組。Anthropic強調，這證明模型不僅追平訓練科學家，在某些生物資訊任務已領先。

**科學評測演進脈絡**

自大型語言模型問世，人們即比較其與專家，如通過律師考試、醫師執照題或奧林匹克數學題。基準競爭雖激烈（如模型發布系統卡與線上排行榜），但核心在驗證模型是否足夠可靠，支持或產生專業水準科學工作。科學家已用模型撰寫分析管道程式碼、提出假說、從資料推論，旨在加速創新發現。早期基準如MMLU-Pro測試專家知識，GPQA為「防Google」研究生題，LAB-Bench專攻生物文獻閱讀、圖表解讀與協議推理；代理時代新增FrontierScience與Humanity's Last Exam等嚴苛科學推理評測。進階基準如BLADE給定資料集與開放任務，檢查模型步驟是否類人類；BixBench用生物資料評結論一致性；SciGym置模型於模擬生物實驗室，自行設計執行實驗揭隱藏機制。

**生物評測痛點剖析**

Anthropic反思，科學無標準考試如醫師板考或律師酒吧考，生物尤難評測：
- 多途徑正解：metformin反應機制可GWAS尋基因變異或腸道菌群定序，依專家背景、資源與品味而定；BixBench評結論而非方法，但結論受主觀選擇影響。
- 主觀決策放大噪音：生物資料噪音大，小差異生大分歧，如metformin十年搜尋中研究設計微調即推翻結論。
- 人類未解難題最大價值：如metformin作用機制三十年不明，揭之或合成廉價穩定同源物具重大影響。機器學習擅長人類弱項如序列預測與蛋白質建模（ProteinGym用Deep Mutational Scanning為真值，CASP比未發表晶體結構），但限窄任務，未涵蓋廣泛生物資訊工作。

**未來科學AI基準展望**

BioMysteryBench雖非完美，卻是科學能力鼓舞性指標，證明Claude世代進步迅猛，從追隨專家轉為領先。Anthropic呼籲持續基準開發，特別代理科學領域，無如SWE-bench般典範基準，BioMysteryBench填補空白，強調真實資料、創造解決與超人類潛力。透過此評測，AI在生物研究正從輔助工具蛻變為創新驅動者。

## 標籤

研究論文, Benchmark, AIGC, Anthropic, Claude