# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-06-18

> 原始來源：https://x.com/OpenAI/status/2067346916929937827

## 中文摘要

OpenAI 推出 LifeSciBench 評估生命科學研究能力。

這項由 OpenAI 發布的基準測試，是與 173 位來自生物技術與製藥領域的科學家共同開發，涵蓋了七種生物研究工作流程，並包含 750 項由專家編寫的任務。該計畫的核心目的在於解決現有基準測試過於侷限於生物知識或單一 skill 的問題，轉而強調 AI 在真實研究情境下的推理與決策能力。

**評估核心重點**
LifeSciBench 測試模型在面對真實世界限制時的表現，具體評估指標包括：
- 基於科學證據進行推理的能力。
- 處理科學 asset 與相關 artifact 的能力。
- 在資訊不確定性下的應對能力。
- 在實際操作限制下做出有效決策的能力。

**效能表現與反思**
根據初步測試結果，OpenAI 旗下的 GPT‑Rosalind 在所有七項工作流程中，表現皆優於 GPT‑5.5。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2e144865de8ed8f0.jpg)
> 在 LifeSciBench 評測中，GPT-Rosalind 的整體得分最高（約 63.5%），優於 GPT-5.5、Gemini 3.1 Pro 及 Grok 4.3。

 儘管取得了進展，OpenAI 仍坦言目前的模型在處理「高度依賴 artifact」、「設計密集型」以及「受限於操作流程」的任務上，仍有顯著的改進空間。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/048f14d442a4f9fc.jpg)
> 在 LifeSciBench 的七個科學工作流程評測中，GPT-Rosalind 的得分在所有項目上皆高於 GPT-5.5。

**未來發展願景**
OpenAI 表示，[LifeSciBench](https://openai.com/index/introducing-life-sci-bench/) 的推出不僅是為了建立更貼近現實的評估標準，更是為了與生命科學社群建立長期的合作關係。透過此基準測試，研究人員能更精確地衡量 AI 進展、識別技術缺口，並共同推動 AI 在科學研究領域的應用，以實現更廣泛的社會效益。

## 媒體內容

**在 LifeSciBench 評測中，GPT-Rosalind 的整體得分最高（約 63.5%），優於 GPT-5.5、Gemini 3.1 Pro 及 Grok 4.3。**

**數據表**

|   | GPT-Rosalind | GPT-5.5 | Grok 4.3 | Gemini 3.1 Pro |
| --- | --- | --- | --- | --- |
| Overall | 約 63.5% | 約 59% | 約 34% | 約 52% |

**在 LifeSciBench 的七個科學工作流程評測中，GPT-Rosalind 的得分在所有項目上皆高於 GPT-5.5。**

**數據表**

|   | GPT-Rosalind | GPT-5.5 |
| --- | --- | --- |
| Evidence Handling | 約 59% | 約 55% |
| Analysis | 約 54% | 約 49% |
| Design, Optimization, & Prediction | 約 55% | 約 49% |
| Reasoning | 約 61% | 約 54% |
| Validation & operations | 約 59% | 約 53% |
| Translation | 約 72% | 約 64% |
| Scientific Communication | 約 72% | 約 65% |

## 標籤

Benchmark, 研究論文, 新產品, OpenAI