# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-05-08

> 原始來源：https://x.com/AnthropicAI/status/2052494460966019137

## 中文摘要

Anthropic 捐贈開源對齊工具 Petri 給 Meridian Labs，並發布 Petri 3.0 重大更新。

Anthropic 於 2025 年 10 月推出開源對齊測試工具「Petri」，現捐贈給非營利組織 Meridian Labs 以確保獨立發展，並同步發布 Petri 3.0 版本，提升測試的適應性、真實性和深度。此舉延續 Anthropic 推動開放對齊工具的努力，讓整個人工智慧社群受益。

**Petri 開發背景**  
Petri 源自 Anthropic Fellows 計劃，作為大型語言模型的開源對齊測試工具箱，可快速測試模型在欺騙（deception）、諂媚（sycophancy）及配合有害請求等問題傾向。自 Claude Sonnet 4.5 以來，Petri 已納入每款 Claude 模型的對齊評估流程：獨立的「auditor」模型模擬對齊相關情境，生成目標模型行為記錄，再由「judge」模型評分轉錄內容中的不對齊行為。外部機構如英國 AI 安全研究所（AISI）已廣泛採用 Petri，作為評估模型破壞 AI 研究傾向的核心工具。

**Petri 3.0 主要更新**  
Petri 3.0 帶來三大關鍵改進，解決既有測試的局限性：  
- **適應性**：重大架構變更，將 auditor 模型與目標模型分離為獨立元件，使用者可分別調整，適用更多情境。  
- **真實性**：新增「Dish」附加模組，使用模型真實系統提示（system prompt）和真實部署中的「scaffold」（包裝模型軟體），避免人工設定洩漏測試痕跡，讓模型無法察覺評估，從而觀察其一般行為。  
- **深度**：整合另一開源工具 Bloom，提供特定行為的深入評估，補足 Petri 廣泛掃描的不足。

**捐贈與獨立發展**  
Anthropic 將 Petri 移交 Meridian Labs，這類似先前捐贈 Model Context Protocol (MCP) 給 Linux Foundation 的作法，確保工具脫離單一 AI 實驗室影響，維持產業中立與公信力。在 Meridian Labs 生態中，Petri 將與 Inspect 和 Scout 等工具組成開放技術堆疊，供實驗室、獨立研究者和政府使用，尤其在可靠 AI 行為測試需求空前時刻。

**使用資源**  
安裝與使用 Petri 的指示見 [Petri 網站](https://petri.meridianlabs.org/)。更多 Petri 3.0 細節，請參閱 [Meridian Labs 部落格](https://www.meridianlabs.org/blog/petri-3-0)。詳細公告見 [Anthropic 研究頁面](https://www.anthropic.com/research/donating-open-source-petri)。

## 標籤

開源專案, 功能更新, Anthropic, Petri, Meridian Labs