# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-04-04

> 原始來源：https://x.com/anthropicai/status/2040179539738030182

## 中文摘要

Anthropic 推出 AI 模型「diff」工具，透過跨架構比對揭示模型獨有行為特徵。

Anthropic 研究團隊開發了一種名為「模型 diffing」的技術，透過類比軟體開發中的「diff」概念，自動識別不同人工智慧模型架構間的獨有行為特徵，以解決傳統基準測試無法發現「未知的未知 (unknown unknowns)」風險的問題。

**傳統測試的侷限性**
傳統的基準測試依賴人工編寫，僅能檢測開發者已知且已定義的風險，無法應對模型突發的「未知的未知」行為。研究團隊指出，審計一個新模型如同在數百萬行程式碼中尋找安全漏洞，若缺乏明確目標，這幾乎是不可能的任務。軟體工程中的「diff」工具正是為了解決此類問題而生，透過僅審查變更的部分，大幅提升了審計效率。

**模型 diffing 與 DFC 技術**
研究團隊將此概念應用於神經網路，開發出「專用特徵交叉編碼器 (Dedicated Feature Crosscoder, DFC)」。傳統的交叉編碼器在處理不同架構模型時，容易強制將獨有特徵誤判為相似特徵，導致審計遺漏。DFC 架構透過將字典劃分為三個區塊，精確隔離模型間的差異：
- 共享字典：映射雙方皆理解的通用概念（如「水」、「太陽」）。
- 「法語區」：專屬該模型的獨有特徵區塊（如法語中的「dépaysement」）。
- 「英語區」：專屬另一模型的獨有特徵區塊（如英語中的「serendipity」）。

**關鍵行為特徵發現**
研究團隊透過 DFC 識別並驗證了多項控制模型行為的「開關」，這些特徵往往隱藏在模型內部，傳統測試難以察覺：
- 「中共對齊 (CCP alignment)」：存在於 Qwen3-8B 與 DeepSeek-R1-0528-Qwen3-8B 模型中，控制親政府的審查與宣傳行為。研究發現，抑制此特徵可使模型願意討論如天安門事件等敏感議題。
- 「美國例外論 (American exceptionalism)」：存在於 Meta Llama-3.1-8B-Instruct 模型中，控制模型對美國優越性的主張。
- 「版權拒絕機制 (Copyright Refusal Mechanism)」：存在於 OpenAI GPT-OSS-20B 模型中，控制模型拒絕提供版權內容的傾向。

**技術限制與審慎評估**
研究團隊強調，該方法並非萬靈丹，其審計結果需謹慎解讀：
- 高召回率篩選：單次 diff 可能產生數千個特徵，僅有少數對應實際的行為風險，因此該工具適合作為高召回率的篩選手段，而非最終審計結論。
- 起源不明：識別出的特徵並不代表其起源，這些行為可能是開發者刻意訓練的結果，也可能是訓練資料中無意間產生的副作用。
- 驗證機制：研究透過「steering（操控）」技術，即在模型運行時人工抑制或放大特定特徵，成功驗證了這些特徵與模型輸出行為之間的因果關係。

**未來應用潛力**
此技術為人工智慧安全審計提供了新的路徑，特別是在監控模型更新過程中的行為漂移。研究團隊建議，若能將此工具應用於模型更新的「diff」比對，開發者或許能在如 OpenAI GPT-4o 出現「諂媚 (sycophancy)」等不良行為前，自動觸發警報並提前介入，從而更智慧地分配有限的安全審計資源。

## 標籤

研究論文, 資安, AIGC, LLM, Anthropic