Anthropic 推出 AI 模型「diff」工具,透過跨架構比對揭示模型獨有行為特徵
AI 語音朗讀 · Edge TTS
Anthropic 推出 AI 模型「diff」工具,透過跨架構比對揭示模型獨有行為特徵。
Anthropic 研究團隊開發了一種名為「模型 diffing」的技術,透過類比軟體開發中的「diff」概念,自動識別不同人工智慧模型架構間的獨有行為特徵,以解決傳統基準測試無法發現「未知的未知 (unknown unknowns)」風險的問題。
傳統測試的侷限性
傳統的基準測試依賴人工編寫,僅能檢測開發者已知且已定義的風險,無法應對模型突發的「未知的未知」行為。研究團隊指出,審計一個新模型如同在數百萬行程式碼中尋找安全漏洞,若缺乏明確目標,這幾乎是不可能的任務。軟體工程中的「diff」工具正是為了解決此類問題而生,透過僅審查變更的部分,大幅提升了審計效率。
模型 diffing 與 DFC 技術
研究團隊將此概念應用於神經網路,開發出「專用特徵交叉編碼器 (Dedicated Feature Crosscoder, DFC)」。傳統的交叉編碼器在處理不同架構模型時,容易強制將獨有特徵誤判為相似特徵,導致審計遺漏。DFC 架構透過將字典劃分為三個區塊,精確隔離模型間的差異:
- 共享字典:映射雙方皆理解的通用概念(如「水」、「太陽」)。
- 「法語區」:專屬該模型的獨有特徵區塊(如法語中的「dépaysement」)。
- 「英語區」:專屬另一模型的獨有特徵區塊(如英語中的「serendipity」)。
關鍵行為特徵發現
研究團隊透過 DFC 識別並驗證了多項控制模型行為的「開關」,這些特徵往往隱藏在模型內部,傳統測試難以察覺:
- 「中共對齊 (CCP alignment)」:存在於 Qwen3-8B 與 DeepSeek-R1-0528-Qwen3-8B 模型中,控制親政府的審查與宣傳行為。研究發現,抑制此特徵可使模型願意討論如天安門事件等敏感議題。
- 「美國例外論 (American exceptionalism)」:存在於 Meta Llama-3.1-8B-Instruct 模型中,控制模型對美國優越性的主張。
- 「版權拒絕機制 (Copyright Refusal Mechanism)」:存在於 OpenAI GPT-OSS-20B 模型中,控制模型拒絕提供版權內容的傾向。
技術限制與審慎評估
研究團隊強調,該方法並非萬靈丹,其審計結果需謹慎解讀:
- 高召回率篩選:單次 diff 可能產生數千個特徵,僅有少數對應實際的行為風險,因此該工具適合作為高召回率的篩選手段,而非最終審計結論。
- 起源不明:識別出的特徵並不代表其起源,這些行為可能是開發者刻意訓練的結果,也可能是訓練資料中無意間產生的副作用。
- 驗證機制:研究透過「steering(操控)」技術,即在模型運行時人工抑制或放大特定特徵,成功驗證了這些特徵與模型輸出行為之間的因果關係。
未來應用潛力
此技術為人工智慧安全審計提供了新的路徑,特別是在監控模型更新過程中的行為漂移。研究團隊建議,若能將此工具應用於模型更新的「diff」比對,開發者或許能在如 OpenAI GPT-4o 出現「諂媚 (sycophancy)」等不良行為前,自動觸發警報並提前介入,從而更智慧地分配有限的安全審計資源。
New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models.
— Anthropic (@AnthropicAI) April 3, 2026
We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each.
Read more: https://t.co/VAsu2PSgCX
If a new model shares a feature with a trusted model, that area probably doesn't need scrutiny.
— Anthropic (@AnthropicAI) April 3, 2026
Model diffing isolates the features unique to the new model—where new risks are most likely to be located.
For example, when we compared Alibaba's Qwen to Meta's Llama, we found a "CCP alignment" feature unique to Qwen and an "American exceptionalism" feature unique to Llama. pic.twitter.com/cZpL6PZY0g
— Anthropic (@AnthropicAI) April 3, 2026
This technique isn't perfect—it can be oversensitive, sometimes flagging analogous features as distinct. But by focusing only on differences, it allows us to audit AI models more efficiently.
— Anthropic (@AnthropicAI) April 3, 2026
This research is a product of our Anthropic Fellows program, led by @tomjiralerspong and supervised by @TrentonBricken.
— Anthropic (@AnthropicAI) April 3, 2026
See the full paper here: https://t.co/gz1i1Oy8ZI
