# 策展 · X (Twitter) 🔥

> 作者：tokenbender (@tokenbender) · 平台：X (Twitter) · 日期：2026-05-08

> 原始來源：https://x.com/tokenbender/status/2052414405867122825

## 中文摘要

低秩電路條件化讓稠密模型能力從擴散狀態轉為可提取的緊湊因果遮罩。

**低秩電路條件化技術**  
研究團隊Abhishek Mishra與Krishna Pagare提出「低秩電路條件化」（low-rank circuit conditioning），這是一種約束式適配器更新方法，能保留模型輸出行為，同時重塑既有能力的內部表示方式。在基礎模型中，標準緊湊提取僅達29%恢復率；經條件化後，同樣提取流程從5.05%的MLP通道中實現91.33%自迴歸完整答案恢復。該方法證明，能將任務相關活動集中於可恢復通道，而非導致全球秩崩潰，為模型壓縮開闢新途徑，詳見[研究文章](https://tokenbender.com/posts/honey-i-shrunk-the-circuits/)。

**缺失的物件：任務級電路把手**  
稠密語言模型常以擴散結構承載能力，表面可用卻難以隔離、路由、更新或移除。既有工具如提示詞（Turner et al., 2023）、激活導向（Zou et al., 2023）、LoRA更新（Hu et al., 2021）或任務向量（Ilharco et al., 2023）僅能外部導向行為，無法提供可干預的小型因果基質。研究強調，我們需要更嚴格的「任務級電路把手」：模型內小型因果基質，能承載完整能力。先行工作如García-Carrasco et al. (2025)的剪枝、Gao et al. (2025)的權重稀疏變壓器，或Arora et al. (2026)的神經元基底稀疏電路追蹤雖具啟發，但未解決稠密模型中擴散能力的緊湊提取問題。本研究從此缺口切入，透過條件化讓擴散能力轉為緊湊因果遮罩，測試是否能使既有能力暴露為可壓縮物件。

**提取障礙：標準迴圈僅找到訊號而非電路**  
研究選用「雙數加法」（two-sum integer addition）作為審計任務，因其具備四項關鍵屬性：  
- **精確標籤**：電路是否產生行為有明確是非判斷。  
- **窮盡輸入空間**：可枚舉或乾淨抽樣全分布，避免幸運測試集誤導。  
- **可分層內部結構**：行為分解為獨立子決策，便於獨立檢驗。  
- **多token自迴歸輸出**：需逐token生成，每token條件於前者。  
實驗使用[Qwen/Qwen2.5-Math-1.5B](https://arxiv.org/abs/2409.12122)（Yang et al., 2024），基礎精確準確率達94.86%；早期Qwen3-1.7B（Yang et al., 2025）用於問題設定。標準後驗發現迴圈先歸因評分MLP通道（僅正確範例），聚合為候選遮罩，再透過干預外部部分進行因果測試（恢復率指干預後精確任務準確率）。  

圖3顯示歸因提出遮罩，干預測試其因果性。高歸因不保證恢復，因下游通道可能繼承訊號。反事實修補（counterfactual patching）：保留通道收目標範例激活，其餘收匹配反事實激活，測試是否保留目標行為。  

**表1：MLP通道恢復前沿移轉**  
| 設定 | MLPs | MLP 佔比 | 恢復率 | 程序/解釋 |  
| --- | ---: | ---: | --- | --- |  
| Base compact mask | 14,436 | 5.75% | 29.00% | 直接緊湊組合遮罩；條件化前基準。 |  
| Base broad recovery mask | 227,320 | 90.61% | 99.53% | 高恢復僅在保留近全MLP宇宙時出現。 |  
| Conditioned MVC, rank-32 KL | 11,672 | 4.65% | 90.60% TF / 90.60% AR | 條件化遮罩後壓縮；最小達90%目標點。 |  
| Conditioned direct mask, rank-32 KL | 12,661 | 5.05% | 91.87% TF / 91.33% AR | 條件化模型上標準提取迴圈直接重跑。 |  

模型有28層，每層8,960 MLP通道，總計250,880通道。基礎緊湊遮罩崩潰，高恢復需過廣遮罩，無法作為電路把手。

**局部片段存在但無法組裝**  
全任務遮罩失敗後，檢查局部計算片段：逐位元輸出、進位傳播、結果長度轉換、溢出狀態。各子決策使用匹配正確範例（固定結果長度、提示token長度及其他答案位元），僅變更目標局部決策。  

- **溢出介面**最清晰：反事實干預下，小比例MLP通道恢復局部決策，排除歸因無結構的解釋。  
- **進位與溢出**展現緊湊勝利，普通位值決策仍擴散。  

片段無法組裝：聯集遮罩或生成時路由僅在大遮罩下運作。修復如教師強制前綴、順序介面追蹤、進位分層、衝突修剪、適應分裂搜尋、因果群組排序等改善診斷，但全任務緊湊恢復仍失敗。基礎表示暴露加法片段，卻無綁定計算使其成為任務級電路。

**重塑表示：低秩條件化而不教導**  
基礎模型暴露局部結構，卻無緊湊全任務遮罩，暗示表示基底與全行為錯位（參Elhage et al., 2021; 2022的疊加模型）。高基礎準確率允許條件化僅重塑表示，而非從零教導。  

附加低秩適配器（Hu et al., 2021; Kalajdzievski, 2023），以任務損失+KL項訓練（KL錨定基礎輸出分布，類知識蒸餾Hinton et al., 2015）。任務損失維持行為，KL維持錨定。  

**六步演算法**：  
1. 凍結基礎模型。  
2. 以任務損失+KL至基礎分布訓練低秩適配器。  
3. 掃描適配器合併尺度。  
4. 僅保留維持任務準確目標的尺度。  
5. 將最低KL存活尺度合併至基礎權重（標準LoRA合併）。  
6. 重跑原歸因、遮罩選擇、因果恢復迴圈。  

條件化僅為小幅表示移動，使用最低漂移尺度。與普通微調不同，此處行為已高準確，測試是否使既有行為可被相同提取迴圈恢復。

**最小可行電路（MVC）成果**  
條件化前，高恢復需90.61% MLP通道；條件化後，直接提取從12,661通道（5.05%）達91.87%教師強制/91.33%自迴歸恢復；壓縮MVC為11,672通道（4.65%）達90.60%。該遮罩在條件化模型有效，基礎/no-KL變體失敗，證明條件化改變表示而非僅揭示舊遮罩。圖4顯示rank-32 KL條件化移轉稀疏恢復前沿，控制組需170,000-180,000通道達90%，或緊湊規模失敗。

**消融實驗：僅rank-32 KL條件化奏效**  
**表2：變體緊湊恢復比較**  
| 變體 | 訓練變更 | 緊湊恢復 | 意涵 |  
| --- | --- | --- | --- |  
| Rank-32 KL LoRA | 低秩適配器+任務損失+KL；最低漂移合併尺度。 | 12,661 MLPs達91.33% AR；擠壓11,672通道達90.60%。 | 唯一緊湊>90%變體。 |  
| Rank-32 no-KL LoRA | 同秩/資料/適配器，無KL。 | 類似緊湊規模49.53%；90%需167,065 MLPs。 | 任務訓練不產生緊湊。 |  
| Lower-rank KL LoRA | 同KL，較小秩。 | 最佳低秩需170,259 MLPs達90.47%。 | KL需足夠秩重塑表示。 |  
| Full-parameter SFT | 全權重可訓。 | 90.80%需179,311 MLPs。 | 更多容量不意味可提取。 |  
| Wrong-task controls | 格式僅、複製、位元反轉、隨機標籤、next-token KL僅。 | 無稀疏算術遮罩；KL僅緊湊達11.40%。 | 任務特定，非泛KL/格式。 |  
| Behavioral SFT | 3位元失敗對SFT。 | 行為改善但無緊湊恢復。 | 準確提升≠緊湊電路。 |  
| Non-math replication | 非數學Qwen2.5-1.5B+額外監督。 | 非數學KL需114,026達90.07%；no-KL需157,696達89.67%；額外監督KL達88.47%於23,813。 | 預訓/監督影響條件化壓縮。 |  

秩掃描顯示「剛剛好」低秩區間：低秩KL動不了表示，全參SFT/no-KL給予過多自由，無緊湊基質。有效秩（Roy and Vetterli, 2007）未崩潰（條件化均值高於基礎），任務活動集中於遮罩（遮罩能量佔比從0.329升至0.462）。

**五項核心主張與未來方向**  
研究支持五主張：  
1. 模型可流暢執行行為，卻在其原生基底無緊湊任務電路。  
2. 局部算術介面可恢復，但無法組成全行為把手。  
3. KL約束下改變表示，可移轉稀疏恢復前沿，無變任務/提取迴圈。  
4. 效果非普通LoRA、全參SFT、遮罩大小或泛KL訓練解釋。  
5. 恢復物件為模型內因果基質，非獨立壓縮模型。  
方向為透過電路可提取性實現模型壓縮：條件化使能力對壓縮機械可见，下步為提取、更新、重用能力把手。

**附錄實驗年表：從訊號到緊湊電路的演進**  
實驗路徑排除簡化解釋：  
- **Exp1**：頂-k歸因找到訊號，但過大（Qwen3-1.7B需59,136通道>80%）。  
- **Exp2**：反事實修補使k=20,000達95%，但洩漏資訊，故作診斷。  
- **Exp3**：分解介面（如進位1.3%、溢出2%），組合仍僅29%（14,436通道）。  
- **Exp4**：rank-32 rsLoRA（尺度0.55，KL beta 0.05），12,661通道達91.33% AR。  
- **Exp4 controls**：no-KL僅49.53%，CKA顯示KL表示移動更遠卻保行為。  
- **Exp5**：3位元SFT提升準確（67.03%→99.60%，泛化至4位元加法60%→94%等），強調替換洩漏（均值消融82.7% vs. 零消融23.1%）。  
- **Exp6**：有效秩升（基礎9.878→rank-32 KL 11.789），遮罩能量0.329→0.462；低秩投影<稀疏遮罩。  
- **Exp6 controls**：遮罩不轉移；錯任務無稀疏算術。  
- **Exp7**：分進位狀態，全球遮罩97.65%（單進位）至88.62%（晚多進位）；路由未超91.33%。  
- **Exp8**：非數學模型KL需114,026達90.07%。  
- **Exp9**：L0閘門（Louizos et al., 2018）失敗於隨機/評估不配、閘門卡閉、lambda窄窗。  
- **Exp10**：Slot LoRA預配12,661通道複製結果，證非後驗選擇效應。  
年表确立：基礎有行為，局部片段可恢復，組合失敗，低秩KL條件化使全行為緊湊可提取，所有恢復均為約束模型任務準確率，自迴歸模式91.33%。

## 標籤

研究論文, LLM, 其他, AI Research
