# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Alexander Whedon (@alex_whedon) · 平台：X (Twitter) · 日期：2026-05-06

> 原始來源：https://x.com/alex_whedon/status/2051663268704636937

## 中文摘要

SubQ 推出首款全次二次方稀疏注意力(SSA)模型，1200萬token上下文，宣稱52倍速FlashAttention、成本僅Opus 5%。

SubQ 是首個基於完全次二次方稀疏注意力(SSA)架構的前沿模型，強調長上下文處理效率，適用企業AI工作負載，但引發效能比較與獨立驗證質疑。

**SubQ 核心主張**  
SubQ 建構於 SSA (Subquadratic Sparse Attention)，這是線性擴展注意力機制，專為長上下文檢索、推理與軟體工程設計。作者 Alexander Whedon 宣稱，這是 LLM 智慧重大突破，因為 Transformer 基 LLM 浪費運算於每個詞彙間所有關係（標準注意力），僅少數真正重要；SubQ 只聚焦相關部分，據稱運算量近 1000 倍降低，提供 LLM 新擴展方式。模型具 1200 萬 token 上下文視窗，在 100 萬 token 時比 FlashAttention 快 52 倍，成本不到 Opus 的 5%。

**長上下文必要性與痛點**  
企業 AI 問題多為長上下文挑戰，如程式庫中函式定義、呼叫與測試分散；合約義務依賴多頁定義與例外；研究需整合多篇論文證據；長程程式任務涉及規劃、編輯與回歸。短上下文系統強迫碎片推理，RAG 遺失位置與參照結構，Agentic 工作流累積錯誤並需人工策劃，違反「苦課」(bitter lesson)。密集注意力每 token 比對全序列，成本隨長度平方成長，雙倍上下文使成本四倍；FlashAttention 優化執行但不改擴展法則，大多注意力權重近零，屬浪費性二次方。

**SSA 運作原理**  
SSA 採用內容依賴選擇，每查詢 (query) 選取值得關注序列位置，僅精確計算那些注意力，跳過無訊號互動。具三特性：  
- 運算與記憶體線性擴展，成本隨選取位置成長而非全序列。  
- 內容依賴路由，依意義決定關注位置，非位置預設。  
- 任意位置稀疏檢索，保留遠距特定資訊恢復能力。  
實測於 B200s 上，128K token 比 FlashAttention-2 輸入處理快 7.2 倍；256K 達 13.2 倍；512K 達 23.0 倍；1M token 達 52.2 倍預填充加速。

**先前架構妥協**  
過往效率架構皆犧牲檢索：  
- 固定模式稀疏注意力（如滑動視窗、步進、稀疏遮罩）預設路由，遺漏內容外資訊。  
- 狀態空間模型（如 Mamba）、遞迴替代（如 RWKV、Hyena、RetNet）壓縮狀態，遺失遠距精確事實。  
- 混合架構保留密集層，二次方成本仍主導。  
- DeepSeek Sparse Attention (DSA) 移二次方至 lightning indexer，仍 O(n²) 擴展。  
SSA 解決開放問題：高效、內容依賴、任意位置長上下文檢索。與 DSA 差異在 SSA 選擇器更高效，模型卡將公布硬數據。

**訓練流程**  
三階段訓練確保長上下文可靠：  
1. 預訓練建立語言建模與長上下文表示。  
2. 監督微調形塑指令遵循、結構推理與程式生成。  
3. 強化學習針對長上下文檢索與積極使用上下文的程式行為，防本地推理偏誤。  
訓練資料強調高密度跨參照長形式來源。基礎設施支援 1M token 穩定訓練，線性記憶體擴展，使用分散序列並行分片超單裝置序列，加速反覆實驗。

**效能基準結果**  
- **運算速度**：1M token 預填充 52.2 倍加速，變互動工具而非批次作業。  
- **RULER**：測試多跳檢索、聚合、變數追蹤、選擇過濾。  
- **MRCR v2**：最嚴苛，多證據整合；SubQ 達 65.9%，Opus 4.6 則為 78.3%，顯示功能性上下文而非名義視窗的重要性。  
- **SWE-Bench Verified**：針對 End to End (端到端) GitHub 議題程式工程設計，旨在測試程式庫理解、錯誤定位與修補能力。  
JasOberoiTweets 指出 MRCR v2 落後 Opus，視為成本/效率勝而非品質躍升；52x 比較 FlashAttention（密集優化，非競爭架構）設低門檻，Whedon 回應意在示範非僅理論加速。

**早期存取與資源**  
SubQ 與程式 Agent「SubQ Code」開放早期存取，連結：[立即取得存取](https://subq.ai/) 。技術部落格詳解 SSA：[SSA 如何讓長上下文實用](https://subq.ai/how-ssa-makes-long-context-practical) （2026 年 5 月 5 日）。模型卡下週發布，歡迎特定細節請求；Whedon 答疑。基準使用 B200s 與 FlashAttention-2，因 FA4 未出，正整合 FA4。

**社群質疑與回應**  
JasOberoiTweets 問模型大小與第三方驗證，Whedon 未直接答，僅辯 FlashAttention 比較為高門檻示範。elie 比擬 DSA，問取代 O(L^2) lightning indexer 與記憶體移動，Whedon 確認選擇器更高效，將公布數據；提及激進記憶體研究需從零訓練。PratyushRT 問為何不用更新實作，Whedon 稱基準時 FA4 未出。針對社群對其技術本質的討論，目前尚無公開證據證實其架構與既有開源權重或特定稀疏注意力模型的關聯，相關技術細節仍待模型卡發布後進一步釐清。JasOberoiTweets 的方法論質疑（稀疏本贏密集加速，不反映 vs. 其他稀疏優勢）僅簡單回應，凸顯宣傳 vs. 嚴謹差距。

**產業啟示與隱憂**  
SSA 降低推理與學習長上下文成本，讓百萬 token 常態化，反覆開發加速。但宣傳強調「首款」與「突破」，卻未充分對比 DSA/V4 等，MRCR v2 落後 Opus 顯示非全面品質躍升。歷史顯示純次二次方常止步前沿規模，SubQ 需模型卡與第三方驗證證明跨牆。儘管效率勝猶佳，讀者應審視「功能性上下文」主張，防名義視窗誤導；這反映企業 AI 推長上下文解決方案的熱切，伴隨架構創新與驗證張力。

**提醒**  
在模型卡與第三方驗證出來之前，這篇可以當作 SubQ 的技術定位聲明來讀，但別當作架構優劣的定論。

## 標籤

LLM, 新產品, 研究論文, SubQ