# 策展 · X (Twitter) 🔥

> 作者：Yuma Ichikawa (@yuma_1_or) · 平台：X (Twitter) · 日期：2026-04-30

> 原始來源：https://x.com/yuma_1_or/status/2049410453412200956

## 中文摘要

Fujitsu「OneComp v1.1.0」發布，一行指令自動壓縮生成式AI模型至1/4大小，支援Gemma系列並優化日文效能。

Fujitsu Research推出的開源Python套件「OneComp」，解決大型語言模型（LLM）部署時的記憶體、延遲與硬體成本瓶頸，透過一行指令自動偵測GPU VRAM、選擇每層最佳位元寬度、執行量化並評估保存，讓壓縮從專家工作流程轉為可重現的資源自適應管線。v1.1.0版本新增LPCD等次世代方法，使用日本校準資料將Gemma模型壓縮至原大小約1/4，保留日文效能甚至在日文程式撰寫上超越原版；在日文MT-Bench評測中展現優異成果。

**一行指令核心運作**  
OneComp簡化LLM壓縮為單一命令：  
```bash  
onecomp gemma-4-31B  
```  
或Python API：  
```python  
from onecomp import Runner  
Runner.auto_run(model_id="meta-llama/Llama-2-7b-hf")  
```  
系統自動檢查模型、依VRAM規劃混合精度分配、執行漸進量化階段，從層級壓縮到區塊精煉與全域優化，將首個量化檢查點視為可部署樞紐，每階段皆改善同一模型，投入更多運算即提升品質。此設計將最新壓縮研究轉化為硬體感知管線，彌補演算法創新與生產部署間的鴻溝。

**v1.1.0全新量化方法**  
版本更新引入Fujitsu次世代技術，提升子模組級PTQ（後訓練量化）：  
- **LPCD (Fujitsu)**：層投影座標下降法，統一PTQ框架，將層級量化擴展至任意子模組，優化放寬目標並以層級量化器投影解；詳見[Ichikawa et al., arXiv:2512.01546](https://arxiv.org/abs/2512.01546)。  
- **BlockWisePTQ**：跨區塊優化，包含Phase 1（每區塊貪婪優化）與Phase 2 CBQ（跨區塊滑動視窗優化），最小化Transformer區塊粒度的中間表示MSE，對比FP16教師模型；支援GPTQ、DBF與OneBit量化器。  
- **Enhanced JointQ (Fujitsu)**：重要性感知正則化，同時優化權重分配與尺度參數，提升群組量化精度（如4-bit, groupsize=128）。  
- **Extended AutoBit (Fujitsu)**：混合群組大小的混合精度量化，基於ILP自動從VRAM估計目標位元寬度，每層分配以最小化量化誤差。  
這些方法在Gemma 2/3/4上驗證，使用日本校準資料壓縮後，日文MT-Bench分數超越原模型，尤其日文程式撰寫任務更勝一籌。

**量化錯誤傳播 (QEP)**  
核心技術QEP（Quantization Error Propagation）為後訓練量化方法，透過將量化誤差傳播至後續層修正，提升量化LLM準確度；源自[Arai & Ichikawa, NeurIPS 2025](https://openreview.net/forum?id=a3l3K9khbL)，原始實作為[FujitsuResearch/qep](https://github.com/FujitsuResearch/qep)。QEP解決傳統層級PTQ忽略更大子模組行為的問題，LPCD進一步泛化，優化跨子模組放寬目標並投影回層級量化器，維持效率與相容性；在多樣LLM架構與位元寬度下，LPCD子模組量化持續強化層級PTQ與既有方法。

**進階預處理與後處理**  
- **Rotation Preprocessing**：基於SpinQuant/OstQuant學習最佳旋轉矩陣，量化前減少誤差；旋轉/尺度矩陣吸收到模型權重，載入時自動註冊線上Hadamard hooks，支援Llama與Qwen3架構。  
- **LoRA SFT Post-Process**：量化後以LoRA適配器微調，恢復準確度或注入領域知識；支援SFT損失、教師蒸餾與中間區塊對齊。  
- **Block-wise PTQ**：後量化區塊級蒸餾，最小化對FP16教師的中間表示MSE。  
範例腳本涵蓋GPTQ + QEP + LPCD、JointQ、AutoBit自動VRAM估計、自訂校準資料等，詳見[GitHub範例](https://github.com/FujitsuResearch/OneCompression/tree/main/example)。

**支援模型與vLLM整合**  
已驗證架構：  
| # | 架構 | 驗證模型 | 狀態 |  
|---|------|----------|------|  
| 1 | Llama | TinyLlama, Llama-2, Llama-3 | ✅ 已驗證 |  
| 2 | Qwen3 | Qwen3-0.6B ~ 32B | ✅ 已驗證 |  
| 3 | Gemma | Gemma 2, Gemma 3, Gemma 4 | ✅ 已驗證 |  
內建vLLM plugin支援DBF與Mixed-GPTQ量化模型伺服，搭配[Open WebUI](https://github.com/open-webui/open-webui)實現本地ChatGPT式聊天介面：  
```bash  
uv sync --extra cu130 --extra vllm  # 或 pip install vllm  
```  
vLLM僅相容cu130（torch>=2.10），詳見[vLLM推論指南](https://FujitsuResearch.github.io/OneCompression/user-guide/vllm-inference/)。

**安裝與開發指南**  
使用者pip安裝：先裝PyTorch（CPU或CUDA 11.8/12.1/12.4/12.6/12.8/13.0），再`pip install onecomp`。  
開發者推薦uv（Rust快包管理器）：  
```bash  
curl -LsSf https://astral.sh/uv/install.sh | sh  
git clone https://github.com/FujitsuResearch/OneCompression.git  
cd OneCompression  
uv sync --extra cu128 --extra dev --extra visualize  
```  
`--extra cu128`自動下載對應CUDA PyTorch；`--extra vllm`限cu130；執行`uv run pytest tests/ -v`或啟用venv傳統方式。文件建置：`uv sync --extra docs && uv run mkdocs serve`，瀏覽http://127.0.1:8000。完整文件：[https://FujitsuResearch.github.io/OneCompression/](https://FujitsuResearch.github.io/OneCompression/)。

**開源資源與引用**  
- OSS：[https://github.com/FujitsuResearch/OneCompression](https://github.com/FujitsuResearch/OneCompression)  
- 技術報告：[OneComp: One-Line Revolution for Generative AI Model Compression, arXiv:2603.28845 (2026)](http://arxiv.org/abs/2603.28845)，作者Yuma Ichikawa等14人。  
- LPCD論文：[arXiv:2512.01546 (2025)](https://arxiv.org/abs/2512.01546)。  
- QEP：[NeurIPS 2025](https://openreview.net/forum?id=a3l3K9khbL)。  
名稱「OneComp」呼應日文狗叫「wan! 🐶」，象徵日本原生工具的親切高效，歡迎貢獻額外架構測試報告。

## 標籤

CLI, LLM, 功能更新, 開源專案, Deployment, Fujitsu, Gemma