# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：ACE Music (@acemusicAI) · 平台：X (Twitter) · 日期：2026-04-08

> 原始來源：https://x.com/acemusicAI/status/2041764228739297376

## 中文摘要

ACE-Step 1.5 發布，引入 4B 參數 DiT 解碼器提升音樂生成品質。

ACE-Step 1.5 推出全新 XL 系列，透過將 DiT 解碼器擴展至 4B 參數，在保持高效能與相容性的同時，顯著提升了音訊品質、指令遵循能力與音樂性。此版本維持了與既有專案的高度相容性，使用者無需更動現有程式碼即可升級。

**XL 系列升級與效能**
此次更新的核心在於擴展後的 DiT 解碼器，旨在提供更優質的生成效果。
- 參數規模：DiT 解碼器擴展至 4B 參數，顯著提升音訊品質。
- 效能表現：透過 Turbo Distillation 技術，僅需 8 個步驟即可完成高品質生成，維持極高的生成速度。
- 相容性：所有 LM 模型（0.6B、1.7B、4B）均與 XL 系列完全相容，既有的生成 API 與 LoRA 訓練程式碼皆可直接沿用。

**技術架構與創新**
ACE-Step 1.5 採用創新的混合架構，將大型語言模型 (LM) 作為核心規劃者。
- 混合架構：LM 負責將使用者的簡單查詢轉化為詳細的音樂藍圖，涵蓋從短循環到 10 分鐘長度的樂曲，並透過「思維鏈」(Chain-of-Thought) 合成元資料、歌詞與標註，以引導擴散轉換器 (DiT)。
- 內在強化學習：模型透過內在機制進行對齊，完全依賴模型內部的演算法，排除了外部獎勵模型或人類偏好可能帶來的偏差。
- 多語言支援：模型能嚴格遵循 50 多種語言的提示詞。

**實際應用與硬體需求**
ACE-Step 1.5 強調商業可用性與對消費級硬體的友善度。
- 商業級輸出：模型生成品質超越多數商業音樂模型，並支援 1000 多種樂器與風格的細緻描述。
- 硬體門檻：基礎模型在本地運行時記憶體需求小於 4GB VRAM，XL 系列建議 12GB VRAM（搭配卸載與量化）或 20GB 以上 VRAM（無卸載）。
- 靈活控制：支援參考音訊輸入、翻唱生成、局部重繪 (Repaint)、人聲轉背景音樂 (Vocal2BGM) 及多軌生成等豐富編輯功能。
- 個人化訓練：使用者可透過少量歌曲訓練 LoRA，實現風格定製，且 Gradio UI 提供一鍵訓練功能。

**生態系統與資源支援**
ACE-Step 1.5 致力於打造開放的音樂生成生態，提供多種安裝與部署方式。
- 部署靈活：支援 Gradio Web UI、REST API、Python API 以及 VST3 plugin，方便整合至各類創作工作流。
- 跨平台支援：提供 Windows、macOS 與 Linux 的啟動腳本，並支援 CUDA、AMD ROCm、Intel XPU 與 CPU 等多種硬體後端。
- 社群與資源：官方提供詳細的技術文件、教學指南（包含 LoRA 訓練）以及 Benchmark 評測報告，並與 ComfyUI、Zilliz 等合作夥伴建立生態連結，使用者可透過 GitHub 或 Discord 獲取最新資訊與支援。

## 標籤

功能更新, AIGC, ACE-Step
