ACE-Step 1.5 發布,引入 4B 參數 DiT 解碼器提升音樂生成品質
AI 中文摘要Claude 生成
ACE-Step 1.5 發布,引入 4B 參數 DiT 解碼器提升音樂生成品質。
ACE-Step 1.5 推出全新 XL 系列,透過將 DiT 解碼器擴展至 4B 參數,在保持高效能與相容性的同時,顯著提升了音訊品質、指令遵循能力與音樂性。此版本維持了與既有專案的高度相容性,使用者無需更動現有程式碼即可升級。
XL 系列升級與效能
此次更新的核心在於擴展後的 DiT 解碼器,旨在提供更優質的生成效果。
- 參數規模:DiT 解碼器擴展至 4B 參數,顯著提升音訊品質。
- 效能表現:透過 Turbo Distillation 技術,僅需 8 個步驟即可完成高品質生成,維持極高的生成速度。
- 相容性:所有 LM 模型(0.6B、1.7B、4B)均與 XL 系列完全相容,既有的生成 API 與 LoRA 訓練程式碼皆可直接沿用。
技術架構與創新
ACE-Step 1.5 採用創新的混合架構,將大型語言模型 (LM) 作為核心規劃者。
- 混合架構:LM 負責將使用者的簡單查詢轉化為詳細的音樂藍圖,涵蓋從短循環到 10 分鐘長度的樂曲,並透過「思維鏈」(Chain-of-Thought) 合成元資料、歌詞與標註,以引導擴散轉換器 (DiT)。
- 內在強化學習:模型透過內在機制進行對齊,完全依賴模型內部的演算法,排除了外部獎勵模型或人類偏好可能帶來的偏差。
- 多語言支援:模型能嚴格遵循 50 多種語言的提示詞。
實際應用與硬體需求
ACE-Step 1.5 強調商業可用性與對消費級硬體的友善度。
- 商業級輸出:模型生成品質超越多數商業音樂模型,並支援 1000 多種樂器與風格的細緻描述。
- 硬體門檻:基礎模型在本地運行時記憶體需求小於 4GB VRAM,XL 系列建議 12GB VRAM(搭配卸載與量化)或 20GB 以上 VRAM(無卸載)。
- 靈活控制:支援參考音訊輸入、翻唱生成、局部重繪 (Repaint)、人聲轉背景音樂 (Vocal2BGM) 及多軌生成等豐富編輯功能。
- 個人化訓練:使用者可透過少量歌曲訓練 LoRA,實現風格定製,且 Gradio UI 提供一鍵訓練功能。
生態系統與資源支援
ACE-Step 1.5 致力於打造開放的音樂生成生態,提供多種安裝與部署方式。
- 部署靈活:支援 Gradio Web UI、REST API、Python API 以及 VST3 plugin,方便整合至各類創作工作流。
- 跨平台支援:提供 Windows、macOS 與 Linux 的啟動腳本,並支援 CUDA、AMD ROCm、Intel XPU 與 CPU 等多種硬體後端。
- 社群與資源:官方提供詳細的技術文件、教學指南(包含 LoRA 訓練)以及 Benchmark 評測報告,並與 ComfyUI、Zilliz 等合作夥伴建立生態連結,使用者可透過 GitHub 或 Discord 獲取最新資訊與支援。
ACE-Step-1.5-xl is out now.
— ACE Music (@acemusicAI) April 8, 2026
We scaled the DiT decoder to 4B. And it shows better audio quality, better prompt following, and better musicality. It still fast -- 8 steps with turbo distillation.
What didn't change:
- Same generation API, same LoRA training code, same everything… pic.twitter.com/P0YUFseEQ3
