ACE-Step 1.5 發布，引入 4B 參數 DiT 解碼器提升音樂生成品質

ACE Music

@acemusicAI

♥227🔁 47

𝕏 (Twitter)🔥🔥🔥2026年4月8日

📎 來源文章 ↗查看原文 ↗

AI 中文摘要Claude 生成

ACE-Step 1.5 發布，引入 4B 參數 DiT 解碼器提升音樂生成品質。

ACE-Step 1.5 推出全新 XL 系列，透過將 DiT 解碼器擴展至 4B 參數，在保持高效能與相容性的同時，顯著提升了音訊品質、指令遵循能力與音樂性。此版本維持了與既有專案的高度相容性，使用者無需更動現有程式碼即可升級。

XL 系列升級與效能
此次更新的核心在於擴展後的 DiT 解碼器，旨在提供更優質的生成效果。

參數規模：DiT 解碼器擴展至 4B 參數，顯著提升音訊品質。
效能表現：透過 Turbo Distillation 技術，僅需 8 個步驟即可完成高品質生成，維持極高的生成速度。
相容性：所有 LM 模型（0.6B、1.7B、4B）均與 XL 系列完全相容，既有的生成 API 與 LoRA 訓練程式碼皆可直接沿用。

技術架構與創新
ACE-Step 1.5 採用創新的混合架構，將大型語言模型 (LM) 作為核心規劃者。

混合架構：LM 負責將使用者的簡單查詢轉化為詳細的音樂藍圖，涵蓋從短循環到 10 分鐘長度的樂曲，並透過「思維鏈」(Chain-of-Thought) 合成元資料、歌詞與標註，以引導擴散轉換器 (DiT)。
內在強化學習：模型透過內在機制進行對齊，完全依賴模型內部的演算法，排除了外部獎勵模型或人類偏好可能帶來的偏差。
多語言支援：模型能嚴格遵循 50 多種語言的提示詞。

實際應用與硬體需求
ACE-Step 1.5 強調商業可用性與對消費級硬體的友善度。

商業級輸出：模型生成品質超越多數商業音樂模型，並支援 1000 多種樂器與風格的細緻描述。
硬體門檻：基礎模型在本地運行時記憶體需求小於 4GB VRAM，XL 系列建議 12GB VRAM（搭配卸載與量化）或 20GB 以上 VRAM（無卸載）。
靈活控制：支援參考音訊輸入、翻唱生成、局部重繪 (Repaint)、人聲轉背景音樂 (Vocal2BGM) 及多軌生成等豐富編輯功能。
個人化訓練：使用者可透過少量歌曲訓練 LoRA，實現風格定製，且 Gradio UI 提供一鍵訓練功能。

生態系統與資源支援
ACE-Step 1.5 致力於打造開放的音樂生成生態，提供多種安裝與部署方式。

部署靈活：支援 Gradio Web UI、REST API、Python API 以及 VST3 plugin，方便整合至各類創作工作流。
跨平台支援：提供 Windows、macOS 與 Linux 的啟動腳本，並支援 CUDA、AMD ROCm、Intel XPU 與 CPU 等多種硬體後端。
社群與資源：官方提供詳細的技術文件、教學指南（包含 LoRA 訓練）以及 Benchmark 評測報告，並與 ComfyUI、Zilliz 等合作夥伴建立生態連結，使用者可透過 GitHub 或 Discord 獲取最新資訊與支援。

ACE-Step-1.5-xl is out now.

We scaled the DiT decoder to 4B. And it shows better audio quality, better prompt following, and better musicality. It still fast -- 8 steps with turbo distillation.

What didn't change:
- Same generation API, same LoRA training code, same everything… pic.twitter.com/P0YUFseEQ3
— ACE Music (@acemusicAI) April 8, 2026

延伸閱讀

ACE-Step 1.5引入4B DiT解碼器

github.com