Google 發布 Lyria 3 音樂生成模型,開發者可透過 Gemini API 存取
Google 正式公開推出 Lyria 3 系列音樂生成模型,使開發者能透過 Gemini API 和 Google AI Studio 存取,標誌著 AI 音樂創作工具向開發者社群的又一次擴展。該系列提供兩款模型,分別針對不同使用情境優化,定價模型簡明——Lyria 3 Clip 每首 $0.04,Lyria 3 Pro 每首 $0.08。
模型架構與功能定位
Lyria 3 系列採取雙模型策略,各司其職:
- Lyria 3 Clip 專為短片段、迴圈和預覽設計,固定生成 30 秒 MP3 格式音訊,強調速度和高容量請求的優化
- Lyria 3 Pro 為旗艦級模型,可生成約 3 分鐘長度的完整歌曲(可透過提示詞控制時長至約 2 分鐘),支援 MP3 和 WAV 輸出,具備工作室級結構化認知能力
兩款模型均能從文字提示或影像生成 48kHz 高保真立體聲音訊,支援逼真人聲、多語言歌詞生成,以及包含詩節、副歌和橋段的完整樂器編排。
精確控制與多模態能力
Lyria 3 引入了多層控制維度,使開發者能透過自然語言精確指導生成過程:
- 節奏調控:設定特定 BPM(如「120 BPM」或「70 BPM 的緩慢節奏」),確保音樂符合應用需求
- 時間對齊歌詞:使用時間戳記和段落標籤([Verse]、[Chorus]、[Bridge])控制歌詞在軌道中的具體開始與結束時刻
- 多模態圖像轉音樂:支援上傳最多 10 張影像,模型將根據視覺內容生成具有相應氛圍與風格的音樂
模型在生成前會分析提示詞並推理樂曲結構(前奏、詩節、副歌、橋段等),確保結構一致性和樂感,但不向使用者暴露中間的「思考」步驟。
開發者工具與實踐指引
Google AI Studio 提供專用音樂生成介面,包括「文字模式」(使用自然語言描述,含 Tempo、Key 等參數)和「Composer 模式」(逐段構建樂曲,對每個部分的時間、強度和描述進行細粒度控制)。官方建議開發者先用 Lyria 3 Clip 快速迭代測試提示詞效果,再提交到 Pro 模型進行完整長度生成,以平衡實驗成本和品質。提示詞越具體效果越佳,應包含風格、樂器、BPM、調性、氛圍與結構等要素。
技術限制與安全機制
該模型存在明顯的設計限制。首先,所有生成音訊均包含 SynthID 音訊浮水印以識別 AI 生成內容(人耳無法察覺),但無法編輯;其次,音樂生成為單一步驟過程,不支援多輪迭代編輯;再者,結果具有非確定性,相同提示詞可能產生不同輸出。安全過濾機制會阻止請求特定藝術家聲音或生成受版權保護歌詞的提示詞。此外,Lyria 3 Pro 的最大長度約 3 分鐘,但可透過提示詞施加影響。
應用案例與業界合作姿態
Google 在 AI Studio 中展示了兩個實例應用:影片背景音樂生成(由 Gemini 3 Flash 分析影片並生成描述性提示詞,再由 Lyria 合成配樂)和個人鬧鐘應用(每日合成新歌曲,融入天氣、位置、時間和日曆事件等資訊)。官方聲明與業界專家密切合作開發此工具,旨在使 AI 成為人類創意的「附加力量」而非替代。SynthID 浮水印技術的引入反映了對透明度和信任的重視——允許任何人識別和驗證 Google AI 生成的音訊,即使在音訊被修改後亦可追蹤。
Today, we’re releasing Lyria 3 music generation models (Pro/Clip) in @GoogleAIStudio and Gemini API! 🎵
— Philipp Schmid (@_philschmid) March 25, 2026
- Lyria 3 Pro generates full songs (minutes, controllable via prompt), $0.08/song.
- Lyria 3 Clip creates 30-second audio clips, $0.04/song.
- Control tempo, time-aligned… pic.twitter.com/6SOIEV4DUj
Docs: https://t.co/B7o3oPtXZi
— Philipp Schmid (@_philschmid) March 25, 2026
Blog: https://t.co/VI60xmLcue
