AI 語音朗讀 · Edge TTS
使用 Gemini 3.1 Flash Live 建構即時對話式 Agent
今天,我們透過 Google AI Studio 中的 Gemini Live API 推出 Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 協助開發者建構即時語音和視覺 Agent,這些 Agent 不僅能處理周遭世界,還能以對話的速度回應。
這在延遲、可靠性和更自然的對話方面實現了質的飛躍,提供了下一代語音優先 AI 所需的品質。
體驗更佳的延遲、可靠性和品質
對於即時互動,每一毫秒的延遲都會破壞使用者所期望的自然對話流暢度。新模型能更好地理解語氣、強調和意圖,讓 Agent 具備以下關鍵改進:
在嘈雜的真實世界環境中,任務完成率更高:我們顯著提升了模型在即時對話中觸發外部工具和提供資訊的能力。透過更好地辨別相關語音與交通或電視等環境聲音,模型能更有效地過濾背景噪音,以保持可靠並回應指令。
更好的指令遵循能力:對複雜系統指令的遵循能力已顯著提升。您的 Agent 將保持在其操作護欄內,即使對話出現意想不到的轉折。
更自然、低延遲的對話:與 2.5 Flash Native Audio 相比,最新模型改進了延遲,並且在辨識音高和語速等聲音細微差別方面更有效,使即時對話感覺更加流暢和自然。
多語言能力:該模型支援超過 90 種語言,用於即時多模態對話。
看看 Gemini Live API 的實際應用
開發者正積極建構語音 Agent,這些 Agent 透過 Gemini Flash Live 模型以自然的流暢度和語速進行溝通,並可靠地執行動作。以下是一些使用該模型來驅動其對話互動的真實應用程式範例:
Stitch
透過 Gemini Live API,Stitch 現在讓其使用者能透過語音進行氛圍設計。該 Agent 可以「看」到畫布和選定的螢幕,並提供設計評論、建構變體等等。
Hey Ato
在這個示範中,為年長者設計的 AI 陪伴裝置 Ato,利用 Gemini 3.1 Flash Live 的多語言能力,將日常對話轉化為其使用者的真實連結。
Wits End
看看 Weekend 團隊如何整合 Gemini 3.1 Flash Live 強大的角色塑造和擬人化呈現,為其 RPG 遊戲《Wit’s End》中的遊戲主持人增添獨特的戲劇風格。
透過不斷擴展的整合生態系進行建構
Live API 專為生產環境而建,但真實世界的系統需要處理多樣化的輸入,從即時影片串流到隨選電話呼叫。
對於需要 WebRTC 擴展或全球邊緣路由的系統,我們建議探索我們的合作夥伴整合,以簡化即時語音和影片 Agent 的開發。

開始使用 Live API
Gemini 3.1 Flash Live 從今天起透過 Gemini API 和 Google AI Studio 提供。開發者可以使用 Gemini Live API 將模型整合到他們的應用程式中。
請觀看此影片教學,了解如何使用 Gemini 3 建構語音 Agent:
探索我們的開發者文件,了解如何建構即時 Agent。
Gemini Live API 文件:探索多語言支援、工具使用和函式呼叫、工作階段管理(用於管理長時間運行的對話)和 ephemeral token 等功能。
Gemini Live API 範例:從中獲取靈感,了解您今天可以使用該模型建構哪些語音體驗。
Gemini Live API Skill:供程式撰寫 Agent 學習並使用 Live API 進行建構。
開始使用 Google GenAI SDK:
import asyncio
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}
async def main():
async with client.aio.live.connect(model=model, config=config) as session:
print("Session started")
# Send content...
if __name__ == "__main__":
asyncio.run(main())
