AI 語音朗讀 · Edge TTS
聲音 Agent 的應用潛力
OpenAI 的 Realtime API 正在推動一種新的互動模式:透過語音啟用低延遲、多模態的對話應用。實際案例包括新加坡診所的預約 Agent,可自然地與患者交談、蒐集詳細資訊並即時預約掛號——這代表 Realtime API 已超越技術演示,進入解決實際業務問題的階段。
核心技術能力
Realtime API 的主要特性包括:
- 原生支援語音至語音的互動
- 多模態輸入支援(音訊、影像、文字),以及多模態輸出(音訊、文字)
- 即時音訊轉錄功能
- 低延遲通訊設計
這些能力使開發者能建立在瀏覽器和伺服器端都可運行的對話應用。
開發者入門方案
官方建議使用 TypeScript 的 Agents SDK 作為最快的起點。SDK 在瀏覽器使用 WebRTC 連線,在伺服器端使用 WebSocket,並可透過簡單程式碼直接整合麥克風和音訊輸出:
import { RealtimeAgent, RealtimeSession } from "@openai/agents/realtime";
const agent = new RealtimeAgent({
name: "Assistant",
instructions: "You are a helpful assistant.",
});
const session = new RealtimeSession(agent);
await session.connect({ apiKey: "<client-api-key>" });
連線介面的多樣化選擇
根據應用場景,Realtime API 提供三種主要連線方式:
- WebRTC 連線:適合瀏覽器和客戶端與 Realtime 模型的互動
- WebSocket 連線:適合具備穩定低延遲網路的伺服器端應用
- SIP 連線:適合 VoIP 電話系統整合
這種靈活設計允許開發者根據基礎架構需求選擇最適合的方案。
完整 API 使用指南
連線建立後,開發者需掌握的操作包括:
- 提示詞與方向引導的最佳實踐
- 對話會話的生命週期管理與關鍵事件
- MCP 伺服器的遠端整合與事件流處理
- 伺服器端 webhook 控制與工具呼叫的安全防護
- 成本監控與使用優化
- 非同步音訊串流轉錄
從測試版到正式版的遷移
API 已從測試階段進入 GA(通用版)發佈,涉及多項介面變更,包括新的 URL 結構、事件名稱與形狀、對話項目事件的重定義,以及輸入輸出項目的調整。開發者需留意這些變更以確保應用相容性。
Build voice agents that do real work.
— OpenAI Developers (@OpenAIDevs) March 27, 2026
We built a clinic concierge demo for a Singapore health clinic with gpt-realtime-1.5.
It speaks naturally with patients, collects the right details, and books appointments in real time. pic.twitter.com/d5Xn5Z7WRz
Your turn. Build voice agents with gpt-realtime-1.5:https://t.co/Q0V20fDz9f
— OpenAI Developers (@OpenAIDevs) March 27, 2026
