← 返回首頁
OpenAI Developers
OpenAI Developers
@OpenAIDevs
1,293🔁 97
𝕏 (Twitter)🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

聲音 Agent 的應用潛力

OpenAI 的 Realtime API 正在推動一種新的互動模式:透過語音啟用低延遲、多模態的對話應用。實際案例包括新加坡診所的預約 Agent,可自然地與患者交談、蒐集詳細資訊並即時預約掛號——這代表 Realtime API 已超越技術演示,進入解決實際業務問題的階段。

核心技術能力

Realtime API 的主要特性包括:

  • 原生支援語音至語音的互動
  • 多模態輸入支援(音訊、影像、文字),以及多模態輸出(音訊、文字)
  • 即時音訊轉錄功能
  • 低延遲通訊設計

這些能力使開發者能建立在瀏覽器和伺服器端都可運行的對話應用。

開發者入門方案

官方建議使用 TypeScript 的 Agents SDK 作為最快的起點。SDK 在瀏覽器使用 WebRTC 連線,在伺服器端使用 WebSocket,並可透過簡單程式碼直接整合麥克風和音訊輸出:

import { RealtimeAgent, RealtimeSession } from "@openai/agents/realtime";

const agent = new RealtimeAgent({
  name: "Assistant",
  instructions: "You are a helpful assistant.",
});

const session = new RealtimeSession(agent);
await session.connect({ apiKey: "<client-api-key>" });

連線介面的多樣化選擇

根據應用場景,Realtime API 提供三種主要連線方式:

  • WebRTC 連線:適合瀏覽器和客戶端與 Realtime 模型的互動
  • WebSocket 連線:適合具備穩定低延遲網路的伺服器端應用
  • SIP 連線:適合 VoIP 電話系統整合

這種靈活設計允許開發者根據基礎架構需求選擇最適合的方案。

完整 API 使用指南

連線建立後,開發者需掌握的操作包括:

  • 提示詞與方向引導的最佳實踐
  • 對話會話的生命週期管理與關鍵事件
  • MCP 伺服器的遠端整合與事件流處理
  • 伺服器端 webhook 控制與工具呼叫的安全防護
  • 成本監控與使用優化
  • 非同步音訊串流轉錄

從測試版到正式版的遷移

API 已從測試階段進入 GA(通用版)發佈,涉及多項介面變更,包括新的 URL 結構、事件名稱與形狀、對話項目事件的重定義,以及輸入輸出項目的調整。開發者需留意這些變更以確保應用相容性。