# 策展 · X (Twitter) 🔥

> 作者：OpenAI Developers (@OpenAIDevs) · 平台：X (Twitter) · 日期：2026-03-29

> 原始來源：https://x.com/OpenAIDevs/status/2037658400004477278

## 中文摘要

OpenAI 的 Realtime API 正在推動一種新的互動模式：透過語音啟用低延遲、多模態的對話應用。實際案例包括新加坡診所的預約 Agent，可自然地與患者交談、蒐集詳細資訊並即時預約掛號——這代表 Realtime API 已超越技術演示，進入解決實際業務問題的階段。

**核心技術能力**

Realtime API 的主要特性包括：
- 原生支援語音至語音的互動
- 多模態輸入支援（音訊、影像、文字），以及多模態輸出（音訊、文字）
- 即時音訊轉錄功能
- 低延遲通訊設計

這些能力使開發者能建立在瀏覽器和伺服器端都可運行的對話應用。

**開發者入門方案**

官方建議使用 **TypeScript 的 Agents SDK** 作為最快的起點。SDK 在瀏覽器使用 WebRTC 連線，在伺服器端使用 WebSocket，並可透過簡單程式碼直接整合麥克風和音訊輸出：

```
import { RealtimeAgent, RealtimeSession } from "@openai/agents/realtime";

const agent = new RealtimeAgent({
  name: "Assistant",
  instructions: "You are a helpful assistant.",
});

const session = new RealtimeSession(agent);
await session.connect({ apiKey: "<client-api-key>" });
```

**連線介面的多樣化選擇**

根據應用場景，Realtime API 提供三種主要連線方式：
- **WebRTC 連線**：適合瀏覽器和客戶端與 Realtime 模型的互動
- **WebSocket 連線**：適合具備穩定低延遲網路的伺服器端應用
- **SIP 連線**：適合 VoIP 電話系統整合

這種靈活設計允許開發者根據基礎架構需求選擇最適合的方案。

**完整 API 使用指南**

連線建立後，開發者需掌握的操作包括：
- 提示詞與方向引導的最佳實踐
- 對話會話的生命週期管理與關鍵事件
- MCP 伺服器的遠端整合與事件流處理
- 伺服器端 webhook 控制與工具呼叫的安全防護
- 成本監控與使用優化
- 非同步音訊串流轉錄

**從測試版到正式版的遷移**

API 已從測試階段進入 GA（通用版）發佈，涉及多項介面變更，包括新的 URL 結構、事件名稱與形狀、對話項目事件的重定義，以及輸入輸出項目的調整。開發者需留意這些變更以確保應用相容性。

## 標籤

Agent, AIGC, 功能更新, OpenAI