# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-05-08

> 原始來源：https://x.com/OpenAI/status/2052438194625593804

## 中文摘要

OpenAI 推出 Realtime API 新語音模型，具 GPT-5 等級推理能力，實現即時語音 Agent 協作。

OpenAI 於 2026 年 5 月 7 日發布三款語音模型，透過 Realtime API 解鎖新一代語音應用，讓開發者打造更自然、智能的即時語音體驗，包括聽取、推理、翻譯、轉錄與行動執行。

**新模型介紹**  
OpenAI 推出三款語音模型，適用於 Realtime API：  
- **GPT-Realtime-2**：首款具 GPT-5 等級推理的語音模型，能處理更複雜請求，自然推進對話，支援即時互動中推理、工具呼叫、處理中斷與適當回應。  
- **GPT-Realtime-Translate**：即時翻譯模型，支援 70 多種輸入語言轉 13 種輸出語言，與講者同步翻譯，打破語言障礙。  
- **GPT-Realtime-Whisper**：串流語音轉文字模型，即時轉錄講話內容，用於生成即時字幕與筆記。  
這些模型將語音從簡單問答轉向能實際執行的介面，涵蓋聽取、推理、翻譯、轉錄與行動。[詳細文件](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)。

**語音介面新模式**  
語音正成為使用軟體的最自然方式，例如駕車求助、機場改行程、多語言支援或免打字任務。但有效語音產品需理解意圖、追蹤脈絡、處理變更、持續使用工具並適時回應。  
開發者正圍繞三種模式建構：  
- **Voice-to-action**：使用者描述需求，系統推理、用工具完成任務。例如 [Zillow](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/) 助理能聽取「依 BuyAbility 找房、避開熱鬧街道、周六安排看房」等請求。  
- **Systems-to-voice**：軟體將脈絡轉為即時語音指引。例如旅遊 App 主動告知「入境航班延誤，但仍可接駁；已找到新閘門、最快路線，行李預計轉運」。  
- **Voice-to-voice**：AI 助跨語言、任務或脈絡變化的即時對話。例如 [Deutsche Telekom](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/) 建構多語言客服，模型即時翻譯。  
這些模式可結合，如 [Priceline](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/) 讓旅客全程語音管理行程：搜尋航班飯店、處理延誤改訂、即時 TSA 等候時間更新與落地翻譯。

**GPT-Realtime-2 核心升級**  
此模型專為即時語音互動設計，邊推進對話邊推理、呼叫工具、處理修正或中斷，並適時回應。  
- **Preambles**：開發者可啟用前置短語，如「讓我確認一下」或「稍等我查詢」，讓使用者知 Agent 正在處理。  
- **平行工具呼叫與透明度**：同時呼叫多工具，並語音化如「檢查你的日曆」或「現在查詢中」，維持回應性。  
- **更強恢復行為**：優雅處理如「目前有點問題」，避免靜默失敗或對話中斷。  
- **更長脈絡視窗**：從 32K 增至 128K，支援長會話與複雜 Agent 工作流程。  
- **領域理解強化**：更好保留專有名詞、醫學術語等生產環境詞彙。  
- **語調與傳遞控制**：依情境調整，如平靜解決問題、移情挫折時或確認成功時 upbeat。  
- **可調推理強度**：選 minimal、low（預設）、medium、high、xhigh，平衡低延遲與複雜推理。  
評測顯示：GPT-Realtime-2 (high) 在 Big Bench Audio 音訊智能評測高於 GPT-Realtime-1.5 達 15.2%；(xhigh) 在 Audio MultiChallenge 指令遵循高 13.8%，展現更強推理、脈絡管理與控制。早期測試中，[Zillow](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Glean](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Genspark](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Bluejay](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Intercom](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Priceline](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)、[Foundation Health](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/) 等企業用其建構客服與員工 Agent。

**即時翻譯應用**  
**GPT-Realtime-Translate** 助建多語言語音體驗，每人用母語講話，即時翻譯並顯示轉錄。支援 70+ 輸入語言與 13 輸出語言，適用客服、跨境銷售、教育、活動、媒體與全球創作者平台。

**即時轉錄功能**  
**GPT-Realtime-Whisper** 為低延遲語音轉文字模型，即時轉錄講話，讓產品更快、更自然，如即時字幕或跟上對話的會議筆記。

**安全措施**  
Realtime API 內建多層防護，包含即時分類器監控會話，若違反有害內容指南可中止。開發者可透過 Agents SDK 輕鬆新增自訂安全護欄。

**定價與可用性**  
三款模型現已於 Realtime API 上線：  
- **GPT-Realtime-2**：音訊輸入 $32 / 1M token（快取輸入 $0.40 / 1M token），輸出 $64 / 1M token。  
- **GPT-Realtime-Translate**：$0.034 / 分鐘。  
- **GPT-Realtime-Whisper**：$0.017 / 分鐘。  
OpenAI 也暗示 ChatGPT 語音更新即將推出，開發者可立即透過 API 建構生產級語音 Agent。

## 標籤

新產品, 功能更新, Agent, AIGC, TTS, OpenAI, GPT
