# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Google AI Studio (@GoogleAIStudio) · 平台：X (Twitter) · 日期：2026-06-10

> 原始來源：https://x.com/googleaistudio/status/2064369053045608894

## 中文摘要

Google AI Studio 推出 Gemini 3.5 Live Translate 模型，提供支援超過 70 種語言的低延遲即時語音翻譯功能。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781063222149-3zeed1g1.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781063225058-g1RxUUIfIw5vJWIY6jpg.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> Google 發表 Gemini 3.5 Live Translate API，支援超過 70 種語言的即時語音翻譯。

Google 官方發布了最新的「Gemini 3.5 Live Translate」模型，這是一項專為即時語音對語音翻譯設計的技術，目前已開放透過 Gemini Live API 與 Google AI Studio 進行公開預覽。Logan Kilpatrick 也同步分享了相關 API 文件，鼓勵開發者利用此功能打造多語言互動體驗。

**核心功能與優勢**
Gemini 3.5 Live Translate 專注於即時翻譯任務，具備以下關鍵特性：
- **低延遲翻譯**：支援超過 70 種語言，並能自動偵測多語言輸入。
- **原生音訊處理**：能保留說話者的語調（pitch）與節奏（pacing），使翻譯後的語音更自然。
- **環境降噪**：具備穩健的雜訊過濾能力，適用於嘈雜環境。
- **自動化互動**：系統可即時顯示輸入與輸出的逐字稿，並支援自動識別語言切換，無需使用者手動調整設定。

**技術架構與限制**
該模型與一般的「Live Agent」互動模式不同，其定位為「翻譯器（Interpreter）」而非對話助理。開發者需注意以下技術細節：
- **運作模式**：採用連續串流處理（Continuous stream processing），翻譯過程不需等待對話停頓。
- **輸入格式**：僅支援音訊輸入，不支援文字輸入。輸入需為原始 16-bit PCM（16kHz, mono, little-endian），建議以 100ms 為區塊發送。
- **輸出格式**：輸出為原始 16-bit PCM（24kHz, mono, little-endian）。
- **配置設定**：需在 `generationConfig` 中設定 `translationConfig`，包含目標語言代碼（`targetLanguageCode`）以及是否回傳目標語言（`echoTargetLanguage`）。
- **安全性**：在用戶端應用程式中，建議使用 `v1alpha` 端點並搭配「臨時權杖（Ephemeral tokens）」以保護 API 金鑰，並可透過鎖定 `translationConfig` 欄位防止用戶端篡改。

**注意事項與限制**
儘管功能強大，官方指出目前仍存在部分限制：
- **語音複製**：在長暫停或快速多語者對話中，語音複製可能出現不一致或性別誤判。
- **語言偵測**：對於口音過重或相似語言（如西班牙語與葡萄牙語）的辨識仍具挑戰。
- **背景雜訊**：雖然具備降噪功能，但並非所有背景音皆能完全過濾，若開啟 `echoTargetLanguage`，背景雜訊可能導致翻譯音訊產生偽影。

開發者可參考 [Gemini Live API 官方文件](https://ai.google.dev/gemini-api/docs/live-api/live-translate) 進一步了解如何整合此服務。

## 媒體內容

**Google 發表 Gemini 3.5 Live Translate API，支援超過 70 種語言的即時語音翻譯。**

**影片中的 Prompt 與操作**

Prompt（00:32）：

```
試用 Live API
```

原文：Try the Live API

Prompt（01:59）：

```
即時翻譯
```

原文：Live Translate

操作步驟：

1. （00:32）點擊「Talk」按鈕啟動 API 串流
2. （01:59）點擊「Create session」建立新的翻譯廣播會話
3. （02:12）點擊「Start listening」加入會話並選擇目標語言
4. （02:19）在下拉選單中選擇「Japanese」
5. （03:21）在下拉選單中選擇「Spanish」
6. （03:23）在下拉選單中選擇「Tamil」
7. （03:24）在下拉選單中選擇「Chinese」

**逐字稿**

- `00:00` 大家好，今天我們很高興推出 Gemini 3.5 Live Translate，這是我們最新的模型，專為實現流暢的語音對語音翻譯而打造。（Hey everyone, today we're excited to launch Gemini 3.5 Live Translate, our latest model）
- `00:05` 雖然它已經在 Google 翻譯中提供支援，但我們現在正透過 API 將此功能直接提供給開發者。（built for seamless speech-to-speech translation. While it's already been powering experiences in）
- `00:09` 從今天開始，您可以整合超過 70 種支援語言的即時翻譯，同時支援輸入與輸出。（Google Translate, we are now bringing this capability directly to developers via our API.）
- `00:14` 我們將透過兩個展示來向您呈現它的功能。（You can integrate real-time translation across 70-plus supported languages for both input）
- `00:18` 好的，第一個展示，我們將為您呈現即時配音體驗。（and output starting today. We're going to show you what it can do with two demos.）
- `00:28` 在這裡，我們使用 API 從分頁直接串流翻譯後的音訊。（Ok, so for our first demo, we're going to show you a live dubbing experience. Here we're）
- `00:32` 請看我們如何聆聽印地語的 Google I/O 主題演講。（using the API to stream translated audio directly from a tab. Watch as we listen to the Google）
- `00:45` 人們如何使用我們的人工智慧。所以，我們正在準備來自 Gemini 應用程式的最終流程。（How people are using our AI. So, we're preparing the final process from Gemini app.）
- `01:07` 現在，第二個展示是用於現場演講與簡報的即時翻譯。（Now, the second demo is for life-translating talks and presentations. Let's say, you're presenting）
- `01:14` 假設您正在向國際聽眾進行簡報，而他們說著多種不同的語言。（to an international audience that speaks a range of different languages. Here, as a）
- `01:19` 在這裡，身為講者，我可以建立一個新的對話，並從我的麥克風擷取音訊。（speaker, I can create a new session and I can capture the audio from my microphone. I then get）
- `01:26` 接著我會獲得一個網址或 QR Code，讓與會者用手機掃描，加入對話並開始以他們偏好的語言聆聽。（a URL or a QR code for my attendees to scan this on their phone and join the session and start listening in their own preferred language.）
- `01:35` 那麼，我們就從日語開始吧。當使用者開始以新的語言聆聽時。（So, let's start maybe with Japanese. When a user starts listening in a new language.）
- `01:42` 我們與人工智慧開啟一個新的對話。我們與人工智慧開啟一個新的對話。該模型可以在所有七種不同的語言之間進行翻譯。（We start a new session with the AI. We start a new session with the AI. The model can translate between all the seven different languages.）
- `01:50` 該模型可以在所有七種不同的語言之間進行翻譯。（The model can translate between all the seven different languages.）
- `01:51` 該模型可以在所有七種不同的語言之間進行翻譯。（The model can translate between all the seven different languages.）
- `01:54` 嘿，Tor。你為什麼不推動這個展示來學習另一個呢？你怎麼會有幾種語言？（Hey, Tor. Why don't you push the demo to learn the other? How do you have a few languages?）
- `01:59` 好主意。讓我們從西班牙語開始。讓我們從西班牙語開始。（Great idea. Let's start with Spanish. And let's start with Spanish.）
- `02:02` 是的。你可以那樣做嗎？是的。你可以加入那個嗎？是的。你可以加入那個到西班牙語嗎？是的。你可以加入那個到西班牙語嗎？是的。絕對可以。（Yes. Can you do that? Yes. Can you add that? Yes. Can you add that to Spanish? Yes. Can you add that to Spanish? Yes. Absolutely.）
- `02:07` 所有的翻譯都使用了來自同一個音訊來源，也就是麥克風。如您目前所見，該模型表現得非常好。（All of the translations have been using the same audio from the thing as well from the microphone. As you've seen so far, the model is a really good job.）
- `02:15` 如我目前所見，該模型在疫情期間表現得非常好，我也看到了。（As I've seen so far, the model is a really good job in the pandemic and I've seen as well.）
- `02:18` 您可以想像這個會議有多實用。您可以想像這包含了什麼實用的功能。（You can imagine how useful this meeting is. You can imagine how useful this includes.）
- `02:29` 現在，我切換到德語。（Now, I'm switching to German.）
- `02:32` 該模型會自動識別語言切換。（The model recognizes the language switch automatically.）
- `02:35` 我不需要設定任何東西。（I don't have to configure anything.）
- `02:39` 我想當我說僧伽羅語時，我所說的僧伽羅語會被翻譯成英語，無需任何設定。（I think when I speak in Sinhala, what I say in Sinhala is translated into English without any configuration.）
- `02:45` 聽聽看這個翻譯聽起來有多自然。（And listen to how natural the translation sounds.）
- `02:50` 沒有斷斷續續，沒有人工停頓。（No choppiness, no artificial pauses.）
- `02:53` 它流暢得就像完全自然的語言一樣。（It flows like a completely natural language.）
- `02:57` 現在切換到日語對話。（Switch now to the Japanese session.）
- `03:00` 這是從一開始就完成的，當我談論它時，模型將繼續以同樣的方式運作。（This is done from the beginning, and when I talk about it, the model is going to continue to do the same way.）
- `03:08` 該模型現在已在 Gemini API 和 AI Studio 上提供。（The model is now available on the Gemini API and in AI Studio.）
- `03:12` 您也可以透過連接任何一副耳機，在 iOS 和 Android 上的 Google 翻譯中試用它。（You can also try it in Google Translate on iOS and Android by connecting any pair of headphones.）
- `03:17` 我們也正在 Google Meet 上以私人預覽版的形式推出它。（And we're also rolling it out in private preview on Google Meet.）
- `03:20` 我們迫不及待想看看您開發了什麼。（We can't wait to hear what you built.）
- `03:23` 名稱是 VinokGic.com。（The name is VinokGic.com.）
- `03:26` 祝您有美好的一天。（Have a good day.）
- `03:28` 讓我們四處看看。（Let's seus around.）

## 標籤

新產品, 功能更新, Gemini, TTS, STT, ASR, Google, Gemini
