# 策展 · X (Twitter) 🔥

> 作者：wastemobile (@wastemobile) · 平台：X (Twitter) · 日期：2026-04-25

> 原始來源：https://x.com/wastemobile/status/2047920811441610987

## 中文摘要

Google「translategemma:27b」在19語言翻譯基準中平均7.6分奪冠，繁體中文最佳為「qwen3.5:35b」7.0分。

綜合「Translation Quality Benchmark」（更新至2026-03-07），涵蓋25模型、19語言、2470筆英文翻譯測試，使用「anthropic/claude-haiku-4.5」評估準確度、流暢度與風格，得分🟢9-10優異、🟡7-8良好、🟠5-6可接受、🔴3-4差、⚫1-2失敗。

**整體模型排名**
- 「translategemma:27b」平均7.6分（準確8.0、流暢8.0、風格7.0），測試190語言對，領先「google/gemini-3-flash-preview」（7.6分，95語言對）。
- 「qwen3.5:35b」排第8，平均6.9分（準確7.4、流暢7.2、風格6.4）。
- 落後者如「llama3.1:8b」僅4.2分、「llama3.2」2.5分，直接失敗。

**語言特定表現**
- 繁體中文平均🟠7.0分，「qwen3.5:35b」最佳；簡體中文🟡7.1分，「qwen3.5:9b」領先。
- 歐洲語言強勢：西班牙語🟡7.4分（「qwen3.5:35b」）、法語🟡7.3分（「mistralai/mistral-medium-3.1」）。
- 亞洲語言分化：越南語🟠6.5分（「qwen3.5:35b」）、日語🟠6.0分（「google/gemini-3-flash-preview」）、韓語🟠5.8分。
- 其他如阿拉伯語🟠6.3分（「translategemma:27b」）、俄語🟠6.8分（「mistralai/mistral-medium-3.1」）。

**微調技術細節**
TranslateGemma基於「Gemma 3」基礎模型，透過兩階段微調提升翻譯直覺，官方技術報告（arxiv.org/abs/2601.09012，2026-01-13 v1至v3）詳述：
- **Step 1 監督式微調**：混合人工翻譯資料與Gemini生成的高品質合成平行資料，大規模訓練擴大跨語系覆蓋。
- **Step 2 強化學習**：用自動獎勵訊號優化，包括「MetricX-QE」與「AutoMQM」，聚焦翻譯充分性與流暢性，而非僅比對參考譯文。
在「WMT25」10語言對人工評估及「WMT24++」55語言對自動評估中，小型TranslateGemma常匹敵大型「Gemma 3」基準，效率更高；保留多模態能力，在「Vistra」圖像翻譯基準表現優化。開放釋出供研究社群使用。

**實際翻書測試**
作者用Mac mini測試「translategemma」翻譯46KB原始文件（93段落、7,177英文單詞、總45,972字元、最長段落1,013字元），需特定翻譯指令或對話模板：
- 「27b-4bit」耗時1小時16分34秒（12.7 tok/s）。
- 「12b-8bit」1小時1分31秒（16.7 tok/s）。
品質不錯，雖慢但穩，證實翻書流程可行。

## 標籤

Benchmark, LLM, Gemini, Google, Anthropic, Claude
