# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Google (@Google) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/Google/status/2066911763392520446

## 中文摘要

Google 釋出 Gemma 4 開放模型強化視覺辨識能力。

Google 近期發布了迄今最強大的開放模型「Gemma 4」，自推出以來下載量已突破 1.5 億次。該模型不僅支援多 token 預測（Multi-Token Prediction）以加速推論，還提供 12B Unified 模型與量化感知訓練（QAT）檢查點，並採用 Apache 2.0 授權，讓開發者能靈活地在邊緣裝置或本地工作站進行微調與部署。

**視覺問答與角色扮演**
開發者 @measure_plan 利用 Gemma 4 的視覺語言能力，透過特定提示詞（prompt）讓模型扮演「中世紀吟遊詩人」。在實際操作中，模型能精準識別環境中的物件（如「琥珀色液體的玻璃杯」或「裝滿書籍的書架」），並持續以吟遊詩人的語氣進行描述，即便在展示不同物品時也能維持角色設定，展現出色的視覺推理與語境保持能力。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781666516170-woas36gm.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/6d5a97a6d274b10a.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 一名男子在鏡頭前展示物品，同時螢幕顯示即時物件偵測與 AI 生成的文字描述。

**長文本記憶與遊戲化應用**
開發者 @GOROman 則利用 Gemma 4 高達 256K 的視窗（context window），開發了一款將現實世界轉化為冒險遊戲的應用程式。由於大型語言模型具備龐大的記憶容量，該應用程式能有效儲存並回顧遊戲世界中近期發生的長篇歷史紀錄，這對於需要高度情境連貫性的遊戲體驗至關重要。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781666543966-70euz68k.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/910a5140eb5c9009.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 一位使用者正在使用手機上的 AR 應用程式，透過相機鏡頭即時掃描並獲取街道場景的文字描述。

**邊緣運算與隱私保護**
HubX 團隊開發的 AI 英語家教平台「BetterSpeak」，採用了針對邊緣運算優化的 Gemma 4 E2B（20 億參數）模型作為推理引擎。該方案具備以下技術特點：
- 部署 4-bit 量化版本：透過壓縮模型大小，成功克服行動裝置的硬體限制。
- 離線運作：無需網路連線即可處理語法解釋與跨語言進度監控，確保使用者隱私。
- 原生音訊輸入：支援直接的語音對語音（speech-to-speech）學習，降低運算成本並提升互動效率。

目前開發者可透過 iOS 或 Android 平台的「Google AI Edge Gallery」體驗 Gemma 4，或直接前往 [Google AI Studio](https://aistudio.google.com/) 進行探索。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/551ce942f5aef2c8.jpg)
> 這是一張手機應用程式介面的截圖，顯示使用者正在確認下載離線學習資源包的彈出視窗。

 更多技術細節可參考 [官方說明文件](https://goo.gle/4vLnxHc) 。

## 媒體內容

**一名男子在鏡頭前展示物品，同時螢幕顯示即時物件偵測與 AI 生成的文字描述。**

**影片中的 Prompt 與操作**

操作步驟：

1. @00:02 男子拿起一根香蕉。
2. @00:11 男子拿起一個裝有琥珀色液體的玻璃杯。
3. @00:18 男子拿起一個藍色公仔。
4. @00:20 男子拿起手機，螢幕顯示時間 5:05。
5. @00:27 男子對鏡頭比出勝利手勢。

**一位使用者正在使用手機上的 AR 應用程式，透過相機鏡頭即時掃描並獲取街道場景的文字描述。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）點擊螢幕上的「しらべる」按鈕
2. （00:04）系統顯示第一段街道場景描述
3. （00:11）點擊螢幕上的「しらべる」按鈕
4. （00:13）系統顯示第二段街道場景描述

## 標籤

開源專案, VLM, Google, Gemma
