# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Ideogram (@ideogram_ai) · 平台：X (Twitter) · 日期：2026-06-06

> 原始來源：https://x.com/ideogram_ai/status/2062956373957292281

## 中文摘要

Ideogram 4.0 透過 9.3B 參數的 Diffusion Transformer 架構，實現了領先業界的開源圖像生成能力。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780746135327-3haoAEsDgjpgnameorig.jpg)
> Ideogram 4.0 發布公告，強調其作為頂尖開放權重模型的定位並提供技術細節連結。

Ideogram 團隊近日發布了 Ideogram 4.0，這是一款從零開始訓練的基礎模型，旨在透過結構化 JSON 提示詞提升生成品質與控制力。該模型採用 9.3B 參數的單流 Diffusion Transformer (DiT) 架構，並結合凍結的 8B 視覺語言模型 (VLM) 作為文字編碼器，能在消費級 24GB GPU 上以 `nf4` 量化版本運行。

**核心技術架構**
Ideogram 4.0 的技術設計強調跨模態互動與精確控制：
- **架構組成**：包含凍結的 `Qwen3-VL-8B` 文字編碼器、34 層單流 DiT、採用非對稱 CFG 的流匹配 (Flow-matching) Euler 取樣器，以及凍結的 `FLUX.2` VAE。
- **多層特徵提取**：DiT 並非僅使用單一隱藏狀態，而是串接了編碼器中 13 個中間層的隱藏狀態，以獲取更豐富的語義資訊。
- **單流處理**：採用 3D 多模態 RoPE 將文字與圖像 token 置於同一位置框架中，實現深度跨模態互動。
- **靈活解析度**：支援 256 到 2048 像素間任意 16 的倍數解析度，並自動調整雜訊排程。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780746140030-61b0AAVPPpngnameorig.png)
> 這張圖表展示了 Ideogram 4 圖像生成模型的技術架構流程，包含 Qwen3-VL 編碼器、DiT 主幹網路、Euler 取樣器以及 KL VAE 解碼器的運作機制。

**結構化提示詞與控制**
該模型與傳統非結構化提示詞模型不同，其核心優勢在於對 JSON 格式的深度整合：
- **JSON 優先**：模型訓練完全基於結構化 JSON 描述，包含圖像中每個元素的詳細資訊、邊界框 (Bounding-box) 座標及色彩配置。
- **提示詞增強**：為了降低使用門檻，官方提供了一款免費的提示詞增強模型，可將自然語言自動轉換為 JSON 格式。使用者亦可透過官方開源的系統提示詞，讓現有的 LLM 執行此轉換。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780746137527-paUAA6EFwpngnameorig.png)
> 這張圖展示了 AI 影像生成工具的介面，透過文字提示詞（Prompt）與邊界框（Bounding Box）定位功能，精確控制畫面中穿著燕尾服的男子、穿著禮服的女子及周邊環境元素的構圖與細節。

**效能與實測表現**
根據官方評測，Ideogram 4.0 在多項設計導向的基準測試中表現優異：
- 在「Design Arena」中，Ideogram 4.0 是目前排名最高的開源模型。
- 在「ContraLabs」針對專業設計師進行的盲測中，該模型在排版生成與實際工作可用性評分上均領先其他開源及部分閉源模型。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780746141954-obsAAzkcSjpgnameorig.jpg)
> 根據 DesignArena 的 Open Weights 排行榜，Ideogram 4.0 以 1285 分位居第一，顯著超越 Hunyuan Image-3.0 與 FLUX.2 [dev] 等模型。

**快速上手與部署**
開發者可透過 Hugging Face 下載權重，並使用官方提供的 CLI 工具進行推論。由於模型權重受限，使用者需先在 Hugging Face 頁面同意授權並登入。

1. 安裝環境：
   ```bash
   pip install .
   ```
2. 登入 Hugging Face 進行認證：
   ```bash
   hf auth login
   ```
3. 執行推論（需準備 `IDEOGRAM_API_KEY`）：
   ```bash
   python run_inference.py \
     --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
     --output out.png \
     --quantization "nf4" \
     --magic-prompt-key "$IDEOGRAM_API_KEY"
   ```

更多詳細架構說明與開發指引，可參考官方 `docs/` 資料夾下的文件，如 `` `docs/prompting.md` `` 與 `` `docs/model_architecture.md` ``。Ideogram 團隊強調，開放權重是推動創新的關鍵，並已將 `fp8` 與 `nf4` 檢查點完整釋出。

## 標籤

AIGC, 新產品, 開源專案, Ideogram
