# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Akshay 🚀 (@akshay_pachaar) · 平台：X (Twitter) · 日期：2026-06-20

> 原始來源：https://x.com/akshay_pachaar/status/2068317780064276917

## 中文摘要

PixelRAG 透過網頁截圖取代 HTML 解析解決資訊流失。

**核心觀點與技術突破**
Akshay Pachaar 指出，傳統網頁 RAG 系統在將 HTML 解析為文字的過程中，往往會遺失高達 40% 以上的頁面資訊，特別是表格、圖表與頁面佈局等結構化內容。PixelRAG 採取了截然不同的路徑，直接將網頁渲染為截圖並進行視覺化檢索，讓大型語言模型能直接從像素中讀取答案。根據實測，PixelRAG 在純文字問答基準測試中，表現比最強的文字 RAG 基線高出 18.1%，在處理表格與視覺結構相關的問題（如 NQ-Tables）時優勢更明顯。

**Claude Code 整合應用**
PixelRAG 專案提供了一個名為 `pixelbrowse` 的 skill，讓 Claude 具備「視覺能力」。透過此 plugin，Claude 不再依賴 DOM 解析，而是直接對網頁進行截圖並閱讀渲染後的頁面，這使得 AI 能準確理解 arXiv 論文、複雜的網頁佈局或本地網站的真實樣貌。使用者無需架設 MCP 伺服器或後端，僅需透過簡單指令即可啟用：

1. 安裝套件：`pip install pixelrag`
2. 新增 plugin：`claude plugin marketplace add StarTrail-org/PixelRAG`
3. 啟用 plugin：`claude plugin install pixelbrowse@pixelrag-plugins`
4. 執行截圖與分析：`claude -p "screenshot https://arxiv.org/abs/2404.12387 and explain the key findings"`

**運作架構與開發流程**
PixelRAG 的管線設計模組化，支援從文件渲染到索引建立的完整流程：
- **渲染與索引**：使用 `pixelshot` 指令將網頁或 PDF 轉為圖像磚（tiles），並透過經 LoRA 微調的 `Qwen3-VL-Embedding` 模型進行向量化，最後存入 FAISS 索引。
- **獨立執行**：各階段（chunk、embed、build-index、serve）皆可獨立運作。例如，若要建立自己的索引，只需建立 `pixelrag.yaml` 設定檔並執行 `pixelrag index build`。
- **開源與資源**：該專案以 Apache-2.0 授權開源，並在 Hugging Face 上發布了預先訓練好的 LoRA adapters 與 Wikipedia 索引資料集，開發者可直接下載使用或自行微調。

**實際效能表現**
影片中的「QA accuracy」橫評圖顯示，PixelRAG（trained）在 SimpleQA、NQ、NQ-Table、MMSearch、EVQA、LiveVQA 等多項基準上都優於傳統文字檢索；其中純文字問答約提升 18–19%（圖表僅以長條呈現高低、未標註各項精確數值）。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781974497555-0pbaxlcz.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1c9d893faa08653a.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> PixelRAG 透過視覺化網頁截圖進行檢索，在多項基準測試中表現優於傳統文字檢索。

Akshay Pachaar 同時預告，他近期撰寫了一篇關於提升檢索效率的新文章，透過縮減 40 倍語料庫規模、減少 3 倍查詢 token 消耗，並將向量搜尋相關性提升 2.3 倍，進一步優化了 RAG 的整體效能。

## 媒體內容

**PixelRAG 透過視覺化網頁截圖進行檢索，在多項基準測試中表現優於傳統文字檢索。**

**影片中的 Prompt 與操作**

Prompt（00:00）：

```
星夜
```

原文：05: The Starry Night

Prompt（00:00）：

```
兵馬俑.jpg
```

原文：08: terracotta_army.jpg

Prompt（00:00）：

```
國際米蘭在 2010 年歐冠決賽中有多少次射正？
```

原文：11: How many shots on target did Inter have in the 2010 Champions League final?

Prompt（00:00）：

```
國際米蘭在 2010 年歐冠決賽對陣拜仁時有多少次射正？
```

原文：20: How many shots on target did Inter have in the 2010 UCL final vs Bayern?

操作步驟：

1. @0:05 在搜尋框輸入關鍵字並搜尋。
2. @0:08 在搜尋框輸入檔案名稱並搜尋。
3. @0:11 在 Ask Mode 對話框輸入問題。
4. @0:20 在測試介面輸入問題進行比對。

## 標籤

RAG, VLM, 開源專案, 研究論文, PixelRAG
