# 策展 · X (Twitter) 🔥

> 作者：Victoria Slocum (@victorialslocum) · 平台：X (Twitter) · 日期：2026-03-26

> 原始來源：https://x.com/victorialslocum/status/2037113651174199778

## 中文摘要

文件搜尋與回答（RAG）系統在處理 PDF 時面臨方法選擇問題，Weaviate 最新研究表明，文字提取、影像嵌入與混合方法各有優勢，沒有單一答案，而是需要視應用場景而定。

**研究背景與核心問題**

在構建 PDF RAG 管線時，開發者面臨兩條主要路徑的取捨：採用 OCR 搭配文字為基礎的檢索方法，或直接使用晚期互動模型（late interaction models）將影像嵌入。Weaviate 團隊透過「IRPAPERS」基準測試提出新觀點——最優解可能同時採用兩種方法，而非二選一。

**檢索效能排名**

在 Recall@1（單一檢索結果的精準度）這一關鍵指標上，測試結果顯示：

- 文字為基礎的「Query Agent Search Mode」（使用 Voyage 4 Large）排名第一，達 61% recall
- 純影像方法的 Mixedbread 緊跟其後，達 59% recall
- 混合型方法（結合 Cohere Embed v4.0、Voyage 3 Large 與 BM25）位居第三，達 58% recall

在更寬鬆的檢索標準（Recall@20）上，混合方法達到 98%，超越單一模態方案。這表明混合策略在廣泛覆蓋上更具優勢，儘管在首次命中精準度上略遜於最佳文字方法。

**問題回答系統表現**

在實際問答任務中，以文字檢索為基礎的「TextRAG」系統（k=5）達到 0.82 的對齊分數（Alignment Score），顯著領先純影像方法的「ImageRAG」（0.71）。然而，ImageRAG 使用的 token 數量（平均 5,200 個輸入 token）與 TextRAG 相當，代表效能差異並非來自資訊量不足，而是檢索品質本身。

值得注意的是，即使採用單一檢索結果（k=1），TextRAG 仍達 0.62 的分數，而 ImageRAG 僅 0.40，凸顯在知識密集型任務中，文字型檢索的穩定優勢。

**實踐啟示**

該研究暗示，對於科學文獻等結構化文件，單純依賴視覺嵌入可能無法充分捕捉複雜內容。文字提取與 OCR 處理雖增加複雜度，但提供了更具語義一致性的檢索基礎。同時，混合方法在廣泛回溯場景（Recall@20）的優異表現，建議開發者在系統設計中保留多重檢索路徑，根據查詢複雜度動態選擇。

該基準測試資料集已在 HuggingFace 釋出，實驗程式碼亦公開供研究社群驗證。

## 標籤

RAG, 研究論文, 產業趨勢, Weaviate
