文件搜尋與回答(RAG)系統在處理 PDF 時面臨方法選擇問題,Weaviate 最新研究表明,文字提取、影像嵌入與混合方法各有優勢,沒有單一答案,而是需要視應用場景而定。
研究背景與核心問題
在構建 PDF RAG 管線時,開發者面臨兩條主要路徑的取捨:採用 OCR 搭配文字為基礎的檢索方法,或直接使用晚期互動模型(late interaction models)將影像嵌入。Weaviate 團隊透過「IRPAPERS」基準測試提出新觀點——最優解可能同時採用兩種方法,而非二選一。
檢索效能排名
在 Recall@1(單一檢索結果的精準度)這一關鍵指標上,測試結果顯示:
- 文字為基礎的「Query Agent Search Mode」(使用 Voyage 4 Large)排名第一,達 61% recall
- 純影像方法的 Mixedbread 緊跟其後,達 59% recall
- 混合型方法(結合 Cohere Embed v4.0、Voyage 3 Large 與 BM25)位居第三,達 58% recall
在更寬鬆的檢索標準(Recall@20)上,混合方法達到 98%,超越單一模態方案。這表明混合策略在廣泛覆蓋上更具優勢,儘管在首次命中精準度上略遜於最佳文字方法。
問題回答系統表現
在實際問答任務中,以文字檢索為基礎的「TextRAG」系統(k=5)達到 0.82 的對齊分數(Alignment Score),顯著領先純影像方法的「ImageRAG」(0.71)。然而,ImageRAG 使用的 token 數量(平均 5,200 個輸入 token)與 TextRAG 相當,代表效能差異並非來自資訊量不足,而是檢索品質本身。
值得注意的是,即使採用單一檢索結果(k=1),TextRAG 仍達 0.62 的分數,而 ImageRAG 僅 0.40,凸顯在知識密集型任務中,文字型檢索的穩定優勢。
實踐啟示
該研究暗示,對於科學文獻等結構化文件,單純依賴視覺嵌入可能無法充分捕捉複雜內容。文字提取與 OCR 處理雖增加複雜度,但提供了更具語義一致性的檢索基礎。同時,混合方法在廣泛回溯場景(Recall@20)的優異表現,建議開發者在系統設計中保留多重檢索路徑,根據查詢複雜度動態選擇。
該基準測試資料集已在 HuggingFace 釋出,實驗程式碼亦公開供研究社群驗證。
If you're building a PDF RAG pipeline:
— Victoria Slocum (@victorialslocum) March 26, 2026
Should you be using OCR and 𝘁𝗲𝘅𝘁-𝗯𝗮𝘀𝗲𝗱 𝗿𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹 methods, or just 𝗲𝗺𝗯𝗲𝗱 𝗶𝗺𝗮𝗴𝗲𝘀 𝗱𝗶𝗿𝗲𝗰𝘁𝗹𝘆 using late interaction models?
This paper says the answer might actually be 𝘣𝘰𝘵𝘩.
My colleagues at Weaviate… pic.twitter.com/iNQOR56nnU
