← 返回首頁
Victoria Slocum
Victoria Slocum
@victorialslocum
736🔁 100
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

文件搜尋與回答(RAG)系統在處理 PDF 時面臨方法選擇問題,Weaviate 最新研究表明,文字提取、影像嵌入與混合方法各有優勢,沒有單一答案,而是需要視應用場景而定。

研究背景與核心問題

在構建 PDF RAG 管線時,開發者面臨兩條主要路徑的取捨:採用 OCR 搭配文字為基礎的檢索方法,或直接使用晚期互動模型(late interaction models)將影像嵌入。Weaviate 團隊透過「IRPAPERS」基準測試提出新觀點——最優解可能同時採用兩種方法,而非二選一。

檢索效能排名

在 Recall@1(單一檢索結果的精準度)這一關鍵指標上,測試結果顯示:

  • 文字為基礎的「Query Agent Search Mode」(使用 Voyage 4 Large)排名第一,達 61% recall
  • 純影像方法的 Mixedbread 緊跟其後,達 59% recall
  • 混合型方法(結合 Cohere Embed v4.0、Voyage 3 Large 與 BM25)位居第三,達 58% recall

在更寬鬆的檢索標準(Recall@20)上,混合方法達到 98%,超越單一模態方案。這表明混合策略在廣泛覆蓋上更具優勢,儘管在首次命中精準度上略遜於最佳文字方法。

問題回答系統表現

在實際問答任務中,以文字檢索為基礎的「TextRAG」系統(k=5)達到 0.82 的對齊分數(Alignment Score),顯著領先純影像方法的「ImageRAG」(0.71)。然而,ImageRAG 使用的 token 數量(平均 5,200 個輸入 token)與 TextRAG 相當,代表效能差異並非來自資訊量不足,而是檢索品質本身。

值得注意的是,即使採用單一檢索結果(k=1),TextRAG 仍達 0.62 的分數,而 ImageRAG 僅 0.40,凸顯在知識密集型任務中,文字型檢索的穩定優勢。

實踐啟示

該研究暗示,對於科學文獻等結構化文件,單純依賴視覺嵌入可能無法充分捕捉複雜內容。文字提取與 OCR 處理雖增加複雜度,但提供了更具語義一致性的檢索基礎。同時,混合方法在廣泛回溯場景(Recall@20)的優異表現,建議開發者在系統設計中保留多重檢索路徑,根據查詢複雜度動態選擇。

該基準測試資料集已在 HuggingFace 釋出,實驗程式碼亦公開供研究社群驗證。