← 返回首頁

Falcon OCR 透過早期融合架構,以 0.3B 輕量參數實現高效能文件辨識

Yasser Dahou
Yasser Dahou
@dahou_yasser
561🔁 97
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Falcon OCR 透過早期融合架構,以 0.3B 輕量參數實現高效能文件辨識。

TII 發布了「Falcon Perception」與「Falcon OCR」,這兩款模型挑戰了傳統複雜的視覺語言模型架構,證明透過單一「早期融合 (early-fusion)」Transformer 架構,僅需 0.3B 參數即可達到與大型模型相當的效能。

技術架構創新
傳統 OCR 系統多依賴複雜的管線(Pipeline),包含獨立的編碼器、後期融合與匹配演算法。Falcon OCR 採取截然不同的路徑:

  • 採用單一 Transformer 架構,從第一層開始就在共享參數空間內處理圖像區塊與文字 token。
  • 使用混合注意力遮罩(Hybrid Attention Mask):圖像 token 進行雙向注意力機制,而文字/任務 token 則在視覺前綴條件下進行因果解碼。
  • 簡化介面:透過單一主幹與解碼路徑,利用提示詞(Prompt)進行任務切換,而非堆疊模組。

效能與實際影響
Falcon OCR 在文件辨識任務上展現了輕量化模型的競爭力,並顯著提升了服務吞吐量:

  • 效能表現:在 olmOCR 基準測試中平均準確率達 80.3%,在 OmniDocBench 上達 88.64%。
  • 吞吐量優勢:在單張 A100-80GB GPU 上,配合 vLLM 服務架構,端到端(End to End)處理(包含版面分析與 OCR)可達到 5825 tok/s(2.9 img/s)。
  • 成本效益:相較於 0.9B 等級的 OCR VLM,其參數規模縮小約 3 倍,在保持競爭力的同時,顯著降低了延遲與運算成本。

評測方法論與反思
開發團隊不僅追求單一分數,更建立「PBench」來診斷模型在不同能力上的表現,並對現有 OCR 評測提出反思:

  • 評測細節:全頁解析的評測對匹配與表示細節極為敏感,例如表格與公式的指標,不僅取決於辨識品質,還受限於預測元素如何與 Ground Truth 匹配及輸出結構如何標準化。
  • 局限性:模型在處理嚴重退化的舊掃描文件、極小字體時仍面臨挑戰;此外,視覺相同的表格可能對應不同的 HTML 結構,導致評測指標產生偏差。

未來展望
團隊認為,早期融合的單一堆疊 Transformer 是取代傳統「視覺編碼器加文字解碼器」架構的可行方向。這並非最終定論,而是鼓勵業界轉向更簡潔的架構設計,透過優化資料與訓練訊號,而非持續增加管線複雜度。