Falcon OCR 透過早期融合架構,以 0.3B 輕量參數實現高效能文件辨識
AI 語音朗讀 · Edge TTS
Falcon OCR 透過早期融合架構,以 0.3B 輕量參數實現高效能文件辨識。
TII 發布了「Falcon Perception」與「Falcon OCR」,這兩款模型挑戰了傳統複雜的視覺語言模型架構,證明透過單一「早期融合 (early-fusion)」Transformer 架構,僅需 0.3B 參數即可達到與大型模型相當的效能。
技術架構創新
傳統 OCR 系統多依賴複雜的管線(Pipeline),包含獨立的編碼器、後期融合與匹配演算法。Falcon OCR 採取截然不同的路徑:
- 採用單一 Transformer 架構,從第一層開始就在共享參數空間內處理圖像區塊與文字 token。
- 使用混合注意力遮罩(Hybrid Attention Mask):圖像 token 進行雙向注意力機制,而文字/任務 token 則在視覺前綴條件下進行因果解碼。
- 簡化介面:透過單一主幹與解碼路徑,利用提示詞(Prompt)進行任務切換,而非堆疊模組。
效能與實際影響
Falcon OCR 在文件辨識任務上展現了輕量化模型的競爭力,並顯著提升了服務吞吐量:
- 效能表現:在 olmOCR 基準測試中平均準確率達 80.3%,在 OmniDocBench 上達 88.64%。
- 吞吐量優勢:在單張 A100-80GB GPU 上,配合 vLLM 服務架構,端到端(End to End)處理(包含版面分析與 OCR)可達到 5825 tok/s(2.9 img/s)。
- 成本效益:相較於 0.9B 等級的 OCR VLM,其參數規模縮小約 3 倍,在保持競爭力的同時,顯著降低了延遲與運算成本。
評測方法論與反思
開發團隊不僅追求單一分數,更建立「PBench」來診斷模型在不同能力上的表現,並對現有 OCR 評測提出反思:
- 評測細節:全頁解析的評測對匹配與表示細節極為敏感,例如表格與公式的指標,不僅取決於辨識品質,還受限於預測元素如何與 Ground Truth 匹配及輸出結構如何標準化。
- 局限性:模型在處理嚴重退化的舊掃描文件、極小字體時仍面臨挑戰;此外,視覺相同的表格可能對應不同的 HTML 結構,導致評測指標產生偏差。
未來展望
團隊認為,早期融合的單一堆疊 Transformer 是取代傳統「視覺編碼器加文字解碼器」架構的可行方向。這並非最終定論,而是鼓勵業界轉向更簡潔的架構設計,透過優化資料與訓練訊號,而非持續增加管線複雜度。
We are releasing Falcon Perception, an open-vocabulary referring expression segmentation model. Along with it, a 0.3B OCR model that is on par with 3-10x larger competitors.
— Yasser Dahou (@dahou_yasser) April 1, 2026
Current systems solve this with complex pipelines (separate encoders, late fusion, matching algorithms).… pic.twitter.com/1RZuPtuZAE
One dense early-fusion Transformer with a hybrid attention mask (image tokens bidirectional; text/task tokens causal over the visual prefix).
— Yasser Dahou (@dahou_yasser) April 1, 2026
For each instance we generate a short sequence (coord -> size -> mask). The backbone is shared, but decoding isn't: we use lightweight… pic.twitter.com/heUTVNXky4
We wanted a clear idea of where models work/fail for refrering expressions, not just a single score.
— Yasser Dahou (@dahou_yasser) April 1, 2026
So we built PBench: each example is assigned to one dominant capability (Simple nouns / Attributes / Text heavy / Spatial / Relations) + a Dense split to stress long-context… pic.twitter.com/Sdaj9j0mih
Falcon OCR applies the same early‑fusion + autoregressive interface to document OCR. At 0.3B parameters, it achieves 80.3% avg accuracy on olmOCR, and 88.64 overall on OmniDocBench. In a vLLM serving setup (Layout+OCR) we reach 5825 tok/s (2.9 img/s) on a single A100‑80GB. Which…
— Yasser Dahou (@dahou_yasser) April 1, 2026
