# 策展 · X (Twitter) 🔥

> 作者：Yasser Dahou (@dahou_yasser) · 平台：X (Twitter) · 日期：2026-04-02

> 原始來源：https://x.com/dahou_yasser/status/2039242378809385331

## 中文摘要

Falcon OCR 透過早期融合架構，以 0.3B 輕量參數實現高效能文件辨識。

TII 發布了「Falcon Perception」與「Falcon OCR」，這兩款模型挑戰了傳統複雜的視覺語言模型架構，證明透過單一「早期融合 (early-fusion)」Transformer 架構，僅需 0.3B 參數即可達到與大型模型相當的效能。

**技術架構創新**
傳統 OCR 系統多依賴複雜的管線（Pipeline），包含獨立的編碼器、後期融合與匹配演算法。Falcon OCR 採取截然不同的路徑：
- 採用單一 Transformer 架構，從第一層開始就在共享參數空間內處理圖像區塊與文字 token。
- 使用混合注意力遮罩（Hybrid Attention Mask）：圖像 token 進行雙向注意力機制，而文字/任務 token 則在視覺前綴條件下進行因果解碼。
- 簡化介面：透過單一主幹與解碼路徑，利用提示詞（Prompt）進行任務切換，而非堆疊模組。

**效能與實際影響**
Falcon OCR 在文件辨識任務上展現了輕量化模型的競爭力，並顯著提升了服務吞吐量：
- 效能表現：在 olmOCR 基準測試中平均準確率達 80.3%，在 OmniDocBench 上達 88.64%。
- 吞吐量優勢：在單張 A100-80GB GPU 上，配合 vLLM 服務架構，端到端（End to End）處理（包含版面分析與 OCR）可達到 5825 tok/s（2.9 img/s）。
- 成本效益：相較於 0.9B 等級的 OCR VLM，其參數規模縮小約 3 倍，在保持競爭力的同時，顯著降低了延遲與運算成本。

**評測方法論與反思**
開發團隊不僅追求單一分數，更建立「PBench」來診斷模型在不同能力上的表現，並對現有 OCR 評測提出反思：
- 評測細節：全頁解析的評測對匹配與表示細節極為敏感，例如表格與公式的指標，不僅取決於辨識品質，還受限於預測元素如何與 Ground Truth 匹配及輸出結構如何標準化。
- 局限性：模型在處理嚴重退化的舊掃描文件、極小字體時仍面臨挑戰；此外，視覺相同的表格可能對應不同的 HTML 結構，導致評測指標產生偏差。

**未來展望**
團隊認為，早期融合的單一堆疊 Transformer 是取代傳統「視覺編碼器加文字解碼器」架構的可行方向。這並非最終定論，而是鼓勵業界轉向更簡潔的架構設計，透過優化資料與訓練訊號，而非持續增加管線複雜度。

## 標籤

新產品, 開源專案, VLM, TII, Falcon