PaddleOCR 3.5.0釋出,支援瀏覽器OCR與辦公文件轉Markdown
PaddleOCR 3.5.0釋出,支援瀏覽器OCR與辦公文件轉Markdown。
PaddleOCR 3.5.0推出,引入「PaddleOCR.js」瀏覽器推理SDK、辦公文件一鍵轉Markdown,以及Transformers後端整合,強化AI Agent時代的生產部署。該工具包以全球領先OCR與文件AI引擎聞名,擁有70k+星數,被「Dify」、「RAGFlow」等頂尖專案信賴,提供LLM就緒的結構化資料輸出。
主要特色
智慧文件解析(LLM就緒)
轉換混亂視覺為LLM時代結構化資料,包含「PaddleOCR-VL-1.5 (0.9B)」業界領先輕量視覺語言模型(VLM),專攻5大真實世界挑戰:扭曲、掃描、螢幕拍攝、照明與傾斜文件,輸出Markdown與JSON格式。「PP-StructureV3」提供細緻座標資訊,如表格儲存格與文字座標,超越「PaddleOCR-VL」系列;在公開基準測試中勝過多數閉源方案,具備邊緣/雲端部署的資源效率。
通用文字辨識(場景OCR)
全球高速多語文字偵測金標準,「PP-OCRv5」單模型解決中文、英文、日文、拼音等混合文件,支援100+語言,涵蓋自然場景如身分證、街景、書籍與工業元件,相較前版準確率提升13%,維持極致效率。
開發者生態系
深度整合「Dify」、「RAGFlow」、「Pathway」與「Cherry Studio」等AI Agent生態,提供LLM資料飛輪完整管線,建構高品質資料集用於微調大型語言模型;一鍵部署支援NVIDIA GPU、Intel CPU、昆侖芯XPU與多種AI加速器。
3.5.0最新更新
強化推理彈性與文件輸出豐富度:
- 推理後端無縫切換Paddle靜態圖、動態圖或Transformers,20大模型支援Transformers後端,深度整合Hugging Face生態。
- Word、Excel、PowerPoint一鍵轉Markdown。
- 「PaddleOCR-VL」系列、「PP-StructureV3」與「PP-DocTranslation」支援解析結果匯出DOCX,便於Microsoft Word檢視編輯。
- 官方「PaddleOCR.js」瀏覽器推理SDK,直接在瀏覽器執行「PP-OCRv5」,保護資料隱私並加速WebGPU與Wasm。
3.4.0更新(2026.01.29)
推出「PaddleOCR-VL-1.5 (SOTA 0.9B VLM)」,文件解析旗艦模型:在「OmniDocBench」達94.5%準確率,超越頂級通用大模型與專用解析器;首創「PP-DocLayoutV3」演算法處理不規則形狀定位,掌握傾斜、扭曲、掃描、照明與螢幕拍攝5大情境;新增印章辨識、文字偵測,擴展至111語言(含藏文、孟加拉文);支援自動跨頁表格合併與階層標題辨識。可於HuggingFace或官方網站試用。
3.3.0更新(2025.10.16)
釋出「PaddleOCR-VL」,核心為「PaddleOCR-VL-0.9B」,整合NaViT式動態解析視覺編碼器與「ERNIE-4.5-0.3B」語言模型,支援109語言,精準辨識文字、表格、公式與圖表,資源消耗極低;在頁級與元素級解析達SOTA表現,勝過管線式方案,對抗頂級VLM具競爭力,適用手寫與歷史文件,於HuggingFace釋出。
同時推出「PP-OCRv5」多語辨識模型,僅2M參數,拉丁文系提升準確率與覆蓋,新增斯拉夫文、阿拉伯文、天城文、泰盧固文、坦米爾文等,總計109語言,部分模型較前代提升40%以上。
3.2.0更新(2025.08.21)
新增「PP-OCRv5」英文、泰文、希臘文訓練/推理/部署,英文場景較主模型提升11%,泰文/希臘文準確率達82.68%/89.28%。
部署升級:完整支援PaddlePaddle 3.1.0/3.1.1;「PP-OCRv5」C++本地部署支援Linux/Windows,與Python版功能/準確率一致;高效推理支援CUDA 12,可用Paddle Inference或ONNX Runtime後端;高穩定服務部署全開源,自訂Docker映像與SDK,支援HTTP請求呼叫,任一程式語言開發客戶端。
基準測試支援端到端推理時間、各層/模組延遲測量;文件新增主流硬體關鍵指標如延遲與記憶體使用,提供部署參考。其他修復訓練日誌儲存失敗、公式模型資料增強相容性、多進程死鎖等,並分離核心/選用依賴,僅需最小核心依賴即可文字辨識;Windows支援NVIDIA RTX 50系列;「PP-OCR」系列回傳單字元座標;新增AIStudio、ModelScope下載來源;支援「PP-Chart2Table」圖表轉表格。
快速上手
線上體驗無需安裝,官方網站提供互動「體驗中心」與API,一鍵試用:官方網站。本地部署依需求參考:
進階功能
生態影響
PaddleOCR獲6k+程式庫使用,PyPI下載量龐大,支援Python 3.8~3.12、Linux/Win/Mac、CPU/GPU/XPU/NPU。衍生專案包括「Dify」(Agent工作流平台)、「RAGFlow」(深度文件理解RAG引擎)、「Pathway」(即時ETL與LLM管線)、「MinerU」(多類文件轉Markdown)、「Umi-OCR」(離線批次OCR)、「Cherry Studio」(多LLM桌面客戶端)、「Haystack」(LLM應用框架)、「OmniParser」(螢幕解析GUI Agent)、「QAnything」(萬物問答),詳見awesome_projects.md。
社群與資源
關注PaddlePaddle微信公眾號,加入技術討論群;400+貢獻者推動發展,Apache 2.0授權。引用論文包括《PaddleOCR 3.0 Technical Report》(arXiv:2507.05595)、《PaddleOCR-VL》(arXiv:2510.14528)、《PaddleOCR-VL-1.5》(arXiv:2601.21957)。Star程式庫追蹤更新,涵蓋強大OCR與文件解析能力。
🚀 PaddleOCR 3.5 is here!
— PaddlePaddle (@PaddlePaddle) April 22, 2026
Introducing PaddleOCR 3.5 — now with browser-based OCR, document-to-Markdown conversion, and Transformers backend integration.
📊 Key Highlights:
🔸 PaddleOCR.js for direct browser deployment
🔸One-click conversion: Word/Excel/PPT to Markdown
🔸Unified… pic.twitter.com/r38uD73Wf1
