# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：PaddlePaddle (@PaddlePaddle) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/paddlepaddle/status/2046921966981120127

## 中文摘要

PaddleOCR 3.5.0釋出，支援瀏覽器OCR與辦公文件轉Markdown。

PaddleOCR 3.5.0推出，引入「PaddleOCR.js」瀏覽器推理SDK、辦公文件一鍵轉Markdown，以及Transformers後端整合，強化AI Agent時代的生產部署。該工具包以全球領先OCR與文件AI引擎聞名，擁有70k+星數，被「Dify」、「RAGFlow」等頂尖專案信賴，提供LLM就緒的結構化資料輸出。

**主要特色**

**智慧文件解析（LLM就緒）**  
轉換混亂視覺為LLM時代結構化資料，包含「PaddleOCR-VL-1.5 (0.9B)」業界領先輕量視覺語言模型（VLM），專攻5大真實世界挑戰：扭曲、掃描、螢幕拍攝、照明與傾斜文件，輸出Markdown與JSON格式。「PP-StructureV3」提供細緻座標資訊，如表格儲存格與文字座標，超越「PaddleOCR-VL」系列；在公開基準測試中勝過多數閉源方案，具備邊緣/雲端部署的資源效率。

**通用文字辨識（場景OCR）**  
全球高速多語文字偵測金標準，「PP-OCRv5」單模型解決中文、英文、日文、拼音等混合文件，支援100+語言，涵蓋自然場景如身分證、街景、書籍與工業元件，相較前版準確率提升13%，維持極致效率。

**開發者生態系**  
深度整合「Dify」、「RAGFlow」、「Pathway」與「Cherry Studio」等AI Agent生態，提供LLM資料飛輪完整管線，建構高品質資料集用於微調大型語言模型；一鍵部署支援NVIDIA GPU、Intel CPU、昆侖芯XPU與多種AI加速器。

**3.5.0最新更新**  
強化推理彈性與文件輸出豐富度：  
- 推理後端無縫切換Paddle靜態圖、動態圖或Transformers，20大模型支援Transformers後端，深度整合Hugging Face生態。  
- Word、Excel、PowerPoint一鍵轉Markdown。  
- 「PaddleOCR-VL」系列、「PP-StructureV3」與「PP-DocTranslation」支援解析結果匯出DOCX，便於Microsoft Word檢視編輯。  
- 官方「PaddleOCR.js」瀏覽器推理SDK，直接在瀏覽器執行「PP-OCRv5」，保護資料隱私並加速WebGPU與Wasm。

**3.4.0更新（2026.01.29）**  
推出「PaddleOCR-VL-1.5 (SOTA 0.9B VLM)」，文件解析旗艦模型：在「OmniDocBench」達94.5%準確率，超越頂級通用大模型與專用解析器；首創「PP-DocLayoutV3」演算法處理不規則形狀定位，掌握傾斜、扭曲、掃描、照明與螢幕拍攝5大情境；新增印章辨識、文字偵測，擴展至111語言（含藏文、孟加拉文）；支援自動跨頁表格合併與階層標題辨識。可於[HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5)或[官方網站](https://www.paddleocr.com)試用。

**3.3.0更新（2025.10.16）**  
釋出「PaddleOCR-VL」，核心為「PaddleOCR-VL-0.9B」，整合NaViT式動態解析視覺編碼器與「ERNIE-4.5-0.3B」語言模型，支援109語言，精準辨識文字、表格、公式與圖表，資源消耗極低；在頁級與元素級解析達SOTA表現，勝過管線式方案，對抗頂級VLM具競爭力，適用手寫與歷史文件，於[HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL)釋出。  
同時推出「PP-OCRv5」多語辨識模型，僅2M參數，拉丁文系提升準確率與覆蓋，新增斯拉夫文、阿拉伯文、天城文、泰盧固文、坦米爾文等，總計109語言，部分模型較前代提升40%以上。

**3.2.0更新（2025.08.21）**  
新增「PP-OCRv5」英文、泰文、希臘文訓練/推理/部署，英文場景較主模型提升11%，泰文/希臘文準確率達82.68%/89.28%。  
部署升級：完整支援PaddlePaddle 3.1.0/3.1.1；「PP-OCRv5」C++本地部署支援Linux/Windows，與Python版功能/準確率一致；高效推理支援CUDA 12，可用Paddle Inference或ONNX Runtime後端；高穩定服務部署全開源，自訂Docker映像與SDK，支援HTTP請求呼叫，任一程式語言開發客戶端。  
基準測試支援端到端推理時間、各層/模組延遲測量；文件新增主流硬體關鍵指標如延遲與記憶體使用，提供部署參考。其他修復訓練日誌儲存失敗、公式模型資料增強相容性、多進程死鎖等，並分離核心/選用依賴，僅需最小核心依賴即可文字辨識；Windows支援NVIDIA RTX 50系列；「PP-OCR」系列回傳單字元座標；新增AIStudio、ModelScope下載來源；支援「PP-Chart2Table」圖表轉表格。

**快速上手**  
線上體驗無需安裝，官方網站提供互動「體驗中心」與API，一鍵試用：[官方網站](https://www.paddleocr.com)。本地部署依需求參考：  
- 「PP-OCR」系列：[文件](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/OCR.html)  
- 「PaddleOCR-VL」系列：[文件](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PaddleOCR-VL.html)  
- 「PP-StructureV3」：[文件](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PP-StructureV3.html)  
- 更多功能：[管線概覽](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/pipeline_overview.html)

**進階功能**  
- 模型轉ONNX：[取得ONNX模型](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/obtaining_onnx_models.html)  
- 高效推理用OpenVINO、ONNX Runtime、TensorRT：[高效推理](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/high_performance_inference.html)  
- 多GPU/多進程加速：[管線並行推理](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/pipeline_usage/instructions/parallel_inference.html)  
- 整合C++、C#、Java應用：[服務部署](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/serving.html)

**生態影響**  
PaddleOCR獲6k+程式庫使用，PyPI下載量龐大，支援Python 3.8~3.12、Linux/Win/Mac、CPU/GPU/XPU/NPU。衍生專案包括「Dify」（Agent工作流平台）、「RAGFlow」（深度文件理解RAG引擎）、「Pathway」（即時ETL與LLM管線）、「MinerU」（多類文件轉Markdown）、「Umi-OCR」（離線批次OCR）、「Cherry Studio」（多LLM桌面客戶端）、「Haystack」（LLM應用框架）、「OmniParser」（螢幕解析GUI Agent）、「QAnything」（萬物問答），詳見[awesome_projects.md](https://github.com/PaddlePaddle/PaddleOCR/blob/release/3.5/doc/en/awesome_projects.md)。

**社群與資源**  
關注PaddlePaddle微信公眾號，加入技術討論群；400+貢獻者推動發展，Apache 2.0授權。引用論文包括《PaddleOCR 3.0 Technical Report》(arXiv:2507.05595)、《PaddleOCR-VL》(arXiv:2510.14528)、《PaddleOCR-VL-1.5》(arXiv:2601.21957)。Star程式庫追蹤更新，涵蓋強大OCR與文件解析能力。

## 標籤

功能更新, SDK, 開源專案, AIGC, RAG, PaddleOCR, Dify, RAGFlow
