Fire-PDF以Rust打造的新PDF解析引擎,轉換速度提升5倍,無需設定即自動處理
Fire-PDF以Rust打造的新PDF解析引擎,轉換速度提升5倍,無需設定即自動處理。
Fire-PDF是Firecrawl推出的開源Rust程式庫,專為PDF解析設計,每頁分類僅需不到400毫秒,即自動選擇最快提取路徑;一篇216頁財務報告僅需約83秒處理完畢,透過Firecrawl API傳入的每個PDF皆自動套用此引擎,將複雜文件秒速轉為乾淨資料。
效能提升5倍
Fire-PDF分類每頁時間控制在400ms以內,挑選最佳提取策略,遠勝傳統方法。
- 216頁財務報告處理僅需83秒。
- 相較舊版,轉換PDF至markdown速度快5倍。
佈局感知準確性
內建神經佈局模型獨立偵測各區域,確保表格完整輸出為markdown,公式保留LaTeX格式。
- 完整擷取表格與公式結構。
- 維持原始佈局資訊,避免內容遺失。
零設定自動化
無需額外配置,Firecrawl API即自動將PDF導向Fire-PDF處理,簡化使用流程。
支援文件格式
Firecrawl文件解析功能涵蓋多種格式,自動偵測URL副檔名或content-type header進行處理,所有輸出均轉為結構化markdown。
- Excel試算表(.xlsx、.xls):每工作表轉HTML表格,以H2標題分隔工作表名稱,保留儲存格格式與資料類型。
- Word文件(.docx、.doc、.odt、.rtf):擷取文字內容並維持文件結構,包括標題、段落、清單與表格,保留基本格式與樣式。
- PDF文件(.pdf):擷取含佈局資訊的文字內容,維持區段與段落結構;支援文字基底與掃描PDF(含OCR),每頁計1 credit(詳見Pricing)。
PDF解析模式
透過parsers選項精準控制PDF處理策略,預設auto模式平衡速度與準確性。
- auto:先嘗試快速文字提取,必要時回退OCR(預設)。
- fast:僅文字基解析(內嵌文字),最快但不適用掃描或影像重頁面。
- ocr:強制每頁OCR,適合掃描文件或auto模式誤判情況。
使用物件語法範例:
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]
預設範例:
parsers: [{ type: "pdf" }]
使用方式
提供指向支援文件的URL,即自動觸發解析,無需額外步驟;Node.js範例展示簡易整合。
Excel檔案範例
import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.xlsx');
console.log(doc.markdown);
Word文件範例
import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.docx');
console.log(doc.markdown);
輸出格式
所有文件轉為乾淨結構化markdown,例如多工作表Excel輸出如下:
## Sheet1
| Name | Value |
|-------|-------|
| Item 1 | 100 |
| Item 2 | 200 |
## Sheet2
| Date | Description |
|------------|--------------|
| 2023-01-01 | First quarter|
Fire-PDF與Firecrawl文件解析強調高效、精準與即插即用,特別適合處理大型財務報告或掃描文件,詳見https://docs.firecrawl.dev/features/document-parsing。
Introducing Fire-PDF, our new Rust-based parsing engine 🔥
— Firecrawl (@firecrawl) April 14, 2026
- Convert PDFs into markdown 5x faster
- Extract full tables and preserve formulas
- Zero config required pic.twitter.com/0V8Vn5ECW7
[ 5x Faster ]
— Firecrawl (@firecrawl) April 14, 2026
Our open-source Rust library classifies each page in under 400ms and picks the fastest extraction path.
A 216-page financial report processes in ~83 seconds.
[ Layout-Aware Accuracy ]
— Firecrawl (@firecrawl) April 14, 2026
Our neural layout model detects each region individually. Tables get full markdown output and formulas are preserved in LaTeX.
[ Zero Configuration ]
— Firecrawl (@firecrawl) April 14, 2026
Every PDF sent through the Firecrawl API now goes through Fire-PDF automatically.
Turn complex PDFs into clean data in seconds: https://t.co/nN4b4yITnL
— Firecrawl (@firecrawl) April 14, 2026
