← 返回首頁

Fire-PDF以Rust打造的新PDF解析引擎,轉換速度提升5倍,無需設定即自動處理

Firecrawl
Firecrawl
@firecrawl
3,091🔁 221
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成

Fire-PDF以Rust打造的新PDF解析引擎,轉換速度提升5倍,無需設定即自動處理。

Fire-PDF是Firecrawl推出的開源Rust程式庫,專為PDF解析設計,每頁分類僅需不到400毫秒,即自動選擇最快提取路徑;一篇216頁財務報告僅需約83秒處理完畢,透過Firecrawl API傳入的每個PDF皆自動套用此引擎,將複雜文件秒速轉為乾淨資料。

效能提升5倍

Fire-PDF分類每頁時間控制在400ms以內,挑選最佳提取策略,遠勝傳統方法。

  • 216頁財務報告處理僅需83秒。
  • 相較舊版,轉換PDF至markdown速度快5倍。

佈局感知準確性

內建神經佈局模型獨立偵測各區域,確保表格完整輸出為markdown,公式保留LaTeX格式。

  • 完整擷取表格與公式結構。
  • 維持原始佈局資訊,避免內容遺失。

零設定自動化

無需額外配置,Firecrawl API即自動將PDF導向Fire-PDF處理,簡化使用流程。

支援文件格式

Firecrawl文件解析功能涵蓋多種格式,自動偵測URL副檔名或content-type header進行處理,所有輸出均轉為結構化markdown。

  • Excel試算表(.xlsx、.xls):每工作表轉HTML表格,以H2標題分隔工作表名稱,保留儲存格格式與資料類型。
  • Word文件(.docx、.doc、.odt、.rtf):擷取文字內容並維持文件結構,包括標題、段落、清單與表格,保留基本格式與樣式。
  • PDF文件(.pdf):擷取含佈局資訊的文字內容,維持區段與段落結構;支援文字基底與掃描PDF(含OCR),每頁計1 credit(詳見Pricing)。

PDF解析模式

透過parsers選項精準控制PDF處理策略,預設auto模式平衡速度與準確性。

  • auto:先嘗試快速文字提取,必要時回退OCR(預設)。
  • fast:僅文字基解析(內嵌文字),最快但不適用掃描或影像重頁面。
  • ocr:強制每頁OCR,適合掃描文件或auto模式誤判情況。

使用物件語法範例:

parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

預設範例:

parsers: [{ type: "pdf" }]

使用方式

提供指向支援文件的URL,即自動觸發解析,無需額外步驟;Node.js範例展示簡易整合。

Excel檔案範例

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Word文件範例

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

輸出格式

所有文件轉為乾淨結構化markdown,例如多工作表Excel輸出如下:

## Sheet1

| Name  | Value |
|-------|-------|
| Item 1 | 100   |
| Item 2 | 200   |

## Sheet2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | First quarter|

Fire-PDF與Firecrawl文件解析強調高效、精準與即插即用,特別適合處理大型財務報告或掃描文件,詳見https://docs.firecrawl.dev/features/document-parsing。