# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：LlamaIndex 🦙 (@llama_index) · 平台：X (Twitter) · 日期：2026-05-28

> 原始來源：https://x.com/llama_index/status/2059675872408260816

## 中文摘要

LiteParse v2.0 透過 Rust 重寫核心架構，實現跨平台高效能文件解析與 OCR 功能。

LlamaIndex 團隊發布了「LiteParse v2.0」，這是一款專為快速、輕量化文件解析所設計的開源工具。本次更新將整個專案以 Rust 語言重新編寫，不僅大幅提升解析速度，更實現了對 Node.js、Python、Rust 原生環境以及瀏覽器與 Edge 執行環境（透過 WASM）的全面支援，為開發者提供一致的跨平台解析體驗。

**核心效能與架構升級**
LiteParse v2.0 的核心目標是解決舊版本在 Node.js 環境下的延遲與部署限制。透過 Rust 的重寫，該工具在效能上獲得顯著提升：
- **解析速度優化**：小型文件解析速度提升 5 至 100 倍，大型文件則約有 3 倍的效能增長。
- **極致效能表現**：在處理一份 457 頁、100MB 的文件時，僅需 0.777 秒即可完成。
- **技術整合**：底層採用自定義的 PDFium 建置，並預設整合 `tesseract-rs` 作為 OCR 引擎，確保在各種環境下皆能維持高效的文字提取能力。

**跨平台與部署靈活性**
為了達成「隨處執行」的目標，LiteParse v2.0 提供了多種安裝與使用方式：
- **原生支援**：可透過 `pip install liteparse`（Python）、`npm i @llamaindex/liteparse`（Node.js）或 `cargo install liteparse`（Rust）直接安裝。
- **瀏覽器與 Edge 支援**：透過 `@llamaindex/liteparse-wasm` 套件，使用者現在可以直接在瀏覽器中進行本地端解析，無需將文件上傳至伺服器。
- **OCR 彈性**：除了內建的 Tesseract，使用者還可透過 HTTP 介面整合 EasyOCR、PaddleOCR 或其他自定義的 OCR 服務，滿足不同精確度與效能的需求。

**功能與操作指引**
LiteParse 支援多種文件格式（PDF、Office 文件、圖片），並提供精確的空間文字定位（Bounding Boxes）與頁面截圖功能，適合需要即時讀取文件的 Agent 應用。以下為常用指令：

1. **基本解析**：
   ```bash
   lit parse document.pdf --format json -o output.json
   ```
2. **批次處理目錄**：
   ```bash
   lit batch-parse ./input-directory ./output-directory
   ```
3. **產生頁面截圖**（供 Agent 視覺分析使用）：
   ```bash
   lit screenshot document.pdf -o ./screenshots
   ```
4. **離線環境設定**：若需在無網路環境下使用，可設定環境變數：
   ```bash
   export TESSDATA_PREFIX=/path/to/tessdata
   lit parse document.pdf --ocr-language eng
   ```

**使用建議與限制**
LiteParse 專注於輕量化與本地端執行，不依賴任何雲端 API。然而，官方特別提醒，若遇到複雜的文件結構（如密集的表格、多欄位排版、圖表、手寫文字或掃描品質極差的文件），建議改用 LlamaIndex 的雲端解決方案「LlamaParse」，以獲得更佳的結構化輸出與 Markdown 轉換效果。

如需將 LiteParse 作為 Agent 的 skill 使用，可透過以下指令安裝：
```bash
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
```
更多詳細資訊可參考 [官方部落格](https://www.llamaindex.ai/blog/liteparse-v2-0-runs-everywhere?utm_medium=socials&utm_source=twitter&utm_campaign=2026-may-) 與 [GitHub 專案庫](https://github.com/run-llama/liteparse)。

## 標籤

開源專案, 功能更新, LlamaIndex, Rust
