← 返回首頁

Liquid AI 發布 LFM2.5-VL-450M 模型,實現邊緣裝置上的即時視覺推理與結構化輸出

Liquid AI
Liquid AI
@liquidai
743🔁 85
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Liquid AI 發布 LFM2.5-VL-450M 模型,實現邊緣裝置上的即時視覺推理與結構化輸出。

Liquid AI 近期推出 LFM2.5-VL-450M,這是一款專為邊緣裝置設計的視覺語言模型 (VLM),旨在透過單次推論取代傳統繁瑣的視覺處理流程,實現即時的場景理解與結構化輸出。

核心技術突破
相較於前代 LFM2-VL-450M,新版本在預訓練階段將 token 數量從 10T 擴展至 28T,並透過偏好優化與強化學習強化了多模態行為。該模型具備以下關鍵能力:

  • 邊界框預測:在 RefCOCO-M 基準測試中達到 81.28 分,具備物體識別與定位能力。
  • 多語言視覺理解:MMMB 基準測試分數由 54.29 提升至 68.09,支援阿拉伯語、中文、法語、德語、日語、韓語、葡萄牙語及西班牙語。
  • 指令遵循能力:MM-IFEVAL 分數從 32.93 提升至 45.00,對文字與視覺輸入的控制力更強。
  • 功能呼叫支援:整合 BFCLv4 標準,可執行結構化的功能呼叫。

效能與邊緣運算優勢
該模型強調「單次推論」架構,旨在解決現行生產環境中視覺系統過於依賴多階段(偵測器→分類器→啟發式規則)堆疊所導致的緩慢、脆弱且難以維護問題。

  • 處理速度:在 Jetson Orin 上,處理 512×512 影像僅需不到 250ms,足以支援 4 FPS 影片串流的即時視覺語言理解。
  • 硬體相容性:可在 Jetson Orin、AMD Ryzen AI Max+ 395 及 Snapdragon 8 Elite 等多種邊緣硬體上運行,無需雲端依賴,確保隱私與離線運作能力。

實際應用場景
Liquid AI 指出,該模型特別適合對延遲、功耗及隱私有嚴格要求的部署環境:

  • 工業自動化:在車輛、農業機械或倉儲環境中,能超越傳統邊界框偵測,提供語義化的場景理解(如識別工人動作或庫存流動)。
  • 穿戴式裝置與監控:適用於智慧眼鏡、行車記錄器等需長時間運作的設備,能將原始影片轉化為結構化資訊,同時降低運算需求。
  • 零售與電子商務:針對高吞吐量的視覺處理需求(如目錄建立、視覺搜尋、貨架合規性),提供具備成本效益的結構化視覺推理方案。