# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Shubham Sharma (@HappyyPablo) · 平台：X (Twitter) · 日期：2026-05-21

> 原始來源：https://x.com/HappyyPablo/status/2056839665551024474

## 中文摘要

Marlin-2B 推出輕量級視覺語言模型。

由 Shubham Sharma（@HappyyPablo）與 @rethinkNow348 開發的 Marlin-2B，旨在解決開發者在處理影片內容時最核心的兩個問題：影片中發生了什麼事？以及這些事件發生在什麼時間點？該模型以僅 2B 參數的輕量級規模，在密集字幕生成與時間定位任務上展現了與 Gemini-2.5-flash 競爭的實力，為開發者提供了一種高效且低成本的開源解決方案。

**開發背景與動機**
開發者指出，他們在建構影片編輯 Agent 時，原本依賴 Gemini-2.5-flash 來解析 Instagram Reels 的事件，但頻繁遭遇內容審查機制（Content Filters）的阻礙。為了擺脫此限制，他們投入了一個月的時間與兩張 H100 GPU 進行開發，最終產出了 Marlin-2B。這款模型不僅是為了學術研究，更是為了滿足實際生產環境中對影片分析的需求。

**核心功能與應用模式**
Marlin-2B 透過兩種主要模式提供服務，並能直接回傳結構化的 Python 字典格式：
- `marlin.caption()`：生成結構化的「場景 + 事件」字幕，並附帶精確到秒的時間戳記。適用於為短影音自動生成字幕、建立影片庫索引，或為 Agent 提供影片內容的上下文資訊。
- `marlin.find()`：針對自然語言查詢，回傳影片中對應的（開始, 結束）時間戳記。其執行速度極快，足以在 Agent 的迴圈中即時呼叫，精準定位影片中毫秒級的瞬間。

**技術架構與訓練策略**
Marlin-2B 基於「Qwen3.5-2B」進行微調，並保留了原有的視覺編碼器。其訓練過程分為兩個階段：
1. 監督式微調（SFT）：使用包含多種公開資料集（如 ActivityNet、LSMDC、Charades 等）以及經由 Gemini-3-Flash 進行「思考模式」重標註的高品質資料。最終混合了約 40 萬筆高質量的片段級標註。
2. 偏好優化：採用 SimPO（Simple Preference Optimization）技術進行訓練。透過 Gemini-3-Flash 作為評審，根據事實準確性、完整性與時間對齊度對候選輸出進行評分，建立勝負對（win/lose pairs）來優化模型，此方法比 DPO 更穩定且成本更低。

**效能表現與評測**
在 2B 參數級別中，Marlin-2B 是目前最強大的開源影片 VLM：
- 密集字幕生成：在「DREAM-1K」與「CaReBench」基準測試中表現優異，超越了 Tarsier-2 7B/34B 等模型。
- 時間定位：在「TimeLens-Bench」測試中，以 +6.4 mIoU 的優勢領先 Qwen2.5-VL-7B，並與 Gemini-2.5-flash 的效能相當。
- 部署優勢：模型與 vLLM 及 swift 部署框架相容，可在單張消費級 GPU 上運行，無需特殊的封裝即可直接使用。

**資源與連結**
開發團隊已公開模型權重與相關資源，並預告將發布訓練配方與新的基準測試：
- 模型下載：[Hugging Face - Marlin-2B](https://huggingface.co/NemoStation/Marlin-2B)
- 線上展示：[Marlin Hosted Demo](http://vlm.nemostation.com)
- 程式碼實作：模型透過 `modeling_marlin.py` 封裝了自定義的建模程式碼，開發者可透過標準的 HF transformers API 進行呼叫。

## 標籤

VLM, 開源專案, 新產品, AIGC, Marlin-2B, Gemini