Real-time video captioning in your browser with @LiquidAI's LFM2-VL model on WebGPU.
— Xenova (@xenovacom) March 13, 2026
Sending every frame to a server was never going to be the answer. Imagine the bandwidth, latency and cost.
Local inference. No server costs. Infinitely scalable.
This is the way. pic.twitter.com/P0vIjoBH6Y
Fun fact: I had to slow down frame capturing by 120ms because the model was too fast! 😅
— Xenova (@xenovacom) March 13, 2026
LFM2-VL + Transformers.js = ⚡️
Try out the demo yourself!https://t.co/odLKHG1tWk
AI 中文摘要Claude 生成
Liquid AI 展示了一個在瀏覽器中執行即時視訊字幕功能的方案,採用 LFM2-VL 模型搭配 WebGPU 技術。這個做法直接挑戰了傳統架構——將每一幀畫面傳送至伺服器的方式因頻寬、延遲和成本問題而被認為不可行。
該方案改用本機推論,完全消除伺服器成本,理論上可無限擴展。LFM2-VL 與 Transformers.js 的結合展現了顯著的效能優勢,快到開發者需要將幀捕捉速度減緩 120 毫秒以避免模型運算過度超前。這突顯了邊緣人工智慧在視訊處理領域的潛力——計算工作直接在使用者端設備上完成,而非仰賴遠端基礎設施。
此案例展示了人工智慧模型部署方向的轉變,從集中式伺服器架構轉向分散式瀏覽器運算。Hugging Face Spaces 上的可互動演示讓開發者可直接體驗這項技術,突顯了開放模型與現代瀏覽器能力結合的實際應用價值.
