video-use透過Claude Code實現AI影片編輯,取代付費軟體
video-use透過Claude Code實現AI影片編輯,取代付費軟體。100%開源免費。
Gregor Zunic厭倦付費影片編輯器,開發「video-use」技能,讓使用者對著鏡頭錄製,即可自動生成final.mp4。該工具處理原始素材資料夾,透過聊天指令如「edit these into a launch video」,自動盤點來源、提出策略、確認後輸出edit/final.mp4,所有輸出置於videos_dir/edit/子資料夾,技能目錄保持乾淨。
核心功能
video-use支援多種內容類型,包括talking heads、montages、tutorials、travel、interviews,無需預設或選單:
- 剪除填充詞(umm、uh、false starts)及鏡頭間死空
- 自動顏色校正每個片段(warm cinematic、neutral punch,或自訂ffmpeg鏈)
- 每個剪輯處施加30ms音訊淡入淡出,避免pop聲
- 燒錄字幕,自訂風格,預設2-word UPPERCASE塊
- 產生動畫疊加,透過Manim、Remotion或PIL,並行啟動子Agent,每個動畫一個
- 渲染前自我評估每個剪輯邊界,僅通過後呈現給使用者
- 會話記憶持久化於project.md,下次啟動接續進度
快速啟動步驟
安裝簡單,整合Claude Code技能目錄:
- git clone https://github.com/browser-use/video-use;cd video-use;ln -s "$(pwd)" ~/.claude/skills/video-use
- pip install -e .;brew install ffmpeg(必要);brew install yt-dlp(選用,下載線上來源)
- 複製.env.example為.env,填入ELEVENLABS_API_KEY
切換至影片資料夾,執行claude,即可聊天指令編輯。
運作機制
LLM從不「觀看」影片,而是「讀取」它,透過兩層結構實現字界精準剪輯,避免原始方法30,000幀×1,500 token=45M token噪音,改用12KB文字+少量PNG。
Layer 1 — Audio transcript(總是載入)
每個來源呼叫一次ElevenLabs Scribe,獲取字級時間戳、speaker diarization及音訊事件((laughter)、(applause)、(sigh))。所有鏡頭打包成單一~12KB takes_packed.md,為LLM主要閱讀視圖。
## C0103 (duration: 43.0s, 8 phrases)
[002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted.
[006.08-006.74] S0 We fixed this.
Layer 2 — Visual composite(依需求)
timeline_view針對任意時間範圍產生filmstrip + waveform + word labels PNG,僅在決策點呼叫,如曖昧停頓、重錄比較、剪輯點檢查。類似browser-use提供結構化DOM而非截圖的概念,但應用於影片。
管線流程
Transcribe ──> Pack ──> LLM Reasons ──> EDL ──> Render ──> Self-Eval
│
└─ issue? fix + re-render (max 3)
自我評估迴圈在渲染輸出每個剪輯邊界執行timeline_view,偵測視覺跳躍、音訊pop、隱藏字幕,僅通過後才讓使用者預覽。
設計原則
強調生產級正確性,嚴守12條硬規則,藝術自由則彈性:
- 文字+依需求視覺,無幀傾印,transcript為主要表面。
- 音訊優先,視覺跟隨;剪輯來自語音邊界及靜默間隙。
- 詢問→確認→執行→自我評估→持久化,無策略批准不碰剪輯。
- 零內容類型假設,先觀察再編輯。
- 生產正確性不可妥協,品味則不然。
詳見SKILL.md的完整生產規則及編輯工藝。video-use彰顯AI代理harness在多媒體處理的潛力,避開token浪費,實現高效End to End (端到端)影片編輯,挑戰傳統付費工具霸權。
Introducing: Video Use. Edit videos with Claude Code. 🫡
— Gregor Zunic (@gregpr07) April 15, 2026
I got tired of paying for video editors, so I made a Claude Code skill that does it for me.
> Talk to camera, get final.mp4
> Auto cuts fillers, color grades, adds subtitles
> Adds Manim and Remotion animations
> Self… pic.twitter.com/oXivmrmgqt
— Gregor Zunic (@gregpr07) April 15, 2026
Just point it to a folder with loads of videos and get a final video back pic.twitter.com/d2kHyMteLk
— Gregor Zunic (@gregpr07) April 15, 2026
How it works
— Gregor Zunic (@gregpr07) April 15, 2026
The LLM never watches the video. It reads it — through two layers that together give it everything it needs to cut with word-boundary precision.
Layer 1 — Audio transcript (always loaded). One ElevenLabs Scribe call per source gives word-level timestamps, speaker… pic.twitter.com/3LN2Km5liT
