← 返回首頁

video-use透過Claude Code實現AI影片編輯,取代付費軟體

Gregor Zunic
Gregor Zunic
@gregpr07
81🔁 8
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成

video-use透過Claude Code實現AI影片編輯,取代付費軟體。100%開源免費。

Gregor Zunic厭倦付費影片編輯器,開發「video-use」技能,讓使用者對著鏡頭錄製,即可自動生成final.mp4。該工具處理原始素材資料夾,透過聊天指令如「edit these into a launch video」,自動盤點來源、提出策略、確認後輸出edit/final.mp4,所有輸出置於videos_dir/edit/子資料夾,技能目錄保持乾淨。

核心功能

video-use支援多種內容類型,包括talking heads、montages、tutorials、travel、interviews,無需預設或選單:

  • 剪除填充詞(umm、uh、false starts)及鏡頭間死空
  • 自動顏色校正每個片段(warm cinematic、neutral punch,或自訂ffmpeg鏈)
  • 每個剪輯處施加30ms音訊淡入淡出,避免pop聲
  • 燒錄字幕,自訂風格,預設2-word UPPERCASE塊
  • 產生動畫疊加,透過Manim、Remotion或PIL,並行啟動子Agent,每個動畫一個
  • 渲染前自我評估每個剪輯邊界,僅通過後呈現給使用者
  • 會話記憶持久化於project.md,下次啟動接續進度

快速啟動步驟

安裝簡單,整合Claude Code技能目錄:

  • git clone https://github.com/browser-use/video-use;cd video-use;ln -s "$(pwd)" ~/.claude/skills/video-use
  • pip install -e .;brew install ffmpeg(必要);brew install yt-dlp(選用,下載線上來源)
  • 複製.env.example為.env,填入ELEVENLABS_API_KEY

切換至影片資料夾,執行claude,即可聊天指令編輯。

運作機制

LLM從不「觀看」影片,而是「讀取」它,透過兩層結構實現字界精準剪輯,避免原始方法30,000幀×1,500 token=45M token噪音,改用12KB文字+少量PNG。

Layer 1 — Audio transcript(總是載入)

每個來源呼叫一次ElevenLabs Scribe,獲取字級時間戳、speaker diarization及音訊事件((laughter)、(applause)、(sigh))。所有鏡頭打包成單一~12KB takes_packed.md,為LLM主要閱讀視圖。

## C0103  (duration: 43.0s, 8 phrases)
  [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted.
  [006.08-006.74] S0 We fixed this.

Layer 2 — Visual composite(依需求)

timeline_view針對任意時間範圍產生filmstrip + waveform + word labels PNG,僅在決策點呼叫,如曖昧停頓、重錄比較、剪輯點檢查。類似browser-use提供結構化DOM而非截圖的概念,但應用於影片。

管線流程

Transcribe ──> Pack ──> LLM Reasons ──> EDL ──> Render ──> Self-Eval
                                                              │
                                                              └─ issue? fix + re-render (max 3)

自我評估迴圈在渲染輸出每個剪輯邊界執行timeline_view,偵測視覺跳躍、音訊pop、隱藏字幕,僅通過後才讓使用者預覽。

設計原則

強調生產級正確性,嚴守12條硬規則,藝術自由則彈性:

  1. 文字+依需求視覺,無幀傾印,transcript為主要表面。
  2. 音訊優先,視覺跟隨;剪輯來自語音邊界及靜默間隙。
  3. 詢問→確認→執行→自我評估→持久化,無策略批准不碰剪輯。
  4. 零內容類型假設,先觀察再編輯。
  5. 生產正確性不可妥協,品味則不然。

詳見SKILL.md的完整生產規則及編輯工藝。video-use彰顯AI代理harness在多媒體處理的潛力,避開token浪費,實現高效End to End (端到端)影片編輯,挑戰傳統付費工具霸權。