# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Gregor Zunic (@gregpr07) · 平台：X (Twitter) · 日期：2026-04-16

> 原始來源：https://x.com/gregpr07/status/2044554557221675380

## 中文摘要

video-use透過Claude Code實現AI影片編輯，取代付費軟體。100%開源免費。

Gregor Zunic厭倦付費影片編輯器，開發「video-use」技能，讓使用者對著鏡頭錄製，即可自動生成final.mp4。該工具處理原始素材資料夾，透過聊天指令如「edit these into a launch video」，自動盤點來源、提出策略、確認後輸出edit/final.mp4，所有輸出置於videos_dir/edit/子資料夾，技能目錄保持乾淨。

**核心功能**

video-use支援多種內容類型，包括talking heads、montages、tutorials、travel、interviews，無需預設或選單：
- 剪除填充詞（umm、uh、false starts）及鏡頭間死空
- 自動顏色校正每個片段（warm cinematic、neutral punch，或自訂ffmpeg鏈）
- 每個剪輯處施加30ms音訊淡入淡出，避免pop聲
- 燒錄字幕，自訂風格，預設2-word UPPERCASE塊
- 產生動畫疊加，透過Manim、Remotion或PIL，並行啟動子Agent，每個動畫一個
- 渲染前自我評估每個剪輯邊界，僅通過後呈現給使用者
- 會話記憶持久化於project.md，下次啟動接續進度

**快速啟動步驟**

安裝簡單，整合Claude Code技能目錄：
- git clone https://github.com/browser-use/video-use；cd video-use；ln -s "$(pwd)" ~/.claude/skills/video-use
- pip install -e .；brew install ffmpeg（必要）；brew install yt-dlp（選用，下載線上來源）
- 複製.env.example為.env，填入ELEVENLABS_API_KEY

切換至影片資料夾，執行claude，即可聊天指令編輯。

**運作機制**

LLM從不「觀看」影片，而是「讀取」它，透過兩層結構實現字界精準剪輯，避免原始方法30,000幀×1,500 token=45M token噪音，改用12KB文字+少量PNG。

**Layer 1 — Audio transcript（總是載入）**

每個來源呼叫一次ElevenLabs Scribe，獲取字級時間戳、speaker diarization及音訊事件（(laughter)、(applause)、(sigh)）。所有鏡頭打包成單一~12KB takes_packed.md，為LLM主要閱讀視圖。
```
## C0103  (duration: 43.0s, 8 phrases)
  [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted.
  [006.08-006.74] S0 We fixed this.
```

**Layer 2 — Visual composite（依需求）**

timeline_view針對任意時間範圍產生filmstrip + waveform + word labels PNG，僅在決策點呼叫，如曖昧停頓、重錄比較、剪輯點檢查。類似browser-use提供結構化DOM而非截圖的概念，但應用於影片。

**管線流程**

```
Transcribe ──> Pack ──> LLM Reasons ──> EDL ──> Render ──> Self-Eval
                                                              │
                                                              └─ issue? fix + re-render (max 3)
```
自我評估迴圈在渲染輸出每個剪輯邊界執行timeline_view，偵測視覺跳躍、音訊pop、隱藏字幕，僅通過後才讓使用者預覽。

**設計原則**

強調生產級正確性，嚴守12條硬規則，藝術自由則彈性：
1. 文字+依需求視覺，無幀傾印，transcript為主要表面。
2. 音訊優先，視覺跟隨；剪輯來自語音邊界及靜默間隙。
3. 詢問→確認→執行→自我評估→持久化，無策略批准不碰剪輯。
4. 零內容類型假設，先觀察再編輯。
5. 生產正確性不可妥協，品味則不然。

詳見SKILL.md的完整生產規則及編輯工藝。video-use彰顯AI代理harness在多媒體處理的潛力，避開token浪費，實現高效End to End (端到端)影片編輯，挑戰傳統付費工具霸權。

## 標籤

Claude Code, Skills, 開源專案, AIGC, Anthropic, Claude