# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Joshua Xu (@joshua_xu_) · 平台：X (Twitter) · 日期：2026-04-08

> 原始來源：https://x.com/joshua_xu_/status/2041894304617263128

## 中文摘要

HeyGen 推出 Avatar V 模型，實現了高擬真且具備行為一致性的數位分身生成。

HeyGen 發布了最新的 Avatar V 模型，這是一套能透過單一參考影片與音訊，生成長度不受限、且能精準還原個人外貌特徵與行為習慣的 AI 數位分身系統。該模型透過五階段訓練流程與創新的架構設計，解決了過去數位分身在身分一致性與動態行為捕捉上的技術瓶頸。

**核心架構與技術創新**
Avatar V 捨棄了將身分資訊壓縮為低維度嵌入（embeddings）的傳統做法，改採「影片參考條件化」（video-reference conditioning）技術，在每個 Transformer 層級中處理完整的參考影片 token 序列。其關鍵技術亮點包括：
- **稀疏參考注意力機制（Sparse Reference Attention）**：透過結構化的稀疏模式，在不犧牲身分細節的前提下，將計算複雜度降低至近乎線性，使其能處理長達數分鐘的參考影片。
- **靜態與動態身分建模**：模型不僅能捕捉牙齒結構、皮膚紋理等靜態特徵，還能學習說話節奏、微表情與手勢等動態行為模式。
- **身分保留影像引擎**：自動從輸入影片中選取多視角、多表情的影格，確保在不同場景下仍能精準還原細微的臉部特徵。
- **身分感知超解析度（Identity-Aware Super-Resolution）**：基於 DiT（Diffusion Transformer）架構，在放大解析度時共享身分建模機制，確保臉部特徵在升頻過程中不失真。

**五階段訓練流程**
為了達到生產級的應用標準，Avatar V 採用了循序漸進的訓練策略，從通用模型逐步精煉至專用模型：
- **階段 1：文字轉影片預訓練**：在網際網路規模的影片資料上進行訓練，學習通用的動作、運鏡與時間一致性。
- **階段 2：音訊轉影片預訓練**：引入音訊交叉注意力模組，學習將驅動音訊與視覺特徵對齊。
- **階段 3：個性化監督式微調（SFT）**：使用相同身分但在不同場景下的影片對進行訓練，強化模型提取身分特徵而非複製場景細節的能力。
- **階段 4：蒸餾（Distillation）**：透過 CFG 蒸餾與分佈匹配蒸餾（DMD），將推理成本降低超過一個數量級。
- **階段 5：RLHF 對齊**：利用 GRPO 與 DPO 演算法，根據人類對身分還原度、動作自然度與視覺品質的偏好進行最終對齊。

**效能評估與市場定位**
HeyGen 強調 Avatar V 是目前全球最先進的 AI 數位分身模型，並透過數據證明其優勢：
- **盲測表現**：在與頂尖模型進行的盲測中，Avatar V 的被選擇率最高，顯示其生成的「更好」更符合使用者實際需求。
- **客觀指標**：在同步性、身分還原度及整體視覺品質等工業基準測試中，均展現出頂尖效能。
- **主觀評估**：經由專業評審進行的個別影片評分中，Avatar V 在身分、同步、動作與視覺品質四個維度皆獲得最高分。

**倫理與安全機制**
針對數位分身技術帶來的潛在風險，HeyGen 在生產平台實施了嚴格的防護措施：
- **同意驗證**：建立自訂數位分身必須經過當事人明確驗證，且當事人隨時有權要求移除其肖像權。
- **雙階段審核**：所有上傳或生成的內容均需經過機器學習自動審核與人工審核，涵蓋詐欺、騷擾、兒童安全、錯誤資訊與智慧財產權侵權等範疇。違規內容將面臨移除、帳號停權或通報法律機關的處置。

## 標籤

AIGC, 新產品, 功能更新, HeyGen
