HeyGen 推出 Avatar V 模型，實現了高擬真且具備行為一致性的數位分身生成

Joshua Xu

@joshua_xu_

♥258🔁 44

𝕏 (Twitter)🔥🔥🔥🔥🔥2026年4月8日

📎 來源文章 ↗查看原文 ↗

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

HeyGen 推出 Avatar V 模型，實現了高擬真且具備行為一致性的數位分身生成。

HeyGen 發布了最新的 Avatar V 模型，這是一套能透過單一參考影片與音訊，生成長度不受限、且能精準還原個人外貌特徵與行為習慣的 AI 數位分身系統。該模型透過五階段訓練流程與創新的架構設計，解決了過去數位分身在身分一致性與動態行為捕捉上的技術瓶頸。

核心架構與技術創新
Avatar V 捨棄了將身分資訊壓縮為低維度嵌入（embeddings）的傳統做法，改採「影片參考條件化」（video-reference conditioning）技術，在每個 Transformer 層級中處理完整的參考影片 token 序列。其關鍵技術亮點包括：

稀疏參考注意力機制（Sparse Reference Attention）：透過結構化的稀疏模式，在不犧牲身分細節的前提下，將計算複雜度降低至近乎線性，使其能處理長達數分鐘的參考影片。
靜態與動態身分建模：模型不僅能捕捉牙齒結構、皮膚紋理等靜態特徵，還能學習說話節奏、微表情與手勢等動態行為模式。
身分保留影像引擎：自動從輸入影片中選取多視角、多表情的影格，確保在不同場景下仍能精準還原細微的臉部特徵。
身分感知超解析度（Identity-Aware Super-Resolution）：基於 DiT（Diffusion Transformer）架構，在放大解析度時共享身分建模機制，確保臉部特徵在升頻過程中不失真。

五階段訓練流程
為了達到生產級的應用標準，Avatar V 採用了循序漸進的訓練策略，從通用模型逐步精煉至專用模型：

階段 1：文字轉影片預訓練：在網際網路規模的影片資料上進行訓練，學習通用的動作、運鏡與時間一致性。
階段 2：音訊轉影片預訓練：引入音訊交叉注意力模組，學習將驅動音訊與視覺特徵對齊。
階段 3：個性化監督式微調（SFT）：使用相同身分但在不同場景下的影片對進行訓練，強化模型提取身分特徵而非複製場景細節的能力。
階段 4：蒸餾（Distillation）：透過 CFG 蒸餾與分佈匹配蒸餾（DMD），將推理成本降低超過一個數量級。
階段 5：RLHF 對齊：利用 GRPO 與 DPO 演算法，根據人類對身分還原度、動作自然度與視覺品質的偏好進行最終對齊。

效能評估與市場定位
HeyGen 強調 Avatar V 是目前全球最先進的 AI 數位分身模型，並透過數據證明其優勢：

盲測表現：在與頂尖模型進行的盲測中，Avatar V 的被選擇率最高，顯示其生成的「更好」更符合使用者實際需求。
客觀指標：在同步性、身分還原度及整體視覺品質等工業基準測試中，均展現出頂尖效能。
主觀評估：經由專業評審進行的個別影片評分中，Avatar V 在身分、同步、動作與視覺品質四個維度皆獲得最高分。

倫理與安全機制
針對數位分身技術帶來的潛在風險，HeyGen 在生產平台實施了嚴格的防護措施：

同意驗證：建立自訂數位分身必須經過當事人明確驗證，且當事人隨時有權要求移除其肖像權。
雙階段審核：所有上傳或生成的內容均需經過機器學習自動審核與人工審核，涵蓋詐欺、騷擾、兒童安全、錯誤資訊與智慧財產權侵權等範疇。違規內容將面臨移除、帳號停權或通報法律機關的處置。

Introducing Avatar V. We’ve solved character consistency. Forever.

Record yourself once for 15 seconds. From there, you can show up anywhere, in any look, and it still feels like you. Any photo becomes a video that looks, moves, and speaks like you, down to your mannerisms and… pic.twitter.com/qQsWlRoOkw
— Joshua Xu (@joshua_xu_) April 8, 2026

We put the top avatar models head to head in blind tests, and Avatar V was chosen more often than any other model, showing what “better” actually means to users. pic.twitter.com/IMdQ0Ilf7S
— Joshua Xu (@joshua_xu_) April 8, 2026

Objective industry benchmarks across sync, identity, and overall quality show top performance across most evaluated metrics, not just what people prefer but what actually performs. pic.twitter.com/83LnOdvLqR
— Joshua Xu (@joshua_xu_) April 8, 2026

Even in our subjective evaluation where videos were rated individually by trained reviewers, Avatar V scored highest across identity, sync, motion, and visual quality. pic.twitter.com/FR9eQlOgZ0
— Joshua Xu (@joshua_xu_) April 8, 2026

Read the full research here: https://t.co/mlHy2W8pEP
— Joshua Xu (@joshua_xu_) April 8, 2026

延伸閱讀

HeyGen 推出 Avatar V 模型