HeyGen 推出 Avatar V 模型,實現了高擬真且具備行為一致性的數位分身生成
AI 語音朗讀 · Edge TTS
HeyGen 推出 Avatar V 模型,實現了高擬真且具備行為一致性的數位分身生成。
HeyGen 發布了最新的 Avatar V 模型,這是一套能透過單一參考影片與音訊,生成長度不受限、且能精準還原個人外貌特徵與行為習慣的 AI 數位分身系統。該模型透過五階段訓練流程與創新的架構設計,解決了過去數位分身在身分一致性與動態行為捕捉上的技術瓶頸。
核心架構與技術創新
Avatar V 捨棄了將身分資訊壓縮為低維度嵌入(embeddings)的傳統做法,改採「影片參考條件化」(video-reference conditioning)技術,在每個 Transformer 層級中處理完整的參考影片 token 序列。其關鍵技術亮點包括:
- 稀疏參考注意力機制(Sparse Reference Attention):透過結構化的稀疏模式,在不犧牲身分細節的前提下,將計算複雜度降低至近乎線性,使其能處理長達數分鐘的參考影片。
- 靜態與動態身分建模:模型不僅能捕捉牙齒結構、皮膚紋理等靜態特徵,還能學習說話節奏、微表情與手勢等動態行為模式。
- 身分保留影像引擎:自動從輸入影片中選取多視角、多表情的影格,確保在不同場景下仍能精準還原細微的臉部特徵。
- 身分感知超解析度(Identity-Aware Super-Resolution):基於 DiT(Diffusion Transformer)架構,在放大解析度時共享身分建模機制,確保臉部特徵在升頻過程中不失真。
五階段訓練流程
為了達到生產級的應用標準,Avatar V 採用了循序漸進的訓練策略,從通用模型逐步精煉至專用模型:
- 階段 1:文字轉影片預訓練:在網際網路規模的影片資料上進行訓練,學習通用的動作、運鏡與時間一致性。
- 階段 2:音訊轉影片預訓練:引入音訊交叉注意力模組,學習將驅動音訊與視覺特徵對齊。
- 階段 3:個性化監督式微調(SFT):使用相同身分但在不同場景下的影片對進行訓練,強化模型提取身分特徵而非複製場景細節的能力。
- 階段 4:蒸餾(Distillation):透過 CFG 蒸餾與分佈匹配蒸餾(DMD),將推理成本降低超過一個數量級。
- 階段 5:RLHF 對齊:利用 GRPO 與 DPO 演算法,根據人類對身分還原度、動作自然度與視覺品質的偏好進行最終對齊。
效能評估與市場定位
HeyGen 強調 Avatar V 是目前全球最先進的 AI 數位分身模型,並透過數據證明其優勢:
- 盲測表現:在與頂尖模型進行的盲測中,Avatar V 的被選擇率最高,顯示其生成的「更好」更符合使用者實際需求。
- 客觀指標:在同步性、身分還原度及整體視覺品質等工業基準測試中,均展現出頂尖效能。
- 主觀評估:經由專業評審進行的個別影片評分中,Avatar V 在身分、同步、動作與視覺品質四個維度皆獲得最高分。
倫理與安全機制
針對數位分身技術帶來的潛在風險,HeyGen 在生產平台實施了嚴格的防護措施:
- 同意驗證:建立自訂數位分身必須經過當事人明確驗證,且當事人隨時有權要求移除其肖像權。
- 雙階段審核:所有上傳或生成的內容均需經過機器學習自動審核與人工審核,涵蓋詐欺、騷擾、兒童安全、錯誤資訊與智慧財產權侵權等範疇。違規內容將面臨移除、帳號停權或通報法律機關的處置。
Introducing Avatar V. We’ve solved character consistency. Forever.
— Joshua Xu (@joshua_xu_) April 8, 2026
Record yourself once for 15 seconds. From there, you can show up anywhere, in any look, and it still feels like you. Any photo becomes a video that looks, moves, and speaks like you, down to your mannerisms and… pic.twitter.com/qQsWlRoOkw
We put the top avatar models head to head in blind tests, and Avatar V was chosen more often than any other model, showing what “better” actually means to users. pic.twitter.com/IMdQ0Ilf7S
— Joshua Xu (@joshua_xu_) April 8, 2026
Objective industry benchmarks across sync, identity, and overall quality show top performance across most evaluated metrics, not just what people prefer but what actually performs. pic.twitter.com/83LnOdvLqR
— Joshua Xu (@joshua_xu_) April 8, 2026
Even in our subjective evaluation where videos were rated individually by trained reviewers, Avatar V scored highest across identity, sync, motion, and visual quality. pic.twitter.com/FR9eQlOgZ0
— Joshua Xu (@joshua_xu_) April 8, 2026
Read the full research here: https://t.co/mlHy2W8pEP
— Joshua Xu (@joshua_xu_) April 8, 2026
