← 返回首頁

HeyGen 推出 Avatar V 模型,實現了高擬真且具備行為一致性的數位分身生成

Joshua Xu
Joshua Xu
@joshua_xu_
258🔁 44
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

HeyGen 推出 Avatar V 模型,實現了高擬真且具備行為一致性的數位分身生成。

HeyGen 發布了最新的 Avatar V 模型,這是一套能透過單一參考影片與音訊,生成長度不受限、且能精準還原個人外貌特徵與行為習慣的 AI 數位分身系統。該模型透過五階段訓練流程與創新的架構設計,解決了過去數位分身在身分一致性與動態行為捕捉上的技術瓶頸。

核心架構與技術創新
Avatar V 捨棄了將身分資訊壓縮為低維度嵌入(embeddings)的傳統做法,改採「影片參考條件化」(video-reference conditioning)技術,在每個 Transformer 層級中處理完整的參考影片 token 序列。其關鍵技術亮點包括:

  • 稀疏參考注意力機制(Sparse Reference Attention):透過結構化的稀疏模式,在不犧牲身分細節的前提下,將計算複雜度降低至近乎線性,使其能處理長達數分鐘的參考影片。
  • 靜態與動態身分建模:模型不僅能捕捉牙齒結構、皮膚紋理等靜態特徵,還能學習說話節奏、微表情與手勢等動態行為模式。
  • 身分保留影像引擎:自動從輸入影片中選取多視角、多表情的影格,確保在不同場景下仍能精準還原細微的臉部特徵。
  • 身分感知超解析度(Identity-Aware Super-Resolution):基於 DiT(Diffusion Transformer)架構,在放大解析度時共享身分建模機制,確保臉部特徵在升頻過程中不失真。

五階段訓練流程
為了達到生產級的應用標準,Avatar V 採用了循序漸進的訓練策略,從通用模型逐步精煉至專用模型:

  • 階段 1:文字轉影片預訓練:在網際網路規模的影片資料上進行訓練,學習通用的動作、運鏡與時間一致性。
  • 階段 2:音訊轉影片預訓練:引入音訊交叉注意力模組,學習將驅動音訊與視覺特徵對齊。
  • 階段 3:個性化監督式微調(SFT):使用相同身分但在不同場景下的影片對進行訓練,強化模型提取身分特徵而非複製場景細節的能力。
  • 階段 4:蒸餾(Distillation):透過 CFG 蒸餾與分佈匹配蒸餾(DMD),將推理成本降低超過一個數量級。
  • 階段 5:RLHF 對齊:利用 GRPO 與 DPO 演算法,根據人類對身分還原度、動作自然度與視覺品質的偏好進行最終對齊。

效能評估與市場定位
HeyGen 強調 Avatar V 是目前全球最先進的 AI 數位分身模型,並透過數據證明其優勢:

  • 盲測表現:在與頂尖模型進行的盲測中,Avatar V 的被選擇率最高,顯示其生成的「更好」更符合使用者實際需求。
  • 客觀指標:在同步性、身分還原度及整體視覺品質等工業基準測試中,均展現出頂尖效能。
  • 主觀評估:經由專業評審進行的個別影片評分中,Avatar V 在身分、同步、動作與視覺品質四個維度皆獲得最高分。

倫理與安全機制
針對數位分身技術帶來的潛在風險,HeyGen 在生產平台實施了嚴格的防護措施:

  • 同意驗證:建立自訂數位分身必須經過當事人明確驗證,且當事人隨時有權要求移除其肖像權。
  • 雙階段審核:所有上傳或生成的內容均需經過機器學習自動審核與人工審核,涵蓋詐欺、騷擾、兒童安全、錯誤資訊與智慧財產權侵權等範疇。違規內容將面臨移除、帳號停權或通報法律機關的處置。