只要一人像照片+ 一段文字,就能產生逼近像真實人說話的畫面,微軟昨天剛發布的VASA-1,聲稱可以提供音頻+照片,就能按照音頻說話讓照片動起來,像是真人說話一樣,甚至可以連音頻也不用,僅提供文字用TTS轉換成語音+圖片也可以。這簡直是對i人型的內容創作者的福音。期待有大神實作出開源的Code。
官方網址:
照VASA-1 官方的描述,只需一張NVIDIA RTX 4090 GPU就能產生即時的串流(40fps),延遲僅為 170ms
這可以說是一個革新的技術,但也不禁讓人擔憂,要是有詐騙運用此技術來詐騙一些年長者,對社會來說也是一大問題。
論文:
小編本身看不懂這麼高深的論文,但用GPT4解讀了一下,有興趣可以看看
論文大綱
這篇名為 "VASA-1: 實時生成逼真的語音驅動的說話臉孔" 的論文介紹了 VASA 框架,這是一個創新的技術,能夠從一張靜態圖片和一段語音剪輯生成高度逼真的說話臉部視頻。該研究的目的是通過產生精確同步的嘴唇動作、表達豐富的面部動態以及自然的頭部動作,來增強數字通信和互動,從而提高視頻的真實感和活力感。以下是論文的主要章節和內容摘要:
-
導言:
- 討論面部動態在溝通中的重要性,以及 AI 在增強人際互動、教育、無障礙性和醫療保健方面的潛在應用。
-
相關工作:
- 回顧現有的說話臉生成方法,強調在嘴唇同步和頭部動作的真實性上需要改進,並轉向更適合實時應用的高效生成模型。
-
方法:
- 描述使用基於擴散模型的方法,在臉部潛在空間中生成整體面部動態和頭部動作的創新途徑。
- 詳細說明了如何構建一個分離的且富有表現力的臉部潛在空間,該空間捕捉到細膩的面部表情和動作。
-
實驗:
- 提出定量和定性評估,證明 VASA-1 在真實性和視頻質量方面顯著優於現有方法。
- 討論了增強生成輸出可控性的控制信號,如視線方向和頭部距離。
-
結論:
- 強調 VASA-1 在生成逼真且富有表現力的說話臉部方面取得的進展,以及其對各個領域潛在影響的概述。
- 承認存在的局限性,並概述未來的發展方向,包括將模型擴展到全身表達和提高模型的表現力。
-
社會影響和負責任的 AI 考量:
- 討論倫理考量、潛在的誤用問題,以及開發負責任 AI 的重要性,以防止創造具有誤導性的內容。
該論文全面介紹了 VASA-1 框架的開發和能力,為語音驅動的說話臉生成技術設定了新的真實性和效率標準。
在論文中的「方法(Method)」章節,作者們介紹了他們的生成系統如何利用單一臉部圖像和一段語音剪輯來創造逼真的說話臉部視頻。
這一過程的關鍵在於如何將這些輸入轉化為具有高度真實性和連貫性的視頻,這些視頻在幾個關鍵方面表現出高度的精確性:圖像幀的清晰度和真實性、音頻與嘴唇動作之間的精確同步、富有表情的面部動態以及自然的頭部姿態。
生成過程中的可選控制信號: 此外,生成過程可以接受一組可選的控制信號來指導視頻的生成,這些信號包括主要的眼睛注視方向(g),頭部到攝像機的距離(d),和情感偏移(e)。這些控制信號允許更細致地調整生成的結果,使其更符合特定的表達需求或情境設定。
整體框架: 不同於直接生成視頻幀,該方法首先在潛在空間中生成整體的面部動態和頭部動作,這些動態和動作是根據音頻和其他信號條件化的。利用這些動態潛在代碼,再通過一個面部解碼器來產生視頻幀,該解碼器同時也使用從輸入圖像中提取的外观和身份特徵。
為了實現這一點,研究人員首先建立了一個面部潛在空間,並訓練了面部編碼器和解碼器。他們創造了一個既表達豐富又高度解耦的面部潛在學習框架,並在真實的人臉視頻上進行訓練。然後,他們訓練了一個簡單但強大的擴散轉換器(Diffusion Transformer)來模擬運動分佈,並在給定音頻和其他條件的測試時生成運動潛在代碼。
這種方法的創新之處在於其高度的自適應能力和對細節的精確控制,使得生成的視頻不僅逼真,而且能夠在不同的使用情境下進行細微的調整和優化。
3.1"Expressive and Disentangled Face Latent Space Construction"
作者詳細說明了如何建立一個表達性強且功能解耦的面部潛在空間。這一設計是為了有效地生成人類頭部和全面面部行為的基礎,無論是在大規模視頻數據集上都能進行。以下是該部分的主要內容和步驟:
-
潛在空間的構建目標:
- 目的是創建一個高度解耦和表達豐富的潛在空間,能夠分離和控制面部動態和其他因素(如身份和外觀),從而支持更精細的生成模型應用。
-
數據收集與處理:
- 利用大量的人臉視頻數據,建立適合用於擴散模型訓練的潛在空間。這些數據來自於多樣化的身份,以保證模型的通用性和廣泛適應性。
-
基於3D輔助的重建框架:
- 利用來自先前研究的3D輔助面部重演技術,作者們提出了一種方法來提取和處理面部圖像的3D外觀特徵。這包括將面部圖像分解為規範的3D外觀體積、身份代碼、3D頭部姿態和面部動態代碼。
-
獨立編碼器和解碼器的設計:
- 使用獨立的編碼器從面部圖像中提取上述潛在變量,其中3D外觀體積是通過將提取的姿態3D體積經過剛性和非剛性3D變形處理後生成的。解碼器則負責根據這些潛在變量重構面部圖像。
-
訓練與損失函數:
- 為了學習這個解耦的潛在空間,設計了基於影像重建損失的方法,通過在視頻中不同圖像間交換潛在變量來實現。此外,還引入了額外的損失函數,如頭部姿態和面部動態的成對傳遞損失,以及交叉身份姿態和動態傳遞結果的臉部身份相似性損失,這有助於進一步提高解耦效果。
透過上述方法,VASA-1 能夠創建一個既能捕捉豐富面部細節也能精確控制面部動態的潛在空間,這對於生成逼真的說話臉部視頻至關重要。此外,這種高度解耦的設計使得在不同應用中能夠更靈活地操控生成的面部表情和動作。
3.2 "Holistic Facial Dynamics Generation with Diffusion Transformer"
作者們詳細描述了如何使用擴散轉換器來生成整體的面部動態和頭部動作。這部分重點介紹了他們如何利用音頻條件化的方式,通過擴散模型在大量的人臉視頻數據上訓練,以達成高質量的說話臉部動畫。以下是此過程的主要步驟和特點:
1. 構建面部潛在空間:
- 首先,基於一個未標記的說話臉部視頻數據庫,構建一個具有高度解耦和表達力的人臉潛在空間。這個潛在空間使得模型能夠在不受主體身份影響的情況下,有效地生成人類頭部和面部的整體行為。
2. 利用3D重構框架:
- 使用來自先前研究的3D輔助面部重演技術來更好地捕捉3D相比於2D的面部細節。通過獨立的編碼器從面部圖像中提取包括3D外觀體積、身份代碼、3D頭部姿勢和面部動態代碼等潛在變量。
3. 面部動態的擴散生成:
- 使用擴散模型來定義從有序數據到隨機噪聲的正向鏈和從噪聲恢復到原始數據的反向鏈。這種模型使用變換器架構來預測原始信號,而不是噪聲本身。
4. 音頻條件化的擴散過程:
- 在給定的音頻剪輯條件下,從視頻剪輯中提取的動作序列被用作訓練擴散模型的基礎。這包括從每個音頻片段中提取同步的音頻特徵。
5. 控制信號的應用:
- 在生成過程中加入主要的眼睛注視方向、頭部到攝像機的距離和情感偏移等控制信號,這些信號不僅使生成模型更易於操作,還提高了生成的可控性。
6. 身份不可知的整體面部動態生成:
- 這種方法與傳統將不同面部特徵分開模型化的方法不同,它將所有面部動作(如嘴唇動作、表情、眼睛注視和眨眼)作為一個整體來學習,這有助於生成更自然和多樣化的面部表情。
這一方法的創新之處在於它的整體性和對高度變化的面部動態的捕捉能力,使得生成的說話臉部不僅自然而且反應真實,進一步推動了語音驅動的面部動態生成技術的發展。
3.3 Talking Face Video Generation
描述了如何在推理時生成說話臉部視頻。這個過程包括從單一的面部圖像和音頻剪輯中抽取和轉化潛在的臉部特徵,並最終生成動態的說話臉部視頻。以下是這一過程的主要步驟和技術細節:
1. 提取3D外觀和身份代碼:
- 在生成說話臉部視頻的推理階段開始時,首先使用訓練好的面部編碼器從任意的面部圖像中提取3D外觀體積(Vapp)和身份代碼(z_id)。這兩個潛在變量將作為生成過程中保持人物外觀一致性的基礎。
2. 音頻特徵的提取和分段:
- 接著,對提供的音頻剪輯進行特徵提取,並將音頻特徵分割成一系列的段落,每個段落的長度被設置為W秒。這些音頻特徵將用於驅動後續的頭部和面部動態的生成。
3. 生成頭部和面部動態序列:
- 使用訓練好的擴散轉換器(Diffusion Transformer),根據音頻特徵和其他條件信號逐一生成頭部和面部動態的潛在序列。這些序列被表示為一系列的潛在代碼,包括頭部姿態(z_pose)和面部動態(z_dyn)。
4. 視頻幀的生成:
- 最後,這些潛在的動態代碼被送入訓練好的面部解碼器,以產生對應的視頻幀。解碼器利用提取的外觀和身份特徵以及生成的動態代碼來重建每一幀圖像,從而生成完整的說話臉部視頻。
這一生成過程的關鍵在於能夠精確地根據音頻輸入同步臉部動態,包括嘴唇的動作和更細微的表情變化,以及自然的頭部動作。此外,這一過程高度依賴於潛在空間的質量和擴散模型的性能,這兩者都需要通過大量的訓練數據來精細調整。
這一部分展示了從靜態圖像和音頻剪輯到動態說話視頻的完整生成流程,突出了先進的AI生成技術在模仿人類自然說話行為中的應用潛力。
4.實驗(Experiments)
在論文的「實驗(Experiments)」章節中,作者們描述了如何實施他們的人臉潛在空間學習和動作潛在生成方法,以及如何評估他們方法的效能和質量。
實施細節(Implementation details):
- 人臉潛在空間學習: 使用公開的VoxCeleb2數據集,該數據集包含來自大約6000名受試者的說話臉視頻。為了提高質量,作者過濾掉了包含多個人或質量低的剪輯。
- 動作潛在生成: 使用一個包含8層變換器編碼器的擴散網絡,其嵌入維度為512,頭數為8。此模型在VoxCeleb2和另一個自收集的包含約3500名受試者的高解析度語音視頻數據集上進行訓練。
評估基準(Evaluation benchmarks):
- 數據集: 使用VoxCeleb2的一個子集進行測試,從中隨機選擇46名受試者,並為每位受試者隨機抽取10個視頻剪輯。另外,為了評估在長時間語音生成下的表現,收集了32個一分鐘的剪輯,這些視頻主要來自線上教學和輔導會話。
質量評估(Qualitative Evaluation):
- 視覺結果: 生成的視頻展示了生動的面部情感和人類般的交談行為,例如偶爾的眼神移動和眼睛閃爍的自然節奏。
- 生成可控性: 通過控制信號(如眼神方向、頭部距離和情感偏移)能夠精確地產生符合特定參數的說話臉結果。
- 面部潛在分離: 展示了將相同的動作潛在序列應用於不同主體時,能夠有效保持獨特的面部動作和面部身份。
量化評估(Quantitative Evaluation):
- 評估指標: 使用了多種量化指標來評估生成的嘴唇動作、頭部姿態和視頻質量,包括一個新的數據驅動的音頻-姿態同步指標(CAPP)。
- 音頻-嘴唇同步: 通過預訓練的音頻-嘴唇同步網絡來評估輸入音頻與生成的嘴唇動作在視頻中的對齊程度。
- 音頻-姿態對齊: 評估生成的頭部姿態與輸入音頻的對齊程度,並介紹一種新的基於對比學習的CAPP分數來衡量同步程度。