基於Transformer的通用世界模型成功挑戰視頻生成

建立會做視頻的世界模型,也能通過Transformer來實現了!

來自清華和極佳科技的研究人員聯手,推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場景和自動駕駛場景多種視頻生成任務,例如文生視頻、圖生視頻、視頻編輯、動作序列生視頻等。

據團隊介紹,通過預測Token的方式來建立通用場景世界模型,WorldDreamer是業界首個。

它把視頻生成轉換爲一個序列預測任務,可以對物理世界的變化和運動規律進行充分地學習。

可視化實驗已經證明,WorldDreamer已經深刻理解了通用世界的動態變化規律。

那麼,它都能完成哪些視頻任務,效果如何呢?

支持多種視頻任務

圖像生成視頻(Image to Video)

WorldDreamer可以基於單一圖像預測未來的幀。

只需首張圖像輸入,WorldDreamer將剩餘的視頻幀視爲被掩碼的視覺Token,並對這部分Token進行預測。

如下圖所示,WorldDreamer具有生成高質量電影級別視頻的能力。

其生成的視頻呈現出無縫的逐幀運動,類似於真實電影中流暢的攝像機運動。

而且,這些視頻嚴格遵循原始圖像的約束,確保幀構圖的顯著一致性。

文本生成視頻(Text to Video)

WorldDreamer還可以基於文本進行視頻生成。

僅僅給定語言文本輸入,此時WorldDreamer認爲所有的視頻幀都是被掩碼的視覺Token,並對這部分Token進行預測。

下圖展示了WorldDreamer在各種風格範式下從文本生成視頻的能力。

生成的視頻與輸入語言無縫契合,其中用戶輸入的語言可以塑造視頻內容、風格和相機運動。

視頻修改(Video Inpainting)

WorldDreamer進一步可以實現視頻的inpainting任務。

具體來說,給定一段視頻,用戶可以指定mask區域,然後根據語言的輸入可以更改被mask區域的視頻內容。

如下圖所示,WorldDreamer可以將水母更換爲熊,也可以將蜥蜴更換爲猴子,且更換後的視頻高度符合用戶的語言描述。

視頻風格化(Video Stylization)

除此以外,WorldDreamer可以實現視頻的風格化。

如下圖所示,輸入一個視頻段,其中某些像素被隨機掩碼,WorldDreamer可以改變視頻的風格,例如根據輸入語言創建秋季主題效果。

基於動作合成視頻(Action to Video)

WorldDreamer也可以實現在自動駕駛場景下的駕駛動作到視頻的生成。

如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉、右轉),WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

那麼,WorldDreamer又是怎樣實現這些功能的呢?

用Transformer構建世界模型

研究人員認爲,目前最先進的視頻生成方法主要分爲兩類——基於Transformer的方法和基於擴散模型的方法。

利用Transformer進行Token預測可以高效學習到視頻信號的動態信息,並可以複用大語言模型社區的經驗,因此,基於Transformer的方案是學習通用世界模型的一種有效途徑。

而基於擴散模型的方法難以在單一模型內整合多種模態,且難以拓展到更大參數,因此很難學習到通用世界的變化和運動規律。

而當前的世界模型研究主要集中在遊戲、機器人和自動駕駛領域,缺乏全面捕捉通用世界變化和運動規律的能力。

所以,研究團隊提出了WorldDreamer來加強對通用世界的變化和運動規律的學習理解,從而顯著增強視頻生成的能力。

借鑑大型語言模型的成功經驗,WorldDreamer採用Transformer架構,將世界模型建模框架轉換爲一個無監督的視覺Token預測問題。

具體的模型結構如下圖所示:

WorldDreamer首先使用視覺Tokenizer將視覺信號(圖像和視頻)編碼爲離散的Token。

這些Token在經過掩蔽處理後,輸入給研究團隊提出的Sptial Temporal Patchwuse Transformer(STPT)模塊。

同時,文本和動作信號被分別編碼爲對應的特徵向量,以作爲多模態特徵一併輸入給STPT。

STPT在內部對視覺、語言、動作等特徵進行充分的交互學習,並可以預測被掩碼部分的視覺Token。

最終,這些預測出的視覺Token可以用來完成各種各樣的視頻生成和視頻編輯任務。

值得注意的是,在訓練WorldDreamer時,研究團隊還構建了Visual-Text-Action(視覺-文本-動作)數據的三元組,訓練時的損失函數僅涉及預測被掩蔽的視覺Token,沒有額外的監督信號。

而在團隊提出的這個數據三元組中,只有視覺信息是必須的,也就是說,即使在沒有文本或動作數據的情況下,依然可以進行WorldDreamer的訓練。

這種模式不僅降低了數據收集的難度,還使得WorldDreamer可以支持在沒有已知或只有單一條件的情況下完成視頻生成任務。

研究團隊使用大量數據對WorldDreamer進行訓練,其中包括20億經過清洗的圖像數據、1000萬段通用場景的視頻、50萬段高質量語言標註的視頻、以及近千段自動駕駛場景視頻。

團隊對10億級別的可學習參數進行了百萬次迭代訓練,收斂後的WorldDreamer逐漸理解了物理世界的變化和運動規律,並擁有了各種的視頻生成和視頻編輯能力。

論文地址:https://arxiv.org/abs/2401.09985項目主頁:https://world-dreamer.github.io/