MIMO是阿里巴巴集團智能計算研究所推出的可控角色視頻合成的新型AI框架,基于空間分解建模技術,將2D視頻轉(zhuǎn)換為3D空間代碼,實現(xiàn)對角色、動作和場景的精確控制。MIMO能處理任意角色的合成,適應新穎的3D動作,并與真實世界場景交互。MIMO的核心在于將視頻分解為主要人物、底層場景和浮動遮擋三個部分,然后分別編碼為身份代碼、運動代碼和場景代碼,用于合成過程的控制信號。不僅提高了合成視頻的真實感,還增強了用戶對視頻內(nèi)容的控制能力。
MIMO的主要功能可控角色合成:用戶通過提供簡單的輸入控制視頻中角色的外觀。動作控制:MIMO能根據(jù)提供的姿勢序列合成角色的動作,包括復雜的3D動作。場景交互:將角色自然地融入到真實世界的場景中,包括處理遮擋和物體交互。空間分解建模:將視頻分解為不同的空間組件,包括主要人物、底層場景和浮動遮擋。3D感知合成:基于3D表示提高合成視頻的真實感和深度感知。靈活的用戶控制:用戶自由組合不同的潛在代碼控制視頻合成的各個方面。任意角色的可擴展性:MIMO能合成任意角色,不僅限于訓練數(shù)據(jù)集中的角色。MIMO的技術原理3D深度估計:用單目深度估計器將2D視頻幀轉(zhuǎn)換成3D空間中的表示。空間分解:基于估計的3D深度信息,將視頻分解為三個主要的空間組件:主要人物:視頻中的核心對象。底層場景:視頻的背景部分。浮動遮擋:視頻中的前景物體,如會遮擋主體的物體。組件編碼:將上述空間組件進一步編碼為不同的代碼:身份代碼:表示角色的視覺身份。運動代碼:表示角色的動作和姿態(tài)。場景代碼:表示視頻的背景場景信息。結(jié)構(gòu)化運動表示:用變形的人體模型(如SMPL)表示和編碼人物的動作,允許更精確地捕捉復雜的3D運動。規(guī)范身份表示:將角色轉(zhuǎn)換到一個規(guī)范的姿勢(如A-pose)解耦身份和動作,使身份表示與動作無關。場景和遮擋編碼:用共享的變分自編碼器(VAE)編碼場景和遮擋組件,然后重新組織為完整的場景代碼。MIMO的項目地址項目官網(wǎng):menyifang.github.io/projects/MIMO/index.htmlGitHub倉庫:https://github.com/menyifang/MIMOarXiv技術論文:https://arxiv.org/pdf/2409.16160MIMO的應用場景電影和視頻制作:快速生成動畫角色的表演,減少特效和動畫制作的成本和時間。游戲開發(fā):為游戲角色創(chuàng)建逼真的動作和交互,提升游戲體驗。虛擬現(xiàn)實(VR):在虛擬環(huán)境中創(chuàng)建與用戶互動的動態(tài)角色,增強沉浸感。增強現(xiàn)實(AR):在現(xiàn)實世界中疊加虛擬角色和對象,用于教育、娛樂或?qū)Ш健?strong>社交媒體和娛樂:允許用戶創(chuàng)建和分享具有個性化動作和場景的虛擬角色視頻。廣告和營銷:制作吸引人的動態(tài)廣告,其中角色根據(jù)目標受眾進行定制。教育和培訓:創(chuàng)建模擬場景和角色,用于教育目的,如歷史重現(xiàn)或語言學習。 
