近日,極佳科技提出了一種名為 DriveDreamer4D 的全新框架,旨在利用世界模型的先驗知識來提升4D 駕駛場景的重建效果。

傳統(tǒng)的4D 場景重建方法,主要依賴于 NeRF 和3DGS 這兩大流派。NeRF 就好比一個超級畫家,它能用神經(jīng)網(wǎng)絡(luò),把一堆照片渲染成一個3D 模型。而3DGS 則是用一堆三維高斯函數(shù),來模擬場景中的各種物體。

但這兩種方法都有個致命弱點:太依賴訓(xùn)練數(shù)據(jù)了!就好比,你只見過直線行駛的汽車,突然來個漂移過彎,你就懵逼了。所以,在面對復(fù)雜路況,比如變道、加速、減速的時候,它們就容易翻車。

為了解決這個問題,極佳科技這次祭出了一個大殺器——DriveDreamer4D。這玩意兒,簡單來說,就是給4D 場景重建加了個 AI 外掛——世界模型。

世界模型,你可以理解成一個 AI 大腦,它能根據(jù)已有的數(shù)據(jù),預(yù)測未來可能發(fā)生的情況。DriveDreamer4D 就是利用世界模型,來生成各種復(fù)雜路況下的新視角視頻數(shù)據(jù),相當(dāng)于給4D 場景重建模型喂了“腦補(bǔ)”的訓(xùn)練數(shù)據(jù),讓它見多識廣,不再翻車。

更牛逼的是,DriveDreamer4D 還專門設(shè)計了一個新軌跡生成模塊(NTGM)。這玩意兒,能自動生成各種符合交通規(guī)則的新軌跡,比如變道、加速、減速等等,然后用世界模型生成對應(yīng)視角的視頻,相當(dāng)于給4D 場景重建模型請了個“陪練”,讓它在各種復(fù)雜路況下都能游刃有余。

實驗結(jié)果也證明了 DriveDreamer4D 的實力。在處理復(fù)雜路況時,它的重建效果明顯優(yōu)于傳統(tǒng)方法,生成圖像的保真度更高,而且還能準(zhǔn)確地還原車輛和車道線的位置。

總而言之,DriveDreamer4D 的出現(xiàn),就像是在4D 場景重建領(lǐng)域扔了一顆核彈,直接炸開了技術(shù)的天花板。有了它,自動駕駛的研發(fā)和測試,將會更加高效、安全和可靠。

當(dāng)然,DriveDreamer4D 目前還處于研究階段,未來還有很多可以改進(jìn)的地方。但我相信,隨著技術(shù)的不斷發(fā)展,它將會越來越強(qiáng)大,最終成為自動駕駛領(lǐng)域不可或缺的一部分。

論文地址:https://arxiv.org/pdf/2410.13571

項目主頁:https://drivedreamer4d.github.io/

代碼地址:https://github.com/GigaAI-research/DriveDreamer4D