研究人員最近開發(fā)了一種名為 REPA 的新技術(shù),旨在加速 AI 圖像生成模型的訓(xùn)練速度。REPA 代表 REPresentation Alignment,通過整合來自 DINOv2等模型的高質(zhì)量視覺表示來提高訓(xùn)練速度和輸出質(zhì)量。
傳統(tǒng)的擴散模型通常會創(chuàng)建嘈雜的圖像,然后逐漸將其細(xì)化為干凈的圖像。REPA 增加了一個步驟,將在此去噪過程中生成的表示與來自 DINOv2的表示進(jìn)行比較。然后,它將擴散模型的隱藏狀態(tài)投影到 DINOv2的表示上。
研究人員表示,REPA 不僅提高了訓(xùn)練效率,還提高了生成的圖像質(zhì)量。使用各種擴散模型架構(gòu)進(jìn)行的測試顯示出顯著的改進(jìn):1. 訓(xùn)練時間減少了高達(dá)17.5倍2.輸出圖像質(zhì)量無損失3.在標(biāo)準(zhǔn)圖像質(zhì)量指標(biāo)上表現(xiàn)更佳
例如,使用 REPA 的 SiT-XL 模型僅用40萬個訓(xùn)練步驟就實現(xiàn)了傳統(tǒng)模型需要700萬個步驟才能實現(xiàn)的目標(biāo)。研究人員認(rèn)為這是邁向更強大、更高效的 AI 圖像生成系統(tǒng)的重要一步。
REPA 技術(shù)的出現(xiàn)為 AI 圖像生成模型的訓(xùn)練速度和輸出質(zhì)量帶來了新的希望。隨著該技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們可以期待看到更多的創(chuàng)新和突破。

