使用自回歸建模的圖像生成新方法
(中國AI網 2025年04月22日)圖像合成已經取得了顯著的進步,并在虛擬現實等領域實現了多種應用。在一項研究中,三星研究院介紹了一種使用自回歸建模的圖像生成新方法,利用下一細節預測策略來增強保真度和可擴展性。
盡管自回歸模型在語言建模方面取得了變革性的成功,但由于圖像中固有的空間依賴性,在視覺任務中復制這一成功帶來了獨特的挑戰。所提出的方法通過迭代地向圖像構圖中添加更精細的細節,將其構建為基礎和細節圖像因素的分層組合,而這個策略證明比傳統方法更有效。
團隊指出,這一方案的一個關鍵優點是它的可擴展性,更高的分辨率,不需要完整的模型再訓練,使其成為高分辨率圖像生成的通用解決方案。

生成式人工智能在圖像合成和編輯方面的最新進展已經引起了業界的極大興趣。生成式人工智能的傳統方法通常旨在一次生成整個場景。然而,人類對視覺場景的感知和理解本質上是合成的。
例如在創建場景時,美術通常遵循迭代過程,從粗糙的輪廓開始,細化形狀,逐漸添加細節和陰影。在一次嘗試中生成整個場景會排除這種迭代添加的細節,并在縮放到高分辨率圖像時提出挑戰。
最近的研究引入了逐步方法來解決圖像生成問題,其中每一步都包含一個細節子集。例如,基于擴散的方法從噪點矢量開始,并使用去噪模型逐步去除噪點,逐步顯示連貫圖像。
類似地,自回歸模型以逐塊的方式處理圖像生成,進一步支持迭代圖像生成方法。具體來說,諸如如VQGAN和DALLE等自回歸模型使用視覺標記器將連續圖像轉換為2D標記網格,以令模型能夠學習下一個標記預測。盡管自回歸方法在自然語言處理方面取得了成功,但在計算機視覺領域復制類似的進步具有挑戰性。
最近的研究表明,在自回歸學習過程中,圖像標記的處理順序會極大地影響模型的性能。在研究中,三星研究院團隊介紹了一種新的自回歸圖像生成方法,通過分層方式逐步組裝場景來構建高質量圖像。
這個過程從創建一個平滑的基礎圖像開始,然后通過迭代添加更精細的細節來增強,從而得到一個連貫的最終圖像(見圖1)。
這種方法非常類似于人類的圖像創建方法:從一個基本的草圖開始,并隨著細節水平的增加而改進它。所述解決方案首先使用邊緣感知平滑技術將訓練圖像分解為“基礎”和“細節”組件。然后將組件編碼成多尺度細節標記圖。

自回歸過程從一個1×1令牌開始,預測連續的令牌映射以構造圖像的基本組件。一旦基礎建立,模型過渡到預測細節成分,增量分層,以增強基礎圖像。這種結構化的迭代過程與圖像形成的自然順序一致,提高了生成過程中的質量和可解釋性。
訓練方法包括三個關鍵步驟:
分解:每個訓練圖像分解成n個分層的基本細節因子,代表漸進的細節層。
編碼和標記化:使用矢量量化變分自編碼器(VQ-VAE)將因子編碼到latent空間中,在降低維數的同時保留基本特征。
迭代預測:Transformer解碼器架構訓練來預測圖像的連續細節因子token-map,使細節的可控和增量添加成為可能。
相關論文:CART: Compositional Auto-Regressive Transformer for Image Generation
總的來說,團隊提出了一種通過自回歸框架進行圖像合成的新方法。它結合了“下一個細節”預測策略,提高了模型在高分辨率圖像生成中的能力。通過利用結構化的基本細節分解,所述方法使迭代細化與圖像的自然層次結構保持一致,有效地將全局特征與局部特征分離開來。
團隊提出了一個強大的標記化方案,分別量化基礎層和細節層,保持空間完整性并實現有效的自回歸過程。實驗結果表明,它不僅在圖像生成中實現了最先進的性能,而且降低了通常與縮放高分辨率輸出相關的計算復雜性。
總的來說,這個建模框架引入了一種可擴展且計算效率高的圖像合成方法,為擴散模型和其他最先進的方法提供了令人信服的替代方案。

