條件圖像合成
(中國(guó)AI網(wǎng) 2025年07月14日)條件圖像合成是一項(xiàng)具有廣泛應(yīng)用的關(guān)鍵任務(wù),例如虛擬現(xiàn)實(shí)。然而,目前的生成方法往往是面向任務(wù)的,范圍狹窄,處理的是有限的條件,適用性有限。在一項(xiàng)研究中,四川大學(xué),新加坡科技設(shè)計(jì)大學(xué),?阿德萊德大學(xué)和澳大利亞國(guó)立大學(xué)團(tuán)隊(duì)提出了一種新的方法,將條件圖像合成作為多種基本條件單元的模塊化組合。
具體來說,將條件分為三個(gè)主要單元:文本、布局和拖動(dòng)。為了有效控制條件,研究人員為每個(gè)條件設(shè)計(jì)了專用的校準(zhǔn)模塊。針對(duì)文本條件,引入了密集概念對(duì)齊(DCA)模塊,通過繪制不同的文本概念來實(shí)現(xiàn)密集的視覺文本對(duì)齊。對(duì)于布局條件,密集幾何對(duì)齊(DGA)模塊用于強(qiáng)制執(zhí)行保留空間配置的綜合幾何約束。對(duì)于拖動(dòng)條件,密集運(yùn)動(dòng)對(duì)齊(DMA)模塊應(yīng)用多級(jí)運(yùn)動(dòng)正則化,確保每個(gè)像素遵循其所需的軌跡而不會(huì)產(chǎn)生視覺偽影。
通過靈活地插入和組合對(duì)齊模塊,相關(guān)方法增強(qiáng)了模型對(duì)各種條件生成任務(wù)的適應(yīng)性,極大地?cái)U(kuò)展了模型的應(yīng)用范圍。大量的實(shí)驗(yàn)證明了框架在各種條件下的卓越性能,包括文本描述、分割掩碼、拖動(dòng)操作及其組合。

條件圖像合成的目的是根據(jù)用戶提供的需求生成逼真的圖像,在虛擬現(xiàn)實(shí)等各種應(yīng)用中起著舉足輕重的作用。擴(kuò)散模型的最新進(jìn)展在處理各種條件信號(hào)方面表現(xiàn)出了良好的性能,包括圖像描述、分割圖、邊界框和拖動(dòng)信息等。盡管現(xiàn)有的方法在解釋來自用戶特定形式的輸入方面有效,但它們難以在廣泛的條件下進(jìn)行泛化。這對(duì)于現(xiàn)實(shí)世界中復(fù)雜視覺場(chǎng)景的靈活生成是不切實(shí)際的。
在研究中,四川大學(xué),新加坡科技設(shè)計(jì)大學(xué),?阿德萊德大學(xué)和澳大利亞國(guó)立大學(xué)團(tuán)隊(duì)提出了模塊化條件圖像合成(MCIS)范式,通過選擇性地應(yīng)用和組合獨(dú)立的基本條件單元來調(diào)節(jié)合成過程,如圖1 (a)所示。具體來說,將條件單元分為:
文本:指自然語(yǔ)言描述,指定圖像的語(yǔ)義內(nèi)容
布局:主要包括分割圖和邊界框,表示組件排列和場(chǎng)景結(jié)構(gòu)
拖動(dòng)。指點(diǎn)對(duì)(拖動(dòng)的原始和目的地),它們編碼圖像的局部變換。
然而,MCIS提出了一個(gè)不容忽視的問題,因?yàn)樗蟠_保所有條件都清楚地反映在視覺內(nèi)容中。團(tuán)隊(duì)依次分析了對(duì)齊每個(gè)基本條件單元所涉及的主要挑戰(zhàn):
概念不匹配:文本通常傳達(dá)有關(guān)單個(gè)對(duì)象的屬性及其相互作用的詳細(xì)信息。這需要生成模型來匹配細(xì)粒度的區(qū)域級(jí)和單詞級(jí)概念,而不是將圖像及其描述作為一個(gè)整體進(jìn)行對(duì)齊
幾何不一致性:布局隱式地編碼多個(gè)對(duì)象之間的復(fù)雜關(guān)系,例如大小比例和相對(duì)位置。確保圖像真實(shí)感需要在合成內(nèi)容和空間配置之間建立詳細(xì)的幾何對(duì)應(yīng)關(guān)系
運(yùn)動(dòng)不協(xié)調(diào):拖動(dòng)通常提供位移矢量,指示要移動(dòng)的可視區(qū)域。為了合成視覺上連貫的內(nèi)容,在保持外觀和語(yǔ)義一致性的同時(shí),有效地保持每個(gè)視覺元素的預(yù)期運(yùn)動(dòng)至關(guān)重要。
為了解決上述問題,研究人員提出了一個(gè)用于模塊化條件圖像合成的密集對(duì)齊擴(kuò)散指導(dǎo)框架。如圖1 (b)所示,框架利用即插即用的引導(dǎo)模塊,允許視覺內(nèi)容獨(dú)立地與每個(gè)條件單元對(duì)齊。
具體來說,他們提出了密集概念對(duì)齊(DCA)模塊,它以coarse-tofine方式確保視覺內(nèi)容和場(chǎng)景描述之間的一致性。除了場(chǎng)景級(jí)對(duì)齊之外,研究人員在解糾纏的特征空間中從屬性和關(guān)系角度建立了細(xì)粒度的對(duì)應(yīng)關(guān)系。
他們進(jìn)一步介紹了密集幾何對(duì)齊(DGA)模塊。基于來自合成圖像的檢測(cè)信息,它對(duì)對(duì)象的位置以及每對(duì)對(duì)象之間的相對(duì)大小和距離施加約束。這個(gè)過程確保了不同前景實(shí)例之間的分離,同時(shí)保持了場(chǎng)景布置的真實(shí)感。
基于密集位移場(chǎng),團(tuán)隊(duì)設(shè)計(jì)了密集運(yùn)動(dòng)對(duì)齊(DMA)模塊。在擴(kuò)散采樣過程中,所述模塊通過將視覺內(nèi)容與位移場(chǎng)對(duì)齊來引導(dǎo)相鄰時(shí)間步間視覺內(nèi)容的變化。同時(shí),使用逐像素的顏色和語(yǔ)義正則化來達(dá)到逼真的一致性。

為了評(píng)估框架在MCIS中的有效性,研究人員在公共基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),包括COCO,DenseDiffusion,DrawBench和DragBench。定量和定性結(jié)果表明,方法顯著提高了對(duì)文本、布局和拖動(dòng)條件的依從性。另外,模塊兼容于同時(shí)控制多個(gè)條件單元。同時(shí),框架可以無縫集成到各種擴(kuò)散架構(gòu)中。
相關(guān)論文:Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis
https://arxiv.org/pdf/2504.01515
總的來說,團(tuán)隊(duì)提出了一種即插即用的模塊化設(shè)計(jì),通過組合不同的基本條件單元(文本、布局、拖動(dòng))來指導(dǎo)圖像合成。基于這一思想,他們?cè)O(shè)計(jì)了三種密集對(duì)齊方法,分別實(shí)現(xiàn)對(duì)概念、幾何和運(yùn)動(dòng)的靈活控制。綜合實(shí)驗(yàn)證明了框架在不同條件反射場(chǎng)景下的有效性。
然而,框架依賴于它的基礎(chǔ)模型的能力,例如SD模型。如果SD模型本身無法合成反事實(shí)場(chǎng)景,則很難生成反事實(shí)場(chǎng)景,例如一條向上流動(dòng)的河流。未來的研究可以探索世界知識(shí)感知生成范式來應(yīng)對(duì)這一挑戰(zhàn)。

