Diffusion Self-Distillation(擴散自蒸餾,簡稱DSD)是斯坦福大學吳佳俊團隊推出的零樣本定制圖像生成技術,用預訓練的文本到圖像擴散模型自動生成數據集,并將其微調為能進行文本條件的圖像到圖像任務的模型。Diffusion Self-Distillation基于生成圖像網格和視覺語言模型篩選,創建出高質量的配對數據集,進而在無需人工干預的情況下,實現在任意上下文中對任意實例進行身份保持的定制圖像生成。這種方法在保持身份一致性的任務上表現出色,與逐實例調優技術競爭,且無需測試時優化。
Diffusion Self-Distillation的主要功能身份保持的定制圖像生成:在不同的上下文中生成特定實例的圖像,同時保持該實例的身份特征。零樣本學習:無需針對特定實例的訓練數據,直接應用預訓練模型進行生成任務。自動化數據配對:基于自生成的數據集和視覺語言模型的輔助,自動創建高質量的訓練數據對。圖像到圖像的轉換:支持將輸入圖像轉換為具有特定文本條件的輸出圖像,例如改變光照、風格或其他視覺屬性。廣泛的適用性:適用于多種文本條件圖像生成任務,包括個性化、重光照、深度控制和指令跟隨等。Diffusion Self-Distillation的技術原理預訓練模型的上下文生成能力:基于預訓練的文本到圖像擴散模型的上下文生成能力創建圖像網格。數據配對與篩選:用視覺語言模型(VLMs)輔助篩選,從生成的圖像網格中創建出大規模高質量的配對數據集。微調擴散模型:用篩選后的配對數據集對預訓練的文本到圖像擴散模型進行微調,將其轉化為支持文本+圖像條件的圖像生成模型。并行處理架構:推出一種并行處理架構,將輸入圖像視為視頻序列的第一幀,并生成兩幀視頻作為輸出。第一幀重建輸入圖像,第二幀是編輯后的輸出,實現有效信息交換。信息交換與編輯:在兩幀視頻之間建立身份映射和條件編輯目標,讓模型能捕捉復雜的語義并執行復雜的編輯。Diffusion Self-Distillation的項目地址項目官網:primecai.github.io/dsdarXiv技術論文:https://arxiv.org/pdf/2411.18616Diffusion Self-Distillation的應用場景藝術創作:藝術家在不同的風格和背景下創作作品,同時保持藝術作品中角色或物體的一致性。游戲開發:在游戲設計中,快速生成具有一致身份特征的游戲角色或物品的多種變體,適應不同的游戲場景。電影和動畫制作:電影制作人在不同的場景中保持角色的一致性,或在不同的光照條件下重新渲染場景。廣告和營銷:營銷人員定制廣告圖像,確保品牌形象在各種廣告媒介中保持一致。個性化商品:根據用戶上傳的圖片生成個性化的商品,如定制T恤、杯子和手機殼等,同時保持品牌元素的一致性。 
