D-Edit是什么

D-Edit是基于圖像和文本的多功能圖像編輯框架,基于預訓練的擴散模型和獨特的提示(prompts)實現對圖像中特定項目的精確控制和編輯。框架能處理包括基于圖像的編輯、基于文本的編輯、基于掩碼的編輯及項目移除等多種編輯任務。D-Edit將圖像分割成多個項目,為每個項目關聯一個獨特的提示,實現對項目的解耦控制。用戶基于修改提示、掩碼或項目與提示之間的關聯來實現多樣化的編輯效果。D-Edit是首個能基于掩碼編輯實現項目編輯,能結合圖像和文本編輯的框架。

D-Edit  基于圖像、文本、掩碼的多功能圖像編輯框架 第1張D-Edit的主要功能基于文本的編輯:用戶改變與特定項目關聯的文本提示替換或編輯圖像中的項目。基于圖像的編輯:支持用戶用參考圖像中的項目替換目標圖像中的項目。基于掩碼的編輯:用戶能編輯圖像中特定項目的掩碼,包括移動、調整大小、改變形狀等,改變項目的外觀。項目移除:基于刪除與項目相關的掩碼和提示對,從圖像中移除特定項目,讓周圍區域自然填補空白。多功能圖像編輯:在統一的框架內實現上述編輯功能,提供靈活且多樣化的圖像編輯能力。D-Edit的技術原理項目提示交互:D-Edit將圖像分解為多個項目,為每個項目分配一個獨特的提示,提示在預訓練的擴散模型中被特別學習控制特定項目。解耦的交叉注意力層:D-Edit引入解耦的交叉注意力機制,支持模型將每個項目的控制流與對應的提示分開處理,實現精確的項目級編輯。兩步優化過程提示注入:將代表每個項目的新的標記(tokens)注入到文本編碼器的詞匯表中,隨機初始化標記的嵌入。模型微調:優化文本編碼器的嵌入矩陣和UNet模型的權重建立項目與提示之間的關聯,讓模型能用給定的項目提示重建原始圖像。編輯操作的自由度:在建立項目與提示的關聯之后,D-Edit支持改變提示、掩碼或項目與提示之間的映射實現各種編輯操作。靈活性和控制力:D-Edit的設計提供在編輯過程中對特定項目進行精確控制的能力,且保持對整體圖像的自然和諧感。基于調整提示和掩碼,用戶能實現從細微調整到完全替換的各種編輯效果。D-Edit的項目地址GitHub倉庫:https://github.com/collovlabs/d-editarXiv技術論文:https://arxiv.org/pdf/2403.04880在線體驗Demo:https://huggingface.co/spaces/Collov-Labs/d-editD-Edit的應用場景數字藝術創作:藝術家和設計師創作新的數字藝術作品,用編輯圖像中的特定元素實現獨特的視覺效果。照片編輯:普通用戶對個人照片進行編輯,比如更換背景、調整人物姿勢、改變服裝樣式等。廣告和營銷:營銷人員更改廣告圖像中的特定元素,如產品、標志或文本,適應不同的營銷活動。時尚和服裝:時尚設計師展示服裝設計的不同版本,基于改變服裝的顏色、紋理或款式探索不同的設計可能性。建筑和城市規劃:建筑師和城市規劃者編輯建筑設計圖像,調整建筑外觀或城市規劃布局。