OmniEdit是什么

OmniEdit是先進的圖像編輯技術,通過結合多個專家模型的監督來訓練一個通用模型,處理多種圖像編輯任務。能處理不同縱橫比的圖像,七種不同的圖像編輯任務,包括對象替換、移除、添加等,支持任意寬高比和分辨率。基于七個專家模型的監督訓練確保任務覆蓋,用在大型多模態模型評分提高訓練數據質量,采用EditNet的新架構,提高了編輯的成功率。OmniEdit在自動評估和人工評估中均顯著優于現有模型(包括InstructPix2Pix、MagicBrush、UltraEdi等),能準確遵循指令,同時保持原始圖像的保真度。

OmniEdit  滑鐵盧大學等機構開源的通用圖像編輯模型 第1張OmniEdit的主要功能多任務編輯能力:OmniEdit能執行七種不同的圖像編輯任務,包括對象替換、對象移除、對象添加、屬性修改、背景替換、環境變化和風格轉換。專家模型監督:OmniEdit 基于七個不同專家模型的監督來訓練,確保任務覆蓋。任意寬高比和分辨率支持:模型能處理不同寬高比和分辨率的圖像,適用于各種實際場景。指令驅動的編輯:用戶基于文本指令指導OmniEdit進行特定的圖像編輯,提高編輯的靈活性和用戶控制能力。高質量圖像輸出:在編輯過程中,OmniEdit能保持原始圖像的高保真度,減少噪聲和偽影。數據質量控制:用大型多模態模型對合成樣本進行評分,提高訓練數據的質量。OmniEdit的技術原理專家到通用模型的監督學習:多個專家模型的監督信號訓練一個通用編輯模型,每個專家模型專注于特定的編輯任務。重要性采樣:大型多模態模型(如GPT-4o)對合成樣本進行質量評分,進行重要性采樣,提高訓練數據集的質量。EditNet架構:基于擴散-變換器的架構,用中間表示的交互,支持控制分支和原始分支之間的交互,增強模型對編輯任務的理解。支持任意寬高比:在訓練過程中,包含不同寬高比的圖像,確保模型能夠適應任何圖像的寬高比。OmniEdit的項目地址GitHub倉庫:https://github.com/TIGER-AI-Lab/OmniEditHuggingFace模型庫:https://huggingface.co/collections/TIGER-Lab/omniedit-6732d8e381c3e56b0a2106d5arXiv技術論文:https://arxiv.org/pdf/2411.07199OmniEdit的應用場景專業圖像編輯:設計師和藝術家進行高效的圖像編輯工作,包括廣告設計、藝術創作、照片修復等。社交媒體內容創作:社交媒體用戶快速編輯和美化圖片,增加內容的吸引力。電子商務:在線商家編輯產品圖片,如更換背景、調整風格,提高產品的市場吸引力。新聞和媒體:新聞機構快速調整新聞圖片,適應不同的出版需求和風格。教育和培訓:在教育領域,作為教學工具,幫助學生學習圖像編輯和視覺設計。