ACE是什么

ACE(All-round Creator and Editor)是阿里巴巴集團Tongyi Lab推出的基于擴散變換器的全能圖像生成和編輯模型。ACE引入長上下文條件單元(LCU)和統一條件格式,能理解和執行自然語言指令,實現廣泛的視覺生成任務。ACE模型支持多模態輸入,能處理包括圖像生成、編輯和多輪交互在內的復雜任務,提供一個統一的解決方案,提高視覺內容創作的效率和靈活性。

ACE  阿里通義實驗室推出的全能圖像生成和編輯模型 第1張ACE的主要功能多模態視覺生成:A根據文本指令生成圖像,支持多種視覺生成任務,如風格轉換、對象添加或刪除等。圖像編輯:模型對現有圖像進行編輯,包括語義編輯、元素編輯(如文本和對象的添加或移除)及重繪(inpainting)。長上下文處理:基于長上下文條件單元(LCU),理解和執行多輪對話中的圖像編輯任務,保持對話歷史的連貫性。數據收集與處理:采用高效的數據收集方法,基于合成或聚類流水線獲取成對圖像,用微調的大型多模態語言模型生成準確的文本指令。單模型多任務處理:避免視覺代理中使用的繁瑣流程,用單一模型后端響應任何圖像創建請求,提高效率。ACE的技術原理長上下文條件單元(LCU):引入LCU,一種統一的條件格式,能將歷史信息和當前的文本指令結合起來,更好地理解用戶的請求并生成期望的圖像。基于Transformer的擴散模型:構建基于Transformer的擴散模型,模型用LCU作為輸入,聯合訓練各種生成和編輯任務,提高模型的多任務處理能力。條件標記化(Condition Tokenizing):模型將文本指令和視覺信息(如圖像和掩碼)分別編碼成序列,并合并處理,實現多模態信息的對齊。圖像指示嵌入(Image Indicator Embedding):為確保文本指令中提到的圖像順序與CU中的圖像序列相匹配,用預定義的文本標記指示圖像順序。長上下文注意力塊(Long-context Attention Block):模塊基于時間步嵌入(T-Emb)和3D旋轉位置編碼(RoPE)區分不同的空間和幀級圖像嵌入,確保在自注意力和交叉注意力層中,文本嵌入和圖像嵌入能逐幀對齊。ACE的項目地址項目官網:ali-vilab.github.io/ace-pageGitHub倉庫:https://github.com/ali-vilab/ACE/arXiv技術論文:https://arxiv.org/pdf/2410.00086ACE的應用場景藝術創作與設計:藝術家和設計師生成或編輯圖像,實現創意構想,提高創作效率。媒體與娛樂:在電影制作中,生成關鍵幀或輔助視覺效果的制作。在游戲開發中,快速原型設計和生成游戲資產。廣告與營銷:營銷人員快速生成吸引人的廣告圖像和營銷材料。教育與培訓:教育工作者創建定制的教材和視覺輔助工具,增強學生的學習體驗。電子商務:電商平臺生成產品圖像,或根據客戶需求進行個性化的產品展示。