HiCo是什么

HiCo是360 AI研究院推出的基于擴散模型的層次化可控布局到圖像生成模型,HiCo基于多分支結構設計,實現對對象位置和文本描述的精確控制。HiCo的關鍵特點在于進行空間解耦,有效地處理復雜布局,減少對象缺失和視角沖突等問題。HiCo在自然場景的多目標可控布局生成中表現出色,引入HiCo-7K基準測試集。HiCo模型展示了與快速生成插件(如LoRA、LCM)的兼容性,能生成高分辨率圖像,在處理多概念組合布局時仍有改進空間。

HiCo  360 AI研究院推出的布局可控AI繪畫模型 第1張HiCo的主要功能層次化布局控制:HiCo基于層次化結構對布局進行建模,實現對背景、前景及空間關系的精細控制。對象級可控生成:模型根據對象的文本描述和空間位置條件獨立生成每個對象,確保生成圖像的準確性和一致性。多分支結構融合:用多分支網絡獨立處理不同區域,基于融合模塊(Fuse Net)合并特征,生成復雜布局的圖像。快速生成插件兼容:HiCo與快速生成插件(如LoRA、LCM)兼容,加速圖像生成過程,保持高質量輸出。HiCo-7K基準測試:引入HiCo-7K基準測試集,評估模型在多目標可控布局生成方面的性能。靈活擴展性:模型支持集成不同插件或調整參數,適應不同的生成任務,如個性化生成或多語言控制。HiCo的技術原理層次化建模:HiCo用層次化結構對輸入的布局信息進行建模,捕捉從粗糙到精細的空間布局細節。對象可分離的條件分支:每個分支獨立處理和生成特定區域的內容,根據對象的文本描述和空間位置條件生成圖像。擴散模型:基于擴散模型,迭代去噪過程從噪聲數據中恢復出清晰的圖像,用條件引導生成過程。融合模塊(Fuse Net):掩碼技術分離不同前景和背景區域的內容,在合并過程中保持各自的獨立性。低秩適應(LoRA):兼容LoRA技術,快速適應新任務或風格,無需從頭開始訓練整個模型。快速推斷能力:設計快速推斷機制,如HiCo-LCM(Lightning)和HiCo-Lightning,用并行處理和優化的網絡結構加速圖像生成。HiCo的項目地址項目官網:360cvgroup.github.io/HiCo_T2IGitHub倉庫:https://github.com/360CVGroup/HiCo_T2I(即將開源)arXiv技術論文:https://arxiv.org/pdf/2410.14324HiCo的應用場景圖像編輯和合成:在圖像編輯中,根據文本描述和位置信息精確地添加、修改或移除圖像中的對象,適合需要精細控制視覺布局的場景。游戲和娛樂:在游戲設計或電影特效制作中,生成復雜的場景布局,包括角色、道具和背景元素,提高創作效率和視覺效果。虛擬現實(VR)和增強現實(AR):在VR和AR應用中,生成符合特定布局要求的虛擬環境,為用戶提供更加沉浸式的體驗。廣告設計:根據廣告創意和布局要求快速生成吸引人的廣告圖像,提高廣告設計的效率和質量。數據增強:在機器學習和計算機視覺任務中,生成訓練數據,特別是在需要特定布局或場景的數據集時,增強模型的泛化能力。