ComfyGen是由NVIDIA和特拉維夫大學研究人員推出的一種文本到圖像生成系統,基于大型語言模型(LLM)自動創建與用戶文本提示相匹配的工作流,提升圖像生成的質量。系統解決傳統單體模型在生成圖像時存在的限制,結合多個專業組件如微調基礎模型、LoRAs、嵌入、超分辨率步驟等構建復雜的工作流。ComfyGen提出兩種基于LLM的方法:一種是基于用戶偏好數據的調優方法,另一種是無需訓練、直接選擇現有流程的方法。兩種方法顯示出比傳統模型或通用工作流更高的圖像質量。
ComfyGen的主要功能自適應工作流生成:根據用戶的文本提示自動創建最適合的圖像生成工作流。多組件協同:結合微調基礎模型、LoRAs、嵌入、超分辨率步驟等多種專業組件構建復雜工作流。質量提升:基于優化工作流提高生成圖像的質量,更符合用戶的文本提示。自動化流程設計:減少設計有效工作流所需的專業知識,自動化流程設計適應不同的文本提示。LLM預測集成:基于大型語言模型(LLM)預測和選擇與文本提示最匹配的圖像生成流程。ComfyGen的技術原理數據收集與訓練集構建:研究人員收集一組由人類創建的ComfyUI工作流,基于對工作流的參數(如基礎模型、LoRAs、采樣器等)進行隨機交換來增強數據集。用一組文本提示生成圖像,基于美學和人類偏好預測器對圖像進行評分,形成包含提示、工作流、分數的三元組數據集。LLM預測:ComfyGen基于LLM預測給定文本提示的最優工作流。涉及到兩種方法:上下文方法(ComfyGen-IC):給LLM提供一個包含工作流及在不同類別中的得分的表格,要求為新的文本提示選擇最合適的工作流。微調方法(ComfyGen-FT):微調一個LLM,在給定文本提示和目標分數的情況下,預測能達到目標分數的工作流。工作流生成:在推理階段,ComfyGen接收一個文本提示和一個高分數作為輸入,LLM預測出一個與條件相匹配的工作流。圖像生成與評估:用預測出的工作流生成圖像,喲個人類偏好和圖像質量評估指標評估生成的圖像。ComfyGen的項目地址項目官網:comfygen-paper.github.ioarXiv技術論文:https://arxiv.org/pdf/2410.01731v1ComfyGen的應用場景藝術創作:藝術家和設計師用ComfyGen生成具有特定風格和主題的圖像,加速創作過程,探索新的視覺概念。游戲開發:游戲開發者用ComfyGen快速生成游戲環境中的背景、角色概念圖或其他游戲元素,提高開發效率。廣告和營銷:營銷團隊用ComfyGen設計廣告圖像和營銷材料,確保與廣告文案和品牌信息相匹配。電影和娛樂行業:電影制作人和視覺特效團隊用ComfyGen創建電影中的場景概念圖或特效圖像,輔助前期制作和視覺效果設計。教育和研究:教育工作者和研究人員用ComfyGen生成教學材料中的插圖,在進行科學可視化時創建精確的圖像。 
