GroundingBooth是什么

GroundingBooth 是一個先進的文本到圖像定制框架,由華盛頓大學圣路易斯分校、Adobe和普渡大學的研究團隊共同推出。基于文本-圖像對齊模塊和遮罩交叉注意力層,實現對前景主體和背景對象的精確空間對齊。框架能生成在布局、身份保留和文本-圖像連貫性方面都符合個性化需求的圖像,支持多主題定制,在復雜場景中保持高準確性。GroundingBooth 是首個實現主題驅動的前景生成和文本驅動的背景生成聯合接地的工作,為高度定制化的視覺內容創作提供了可能。

GroundingBooth  Adobe聯合多所高校推出主題和文本到圖像的定制框架 第1張GroundingBooth的主要功能單主題定制:根據用戶提供的文本描述和單個主題圖像生成與之匹配的定制圖像。多主題和文本實體聯合定制:支持同時對多個主題和文本實體進行定制,生成包含多個對象和文本描述內容的復雜圖像。空間對齊:確保生成的圖像中的對象在空間位置上與輸入的布局信息一致。身份保留:在圖像生成過程中保留主題的身份特征。文本-圖像對齊:確保生成的圖像內容與文本描述保持一致。GroundingBooth的技術原理特征提取:基于?CLIP 文本編碼器和 DINOv2 圖像編碼器分別提取文本和圖像的特征嵌入。接地模塊:通過位置編碼將文本和圖像特征與輸入的布局信息相結合,生成接地標記。遮罩交叉注意力層:在 U-Net 的每個 Transformer 塊中使用遮罩交叉注意力層來控制前景和背景特征的結合,確保特征注入的準確性。精確布局控制:通過訓練和推理階段的遮罩交叉注意力層,實現對生成圖像中對象大小和位置的精確控制。模型訓練:在訓練階段,模型學習如何根據文本描述和參考對象生成準確的圖像布局。模型推理:在推理階段,模型處理多個參考對象,通過復制的遮罩交叉注意力層實現多主題定制。避免上下文混合:區分主題驅動的前景生成和文本驅動的背景生成,避免生成過程中的上下文混淆。GroundingBooth的項目地址項目官網:groundingbooth.github.ioarXiv技術論文:https://arxiv.org/pdf/2409.08520v1GroundingBooth的應用場景個性化商品定制:用戶根據自喜好生成定制化的商品圖像,如定制T恤、杯子、手機殼等,上面印有特定的圖案或文字。藝術創作:藝術家和設計師用 GroundingBooth 生成具有特定風格和元素的藝術作品。游戲設計:游戲開發者基于該框架快速生成游戲中的個性化角色、場景或物品。廣告和營銷:營銷人員創建與廣告文案相匹配的定制圖像,增強廣告的吸引力。社交媒體內容制作:用戶在社交媒體上分享定制的圖像,圖像與特定的話題或活動相關。教育和培訓材料:教育者生成具有特定信息和布局的教學圖像,提高學習材料的吸引力和有效性。