Show-o是集成了多模態理解和生成的統一Transformer模型。通過結合自回歸和離散擴散建模,能靈活處理包括視覺問答、文本到圖像生成、文本引導的修復和擴展,混合模態生成在內的廣泛視覺語言任務。Show-o模型在多模態理解和生成基準測試中展現出與現有專門模型相當或更優的性能,能減少圖像生成所需的采樣步驟,提高效率。Show-o支持多種下游應用,如文本引導的圖像修復和擴展,無需額外微調。
Show-o的主要功能視覺問題回答(VQA):能理解圖像內容回答有關圖像的問題。文本到圖像生成:根據文本描述生成相應的圖像,支持創意和多樣化的視覺輸出。文本引導的圖像修復(Inpainting):能識別圖像中的缺失部分,根據文本提示進行修復。文本引導的圖像擴展(Extrapolation):在圖像中添加新元素或擴展圖像內容,基于文本描述進行擴展。混合模態生成:結合文本描述生成視頻關鍵幀,為長視頻生成提供可能性。多模態理解和生成:整合視覺和語言信息,處理復雜的多模態任務。Show-o的技術原理自回歸和離散擴散建模的統一:Show-o模型創新性地將自回歸和離散擴散建模結合在一起,適應性地處理各種不同和混合模態的輸入和輸出。基于預訓練的大型語言模型(LLM):Show-o的架構基于預訓練的LLM,在每個注意力層前添加了QK-Norm操作以提高模型的穩定性和性能。離散圖像標記:Show-o采用離散去噪擴散來模擬離散圖像標記,簡化了額外文本編碼器的需求。統一的提示策略:Show-o設計了一種統一的提示策略,將圖像和文本標記化后形成輸入序列,適應不同類型的任務,如多模態理解、文本到圖像的生成等。全注意力機制:Show-o引入了全注意力機制,能根據輸入序列的類型自適應地應用因果注意力或全注意力。文本標記使用因果注意力,圖像標記使用全注意力,支持每個圖像標記與序列中的所有其他標記交互。訓練目標:Show-o采用兩種學習目標:下一令牌預測(NTP)和遮罩令牌預測(MTP),同時進行自回歸和(離散)擴散建模。混合模態生成:Show-o展現了混合模態生成的潛力,例如基于文本描述和視頻關鍵幀的生成,為長視頻生成提供了新的可能性。減少采樣步驟:與自回歸圖像生成相比,Show-o所需的采樣步驟減少了約20倍,減少了計算資源的消耗,提高了模型的應用靈活性。Show-o的項目地址Github倉庫:https://github.com/showlab/Show-oarXiv技術論文:https://arxiv.org/pdf/2408.12528在線體驗Demo:https://huggingface.co/spaces/showlab/Show-oShow-o的應用場景社交媒體內容創作:用戶可以提供文本描述,Show-o能生成相應的圖像或視頻,豐富社交媒體帖子的內容。虛擬助手:在虛擬環境中,根據用戶的查詢或指令,Show-o可以生成解釋性圖像或動畫,提供視覺輔助。教育和培訓:Show-o能生成教學材料中的圖表、圖解和示例圖像,增強學習體驗。廣告和營銷:根據產品描述或營銷概念,Show-o可以快速生成吸引人的視覺內容,用于廣告宣傳。游戲開發:Show-o可以為視頻游戲設計生成獨特的游戲環境、角色和物品圖像。電影和視頻制作:Show-o輔助前期制作,根據劇本生成概念藝術和場景設計圖。 
