LongAlign是香港大學研究團隊推出的文本到圖像(T2I)擴散模型的改進方法,能提升長文本輸入的對齊精度。LongAlign用段級編碼技術,將長文本分割處理,適應編碼模型的輸入限制。同時引入分解偏好優化,基于區分偏好模型中的文本相關和無關部分,應用不同權重減少過擬合,增強對齊度。經過20小時微調,LongAlign顯著提高Stable Diffusion v1.5模型在長文本對齊任務上的性能,超越PixArt-α和Kandinsky v2.2等先進模型。
LongAlign的主要功能長文本處理:基于分段級編碼方法,處理長文本輸入,克服預訓練編碼模型如CLIP的最大輸入長度限制。文本到圖像對齊:提高生成圖像與輸入文本之間的對齊度,確保圖像內容與文本描述的準確性。減少過擬合:基于偏好分解和重加權策略,LongAlign減少了微調過程中的過擬合問題,提高了模型的泛化能力。LongAlign的技術原理分段級編碼:將長文本分割成多個段落(或句子),每個段落獨立編碼,將編碼結果合并。支持模型處理超出最大輸入長度限制的文本。偏好分解:分析偏好模型的評分機制,將偏好分數分解為兩部分:文本相關部分(衡量文本到圖像的對齊)和文本無關部分(評估圖像的其他視覺方面,如美學)。重加權策略:為解決過擬合問題,LongAlign提出一種為文本相關和無關部分分配不同權重的策略。策略基于減少文本無關部分的權重,增強模型對文本內容的關注,提高對齊度。LongAlign的項目地址GitHub倉庫:https://github.com/luping-liu/LongAlignarXiv技術論文:https://arxiv.org/pdf/2410.11817LongAlign的應用場景藝術創作:藝術家和設計師生成與詳細描述相匹配的圖像,在數字藝術創作中實現更精確的視覺表達。游戲開發:在游戲設計中,幫助創建與游戲背景故事或特定場景描述相符合的圖像和概念藝術。電影和娛樂行業:電影制作人和娛樂行業生成與劇本或故事板描述相匹配的圖像,用于前期制作或視覺特效設計。廣告和營銷:廣告公司生成與廣告文案或營銷活動描述相匹配的圖像,提高廣告的視覺吸引力。教育和培訓:在教育領域,生成與教學材料或課程內容描述相匹配的圖像,增強學習體驗。 
