OneDiffusion是AI2推出的多功能大規(guī)模擴(kuò)散模型,能無縫支持雙向圖像合成和理解,涵蓋文本到圖像生成、條件圖像生成、圖像理解等多種任務(wù)。基于將所有條件和目標(biāo)圖像建模為序列“視圖”訓(xùn)練,實現(xiàn)在推理時任意幀作為條件圖像的能力。OneDiffusion以其統(tǒng)一的訓(xùn)練框架、可擴(kuò)展性和對多任務(wù)的支持,提供一種通用的視覺模型解決方案。
OneDiffusion的主要功能文本到圖像合成:從文本提示生成高質(zhì)量、逼真的圖像。條件圖像生成:基于輸入圖像(如深度圖、姿態(tài)圖)生成新圖像。圖像理解:執(zhí)行如深度估計、姿態(tài)估計和圖像分割等任務(wù)。多視圖生成:從單一圖像生成多個視角的一致視圖。即時個性化:用序列圖像輸入進(jìn)行個性化生成。ID定制:基于個人身份信息進(jìn)行圖像定制和生成。零樣本高分辨率生成:即使在訓(xùn)練中未遇到高分辨率,也能生成高分辨率圖像。OneDiffusion的技術(shù)原理流匹配框架:用流匹配(Flow matching)框架訓(xùn)練連續(xù)時間生成模型,學(xué)習(xí)時間依賴的向量場轉(zhuǎn)換概率分布。序列建模:將所有條件和目標(biāo)圖像建模為一系列“視圖”,在訓(xùn)練時作為序列處理,每個視圖帶有不同噪聲水平。靈活的框架:在推理時,任何視圖都能用作條件輸入或被設(shè)置為噪聲,生成輸出圖像。統(tǒng)一訓(xùn)練框架:基于統(tǒng)一的訓(xùn)練框架,去除對特定架構(gòu)的需求,支持可擴(kuò)展的多任務(wù)訓(xùn)練,并能適應(yīng)任意分辨率。噪聲調(diào)度:在訓(xùn)練過程中,獨(dú)立采樣每個視圖的時間變量和高斯噪聲,實現(xiàn)不同噪聲水平的視圖。OneDiffusion的項目地址GitHub倉庫:https://github.com/lehduong/OneDiffusion/arXiv技術(shù)論文:https://arxiv.org/pdf/2411.16318OneDiffusion的應(yīng)用場景藝術(shù)創(chuàng)作與設(shè)計:用文本到圖像合成功能,藝術(shù)家和設(shè)計師從創(chuàng)意描述生成視覺內(nèi)容,加速創(chuàng)作過程。廣告與營銷:基于條件圖像生成,根據(jù)特定的品牌風(fēng)格或市場趨勢定制圖像,用于廣告和營銷材料。游戲開發(fā):在游戲設(shè)計中,快速原型設(shè)計,生成游戲環(huán)境、角色和物品的多樣化視圖。虛擬現(xiàn)實(VR)與增強(qiáng)現(xiàn)實(AR):多視圖生成功能創(chuàng)建360度全景圖像,增強(qiáng)VR和AR應(yīng)用中的沉浸式體驗。電影與娛樂:電影制作中,生成特效場景的初步草圖,或用于快速預(yù)覽場景布局。 
