在人工智能驅(qū)動的圖像生成與理解領(lǐng)域,盡管取得了快速進展,但仍存在顯著挑戰(zhàn),阻礙了一個無縫、統(tǒng)一的方法的發(fā)展。

目前,專注于圖像理解的模型往往在生成高質(zhì)量圖像方面表現(xiàn)不佳,反之亦然。這種任務(wù)分開的架構(gòu)不僅增加了復雜性,還限制了效率,使得處理同時需要理解與生成的任務(wù)變得繁瑣。此外,許多現(xiàn)有模型在有效執(zhí)行任何功能時,都過于依賴于架構(gòu)修改或預訓練組件,這導致了性能權(quán)衡與整合挑戰(zhàn)。

為了解決這些問題,DeepSeek AI 推出了 JanusFlow,這是一個強大的 AI 框架,旨在統(tǒng)一圖像理解與生成。JanusFlow 通過將圖像理解和生成集成到一個統(tǒng)一的架構(gòu)中,來解決前面提到的低效問題。這一新穎的框架采用簡約設(shè)計,結(jié)合了自回歸語言模型與糾正流(rectified flow)—— 一種最先進的生成建模方法。

通過消除對獨立的 LLM 和生成組件的需求,JanusFlow 實現(xiàn)了更為緊密的功能集成,同時降低了架構(gòu)復雜性。它引入了雙重編碼器 - 解碼器結(jié)構(gòu),解耦了理解和生成任務(wù),并通過對齊表示來確保統(tǒng)一訓練方案中的性能一致性。

技術(shù)細節(jié)方面,JanusFlow 輕量高效地整合了糾正流與大型語言模型。該架構(gòu)包括用于理解和生成任務(wù)的獨立視覺編碼器。在訓練過程中,這些編碼器相互對齊,以提高語義一致性,使系統(tǒng)在圖像生成和視覺理解任務(wù)中表現(xiàn)出色。

這種編碼器的解耦防止了任務(wù)之間的干擾,從而增強了每個模塊的能力。模型還采用了無分類器引導(CFG)來控制生成圖像與文本條件之間的對齊,從而提高圖像質(zhì)量。與傳統(tǒng)的使用擴散模型作為外部工具的統(tǒng)一系統(tǒng)相比,JanusFlow 提供了更簡單、更直接的生成過程,局限性也更少。該架構(gòu)的有效性體現(xiàn)在其能夠在多個基準測試中匹敵甚至超過許多特定任務(wù)模型的表現(xiàn)。

JanusFlow 的重要性在于其效率和多功能性,填補了多模態(tài)模型開發(fā)中的一個關(guān)鍵空白。通過消除對獨立生成和理解模塊的需求,JanusFlow 使研究人員和開發(fā)者能夠利用單一框架處理多種任務(wù),顯著降低了復雜性和資源使用。

基準結(jié)果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分別為74.9、70.5和60.3,表現(xiàn)優(yōu)于許多現(xiàn)有的統(tǒng)一模型。在圖像生成方面,JanusFlow 超越了 SDv1.5和 SDXL,MJHQ FID-30k 得分為9.51,GenEval 得分為0.63。這些指標表明它在生成高質(zhì)量圖像和處理復雜多模態(tài)任務(wù)方面的卓越能力,且僅需1.3B 參數(shù)。

結(jié)論是,JanusFlow 在開發(fā)能夠同時進行圖像理解與生成的統(tǒng)一 AI 模型方面邁出了重要一步。它的簡約方法 —— 專注于將自回歸能力與糾正流整合 —— 不僅提升了性能,還簡化了模型架構(gòu),使其更高效、可訪問。

通過解耦視覺編碼器并在訓練過程中對齊表示,JanusFlow 成功架起了圖像理解與生成之間的橋梁。隨著 AI 研究不斷突破模型能力的邊界,JanusFlow 代表著朝著創(chuàng)造更具通用性和多功能性的多模態(tài) AI 系統(tǒng)邁出的重要里程碑。

模型:https://huggingface.co/deepseek-ai/JanusFlow-1.3B

論文:https://arxiv.org/abs/2411.07975

劃重點:

?? JanusFlow 是一個統(tǒng)一框架,將圖像理解與生成集成于一個模型中,提高了效率和可操作性。

?? 該框架在多個基準測試中表現(xiàn)優(yōu)越,尤其是在生成高質(zhì)量圖像方面,超越了多個現(xiàn)有模型。

?? JanusFlow 通過解耦視覺編碼器,避免了任務(wù)間的干擾,并簡化了整體架構(gòu)。