Emu3是由北京智源人工智能研究院推出的一款原生多模態(tài)世界模型,采用智源自研的多模態(tài)自回歸技術(shù)路徑,在圖像、視頻、文字上聯(lián)合訓(xùn)練,使模型具備原生多模態(tài)能力,實(shí)現(xiàn)圖像、視頻、文字的統(tǒng)一輸入和輸出。Emu3將各種內(nèi)容轉(zhuǎn)換為離散符號(hào),基于單一的Transformer模型來預(yù)測下一個(gè)符號(hào),簡化了模型架構(gòu)。Emu3在圖像生成方面,只需一段文本描述可創(chuàng)造出符合要求的高質(zhì)量圖像,表現(xiàn)超越了專門的圖像生成模型SDXL。在圖像和語言的理解能力上,Emu3能準(zhǔn)確描述現(xiàn)實(shí)世界場景給出恰當(dāng)?shù)奈淖只貞?yīng),無需依賴CLIP或預(yù)訓(xùn)練的語言模型。Emu3能延續(xù)現(xiàn)有視頻內(nèi)容,自然地?cái)U(kuò)展視頻場景。
Emu3的主要功能圖像生成:Emu3能根據(jù)文本描述生成高質(zhì)量圖像,支持不同分辨率和風(fēng)格 。視頻生成:Emu3能生成視頻,通過預(yù)測視頻序列中的下一個(gè)符號(hào)來創(chuàng)作視頻,不依賴復(fù)雜的視頻擴(kuò)散技術(shù) 。視頻預(yù)測:Emu3能自然地延續(xù)現(xiàn)有視頻內(nèi)容,預(yù)測接下來會(huì)發(fā)生什么,模擬物理世界中的環(huán)境、人物和動(dòng)物 。圖文理解:Emu3能理解物理世界并提供連貫的文本回應(yīng),無需依賴CLIP或預(yù)訓(xùn)練的語言模型 。Emu3的技術(shù)原理下一個(gè)token預(yù)測:Emu3的核心是下一個(gè)token預(yù)測,屬于一種自回歸方法,模型被訓(xùn)練預(yù)測序列中的下一個(gè)元素,無論是文本、圖像還是視頻。多模態(tài)序列統(tǒng)一:Emu3將圖像、文本和視頻數(shù)據(jù)統(tǒng)一到一個(gè)離散的token空間中,使單一的Transformer模型處理多種類型的數(shù)據(jù)。單一Transformer模型:Emu3用一個(gè)從零開始訓(xùn)練的單一Transformer模型處理所有類型的數(shù)據(jù),簡化模型架構(gòu)并提高效率。自回歸生成:在生成任務(wù)中,Emu3通過自回歸方式,一個(gè)接一個(gè)地預(yù)測序列中的token,從而生成圖像或視頻。圖文理解:在圖文理解任務(wù)中,Emu3能將圖像編碼為token,然后生成描述圖像內(nèi)容的文本。Emu3的項(xiàng)目地址項(xiàng)目官網(wǎng):emu.baai.ac.cn/aboutGitHub倉庫:https://github.com/baaivision/Emu3HuggingFace模型庫:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f技術(shù)論文:https://baai-solution.ks3-cn-beijing.ksyuncs.com/emu3/Emu3-tech-report.pdfEmu3的應(yīng)用場景內(nèi)容創(chuàng)作:Emu3根據(jù)文本描述自動(dòng)生成圖像和視頻,助力藝術(shù)家和設(shè)計(jì)師快速實(shí)現(xiàn)創(chuàng)意。廣告與營銷:基于Emu3生成吸引人的廣告素材,提升品牌宣傳效果。教育:Emu3將復(fù)雜概念可視化,增強(qiáng)學(xué)生的學(xué)習(xí)體驗(yàn)。娛樂產(chǎn)業(yè):Emu3輔助游戲和電影制作,創(chuàng)造逼真的虛擬環(huán)境。設(shè)計(jì)和建筑:Emu3用于生成設(shè)計(jì)原型和建筑渲染圖,提高設(shè)計(jì)效率。電子商務(wù):Emu3幫助在線零售商生成產(chǎn)品展示圖像,提升購物體驗(yàn)。 
