StoryDiffusion是一個(gè)先進(jìn)的AI圖像和視頻生成框架,用于從文本描述生成具有一致性的圖像和視頻序列。基于Consistent Self-Attention機(jī)制增強(qiáng)圖像間的一致性,生成的內(nèi)容在身份和服飾等細(xì)節(jié)上保持連貫。StoryDiffusion引入Semantic Motion Predictor模塊,在語義空間中預(yù)測(cè)圖像間的運(yùn)動(dòng)轉(zhuǎn)換,生成平滑且連貫的視頻。StoryDiffusion將文本故事轉(zhuǎn)化為視覺內(nèi)容,包括漫畫和視頻形式,提高用戶用文本提示控制生成內(nèi)容的能力。StoryDiffusion推動(dòng)視覺故事生成領(lǐng)域的研究,為內(nèi)容創(chuàng)作提供新的可能性。
StoryDiffusion的主要功能一致性圖像生成:文本描述生成內(nèi)容一致的圖像,用于敘事和故事講述。長(zhǎng)視頻生成:將圖像轉(zhuǎn)換成具有平滑過渡和一致主體的視頻。文本驅(qū)動(dòng)的內(nèi)容控制:支持用戶基于文本提示控制生成的圖像和視頻內(nèi)容。無需訓(xùn)練的模塊集成:Consistent Self-Attention模塊無需訓(xùn)練直接集成到現(xiàn)有的圖像生成模型中。滑動(dòng)窗口支持長(zhǎng)故事:滑動(dòng)窗口機(jī)制支持長(zhǎng)文本故事的圖像生成,不受輸入長(zhǎng)度限制。StoryDiffusion的技術(shù)原理一致性自我注意力(Consistent Self-Attention):在自注意力計(jì)算中引入跨圖像的token,增強(qiáng)不同圖像間的一致性。語義運(yùn)動(dòng)預(yù)測(cè)器(Semantic Motion Predictor):基于預(yù)訓(xùn)練的圖像編碼器將圖像映射到語義空間,預(yù)測(cè)中間幀的運(yùn)動(dòng)條件。Transformer結(jié)構(gòu)預(yù)測(cè):在語義空間中用Transformer結(jié)構(gòu)預(yù)測(cè)一系列中間幀。視頻擴(kuò)散模型:將預(yù)測(cè)得到的語義空間向量作為控制信號(hào),基于視頻擴(kuò)散模型解碼成最終的視頻幀。無需訓(xùn)練的即插即用:Consistent Self-Attention模塊重用現(xiàn)有的自注意力權(quán)重,無需額外訓(xùn)練。StoryDiffusion的項(xiàng)目地址項(xiàng)目官網(wǎng):storydiffusion.github.ioGitHub倉(cāng)庫(kù):https://github.com/HVision-NKU/StoryDiffusionarXiv技術(shù)論文:https://arxiv.org/pdf/2405.01434StoryDiffusion的應(yīng)用場(chǎng)景動(dòng)漫和漫畫創(chuàng)作:藝術(shù)家和作家將文本故事轉(zhuǎn)化為視覺漫畫或動(dòng)漫,加速創(chuàng)作過程。教育和故事講述:在教育領(lǐng)域,生成故事書或教材中的插圖,幫助學(xué)生更好地理解故事內(nèi)容。社交媒體內(nèi)容制作:內(nèi)容創(chuàng)作者生成吸引人的圖像和視頻,用于社交媒體平臺(tái),增加用戶互動(dòng)。廣告和營(yíng)銷:營(yíng)銷人員快速生成吸引人的廣告視覺內(nèi)容,提高廣告的吸引力。電影和游戲制作:在電影預(yù)覽、游戲設(shè)計(jì)等領(lǐng)域,生成概念藝術(shù)或故事板。虛擬主播和視頻會(huì)議:生成虛擬形象和動(dòng)態(tài)背景,用于直播、視頻會(huì)議或在線教育。 
