今日,智譜技術(shù)團(tuán)隊(duì)發(fā)布了其最新的視頻生成模型 CogVideoX v1.5,并將其開(kāi)源。這一版本是自8月以來(lái),智譜技術(shù)團(tuán)隊(duì)推出的 CogVideoX 系列中的又一重要進(jìn)展。

據(jù)了解,此次更新大幅提升了視頻生成能力,包括支持5秒和10秒的視頻長(zhǎng)度、768P 的分辨率以及16幀的生成能力。同時(shí),I2V(圖像到視頻)模型也支持任意尺寸比例,進(jìn)一步增強(qiáng)了復(fù)雜語(yǔ)義的理解能力。

CogVideoX v1.5包含兩個(gè)主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V,旨在為開(kāi)發(fā)者提供更強(qiáng)大的視頻生成工具。

更值得關(guān)注的是,CogVideoX v1.5將同步上線至清影平臺(tái),并與新推出的 CogSound 音效模型結(jié)合,成為 “新清影”。新清影將提供多項(xiàng)特色服務(wù),包括視頻質(zhì)量的顯著提升、美學(xué)表現(xiàn)和運(yùn)動(dòng)合理性,支持生成10秒、4K、60幀的超高清視頻。

官方介紹如下:

質(zhì)量提升:在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力顯著增強(qiáng)。

超高清分辨率:支持生成10s、4K、60幀超高清視頻。

可變比例:支持任意比例,從而適應(yīng)不同的播放場(chǎng)景。

多通道輸出:同一指令/圖片可以一次性生成4個(gè)視頻。

帶聲效的 AI 視頻:新清影可以生成與畫(huà)面匹配的音效。

在數(shù)據(jù)處理方面,CogVideoX 團(tuán)隊(duì)專注于提升數(shù)據(jù)質(zhì)量,開(kāi)發(fā)了自動(dòng)化篩選框架以過(guò)濾不良視頻數(shù)據(jù),并推出了端到端的視頻理解模型 CogVLM2-caption,以生成精準(zhǔn)的內(nèi)容描述。這一模型能夠有效處理復(fù)雜的指令,確保生成的視頻與用戶需求相符。

為了提升內(nèi)容連貫性,CogVideoX 采用了高效的三維變分自編碼器(3D VAE)技術(shù),顯著降低了訓(xùn)練成本與難度。此外,團(tuán)隊(duì)還研發(fā)了融合文本、時(shí)間和空間三維度的 Transformer 架構(gòu),通過(guò)去除傳統(tǒng)的跨注意力模塊,增強(qiáng)了文本和視頻的交互效果,提升了視頻生成的質(zhì)量。

未來(lái),智譜技術(shù)團(tuán)隊(duì)將繼續(xù)擴(kuò)大數(shù)據(jù)量和模型規(guī)模,探索更高效的模型架構(gòu),以實(shí)現(xiàn)更優(yōu)質(zhì)的視頻生成體驗(yàn)。CogVideoX v1.5的開(kāi)源不僅為開(kāi)發(fā)者提供了強(qiáng)大的工具,也為視頻創(chuàng)作領(lǐng)域注入了新的活力。

代碼:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

劃重點(diǎn):

?? 新版 CogVideoX v1.5開(kāi)源,支持5/10秒視頻、768P 分辨率和16幀生成能力。

?? 新清影平臺(tái)上線,結(jié)合 CogSound 音效模型,提供超高清4K 視頻生成。

?? 數(shù)據(jù)處理與算法創(chuàng)新,確保生成視頻的質(zhì)量和連貫性。