国产高清在线精品,午夜视频成人,在线资源av

今日，智譜技術(shù)團(tuán)隊(duì)發(fā)布了其最新的視頻生成模型 CogVideoX v1.5，并將其開(kāi)源。這一版本是自8月以來(lái)，智譜技術(shù)團(tuán)隊(duì)推出的 CogVideoX 系列中的又一重要進(jìn)展。

據(jù)了解，此次更新大幅提升了視頻生成能力，包括支持5秒和10秒的視頻長(zhǎng)度、768P 的分辨率以及16幀的生成能力。同時(shí)，I2V（圖像到視頻）模型也支持任意尺寸比例，進(jìn)一步增強(qiáng)了復(fù)雜語(yǔ)義的理解能力。

CogVideoX v1.5包含兩個(gè)主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V，旨在為開(kāi)發(fā)者提供更強(qiáng)大的視頻生成工具。

更值得關(guān)注的是，CogVideoX v1.5將同步上線至清影平臺(tái)，并與新推出的 CogSound 音效模型結(jié)合，成為 “新清影”。新清影將提供多項(xiàng)特色服務(wù)，包括視頻質(zhì)量的顯著提升、美學(xué)表現(xiàn)和運(yùn)動(dòng)合理性，支持生成10秒、4K、60幀的超高清視頻。

官方介紹如下:

質(zhì)量提升:在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力顯著增強(qiáng)。
超高清分辨率:支持生成10s、4K、60幀超高清視頻。
可變比例:支持任意比例，從而適應(yīng)不同的播放場(chǎng)景。
多通道輸出:同一指令/圖片可以一次性生成4個(gè)視頻。
帶聲效的 AI 視頻:新清影可以生成與畫(huà)面匹配的音效。

在數(shù)據(jù)處理方面，CogVideoX 團(tuán)隊(duì)專注于提升數(shù)據(jù)質(zhì)量，開(kāi)發(fā)了自動(dòng)化篩選框架以過(guò)濾不良視頻數(shù)據(jù)，并推出了端到端的視頻理解模型 CogVLM2-caption，以生成精準(zhǔn)的內(nèi)容描述。這一模型能夠有效處理復(fù)雜的指令，確保生成的視頻與用戶需求相符。

為了提升內(nèi)容連貫性，CogVideoX 采用了高效的三維變分自編碼器（3D VAE）技術(shù)，顯著降低了訓(xùn)練成本與難度。此外，團(tuán)隊(duì)還研發(fā)了融合文本、時(shí)間和空間三維度的 Transformer 架構(gòu)，通過(guò)去除傳統(tǒng)的跨注意力模塊，增強(qiáng)了文本和視頻的交互效果，提升了視頻生成的質(zhì)量。

未來(lái)，智譜技術(shù)團(tuán)隊(duì)將繼續(xù)擴(kuò)大數(shù)據(jù)量和模型規(guī)模，探索更高效的模型架構(gòu)，以實(shí)現(xiàn)更優(yōu)質(zhì)的視頻生成體驗(yàn)。CogVideoX v1.5的開(kāi)源不僅為開(kāi)發(fā)者提供了強(qiáng)大的工具，也為視頻創(chuàng)作領(lǐng)域注入了新的活力。

代碼:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

劃重點(diǎn):
?? 新版 CogVideoX v1.5開(kāi)源，支持5/10秒視頻、768P 分辨率和16幀生成能力。
?? 新清影平臺(tái)上線，結(jié)合 CogSound 音效模型，提供超高清4K 視頻生成。
?? 數(shù)據(jù)處理與算法創(chuàng)新，確保生成視頻的質(zhì)量和連貫性。