在Vidu上線逾百日之際,生數(shù)科技自豪地宣布Vidu1.5新版本的問世,該版本實(shí)現(xiàn)了世界領(lǐng)先水平的突破,特別是在理解多樣化輸入和突破“一致性”難題方面。
Vidu1.5的推出標(biāo)志著視覺模型進(jìn)入了全新的“上下文”時(shí)代,加速了通用人工智能(AGI)的到來。Vidu在全球上線之初便具備了角色一致性生成能力,通過鎖定人物面部特征解決了視頻生成中的關(guān)鍵痛點(diǎn)。9月份,Vidu全球率先發(fā)布了“主體一致性”功能,將面部一致性拓展至全身一致性,并將范圍擴(kuò)展到動物、物體、虛擬角色等任意主體。Vidu的技術(shù)突破主要體現(xiàn)在三個(gè)方面:復(fù)雜主體的精準(zhǔn)控制、人物面部特征和動態(tài)表情的自然一致性、多主體一致性。
Vidu1.5展現(xiàn)了視覺模型全新的“智能涌現(xiàn)”,展示了其強(qiáng)大的上下文學(xué)習(xí)能力。這意味著視覺模型不僅具備了理解和想象的能力,還能夠在生成過程中進(jìn)行記憶管理。Vidu1.5延續(xù)了其業(yè)界領(lǐng)先的生成效率,不到30秒即可生成一段視頻。Vidu秉承通用性的理念,與LLM(大型語言模型)一致的設(shè)計(jì)哲學(xué),將所有問題統(tǒng)一為視覺輸入和視覺輸出的問題,使用單個(gè)Transformer統(tǒng)一建模變長的輸入和輸出,并從視頻數(shù)據(jù)的壓縮中獲取智能。
Vidu1.5的推出,不僅提升了視頻模型的可控性,還通過靈活的多元輸入實(shí)現(xiàn)了多角度、多主體、多元素的一致性生成。這標(biāo)志著視覺智能的涌現(xiàn),加速了AGI的到來。Vidu不再僅僅是一個(gè)高質(zhì)量、高效的視頻生成器,它還能在生成過程中融入上下文信息和記憶,這是視覺模態(tài)智能的“大跨越”。視覺模型將具備更強(qiáng)的認(rèn)知能力,成為AGI的一塊重要拼圖。
體驗(yàn)地址:www.vidu.studio

