12月2日,千問APP接入萬相系列最新模型Wan2.5,視頻創(chuàng)作能力再度升級。動作精度和肢體協(xié)調(diào)性全面提升,并成為首個支持音視頻同時輸出的移動端AI助手。

阿里萬相2.5是目前業(yè)界少數(shù)具備音畫同步能力的視頻模型之一,該模型同時支持理解和生成等多種任務(wù),支持文本、圖像、視頻、音頻多種模態(tài)的輸入和輸出,在權(quán)威大模型評測LMArena上,萬相的圖生視頻能力位居全球第三,穩(wěn)居國內(nèi)第一。

在千問APP上,用戶只需一張照片和一段文字,無需模板,即可生成一段肢體動作自然、口型匹配準(zhǔn)確的1080P高清唱跳視頻,最長支持10S。測試顯示,無論是真人照片、萌寵、二次元角色,還是文物、卡通形象,千問APP都可支持。

去年年初,阿里推出的照片跳舞功能迅速火爆國內(nèi)外,激發(fā)了網(wǎng)友的創(chuàng)作熱情,兵馬俑、萌娃、萌寵跳舞視頻在全網(wǎng)流傳。此次,千問APP接入萬相2.5后,不僅全面提升視頻創(chuàng)作效果,還進(jìn)一步降低視頻創(chuàng)作門檻,支持用戶自定義上傳照片和輸入文字,例如,用戶僅需輸入一張圖片和一段“小貓一邊唱歌,一邊跳舞”的文字,千問APP便能精準(zhǔn)生成視頻,讓靜態(tài)形象瞬間“活”起來。

這一能力上線后,再次激發(fā)了網(wǎng)友的創(chuàng)作熱情,社交平臺上涌現(xiàn)出一批更具創(chuàng)意的“照片唱跳”內(nèi)容。例如,用戶可以先通過千問APP將兩張圖片融合,生成一張“中世紀(jì)名畫”風(fēng)格的合照,再輸入“圖中的人物一邊唱歌、一邊跳舞,鏡頭要有動態(tài)感”等文字,即可實現(xiàn)合唱、群舞的視頻效果,且能夠保持高質(zhì)量的動感表現(xiàn)和極強(qiáng)的主體一致性。

據(jù)悉,千問App公測僅一周,下載量就突破1000萬次,超越ChatGPT、Sora、DeepSeek成為史上增長最快的AI應(yīng)用。