JoyHallo是什么

JoyHallo 是京東開源的數(shù)字人模型,專為普通話設(shè)計(jì),能根據(jù)音頻生成逼真的說話視頻。特別適合處理普通話的復(fù)雜口型和語調(diào),具有跨語言生成視頻的能力。JoyHallo 提供了一個(gè)開源的數(shù)據(jù)集和模型訓(xùn)練方法,使用戶可以生成普通話和英語的說話人視頻。項(xiàng)目基于中文wav2vec2模型進(jìn)行音頻特征嵌入,采用半解耦結(jié)構(gòu)來提升推理速度,提高了14.3%。

JoyHallo  京東推出音頻驅(qū)動(dòng)視頻生成的數(shù)字人模型 第1張JoyHallo的主要功能音頻驅(qū)動(dòng)的視頻生成:JoyHallo 能根據(jù)音頻輸入生成對(duì)應(yīng)的視頻,特別是普通話視頻。跨語言生成能力:除普通話,JoyHallo 能生成英語視頻,顯示跨語言的視頻生成能力。唇部同步:模型能精確地同步音頻與視頻中的唇部運(yùn)動(dòng),提高視頻的真實(shí)感。面部表情生成:根據(jù)音頻中的情感和語調(diào)生成相應(yīng)的面部表情。JoyHallo的技術(shù)原理半解耦結(jié)構(gòu):用在提高音頻驅(qū)動(dòng)視頻生成中唇部運(yùn)動(dòng)預(yù)測(cè)的準(zhǔn)確性。通過集成然后分離關(guān)鍵的面部動(dòng)畫組件,如唇部、表情和頭部姿態(tài),實(shí)現(xiàn)更精確的建模。特征嵌入:用中國(guó)的 wav2vec2 模型嵌入音頻特征,有助于模型更好地理解和生成與音頻同步的面部動(dòng)作。交叉注意力機(jī)制:在半解耦結(jié)構(gòu)中,交叉注意力模塊處理集成的特征,捕捉相關(guān)性。卷積網(wǎng)絡(luò):在解耦階段,用卷積網(wǎng)絡(luò)分離不同的特征,使模型專注于每個(gè)特征的特定細(xì)節(jié)。數(shù)據(jù)集:JoyHallo 訓(xùn)練基于 jdh-Hallo 數(shù)據(jù)集,一個(gè)包含多種年齡和說話風(fēng)格的普通話視頻數(shù)據(jù)集,涵蓋日常對(duì)話和專業(yè)醫(yī)療話題。JoyHallo的項(xiàng)目地址項(xiàng)目官網(wǎng):jdh-algo.github.io/JoyHalloGitHub倉(cāng)庫(kù):https://github.com/jdh-algo/JoyHalloHuggingFace模型庫(kù):https://huggingface.co/jdh-algo/JoyHallo-v1arXiv技術(shù)論文:https://arxiv.org/pdf/2409.13268JoyHallo的應(yīng)用場(chǎng)景虛擬主播:在新聞播報(bào)、天氣預(yù)報(bào)、體育賽事解說等領(lǐng)域,JoyHallo 生成虛擬主播的視頻,提供24小時(shí)不間斷的節(jié)目制作。在線教育:在語言學(xué)習(xí)、在線課程等領(lǐng)域,JoyHallo 生成教師的虛擬形象,提供更加生動(dòng)的教學(xué)體驗(yàn)。客戶服務(wù):在客戶服務(wù)領(lǐng)域,JoyHallo 生成虛擬客服代表,提供更加親切和專業(yè)的客戶服務(wù)。娛樂產(chǎn)業(yè):在電影、游戲、動(dòng)畫制作等領(lǐng)域,JoyHallo生成角色的面部動(dòng)畫,提高制作效率和降低成本。社交媒體:用戶用 JoyHallo 生成自己的虛擬形象,在社交媒體上發(fā)布視頻內(nèi)容,增加互動(dòng)性和趣味性。廣告制作:在廣告行業(yè),JoyHallo 生成定制化的廣告視頻,提高廣告的吸引力和個(gè)性化程度。