SongCreator是什么

SongCreator是清華大學(xué)深圳國際研究生院、香港中文大學(xué)等機(jī)構(gòu)推出的歌曲生成系統(tǒng),能從歌詞出發(fā)生成包含聲樂和伴奏的完整歌曲。基于雙序列語言模型(DSLM)和注意力掩碼策略,理解和生成各種相關(guān)的歌曲生成任務(wù),包括編輯和生成。SongCreator在多項任務(wù)中表現(xiàn)出色,特別是在歌詞到歌曲和歌詞到聲樂的任務(wù)上,能獨(dú)立控制生成歌曲中聲樂和伴奏的聲學(xué)條件。

SongCreator  AI音樂模型,能理解、生成和編輯歌曲 第1張SongCreator的主要功能歌詞到歌曲(Lyrics-to-Song):根據(jù)提供的歌詞生成包含聲樂和伴奏的完整歌曲。歌詞到聲樂(Lyrics-to-Vocals):基于歌詞生成聲樂部分,不包含伴奏。伴奏到歌曲(Accompaniment-to-Song):給定伴奏,生成與伴奏協(xié)調(diào)的聲樂部分,形成完整的歌曲。聲樂到歌曲(Vocals-to-Song):給定聲樂部分,生成伴奏,構(gòu)成完整的歌曲。歌曲編輯(Song Editing):在現(xiàn)有歌曲中修改特定段落,匹配目標(biāo)歌詞,同時保持與原歌曲的連貫性。聲樂編輯(Vocals Editing):編輯歌曲中的聲樂部分,而不改變伴奏。音樂延續(xù)(Music Continuation):基于一段伴奏或聲樂,生成音樂的連續(xù)部分。無條件音樂生成:在沒有歌詞的情況下生成音樂或聲樂。SongCreator的技術(shù)原理雙序列語言模型(DSLM):用DSLM捕捉聲樂和伴奏的信息。模型包括兩個解碼器,分別針對聲樂和伴奏,通過動態(tài)雙向交叉注意力模塊捕捉兩者之間的相互影響。注意力掩碼策略:設(shè)計一系列注意力掩碼策略。策略支持模型在不同的歌曲生成任務(wù)中,如編輯、理解和生成,用統(tǒng)一的方式工作。多任務(wù)訓(xùn)練:基于多任務(wù)訓(xùn)練提升其在作曲、編曲和理解方面的能力,使其能處理各種復(fù)雜的音樂場景。條件信號:接受多種可選輸入,包括歌詞、聲樂提示、伴奏提示等,使其在生成歌曲時具有高度的靈活性和可控性。語義令牌(Semantic Tokens):用BEST-RQ模型在未標(biāo)記的數(shù)據(jù)集上訓(xùn)練,基于向量量化提取歌曲的語義令牌,令牌包含重建歌曲所需的語義和聲學(xué)細(xì)節(jié)。潛在擴(kuò)散模型(Latent Diffusion Model, LDM):用LDM將語義令牌解碼成高質(zhì)量的歌曲音頻,模型由變分自編碼器(VAE)和擴(kuò)散模型組成,用在生成高保真度和音樂性的音樂。SongCreator的項目地址項目官網(wǎng):songcreator.github.ioarXiv技術(shù)論文:https://arxiv.org/pdf/2409.06029SongCreator的應(yīng)用場景音樂制作:音樂制作人和作曲家生成歌曲的小樣,快速原型設(shè)計,或在創(chuàng)作過程中尋找靈感。教育和學(xué)習(xí):在音樂教育中,作為教學(xué)工具,幫助學(xué)生理解歌曲結(jié)構(gòu),學(xué)習(xí)作曲和編曲。娛樂和游戲:在視頻游戲和互動媒體中,根據(jù)游戲情境實時生成背景音樂,提升玩家的沉浸感。內(nèi)容創(chuàng)作:視頻內(nèi)容創(chuàng)作者和播客為項目定制原創(chuàng)音樂,而無需聘請專業(yè)的音樂家。廣告和營銷:廣告行業(yè)快速生成符合品牌形象和廣告概念的配樂。