MultiFoley是Adobe Research和密歇根大學共同推出的音效生成系統,能基于文本、音頻和視頻的多模態(tài)控制生成Foley聲音效果。系統支持用戶根據文本提示、參考音頻或部分視頻來定制和生成與視頻同步的聲音,增強視頻觀看體驗。MultiFoley聯合訓練互聯網視頻數據集和專業(yè)聲音效果錄音,實現高質量、全帶寬(48kHz)的音頻生成。MultiFoley能為視頻制作提供靈活的聲音設計控制,幫助用戶創(chuàng)作出既干凈又富有創(chuàng)意的音效。
MultiFoley的主要功能文本控制的Foley生成:用文本提示引導和生成與視頻同步的聲音效果,是現實聲音或創(chuàng)意聲音。音頻控制的Foley生成:支持用戶從聲音效果庫中選擇參考音頻,將聲音應用到無聲視頻中,并與視頻同步。Foley音頻擴展:將部分音頻軌道擴展,產生完整的Foley聲音。質量控制:基于在文本中加入質量標簽,生成高質量的全頻帶(48kHz)音頻。多模態(tài)控制:結合文本、音頻和視頻的條件信號,提供細致的聲音設計控制。MultiFoley的技術原理聯合訓練:在互聯網視頻數據集(低質量音頻)和專業(yè)聲音效果(SFX)錄音上進行訓練,生成高質量的全頻帶音頻。擴散變換器(Diffusion Transformer):基于擴散模型從隨機噪聲生成新樣本,用在視頻引導的Foley聲音生成,并結合多模態(tài)控制。高質量音頻自編碼器(DAC-VAE):基于變分自編碼器(VAE),將48kHz的音頻波形編碼成40Hz的潛在特征,用在音頻-視頻同步。凍結視頻編碼器:用在音頻-視頻同步,將視頻編碼成特征并與音頻潛在編碼一起使用。多條件訓練策略:讓模型靈活地支持下游任務,如音頻擴展和文本驅動的聲音設計。多頭注意力機制:增強模型的表達能力,并行學習不同類型的特征或依賴關系。MultiFoley的項目地址項目官網:ificl.github.io/MultiFoleyarXiv技術論文:https://arxiv.org/pdf/2411.17698MultiFoley的應用場景電影和視頻制作:在電影制作中,生成與畫面動作同步的聲音效果,如腳步聲、關門聲等,增強觀眾的沉浸感。游戲開發(fā):在游戲中,為不同的游戲環(huán)境和動作生成逼真的聲音,提升游戲體驗。動畫制作:對于動畫,根據動畫角色的動作生成相應的聲音,讓動畫更加生動。廣告制作:在廣告行業(yè)中,根據廣告創(chuàng)意生成吸引眼球的聲音效果,增加廣告的吸引力。虛擬現實(VR):在VR體驗中,生成與虛擬環(huán)境同步的聲音,提高用戶的沉浸感和體驗質量。 
