最近,Adobe 研究團隊與密歇根大學的研究人員聯合開發了一款名為 MultiFoley 的人工智能系統,這款系統能夠生成電影和視頻中的配音音效,助力后期制作。
MultiFoley 的創新之處在于它允許用戶通過文字提示、參考音頻或視頻示例來創造音效。在演示中,該系統甚至能將貓的叫聲轉化為獅子的吼叫,或將打字機的聲音轉換為鋼琴音符,并與視頻畫面完美同步。
MultiFoley 的音頻輸出質量達到48kHz 的高帶寬,這主要得益于研究人員使用互聯網上的視頻和專業音效庫進行訓練。與以往的系統不同,MultiFoley 首次將多種輸入方式 —— 文本、音頻和視頻參考 —— 整合到同一模型中。它通過分析每秒8幀的視覺特征,并將其放大以匹配40Hz 的音頻采樣率,確保生成的音頻與視頻保持緊密同步。
在測試中,MultiFoley 在音頻與視頻的同步和音效與文本描述的匹配方面表現出色,平均同步精度達到了0.8秒,顯著優于傳統系統通常超過一秒的延遲。用戶研究顯示,85.8% 的參與者認為 MultiFoley 在語義一致性方面優于第二名,而94.5% 的參與者更喜歡它的同步效果。
盡管 MultiFoley 展現出了強大的潛力,但研究團隊也指出目前的一些局限性,例如訓練數據相對較小,這限制了它的音效種類。同時,系統在生成多個同時音效時也存在一定困難。研究團隊計劃不久后發布源代碼和模型。
雖然 Adobe 尚未宣布將 MultiFoley 納入其產品中,但這一技術與 Adobe Premiere Pro 視頻編輯軟件中現有的人工智能功能非常契合,有望為個人創作者和制作公司在音效設計流程中帶來便利。
劃重點:
?? MultiFoley 是 Adobe 與密歇根大學合作開發的一款 AI 音效生成系統,可通過多種輸入方式生成音效。
?? 該系統的音頻輸出質量達到48kHz,平均同步精度為0.8秒,優于傳統音效系統。
?? 用戶研究顯示,MultiFoley 在音效的語義一致性和同步效果方面都獲得了高評價。

