Draw an Audio 是中國科學院自動化研究所和美團點評的研究人員推出的視頻生成音頻系統。根據視頻內容自動生成匹配的聲音效果,類似于電影制作中的 Foley 藝術。系統分析視頻結合多種輸入指令,如文本、視頻遮罩和響度信號,生成與視頻內容、時間和響度一致的音頻。核心架構包括潛在擴散模型(LDM)、文本條件模型、掩碼注意力模塊(MAM)和時間-響度模塊(TLM),組件共同確保音頻生成的高質量和準確性。為視頻內容創作者提供了一個強大的工具,聲音設計過程更加高效和靈活。
Draw an Audio的主要功能內容一致性:系統分析視頻內容,生成與視頻場景語義相匹配的聲音,如視頻中出現動物時生成相應的動物叫聲。時間一致性:生成的音頻與視頻中的動作精確同步,確保聲音效果在正確的時間點出現,例如視頻中的物體碰撞聲音與碰撞動作同時發生。響度一致性:系統根據視頻中的動作強度調整聲音的響度,如視頻中遠處物體的聲音相對較小,而近處物體的聲音較大。多指令輸入:系統支持多種輸入指令,包括視頻本身、相關文本描述、視頻遮罩和響度信號,音頻生成更加靈活和可控。高質量的同步音頻:通過多指令的利用,Draw an Audio 能生成與視頻內容自然同步的高質量音頻,提升觀看體驗。Draw an Audio的技術原理潛在擴散模型(Latent Diffusion Model, LDM):作為基礎模型,負責處理音頻數據的基本生成和處理。文本條件模型:處理文本指令,確保生成的音頻與文本描述相匹配,提高內容的語義一致性。掩碼注意力模塊(Masked-Attention Module, MAM):通過視頻遮罩來關注視頻的重點區域,增強視頻內容與生成音頻之間的一致性。時間-響度模塊(Time-Loudness Module, TLM):處理信號指令,如響度信號,確保生成的聲音在時間和響度上與視頻同步。Draw an Audio的項目地址項目官網:yannqi.github.io/Draw-an-AudioarXiv技術論文:https://arxiv.org/pdf/2409.06135Draw an Audio的應用場景電影和視頻制作:在影視后期制作中,Draw an Audio 自動為無聲視頻添加匹配的音效,如腳步聲、車輛行駛聲等,提高制作效率并減少成本。游戲開發:為游戲中的動畫和場景生成逼真的聲音效果,增強玩家的沉浸感和游戲體驗。虛擬現實(VR)和增強現實(AR):在虛擬環境中生成與場景相匹配的聲音,提升用戶的交互體驗和感知真實性。教育和培訓:為教育視頻自動生成解釋性的聲音,幫助學生更好地理解和吸收知識。動畫制作:自動生成動畫角色的對話和環境音效,使動畫制作更加高效。廣告制作:為廣告視頻生成吸引人的音頻效果,增強廣告的吸引力和記憶點。 
