Fugatto是什么

Fugatto是英偉達(NVIDIA)推出的音頻合成和轉換模型,全稱為”Foundational Generative Audio Transformer Opus 1″。模型能根據文本提示生成音頻或視頻,接收并修改現有的音頻文件。Fugatto模型具有強大的能力,例如將鋼琴旋律轉換成人聲演唱版本,或者改變口語錄音中的口音和情緒表達。在音頻編輯和制作領域具有極高的應用價值。Fugatto模型的架構基于增強型的Transformer模型,采用了自適應層歸一化等特定修改,支持復雜的組合指令。

Fugatto  英偉達推出的多功能AI音頻生成模型 第1張Fugatto的主要功能音頻生成與轉換:Fugatto能根據文本描述生成音效和音樂,例如將鋼琴演奏轉換為人聲歌唱,或改變錄音的口音和情緒。多任務學習:模型支持多種音頻生成和轉換任務,包括音樂創作、聲音效果設計和語音合成等。精細的藝術控制:通過引入ComposableART技術,用戶可以組合多個指令,實現對聲音屬性的精細控制,調整音樂的節奏、音色,或改變語音的情感和口音。動態音頻生成:Fugatto能生成隨時間變化的聲音景觀,用戶可以控制聲音的變化軌跡,音頻內容更加豐富和生動。多語言和口音支持:Fugatto具備強大的多語言和口音能力,能生成各種語言的語音內容,支持多種口音和方言,音頻創作更加貼近現實。音景創作:Fugatto可以為電影和音頻制作創建身臨其境的音景,能模擬自然現象的聲音,例如雷雨聲與鳥鳴聲的結合,為用戶提供豐富的聽覺體驗。語音樣本生成:模型能生成新的語音樣本,可以改變交付的語氣和風格,為每次播放賦予獨特的觸感。Fugatto的技術原理深度神經網絡:Fugatto 基于深度神經網絡,經過優化可以理解文本、將描述轉換為聲音,根據用戶的特定需求調整其輸出。大型語言模型 (LLM):Fugatto 用大型語言模型來增強指令生成,能更好地理解和解釋音頻和文本提示之間的關系。數據生成方法:Fugatto 采用創新的數據生成方法,超越了傳統的監督學習。專門的數據集生成技術,創建各種音頻和轉換任務。可組合音頻表示轉換 (ComposableART):Fugatto 在推理過程中采用了稱為ComposableART的技術,能組合在訓練期間只能單獨看到的指令。時間插值:Fugatto 能生成隨時間變化的聲音,NVIDIA將這一功能稱為時間插值。例如,可以模擬暴雨穿過區域的聲音,雷聲逐漸增強,然后慢慢消失在遠處。生成新奇聲音:與大多數只能重現所接觸的訓練數據的模型不同,Fugatto支持用戶創建以前從未見過的音景。Transformer模型的特定修改:Fugatto 的架構基于經過特定修改(如自適應層歸一化)增強的Transformer模型,有助于在不同輸入之間保持一致性,比現有模型更好地支持作曲指令。Fugatto的項目地址Github倉庫:https://github.com/fugatto/fugatto.github.io/blob/main/index.md技術論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdfFugatto的應用場景音樂創作:Fugatto可以作為音樂人的創作工具,幫助他們快速生成符合需求的音樂內容。聲音設計:在電影、游戲等多媒體內容制作中,Fugatto能為聲音設計師提供豐富的聲音素材和創意靈感,包括自然環境聲、機械聲或特殊效果聲。語音合成與轉換:Fugatto支持文本到語音的轉換,能生成多種語言和口音的語音內容,實現語音風格的轉換,如口音或情感狀態的變化。廣告音頻制作:廣告代理商可以用Fugatto快速調整廣告活動的口音和情感,適應不同地區或情境的需求。視頻游戲音頻:視頻游戲開發人員可以用Fugatto修改游戲中預先錄制的音頻素材,或根據文本說明和可選的音頻輸入動態創建新的音頻素材。