還記得科幻電影中,主角揮舞著魔法棒,就能隨意操控聲音的場景嗎?現在,這種神奇的能力不再是幻想!NVIDIA 最新發布的AI模型Fugatto,就像一支“聲音魔法棒”,讓用戶僅憑文字就能操控音樂、聲音和語音,創造出各種奇妙的聽覺效果。
Fugatto,全稱為“Foundational Generative Audio Transformer Opus1”,是一款基于生成式AI技術的音頻處理模型。與其他只能創作音樂或修改語音的AI模型不同,Fugatto 擁有更強大的能力,可以生成或轉換任何音樂、語音和聲音的混合體,并且能夠理解并執行用戶通過文本和音頻文件輸入的指令。
Fugatto 的強大功能讓音樂制作人、廣告公司、語言學習工具開發者和游戲開發者等各行各業的用戶都為之驚嘆。 音樂制作人可以用它快速嘗試不同的音樂風格、人聲和樂器,甚至可以為現有的歌曲添加效果或提升音質。 廣告公司則可以用它為廣告配音添加不同的口音和情緒,輕松地將廣告推廣到不同的地區和目標人群。 語言學習工具開發者可以使用Fugatto 將課程內容轉換成任何用戶想要的聲音,例如家人或朋友的聲音,讓學習更加個性化。 游戲開發者則可以利用Fugatto 根據游戲進程實時修改游戲中的聲音素材,或者根據文本指令和音頻輸入創建全新的游戲音效。
Fugatto 的神奇之處在于它能夠像人類一樣理解和生成聲音。 它不僅可以執行用戶給出的具體指令,還能創造出前所未有的新聲音。例如,它可以讓小號發出狗叫聲,讓薩克斯風發出貓叫聲,只要用戶能夠描述出來,Fugatto 就能創造出來。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
Fugatto 的另一項突破性能力是它可以將訓練過程中單獨學習到的指令組合起來,生成更復雜的效果。 例如,用戶可以要求它生成一段帶有悲傷情緒的法語口音語音。 更令人驚嘆的是,Fugatto 還允許用戶對指令進行細微的調整,例如控制口音的濃重程度或悲傷情緒的強烈程度,讓用戶能夠像藝術家一樣進行創作。
Fugatto 還能生成隨時間變化的聲音,例如一場暴風雨從遠處逼近,雷聲逐漸增強,然后慢慢消失在遠方。 用戶可以精確地控制聲音的變化過程,創造出各種生動的音效。
Fugatto 是一個由全球各地研究人員共同開發的成果,團隊成員來自印度、巴西、中國、約旦和韓國等國家。 他們多元化的背景讓 Fugatto 擁有更強大的多口音和多語言處理能力。
Fugatto 的誕生是 NVIDIA 在語音建模、音頻編碼和音頻理解等領域多年研究積累的結晶。 它使用了25億個參數,并在配備32個 NVIDIA H100Tensor Core GPU 的 NVIDIA DGX 系統集群上進行了訓練。
Fugatto 的出現,標志著音頻處理技術進入了一個全新的時代。它將為音樂、電影、游戲、教育等各個領域帶來無限的可能性,讓我們共同期待它創造出更多令人驚嘆的聽覺盛宴!
官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

