近日,Oute AI 發布了一種新穎的文本轉語音合成方法,稱為 OuteTTS-0.1-350M。這種方法利用純語言建模,無需外部適配器或復雜架構,提供了一種簡化的 TTS 方法。OuteTTS-0.1-350M 基于 LLaMa 架構,使用 WavTokenizer 直接生成音頻標記,使得流程更加高效。

該模型具有零樣本語音克隆功能,僅需幾秒鐘的參考音頻即可復制新的聲音。OuteTTS-0.1-350M 專為設備性能而設計,并與 llama.cpp 兼容,使其成為實時應用的理想選擇。盡管該模型的參數規模相對較小(3.5億個),但其性能可與更大、更復雜的 TTS 系統相媲美。

OuteTTS-0.1-350M 的可訪問性和效率使其適用于廣泛的應用,包括個性化助理、有聲讀物和內容本地化。Oute AI 在 CC-BY 許可下發布,鼓勵進一步實驗和集成到不同的項目中,使先進的 TTS 技術民主化。

OuteTTS-0.1-350M 的發布標志著文本轉語音技術向前邁出了關鍵一步,它利用簡化的架構以最少的計算要求提供高質量的語音合成。它集成了 LLaMa 架構,使用了 WavTokenizer,并且能夠執行零樣本語音克隆而無需復雜的適配器,這使它有別于傳統的 TTS 模型。

地址:https://www.outeai.com/blog/OuteTTS-0.1-350M