Spirit LM是由Meta AI團隊推出的一種多模態語言模型,能無縫地混合文本和語音數據。Spirit LM基于一個預訓練的文本語言模型,用持續在文本和語音單元上的訓練擴展到語音模態。模型有兩個版本:基礎版(BASE)和表達版(EXPRESSIVE)。基礎版用語音語義單元,除表達版除語義單元外,還用音高和風格單元模擬語音的表達性。Spirit LM在訓練時將語音和文本序列連接為單一的標記集,基于詞級交錯方法。能生成具有文本模型語義能力的文本,和生成具有語音模型表達能力的語音,Spirit LM能在少量樣本的情況下跨模態學習新任務,如自動語音識別(ASR)、文本到語音(TTS)和語音分類。
Spirit LM的主要功能跨模態語言生成:Spirit LM能生成文本和語音,實現無縫切換。語義和表達能力:結合文本模型的語義能力和語音模型的表達能力。少量樣本學習:基于少量樣本快速學習新任務,如ASR、TTS和語音分類。情感保持:表達版(EXPRESSIVE)能理解和生成具有特定情感的語音和文本。多模態理解:理解和生成跨模態內容,例如將文本轉換為語音或反之。Spirit LM的技術原理預訓練和擴展:基于預訓練的文本語言模型,用持續在文本和語音單元上的訓練來展模型的語音處理能力。交錯訓練:用詞級交錯方法,將語音和文本序列連接為單一的標記集進行訓練,實現語音和文本之間的對齊。雙模態標記:基礎版(BASE):用語音語義單元(如HuBERT標記)。表達版(EXPRESSIVE):除語義單元外,結合音高(F0)和風格單元捕捉語音的表達性。編碼和解碼:編碼器:將語音轉換為標記,用HuBERT等模型進行語音編碼。解碼器:將標記還原為原始模態(文本或語音)。數據集和訓練:用大規模的文本數據集和語音數據集。基于對齊的語音+文本數據集進行交錯訓練。Spirit LM的項目地址項目官網:speechbot.github.io/spiritlmGitHub倉庫:https://github.com/facebookresearch/spiritlmarXiv技術論文:https://arxiv.org/pdf/2402.05755Spirit LM的應用場景語音助手:集成到智能設備中,提供語音交互功能,如回答問題、設置提醒和控制智能家居設備。自動語音識別(ASR):將語音轉換為文本,用在語音轉寫、會議記錄和語音命令系統。文本到語音(TTS):將文本信息轉換為語音輸出,用在有聲讀物、新聞播報和導航系統。情感分析:分析語音或文本中的情感傾向,用在客戶服務、市場研究和社交媒體監控。語音翻譯:實現語音輸入的實時翻譯,幫助跨語言溝通,適于國際會議和旅游場景。 
