GTSinger是什么

GTSinger是由浙江大學研究團隊推出的大型開源高質量歌聲數據集,旨在支持多樣化的歌聲任務。GTSinger包含80.59小時的專業錄音棚錄制的歌聲,涵蓋九種不同語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利),由20位專業歌手演唱,提供豐富的音色和風格多樣性。GTSinger注重歌唱技巧的控制和建模,提供六種常用歌唱技巧的對照組和音素級標注。GTSinger提供真實樂譜,有助于實際音樂創作。數據集包括人工音素對齊、全局風格標簽和配對朗讀數據,適應各種歌聲任務。

GTSinger  浙大開源的大型多語言高質量歌聲數據集 第1張GTSinger的主要功能多語言歌聲數據集:GTSinger包含九種不同語言的歌聲,提供多樣化的音色和風格,支持跨語言的歌聲合成和分析。歌唱技巧控制:數據集提供六種常用歌唱技巧的對照組和音素級標注,研究者能更好地建模和控制歌聲中的技巧。真實樂譜支持:提供與歌聲相匹配的真實樂譜,將歌聲合成技術應用于實際音樂創作非常有幫助。多任務適配:GTSinger設計支持多種歌聲任務,包括歌聲合成、技巧識別、風格遷移和語音到歌聲的轉換。基準測試:提供基準測試,評估數據集在不同歌聲任務上的表現和適用性。GTSinger的技術原理高質量音頻錄制:GTSinger的數據集是在專業錄音棚中錄制專業歌手的歌聲構建的,確保音頻數據的高質量。音素對齊和標注:基于音樂信息檢索技術,如MFA和Praat,進行音素對齊和標注,實現音素級的精確控制。歌唱技巧標注:基于專家聽感和音頻分析技術,對歌聲中的歌唱技巧進行標注,便于模型學習和控制。樂譜生成:結合音頻信號處理技術和音樂理論知識,從歌聲中提取音高信息,轉換為MIDI形式的樂譜,再由專家調整為真實樂譜。數據集構建和驗證:基于人工審核和后續處理,確保數據集的質量和適用性,包括音頻片段的語義分割和無聲區域的處理。GTSinger的項目地址項目官網:gtsinger.github.ioGitHub倉庫:https://github.com/GTSinger/GTSingerHuggingFace模型庫:https://huggingface.co/datasets/GTSinger/GTSingerarXiv技術論文:https://arxiv.org/pdf/2409.13832GTSinger的應用場景歌聲合成:基于數據集中的歌聲樣本和技巧標注,開發出合成具有特定技巧和風格的高質量歌聲的系統。歌聲技巧識別:分析歌聲中的音素級技巧標注,訓練模型識別和分類不同的歌聲技巧。歌聲風格遷移:將一種風格的歌聲轉換為另一種風格,例如將流行歌曲的歌聲轉換為古典風格。語音到歌聲的轉換(Speech-to-Singing, STS):將普通語音轉換為旋律化的歌聲,用在語音合成和音樂創作。音樂教育:基于數據集中的真實樂譜和歌聲樣本,開發音樂教學工具,幫助學生學習和練習唱歌技巧。