ebook2audiobookXTTS是開源的AI工具,能將電子書轉換為有聲書。ebook2audiobookXTTS支持多種電子書格式,如epub、pdf、mobi等,用Coqui XTTS技術實現高質量的文本到語音轉換。...
-
-
OneDiffusion是AI2推出的多功能大規模擴散模型,能無縫支持雙向圖像合成和理解,涵蓋文本到圖像生成、條件圖像生成、圖像理解等多種任務。基于將所有條件和目標圖像建模為序列“視圖”訓練,實現在推理時任意幀作為條件圖像的...
-
OpenScholar是華盛頓大學和艾倫AI研究所共同推出的檢索增強型語言模型(LM),能幫助科學家基于檢索和綜合科學文獻中的相關論文回答問題。系統用大規模的科學論文數據庫,用定制的檢索器和重排器,及一個優化的8B參數語言模...
-
LongAlign是香港大學研究團隊推出的文本到圖像(T2I)擴散模型的改進方法,能提升長文本輸入的對齊精度。LongAlign用段級編碼技術,將長文本分割處理,適應編碼模型的輸入限制。同時引入分解偏好優化,基于區分偏好模型...
-
Teacher2Task是谷歌團隊推出的多教師學習框架,引入教師特定的輸入標記和重新構思訓練過程,消除對手動聚合啟發式方法的需求。框架不依賴聚合標簽,將訓練數據轉化為N+1個任務,包括N個輔助任務預測每位教師的標記風格,及一...
-
CAMPHOR是蘋果團隊推出的端側小語言模型(SLM)多智能體框架,能提升移動設備的隱私保護和響應速度。框架基于在設備本地處理多個用戶輸入并進行個人上下文推理,確保用戶隱私安全。CAMPHOR基于分層架構,其中高階推理智能體...
-
Takin AudioLLM是喜馬拉雅Everest團隊推出的一系列高質量零樣本語音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型語言模型技術,專注于有聲書制作,能生成接近...
-
ACE(All-round Creator and Editor)是阿里巴巴集團Tongyi Lab推出的基于擴散變換器的全能圖像生成和編輯模型。ACE引入長上下文條件單元(LCU)和統一條件格式,能理解和執行自然語言指令,...
-
AutoTrain(AutoTrain Advanced)是Hugging Face推出的開源無代碼平臺,能簡化最先進模型的訓練過程。支持用戶無需編寫代碼即可創建、微調和部署自己的AI模型,只需上傳數據即可訓練自定義機器學習...
-
SongCreator是清華大學深圳國際研究生院、香港中文大學等機構推出的歌曲生成系統,能從歌詞出發生成包含聲樂和伴奏的完整歌曲。基于雙序列語言模型(DSLM)和注意力掩碼策略,理解和生成各種相關的歌曲生成任務,包括編輯和生...










