91最新网址,一道本一区二区三区,极品av在线

ebook2audiobookXTTS 開源電子書轉有聲書 AI 工具，支持16種語言

286

ebook2audiobookXTTS是開源的AI工具，能將電子書轉換為有聲書。ebook2audiobookXTTS支持多種電子書格式，如epub、pdf、mobi等，用Coqui XTTS技術實現高質量的文本到語音轉換。...

203

OneDiffusion是AI2推出的多功能大規模擴散模型，能無縫支持雙向圖像合成和理解，涵蓋文本到圖像生成、條件圖像生成、圖像理解等多種任務。基于將所有條件和目標圖像建模為序列“視圖”訓練，實現在推理時任意幀作為條件圖像的...

186

OpenScholar是華盛頓大學和艾倫AI研究所共同推出的檢索增強型語言模型（LM），能幫助科學家基于檢索和綜合科學文獻中的相關論文回答問題。系統用大規模的科學論文數據庫，用定制的檢索器和重排器，及一個優化的8B參數語言模...

202

LongAlign是香港大學研究團隊推出的文本到圖像（T2I）擴散模型的改進方法，能提升長文本輸入的對齊精度。LongAlign用段級編碼技術，將長文本分割處理，適應編碼模型的輸入限制。同時引入分解偏好優化，基于區分偏好模型...

183

Teacher2Task是谷歌團隊推出的多教師學習框架，引入教師特定的輸入標記和重新構思訓練過程，消除對手動聚合啟發式方法的需求。框架不依賴聚合標簽，將訓練數據轉化為N+1個任務，包括N個輔助任務預測每位教師的標記風格，及一...

264

CAMPHOR是蘋果團隊推出的端側小語言模型（SLM）多智能體框架，能提升移動設備的隱私保護和響應速度。框架基于在設備本地處理多個用戶輸入并進行個人上下文推理，確保用戶隱私安全。CAMPHOR基于分層架構，其中高階推理智能體...

274

Takin AudioLLM是喜馬拉雅Everest團隊推出的一系列高質量零樣本語音生成模型，包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型語言模型技術，專注于有聲書制作，能生成接近...

200

ACE（All-round Creator and Editor）是阿里巴巴集團Tongyi Lab推出的基于擴散變換器的全能圖像生成和編輯模型。ACE引入長上下文條件單元（LCU）和統一條件格式，能理解和執行自然語言指令，...

308

AutoTrain（AutoTrain Advanced）是Hugging Face推出的開源無代碼平臺，能簡化最先進模型的訓練過程。支持用戶無需編寫代碼即可創建、微調和部署自己的AI模型，只需上傳數據即可訓練自定義機器學習...

272

SongCreator是清華大學深圳國際研究生院、香港中文大學等機構推出的歌曲生成系統，能從歌詞出發生成包含聲樂和伴奏的完整歌曲。基于雙序列語言模型（DSLM）和注意力掩碼策略，理解和生成各種相關的歌曲生成任務，包括編輯和生...