OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技術的高質量文生音樂模型。基于先進的AI算法,根據文本描述生成高質量的音樂作品。...
-
-
SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一種創新的多輪強化學習方法,旨在提高大型語言模型(LLM)的自我糾錯能力。通過在模型生成的數據上進...
-
ANTO是一款開源的Windows桌面字幕翻譯工具,用于翻譯SRT格式的視頻字幕文件。集成多種翻譯引擎,如谷歌翻譯、DeepL、微軟翻譯、百度翻譯和有道翻譯等,用戶根據需求選擇服務。ANTO支持批量處理,能同時翻譯多個字幕文...
-
AiNiee 是一款AI翻譯工具,能一鍵自動翻譯RPG、SLG游戲、Epub、TXT格式的小說、Srt、Lrc字幕文件等。工具支持多格式文件,接入多個主流AI接口平臺,如OpenAI、Google、Anthropic、Dee...
-
LLaMA-Omni 是中國科學院計算技術研究所和中國科學院大學研究者推出的新型模型架構,用于實現與大型語言模型(LLM)的低延遲、高質量語音交互。通過集成預訓練的語音編碼器、語音適配器、大型語言模型(LLM)和一個實時語音...
-
華知大模型5.0是同方知網與華為云聯合推出的AI大模型,具備多模態理解和生成能力。華知大模型5.0的最大亮點在于多維模型的構建能力,涵蓋從7B到135B不等的多種規模模型。通過跨模態多層語義融合技術,處理學術圖片、統計表格等...
-
LVCD(Large Video Color Diffusion)是一個專為動畫視頻線稿上色設計的視頻擴散框架,能將黑白線稿自動轉化為彩色動畫視頻。LVCD使用了一種先進的擴散模型,可以同時處理整個視頻序列,保證每一幀的顏色...
-
ItiNera 是港大和MIT聯合開發的智能城市行程規劃系統。基于大型語言模型(LLM)和空間優化技術,根據用戶的個性化需求,如情侶酒吧、二次元圣地等,一鍵生成Citywalk路線。系統包含五大模塊:用戶興趣點數據庫構建、請...
-
CogVideoX-Fun是一個基于CogVideoX結合EasyAnimate修改的AI視頻生成工具,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具能生成不同分辨率的視頻內容,從256x256...
-
StoryMaker 是小紅書開源的一款文本到圖像生成工具,專注于幫助創作者在連續圖像內容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技術,確保生成的圖像在面部特征、服裝、發型和身體特...










