Faster Whisper 是一個基于OpenAI Whisper模型的高效語音識別工具,運用CTranslate2引擎實現快速推理。在保持高準確度的同時,提升語音轉寫速度,降低內存使用,能處理大型音頻文件。...
-
-
Nemotron-Mini-4B-Instruct是英偉達推出的一款開源小型語言模型,專為角色扮演、檢索增強生成(RAG)和函數調用任務優化。模型通過蒸餾、剪枝和量化技術優化,提高運行速度和設備端部署能力,具有較低的顯存占用...
-
Follow-Your-Canvas 是由騰訊混元團隊與清華大學等機構合作推出的一種高分辨率視頻擴展技術。通過分布式處理和布局對齊兩個核心設計,將視頻內容擴展到任意分辨率,保持與原視頻的無縫銜接和高質量內容生成。...
-
PoseTalk 是基于文本和音頻的姿勢控制和運動細化方法的開源項目,用于一次性生成會說話的頭部視頻。從圖像、驅動音頻和驅動姿勢合成說話人臉視頻,為用戶提供高效、便捷的頭部動畫生成方式。...
-
Seed-Music是字節跳動推出的AI音樂生成大模型,將用戶錄制的 10 秒音頻轉化為完整的音樂作品。通過自回歸語言模型和擴散方法,根據用戶的多模態輸入(如風格描述、音頻參考、樂譜和聲音提示)生成高質量、風格可控的音樂。...
-
ConFiner 是一個創新的視頻生成框架,由多所大學和研究機構共同推出。結合多個現成的擴散模型專家,無需額外訓練可生成高質量且連貫的視頻內容。...
-
M2UGen是先進的多模態音樂理解和生成框架,由騰訊PCG ARC實驗室與新加坡國立大學聯合推出。結合了大型語言模型(LLM)的能力,能處理包括文本、圖像、視頻和音頻在內的多模態輸入,生成相應的音樂。...
-
FaceSwap 是一個開源的AI軟件,用于創建深度偽造(Deepfakes)視頻和圖像。基于深度學習技術,在視頻或圖片中將一個人的臉替換成另一個人的臉。FaceSwap 支持多種操作系統,包括 Windows、macOS...
-
SleepFM 是斯坦福大學開源的多模態睡眠分析模型,基于超過14,000名參與者的100,000小時睡眠數據,通過融合大腦活動、心電圖和呼吸信號,提供全面的睡眠健康評估。旨在提高睡眠分析的效率和準確性。...
-
AI Youtube Shorts Generator 是一款開源的 AI 視頻編輯工具,基于 GPT-4、FFmpeg 和 OpenCV 等技術自動分析長視頻,提取最精彩的片段,將其裁剪成適合短視頻平臺的格式。工具能自動化...










