TinyVLA是一種面向機器人操控的視覺-語言-動作(VLA)模型,由華東師范大學和上海大學團隊推出。針對現有VLA模型的不足,如推理速度慢和需要大量數據預訓練,提出解決方案。TinyVLA基于輕量級的多模態模型和擴散策略解...
-
-
Matryoshka Diffusion Models(MDM)是蘋果公司推出的一種創新的擴散模型,主要用于生成高分辨率圖像和視頻。MDM通過多分辨率擴散過程,在不同尺度上同時進行去噪,有效提升模型的訓練效率和生成質量。...
-
Boow-VTON是阿里巴巴推出的一種先進的虛擬試衣技術。能在野外場景中實現高質量的虛擬試衣效果,無需依賴精確的遮罩或修復工作。通過有效的數據增強方法,基于大規模未配對的訓練數據,顯著提高模型的試穿性能。...
-
LiveKit Agents 是一個強大的框架,用于創建能實時通過語音、視頻和數據與用戶互動的多模態AI代理。框架支持 Python 編程,簡化開發過程,支持開發者輕松集成語音識別、語音合成和先進的語言模型。...
-
ScribbleDiff是一種先進的文本到圖像生成技術,基于用戶簡單涂鴉的視覺提示指導圖像的生成過程。通過分析涂鴉確保生成的圖像中的對象方向與用戶涂鴉的方向一致,并將涂鴉擴展生成更完整和細致的圖像。...
-
CatVTON是一種先進的虛擬試衣技術,由中山大學和Pixocial聯合推出。基于輕量化的架構和高效的訓練策略,實現高質量的虛擬試衣效果。CatVTON的特點是只需要極少的可訓練參數(約49.57M),能在保持細節一致性的同...
-
VideoLingo 是一款一鍵全自動視頻翻譯工具,能將視頻進行字幕切割、翻譯、對齊和配音,最終生成 Netflix 級別的字幕和配音。VideoLingo 基于自然語言處理(NLP)和大型語言模型(LLM)技術,提供智能術...
-
MMSearch是一個用于評估大型多模態模型(LMMs)作為AI搜索引擎能力的基準測試。包括一個MMSearch-Engine框架和MMSearch測試集,后者包含300個問題,涵蓋14個子領域。MMSearch-Engin...
-
ChopperBot是一款智能化的直播視頻剪輯和發布機器人,ChopperBot能自動化地管理和分發直播內容。支持多個流行直播平臺,如斗魚、虎牙、B站、抖音和Twitch等,ChopperBot能自動爬取直播視頻、智能切片、...
-
HelloBench是一個用于評估大型語言模型(LLMs)長文本生成能力的開源基準測試。HelloBench包含五個基于布魯姆分類法的子任務:開放式問答、摘要、聊天、文本補全和啟發式文本生成。HelloBench用真實場景數...










