亚洲欧美综合乱码精品成人网,日韩午夜电影免费看,欧美xxx.com

TinyVLA 華東師范和上海大學推出面向機器人操控VLA模型

491

TinyVLA是一種面向機器人操控的視覺-語言-動作（VLA）模型，由華東師范大學和上海大學團隊推出。針對現有VLA模型的不足，如推理速度慢和需要大量數據預訓練，提出解決方案。TinyVLA基于輕量級的多模態模型和擴散策略解...

490

Matryoshka Diffusion Models（MDM）是蘋果公司推出的一種創新的擴散模型，主要用于生成高分辨率圖像和視頻。MDM通過多分辨率擴散過程，在不同尺度上同時進行去噪，有效提升模型的訓練效率和生成質量。...

522

Boow-VTON是阿里巴巴推出的一種先進的虛擬試衣技術。能在野外場景中實現高質量的虛擬試衣效果，無需依賴精確的遮罩或修復工作。通過有效的數據增強方法，基于大規模未配對的訓練數據，顯著提高模型的試穿性能。...

559

LiveKit Agents 是一個強大的框架，用于創建能實時通過語音、視頻和數據與用戶互動的多模態AI代理。框架支持 Python 編程，簡化開發過程，支持開發者輕松集成語音識別、語音合成和先進的語言模型。...

361

ScribbleDiff是一種先進的文本到圖像生成技術，基于用戶簡單涂鴉的視覺提示指導圖像的生成過程。通過分析涂鴉確保生成的圖像中的對象方向與用戶涂鴉的方向一致，并將涂鴉擴展生成更完整和細致的圖像。...

538

CatVTON是一種先進的虛擬試衣技術，由中山大學和Pixocial聯合推出。基于輕量化的架構和高效的訓練策略，實現高質量的虛擬試衣效果。CatVTON的特點是只需要極少的可訓練參數（約49.57M），能在保持細節一致性的同...

578

VideoLingo 是一款一鍵全自動視頻翻譯工具，能將視頻進行字幕切割、翻譯、對齊和配音，最終生成 Netflix 級別的字幕和配音。VideoLingo 基于自然語言處理（NLP）和大型語言模型（LLM）技術，提供智能術...

616

MMSearch是一個用于評估大型多模態模型（LMMs）作為AI搜索引擎能力的基準測試。包括一個MMSearch-Engine框架和MMSearch測試集，后者包含300個問題，涵蓋14個子領域。MMSearch-Engin...

614

ChopperBot是一款智能化的直播視頻剪輯和發布機器人，ChopperBot能自動化地管理和分發直播內容。支持多個流行直播平臺，如斗魚、虎牙、B站、抖音和Twitch等，ChopperBot能自動爬取直播視頻、智能切片、...

589

HelloBench是一個用于評估大型語言模型（LLMs）長文本生成能力的開源基準測試。HelloBench包含五個基于布魯姆分類法的子任務：開放式問答、摘要、聊天、文本補全和啟發式文本生成。HelloBench用真實場景數...