HouseCrafter 是由東北大學和 Stability AI 推出的先進技術,將二維平面圖自動轉換成三維室內場景。基于一個網絡規模圖像訓練的2D擴散模型,生成一致的多視圖彩色(RGB)和深度(D)圖像。圖像自回歸地批量...
-
-
MemFree是一款開源的混合AI搜索引擎,通過整合多種AI模型和搜索引擎,提供高效、多樣化的搜索體驗。可以用文本、圖像、文件和網頁等多種方式進行搜索和提問,獲取文本、思維導圖、圖片和視頻等多格式的搜索結果。...
-
NeMo 是由 NVIDIA 提供的端到端云原生框架,用于構建、定制和部署生成式 AI 模型。支持大型語言模型(LLMs)、多模態模型、語音識別和文本轉語音(TTS)等應用。NeMo 的設計理念強調模塊化和靈活性,使研究人員...
-
CCI 3.0是智源研究院發布的一個大規模的中文互聯網語料庫,包含了1000GB的數據集和498GB的高質量子集CCI 3.0-HQ。該版本在數據規模上相較于CCI 2.0擴大了近一倍,數據來源機構增加至20多家,提升了數據...
-
GarDiff是一種創新的虛擬試穿技術,通過使用CLIP和VAE編碼來提取服裝的外觀先驗,結合服裝聚焦適配器和高頻細節增強算法,生成高保真且細節豐富的試穿圖像。能精確地對齊服裝與人體姿態,保留服裝的復雜圖案和紋理,提供真實的...
-
I2VEdit是一個先進的視頻編輯框架,通過圖像到視頻的擴散模型實現首幀引導的視頻編輯。用戶只需編輯視頻的第一幀,I2VEdit能自動將編輯效果應用到整個視頻。...
-
Oryx是由清華大學、騰訊和南洋理工大學聯合推出的多模態大型語言模型(MLLM),基于兩項核心創新來處理視覺數據,預訓練的OryxViT模型和動態壓縮模塊。OryxViT將任意分辨率的圖像編碼為適合LLM的視覺表示,動態壓縮...
-
AutoGen Studio 是微軟研究院推出的一款開源界面工具,旨在簡化多智能體系統的構建、調試和評估過程。AutoGen Studio提供一個基于 Web 的交互式界面和 Python API,支持用戶拖放和聲明式規范定...
-
Westlake-Omni 是西湖心辰推出的全球首個開源中文情感端到端語音交互大模型。模型采用離散表示法,統一文本和語音模態的處理,特別強調實時性,快速響應用戶輸入,提供零延遲的交互體驗。...
-
IDIFY是一款免費開源的在線證件照生成工具,通過AI技術實現自動摳圖,幫助用戶快速生成符合標準的證件照。用戶只需在瀏覽器中上傳照片,選擇尺寸和背景色,可下載高清證件照。...










