亚洲视频一二,黄网av在线,中文字幕视频在线

HouseCrafter 東北大學和 Stability AI推出2D轉換3D室內場景的技術

300

HouseCrafter 是由東北大學和 Stability AI 推出的先進技術，將二維平面圖自動轉換成三維室內場景。基于一個網絡規模圖像訓練的2D擴散模型，生成一致的多視圖彩色（RGB）和深度（D）圖像。圖像自回歸地批量...

472

MemFree是一款開源的混合AI搜索引擎，通過整合多種AI模型和搜索引擎，提供高效、多樣化的搜索體驗。可以用文本、圖像、文件和網頁等多種方式進行搜索和提問，獲取文本、思維導圖、圖片和視頻等多格式的搜索結果。...

486

NeMo 是由 NVIDIA 提供的端到端云原生框架，用于構建、定制和部署生成式 AI 模型。支持大型語言模型（LLMs）、多模態模型、語音識別和文本轉語音（TTS）等應用。NeMo 的設計理念強調模塊化和靈活性，使研究人員...

478

CCI 3.0是智源研究院發布的一個大規模的中文互聯網語料庫，包含了1000GB的數據集和498GB的高質量子集CCI 3.0-HQ。該版本在數據規模上相較于CCI 2.0擴大了近一倍，數據來源機構增加至20多家，提升了數據...

472

GarDiff是一種創新的虛擬試穿技術，通過使用CLIP和VAE編碼來提取服裝的外觀先驗，結合服裝聚焦適配器和高頻細節增強算法，生成高保真且細節豐富的試穿圖像。能精確地對齊服裝與人體姿態，保留服裝的復雜圖案和紋理，提供真實的...

488

I2VEdit是一個先進的視頻編輯框架，通過圖像到視頻的擴散模型實現首幀引導的視頻編輯。用戶只需編輯視頻的第一幀，I2VEdit能自動將編輯效果應用到整個視頻。...

495

Oryx是由清華大學、騰訊和南洋理工大學聯合推出的多模態大型語言模型（MLLM），基于兩項核心創新來處理視覺數據，預訓練的OryxViT模型和動態壓縮模塊。OryxViT將任意分辨率的圖像編碼為適合LLM的視覺表示，動態壓縮...

349

AutoGen Studio 是微軟研究院推出的一款開源界面工具，旨在簡化多智能體系統的構建、調試和評估過程。AutoGen Studio提供一個基于 Web 的交互式界面和 Python API，支持用戶拖放和聲明式規范定...

277

Westlake-Omni 是西湖心辰推出的全球首個開源中文情感端到端語音交互大模型。模型采用離散表示法，統一文本和語音模態的處理，特別強調實時性，快速響應用戶輸入，提供零延遲的交互體驗。...

538

IDIFY是一款免費開源的在線證件照生成工具，通過AI技術實現自動摳圖，幫助用戶快速生成符合標準的證件照。用戶只需在瀏覽器中上傳照片，選擇尺寸和背景色，可下載高清證件照。...