OminiControl是高度通用且參數高效的圖像生成框架,為擴散變換器模型如FLUX.1設計,實現對圖像生成過程的精細控制。OminiControl支持主題驅動控制和空間控制,例如邊緣引導和繪畫生成,僅需在基礎模型中增加0...
-
-
Devika是開源的AI編程助手,能理解并拆分復雜指令,基于集成AI搜索和網頁瀏覽能力搜集信息,編寫代碼實現目標。Devika支持多種AI模型,具備高級規(guī)劃推理能力,能進行上下文關鍵詞提取、多語言代碼編寫,并提供動態(tài)狀態(tài)追蹤...
-
Proactive Agent是清華大學聯合面壁智能等團隊推出的新一代主動Agent交互范式 ,具備主動性,能預測用戶需求并在沒有直接指令的情況下采取行動。Proactive Agent觀察環(huán)境和用戶行為,推斷出潛在的任務,...
-
iDP3(Improved 3D Diffusion Policy)是斯坦福大學聯合多所高校推出的3D視覺運動策略,能提升人形機器人在多樣化環(huán)境中的自主操作能力。與傳統3D策略不同,iDP3基于自我中心的3D視覺表征,摒棄對...
-
Promptriever 是約翰斯·霍普金斯大學和Samaya AI聯合推出的新型檢索模型,能像語言模型一樣接受自然語言提示,用直觀的方式響應用戶的搜索需求。Promptriever 基于 MS MARCO 數據集的指令訓練...
-
NVLM是NVIDIA推出的前沿多模態(tài)大型語言模型(LLMs),在視覺-語言任務上達到與頂尖專有模型(如GPT-4o)和開放訪問模型(如Llama 3-V 405B和InternVL 2)相匹敵的性能。NVLM 1.0家族包...
-
LongLLaVA是多模態(tài)大型語言模型(MLLM),基于混合架構結合Mamba和Transformer模塊,能高效處理大量圖像,特別擅長視頻理解和高分辨率圖像分析。LongLLaVA在單個A100 80GB GPU上能處理近...
-
Devika AI是印度Stition AI團隊推出的開源AI軟件開發(fā)工具,能理解并執(zhí)行復雜的人類指令,將其分解為步驟,進行研究和信息搜集,最終編寫代碼以實現目標。Devika AI提供AI結對編程,致力于革新軟件開發(fā)流程,...
-
Qwen2VL-Flux是多模態(tài)圖像生成模型,結合Qwen2VL的視覺語言理解和FLUX框架,基于文本提示和圖像參考生成高質量的圖像。模型支持多種生成模式,包括變體生成、圖像到圖像轉換、智能修復及ControlNet引導生成...
-
InfiMM-WebMath-40B 是字節(jié)跳動和中國科學院聯合開源的超大規(guī)模多模態(tài)數據集,旨在提升多模態(tài)模型的圖文混合推理能力,在數學領域。數據集從 Common Crawl 中提取,經過嚴格的篩選、清洗和標注,包含 24...










