国产乱码精品一区二区三区四区,看黄在线观看,第四色亚洲色图

OminiControl AI圖像生成框架，實現圖像主題控制和空間精確控制

213

OminiControl是高度通用且參數高效的圖像生成框架，為擴散變換器模型如FLUX.1設計，實現對圖像生成過程的精細控制。OminiControl支持主題驅動控制和空間控制，例如邊緣引導和繪畫生成，僅需在基礎模型中增加0...

286

Devika是開源的AI編程助手，能理解并拆分復雜指令，基于集成AI搜索和網頁瀏覽能力搜集信息，編寫代碼實現目標。Devika支持多種AI模型，具備高級規(guī)劃推理能力，能進行上下文關鍵詞提取、多語言代碼編寫，并提供動態(tài)狀態(tài)追蹤...

317

Proactive Agent是清華大學聯合面壁智能等團隊推出的新一代主動Agent交互范式，具備主動性，能預測用戶需求并在沒有直接指令的情況下采取行動。Proactive Agent觀察環(huán)境和用戶行為，推斷出潛在的任務，...

266

iDP3（Improved 3D Diffusion Policy）是斯坦福大學聯合多所高校推出的3D視覺運動策略，能提升人形機器人在多樣化環(huán)境中的自主操作能力。與傳統3D策略不同，iDP3基于自我中心的3D視覺表征，摒棄對...

182

Promptriever 是約翰斯·霍普金斯大學和Samaya AI聯合推出的新型檢索模型，能像語言模型一樣接受自然語言提示，用直觀的方式響應用戶的搜索需求。Promptriever 基于 MS MARCO 數據集的指令訓練...

169

NVLM是NVIDIA推出的前沿多模態(tài)大型語言模型（LLMs），在視覺-語言任務上達到與頂尖專有模型（如GPT-4o）和開放訪問模型（如Llama 3-V 405B和InternVL 2）相匹敵的性能。NVLM 1.0家族包...

193

LongLLaVA是多模態(tài)大型語言模型（MLLM），基于混合架構結合Mamba和Transformer模塊，能高效處理大量圖像，特別擅長視頻理解和高分辨率圖像分析。LongLLaVA在單個A100 80GB GPU上能處理近...

193

Devika AI是印度Stition AI團隊推出的開源AI軟件開發(fā)工具，能理解并執(zhí)行復雜的人類指令，將其分解為步驟，進行研究和信息搜集，最終編寫代碼以實現目標。Devika AI提供AI結對編程，致力于革新軟件開發(fā)流程，...

299

Qwen2VL-Flux是多模態(tài)圖像生成模型，結合Qwen2VL的視覺語言理解和FLUX框架，基于文本提示和圖像參考生成高質量的圖像。模型支持多種生成模式，包括變體生成、圖像到圖像轉換、智能修復及ControlNet引導生成...

208

InfiMM-WebMath-40B 是字節(jié)跳動和中國科學院聯合開源的超大規(guī)模多模態(tài)數據集，旨在提升多模態(tài)模型的圖文混合推理能力，在數學領域。數據集從 Common Crawl 中提取，經過嚴格的篩選、清洗和標注，包含 24...