ViewExtrapolator是南洋理工大學、UCAS研究團隊共同推出的新視角外推方法,基于穩定視頻擴散(Stable Video Diffusion, SVD)的生成先驗合成遠超出訓練視圖范圍的新視角。這種方法基于重新設...
-
-
DynaSaur是Adobe Research推出的大型語言模型(LLM)代理框架,突破傳統LLM代理系統受限于預定義動作集合的限制。框架支持代理動態創建和組合動作,基于生成和執行Python代碼與環境互動,實現更靈活的問題...
-
Edify 3D 是 NVIDIA 推出的先進3D資產生成方案,能從文本提示或參考圖像快速合成高質量的3D模型。Edify 3D能在兩分鐘內生成具有詳細幾何形狀、清晰拓撲結構、高分辨率紋理和PBR材質的3D資產,支持視頻游戲...
-
XGrammar是由陳天奇團隊推出的開源軟件庫,能為大型語言模型(LLM)提供高效、靈活且可移植的結構化數據生成能力。基于上下文無關語法(CFG)定義結構,支持遞歸組合以表示復雜結構,適合生成JSON、SQL等格式數據。XG...
-
LongRAG是清華大學、中國科學院和智譜的研究團隊推出的,面向長文本問答(LCQA)的雙視角魯棒檢索增強生成(RAG)框架。基于混合檢索器、LLM增強信息提取器、CoT引導過濾器和LLM增強生成器四個組件,有效解決長文本問...
-
Illustrious是開源的文本到圖像動漫圖像生成模型,是Onoma AI Research推出的。基于優化批量大小、dropout控制、訓練圖像分辨率和多級標題等關鍵方法,實現高分辨率、動態色域和高還原能力的圖像生成。模...
-
aisuite是開源的Python庫,吳恩達(Andrew Ng)發布的,旨在提供一個統一的接口來調用多個大型語言模型(LLM)服務。支持包括OpenAI、Anthropic、Azure等在內的11個模型平臺,開發者能輕松切...
-
Pangea是卡內基梅隆大學團隊推出的多語言多模態大型語言模型(LLM),能提升全球語言和文化多樣性的覆蓋。模型包含600萬條指令的多樣化數據集,支持39種語言,包含高質量英文指令、機器翻譯指令及文化相關任務。Pangea基...
-
MobA(Mobile Agent)是上海交通大學團隊推出的新型移動智能體,基于多模態大型語言模型(MLLMs)提升移動設備的自動化任務執行能力。MobA采用兩級架構:高級全局智能體(GA)負責理解用戶指令、管理歷史記錄和規...
-
Fugatto是英偉達(NVIDIA)推出的音頻合成和轉換模型,全稱為"Foundational Generative Audio Transformer Opus 1"。模型能根據文本提示生成音頻或視頻...










