GTA(a benchmark for General Tool Agents)是上海交通大學和上海AI實驗室共同推出的基準測試,評估大型語言模型(LLMs)在真實世界場景中調用工具的能力。GTA基于提供真實的用戶問題、真實...
-
-
OuteTTS是開源的文本到語音(TTS)項目,基于純語言建模的方法生成語音。OuteTTS項目基于LLaMa架構,用Oute3-350M-DEV基礎模型,擁有3.5億參數。OuteTTS具備音頻標記化、CTC強制對齊技術和...
-
Docling是開源的文檔解析和轉換工具,能高效地將多種格式的文檔(包括PDF、DOCX、PPTX、圖片和HTML)解析,導出為Markdown或JSON格式。Docling支持高級PDF理解、OCR功能,能與LlamaIn...
-
WebRL是清華大學、智譜AI聯合推出的自我進化的在線課程強化學習框架,訓練使用開放大型語言模型(LLMs)的高性能網絡代理。WebRL動態生成任務、結果監督獎勵模型(ORM)評估任務成功與否,及自適應強化學習策略,解決訓練...
-
Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver構建的瀏覽器AI智能助手,能理解任務意圖、執行網頁自動化任務,如數據抓取和網站自動化測試。Cerebellum將網頁瀏覽簡化為...
-
GameGen-X是香港科技大學、中國科學技術大學等機構研究人員推出的擴散變換器模型,用在生成和交互控制開放世界游戲視頻。模型能模擬游戲引擎功能,如創新角色、動態環境、復雜動作和多樣化事件,支持用戶用文本指令和鍵盤控制等多模...
-
Claude Computer Use是Anthropic公司為Claude 3.5 Sonnet和Claude 3.5 Haiku模型推出的新功能,支持AI模型Claude執行類似人類的電腦操作,如查看屏幕、移動光標、點擊...
-
MagicTailor 是專門為組件可控個性化設計的新框架,讓T2I模型在個性化過程中能夠精確控制。MagicTailor 基于兩個關鍵技術動態掩碼退化(DM-Deg)和雙流平衡(DS-Bal),解決語義污染和語義不平衡的挑...
-
Cofounder是開源的全棧AI開發代理,能幫助開發者基于單一提示自動生成完整的應用程序,包括后端、前端、數據庫和有狀態的Web應用。Cofounder基于生成式AI技術,提供基于應用架構的UI、AI引導的原型設計工具和模...
-
Hunyuan3D-1.0 是騰訊推出的一款3D生成模型,具備文本和圖像輸入條件,支持高質量的3D資產生成。該模型采用兩階段方法,首先使用多視角擴散模型生成多視角RGB圖像,然后利用基于Transformer的稀疏視角大規模...










