TimeSuite是上海AI Lab推出的新型框架,能提升多模態(tài)大型語言模型(MLLMs)在長視頻理解任務(wù)中的表現(xiàn)。基于引入高效的長視頻處理框架、高質(zhì)量的視頻數(shù)據(jù)集TimePro用在定位調(diào)整,及名為Temporal Grou...
-
-
Show-o是集成了多模態(tài)理解和生成的統(tǒng)一Transformer模型。通過結(jié)合自回歸和離散擴散建模,能靈活處理包括視覺問答、文本到圖像生成、文本引導(dǎo)的修復(fù)和擴展,混合模態(tài)生成在內(nèi)的廣泛視覺語言任務(wù)。Show-o模型在多模態(tài)理...
-
Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的創(chuàng)新 AI 技術(shù),Wonder Animation測試版現(xiàn)已上線Wonder Studio。Wonder Animation...
-
MimicTalk是浙江大學和字節(jié)跳動共同研發(fā)推出的,基于NeRF(神經(jīng)輻射場)技術(shù),能在極短的時間內(nèi),僅需15分鐘訓練出個性化和富有表現(xiàn)力的3D說話人臉模型。MimicTalk提高了訓練效率,基于高效的微調(diào)策略和具有上下文...
-
Red_Panda 是 Recraft V3 在發(fā)布初期使用的化名,是Recraft AI推出的先進AI圖像生成模型,以卓越的性能在圖像生成領(lǐng)域樹立新標準。在Hugging Face的Text-to-Image Benchm...
-
D-Edit是基于圖像和文本的多功能圖像編輯框架,基于預(yù)訓練的擴散模型和獨特的提示(prompts)實現(xiàn)對圖像中特定項目的精確控制和編輯。框架能處理包括基于圖像的編輯、基于文本的編輯、基于掩碼的編輯及項目移除等多種編輯任務(wù)。...
-
PromptFix是新型的指令引導(dǎo)擴散模型,結(jié)合語言模型和大規(guī)模視覺指令數(shù)據(jù)集,根據(jù)人類指令執(zhí)行多樣化的圖像處理任務(wù)。PromptFix基于構(gòu)建大規(guī)模的指令遵循數(shù)據(jù)集,提出高頻引導(dǎo)采樣方法和輔助提示適配器,增強對圖像高頻細節(jié)...
-
VtripGPT是視旅科技推出的專注于旅游領(lǐng)域的AI大模型,基于深度合成服務(wù)為旅游對話生成提供智能支持。模型基于Transformer架構(gòu),結(jié)合旅游行業(yè)數(shù)據(jù)和常規(guī)知識進行增量預(yù)訓練,基于人工構(gòu)建的有監(jiān)督指令數(shù)據(jù)及對話數(shù)據(jù)進行...
-
GitHub Spark是GitHub推出的AI大模型編程產(chǎn)品,支持GPT-4o、Claude Sonnet 3.5等四款編程模型。用戶無需任何代碼和部署環(huán)境,基于自然語言描述需求,能在桌面或移動端快速開發(fā)微應(yīng)用程序。Spa...
-
SimpleQA是OpenAI推出的基準測試,用在評估大型語言模型回答簡短、尋求事實問題的能力。SimpleQA包含4326個問題,每個問題設(shè)計為只有一個正確答案,易于評分”。SimpleQA挑戰(zhàn)性強,即使是最先進的大模型如...










