日韩极品在线,国产高清自产拍av在线,在线精品视频一区二区

TimeSuite 上海AI Lab推出的提升MLLMs在長視頻理解處理的設(shè)計框架

201

TimeSuite是上海AI Lab推出的新型框架，能提升多模態(tài)大型語言模型（MLLMs）在長視頻理解任務(wù)中的表現(xiàn)。基于引入高效的長視頻處理框架、高質(zhì)量的視頻數(shù)據(jù)集TimePro用在定位調(diào)整，及名為Temporal Grou...

Show-o 新加坡國立Show Lab聯(lián)合字節(jié)推出的多模態(tài)理解與生成的統(tǒng)一模型

209

Show-o是集成了多模態(tài)理解和生成的統(tǒng)一Transformer模型。通過結(jié)合自回歸和離散擴散建模，能靈活處理包括視覺問答、文本到圖像生成、文本引導(dǎo)的修復(fù)和擴展，混合模態(tài)生成在內(nèi)的廣泛視覺語言任務(wù)。Show-o模型在多模態(tài)理...

Wonder Animation 視頻序列轉(zhuǎn)換成3D動畫場景的AI解決方案

279

Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的創(chuàng)新 AI 技術(shù)，Wonder Animation測試版現(xiàn)已上線Wonder Studio。Wonder Animation...

MimicTalk 字節(jié)聯(lián)合浙大開源的基于NeRF技術(shù)，15分鐘生成3D說話人臉視頻模型

305

MimicTalk是浙江大學和字節(jié)跳動共同研發(fā)推出的，基于NeRF（神經(jīng)輻射場）技術(shù)，能在極短的時間內(nèi)，僅需15分鐘訓練出個性化和富有表現(xiàn)力的3D說話人臉模型。MimicTalk提高了訓練效率，基于高效的微調(diào)策略和具有上下文...

Red_Panda Recraft推出的AI圖像生成模型

223

Red_Panda 是 Recraft V3 在發(fā)布初期使用的化名，是Recraft AI推出的先進AI圖像生成模型，以卓越的性能在圖像生成領(lǐng)域樹立新標準。在Hugging Face的Text-to-Image Benchm...

D-Edit 基于圖像、文本、掩碼的多功能圖像編輯框架

187

D-Edit是基于圖像和文本的多功能圖像編輯框架，基于預(yù)訓練的擴散模型和獨特的提示（prompts）實現(xiàn)對圖像中特定項目的精確控制和編輯。框架能處理包括基于圖像的編輯、基于文本的編輯、基于掩碼的編輯及項目移除等多種編輯任務(wù)。...

PromptFix 高度細節(jié)保留和指令遵循的圖像處理引導(dǎo)擴散模型

242

PromptFix是新型的指令引導(dǎo)擴散模型，結(jié)合語言模型和大規(guī)模視覺指令數(shù)據(jù)集，根據(jù)人類指令執(zhí)行多樣化的圖像處理任務(wù)。PromptFix基于構(gòu)建大規(guī)模的指令遵循數(shù)據(jù)集，提出高頻引導(dǎo)采樣方法和輔助提示適配器，增強對圖像高頻細節(jié)...

VtripGPT 視旅科技推出首個旅游領(lǐng)域的AI大模型

339

VtripGPT是視旅科技推出的專注于旅游領(lǐng)域的AI大模型，基于深度合成服務(wù)為旅游對話生成提供智能支持。模型基于Transformer架構(gòu)，結(jié)合旅游行業(yè)數(shù)據(jù)和常規(guī)知識進行增量預(yù)訓練，基于人工構(gòu)建的有監(jiān)督指令數(shù)據(jù)及對話數(shù)據(jù)進行...

GitHub Spark GitHub推出AI大模型編程產(chǎn)品，零代碼開發(fā)應(yīng)用

221

GitHub Spark是GitHub推出的AI大模型編程產(chǎn)品，支持GPT-4o、Claude Sonnet 3.5等四款編程模型。用戶無需任何代碼和部署環(huán)境，基于自然語言描述需求，能在桌面或移動端快速開發(fā)微應(yīng)用程序。Spa...

SimpleQA OpenAI開源的檢測大模型事實性基準測試的能力

207

SimpleQA是OpenAI推出的基準測試，用在評估大型語言模型回答簡短、尋求事實問題的能力。SimpleQA包含4326個問題，每個問題設(shè)計為只有一個正確答案，易于評分”。SimpleQA挑戰(zhàn)性強，即使是最先進的大模型如...