sis001亚洲原创区,丰满少妇久久久久久久,国产毛片一区二区三区

GLM-Edge 智譜開源的端側(cè)大語言和多模態(tài)系列模型

387

GLM-Edge是智譜開源的一系列端側(cè)部署優(yōu)化的大語言對話模型和多模態(tài)理解模型，包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5B /...

TryOffDiff AI虛擬試穿技術(shù)，單張穿著者圖片生成標準化服裝圖像

328

TryOffDiff（VTOFF）是基于擴散模型的新型虛擬試穿技術(shù)，用高保真服裝重建實現(xiàn)虛擬試穿，專注于從單張穿著者照片生成標準化的服裝圖像。與傳統(tǒng)的Virtual Try-On技術(shù)不同，TryOffDiff的目標是從參考圖...

GLM-PC 智譜推出的電腦智能體，基于CogAgent視覺多模態(tài)模型構(gòu)建

556

GLM-PC是智譜科技基于CogAgent視覺多模態(tài)模型開發(fā)的通用Agent，能模擬人類操作計算機，實現(xiàn)“無人駕駛”PC的技術(shù)探索。GLM-PC能執(zhí)行預定會議、文檔處理、網(wǎng)頁搜索總結(jié)等任務，并支持遠程和定時操作。GLM-PC...

Voice-Pro 開源AI音頻處理工具，集成轉(zhuǎn)錄、翻譯、TTS等一站式服務

467

Voice-Pro是開源的多功能音頻處理工具，集成語音轉(zhuǎn)文字（STT）、文本轉(zhuǎn)語音（TTS）、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言，適用于教育、娛樂和商業(yè)等多個領(lǐng)域，為用戶提供一站式...

Generative Omnimatte 谷歌聯(lián)合馬里蘭大學等機構(gòu)推出的視頻分解技術(shù)

294

Generative Omnimatte 是 Google DeepMind 等機構(gòu)推出的視頻編輯技術(shù)，能將視頻智能分解為多個透明背景的RGBA圖層，每個圖層對應一個物體及其相關(guān)效果（如陰影、反射等）。這項技術(shù)無需綠幕或深度...

CodeDPO 北京大學聯(lián)合字節(jié)共同推出的代碼生成優(yōu)化框架

240

CodeDPO是北京大學與字節(jié)跳動合作推出的代碼生成優(yōu)化框架，能提升代碼模型在正確性和效率方面的表現(xiàn)。框架基于自生成和驗證機制，同時構(gòu)建和評估代碼及其測試用例，用PageRank算法迭代更新代碼片段的排名，最終形成基于正確性...

Diffusion Self-Distillation 斯坦福大學推出的零樣本定制圖像生成技術(shù)

214

Diffusion Self-Distillation（DSD）是創(chuàng)新的零樣本定制圖像生成技術(shù)，用預訓練的文本到圖像擴散模型自動生成數(shù)據(jù)集，并將其微調(diào)為能進行文本條件的圖像到圖像任務的模型。Diffusion Self-Di...

Open Materials 2024 Meta 開源的大型開放數(shù)據(jù)集和配套預訓練模型

342

Open Materials 2024 (OMat24 是Meta推出的包含超過1.1億個結(jié)構(gòu)的密度泛函理論(DFT 計算的大型開放數(shù)據(jù)集，專注于無機材料的結(jié)構(gòu)和成分多樣性。附帶預訓練的圖神經(jīng)網(wǎng)絡(luò)模型EquiformerV...

Talker-Reasoner 谷歌DeepMind推出的雙思維AI代理架構(gòu)

219

Talker-Reasoner是谷歌DeepMind推出的AI代理架構(gòu)，借鑒人類的認知理論，將代理分為兩個模塊：Talker和Reasoner。Talker模擬人類的快速直覺思維（System 1），處理即時對話和反應；Re...

EMOVA 華為諾亞方舟聯(lián)合多所高校共同推出的多模態(tài)全能處理模型

247

EMOVA（EMotionally Omni-present Voice Assistant）是多模態(tài)全能模型，是香港科技大學、香港大學和華為諾亞方舟實驗室等機構(gòu)共同推出的。EMOVA能處理圖像、文本和語音模態(tài)，實現(xiàn)能看、能...