GLM-Edge是智譜開源的一系列端側(cè)部署優(yōu)化的大語言對話模型和多模態(tài)理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5B /...
-
-
TryOffDiff(VTOFF)是基于擴散模型的新型虛擬試穿技術(shù),用高保真服裝重建實現(xiàn)虛擬試穿,專注于從單張穿著者照片生成標準化的服裝圖像。與傳統(tǒng)的Virtual Try-On技術(shù)不同,TryOffDiff的目標是從參考圖...
-
GLM-PC是智譜科技基于CogAgent視覺多模態(tài)模型開發(fā)的通用Agent,能模擬人類操作計算機,實現(xiàn)“無人駕駛”PC的技術(shù)探索。GLM-PC能執(zhí)行預定會議、文檔處理、網(wǎng)頁搜索總結(jié)等任務,并支持遠程和定時操作。GLM-PC...
-
Voice-Pro是開源的多功能音頻處理工具,集成語音轉(zhuǎn)文字(STT)、文本轉(zhuǎn)語音(TTS)、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言,適用于教育、娛樂和商業(yè)等多個領(lǐng)域,為用戶提供一站式...
-
Generative Omnimatte 是 Google DeepMind 等機構(gòu)推出的視頻編輯技術(shù),能將視頻智能分解為多個透明背景的RGBA圖層,每個圖層對應一個物體及其相關(guān)效果(如陰影、反射等)。這項技術(shù)無需綠幕或深度...
-
CodeDPO是北京大學與字節(jié)跳動合作推出的代碼生成優(yōu)化框架,能提升代碼模型在正確性和效率方面的表現(xiàn)。框架基于自生成和驗證機制,同時構(gòu)建和評估代碼及其測試用例,用PageRank算法迭代更新代碼片段的排名,最終形成基于正確性...
-
Diffusion Self-Distillation(DSD)是創(chuàng)新的零樣本定制圖像生成技術(shù),用預訓練的文本到圖像擴散模型自動生成數(shù)據(jù)集,并將其微調(diào)為能進行文本條件的圖像到圖像任務的模型。Diffusion Self-Di...
-
Open Materials 2024 (OMat24 是Meta推出的包含超過1.1億個結(jié)構(gòu)的密度泛函理論(DFT 計算的大型開放數(shù)據(jù)集,專注于無機材料的結(jié)構(gòu)和成分多樣性。附帶預訓練的圖神經(jīng)網(wǎng)絡(luò)模型EquiformerV...
-
Talker-Reasoner是谷歌DeepMind推出的AI代理架構(gòu),借鑒人類的認知理論,將代理分為兩個模塊:Talker和Reasoner。Talker模擬人類的快速直覺思維(System 1),處理即時對話和反應;Re...
-
EMOVA(EMotionally Omni-present Voice Assistant)是多模態(tài)全能模型,是香港科技大學、香港大學和華為諾亞方舟實驗室等機構(gòu)共同推出的。EMOVA能處理圖像、文本和語音模態(tài),實現(xiàn)能看、能...










