ShowUI是新加坡國立大學(xué)Show Lab和微軟共同推出的視覺-語言-行動模型,能提升圖形用戶界面(GUI)助手的工作效率。模型基于UI引導(dǎo)的視覺令牌選擇減少計算成本,用交錯視覺-語言-行動流統(tǒng)一GUI任務(wù)中的多樣化需求,...
-
-
SAM 2.1(全稱Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先進(jìn)視覺分割模型,用于圖像和視頻。基于簡單的Transformer架構(gòu)和流式記憶設(shè)計,實現(xiàn)實時視頻處理。S...
-
QwQ-32B-Preview(QwQ-32B)是阿里推出的開源AI推理模型,在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)卓越。QwQ-32B-Preview包含325億參數(shù),能處理長達(dá)32000個tokens的提示詞。在多個基準(zhǔn)測試中,包括GPQ...
-
Fancy123是華中科技大學(xué)和華南理工大學(xué)推出的3D網(wǎng)格生成技術(shù),基于即插即用的變形技術(shù)從單張圖片生成高質(zhì)量的3D網(wǎng)格。該方法包含兩個增強(qiáng)模塊和反投影操作,分別解決多視圖圖像的局部不一致性、提高網(wǎng)格對輸入圖像的保真度及確保...
-
Mooncake是月之暗面Kimi聯(lián)合清華大學(xué)等機(jī)構(gòu)共同開源的大模型推理架構(gòu)。采用以KVCache為中心的分布式架構(gòu),通過分離預(yù)填充和解碼集群,充分利用GPU集群中未充分利用的CPU、DRAM和SSD資源,實現(xiàn)高效的KVCa...
-
Sketch2Lineart是基于人工智能的繪畫工具,能將簡單的手繪草圖轉(zhuǎn)換成清晰的線條畫。通過自動生成草圖描述并據(jù)此繪制線條畫,支持調(diào)整細(xì)節(jié)適應(yīng)不同風(fēng)格。用戶只需上傳草圖,可在線預(yù)覽下載轉(zhuǎn)換后的線條畫。...
-
Find3D是加州理工學(xué)院推出的3D部件分割模型,能根據(jù)任意文本查詢分割任意對象的任何部分。Find3D用一個強(qiáng)大的數(shù)據(jù)引擎自動從互聯(lián)網(wǎng)上的3D資產(chǎn)生成訓(xùn)練數(shù)據(jù),并用對比訓(xùn)練方法訓(xùn)練一個可擴(kuò)展的3D模型。...
-
Optima是清華大學(xué)推出的優(yōu)化基于大型語言模型(LLM)的多智能體系統(tǒng)(MAS)的框架。基于一個迭代的生成、排名、選擇和訓(xùn)練范式,顯著提高通信效率和任務(wù)效果。Optima平衡了任務(wù)性能、令牌效率和通信可讀性,探索了多種強(qiáng)化...
-
MuCodec是清華大學(xué)深圳國際研究生院、騰訊AI實驗室和香港中文大學(xué)的研究人員共同推出的超低比特率音樂編解碼器,能實現(xiàn)音樂的高效壓縮與高保真重建。MuCodec基于MuEncoder提取音樂的聲學(xué)和語義特征,用RVQ技術(shù)進(jìn)...
-
SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設(shè)備端推理設(shè)計。以20億參數(shù)量,實現(xiàn)了高效內(nèi)存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同需求:SmolVLM-Base:適用于下游任務(wù)的微...










