www.亚洲免费av,精品国产亚洲一区二区三区在线,人在线成免费视频

ShowUI 新加坡國立聯(lián)合微軟推出用于 GUI 自動化的視覺-語言-操作模型

223

ShowUI是新加坡國立大學(xué)Show Lab和微軟共同推出的視覺-語言-行動模型，能提升圖形用戶界面（GUI）助手的工作效率。模型基于UI引導(dǎo)的視覺令牌選擇減少計算成本，用交錯視覺-語言-行動流統(tǒng)一GUI任務(wù)中的多樣化需求，...

SAM 2.1 Meta 開源的視覺分割模型

200

SAM 2.1（全稱Segment Anything Model 2.1）是Meta（Facebook的母公司）推出的先進(jìn)視覺分割模型，用于圖像和視頻。基于簡單的Transformer架構(gòu)和流式記憶設(shè)計，實現(xiàn)實時視頻處理。S...

QwQ-32B-Preview 阿里開源的AI推理模型，基準(zhǔn)測試超越 o1 模型

225

QwQ-32B-Preview（QwQ-32B）是阿里推出的開源AI推理模型，在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)卓越。QwQ-32B-Preview包含325億參數(shù)，能處理長達(dá)32000個tokens的提示詞。在多個基準(zhǔn)測試中，包括GPQ...

Fancy123 華中科技和華南理工推出的3D網(wǎng)格生成技術(shù)

203

Fancy123是華中科技大學(xué)和華南理工大學(xué)推出的3D網(wǎng)格生成技術(shù)，基于即插即用的變形技術(shù)從單張圖片生成高質(zhì)量的3D網(wǎng)格。該方法包含兩個增強(qiáng)模塊和反投影操作，分別解決多視圖圖像的局部不一致性、提高網(wǎng)格對輸入圖像的保真度及確保...

Mooncake 月之暗面Kimi聯(lián)合清華等機(jī)構(gòu)推出的大模型推理架構(gòu)

236

Mooncake是月之暗面Kimi聯(lián)合清華大學(xué)等機(jī)構(gòu)共同開源的大模型推理架構(gòu)。采用以KVCache為中心的分布式架構(gòu)，通過分離預(yù)填充和解碼集群，充分利用GPU集群中未充分利用的CPU、DRAM和SSD資源，實現(xiàn)高效的KVCa...

Sketch2Lineart AI繪畫工具，自動將手繪草圖轉(zhuǎn)換成清晰的線條畫

251

Sketch2Lineart是基于人工智能的繪畫工具，能將簡單的手繪草圖轉(zhuǎn)換成清晰的線條畫。通過自動生成草圖描述并據(jù)此繪制線條畫，支持調(diào)整細(xì)節(jié)適應(yīng)不同風(fēng)格。用戶只需上傳草圖，可在線預(yù)覽下載轉(zhuǎn)換后的線條畫。...

Find3D 加州理工學(xué)院推出的3D部件分割模型

180

Find3D是加州理工學(xué)院推出的3D部件分割模型，能根據(jù)任意文本查詢分割任意對象的任何部分。Find3D用一個強(qiáng)大的數(shù)據(jù)引擎自動從互聯(lián)網(wǎng)上的3D資產(chǎn)生成訓(xùn)練數(shù)據(jù)，并用對比訓(xùn)練方法訓(xùn)練一個可擴(kuò)展的3D模型。...

Optima 清華聯(lián)合北郵推出優(yōu)化通信效率和任務(wù)有效性的訓(xùn)練框架

259

Optima是清華大學(xué)推出的優(yōu)化基于大型語言模型（LLM）的多智能體系統(tǒng)（MAS）的框架。基于一個迭代的生成、排名、選擇和訓(xùn)練范式，顯著提高通信效率和任務(wù)效果。Optima平衡了任務(wù)性能、令牌效率和通信可讀性，探索了多種強(qiáng)化...

MuCodec 清華、騰訊AI、港中文共同推出的超低比特率音樂編解碼器

265

MuCodec是清華大學(xué)深圳國際研究生院、騰訊AI實驗室和香港中文大學(xué)的研究人員共同推出的超低比特率音樂編解碼器，能實現(xiàn)音樂的高效壓縮與高保真重建。MuCodec基于MuEncoder提取音樂的聲學(xué)和語義特征，用RVQ技術(shù)進(jìn)...

SmolVLM Hugging Face推出的輕量級視覺語言模型

225

SmolVLM是Hugging Face推出的輕量級視覺語言模型，專為設(shè)備端推理設(shè)計。以20億參數(shù)量，實現(xiàn)了高效內(nèi)存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同需求：SmolVLM-Base：適用于下游任務(wù)的微...