AgentSquare是清華大學(xué)團(tuán)隊(duì)推出自動(dòng)搜索和優(yōu)化大型語言模型(LLM)代理的框架?;跇?biāo)準(zhǔn)化的模塊接口抽象,實(shí)現(xiàn)AI智能體的高速自我演化和自適應(yīng)演進(jìn)。框架包含任務(wù)規(guī)劃、常識推理、工具使用和記憶學(xué)習(xí)四個(gè)核心模塊,支持智能...
-
-
CogSound是智譜AI最新推出的音效模型,能為無聲視頻增添動(dòng)人的音效。 基于GLM-4V的視頻理解能力,CogSound能精準(zhǔn)識別理解視頻背后的語義和情感,為無聲視頻添加與之相匹配的音頻內(nèi)容,可以生成更復(fù)雜的音效,如爆炸...
-
Olly.bot是集成于iMessage和SMS的個(gè)人AI助手,基于OpenAI大模型,提供網(wǎng)絡(luò)搜索、文檔分析、圖片生成等功能。Olly.bot無需下載、注冊,不收集用戶身份信息,保護(hù)隱私。支持iOS、macOS、Andro...
-
Fashion-VDM是谷歌和華盛頓大學(xué)共同推出的基于視頻擴(kuò)散模型(VDM)的虛擬試穿技術(shù)。能在給定服裝圖像和人物視頻的情況下,生成人物穿著指定服裝的高質(zhì)量試穿視頻,保留人物的身份和動(dòng)作。Fashion-VDM基于擴(kuò)散模型架...
-
Ichigo是開源的多模態(tài)AI語音助手,采用混合模態(tài)模型,能實(shí)時(shí)處理語音和文本的交織序列?;趯⒄Z音直接量化為離散令牌,用統(tǒng)一的變換器架構(gòu)同時(shí)處理語音和文本,實(shí)現(xiàn)跨模態(tài)的聯(lián)合推理和生成。...
-
Recraft V3是Recraft公司推出的AI文本到圖像生成模型,在Hugging Face的文本到圖像模型排行榜上以1172的ELO評分榮獲第一。模型具有高質(zhì)量的圖像生成和先進(jìn)的設(shè)計(jì)控制功能,支持用戶精確定位文本和元素...
-
Magentic-One 是微軟推出的通用多智能體系統(tǒng),解決跨領(lǐng)域的復(fù)雜網(wǎng)絡(luò)和文件任務(wù)。系統(tǒng)基于多智能體架構(gòu),由Orchestrator智能體領(lǐng)導(dǎo),協(xié)調(diào)WebSurfer、FileSurfer、Coder和ComputerT...
-
X-Portrait 2是字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)推出的單圖視頻驅(qū)動(dòng)技術(shù),基于一張靜態(tài)照片和一段驅(qū)動(dòng)視頻生成高質(zhì)量、電影級視頻。X-Portrait 2保留原圖身份特征,準(zhǔn)確捕捉細(xì)微表情和情緒,實(shí)現(xiàn)跨風(fēng)格動(dòng)作遷移,適用于寫實(shí)人像...
-
VQAScore是CMU和Meta聯(lián)合推出的評估方法,基于視覺問答(VQA)模型衡量由文本提示生成的圖像質(zhì)量。VQAScore用計(jì)算模型對“Does this figure show {text}?”這一問題回答“是”的概率...
-
AndroidLab是用在訓(xùn)練和系統(tǒng)評估Android自主代理的框架,集成文本和圖像模態(tài)操作環(huán)境,統(tǒng)一行動(dòng)空間和可重現(xiàn)基準(zhǔn)測試。AndroidLab支持大型語言模型和多模態(tài)模型,包含138個(gè)任務(wù),覆蓋九個(gè)應(yīng)用。基于Andro...










