MyTimeMachine(MyTM)是先進(jìn)的個(gè)性化面部年齡轉(zhuǎn)換技術(shù),基于大約50張個(gè)人照片,跨越20至40年的時(shí)間跨度,訓(xùn)練一個(gè)適配器網(wǎng)絡(luò)個(gè)性化預(yù)訓(xùn)練的全局老化模型。MyTimeMachine能實(shí)現(xiàn)高質(zhì)量的年齡回退和年齡進(jìn)...
-
-
Co-op Translator是微軟推出的開源翻譯工具,基于Azure AI服務(wù)實(shí)現(xiàn)項(xiàng)目文檔和圖像中文本的自動(dòng)化多語言翻譯。僅需一條命令,Co-op Translator能分析項(xiàng)目內(nèi)容,生成組織良好的多語言翻譯文件夾結(jié)構(gòu),...
-
MultiFoley是Adobe Research和密歇根大學(xué)共同推出的音效生成系統(tǒng),能基于文本、音頻和視頻的多模態(tài)控制生成Foley聲音效果。系統(tǒng)支持用戶根據(jù)文本提示、參考音頻或部分視頻來定制和生成與視頻同步的聲音,從而增...
-
Make-It-Animatable是中國科學(xué)技術(shù)大學(xué)和Tencent PCG推出的數(shù)據(jù)驅(qū)動(dòng)框架,能在不到一秒鐘內(nèi)讓任何3D人形模型準(zhǔn)備好進(jìn)行角色動(dòng)畫狀態(tài),無論其形狀和姿勢如何。框架基于生成高質(zhì)量的混合權(quán)重、骨骼和姿勢變換,...
-
CAT4D是Google DeepMind、哥倫比亞大學(xué)和加州大學(xué)圣地亞哥分校共同推出的,能從單目視頻創(chuàng)建4D場景(動(dòng)態(tài)3D)表示。CAT4D基于多視圖視頻擴(kuò)散模型,能在任意指定的相機(jī)姿態(tài)和時(shí)間點(diǎn)合成新視圖,并將單目視頻轉(zhuǎn)換...
-
Magic Copy是開源的摳圖工具,支持Chrome瀏覽器擴(kuò)展,基于Meta的Segment Anything Model技術(shù),從圖像中自動(dòng)識(shí)別并提取前景對(duì)象,并將對(duì)象復(fù)制到用戶的剪貼板中。Magic Copy簡化了從圖片...
-
Delta-CoMe是清華大學(xué)NLP實(shí)驗(yàn)室聯(lián)合OpenBMB開源社區(qū)、北京大學(xué)和上海財(cái)經(jīng)大學(xué)提出的新型增量壓縮算法,一個(gè)80G的A100 GPU能輕松加載多達(dá)50個(gè)7B模型,節(jié)省顯存約8倍,同時(shí)模型性能幾乎與壓縮前的微調(diào)模型...
-
NSFW Detector(Not Safe For Work,簡稱 NSFW)是開源的檢測不適宜內(nèi)容工具,NSFW Detector能識(shí)別圖像、PDF、視頻文件中的不適宜內(nèi)容。工具基于Google的vit-base-pat...
-
Agent-E是基于AutoGen代理框架構(gòu)建的智能自動(dòng)化系統(tǒng),專注于瀏覽器內(nèi)的自動(dòng)化操作。Agent-E基于自然語言交互,能執(zhí)行填寫表單、搜索排序電商產(chǎn)品、定位網(wǎng)頁內(nèi)容、管理網(wǎng)絡(luò)媒體播放、進(jìn)行深度網(wǎng)絡(luò)搜索、自動(dòng)化項(xiàng)目管理任...
-
FlagEvalMM是北京智源人工智能研究院開源的多模態(tài)模型評(píng)測框架,能全面評(píng)估處理文本、圖像、視頻等多種模態(tài)的模型,支持多種任務(wù)和指標(biāo)。框架采用評(píng)測與模型推理解耦的設(shè)計(jì),統(tǒng)一視覺語言模型、文生圖、文生視頻和圖文檢索等多種模...










