Vidi2是字節(jié)跳動(dòng)推出的專注于視頻理解和創(chuàng)作的多模態(tài)大語(yǔ)言模型。在多模態(tài)時(shí)間檢索(TR)方面達(dá)到了行業(yè)領(lǐng)先水平,在時(shí)空定位(STG)和視頻問(wèn)答(Video QA)方面取得了顯著進(jìn)展。Vidi2能根據(jù)文本查詢,不僅識(shí)別出視頻...
-
-
Gen-4.5 是RunWay推出的視頻生成模型,模型在視頻生成的運(yùn)動(dòng)質(zhì)量、視覺(jué)逼真度和提示詞遵循度等方面樹立新的行業(yè)標(biāo)準(zhǔn)。Gen-4.5 能生成電影級(jí)、極為逼真的畫面,同時(shí)提供無(wú)限的創(chuàng)作自由和精確的控制能力。...
-
可靈O1(可靈視頻 O1 模型)是可靈AI推出的全球首個(gè)統(tǒng)一多模態(tài)視頻生成模型。模型通過(guò)創(chuàng)新的多模態(tài)視覺(jué)語(yǔ)言(MVL)架構(gòu),實(shí)現(xiàn)視頻生成、編輯與理解的無(wú)縫融合。...
-
GELab-Zero 是 StepFun 開發(fā)的開源 GUI Agent 模型,專注于移動(dòng)設(shè)備的自動(dòng)化交互和任務(wù)執(zhí)行。具備本地可部署能力,支持在消費(fèi)級(jí)硬件上運(yùn)行 4B 模型,確保低延遲和隱私保護(hù)。GELab-Zero 提供一...
-
Ito是開源的智能語(yǔ)音聽寫工具,通過(guò)其獨(dú)特的“VibeTyping”技術(shù),將用戶的口語(yǔ)意圖轉(zhuǎn)換為精美文本。支持在郵件客戶端、文檔、聊天平臺(tái)、瀏覽器和代碼編輯器等各類應(yīng)用程序中使用,提供可自定義的全局鍵盤快捷鍵和即時(shí)文本插入功...
-
StepAudio R1 是階躍星辰團(tuán)隊(duì)推出的全球首個(gè)開源原生音頻推理模型。模型通過(guò)創(chuàng)新的模態(tài)錨定推理蒸餾(MGRD)框架,解決了傳統(tǒng)音頻模型在復(fù)雜推理中性能下降的問(wèn)題,真正實(shí)現(xiàn)基于聲學(xué)特征的深度推理。...
-
Depth Anything 3(DA3)是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)推出的視覺(jué)空間重建模型,通過(guò)單一Transformer架構(gòu)實(shí)現(xiàn)從任意視角的視覺(jué)輸入中恢復(fù)三維空間幾何結(jié)構(gòu)。...
-
DeepSeek-Math-V2 是 DeepSeek 團(tuán)隊(duì)推出的開源數(shù)學(xué)推理模型,能實(shí)現(xiàn)自我驗(yàn)證的數(shù)學(xué)推理。模型關(guān)注答案正確性,注重推理過(guò)程的嚴(yán)謹(jǐn)性。...
-
Z-Image 是阿里通義推出的圖像生成模型,具有6B參數(shù)。模型包含三個(gè)變體:Z-Image-Turbo、Z-Image-Base 和 Z-Image-Edit,分別擅長(zhǎng)快速推理、基礎(chǔ)開發(fā)和圖像編輯。...
-
HunyuanOCR 是騰訊混元團(tuán)隊(duì)推出的開源的端到端OCR視覺(jué)語(yǔ)言模型。依托混元原生多模態(tài)架構(gòu),僅用1B參數(shù)就實(shí)現(xiàn)了多項(xiàng)OCR任務(wù)的SOTA性能。具備高效輕量的架構(gòu),單指令單推理即可輸出最優(yōu)結(jié)果,相比傳統(tǒng)級(jí)聯(lián)方案更便捷高效...










