Vidi2是字節跳動推出的專注于視頻理解和創作的多模態大語言模型。在多模態時間檢索(TR)方面達到了行業領先水平,在時空定位(STG)和視頻問答(Video QA)方面取得了顯著進展。Vidi2能根據文本查詢,不僅識別出視頻...
-
-
Gen-4.5 是RunWay推出的視頻生成模型,模型在視頻生成的運動質量、視覺逼真度和提示詞遵循度等方面樹立新的行業標準。Gen-4.5 能生成電影級、極為逼真的畫面,同時提供無限的創作自由和精確的控制能力。...
-
可靈O1(可靈視頻 O1 模型)是可靈AI推出的全球首個統一多模態視頻生成模型。模型通過創新的多模態視覺語言(MVL)架構,實現視頻生成、編輯與理解的無縫融合。...
-
GELab-Zero 是 StepFun 開發的開源 GUI Agent 模型,專注于移動設備的自動化交互和任務執行。具備本地可部署能力,支持在消費級硬件上運行 4B 模型,確保低延遲和隱私保護。GELab-Zero 提供一...
-
Ito是開源的智能語音聽寫工具,通過其獨特的“VibeTyping”技術,將用戶的口語意圖轉換為精美文本。支持在郵件客戶端、文檔、聊天平臺、瀏覽器和代碼編輯器等各類應用程序中使用,提供可自定義的全局鍵盤快捷鍵和即時文本插入功...
-
StepAudio R1 是階躍星辰團隊推出的全球首個開源原生音頻推理模型。模型通過創新的模態錨定推理蒸餾(MGRD)框架,解決了傳統音頻模型在復雜推理中性能下降的問題,真正實現基于聲學特征的深度推理。...
-
Depth Anything 3(DA3)是字節跳動Seed團隊推出的視覺空間重建模型,通過單一Transformer架構實現從任意視角的視覺輸入中恢復三維空間幾何結構。...
-
DeepSeek-Math-V2 是 DeepSeek 團隊推出的開源數學推理模型,能實現自我驗證的數學推理。模型關注答案正確性,注重推理過程的嚴謹性。...
-
Z-Image 是阿里通義推出的圖像生成模型,具有6B參數。模型包含三個變體:Z-Image-Turbo、Z-Image-Base 和 Z-Image-Edit,分別擅長快速推理、基礎開發和圖像編輯。...
-
HunyuanOCR 是騰訊混元團隊推出的開源的端到端OCR視覺語言模型。依托混元原生多模態架構,僅用1B參數就實現了多項OCR任務的SOTA性能。具備高效輕量的架構,單指令單推理即可輸出最優結果,相比傳統級聯方案更便捷高效...










