RTranslator 是一款開源、免費、離線實時翻譯應(yīng)用程序,專為 Android 設(shè)備設(shè)計。基于先進的AI技術(shù),包括 Meta 的 NLLB 翻譯模型和 OpenAI 的 Whisper 語音識別,實現(xiàn)高質(zhì)量的多語言翻譯...
-
-
Molmo 72B是由艾倫人工智能研究所(Ai2)推出的一個開源多模態(tài)AI模型,專門設(shè)計用于處理和理解圖像和文本數(shù)據(jù)。基于Qwen2-72B模型,使用OpenAI的CLIP作為視覺編碼器。Molmo 72B在多個學術(shù)基準測試...
-
CogView3是清華大學聯(lián)合智譜AI推出的開源AI圖像生成模型,采用中繼擴散技術(shù)。模型分階段生成圖像,首先創(chuàng)建低分辨率圖像,然后通過中繼超分辨率技術(shù)提升至高分辨率,提高生成效率并降低成本。CogView3在生成質(zhì)量和速度上...
-
Mini-LLaVA是一款輕量級的多模態(tài)大語言模型,由清華大學和北京航空航天大學的研究團隊聯(lián)合開發(fā)。能處理圖像、文本和視頻輸入,實現(xiàn)高效的多模態(tài)數(shù)據(jù)處理。Mini-LLaVA基于Llama 3.1模型,優(yōu)化了代碼結(jié)構(gòu),在單個...
-
Movie Gen 是 Meta 推出的一種新型AI工具,能根據(jù)文本提示生成和編輯視頻,為視頻配上同步音頻。技術(shù)包括創(chuàng)建長達16秒的高清視頻、為現(xiàn)有視頻配上音頻、編輯視頻以及基于照片制作定制視頻。...
-
MemoryScope是一個為大型語言模型(LLM)聊天機器人設(shè)計的長期記憶系統(tǒng)。通過構(gòu)建一個框架,使機器人記住用戶的基礎(chǔ)信息、習慣和偏好,提供個性化的交互體驗。MemoryScope具備記憶數(shù)據(jù)庫、核心worker庫和核心...
-
Phidias是一個先進的3D內(nèi)容生成模型,將檢索增強生成(RAG)的概念引入到3D建模領(lǐng)域。模型能基于用戶提供的或從大型數(shù)據(jù)庫中檢索到的3D參考模型,輔助生成新的3D內(nèi)容。...
-
Seed-VC 是一種零樣本聲音轉(zhuǎn)換技術(shù),基于上下文學習實現(xiàn)高質(zhì)量的音頻輸出和音色相似度。用戶無需進行特定訓練,只需提供1到30秒的參考語音樣本,實現(xiàn)聲音的克隆和轉(zhuǎn)換。...
-
JoyHallo 是京東開源的數(shù)字人模型,專為普通話設(shè)計,能根據(jù)音頻生成逼真的說話視頻。特別適合處理普通話的復(fù)雜口型和語調(diào),具有跨語言生成視頻的能力。...
-
AMD-135M是AMD推出的首款小型語言模型(SLM),為特定用例提供性能與資源消耗之間的平衡。基于LLaMA2模型架構(gòu),在AMD Instinct MI250加速器上訓練,基于670億個token,AMD-135M分為兩...










