欧美韩国亚洲,2019国产精品,国产一区二区不卡老阿姨

RTranslator 開源的離線、實時、多語言翻譯應(yīng)用程序

3.1K

RTranslator 是一款開源、免費、離線實時翻譯應(yīng)用程序，專為 Android 設(shè)備設(shè)計。基于先進的AI技術(shù)，包括 Meta 的 NLLB 翻譯模型和 OpenAI 的 Whisper 語音識別，實現(xiàn)高質(zhì)量的多語言翻譯...

Molmo 72B 開源的多模態(tài)AI模型，基于Qwen2-72B模型，超越Llama 3.2

564

Molmo 72B是由艾倫人工智能研究所（Ai2）推出的一個開源多模態(tài)AI模型，專門設(shè)計用于處理和理解圖像和文本數(shù)據(jù)。基于Qwen2-72B模型，使用OpenAI的CLIP作為視覺編碼器。Molmo 72B在多個學術(shù)基準測試...

CogView3 智譜AI推出的開源AI圖像生成模型

995

CogView3是清華大學聯(lián)合智譜AI推出的開源AI圖像生成模型，采用中繼擴散技術(shù)。模型分階段生成圖像，首先創(chuàng)建低分辨率圖像，然后通過中繼超分辨率技術(shù)提升至高分辨率，提高生成效率并降低成本。CogView3在生成質(zhì)量和速度上...

Mini-LLaVA 基于Llama 3.1的輕量級多模態(tài)大語言模型

1.1K

Mini-LLaVA是一款輕量級的多模態(tài)大語言模型，由清華大學和北京航空航天大學的研究團隊聯(lián)合開發(fā)。能處理圖像、文本和視頻輸入，實現(xiàn)高效的多模態(tài)數(shù)據(jù)處理。Mini-LLaVA基于Llama 3.1模型，優(yōu)化了代碼結(jié)構(gòu)，在單個...

Movie Gen Meta推出文本驅(qū)動的AI視頻生成與編輯工具

1.3K

Movie Gen 是 Meta 推出的一種新型AI工具，能根據(jù)文本提示生成和編輯視頻，為視頻配上同步音頻。技術(shù)包括創(chuàng)建長達16秒的高清視頻、為現(xiàn)有視頻配上音頻、編輯視頻以及基于照片制作定制視頻。...

MemoryScope 為LLM聊天機器人配備的長期記憶系統(tǒng)

1.2K

MemoryScope是一個為大型語言模型（LLM）聊天機器人設(shè)計的長期記憶系統(tǒng)。通過構(gòu)建一個框架，使機器人記住用戶的基礎(chǔ)信息、習慣和偏好，提供個性化的交互體驗。MemoryScope具備記憶數(shù)據(jù)庫、核心worker庫和核心...

Phidias 檢索增強的3D內(nèi)容生成模型，支持多模態(tài)輸入

1.2K

Phidias是一個先進的3D內(nèi)容生成模型，將檢索增強生成（RAG）的概念引入到3D建模領(lǐng)域。模型能基于用戶提供的或從大型數(shù)據(jù)庫中檢索到的3D參考模型，輔助生成新的3D內(nèi)容。...

Seed-VC 零樣本實現(xiàn)聲音克隆和轉(zhuǎn)換的技術(shù)

1.6K

Seed-VC 是一種零樣本聲音轉(zhuǎn)換技術(shù)，基于上下文學習實現(xiàn)高質(zhì)量的音頻輸出和音色相似度。用戶無需進行特定訓練，只需提供1到30秒的參考語音樣本，實現(xiàn)聲音的克隆和轉(zhuǎn)換。...

JoyHallo 京東推出音頻驅(qū)動視頻生成的數(shù)字人模型

593

JoyHallo 是京東開源的數(shù)字人模型，專為普通話設(shè)計，能根據(jù)音頻生成逼真的說話視頻。特別適合處理普通話的復(fù)雜口型和語調(diào)，具有跨語言生成視頻的能力。...

AMD-135M AMD推出的首款小型語言模型

274

AMD-135M是AMD推出的首款小型語言模型（SLM），為特定用例提供性能與資源消耗之間的平衡。基于LLaMA2模型架構(gòu)，在AMD Instinct MI250加速器上訓練，基于670億個token，AMD-135M分為兩...