一区二区三区欧美亚洲,日本女人一区二区三区,亚洲成人三区

Emu3 北京智源推出的統一輸入與生成多模態模型

228

Emu3是由北京智源人工智能研究院推出的一款原生多模態世界模型，采用智源自研的多模態自回歸技術路徑，在圖像、視頻、文字上聯合訓練，使模型具備原生多模態能力，實現圖像、視頻、文字的統一輸入和輸出。Emu3將各種內容轉換為離散符...

400

Rope是一款開源的AI換臉工具，基于insightface的inswapper_128模型構建，提供一個用戶友好的圖形界面。用戶通過上傳圖片或視頻，在幾秒鐘內完成換臉操作，效果逼真。...

512

FLUX-Controlnet-Inpainting 是阿里媽媽（Alibaba's Alimama）推出的一款圖像修復工具，融合 ControlNet 和 FLUX.1-dev 技術。工具根據用戶指定的掩碼區域進...

587

PearAI 是一個開源的 AI 驅動的代碼編輯器，基于 Visual Studio Code (VSCode 開發。PearAI 集成AI技術，減少編程工作量提高開發效率。PearAI 支持開發者直接與代碼庫對話，提出問...

518

EzAudio是由約翰霍普金斯大學和騰訊AI實驗室共同推出的一款文本到音頻（Text-to-Audio, T2A）生成模型。基于一種高效的擴散變換器技術，用在從文本提示生成高質量的音頻效果。...

349

GraphReasoning是一種基于人工智能技術將大量科學論文轉換成知識圖譜的方法。通過結構化分析，計算節點度、識別社區及其連通性，評估關鍵節點的中心性，來揭示知識的架構。方法基于圖的屬性，如傳遞性和同構性，來發現跨學科的...

391

Comic Translate 是一個開源的漫畫翻譯工具，由開發者 ogkalu2 推出。幫助用戶自動翻譯全球各地的漫畫，支持英語、韓語、日語、法語、簡體中文、繁體中文、俄語、德語、荷蘭語、西班牙語和意大利語等多種語言。...

277

SafeEar是由浙江大學和清華大學聯合開發的AI音頻偽造檢測框架，保護用戶隱私的同時檢測音頻偽造。采用基于神經音頻編解碼器的解耦模型，分離語音的聲學信息和語義信息，用聲學信息進行檢測，有效防止隱私泄露。...

311

PDF2Audio 是一個開源工具，能將 PDF 文檔轉換成音頻內容，適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本，通過文本到語音技術轉化為音頻。...

415

美圖奇想大模型（MiracleVision）是美圖公司推出的一款AI視覺大模型，專注于美學創作，包括東方美學、人像和商業設計等。模型完成了視頻生成能力的全面升級，能生成1分鐘、每秒24幀、1080P分辨率的高質量視頻，顯著提...