Emu3是由北京智源人工智能研究院推出的一款原生多模態世界模型,采用智源自研的多模態自回歸技術路徑,在圖像、視頻、文字上聯合訓練,使模型具備原生多模態能力,實現圖像、視頻、文字的統一輸入和輸出。Emu3將各種內容轉換為離散符...
-
-
Rope是一款開源的AI換臉工具,基于insightface的inswapper_128模型構建,提供一個用戶友好的圖形界面。用戶通過上傳圖片或視頻,在幾秒鐘內完成換臉操作,效果逼真。...
-
FLUX-Controlnet-Inpainting 是阿里媽媽(Alibaba's Alimama)推出的一款圖像修復工具,融合 ControlNet 和 FLUX.1-dev 技術。工具根據用戶指定的掩碼區域進...
-
PearAI 是一個開源的 AI 驅動的代碼編輯器,基于 Visual Studio Code (VSCode 開發。PearAI 集成AI技術,減少編程工作量提高開發效率。PearAI 支持開發者直接與代碼庫對話,提出問...
-
EzAudio是由約翰霍普金斯大學和騰訊AI實驗室共同推出的一款文本到音頻(Text-to-Audio, T2A)生成模型。基于一種高效的擴散變換器技術,用在從文本提示生成高質量的音頻效果。...
-
GraphReasoning是一種基于人工智能技術將大量科學論文轉換成知識圖譜的方法。通過結構化分析,計算節點度、識別社區及其連通性,評估關鍵節點的中心性,來揭示知識的架構。方法基于圖的屬性,如傳遞性和同構性,來發現跨學科的...
-
Comic Translate 是一個開源的漫畫翻譯工具,由開發者 ogkalu2 推出。幫助用戶自動翻譯全球各地的漫畫,支持英語、韓語、日語、法語、簡體中文、繁體中文、俄語、德語、荷蘭語、西班牙語和意大利語等多種語言。...
-
SafeEar是由浙江大學和清華大學聯合開發的AI音頻偽造檢測框架,保護用戶隱私的同時檢測音頻偽造。采用基于神經音頻編解碼器的解耦模型,分離語音的聲學信息和語義信息,用聲學信息進行檢測,有效防止隱私泄露。...
-
PDF2Audio 是一個開源工具,能將 PDF 文檔轉換成音頻內容,適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本,通過文本到語音技術轉化為音頻。...
-
美圖奇想大模型(MiracleVision)是美圖公司推出的一款AI視覺大模型,專注于美學創作,包括東方美學、人像和商業設計等。模型完成了視頻生成能力的全面升級,能生成1分鐘、每秒24幀、1080P分辨率的高質量視頻,顯著提...










