SmolLLM2是Hugging Face推出用在設備端應用的緊湊型大型語言模型,提供1.7B、360M、135M三個不同參數級別的模型,適應不同的應用場景和資源限制。模型在理解和執行指令、進行知識推理及解決數學問題方面表現...
-
-
MobileLLM是Meta為移動設備用例優化設計的十億參數以下的大型語言模型,能解決云成本上升和延遲問題。MobileLLM基于深薄架構、嵌入共享和分組查詢注意力機制等設計,實現在參數少于十億的情況下獲得高質量的語言模型。...
-
Genmoai-smol是開源視頻生成模型,是Genmoai的txt2video模型的工作進展分支,專為單GPU設備優化,減少顯存占用,在資源有限的設備上能進行視頻創作。模型用高保真度的運動和強大的提示遵循能力而聞名,顯著縮...
-
夸克靈知是夸克公司全新推出的智能學習學習大模型,具備博士生級別的推理能力。基于AI技術為用戶提供分步驟題目講解,能隨時回答問題。在考研數學等題目的正確率和得分率上,夸克靈知大模型已經能與OpenAI的o1模型相媲美,遠超國內...
-
Voice Changer是Cartesia推出的新模型,能將任何音頻剪輯的語音轉換成其他音色,且保留原始音頻的情感和表達。用戶從Cartesia提供的多種高質量聲音庫中選擇,或克隆自己的聲音,且完全控制語音的細節,如發聲、...
-
Oasis是Decart和Etched合作推出的革命性AI技術,是世界上首個實時AI世界模型,能以每秒20幀的速度實時生成交互式視頻內容,且無延遲。Oasis開啟“生成式交互體驗”的新紀元,支持用戶基于文字或語音命令控制游戲...
-
HOVER是英偉達推出的1.5M小模型,全稱為“Humanoid Versatile Controller”,即人形機器人的多功能全身神經通用控制器。模型用150萬參數實現對機器人復雜動作的控制,能適應多樣任務如導航、桌面操...
-
NotebookMLX是開源版本的NotebookLM,集成NotebookLlama的功能,能將PDF文檔轉換成易于理解和分享的音頻播客形式。項目基于MLX技術實現自然語言處理功能,包括PDF預處理、制作播客文本、文本重寫...
-
DreamVideo-2是創新的零樣本視頻定制框架,是復旦大學和阿里巴巴集團等機構聯合推出。DreamVideo-2能根據單一圖像和界定框序列生成具有特定主題和精確運動軌跡的視頻,無需在測試時進行微調。框架用參考注意力機制學...
-
EMMA是Waymo基于Gemini模型推出的端到端自動駕駛多模態模型,能將原始相機傳感器數據直接映射到駕駛特定輸出,如規劃軌跡、感知對象和道路圖元素。EMMA將非傳感器輸入和輸出表示為自然語言文本,用預訓練大型語言模型的世...










